Deep Learning, Bildverarbeitung, Automatisierung, Logistik, Qualitätskontrolle, künstliche Intelligenz, Data, Algorithmen, Roboter, Industrie, neural
Deep Dreaming statt Deep Learning? Wirre Zerrbilder entstehen, wenn die Deep Learning Algorithmen einmal verrückt spielen. Google nutzt diesen rätselhaften Effekt und programmierte einen Online Generator, mit dem jeder seine eigenen Zerrbilder schaffen kann. Das ansonsten erfolgreiche Neuronale Netzwerk Googles wurde 2014 unter dem Projektnamen 'ImageNet Large-Scale Visual Recognition Challenge' entwickelt. - Bilder: Mechatronic Solutions, Google DeepDream Generator

Doch wie kann das Tool ViDis selbstständig entscheiden, ob kleine Abweichungen auf Deckeln oder Etiketten des Joghurtbechers oder des Sahnebehälters noch akzeptabel sind oder nicht?

Um die Funktionsweise der Technologie zu erklären, muss Wyss ausholen: "Zwischen Computer und Mensch gibt es eine Diskrepanz, was die Beurteilung von optischen Informationen angeht." Der PC müsse erst einmal jede Anomalie, jeden Fehler gezeigt bekommen.

Neu auftretende Abweichung, könne er nicht einordnen. "Der PC weiß nicht, ob es sich um ein neues Etikett handelt, oder um einen Fehler.

Meine kleine Tochter hingegen ist in der Lage, ein Haus zu erkennen, auch wenn sie das Haus in der Form noch nie gesehen oder erklärt bekommen hat." Sobald ein Mensch genügend Häuser und Bilder von Häusern gesehen hat, kann er selbstständig entscheiden, in welchen Spielarten Häuser vorkommen können.

Beim Deep Learning ist es ähnlich. Das System lernt, wie ein Kind, anhand von Erfahrungswerten. Entsprechend spielt also die Anzahl der zuvor gesehenen Beispiele eine große Rolle.

Deep Learning, Bildverarbeitung, Automatisierung, Logistik, Qualitätskontrolle, künstliche Intelligenz, Data, Algorithmen, Roboter, Industrie, neural
Die kleine Box auf dem Roboterarm hat es in sich: 3D-Bildverarbeitung, räumliches Sehen und Deep Learning Prozesse laufen in ihr. - Bild: Unibap

Unibap schulte das Vision-System 'IVS 70' darin, Werkzeuge und Werkstücke zu erkennen, um damit einen Roboter auch außerhalb fester Bahnen führen zu können. "Wir gewinnen Zeit und brauchen weder einen festen Aufbau, noch aufwendige Programmierung", sagt Prof. Asplund.

Ursprünglich musste der Roboter anhand von Koordinaten und Bahnen programmiert werden und konnte anschließend nur in einem festen Aufbau seine Arbeitsaufgaben erfüllen. Unibap schenkte dem Roboter sozusagen die Seh- und Denkfähigkeit: "Die Vision Sensoren sind die Sinne des Roboters, das Zusammenspiel zwischen Ein- und Ausgabe und Deep Learning geben ihm planerische Kompetenz und mit dem Arm agiert er."

Deep Learning Tools im Einsatz

Die Deep Learning Tools 'SodaVision' und 'SuperVision der Schweizer ViDi werden in der Endkontrolle eines Milchherstellers eingesetzt. "Da unterschiedliche Milchprodukte in schnellem Wechsel durch die Endkontrolle laufen, entfallen mit dem Einsatz unserer Tools wertvolle Zeit, die üblicherweise für das Einlernen neuer Produkte eingeplant werden müsste", sagt Wyss.

Um dem System neue Produktvarianten anzutrainieren, seien keine besonderen Qualifikationen nötig. "Jede neue Variante kostet den Operator höchstens fünf Minuten", sagt Wyss.

Noch fehlen der Industrie Erfahrungswerte, doch das wird sich ändern. "Seit einem Jahr spüren wir eine deutliche Zugkraft auf dem Markt", so Wyss.

Unibap geht es ähnlich. In Schweden führen sie Gespräche mit Industrieunternehmen und Deutschland steht als nächstes auf ihrer Agenda. "Wir wenden uns an die Early Adopters, die in Industrie 4.0 mehr sehen als nur ein Wort", sagt der Wissenschaftler.

Sogar der Zweifler Salzwedel ist überzeugt: "Lernende Bildverarbeitung wird kommen, auch in der Industrie, da bin ich mir sicher." Bei Sick jedenfalls arbeitet man daran, Deep Learning in Vision Sensoren umzusetzen.

Deep Learning in der Anwendung

Kalibrieren: Um den Roboter zu kalibrieren, wird das Objekt, das er greifen soll, auf einer magnetischen Unterlage fixiert. Die CAD-Daten des Objekts werden an das Vision System auf dem Roboterarm übertragen. Das Programm generiert daraus eine Punktewolke. Der Roboter weiß grob, wo er das Objekt suchen muss. Und die 3D-Kamera kann eine Aufnahme erstellen.

Anhand der Ecken und Kanten innerhalb dieser Aufnahme kann das Programm die Aufnahme mit der Punktewolke abgleichen. Anschließend kann das System die Position des Objekts exakt errechnen. Der Roboterarm lässt sich so genauer kalibrieren, als ein Robotercontroller das je schaffen könnte.

Deep Learning: Das System weiß nun, wo das zu bearbeitende Objekt, zum Beispiel ein Motorblock, liegt. Um weiterarbeiten zu können, muss er nun verschiedenartige Objekte in diesem oder ähnlichen Szenarien finden und identifizieren können, das schafft er mithilfe von Deep Learning.In einem Offline-Training im Vorfeld hat das System Beispielbilder von allen nötigen Werkzeugen und Werkstücken aufgenommen. Das dauert einige Stunden und kann gut über Nacht geschehen.

Geht es dann in den Betrieb, braucht das System keine externe Hilfe mehr. Das System vergleicht die verschiedenen Bestandteile der aktuellen Kamerabilder Schicht für Schicht mit den Aufnahmen in seiner internen Datenbank und errechnet, um was es sich der größten Wahrscheinlichkeit nach handelt.

Es kann das Objekt, auch wenn es von der Kamera aus unterschiedlichen Winkeln, Richtungen und Abständen aufgenommen wird, korrekt identifizieren. Dieser Prozess kostet hohe Rechenleistung, daher arbeiten FPGA, CPU und GPU die Daten parallel sehr schnell und effizient ab. Im laufenden Betrieb eines von 100 Objekten zu identifizieren, dauert den Bruchteil einer Sekunde, je nach Datenbankgröße.