Industrielle Bildverarbeitung bei der Firma Unibap

Industrielle Bildverarbeitung taucht in die Tiefe Neuronaler Netze. - Bild: Unibap

| von Sabine Spinnarke

Eine junge Frau mit dunklem Wuschelhaar hält ihr Handy an den Scanner des Drehkreuzes und tritt in den hellen Supermarkt. Aus Regalen mit einladend angeordneten Snacks nimmt sie sich im Vorbeigehen ein Getränk und eine Plastikbox mit Salat, lässt beides in ihrer Tasche verschwinden und eilt aus dem Geschäft. "Just walk out", so nennt Amazon das Geschäftsprinzip ihrer neuen Amazon-Go Supermärkte.

Hinein und hinaus, einkaufen ohne Kontrolle, Kasse und Personal, wann immer man Zeit und Lust hat. Seit Anfang des Jahres hat Amazon in Seattle die Türen, oder vielmehr die QR-Schleusen, für die eigenen Angestellten geöffnet. Bildverarbeitung, Sensor Fusion und Deep Learning Algorithmen im Hintergrund sorgen dafür, dass die Kasse stimmt und der Kunde sich optimal bedient fühlt.

Unternehmen wie Apple, Google und Tesla forschen und experimentieren seit Jahren in diesem Bereich. Die persönlichen Assistenten der Smartphone-Hersteller, Spracherkennungsprogramme und selbstfahrende Autos, sind das Ergebnis ihrer Bemühungen.

Revival der Neuronalen Netze

Nicht nur im Silicon Valley arbeiten Ingenieure fieberhaft an Deep Learning Methoden, auch in der industriellen Fertigung nimmt das Thema langsam Fahrt auf. Erste Anbieter von Bildverarbeitungssystemen sammeln Erfahrung in der Automatisierung, Logistik und Qualitätskontrolle.

Die Schweizer Firma ViDi (seit April 2017: Cognex) etwa. "Wir haben Kunden in der Uhrenindustrie, der Logistik und einen Milchproduzenten", berichtet CTO Dr. Reto Wyss. In Schweden ist es Unibap, ein von den Zeitungen Nyteknik und Affärsvärlden als eines der vielversprechendsten schwedischen Tech Start-ups bezeichnetes Unternehmen. Auch sie nutzen Deep Learning Algorithmen, um Objekte zu identifizieren und Roboter zu führen.

"Wir haben ein fertiges Produkt, Industrieerfahrung und erste Kunden", sagt Prof. Lars Asplund, der an der Universität Mälardalen Informatik unterrichtet. Er ist Gesellschafter der Unibap, CEO von Robyn Robotics AB und CEO von Asplund Data AB. Er spricht von einem Revival der Neuronalen Netze.

Doch wie gut das Zusammenspiel zwischen Sensorik, Bildverarbeitung und Künstlicher Intelligenz im Hintergrund des Amazon-Go Supermarktes wirklich funktioniert, ist zum jetzigen Zeitpunkt nicht bekannt. "Bitte haben Sie Verständnis, dass wir derzeit über diese Innovation keine weiteren Details kommunizieren können, wir sind noch in der Entwicklung!", heißt es seitens des Amazon-Pressevertreters. Zweifel an der Marktreife der Bildverarbeitungssysteme in der Industrie hat auch Michael Salzwedel, Solutions Engineering, Machine Vision bei Sick.

Deep Learning allein noch nicht umsetzbar

Es würde wohl noch Jahre dauern, bis Bildverarbeitung mit lernenden Algorithmen in der Industrie sinnvoll eingesetzt werden könnten. "Ich kenne kein Bildverarbeitungssystem in der Qualitätssicherung, das heute allein auf Deep Learning basiert."

Dass Algorithmen entscheiden können, welche Produktfehler noch als akzeptabel gelten, welche nicht, hält Salzwedel derzeit ohne die Vorgaben von sachkundigen Experten nicht für realisierbar. "Woher soll denn das System wissen, was Qualitätsingenieure als gut, was als schlecht betrachten?", meint der Ingenieur.

Deep Learning für die Industrie

Forscher kämpfen schon seit Jahrzehnten mit der Realisierung von neuronalen Netzen - einem Bestandteil der künstlichen Intelligenz. Die nötige Rechenleistung war lange ein großes Hemmnis. Das hat sich geändert und der Welt einen regelrechten Deep Learning Boom beschert. "Das Thema wurde bisher vor allem akademisch heiß gekocht, doch mittlerweile kommt es so langsam in der Industrie an", so Wyss. Mit der heute verfügbaren Rechenleistung sei es möglich, Bilder in Millisekunden zu analysieren.

Wie funktioniert Deep Learning?

Deep Learning bezeichnet eine Klasse von Optimierungsmethoden von künstlichen neuronalen Netzen, welche zahlreiche Zwischenlagen zwischen Eingabeschicht und Ausgabeschicht haben und dadurch eine umfangreiche innere Struktur aufweisen.

In Erweiterung der Lernalgorithmen für Netzstrukturen mit sehr wenigen oder keinen Zwischenlagen, wie beim einlagigen Perzeptron, ermöglichen die Methoden des Deep Learnings auch bei zahlreichen Zwischenlagen einen stabilen Lernerfolg. (Wikipedia)

In den 40er Jahren entstanden die ersten Neuronalen Netze. In den 70er Jahren der erste Lernalgorithmus (Paul Werbos, Backpropagation-Algorithmus).

Je nach Aufgabenstellung sind Künstliche Neuronale Netze (KNN) unterschiedlich aufgebaut. Gemein ist allen, dass sie vor dem Beginn ihrer eigentlichen Aufgabe erst einmal 'trainiert' werden müssen. Dazu nutzt man Lernverfahren wie etwa das Deep Learning. Innerhalb dieser Phase können bestimmte Neuronen-Verbindungen gelöscht oder verstärkt werden. Geeignete Problemstellungen finden sich in der Bild- oder Texterkennung und der Regelungstechnik.

Nachteile der KNN sind ihre häufig langwierigen Trainingsphasen, Optimierungsprobleme und Überanpassung.

Google und Facebook sind in der Entwicklung ihrer KNN schon sehr weit. In KNN mit bis zu 40 Schichten sucht die Google Software nach Konturen, Ecken und Kanten, dann nach zusammenhängenden Gebilden und Körpern. Am Schluss bildet sie aus der Summe der Informationen wieder ein Gesamtbild.

Wie es zu Fehlinterpretationen kommt, konnten die Forscher bislang noch nicht zur Gänze erklären. Doch soviel weiß man: die Traumbilder hängen wohl mit Rückkopplungsschleifen zwischen den Layern zusammen. Fehlinterpretationen, die sich die KI in vorangehenden Schichten gemacht hat, bekräftigen und verstärken die folgenden.

Lernen anhand von Erfahrungswerten

Google DeepDream Generator
Deep Dreaming statt Deep Learning? Wirre Zerrbilder entstehen, wenn die Deep Learning Algorithmen einmal verrückt spielen. Bild: Mechatronic Solutions, Google DeepDream Generator

Doch wie kann das Tool ViDis selbstständig entscheiden, ob kleine Abweichungen auf Deckeln oder Etiketten des Joghurtbechers oder des Sahnebehälters noch akzeptabel sind oder nicht?

Um die Funktionsweise der Technologie zu erklären, muss Wyss ausholen: "Zwischen Computer und Mensch gibt es eine Diskrepanz, was die Beurteilung von optischen Informationen angeht." Der PC müsse erst einmal jede Anomalie, jeden Fehler gezeigt bekommen.

Neu auftretende Abweichung, könne er nicht einordnen. "Der PC weiß nicht, ob es sich um ein neues Etikett handelt, oder um einen Fehler.

Meine kleine Tochter hingegen ist in der Lage, ein Haus zu erkennen, auch wenn sie das Haus in der Form noch nie gesehen oder erklärt bekommen hat." Sobald ein Mensch genügend Häuser und Bilder von Häusern gesehen hat, kann er selbstständig entscheiden, in welchen Spielarten Häuser vorkommen können.

Beim Deep Learning ist es ähnlich. Das System lernt, wie ein Kind, anhand von Erfahrungswerten. Entsprechend spielt also die Anzahl der zuvor gesehenen Beispiele eine große Rolle.

Kleine Box auf weißem Roboterarm: 3D-Bildverarbeitung, räumliches Sehen und Deep Learning Prozesse laufen in ihr
Die kleine Box auf dem Roboterarm hat es in sich: 3D-Bildverarbeitung, räumliches Sehen und Deep Learning Prozesse laufen in ihr. - Bild: Unibap

Unibap schulte das Vision-System 'IVS 70' darin, Werkzeuge und Werkstücke zu erkennen, um damit einen Roboter auch außerhalb fester Bahnen führen zu können. "Wir gewinnen Zeit und brauchen weder einen festen Aufbau, noch aufwendige Programmierung", sagt Prof. Asplund.

Ursprünglich musste der Roboter anhand von Koordinaten und Bahnen programmiert werden und konnte anschließend nur in einem festen Aufbau seine Arbeitsaufgaben erfüllen. Unibap schenkte dem Roboter sozusagen die Seh- und Denkfähigkeit: "Die Vision Sensoren sind die Sinne des Roboters, das Zusammenspiel zwischen Ein- und Ausgabe und Deep Learning geben ihm planerische Kompetenz und mit dem Arm agiert er."

Deep Learning Tools im Einsatz

Die Deep Learning Tools 'SodaVision' und 'SuperVision der Schweizer ViDi werden in der Endkontrolle eines Milchherstellers eingesetzt. "Da unterschiedliche Milchprodukte in schnellem Wechsel durch die Endkontrolle laufen, entfallen mit dem Einsatz unserer Tools wertvolle Zeit, die üblicherweise für das Einlernen neuer Produkte eingeplant werden müsste", sagt Wyss.

Um dem System neue Produktvarianten anzutrainieren, seien keine besonderen Qualifikationen nötig. "Jede neue Variante kostet den Operator höchstens fünf Minuten", sagt Wyss.

Noch fehlen der Industrie Erfahrungswerte, doch das wird sich ändern. "Seit einem Jahr spüren wir eine deutliche Zugkraft auf dem Markt", so Wyss.

Unibap geht es ähnlich. In Schweden führen sie Gespräche mit Industrieunternehmen und Deutschland steht als nächstes auf ihrer Agenda. "Wir wenden uns an die Early Adopters, die in Industrie 4.0 mehr sehen als nur ein Wort", sagt der Wissenschaftler.

Sogar der Zweifler Salzwedel ist überzeugt: "Lernende Bildverarbeitung wird kommen, auch in der Industrie, da bin ich mir sicher." Bei Sick jedenfalls arbeitet man daran, Deep Learning in Vision Sensoren umzusetzen.

Deep Learning in der Anwendung

Kalibrieren: Um den Roboter zu kalibrieren, wird das Objekt, das er greifen soll, auf einer magnetischen Unterlage fixiert. Die CAD-Daten des Objekts werden an das Vision System auf dem Roboterarm übertragen. Das Programm generiert daraus eine Punktewolke. Der Roboter weiß grob, wo er das Objekt suchen muss. Und die 3D-Kamera kann eine Aufnahme erstellen.

Anhand der Ecken und Kanten innerhalb dieser Aufnahme kann das Programm die Aufnahme mit der Punktewolke abgleichen. Anschließend kann das System die Position des Objekts exakt errechnen. Der Roboterarm lässt sich so genauer kalibrieren, als ein Robotercontroller das je schaffen könnte.

Deep Learning: Das System weiß nun, wo das zu bearbeitende Objekt, zum Beispiel ein Motorblock, liegt. Um weiterarbeiten zu können, muss er nun verschiedenartige Objekte in diesem oder ähnlichen Szenarien finden und identifizieren können, das schafft er mithilfe von Deep Learning.In einem Offline-Training im Vorfeld hat das System Beispielbilder von allen nötigen Werkzeugen und Werkstücken aufgenommen. Das dauert einige Stunden und kann gut über Nacht geschehen.

Geht es dann in den Betrieb, braucht das System keine externe Hilfe mehr. Das System vergleicht die verschiedenen Bestandteile der aktuellen Kamerabilder Schicht für Schicht mit den Aufnahmen in seiner internen Datenbank und errechnet, um was es sich der größten Wahrscheinlichkeit nach handelt.

Es kann das Objekt, auch wenn es von der Kamera aus unterschiedlichen Winkeln, Richtungen und Abständen aufgenommen wird, korrekt identifizieren. Dieser Prozess kostet hohe Rechenleistung, daher arbeiten FPGA, CPU und GPU die Daten parallel sehr schnell und effizient ab. Im laufenden Betrieb eines von 100 Objekten zu identifizieren, dauert den Bruchteil einer Sekunde, je nach Datenbankgröße.

Der Eintrag "freemium_overlay_form_pro" existiert leider nicht.