Körber Digital Connyun

Sven Warnke, Data Scientist bei Körber Digital, vor einer grafischen Datenauswertung. - Bild: Körber Digital

Aktualisiert am: 09. Mai. 2019

Datensätze sind ein wenig wie Bücher: Von außen betrachtet lässt sich nicht beurteilen, wie gut sie sind – und ihre Autoren haben nach jahrelanger Arbeit die kritische Distanz zum Endergebnis verloren. Man muss sie also selbst lesen, um ihre Qualität überprüfen zu können.

Allerdings gibt es bei Datensätzen keine festen grammatischen Regeln, die das Lesen (und Finden von Fehlern) erleichtern. Und genau hier zeigt sich eine große Herausforderung für jeden Data Scientist: Er muss zu Beginn eines jeden Projektes, an dessen Ende neues Wissen im Unternehmen steht, die Datenqualität umfassend prüfen und zugleich die Regeln für diese Qualität festlegen.

Von der Kuh zur Datenqualität

Wie kann man sich das genau vorstellen und wann ist die Datenmenge sowie -qualität ausreichend? „Zunächst einmal muss man einen Bezug zwischen den Daten und der praktischen Anwendung herstellen. Sonst kann man die Zahlen kaum verstehen“, sagt Sven Warnke, IoT Engineer Data Science bei Körber Digital.

Er erklärt das Thema eindrücklich anhand eines praktischen Anwendungsbeispiels: Für einen Hersteller von Melkrobotern haben die Spezialisten einen Machine-Learning-Algorithmus entwickelt, mit dessen Hilfe die Gesundheit der gemolkenen Kühe bewertet wird. Dazu misst ein Sensor zunächst Milchtemperatur, Milchmenge und Leitfähigkeit der Milch. Anhand dieser Daten lässt sich wiederum (mithilfe des Algorithmus) die sogenannte Zellzahl in der Milch bestimmen – und genau das ist ein wichtiger Indikator für eine Entzündung am Euter.   

Am Anfang dieser Entwicklung standen allerdings Hürden bei der Prüfung der vorhandenen Datenqualität. Der Hersteller des Melkroboters verfügte über viele Sensormessungen und zudem über diverse Labortestergebnisse zur Milch. „Ein typischer erster Schritt ist in so einem Fall, dass wir diese Daten zunächst einmal plotten – sie also in einer Grafik darstellen. Man kann dann häufig schon erste Lücken oder überraschende Ausreißer erkennen“, so Warnke.

Auch im Fall der Milch-Sensordaten bemerkte der Data Scientist von Körber Digital einige Besonderheiten. So zeigte sich regelmäßig ein unerklärlicher Anstieg der Milchtemperatur auf rund 40 Grad. Eine Nachfrage beim Hersteller bestätigte den Verdacht, dass in diesen Fällen der Melkroboter mit warmem Wasser gereinigt wurde. Es handelt sich also um Stördaten, die die Analyse behindern und deswegen entfernt werden sollten.

Hypothesen zu den Daten aufbauen

Entscheidend für die Bewertung der Datensätzen waren zudem die Vergleichswerte aus dem Lebensmittellabor. „Sie funktionieren wie eine Referenz. An ihnen kann man ablesen, welche Werte bei kranken beziehungsweise gesunden Kühen auftreten“, erklärt Warnke, der in diesem Zusammenhang allerdings auf weitere Herausforderungen traf. So zeigte sich etwa, dass die Milch-Messungen des Sensors äußeren Schwankungen unterliegen – je nachdem, wieviel Bewegung die Kuh in letzter Zeit bekommen hat oder welches Futter sie erhalten hat.

Selbst die Abstände der „Viertel“ untereinander (so nennen Experten die einzelnen Milchdrüsen am Euter) spielen für die Messergebisse eine Rolle. Es wurde also deutlich, dass man die Melkungen nicht isoliert betrachtet darf, sondern die verschiedenen Messungen vergleichen und darauf aufbauend erste Hypothesen zur Datenmodellierung aufbauen muss – der nächste Schritt im iterativen Data-Science-Prozess.

Aber wie typisch ist dieser Beispielfall für die Arbeit der Data Science? „Vieles davon kommt in ähnlicher Weise immer wieder vor“, sagt Warnke. „Wir müssen jeden neuen Datensatz verstehen und seine Qualität prüfen, bevor die Datenmodellierung und die Entwicklung eines Machine-Learning-Modells starten kann. Dass es einen Reinigungsvorgang am Melkroboter gibt, hat uns zu Beginn des Projektes keiner gesagt. Die Klärung solcher Datenausreißer ist Teil unserer Arbeit. Wir entwickeln zusammen mit dem Datenverständnis ein umfassendes Problemverständnis.“

Anschließend starten weitere Schritte des iterativen Data-Science-Prozesses – zunächst die Daten-Modellierung. Lesen Sie demnächst mehr dazu im dritten Teil dieser Data-Science-Artikelreihe.