Gute Datenqualität bedingt Machine Learning – und umgekehrt
EN | DE

Gute Datenqualität bedingt Machine Learning – und umgekehrt

Von | 29. Oktober 2018

Gute Produktdatenqualität ist heute im FMCG Umfeld wichtiger denn je. Nicht nur, dass schlechte Stammdaten Logistik-Prozesse stören und verteuern, viel wichtiger ist, dass ohne vollständige und gute Produktdaten die Umsätze im E-Commerce Umfeld ausbleiben. Produktdaten entscheiden heutzutage über den Kauf eines Produktes durch den Konsumenten. Lebensmittel ohne vollständige und richtige Nährstoffangaben dürfen online seit Inkrafttreten der LMIV gar nicht mehr verkauft werden.

Leider lässt sich die Datenqualität über statische oder individuell festgelegte Regeln kaum sicherstellen. Es gibt viel zu viele unterschiedliche Produkte mit unterschiedlichen Attributen und Wertebereichen. Niemand kann festlegen wie schwer eine Palette Toilettenpapier sein sollte oder wie viele Kalorien in einem Schokoriegel stecken können, zusätzlich wäre die physische Prüfung der Daten gegen das Produkt aufwändig und teuer.

An dieser Stelle helfen moderne Machine Learning Verfahren aus dem Bereich der künstlichen Intelligenz weiter. Diese Verfahren lernen von vorhandenen Daten. Je mehr Daten eingespielt werden, um das Verfahren zu „trainieren“, desto besser können die Verfahren richtige von falschen Werten unterscheiden. Wurden beispielsweise die korrekten Nährwertangaben von 50 unterschiedlichen Schokoriegeln zum erlernen eines richtigen Kalorien-Wertes verwendet, dann ist das Verfahren genauer als wenn nur 5 Produkte zum lernen vorlagen.

Machine Learning Verfahren können Anomalien und Ausreißer innerhalb einer Produktkategorie erkennen. Was aber nun, wenn die Daten, die zum Lernen verwendet wurden, falsch waren? Trainiert man zum Beispiel das Verfahren auf für die richtige Erkennung der Nährwertangaben für Milch, nutzt dabei aber zum Lernen auch Produkte wie Bananen-Milch oder Soja-Milch, dann wird am Ende die Erkennung von falschen Zuckerwerten unmöglich.

Machine Learning Verfahren helfen also, für beliebige Produktkategorien richtige von falschen Werten zu unterscheiden, wichtig ist aber, dass die Daten, die zum Training der Verfahren verwendet wurden, in ausreichender Menge vorhanden sind und bereits eine hohe Qualität haben.