Big Data: Nothing without Data Quality Management

Big Data: Nothing without Data Quality Management

By | March 1st, 2016

Sascha Kasper,  Director Solution Partners & New Businesses at 1WorldSync, writes on Big Data.

Sascha attended the congress “Big Data in our everyday  life – How is it used today and in the future?” that took place in Dortmund on February 25th.  Read more in German.

Betrachtet wurden auch die Kriterien von Big Data, die sich mit vier V´s beschreiben lassen:

1) Volume: Die Menge an Daten ist hoch und sie wächst rasant.
 2) Velocity: Die Daten sind in ständiger Bewegung und ändern sich schnell.
3) Veracity: Die Daten sind mit starker Unsicherheit behaftet und es liegen viele ungenaue und schwer adressierbare Datentypen vor.

4) Variety:  Die Daten haben viele unterschiedliche Ausprägungen (strukturierte Datenbankdaten, unstrukturierte Daten, Texte in E-Mails oder Online-Zeitungen, Multimediainhalte etc.).

Den Aspekt “Variety” verdeutlicht die Graphik aus dem Vortag von Prof. Engels (Fachhochschule Dortmund). Demnach ist der Anteil von unstrukturierten Daten an der gesamten projizierten Datenexplosion der am stärksten wachsende.  So lag der geschätzte Anteil der unstrukturierten Daten im vergangen Jahr bei 226.716 Petabytes (vgl. http://www.kdnuggets.com/2012/07/data-science-and-prediction-vasant-dhar.html bzw. https://archive.nyu.edu/bitstream/2451/31553/2/Dhar-DataScience.pdf). (Zur Erinnerung: 1 Petabyte gleich 1.000.000 Gigabytes.)

Anstieg unstrukturierter Daten

 

“Big Data geht nicht ohne Strukturierung und ein vernünftiges Maß an Datenqualität”

Obwohl es sich um unstrukturierte Informationen handelt, gilt auch für diese: eine gewisse Ordnung ist von Bedeutung. Auf diese Notwendigkeit hat Christian Fürber in seinem Vortrag hingewiesen, indem er plakativ sagte: “Bevor sich ein Unternehmen mit big data beschäftigt, sollte es vorab eine saubere Datenqualität bei den operativen Daten sicherstellen.” Auf dieser sauberen Grundlage können dann die großen Datenpakete zielgerichtet verarbeitet und vor allem analysiert werden. Das heißt, selbst  Big Data geht nicht ohne Strukturierung und ein vernünftiges Maß an Datenqualität. Und wie lässt sich die gewünschte Qualität der Daten erreichen? “Natürlich”, so führt der Referent weiter aus, “mit einem vernünftigen Datenqualitätsmanagement (DQM).”

Aber nicht nur das Konzept des DQM lässt sich auf Big Data übertragen. Sogar die klassische Datenqualitätsmessung kann darauf angewendet werden. Dies verdeutlicht das Beispiel von Uwe Nadel im Zusammenhang mit Tweets. Ziel ist es, aus den Usernamen der Tweets echte Namen abzuleiten und mit diesen die Kundenstammdaten anzureichern. Allerdings enthalten Tweets meist viele irrelevante Informationen, die mit Hilfe semantischer Methoden zu extrahieren sind. Die Datenqualitätsdimension “Glaubwürdigkeit” lässt sich für diese Tweets zwar nicht genau messen, möglich ist es jedoch mit einfachen Gruppierungen wie “hoch, mittel, niedrig” allgemeine Aussagen aus den Tweets zu filtern und diese bestimmten Kundengruppen zuzuweisen.

Letztlich bedeutet dies: Die klassischen Werkzeuge zur Erreichung einer guten Datenqualität gelten auch im Zeitleiter von Big Data.

Sascha Kasper, Director Solution Partners & New Businesses bei 1WorldSync