Mehrwertpotenzial: Warum man sich dringend unstrukturierte Daten ansehen sollte

Oct. 08, 2020

Die Basis eines datengetriebenen Unternehmens sind … Daten! Viele davon sind jedoch unstrukturiert und machen eine effektive Verwertung schwer. Doch es gibt Methoden, diesen Schatz zu heben

 

Unstrukturierte Daten sind ungenutztes Potenzial

Vielen ist inzwischen klar, dass Daten wertvoll sind, um Prozesse zu optimieren und Entscheidungen besser zu treffen - also generell Mehrwerte zu schaffen. Tagtäglich werden in Unternehmen viele dieser Daten produziert und angesammelt, jedoch kaum weiterverarbeitet, denn die Mehrheit davon ist unstrukturiert. Dafür sind sie eigentlich zu wertvoll: Mit den richtigen Machine Learning Ansätzen kombiniert, bergen sie relevante Informationen für Automatisierung und Entscheidungsfindung. Mithilfe von Text Mining, Text Classification, Entity Extraction oder OCR (Optical Character Recognition) können unstrukturierte Daten nutzbar gemacht werden.

 

Fast 80% der im Unternehmen anfallenden Daten sind unstrukturiert. Sie werden fast nicht genutzt, da der Aufwand zu hoch erscheint – das bedeutet viel verschenktes Potenzial.

 

Strukturierte Daten lassen sich effizient verwenden

Die Menge und Vielfältigkeit der möglichen Daten eines Unternehmens sind schier unbegrenzt. Die wenigsten davon sind strukturierte Daten, die beispielsweise entstehen, wenn Sensormessungen abgespeichert werden, wenn Systeme Benutzeraktionen loggen oder wenn in Excel-Tabellen Berechnungen ausgeführt werden. Diese Daten haben gemeinsam, dass sie sich gut in Tabellenform darstellen lassen. Eine Zeile beschreibt dabei meist eine Einheit (zum Beispiel eine Sensormessung). Die Spalten stehen für Eigenschaften dieser Messung wie Zeitpunkt, Messwert und Gerätename.
Durch diese strukturelle Einteilung in Zeilen und Spalten können Machine-Learning-Algorithmen Beziehungen zwischen den verschiedenen Spalten aufdecken, Muster extrahieren oder Trends erkennen.

Unstrukturierte Daten dagegen sind solche, die nicht in einer formalisierten Struktur vorliegen. Das bedeutet, sie lassen sich nicht ohne Weiteres in Tabellenform abspeichern. Dazu zählen unter anderem Texte, aber auch Bilder, Videos, Sprachnachrichten oder Präsentationen. Um von Computern interpretiert zu werden, müssen diese Daten zunächst in strukturierte Informationen umgewandelt werden. Dafür ist viel sogenanntes Domain-Wissen notwendig: Wie wurden die Daten generiert? Wie sind sie zu verstehen? Welche Eigenschaften sind für die spätere Aufgabe wichtig? Und wie können sie extrahiert werden?

Diese Umwandlung bedeutet zwar mehr Aufwand, lohnt sich allerdings am Ende: Sind die Daten erst einmal in der richtigen Form, können sie zusammen mit den strukturierten Daten in automatisierten Prozessen, Auswertungen oder Machine-Learning-Modellen weiterverwendet werden, oder die Grundlage für ganz eigene Modelle bilden.

Data_Science_Machine_Learning_1200px

 

Vom Chaos zur Ordnung mit Machine Learning

Mit den richtigen Machine-Learning-Verfahren gelingt die Transformation von unstrukturierten in strukturierte Daten schnell und effizient. Grundlage dafür bilden in der Vergangenheit händisch extrahierten Informationen, die für die ML-Modelle mit den ursprünglichen Dokumenten verknüpft werden.

Ein Beispiel: Per Chat eingehende Beschwerden wurden in der Vergangenheit von einem Menschen als „Fälle zur Weiterverarbeitung“ in einem System abgelegt und dokumentiert. Dabei wurden Felder für „Produkt“ und „Dringlichkeit“ ausgefüllt. Diesen Prozess kann man sich als "manuelle" Transformation von unstrukturierten Daten (Chat-Text) in strukturierte vorstellen (Datenbanksystem). Mithilfe von Machine Learning, wie beispielsweise tooka.ai es zur Verfügung stellt, werden diese "alten" Fälle nun mit neuen Anfragen kombiniert. Die relevanten Informationen werden zukünftig automatisch extrahiert und können in maschinenlesbarer Form weiterverwendet werden. Die zuvor manuelle und zeitaufwändige Transformation wird automatisiert und gleichzeitig für weitere Datenquellen verfügbar gemacht. So könnten, um in dem Beispiel zu bleiben, auch E-Mails mit dem gleichen Verfahren im Datenbanksystem eingetragen werden.

 

ML-Verfahren helfen beim Erkenntnisgewinn

Das genannte Beispiel zeigt einen Anwendungsfall der Entity Extraction. Inhaltliche Einheiten (oben genannt waren Produkte) werden im Kontext erkannt und abgespeichert.
Das Erkennen der Dringlichkeit einer Chat-Nachricht ist da schon schwieriger. Manchmal steht ein Vermerk direkt in der Nachricht, manchmal sind andere Hinweiswörter oder bestimmte Satzzeichen vorhanden, um die Dringlichkeit einer Nachricht zu bestimmen. Diese Einteilung übernehmen sogenannte Text-Classification-Verfahren.
Außerdem wird Text Mining dafür genutzt, statistische Informationen aus Texten zu erstellen. In welcher Nachbarschaft ist ein bestimmtes Wort häufig zu finden? Wie lang und wie komplex sind die Sätze in diesem Dokument? Diese Fragen können mit Text Mining beantwortet werden.
Handelt es sich bei den Dokumenten gar nicht um Texte, sondern um PDFs, Scans oder Bilder, kommt die Optical Character Recognition (OCR) zum Einsatz. Neuronale Netze, speziell trainiert auf die Erkennung von Buchstaben in Bildern, wandeln Pixel in Buchstaben und dann in Texte um. Damit können sie leichter weiterverarbeitet werden.

 

Fazit

Es gäbe keine „datengetriebenen Unternehmen“, wenn der Wert von Informationen als Währung nicht offensichtlich wäre. Die Tatsache, dass ein Teil dieser Währung gar nicht genutzt wird, behindert direkt den Erfolg von Unternehmen. Die Aufgabe, auch die unstrukturierten Daten eines Unternehmens nutzbar zu machen, muss daher schnellstmöglich angegangen werden – die Technologie dazu existiert.

Larissa Haas

Ihr Ansprechpartner: Larissa Haas

Larissa Haas arbeitet als Data Scientist bei der sovanta AG. Sie fokussiert sich auf das Themengebiet Natural Language Processing und hilft, Chatbots immer intelligenter werden zu lassen sowie lästige Aufgaben mithilfe von Künstlicher Intelligenz zu automatisieren.