Text Mining – wie vergessene Datenschätze gehoben werden
Alles dreht sich um Daten – Nicht umsonst gehört der Titel‚ Sexiest Job of the 21st Century‘ dem Data Scientist. Wissen aus Daten zu generieren ist heute die Grundlage für unternehmerischen Erfolg in der Welt von Big Data. Und Daten gibt es viele – mehr sogar als den meisten Unternehmen bewusst ist. Tatsächlich sitzen sie auf Datenschätzen, deren Wert zunächst nicht offensichtlich ist: Textdaten, die in ihrer unstrukturierten Form auf den ersten Blick für eine Datenverarbeitung nicht geeignet sind.
Und genau da bietet Text Mining den Ansatz um dieses unterschätzte und ignorierte Datengold an die Oberfläche zu bringen.
Wozu braucht man Text Mining?
Strukturierte Daten machen das Leben eines Data Scientists um einiges leichter. Hierbei handelt es sich meist um numerische Daten, die bereits einer Struktur unterliegen, z.B. einer Tabellenform mit einer Zeile je Datenpunkt und einer Spalte je Variable. Diese können nach vorhergehenden Datenchecks ohne großen Aufwand zur Analyse verwendet werden, da die meisten Algorithmen mit dieser Art der Daten arbeiten. Super z.B. für Transaktionsdaten in einem E-Commerce-Setting, in dem Daten wie Kundennummer, Artikelnummer, etc. direkt schon strukturiert abgebildet werden. Nicht so super z.B. bei tausenden Vertragsdokumenten, die nur als Word-Dateien im Text-Format vorliegen. Wenn man diese Vertragsdokumente inhaltlich analysieren möchte (z.B. um ein Reporting zu erstellen), sitzt entweder ein Praktikant für die nächsten fünf Jahre unglücklich vor dem Computer um diese Informationen händisch zu extrahieren, oder man wendet sich an Text Mining.
Was sind unstrukturierte Daten?
Nicht nur Texte, wie z.B. Verträge, Social-Media-Posts und Blogbeiträge, gelten als unstrukturierte Daten. Audiovisuelle Informationen sind ebenfalls unstrukturiert, auch wenn sie vielleicht transkribiert werden können. Alle diese Daten haben gemein, dass ihr Informationsgehalt nicht geordnet dargestellt ist und damit nur durch Erfahrung interpretiert werden kann. Dazu ist bisher nur der Mensch in der Lage, der aus Worten, Bildern und Geräuschen direkt Informationen extrahieren kann.
Was ist Text Mining?
Zur Datenanalyse braucht es aber strukturierte Daten und diese müssen erst aus den textlichen Daten generiert werden. Unstrukturierte Daten (Fließtext) müssen also zu strukturierten Daten (geordnet dargestellt) verarbeitet werden. Eine Maschine ist dazu aber nicht ohne Vorarbeit so einfach in der Lage. Hier kommt Text Mining ins Spiel. So wird bspw. der Fließtext erst einmal unterteilt in Abschnitte, dann Paragraphen, weiter zu einzelnen Sätzen und schließlich in einzelne Wörter zerlegt. Dann kann die Maschine z.B. analysieren wie häufig ein gewisses Wort pro Dokument vorkommt. In einem Text ist aber nicht jedes Wort relevant und der analytischen Mühe wert. Inhaltslose Füllwörter müssen herausgefiltert und verschiedene Wort-Deklinationen und -Konjugationen auf einen Nenner gebracht werden. So wird der Informationsgehalt eines Fließtexts so weit wie möglich verdichtet, um die Analyse sinnvoll zu vereinfachen.
Zudem hängt der Informationsgehalt und die Relevanz von der jeweiligen Zusammenstellung der Dokumente (Kontext der Analyse) ab. Der Kontext selbst hat aber keinen Informationsgehalt. Beispielhaft erklärt: Bei der Analyse von Blogbeiträgen zum Thema Marketing, hat das Wort ‚Marketing‘ selbst keine große Relevanz, denn es wird wahrscheinlich in jedem Blogbeitrag vorkommen und kann damit nicht zur Differenzierung der Blogbeiträge genutzt werden. In einem Forum über verschiedene Berufsgruppen sieht die Sache schon anders aus. So müssen diese thematisch relevanten aber analytisch belanglosen Wörter auch herausgefiltert werden.
Wurde das alles erfolgreich erledigt, können die übrig gebliebenen, tatsächlich brauchbaren Text-Daten, in numerische Form überführt werden, die dann mit klassischen Data-Mining-Algorithmen ausgewertet werden.
Text Mining in der Praxis
Text Mining kann für eine Reihe an Use Cases verwendet werden – überall dort, wo unstrukturierte Informationen analysiert werden müssen. Eine klassische, einfache Anwendung wäre Information Retrieval: Um Informationen aus einem Text herauszuziehen, z.B. bei Vertragsdaten den ‚Auftraggeber‘, ‚Auftragssumme‘, ‚Projektbeschreibung‘, etc. und diese Informationen geordnet in einer Datenbank abzulegen. Diese können dann für Reportings oder ähnliches verwendet werden.
Interessant ist auch die Document Classification bei der man Dokumente, wie z.B. Initiativbewerbungen, daraufhin analysieren kann, zu welchem Fachbereich sie am besten weitergeleitet werden müssen. Bei einem großen Konzern mit eventuell hunderten Initiativbewerbungen am Tag, ist der manuelle Aufwand für einen Mitarbeiter frustrierend groß. Wenn aber über Text Mining schon klassifiziert werden kann, das Bewerbung X wahrscheinlich eher in den Bereich Research & Development gehört und Bewerbung Y in den Bereich Marketing, erleichtert das die Arbeit ungemein.
Mit Text Mining ungenutztes Potential verwirklichen
Oft sind sich Unternehmen gar nicht bewusst, dass sie auf Daten sitzen, aus denen sie Wissen generieren können. Die Shopping-Historie eines Kunden zu analysieren liegt nahe, denn die Daten sind leicht zugänglich und verwertbar. Text Mining ist zwar aufwändiger, aber der Nutzen kann enorm sein. Es gibt eine Reihe an Use Cases, die nur darauf warten umgesetzt zu werden. Denn der Datenschatz ist da, er muss nur noch an die Oberfläche gebracht werden.
© Titelbild: BillionPhotos.com | www.stock.adobe.com