zur Startseite zur Startseite

Einstieg in Text Analytics für SAS Enterprise Guide Anwender

Zusammenfassung

Immer mehr Firmen erkennen das Potential ihrer unstrukturierten Daten in Textform, welche meist nicht in bestehende analytische Umgebungen (z.B. Data Warehouse) integriert sind. 

Mit Hilfe von Text-Analytics-Verfahren ist es möglich, wertvolle Informationen aus Kunden-E-Mails, Call-Center-Notizen oder Vertragsdokumenten automatisch aufzubereiten und in eine Analyseplattform zu integrieren – auf Wunsch mit Berücksichtigung von Informationen aus dem Web. 

Allein – wie fängt man damit an?

Um den Einstieg für Interessierte zu erleichtern, wird anhand des intuitiven Anwenderwerkzeugs SAS Enterprise Guide gezeigt, wie man unstrukturierte Daten einliest und vorverarbeitet, so dass anschließend einfache tabellarische und grafische Auswertungen möglich sind. Es wird auch gezeigt, wie fehlende Funktionalität in Form von externen Java-Bibliotheken eingebunden werden kann.

Behandelte Schritte:

  • Definition der Datenquelle(n)
  • Vereinzelung der Textdaten (Tokenisierung)
  • Einbindung von Stop- und Startwortlisten zur Datenreduktion
  • Wortstammreduktion (Stemming)
  • Erstellung eines Keywords-in-Context Berichts
  • Erzeugung eines Top-50-Keywords Diagramms
  • Export der Ergebnisse

Auf spezialisierte Tools (SAS Text Miner, SAS Enterprise Categorization Studio) wird ebenfalls hingewiesen, die dem geneigten Anwender weitere Möglichkeiten zur Datenanalyse bieten. 

Autor

Johannes Lang, Computerlinguist (M.A.) und Senior Software-Ingenieur bei HMS Analytical Software

Download

Dieser Vortrag wurde auf der KSFE 2012 gehalten.

Download der Vortragsfolien, die zugehörige Langfassung erscheint demnächst hier.