Data Mining
Unser Ansatz zu Data Mining
Laut Wikipedia versteht man unter Data Mining "die systematische Anwendung statistischer Methoden auf einen Datenbestand mit dem Ziel, neue Muster zu erkennen." Diese Muster repräsentieren Regelmäßigkeiten, die auf kausale Zusammenhänge zwischen verschiedenen Größen hindeuten, etwa die Häufigkeit der Kündigung eines Versicherungsvertrags in Abhängigkeit von Alter und Geschlecht des Versicherungsnehmers. In der Form eines mathematischen Modells können diese Muster zur Entscheidungsunterstützung herangezogen werden. Eine entsprechende Software wendet das Modell dann auf den Datensatz an, der die aktuelle Fragestellung beschreibt (z. B. die Daten eines Kunden), testet, welche der gefundenen Muster darauf passen und generiert eine Ausgabe, die zur Entscheidungsunterstützung herangezogen werden kann (z. B. die geschätzte Kündigungswahrscheinlichkeit dieser Person).
Folgende Punkte sind dabei wichtig:
- Ausgangspunkt jedes Data Mining-Projekts sind die Trainingsdaten, die in einer repräsentativen Auswahl zur Verfügung stehen sollten. Repräsentativ bedeutet dabei, dass
- alle für die zu bearbeitende Fragestellung relevanten Fälle abgedeckt sind. Konkret bedeutet dies: wenn Fälle der Klassen A, B und C erkannt werden sollen, in den Trainingsdaten C aber nicht vorkommt, wird die erfolgreiche Durchführung des Projekts erheblich erschwert.
- ausreichend viele Attribut-Wert-Kombinationen vorliegen. Wenn es beispielsweise um die Klassifizierung von Kunden geht, die Trainingsdaten aber ausschließlich Frauen unter 40 Jahren und Männer über 50 Jahren enthalten, so werden unrealistische Muster erkannt (es sei denn, die Kundenbasis ist tatsächlich so strukturiert).
- Eine datenbasierte Vorgehensweise bedeutet nicht, dass wir uns mit Ihren Daten zurück ziehen und dann nach einer gewissen Zeit eine Black Box abliefern, die Ihr Problem löst. Vielmehr legen wir großen Wert auf die Interaktion mit den Anwendungsexperten und versuchen, mit deren Hilfe
- die Daten inhaltlich zu verstehen,
- Hintergrundwissen zu erhalten, das bei der Problemlösung hilfreich sein könnte, um dieses explizit in die Daten zu integrieren (wenn beispielsweise zwei Messwerte X und Y vorliegen, die Experten aber wissen, dass lediglich das Verhältnis X/Y relevant ist, sollte sich dieses Wissen auch in den Trainingsdaten wiederfinden),
- Hypothesen zur Problemlösung aufzustellen,
- operationale Erfolgskriterien zu definieren, anhand derer die Qualität des Projektergebnisses beurteilt werden kann.
- Die Qualität einer modellbasierten Lösung zeigt sich natürlich im Alltag. Es existieren jedoch statistische Methoden, anhand derer die zukünftige Performanz eines Modells zuverlässig abgeschätzt werden kann. Die Kreuzvalidierung ist ein solches von uns verwendetes Verfahren, das mit Hilfe Ihrer Daten eine verlässliche Beurteilung der zu erwartenden Systemqualität erlaubt.