Einsatzpotenzial von support vector machines (SVM)-Klassifikation für Scoring-Fragestellungen im Database-Marketing
Autoři
Více o knize
AuszugIm Rahmen des Database Marketing kommt der Zielgruppenselektion seit Langem eine zentrale Bedeutung zu. Praktisch alle statistischen Verfahren und Algorithmen des Data Mining haben hier bereits ihre Anwendung gefunden. Mit dem Aufkommen immer leistungsfähigerer Hardware steht weniger Komplexität, sondern Genauigkeit und Verlässlichkeit in der Anwendung im Mittelpunkt des Interesses. Mit sogenannten „Margin Classifiers„, insbesondere den Support Vector Machines (SVM), hat eine neue Gruppe von Verfahren etwa um die Jahrtausendwende die Anwendungsreife erlangt. Langjährige Erfahrung zeigt aber, dass sich die Praxistauglichkeit unter Bedingungen des Alltags oft ganz anders darstellt und von ganz anderen Erfolgsfaktoren getrieben wird als die Entwicklung. In der vorliegenden Arbeit untersucht der Autor daher ein bei einem großen Zeitschriftenverlag in all seinen Phasen realisiertes Projekt zur Kündigungsvermeidung. Es ist gekennzeichnet durch eine große, mehrere 100.000 Einträge umfassende Kundendatenbank. Unerfreulich – aber für viele Branchen typisch – ist andererseits die Tatsache, dass die allermeisten Felder (Adresswechsel, Abbuchungserlaubnisse etc.) nur sehr indirekt mit künftigem Kundenverhalten zu tun haben. Die Integration aller Informationsfacetten im Rahmen multivariater Analysen ist daher zentral, ebenso hohe Vorhersagegenauigkeit, wenn das Projekt überhaupt die Gewinnschwelle nehmen soll. Insgesamt liegt also als Testfall ein klassisches Problem des Database Marketing von hohem Schwierigkeitsgrad vor. Die angestellten Untersuchungen lassen sich von der Idee leiten, nicht besonders trickreiche, genau auf die Spezifika des Falls angepasste Lösungen zu erstellen, sondern ein allgemeines Vorgehensmodell für die Datenvorverarbeitung und die Auswertung mittels SVM zu entwickeln. Durch den Einsatz genetischer Algorithmen wird dem Benutzer die ansonsten sehr schwierige und nur nach langer Erfahrung lösbare Aufgabe der Einstellung aller kritischen Parameter abgenommen. Im geschilderten Anwendungsfall kann die Überlegenheit dieses Vorgehens gegenüber allen gängigen Alternativen (wie AID-Verfahren oder logistischer Regression) konsistent nachgewiesen werden. Gegenüber dem „best-of-breed“ Verfahren (meist Neuronalen Netzen) mag der Genauigkeitsvorteil manchmal gering sein. Schwer wiegt jedoch die Fähigkeit, stets verlässlich gute Lösungen bei gut prognostizierbarem Aufwand zu produzieren. Gerade in diesem Punkt schneiden Neuronale Netze oft katastrophal schlecht ab. Insgesamt gesehen wird somit sowohl der SVM-Forscher wie der Marketing-Verantwortliche im Unternehmen von diesem Werk profitieren. Der Erste erhält empirisches Material, das unter real-life-Bedingungen und an sehr großen Datenmengen gewonnen wurde. Der Praktiker wird mit dem abgeleiteten Vorgehensmodell rasch und vollständig zur Anwendung von SVM gelangen, wobei die Leistungsfähigkeit Freier Software an dieser Stelle überzeugend nachgewiesen wird. Für den raschen Einstieg in den gesamten Problemkreis des Data Mining wird er dabei auch gerade die ersten Kapitel nützlich finden, die – nahezu einmalig im deutschsprachigen Raum – einen kompakten Überblick über alternative Verfahren geben.