Clustern mit Hintergrundwissen
Autoři
Více o knize
Mit der immer größer werdenden Menge von Textdokumenten durch das WWW und Dokument-Management-Systeme stellt das automatische und effiziente Berechnen von Clustern ein immer wichtigeres Mittel zur Strukturierung von sehr großen Dokumentsammlungen dar. Auch im Customer-Relationship-Management bzw. Marketing werden Clusterverfahren zur Kundensegmentierung eingesetzt. Die Clustergüte der verfügbaren Clusterverfahren ist nicht immer zufriedenstellend und die Ergebnisse sind häufig schwer verständlich. In diesem Buch werden drei neu entwickelte Methoden zur Lösung dieser Fragestellungen unter Verwendung von formal repräsentiertem Hintergrundwissen in Form von Ontologien beim Clustern vorgestellt: Subjektives Clustern berechnet benutzerbezogene Cluster bei gleichzeitiger Dimensionsreduktion. Der Anwender kann dabei aus mehreren ontologiebasierten, niedrigdimensionalen Clusterungen auswählen. Hintergrundwissen lässt sich erfolgreich während der Vorverarbeitung der Dokumente in den Clusterprozess integrieren. Es konnte gezeigt werden, dass diese neue ontologiebasierte Repräsentation für Textdokumente gegenüber der herkömmlichen wortbasierten Repräsentation zu einer Steigerung der Clustergüte führt. Erstmals werden Verfahren der Formalen Begriffsanalyse zur Präsentation von Textclustern verwendet, die für Menschen leicht verständliche Beschreibungen der berechneten Cluster liefern. Die entwickelten Methoden wurden in zwei Anwendungsgebieten eingesetzt und evaluiert. Einerseits wurden die Kunden der Deutschen Telekom AG anhand ihrer Verbindungsdaten, andererseits Dokumente dreier realer Textkorpora geclustert: Nachrichtentexte der Agentur Reuters, Lernmaterialen zur Programmiersprache Java und Texte landwirtschaftlicher Fachzeitschriften. In allen Fällen konnte gezeigt werden, dass die in diesem Buch vorgestellten Methoden zu einer Verbesserung der Clustergüte bzw. zu leichter verständlichen Clusterergebnissen führen.