Als Clusteranalyse (CA) bezeichnet man ein Gruppenbildungsverfahren aus der Statistik, das zur Entdeckung von Ähnlichkeiten innerhalb größerer Datenbestände (die statisch auswertbar sind) genutzt wird. Synonyme Bezeichnungen hierfür sind auch die Begriffe Cluster-Algorithmus oder Ballungsanalyse.
Ursprünglich stammen die zu Grunde liegenden Verfahren aus der Biologie und Taxonomie, wo das Verfahren zur Bestimmung von Verwandtschaften von Organismen eingesetzt wurde. Heute wird das Cluster-Verfahren insbesondere in der Marktuntersuchung von Unternehmen eingesetzt und ermöglicht die Gruppierung von ähnlichen Objekten innerhalb von „Bündeln“ (engl. Cluster).
Die durch eine Segmentierung mit Hilfe einer graphentheoretischen, hierarchischen, partitionierenden oder optimierenden Darstellung erfolgende Gruppenzuordnung wird dabei als Clustering bezeichnet.
Clusteranalysen sind ein wichtiges Instrument in der Marketingplanung und werden darüber hinaus insbesondere in technischen Domänen wie der Datenanalyse bzw. dem Data Mining im Kontext von Big-Data Anwendungen und Knowledge-Discovery (in databases) eingesetzt, um große Datenbestände effektiver analysieren zu können.
Inhalt
Ziel einer Clusteranalyse
Primäres Ziel einer Clusteranalyse ist es, innerhalb der Datenbestände Gruppierungen zu ermitteln, die eine Zuordnung der Datensätze in dieser Gruppen ermöglicht.
Diese Gruppenzuordnung bzw. Klassifizierung geschieht dabei in sog. „uninformierten“ Verfahren, da im Clustering kein explizites Vorwissen über Klassen und Gruppierungen erforderlich ist.
Damit zählen Clusteranalysen zu den explorativen Verfahren, in denen keine Hypothesen geprüft werden, sondern mit Hilfe von ermittelten Zusammenhängen in den Datensätzen vorhandene Datenstrukturen sichtbar gemacht und aufgedeckt werden sollen.
Die im Clustering erfolgende Gruppenzuordnung ermöglicht neben einer reinen Marktsegmentierung für die Produkt- und Marketingplanung auch die automatisierte Klassifizierung der Datensätze und wird u.a. auch zur Bildverarbeitung in Computersystemen eingesetzt.
Methoden der Clusteranalyse
Wir unterscheiden im Clustering drei unterschiedliche Formen der Gruppenbildung:
- überlappende Gruppenbildung
- nicht überlappende Gruppenbildung
- fuzzy Gruppenbildung
Bei nichtüberlappenden Gruppen wird jedes Objekt nur in ein spezifisches Cluster bzw. eine Gruppe zugeordnet. Überlappende Gruppen ermöglichen einem Objekt, in mehreren Gruppen zugeordnet zu sein, während bei den Fuzzy-Gruppierungen jedes Element je einer Gruppe mit einer bestimmten Wahrscheinlichkeit angehört (sog. fuzzy sets).
Unterschiedliche Clusterverfahren
Wie eingangs erwähnt, lassen sich gängige Clusterverfahren in graphentheoretische, partitionierende und optimierende sowie hierarchische Verfahren einteilen. In der Statistik sind noch weitere Verfahren bekannt und in Anwendung, auf deren Ausführung wir an dieser Stelle jedoch verzichten. Die nachfolgende Abbildung gibt einen Überblick über die vier primären Clusterverfahren:
Dabei ist zu beachten, dass partitionierende Verfahren eine gegebene Partionierung verwenden und die Elemente durch die Verwendung von vordefinierten Austauschfunktionen einfach umsortieren, bis die jeweils verwendete Zielfunktion ein Optimum erreicht hat. Da die Anzahl der Cluster aber bereits im Vorwege festgelegt wird, können bei diesem Verfahren keine weitere Gruppe innerhalb der Analyse gebildet werden.
Im Gegensatz dazu gehen hierarchische Verfahren von der jeweils gröbsten (divisiv oder top-down) oder der feinsten (agglomerativ oder bottom-up) Partition aus. Die gröbste (divisive) Partition entspricht dabei der Gesamtheit aller Elemente aus dem Cluster, während in der feinsten Partitionierung nahezu jedes Element seine eigene Gruppe bildet. Werden diese Gruppen zusammengefasst oder weiter aufgeteilt, bilden sich damit verwertbare Cluster.
Vorgehen bei einer Segmentanalyse
Eine Clusteranalyse kann grundsätzlich in sechs differente Schritte aufgeteilt werden:
- Auswahl von Variablen für die CA
- Auswahl eines Proximitätsmaßes
- Auswahl eines Gruppierungsalgorithmus
- Bestimmung der Clusterzahl
- Interpretation der Cluster
- Beurteilung der Güte von Clusterlösungen
Die Schritte zur Clusterbildung im Detail:
1. Auswahl von Variablen
Zunächst muss die Auswahl und Erhebung der für die Untersuchung geeigneten Variablen erfolgen. Gewählte Variablen müssen die Segmente auch ansprechen können. Sind die Variablen der Objekte nicht bekannt, müssen sie zunächst bestimmt und anschließend ermittelt werden.
Alle Variablen können dabei ein beliebiges Skalenniveau aufweisen. Dabei wird die Wahl des Proximitätsmaßes durch das Skalenniveau der Segmentierungsvariablen determiniert. Eine Daumenregel besagt, dass die Anzahl der Cluster größer sein sollte als die Anzahl der Variablen.
2. Auswahl eines Proximitätsmaßes
Nun muss ein geeignetes Proximitätsmaß (PM) gewählt und die Distanz bzw. Ähnlichkeitswerte zwischen den Objekten über das Proximitätsmaß bestimmt werden. Dabei wird in Abhängigkeit zur Skalenart bzw. der gewählten Segmentierungsvariablen eine Distanzfunktion zur Bestimmtung der Distanz zwischen zwei Elementen und/oder eine Ähnlichkeitsfunktion zur Bestimmung der Ähnlichkeit zwischen Objekten verwendet.
Variablen werden dabei grundsätzlich einzeln miteinander vergleichen und aus der Distanz einzelner Variablen die Gesamtdistanz bzw. Gesamtähnlichkeit ermittelt. Die durch ein PM ermittelte Distanz oder Ähnlichkeit wird als Proximität bezeichnet.
3. Auswahl des Gruppierungsalgorithmus
In diesem Schritt wird die Methode der Gruppenbildung selektiert. In den meisten Fällen startet man mit dem Single Linkage Verfahren und ermittelt mit Hilfe der Ward-Methodik erste Lösungen. Durch die Wahl geeigneter Partitionierungsverfahren lässt sich die Ward-Lösung verbessern.
4. Bestimmung der Clusterzahl
Durch die Betrachtung der Varianz innerhalb der gebildeten Gruppen bzw. zwischen den Gruppen lässt sich die Clusterzahl definieren. In diesem Schritt wird festgelegt, wie viele Gruppen tatsächlich gebildet werden. Im Clustering selbst ist keine Abbruchbedingung vorhanden, weshalb beispielsweise agglomerative Clusterverfahren so lange iterieren, bis die Clusterzahl auf ein eins reduziert ist.
In der Praxis werden die Gruppenzahlen häufig mit Hilfe des Ward-Verfahrens und Dendogrammen ermittelt.
5. Interpretation der Cluster
Die Interpretation der Cluster hängt immer von den inhaltlichen Ergebnissen ab. Werden die Mittelwerte der Segmentierungsvariablen in Beziehung zu den Mittelwerten der Gesamtstichprobe gesetzt, lassen sich Cluster am einfachsten interpretieren.
6. Beurteilung der Güte
Durch die Bestimmung der Gruppenstabilität und Variablen-Trennschärfe lässt sich die Güte einer Clusteranalyse beurteilen.
Variablen-Trennschärfe: F = V(J,G)/V(J)
wobei
V(J,G) = Varianz der Variablen J in Gruppe G ist
V(J) = Varianz der Variablen J in der Erhebungsgesamtheit ist.
Ideal ist F < 1.
Die Gruppenstabilität kann überprüft werden, wenn nur eine Hälfte der Objekte geclustert wird, während die andere Hälfte zu Gruppen mit geringerer Distanz zum Centroid zugeordnet wird.
Einsatz von Mischverfahren
Grundsätzlich ist die Lösungsauswahl in den gängigen Clusteranalyse-Verfahren nicht eindeutig. Daher ist es in der Praxis sinnvoll, mehrere Verfahren miteinander zu kombinieren. Während mit dem Single Linkage Verfahren insbesondere statistische Außreißer eliminiert werden können, lässt sich mit Hilfe des Ward-Verfahrens die Clusterzahl sowie die möglichen Startposition bestimmen. Soll dagegen nur eine einzige Startposition ermittelt werden, kann der Einsatz des k-Means Verfahren sinnvoll sein.