Zum Hauptinhalt springen
Drucken

K-Means-Clustering

K-Means-Clustering ist ein Verfahren, das eine große Menge an Daten automatisch in Gruppen ähnlicher Elemente aufteilt. Das Besondere: Niemand sagt dem Programm vorher, welche Gruppen es gibt. Es findet die Zusammengehörigkeiten selbst — man nennt das unüberwachtes Lernen.

Wie das Verfahren arbeitet

Das „K“ steht für die Anzahl der Gruppen, die man vorgibt. Bittet man das Verfahren um drei Gruppen, sucht es in den Daten drei Sammelpunkte und ordnet jeden Datenpunkt dem nächstgelegenen zu. Danach verschiebt es diese Mittelpunkte Schritt für Schritt so lange, bis die Gruppen möglichst klar getrennt und in sich möglichst ähnlich sind. Der Name „Means“ (englisch für Mittelwerte) kommt genau von diesen wandernden Mittelpunkten.

Beispiel und Grenzen

Ein Onlineshop hat tausende Kunden und will sie besser verstehen. Statt jeden einzeln zu betrachten, wirft er Daten wie Kaufhäufigkeit, Bestellwert und Alter in ein K-Means-Verfahren. Heraus kommen etwa drei Gruppen: seltene Sparkäufer, treue Stammkunden und gelegentliche Großbesteller. Auf jede Gruppe kann man dann passend zugeschnitten reagieren — mit eigener Ansprache, eigenen Angeboten. Genau so entstehen die bekannten Kundensegmente.

Das Verfahren ist beliebt, weil es schnell und leicht verständlich ist. Man sollte aber zwei Dinge im Blick behalten. Die Zahl der Gruppen muss man selbst festlegen, und eine schlecht gewählte Zahl führt zu wenig sinnvollen Ergebnissen. Außerdem geht K-Means von rundlich verteilten Gruppen aus und tut sich mit ungewöhnlichen Formen schwer. Als erster Schritt, um Ordnung in unübersichtliche Daten zu bringen, ist es trotzdem eines der meistgenutzten Werkzeuge.

Inhaltsverzeichnis
Nach oben scrollen