Hierarchische gegen partitionelle Clustering
Clustering ist eine maschinelle Lerntechnik zur Analyse von Daten und zur Unterteilung von Gruppen ähnlicher Daten. Diese Gruppen oder Mengen ähnlicher Daten werden als Cluster bezeichnet. Die Clusteranalyse befasst sich mit Clustering -Algorithmen, die Cluster automatisch identifizieren können. Hierarchisch und partitionell sind zwei solcher Klassen von Clustering -Algorithmen. Hierarchische Clustering -Algorithmen unterteilen die Daten in eine Hierarchie von Clustern. Paritionalalgorithmen teilen den Datensatz in sich gegenseitig disjunkte Partitionen auf.
Was ist hierarchisches Clustering?
Hierarchische Clustering -Algorithmen wiederholen den Zyklus, kleinere Cluster in größere zu verschmelzen oder größere Cluster auf kleinere zu teilen. In beiden Fällen erzeugt es eine Hierarchie von Clustern, die als Dendogramm bezeichnet werden. Agglomerative Clustering-Strategie verwendet den Bottom-up. Typischerweise wird der gierige Ansatz bei der Entscheidung verwendet, welche größeren/kleineren Cluster zum Zusammenführen/Teilen verwendet werden. Euklidische Entfernung, Manhattan -Entfernung und Ähnlichkeit mit Cosinus sind einige der am häufigsten verwendeten Metriken der Ähnlichkeit für numerische Daten. Für nicht numerische Daten werden Metriken wie die Hamming-Entfernung verwendet. Es ist wichtig zu beachten. Dendogramm ist eine visuelle Darstellung der Cluster, die die Hierarchie sehr deutlich zeigt. Der Benutzer kann je nach Ebene, auf der das Dendogramm geschnitten wird.
Was ist partitionelles Clustering?
Partitionelle Clustering -Algorithmen erzeugen verschiedene Partitionen und bewerten sie dann nach einem Kriterium. Sie werden auch als nicht -hierarchisch bezeichnet, da jede Instanz genau in einer von k gegenseitig ausschließlichen Clustern platziert wird. Da nur ein Satz von Clustern die Ausgabe eines typischen partitionellen Clustering -Algorithmus ist, muss der Benutzer die gewünschte Anzahl von Clustern eingeben (normalerweise als K genannt). Einer der am häufigsten verwendeten partitionellen Clustering-Algorithmen ist der K-Means-Clustering-Algorithmus. Der Benutzer muss vor dem Start die Anzahl der Cluster (k) bereitstellen, und der Algorithmus initiiert zunächst die Zentren (oder Zentroide) der K -Partitionen. Kurz gesagt, K-Means-Clustering-Algorithmus weist dann Mitglieder basierend auf den aktuellen Zentren zu und bewertet die Zentren auf der Grundlage der aktuellen Mitglieder neu. Diese beiden Schritte werden wiederholt, bis eine bestimmte Intra-Cluster-Ähnlichkeits-Objektivfunktion und die Objektivfunktion zwischen Cluster-Unähnlichkeit optimiert sind. Daher ist die sinnvolle Initialisierung von Zentren ein sehr wichtiger Faktor für die Erlangung der Qualitätsergebnisse aus partitionellen Clustering -Algorithmen.
Was ist der Unterschied zwischen hierarchischer und partitioneller Clusterbildung?
Hierarchische und partitionelle Clusterbildung haben wichtige Unterschiede in der Laufzeit, Annahmen, Eingabeparameter und resultierenden Cluster. Typischerweise ist partitionelles Clustering schneller als hierarchische Clusterbildung. Die hierarchische Clusterbildung erfordert nur eine Ähnlichkeitsmessung, während partitionelle Clusterbildung stärkere Annahmen wie die Anzahl der Cluster und die Anfangszentren erfordert. Hierarchische Clusterbildung erfordern keine Eingabeparameter, während partitionelle Clustering -Algorithmen die Anzahl der Cluster erfordern, um mit dem Lauf zu beginnen. Hierarchische Clustering gibt eine viel sinnvollere und subjektivere Aufteilung von Clustern zurück, aber partitionelle Clustering führt zu genau K -Clustern. Hierarchische Clustering -Algorithmen eignen sich besser für kategoriale Daten, solange eine Ähnlichkeitsmaßnahme entsprechend definiert werden kann.