Clusteranalyse MIII WS07/08
Aus Soz-Wiki
Zusammenfassung
Die Clusteranalyse bildet, anhand der Ausprägungen der zugrunde liegenden Variablen, Gruppen (Cluster) aus den Untersuchungsobjekten (Menschen, Emulsionsfette usw.). Sie zu den explorativen Verfahren zu zählen da sie Muster in den Daten erkennen soll.
Fragen
Hinweis: Diese Frageliste ist nicht erschöpfend, d.h es werden durchaus auch andere Fragen kommen können. Auch hier gilt es: Dozentin fragen oder raten!
1. Was ist das Hauptziel der Clusteranalyse?
- Ziel ist v.a. die Datenreduktion und die Informationskonzentration bei multivariaten Verfahren.
- Quelle: Einfuehrungsfolien_zur_Clusteranalyse.pdf
- fdr: Nils D.
2. Welche zwei Entscheidungen müssen bezüglich der Durchführung getroffen werden
und worauf beziehen sich diese Entscheidungen?
- 1. Wahl des Ähnlichkeits. bzw. Distanzmaß
- --> Die Auswahl eines (Un-)Ähnlichkeitsmaßes erfolgt v.a. anhand des Merkmalstyps (z.b. binär oder metrisch).
- 2. Wahl eines Verfahrens zu Klassenbildung (z.B. Ward-Verfahren, Complete Linkage, Single Linkage)
- -->
- ANMERKUNG: Es werden mehr Entscheidungen getroffen:
- Quelle: Backhaus 2003
- fdr: Nils D.
3. Was ist der Unterschied zwischen Ähnlichkeits- und Distanzmaßen?
- Unterscheidung von zwei Arten von Maßen
- Ähnlichkeitsmaße: messen die Ähnlichkeit zwischen zwei Objekten: Je größer der Wert des Maßes, desto ähnlicher sind die beiden Objekte.
Ähnlichkeitsmaße werden nach Backhaus eher bei dichotomisierten Variablen verwendet
- Distanzmaße: messen die Unähnlichkeit: Je größer die Distanz, desto unähnlicher sind zwei Objekte
Distanzmaße werden nach Backhaus eher bei metrischem Skalenniveau verwendet
- Quelle: Einfuehrungsfolien_zur_Clusteranalyse.pdf
- fdr: Nils D.
4. Welche theoretischen Überlegungen sprechen für die Verwendung des Simple Matching
Coefficient, welche für den Jaccard (Tanimoto)-Koeffizienten (Erläuterung anhand
eines selbstgewählten Beispieles)?
- Backhaus 2003 S. 338:
- "Welches Ähnlichkeitsmaß im Rahmen einer empirischen Analyse vorzuziehen ist, läßt sich nicht allgemeingültig sagen. Eine große Bedeutung bei dieser nur im Einzelfall zu treffenden Entscheidung hat die Frage, ob das Nichvorhadensein eines Merkmals für die Problemstellung die gleiche Bedeutung bzw. Aussagekraft besitzt wie das Vorhandensein der Eigenschaft.[...]Wenn also das Vorhandensein einer Eigenschaft (eines Merkmals) dieselbe Aussagekraft für die Gruppierung besitzt wie das Nichtvorhandensein, so ist Ähnlichkeitsmaßen, die im Zähler alle Übereinstimmungen berücksichtigen (z.B. M-Koeffizient) der Vorzug zu gewähren. Umgekehrt ist es ratsam, den Tanimoto- bzw. Jaccard-Koeffizienten oder mit ihm verwandte Proximitätsmaße heranzuziehen."
- Beispiel:
- Bei der Variable Geschlecht (Zu der kritischen Auseinandersetzung der Auswirkungen binärer Geschlechtslogik verweise ich auf die Gender Studies ;) ) hat das Nichtvorhandensein die gleiche Aussagekraft wie das Vorhandensein. --> Entscheidung für Simple Matching Koeffizient (M-Koeffizent)
- Bei der Variable Deutsche Staatsbürgerschaft hat das Nichtvorhanden sein weniger Aussagekraft als das Vorhandensein, da es viele Staaten auf der Erde gibt --> Entscheidung für Tanimoto/Jaccard Koeffizenten.
- fdr: Nils D.
5. Wie ist die Vorgehensweise bei partitionierenden Verfahren?
- "Die partitionierenden Verfahren gehen von einer gegebenen Gruppierung der Objekte (Startpartion) aus und ordnen die einzelnen Elemente mit Hilfe eines Austauschalgorithmus zwischen den Gruppen so lange um, bis eine gegebene Zielfunktion ein Optimum erreicht." Backhaus S.349
- fdr: Nils D.
6. Wie funktionieren hierarchisch-agglomerative Verfahren?
- Grafik Backhaus2003: S.353
- fdr: Nils D.
7. Was sind die Vor- und Nachteile der beiden unterschiedlichen Vorgehensweisen?
- partitionierende Verfahren:
- Vorteil:
- Größere Variabilität (Bereits gebildete Cluster können im Laufe des Verfahrens wieder aufgelöst werden)
- Nachteile:
- Beeinflussung durch die Zielfunktion
- häufig subjektive Begründung der Wahl der Startpartion (Ergebnis wird hierdurch beeinflusst)
- globale Optima zu rechenaufwendig für derzeitige Computer.
- hierarchisch-agglomerative Verfahren:
- Vorteile:
- Nicht so Rechenaufwendig
- Nachteile:
- Einmal gebildete Cluster können nicht innerhalb des Fusionierungsprozess wieder aufgelöst werden.
- fdr: Nils D.
8. Erläutern Sie die Konzepte der Vereinigung von Objekten für folgende Fusionsalgorithmen
und gehen Sie auf die Vor- und Nachteile ein:
a) Single Linkage
- Auch "nearest neigbour" Verfahren genannt. Hier werden schrittweise Cluster mittels der Auswertung der Distanzmatrix gebildet. Es werden diejenigen Objekte miteinander fusioniert die die geringste Distanz aufweisen. Innerhalb eines Clusters wird nur das Objekt mit der geringsten Distanz betrachtet.
- Vorteil: gut geeignet um Ausreißer zu identifizieren
- Nachteil: Kettenbildung
- fdr: Nils D.
b) Complete Linkage
- Auch "furthest neigbour" Verfahren genannt. Das Verfahren zur Fusionierung einzelner Objekte ist identisch mit dem Single-Linkage Verfahren. Unterschied: Bei einem Cluster wird nicht die niedrigste sondern die höchste Distanz ausgewertet. Complete Linkage bildet eher kleine Gruppen.
- Vorteil: Keine Kettenbildung
- Nachteil: Ausreißer können nicht erkannt werden und sollten vor der Durchführung eliminiert werden.
- fdr: Nils D.
c) Ward Verfahren
- Unterscheidet sich vor allem dadurch von den anderen Verfahren das hier zur Fusionierung der einzelenen Objekte das Varianzkritierium herangezogen wird. Es werden diejenigen Objekte miteinander fusioniert die die Varianz der neuen Gruppe am wenigesten erhöhen. Das Ward Verfahren bildet eher gleichgroße Gruppen
- Vorteil: Findet in den meisten Fällen sehr "gute" Gruppen und ist oft in der Lage die wahren Gruppen zu identifizieren.
- Nachteil: Ausreißer können nicht erkannt werden und sollten vor der Durchführung eliminiert werden. Erkennt keine sehr kleinen oder sehr große Gruppen.
- fdr: Nils D.
9. Was bedeutet der Begriff „Kettenbildung“ und warum kann dies nachteilig sein?
- Da das Single-Linkage Verfahren immer zur Fusionierung die geringste Distanz eines Objektes zu den zu fusionierenden Objekten innerhalb eines Clusters heranzieht ist es möglich das Objekte zusammengefasst werden die zueinander eine hohe Distanz aufweisen.
- Beispiel:
- A hat zu B eine Distanz von 5.
- A hat zu C eine Distanz von 4.
- B hat zu C eine Distanz von 9.
- Alle werden mit fusioniert, was aber keiner "wahren" Gruppen entspricht da B und C eine zu hohe Distanz aufweisen. Dies wirkt verfälschend auf den Fusionierungsprozess.
- fdr: Nils D.
QUELLEN:
Backhaus 2003: Backhaus K, Erichson B, Plinke W et al.: Multivariate Analyseverfahren. Springer Verlag; Berlin 2003

