Multiple Regression MIII WS07/08

Aus Soz-Wiki
Version vom 16. Februar 2008, 21:04 Uhr von NilsD (Diskussion | Beiträge)

(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

Zusammenfassung

meine äußerst berechtigte Annahme über die Klausuraufgaben:

- Wozu ist multiple Regression gut/ was ist ihr Ziel?

- Definition eines Begriffs (Kollinearität, Heteroskedastizität...)

- Methoden der Aufnahem der Variablen in Regressionsmodell

- Aufstellen einer Regressionsgleichung; also Anwenden der Formeln für Kovarianz, Bestimmtheitsmaß, Standardabweichung und Regressionskonstante anhand eines simplen Beispiels(4 Wertepaare oder so vllt.)

- Interpretation von Werten: stand. Koeffizienten, Steigungsparameter, Korrelation

fd-antizipierte-R Sör'n

1. Korrelationkoeffizient: Pearsons R

Pearsons R ist ein lineares Zusammenhangsmaß für metrische Variablen. Basierend auf der Streuung zweier Variablen wird überprüft ob eine ähnliches Muster vorhanden ist, um so eine eventuell gegebene gegenseitige Beeinflussung festzustellen. In allen multivariaten Analyseverfahren können Korrelationen berechnet werden, deren Konzept mehr oder weniger auf Pearsons R beruht. Eine statistsiche Korrelation muss nicht zwingend eine kausale Verknüpfung bedeuten, dies kann nur aufgrund inhaltlicher Überlegungen postuliert werden.

Berechnung: Bei Korrelation soll eine Abweichung vom Mittelwert eine Variablen mit einer Abweichung in die gleiche/genau entgegengesetzte Richtung einer zweiten Variable zusammen fallen.

Sxy = 1/n ∑ (xi-X)·(yi-Y)
Die Abweichung der einzelnen Werte zum Mittelwert einer Variablen wird aufsummiert und mit der zweiten multipliziert.
Die Kovarianz gibt Aufschluss über die Korrelation zweier Variablen, ist aber nicht standardisiert, also nicht mit anderen Kovarianzen
r= Sxy / (Sx·Sy)
Der Korrealtionskoeffizient standardisiert auf den Wertebereich -1 bis +1 durch Division durch das Produkt der Einzelwerte der Standardabweichungen der Variablen.

fdr. Sör'n

2. Einfachregression

Größenveränderung einer abhängigen Variablen, soll auf den Einfluss nur EINER vom Modell abhängigen, spezifizierten Variablen zurückgeführt werden (Bsp.:Körpergröße⇒ Gewicht). Mit dieser Methode kann nur ein linearer Zusammenhang nachgewiesen werden (kein exponentieller, logistischer etc.). Die Beziehung der Variablen ist also immer eine "Je desto"-Beziehung.

Um den Wert einer Variable voraussagen zukönnen gibt es in der univariaten Statistik bereits einige Maße (Mittelwert usw.). Die zentrale Frage ist also inwieweit die Annahme eines linearen Zusammenhangs zu einer anderen Variablen diese Voraussage noch verbessern kann.

Mathematische Gleichungen:

Yi= β0 + β1 Xi + u (Regressionsgerade)
Y sei die abhängige Variable, X die unabhängige; β0 die Regressionskonstante (Schnittpunkt mit Y-Achse) und β1 die Steigung der Geraden. u beschreibt heir den Einfluss, der nicht von der unabhängigen Variablen verursacht wird (Zufall, andere Variablen etc.), ist also die nicht erklärte und nicht messbare Streuung der Variablen, die verhindert, eine abhängige Variable 100%ig genau vorauszusagen.

Ein Beobachtungswert einer Variablen, wird in zwei Teile zerlegt:

erklärte Varianz: ∑ (Y' - Y)² (Differenz aus Wert der Regressinsgeraden und Mittelwert)
nicht erklärte Varianz: ∑(Yi - Y')² (Differenz aus tatsächlich beobachtetem Wert und Wert der Regressionsgeraden)

Die Summe der beiden Varianzen ist nun gleich der Gesamtvarianz der Variablen y [ ∑(Yi - Y)² ]. Das Verhältnis aus erklärter Streuung zur Gesamtstreuung ist das Bestimmtheitsmaß (die Güte) und gerade Pearsons R zum Quadrat.

fdr Sör'n

Anm.: Es kann passieren, dass wir eine Regression dieser Gestalt selbst rechnen müssen. Die Formeln für die Regressionskoeffizienten etc. sind dann aber wahrscheinlich mit angegeben. Beispielaufgabe mit Lösung ist im ISIS. (Sör'n)

Multivariate Regressiosanalyse (Fragebogen)

1. Was heißt Multikollinearität?

"überlappende Varianzaufklärung": Die unabhängigen Variablen korrelieren untereinander, d.h. man kann nicht mehr genau erroieren welcher Anteil an Varianzaufklärung der abhängigen Variable auf untereinander korrelierende unabhängige Variablen zurückzuführen ist. fdr. Sör'n

2. Warum ist die Beachtung von Multikollinearität wichtig?

Da die lineare Regression auf additive Kausalität setzt darf diese Erscheinung nicht zu stark ins Gewicht fallen. Dies ist aber der Fall je mehr unabhängige Variablen in das Modell aufgenommen werden, was zu einer Verzerrung der Schätzung der Konfidenzintervalle für die Koeffizienten führt. fdr. Sör'n

3. Was heißt "Auspartialisieren"?

Aus einer Korrelation zwischen zwei Variablen kann unter Vermutung der Beeinflussung durch eine Hintergrundvariable diese herausgerechnet werden. Man erhält so die parteille Korrelationd er beiden Ausgangsvariablen. (Bsp. Beziehung zwischen Links-Rechts Gesinnung und Nettoeinkommen --> vllt. würde man ein höheres Einkommen für eine eher Rechte Gesinnung erhalten, was zunächst auch logisch erscheint (warum? Victor), allerdings sollte man versuchen z.B. den Faktor "wohnhaft in Ost/West" herausrechnen, weil die Realnettolöhne in Ostdeutschland kleiner und die politische Gesinnung eher linker (wirklich? --> nationalSOZIALISMUS a la Lafontain! Victor) ist). fdr. Sör'n

Ich denke Sören meinte die Rechts-Links Selbsteinschätzung. Was Links und was Rechts ist müsste mensch gesondert diskutieren.--NilsD 20:04, 16. Feb. 2008 (CET)

4. In welcher Weise kann man auch Nominalskalen in die Regressionsanalyse einbeziehen?

Nominale Variablen können in Form von dichitomisierten/binarisierten Variablen in eine lineares Modell aufgenommen werden. Für jede Ausprägung der nominalen Variable wird dann der Zustand "vorhanden" oder "nicht vorhanden" angegeben. fdr. Sör'n

5. Wie berechnet man das Erklärungspotential einer gegebenen unabhängigen Variablen im bivariaten Modell?

Sofern Erklärugnspotenzial für Bestimmtheitsmaß oder Korrelationskoeffizient steht: s.o.. fdr. Sör'n

6. Was bringt der Koeffizient "R.Quadrat" zum Ausdruck?

R.Quadrat ist das Bestimmtheitsmaß, er bringt das Verhältnis der durch die unabhängige Variable erklärten Streuung zur Gesamtstreuung zum Ausdruck, sagt also nichts weiter, als wie stark kann die unabhängige Var. die abh. voraussagen. fdr. Sör'n

7. In welcher Weise kann man das multiple R auch als bivariaten Korrelationskoeffizienten interpretieren?

Multiples R = Korrelation der vorhergesagten Werte mit den empirischen (beobachteten Werten) von y. (Akremis Antwort vom 5.2.08).


8. Worin besteht die Aussagekraft der Veränderung des multiplen R.Quadrat beim Hinzufügen einer gegebenen unabhängigen Variablen an letzter Stelle in der Schrittweisen Regression?

Dadurch erhält man das minimale Aufklärungspotenzial der zu letzt hinzugefügten Variablen: Den Beitrag, den die Variable noch leisten kann, wenn bereits alle anderen Variablen im Modell berücksichtigt sind. (Akremis Antwort vom 5.2.08)

9. Aus welchen Komponenten setzt sich die unerklärte Varianz zusammen?

─ Messfehler bei der abhängigen und/oder unabhängigen Variablen

─ Fehler bei der Modellspezifikation (etwa: Nichtberücksichtigung von Interaktionseffekten zwischen den Variablen oder fälschliche Annahme von Linearität)

─ Fehler der Modellspezifikation in Form der Nichtberücksichtigung kausal relevanter Faktoren

– wichtige Bestimmungsgründe für die abhängige Variable gehen nicht explizit in das Modell ein

─ Existenz einer echten probabilistischen Komponente in der Beziehung zwischen abhängigen und unabhängigen Variablen

(Akremis Antwort vom 5.2.08)

Multiple Regressionsanalyse (weitere Anmerkungen)

1. Modellvoraussetzungen:

- Skalenniveau (mind. intervall bei abh.; intervall oder binär bei unabh. Var.)
- lineare Beziehung; oder bei logarithmischen Beziehungen "Linearisierung" möglich
- Brücksichtigung aller relevanten Variablen (sonst verzerrte Schätzung)
- keine Autokorrelation (=systematische Beziehng zwischen Residuen benachbarter fälle [v.a. bei Zeitreihen der Fall])
- keine Heteroskedastizität (= Konstantheit der Residuen über die Beobachtung durch z.B. Müdigkeit des Beobachters)
- keine perfekte Multikollinearität (s.o.)

fdr. Sör'n

2. Regressionskoeffizienten

Werden alle Regressionskoeffizienten wie im Modell der Einfachregression berechnet, so sind sie in der letztlichen Regressionsgleichung untereinander nicht vergleichbar (da sie z.B. andere Skaleneinteilungen haben). Darum kann man auch für sein Modell einen strandardisierten Regressionskoeffizienten berechnen und so die Koeffizienten untereinder bezüglich ihres Einflusses auf die abh. Var. vergleichen.

B = β * Sx/Sy

fdr. Sör'n

3. Korrigiertes R.Quadrat

Benutzt man R.Quadrat als Gütemaß für die Regression hat man das Problem, dass mit steigender Anzahl an Variablen, die in das Modell aufgenommen werden, automatisch immer auf R.Quadrat steigt (Obwohl die Anzahl der Variablen ja inhaltliche nichts über die Güte aussagt). Das korrigierte R.Quadrat berücksichtigt diesen Fakt, so dass es bei Hinzunahme von weiteren Variablen unter Umständen auch sinken kann, wenn diese nicht "gut" genug sind.

fdr. Sör'n


4. Aufnahme der Variablen

gleichzeitige Aufnahme (method enter)

Alle Variablen werden auf einmal in das Modell aufgenommen. Es geschieht hier keine Eignungsprüfung der Variablen, d.h. sie müssen kein spezielles Kriterum (Bsp. best. Wert an Varianzaufklärung) erfüllen. Man kann auch keine Aussage über Multikollinearität machen udn somit nicht den wirklichen Bereich erfahren, in dem sich der Einfluss einer best. Variablen bewegt.


schrittweise Aufnahme (method blockwise)

Hier werden die unabhängigen Variablen einzeln nacheinander in das Modell eingefügt, nach jedem Schritt kann beobachtet werden wie sich der Wert von R.Quadrat verändert und ggf. bei zu geringer Steigerung des Wertes die Regression abgebrochen werden. Der Unterschied zu method=stepwise ist lediglich, dass die Reihenfolge der Aufnahme der Variablen ins Modell bei blockwise per Hand eingegeben werden muss.
Die einzelne Aufnahme der Variablen trägt real vorhandener Multkollinearität Rechnung. Wird eine Variable zu erst in das Modell aufgenommen, so gibt R.Quadrat das maximal mögliche Varianzaufklärungspotential an, geschieht dies zuletzt so erhält man das minimale Varianzaufklärungspotential. Ist die Differenz dieser beiden VAPs auffällig groß, so sollte man über legen ob diese Variable tatsächlich noch signifikant zur Varianzaufklärung beiträgt oder nicht schon zu Genüge durch andere Variablen beschrieben wird

fdr Sör'n

Meine Werkzeuge
Namensräume

Varianten
Aktionen
Navigation
Werkzeuge