Rückwärtsselektion < Statistik (Anwend.) < Stochastik < Hochschule < Mathe < Vorhilfe
|
Hallo zusammen,
ich muss einen Datensatz analysieren und ein geeignetes Modell finden. Wir haben ein Modell mit 38 potentiellen Einflussgrößen und dafür nur 36 Messungen. Ich beginne mit einer Rückwärtsselektion. Mit wurde aber gesagt dies sei bei so vielen Einflussgrößen auf so wenigen Messungen nicht möglich.
Es geht im allgemeinen um Lineare Modelle und Verallgemeinerte lineare Modelle.
Kann mir bitte jemand erklären warum?
Bei der Rückwärtsselektion fange ich doch einfach mit dem größtmöglichen Modell an, also dem Ansatz
$E Y = [mm] \beta_1 [/mm] + [mm] \beta_2 [/mm] * [mm] x_2 [/mm] + ... + [mm] \beta_{38} [/mm] * [mm] x_{38}$, [/mm] wobei [mm] x_i [/mm] die Beobachtungen sind und [mm] \beta_i [/mm] geeignete Koeffizienten.
Für ein schönes Skript über dieses Thema wäre ich auch sehr dankbar. Im Netz hab ich nicht wirklich etwas tolles gefunden...
Danke im Voraus!
lg Kai
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 15:02 Do 01.07.2010 | Autor: | dormant |
Hi!
> Hallo zusammen,
>
> ich muss einen Datensatz analysieren und ein geeignetes
> Modell finden. Wir haben ein Modell mit 38 potentiellen
> Einflussgrößen und dafür nur 36 Messungen. Ich beginne
> mit einer Rückwärtsselektion. Mit wurde aber gesagt dies
> sei bei so vielen Einflussgrößen auf so wenigen Messungen
> nicht möglich.
Knallhart! Das sind zu viele erklärende Variable für eine Regression!
> Es geht im allgemeinen um Lineare Modelle und
> Verallgemeinerte lineare Modelle.
>
> Kann mir bitte jemand erklären warum?
>
> Bei der Rückwärtsselektion fange ich doch einfach mit dem
> größtmöglichen Modell an, also dem Ansatz
>
> [mm]E Y = \beta_1 + \beta_2 * x_2 + ... + \beta_{38} * x_{38}[/mm],
> wobei [mm]x_i[/mm] die Beobachtungen sind und [mm]\beta_i[/mm] geeignete
> Koeffizienten.
Ich vermute du willst eine Lineare Regression durchführen und willst über OLS die Parameter schätzen. Jedoch bei 36 Beobachtungen und 38 erklärende Variablen kann ich dir auch ohne OLS, mit bloßem Auge sogar, die Betas bestimmen. Kannst du es auch?
Übrigens das ist ein Modell mit 37 Variablen.
> Für ein schönes Skript über dieses Thema wäre ich auch
> sehr dankbar. Im Netz hab ich nicht wirklich etwas tolles
> gefunden...
>
> Danke im Voraus!
>
> lg Kai
Was du machen kannst ist, du schätzst die Paramerter für alle möglichen Kombinationen von zwei erklärenden Variablen und schaust welches Modell am besten passt. Dabei musst du die Signifikanz beider Parameter maximieren und den Fehler zu den Beobachtungen minimieren.
Ich sage 2 Parameter, da man ca. 20 Beobachtungen pro Parameter für vernüftige Signifikanzaussagen braucht.
Grüße,
dormant
|
|
|
|
|
Also iwie steh ich aufm Schlauch...
Ich arbeite mit R. OLS sagt mir nichts.
Wie sollen denn die Koeffizienten aussehen?
Ich habe 38 pot. Einflussgrößen, und pro Einflussgröße 36 Messwerte. Da kann ich doch was schätzen... oder nicht???
lg Kai
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 15:32 Do 01.07.2010 | Autor: | dormant |
Hi!
> Also iwie steh ich aufm Schlauch...
>
> Ich arbeite mit R. OLS sagt mir nichts.
Ordinary Least Squares, oder die Methode der kleinsten Quadrate. Man minimiert den Quadrierten Fehler.
> Wie sollen denn die Koeffizienten aussehen?
>
> Ich habe 38 pot. Einflussgrößen, und pro Einflussgröße
> 36 Messwerte. Da kann ich doch was schätzen... oder
> nicht???
Du hast ein Modell der Form
[mm] Y_{j}=x_0+\summe_{i=1}^{38}\beta_{i}x_{i}^{j}+\epsilon_{j}.
[/mm]
Das j läuft von 1 bis 36 und bedeutet die Nummer der Messung.
Du willst jetzt deine Betas so schätzen, dass deine x das Y "am besten" beschreiben. Bei so einer Anzahl nennt sich das ganze overfitting, das kannst du Googlen. Mehr als 4 Variablen brauchst du nicht, und so wie ich das verstehe sollst du bestimmen welche bei deinem Modell das beste Ergebnis liefern.
Was versuchst du eigentlich genau?
> lg Kai
Grüße,
dormant
|
|
|
|
|
> Hi!
>
> > Also iwie steh ich aufm Schlauch...
> >
> > Ich arbeite mit R. OLS sagt mir nichts.
>
> Ordinary Least Squares, oder die Methode der kleinsten
> Quadrate. Man minimiert den Quadrierten Fehler.
>
Ah okay... bei uns hieß das RSS - Residual Sum of Squares oder so... ist aber das gleiche!
> > Wie sollen denn die Koeffizienten aussehen?
> >
> > Ich habe 38 pot. Einflussgrößen, und pro Einflussgröße
> > 36 Messwerte. Da kann ich doch was schätzen... oder
> > nicht???
>
> Du hast ein Modell der Form
>
> [mm]Y_{j}=x_0+\summe_{i=1}^{38}\beta_{i}x_{i}^{j}+\epsilon_{j}.[/mm]
Ja genau, aber ich sehe nicht warum da eine Hürde sein soll... Y ist 36-dimensional, und die Designmatrix ist 36x38-dimensional (weil ja auch eine 1-er Spalte drinne ist...
Was ist denn dann so problematisch?
>
> Das j läuft von 1 bis 36 und bedeutet die Nummer der
> Messung.
>
> Du willst jetzt deine Betas so schätzen, dass deine x das
> Y "am besten" beschreiben. Bei so einer Anzahl nennt sich
> das ganze overfitting, das kannst du Googlen. Mehr als 4
> Variablen brauchst du nicht, und so wie ich das verstehe
> sollst du bestimmen welche bei deinem Modell das beste
> Ergebnis liefern.
>
> Was versuchst du eigentlich genau?
>
Es ist schon wie du sagst... Ich habe einen Datensatz mit zuvielen Einflussgrößen und soll durch verschiedene Verfahren geeingente Einflussgrößen auswählen für ein "gutes" Modell.
Passenderweise hab ich natürlich die Rückwärtsselektion abgegriffen... d.h. iwie am meisten zu tun... ^^
> Grüße,
> dormant
lg Kai
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 11:30 Fr 02.07.2010 | Autor: | dormant |
Gut.
Strenggenommen kannst du natürlich eine Rückwärtsselektion machen. Das ist aber wenig sinnvoll, da du mit so wenigen Beobachtungen keine brauchbaren Signifikanzaussagen machen kannst.
Ich gehe z.B. davon aus, dass bei deinem Modell mit 38 Variablen höchstens ein paar, oder sogar gar keine einen signifikanten Einfluss haben wird. Also würdest du für den nächsten Schritt eher willkürlich eine Variable rausnehmen.
Vielleicht würdest du diejenige rausschmeißen, die am wenigsten signifikant ist. Das ist aber bei so wenig Beobachtungen sehr sensitiv gegenüber kleine Änderungen, z.B. kannst du deine Beobachtungen mit einem kleinen Störterm versehen und dann auf Signifikanz überprüfen. Wahrscheinlich wirst du ganz andere Ergebnisse rauskriegen.
Zusammenfassend - probleme mit Stabilität und Signifkanz - also kein robustes Verfahren.
Sinnvoller ist, wie schon vorgeschlagen, die Vorwärtsselektion.
Grüße,
dormant
|
|
|
|
|
Ah okay Danke!
Wir sollen ja grad beides machen und dann vergleichen!
Ich dachte nur wegen der aussage "Das geht doch gar nicht", dass ich irgendwas übersehe und das überhaupt nicht durchzuführen ist. Dass es praktisch nicht so sinnvoll ist, konnt ich mir auch denken...
Danke!
|
|
|
|