Lineare Regres. aufteilbar? < Statistik (Anwend.) < Stochastik < Hochschule < Mathe < Vorhilfe
|
Hi,
soweit ich weiss benötigt man alle datenpunkte für die lineare regression.
ist es irgendwie möglich nur mit einer teilmenge dieser datenmenge zu arbeiten mit dem selben ergebnis?
versuche die regression parallel für größere datensäte mit hadoop zu berechnen.
die aufteilung auf mehrere prozesse setzt vorraus das die eingabedaten aufteilbar sind, wenn man sich einen aktienkurs vorstellt dann könnte man die eingabe in zeitabschnitte aufteilen.
erster abschnitt sind dann 1/3 des tages, zweiter 2/3
aber wenn man jetzt nur teile des kurses hat, wie genau kann man eine lineare regression hiermit berechnen?
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 08:00 Di 23.12.2014 | Autor: | abakus |
"soweit ich weiss benötigt man alle datenpunkte für die lineare regression."
Nur, wenn man sklavisch davon ausgeht, dass alle Messpunkte gleich wichtig und gleich richtig sind.
Es ist die Entscheidung des Nutzers, offensichtliche Messfehler oder Ausreißer wegzulassen oder mit einzubinden.
Letztendlich geht auch die Verwendung einer linearen Regression bereits von der willkürlich getroffenen Annahme aus, dass ein linearer (und kein quadratischer, exponentieller oder sonstwie gearteter) Zusammenhang besteht
"ist es irgendwie möglich nur mit einer teilmenge dieser datenmenge zu arbeiten"
Natürlich!
"mit dem selben ergebnis?"
Es ist eher unwahrscheinlich, dann genau die selbe Regressionsgerade zu erhalten.
Gruß Abakus
|
|
|
|