zeitreihen, inverted file? < Sonstiges < Analysis < Hochschule < Mathe < Vorhilfe
|
hi,
in diesem dokument: https://web.njit.edu/~wangj/publications/ARTICLES/tois90.pdf
wird auf seite 2, zweiter absatz von "inverted files" geredet, was ist das?
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 06:10 Mi 10.02.2016 | Autor: | fred97 |
> hi,
>
> in diesem dokument:
> https://web.njit.edu/~wangj/publications/ARTICLES/tois90.pdf
> wird auf seite 2, zweiter absatz von "inverted files"
> geredet, was ist das?
Schau mal hier:
https://en.wikipedia.org/wiki/Inverted_index
FRED
>
|
|
|
|
|
Oh, entschuldige bitte. Den Artikel hatte ich natürlich gefunden, aber das "inverted file" in klammern überlesen.
Wie hier zu sehen: https://www.youtube.com/watch?v=bFrO8piASKg
geht es also darum die Position von Wörtern über eine Anzahl von Dokumenten zu speichern. Richtig?
Jetzt heißt es in dem Ausgangsdokument:
...starts with the shortest inverted file lists....
Im Video speichert er ja auch die Nullen, wenn man die aber weglassen würde und stattdessen eine Datenstruktur(Python) wie diese verwendet:
Words = {}
Words['Haus'] = [(5,7), (3,1)................]
Words['Baum'] = [(1,1), (5,6)...]
Wobei 5 die Anzahl des Wortes Haus ist, und 7 ein Index auf ein Dokument in dem es vorkommt bekommt man "Listen" mit unterschiedlicher Länge.
Im Dokument geht es weiter mit:
...calculates a upper bound during (or before) of each query list...
upper bound war doch der maximalste Wert für ewas oder nicht?
Wird hier jetzt das Dokument mit der höchsten Anzahl eines bestimmten Wortes gesucht? Wenn ja, wie soll man das vorher (before) anstellen? Man muss doch alle Einträge der Liste anschauen?
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 15:20 Di 16.02.2016 | Autor: | matux |
$MATUXTEXT(ueberfaellige_frage)
|
|
|
|