Category: algorytm TF-IDF w pozycjonowaniu

Analiza algorytmu TF-IDF pod kątem pozycjonowa…

(wzory i tabela poniżej)

Algorytm
TF-IDF określa wagę termu (słowa, frazy) w dokumencie na podstawie
częstości jego występowania w tym dokumencie i odwrotnej częstości
występowania w korpusie dokumentów.

gdzie:
tfi,j
częstość występowania
termu ti
w dokumencie
dj,
nk,j
określa liczbę wystąpień termu k
w dokumencie j. Zatem
mianownik określa sumę wystąpień wszystkich termów w dokumencie
j, a licznik liczbę
wystąpień termu i.

Dyskusja

Algorytm tf
– nie wymaga komentarza, oczywiste jest, że nie da się obliczyć TF dla dokumentu pustego, w innym wypadku wartość tf należy do [0,1].

idf
– szczególne
przypadki

  • korpus
    składa się z 0 dokumentów – nie da się zastosować algorytmu
  • Term
    występuje 0 razy w korpusie – nie da się zastosować algorytmu,
    można jednak zastosować jego zmodyfikowaną wersję, z
    mianownikiem powiększonym o 1
  • 1
    dokument zawiera term – wartość
    idf wynosi log (|D|), czyli
    wrasta wraz ze wzrostem d. Oczywiście szczególnym przypadkiem jest
    korpus składający się tylko z 1 dokumentu, wtedy waga wynosi 0.,
    gdy korpus składa się z 10
    dokumentów waga wynosi 1, gdy ze 100, etc.
  • wszystkie
    dokumenty zawierają term wtedy
    wartość idf
    wnosi log (1) = 0.

Ilość dokumentów w korpusie

Ile
dokumentów jest w korpusie? Tego nie wiadomo. Nie
wiemy też czy korpus to wszystkie dokumenty zaindeksowane przez
wyszukiwarkę, czy wszystkie w danym języku, czy wszystkie w danym
języku w danej kategorii tematycznej. Oczywiście
dla danego tekstu możne istnieć (i tak zapewne jest) dla danego
termu wiele wartości tfidf liczonych dla różnych danych. Za
korpus można też przyjąć wszystkie strony danego serwisu i
obliczyć jak dany term jest istotny w ramach danego serwisu.

Analizując
SERP dla danego termu można założyć, że dla wszystkich
dokumentów korpus jest ten sam – choć tak naprawdę tego nie
wiadomo, inny może być dla stron informacyjnych, inny dla
sprzedażowych, a jeszcze
inny dla strony typu Q&A (Google wprowadziło
ostatnio Rich Results
dla takich stron
https://webmasters.googleblog.com/2018/12/rich-results-expands-for-question.html)

Dla
dalszych rozważań załóżmy, że korpus składa się w więcej niż
1 dokumentu i w co najmniej 1 dokumencie z korpusu występuje dany
term.

Warto
zauważyć, iż formalnie idf dla danego termu jest funkcją 2
zmiennych: wielkości
korpusu i liczby dokumentów, w tym korpusie zawierających ten term.
Po prostych przekształceniach,

przyjmując,

(patrz wzory poniżej)


 można wykazać, że

tdfi
= – log pi.

Oczywiście
pi
należy do przedziału (0,1].

Choć
z powyższych rozważań wynika, że istotne jest jaki odsetek stron
(w korpusie) zwiera dany term, a nie sama wielość korpusu, z
ciekawości można zapytać, jaka
jest wielość korpusu w
przypadku wyszukiwarek?
Przeprowadźmy mały eksperyment.

(patrz poniżej)

Entropia
źródła informacji

Entropia
zmiennej losowej X o zbiorze wartości {x1,…,xn}
wyraża się wzorem:

(patrz poniżej)

Można
powiedzieć, że im zdarzenie jest mniej prawdopodobne tym więcej
informacji niesie.