Methode & Workflow · 5 Min Lesezeit

WDF*IDF - wie wir Keyword-Relevanz messen

WDF*IDF ist die statistische Methode, mit der wir aus Branchen-Daten ableiten, welche Wörter in welchem Verhältnis in Top-Listings vorkommen.

von robby

Was ist WDF*IDF?

WDF = Within-Document Frequency. IDF = Inverse Document Frequency. Zusammen messen sie, wie typisch ein Wort für ein Cluster von Dokumenten ist.

Heißt: nicht „häufigstes Wort" gewinnt - sondern „Wort, das in Top-Listings überdurchschnittlich oft vorkommt, im breiten Pool aber eher selten ist".

Beispiel

In der Branche Schmuck:

„handgefertigt" → hohe IDF (selten im allgemeinen Pool, häufig in

Top-Listings) → starkes Keyword

„ring" → niedrige IDF (in fast jedem Schmuck-Listing) → schwaches Keyword
„925er Sterling" → mittlere IDF, hoch in Premium-Top-10 → starkes

Differenzierungs-Keyword

Wie wir es nutzen

Pro Branche bauen wir wöchentlich einen *WDFIDF-Vektor** aus den

Top-10-% der Listings.

Beim Optimieren vergleichen wir Deinen Listing-Vektor mit dem

Branchen-Vektor.

Cosine-Similarity gibt uns den branch_title- und

branch_desc-Sub-Score.

Bei < 0.55 Similarity schlagen wir Top-5-Keywords vor, die fehlen.

Grenzen

WDF*IDF kennt keine Semantik. „Ring" und „Ringe" sind zwei Wörter, Synonyme werden nicht aufgelöst. Deshalb läuft danach noch ein Embedding-Layer (BERT-basiert), der semantische Cluster bildet.

Tags:score methode wdf-idf keyword statistics

Was ist WDF*IDF?

Beispiel

Wie wir es nutzen

Grenzen

Internal Rank - was er misst und wie er sich verbessert

Branch Rank - wie wir Dich gegen Deine Branche messen