WDF*IDF - wie wir Keyword-Relevanz messen
WDF*IDF ist die statistische Methode, mit der wir aus Branchen-Daten ableiten, welche Wörter in welchem Verhältnis in Top-Listings vorkommen.
Was ist WDF*IDF?
WDF = Within-Document Frequency. IDF = Inverse Document Frequency. Zusammen messen sie, wie typisch ein Wort für ein Cluster von Dokumenten ist.
Heißt: nicht „häufigstes Wort" gewinnt - sondern „Wort, das in Top-Listings überdurchschnittlich oft vorkommt, im breiten Pool aber eher selten ist".
Beispiel
In der Branche Schmuck:
- „handgefertigt" → hohe IDF (selten im allgemeinen Pool, häufig in
Top-Listings) → starkes Keyword
- „ring" → niedrige IDF (in fast jedem Schmuck-Listing) → schwaches Keyword
- „925er Sterling" → mittlere IDF, hoch in Premium-Top-10 → starkes
Differenzierungs-Keyword
Wie wir es nutzen
- Pro Branche bauen wir wöchentlich einen *WDFIDF-Vektor** aus den
Top-10-% der Listings.
- Beim Optimieren vergleichen wir Deinen Listing-Vektor mit dem
Branchen-Vektor.
- Cosine-Similarity gibt uns den
branch_title- und
branch_desc-Sub-Score.
- Bei < 0.55 Similarity schlagen wir Top-5-Keywords vor, die fehlen.
Grenzen
WDF*IDF kennt keine Semantik. „Ring" und „Ringe" sind zwei Wörter, Synonyme werden nicht aufgelöst. Deshalb läuft danach noch ein Embedding-Layer (BERT-basiert), der semantische Cluster bildet.