E.A.S.Y. E.A.S.Y.
Methode & Workflow · 5 Min Lesezeit

WDF*IDF - wie wir Keyword-Relevanz messen

WDF*IDF ist die statistische Methode, mit der wir aus Branchen-Daten ableiten, welche Wörter in welchem Verhältnis in Top-Listings vorkommen.

von robby

Was ist WDF*IDF?

WDF = Within-Document Frequency. IDF = Inverse Document Frequency. Zusammen messen sie, wie typisch ein Wort für ein Cluster von Dokumenten ist.

Heißt: nicht „häufigstes Wort" gewinnt - sondern „Wort, das in Top-Listings überdurchschnittlich oft vorkommt, im breiten Pool aber eher selten ist".

Beispiel

In der Branche Schmuck:

  • „handgefertigt" → hohe IDF (selten im allgemeinen Pool, häufig in

Top-Listings) → starkes Keyword

  • „ring" → niedrige IDF (in fast jedem Schmuck-Listing) → schwaches Keyword
  • „925er Sterling" → mittlere IDF, hoch in Premium-Top-10 → starkes

Differenzierungs-Keyword

Wie wir es nutzen

  • Pro Branche bauen wir wöchentlich einen *WDFIDF-Vektor** aus den

Top-10-% der Listings.

  • Beim Optimieren vergleichen wir Deinen Listing-Vektor mit dem

Branchen-Vektor.

  • Cosine-Similarity gibt uns den branch_title- und

branch_desc-Sub-Score.

  • Bei < 0.55 Similarity schlagen wir Top-5-Keywords vor, die fehlen.

Grenzen

WDF*IDF kennt keine Semantik. „Ring" und „Ringe" sind zwei Wörter, Synonyme werden nicht aufgelöst. Deshalb läuft danach noch ein Embedding-Layer (BERT-basiert), der semantische Cluster bildet.