TF.IDF (frekvencia termínu – inverzná frekvencia dokumentu) je číselná štatistika, ktorá udáva, aké dôležité je slovo alebo fráza pre dokument v rámci súboru dokumentov.
Ide o skóre, ktoré je úmerné počtu výskytov slova v dokumente, ktoré je kompenzované frekvenciou slova v súbore dokumentov.
Vypočíta sa vynásobením „frekvencie termínu“, ktorý sa v dokumente vyskytuje, a „inverznej frekvencie dokumentu“ tohto termínu vo všetkých dokumentoch.
Je určené na meranie toho, ako relevantný je termín v konkrétnom dokumente v porovnaní s ostatnými dokumentmi v súbore.
Pri vyhľadávaní zameranom na ľudí, ako sú napríklad pracovné ponuky, môže TF.IDF pomôcť identifikovať slová súvisiace s určitými pozíciami alebo rolami, takže zamestnávatelia môžu presne porovnať životopisy s kvalifikáciou pre danú pozíciu.
(Pozri tiež BM25)