Αντιστραμμένο ευρετήριο
- Αποθηκεύει τις εξής πληροφορίες για κάθε όρο:
- Συχνότητα εμφάνισης του όρου σε κάθε έγγραφο
- Σχετικότητα του όρου με κάθε έγγραφο στο οποίο συναντάται
- Τοποθεσία του ορου σε κάθε έγγραφο στο οποίο συναντάται
- Συνήθως η σχετικότητα ενός όρου με ενα έγγραφο υπολογίζεται ως εξής: TF * log(IDF) [cf. Salton]
- TF = συχνότητα εμφάνισης του όρου στο συγκεκριμένο έγγραφο
- IDF = αντιστραμμένη συχνότητα εγγράφου ως προς τον όρο = συνολικος αριθμός εγγράφων / αριθμός εγγράφων που περιέχουν τον όρο
- Aν έχουμε 1000 έγγραφα και ο όρος εμφανίζεται σε 950 από αυτα τοτε log(1000/950) = 0.02
- Aν έχουμε 1000 έγγραφα και ο όρος εμφανίζεται σε 50 από αυτα τοτε log(1000/5) = 2.3
- Ο υπολογισμός αυτός διακρίνει όρους με μεγάλη συχνοτητα σε λίγα έγγραφα