Why Vectors?

Computers can’t understand raw text, they work with numbers.
Each word or document must be converted into numerical form (a vector) so that algorithms (e.g., classifiers, clustering, sentiment analysis) can process them.

Vectorization = mapping text → numerical representation.
Example:
“I love NLP” → [0.4, 0.9, 0.1] (a simplified vector form)

TF-IDF (Term Frequency - Inverse Document Frequency)

BoW just counts, but it doesn’t know which words are important.
For example, words like “the” or “I” appear often everywhere, so they’re not useful.

TF-IDF gives:

- High weight to rare, important words
- Low weight to common words

In [5]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

texts = ["I love going out to eat", "I hate and love something I eat to"]

# --- Bag-of-Words ---
bow = CountVectorizer()
bow_vectors = bow.fit_transform(texts)

print("Vocabulary:", bow.get_feature_names_out())
print("BoW Vectors:\n", bow_vectors.toarray())

# --- TF-IDF ---
tfidf = TfidfVectorizer()
tfidf_vectors = tfidf.fit_transform(texts)

print("\nVocabulary:", tfidf.get_feature_names_out())
print("TF-IDF Vectors:\n", tfidf_vectors.toarray())


Vocabulary: ['and' 'eat' 'going' 'hate' 'love' 'out' 'something' 'to']
BoW Vectors:
 [[0 1 1 0 1 1 0 1]
 [1 1 0 1 1 0 1 1]]

Vocabulary: ['and' 'eat' 'going' 'hate' 'love' 'out' 'something' 'to']
TF-IDF Vectors:
 [[0.         0.37930349 0.53309782 0.         0.37930349 0.53309782
  0.         0.37930349]
 [0.47042643 0.33471228 0.         0.47042643 0.33471228 0.
  0.47042643 0.33471228]]


Wat is het doel van TF-IDF?

Bij Bag-of-Words (BoW) tel je alleen hoe vaak een woord voorkomt.
Maar dat heeft één groot probleem:

Veel voorkomende woorden zoals “de”, “het”, “en”, “is”, komen in bijna alle teksten voor,
dus ze zeggen niets unieks over een document.

TF-IDF lost dat op door:

-Woorden die vaak voorkomen in één tekst → hogere score te geven (TF)
-Woorden die in bijna alle teksten voorkomen → lagere score te geven (IDF)

TF-IDF bestaat uit 2 delen

TF (Term Frequency)
Hoe vaak komt een woord t voor in document d

TF(t,d) = (aantal keer dat t voorkomt in d)/(totaal aantal woorden in d)



IDF (Inverse Document Frequency)

Hoe zeldzaam is dat woord in de hele collectie?

IDF(t) = log (N/DF(t))


waarbij:
- N = totaal aantal documenten
- DF(t) = aantal documenten waarin het woord voorkomt

TF-IDF = TF x IDF

##############################################################


Stel we hebben 3 documenten:



| Document | Tekst                     |
| -------- | ------------------------- |
| D1       | "I love NLP"              |
| D2       | "I love Machine Learning" |
| D3       | "I hate NLP"              |



################################################################

Bereken TF

| Woord    | D1 | D2 | D3 |
| -------- | -- | -- | -- |
| I        | 1  | 1  | 1  |
| love     | 1  | 1  | 0  |
| hate     | 0  | 0  | 1  |
| NLP      | 1  | 0  | 1  |
| Machine  | 0  | 1  | 0  |
| Learning | 0  | 1  | 0  |


(we doen hier alsof elk document even lang is, dus TF = gewoon de telling)

################################################################

| Woord    | In hoeveel documenten komt het voor? | DF |
| -------- | ------------------------------------ | -- |
| I        | 3                                    | 3  |
| love     | 2                                    | 2  |
| hate     | 1                                    | 1  |
| NLP      | 2                                    | 2  |
| Machine  | 1                                    | 1  |
| Learning | 1                                    | 1  |



################################################################

Berekenen van IDF

IDF = log (N / DF(t))


| Woord    | DF | IDF = log(3/DF)  |
| -------- | -- | ---------------- |
| I        | 3  | log(1) = 0       |
| love     | 2  | log(1.5) ≈ 0.176 |
| hate     | 1  | log(3) ≈ 0.477   |
| NLP      | 2  | log(1.5) ≈ 0.176 |
| Machine  | 1  | log(3) ≈ 0.477   |
| Learning | 1  | log(3) ≈ 0.477   |



################################################################

Bereken TF-IDF

Voor elk woord in elk document:
| Woord    | D1    | D2    | D3    |
| -------- | ----- | ----- | ----- |
| I        | 0     | 0     | 0     |
| love     | 0.176 | 0.176 | 0     |
| hate     | 0     | 0     | 0.477 |
| NLP      | 0.176 | 0     | 0.176 |
| Machine  | 0     | 0.477 | 0     |
| Learning | 0     | 0.477 | 0     |









