# TP2 : Du texte au vecteur : comprendre la logique de la représentation textuelle
# A- Représentation Bag of Words

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
phrases = [
    "Le football est un sport très populaire.",
    "Le basket est aussi un sport.",
    "Le tennis est un sport individuel."
]

In [4]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(phrases)

In [7]:
X.toarray()

array([[0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1],
       [1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1],
       [0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1]])

In [8]:
vectorizer.get_feature_names_out()

array(['aussi', 'basket', 'est', 'football', 'individuel', 'le',
       'populaire', 'sport', 'tennis', 'très', 'un'], dtype=object)

## Questions :

### 1- Que représente chaque colonne de la matrice ?

Chaque colonne représente un mot unique du vocabulaire extrait à partir de toutes les phrases. Les valeurs dans la matrice indiquent le nombre d’occurrences du mot dans chaque phrase.

### 2- Quelles sont les limites du modèle Bag of Words ?

* Il ignore le contexte et le sens des mots.
* Il ne prend pas en compte l’ordre des mots (perte de structure syntactique).
* Il peut produire des matrices très grandes et creuses (sparse matrix) si le vocabulaire est vaste.

### 3- Que perd-on en supprimant l’ordre des mots ?

On perd la structure grammaticale et le sens implicite basé sur l’ordre, ce qui empêche de capturer le contexte ou des nuances, comme dans :
« Le chien a mordu l’homme » vs « L’homme a mordu le chien ».

# B- Représentation TF-IDF

In [9]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [10]:
tfidf = TfidfVectorizer()
X_tfidf = tfidf.fit_transform(phrases)

In [11]:
X_tfidf.toarray()

array([[0.        , 0.        , 0.28171538, 0.4769856 , 0.        ,
        0.28171538, 0.4769856 , 0.28171538, 0.        , 0.4769856 ,
        0.28171538],
       [0.54270061, 0.54270061, 0.32052772, 0.        , 0.        ,
        0.32052772, 0.        , 0.32052772, 0.        , 0.        ,
        0.32052772],
       [0.        , 0.        , 0.32052772, 0.        , 0.54270061,
        0.32052772, 0.        , 0.32052772, 0.54270061, 0.        ,
        0.32052772]])

In [12]:
tfidf.get_feature_names_out()

array(['aussi', 'basket', 'est', 'football', 'individuel', 'le',
       'populaire', 'sport', 'tennis', 'très', 'un'], dtype=object)

## Questions :
### 1- Quelle est la différence principale entre BoW et TF-IDF ?

* BoW compte les occurrences des mots sans distinguer leur importance.
* TF-IDF pondère les mots en fonction de leur fréquence dans le document et leur rareté dans l’ensemble des documents. Cela met en avant les mots qui sont spécifiques à un document.

### 2- Pourquoi les mots très fréquents ont-ils souvent un poids faible ?

Parce qu’ils apparaissent dans beaucoup de documents, ils n’aident pas à distinguer un texte d’un autre. Leur poids (IDF) diminue donc.

### 3- Donnez un exemple concret où TF-IDF serait plus utile que BoW.

Dans l’analyse de documents académiques ou de sites web, TF-IDF est utile pour extraire les mots-clés pertinents (ex : "neural", "learning", "training") et ignorer les mots fréquents comme "le", "de", "est".