# Vectorisation TF-IDF – BBC News Dataset

## Objectif
Transformer les textes nettoyés en vecteurs numériques à l’aide
de la méthode TF-IDF afin de préparer le clustering K-Means.


# Cellule 2 — Import des bibliothèques

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# Cellule 3 — Chargement des données nettoyées

In [2]:
df = pd.read_csv("data/bbc-text-cleaned.csv")
df.head()

Unnamed: 0,clean_text,category
0,future hand viewer home theatre system plasma ...,tech
1,worldcom bos left book alone former worldcom b...,business
2,tiger wary farrell gamble leicester say rushed...,sport
3,yeading face newcastle cup premiership side ne...,sport
4,ocean twelve raid box office ocean twelve crim...,entertainment


In [3]:
df.shape

(2225, 2)

# Cellule 4 — Séparation texte / labels

In [4]:
texts = df["clean_text"]
labels = df["category"]  # pour analyse uniquement (pas pour le modèle)

#  Cellule 5 — Initialisation du TF-IDF

In [5]:
tfidf_vectorizer = TfidfVectorizer(
    max_df=0.9,        # ignore les mots trop fréquents
    min_df=5,          # ignore les mots trop rares
    ngram_range=(1, 2),# unigrams + bigrams
    stop_words="english"
)

# Cellule 6 — Application de la vectorisation

In [6]:
X_tfidf = tfidf_vectorizer.fit_transform(texts)

# Cellule 7 — Vérification de la matrice TF-IDF

In [7]:
X_tfidf.shape

(2225, 13098)

# Cellule 8 — Taille du vocabulaire

In [8]:
len(tfidf_vectorizer.get_feature_names_out())

13098

# Cellule 9 — Exemple de vecteur TF-IDF

In [9]:
# Affichage des 10 premiers termes du vocabulaire
tfidf_vectorizer.get_feature_names_out()[:10]

array(['aaa', 'aaa title', 'aaron', 'abandoned', 'abandoning',
       'abandonment', 'abbott', 'abc', 'ability', 'ability influence'],
      dtype=object)

In [None]:
# Sauvegarde des artefacts TF-IDF pour l'application
import joblib, os
os.makedirs('data', exist_ok=True)
joblib.dump(tfidf_vectorizer, 'data/tfidf_vectorizer.pkl')
joblib.dump(X_tfidf, 'data/tfidf_matrix.pkl')
print('Saved tfidf_vectorizer.pkl and tfidf_matrix.pkl to data/')

## Conclusion de la vectorisation TF-IDF

- Les textes nettoyés ont été transformés en vecteurs numériques.
- La matrice TF-IDF est prête pour l’algorithme K-Means.
- La colonne `category` n’a pas été utilisée pour l’apprentissage.
