# Classification de texte avec RandomForest et TF-IDF
Ce notebook présente une solution complète pour la classification de textes, en utilisant le prétraitement linguistique avec SpaCy, la vectorisation TF-IDF et un modèle RandomForest.

Chaque étape est expliquée en français.

In [None]:
# Importation des bibliothèques nécessaires
import json
import pandas as pd
import numpy as np
import re
import spacy
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.ensemble import RandomForestClassifier

## Chargement et préparation des données d'entraînement

In [None]:
# Chargement des données d'entraînement
with open('train.json', 'r', encoding='utf-8') as f:
    train_data = json.load(f)
df = pd.DataFrame(train_data)
df['description'] = df['description'].fillna("")  # Remplacement des valeurs manquantes

## Nettoyage et lemmatisation des descriptions avec SpaCy

In [None]:
# Chargement du modèle SpaCy (assurez-vous que 'en_core_web_lg' est installé)
nlp = spacy.load('en_core_web_lg')

def clean_and_tokenize(text):
    """
    Nettoie et lemmatise un texte :
    - enlève le HTML et les liens
    - met en minuscules
    - enlève les stopwords et tokens non alphabétiques
    """
    if not isinstance(text, str) or not text.strip():
        return ""
    text = re.sub(r'<[^>]+>', ' ', text)
    text = re.sub(r'http\S+', ' ', text)
    text = text.lower().strip()
    doc = nlp(text)
    tokens = [tok.lemma_ for tok in doc if tok.is_alpha and not tok.is_stop]
    return " ".join(tokens)

df['Clean'] = df['description'].apply(clean_and_tokenize)

## Chargement et fusion des labels

In [None]:
labels_df = pd.read_csv('train_label.csv')
df = df.merge(labels_df, on='Id')

## Vectorisation des textes avec TF-IDF

In [None]:
tfidf = TfidfVectorizer(max_features=20000, ngram_range=(1,2), min_df=5, norm='l2')
X_tfidf = tfidf.fit_transform(df['Clean'])
y = df['Category']

## Séparation des données en ensembles d'entraînement et de validation

In [None]:
X_train, X_val, y_train, y_val = train_test_split(
    X_tfidf, y, test_size=0.2, stratify=y, random_state=42
)

## Entraînement du modèle RandomForestClassifier

In [None]:
rf_clf = RandomForestClassifier(n_estimators=200, max_depth=30, random_state=42, n_jobs=-1)
rf_clf.fit(X_train, y_train)
y_pred = rf_clf.predict(X_val)

## Évaluation du modèle sur l'ensemble de validation

In [None]:
print(classification_report(y_val, y_pred))

## Prédiction sur les données de test et génération du fichier de soumission

In [None]:
# Chargement des données de test
with open('test.json', 'r', encoding='utf-8') as f:
    test_data = json.load(f)
test_df = pd.DataFrame(test_data)
test_df['description'] = test_df['description'].fillna("")
test_df['Clean'] = test_df['description'].apply(clean_and_tokenize)

# Vectorisation des données de test
X_test = tfidf.transform(test_df['Clean'])

# Prédiction
preds = rf_clf.predict(X_test)

# Génération du fichier de soumission
template = pd.read_csv('template_submissions.csv')
template['Category'] = template['Id'].map(dict(zip(test_df['Id'], preds)))
template.to_csv('submission_rf.csv', index=False)
print("Fichier de soumission enregistré : 'submission_rf.csv'")