# Contexte et objectifs du projet :
Ce projet vise à développer un modèle de machine learning capable de prédire l’âge de l’auteur d’un texte (adolescent ou adulte) à partir d’un dataset contenant des textes étiquetés. L'objectif principal est de démontrer comment les techniques de machine learning peuvent être appliquées à des données textuelles pour résoudre un problème de classification.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score
from sklearn.ensemble import RandomForestClassifier

# Analyse exploratoire du dataset
Chargement des données,
Aperçu des données,
Informations sur le DataFrame,
Statistiques descriptives,
Vérification des valeurs manquantes,
Compte des labels.

In [None]:
# Chargement des données
df = pd.read_csv("dataset.csv", sep='\t', header=0, index_col=None)

# Aperçu des données
print(df.head())
print(df.info())
print(df.describe())
# Vérification des valeurs manquantes
print(df.isnull().sum())
print(df['label'].value_counts())

# Prétraitement des données:
Division des données en ensembles d'entraînement et de test,
Vectorisation avec TF-IDF

In [None]:
# Séparation des données
X = df['clean_text']  # Texte nettoyé
y = df['label']       # Cible (ados/adult)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [None]:
# Vectorisation du texte
vectorizer = TfidfVectorizer(max_features=5000)
X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)

# Choix des algorithmes
Logistic Regression : Performant pour les tâches de classification binaire avec des données vectorisées.
Random Forest : Gère les relations non linéaires et les données déséquilibrées.

# Entraînement des modèles


In [None]:
# Entraînement
lr_model = LogisticRegression(random_state=42)
lr_model.fit(X_train_vectorized, y_train)

# Évaluation
y_pred_lr = lr_model.predict(X_test_vectorized)
print("Logistic Regression Results:")
print(classification_report(y_test, y_pred_lr))
print("Accuracy:", accuracy_score(y_test, y_pred_lr))

In [None]:
# Entraînement
rf_model = RandomForestClassifier(random_state=42, n_estimators=100)
rf_model.fit(X_train_vectorized, y_train)

# Évaluation
y_pred_rf = rf_model.predict(X_test_vectorized)
print("Random Forest Results:")
print(classification_report(y_test, y_pred_rf))
print("Accuracy:", accuracy_score(y_test, y_pred_rf))

# Comparaison des modèles
Les résultats montrent une différence significative entre les deux modèles en termes de performances globales. Voici une analyse comparative basée sur les métriques obtenues :
1. Performance globale (Accuracy)
Logistic Regression : 88.04%
Random Forest : 83.24%
➡️ Le modèle Logistic Regression offre une meilleure précision globale, indiquant qu'il est plus performant pour classer correctement les données.
2. Précision (Precision)
Logistic Regression :
Ados : 86%
Adult : 90%
Random Forest :
Ados : 81%
Adult : 85%
➡️ La régression logistique est plus précise, en particulier pour la classe "adult". Cela signifie qu'elle génère moins de   faux positifs par rapport à Random Forest.
3. Rappel (Recall)
Logistic Regression :
Ados : 88%
Adult : 88%
Random Forest :
Ados : 82%
Adult : 84%
➡️ La régression logistique a un meilleur rappel pour les deux classes, ce qui indique qu'elle est plus efficace pour identifier les vrais positifs.
4. Score F1
Logistic Regression :
Ados : 87%
Adult : 89%
Random Forest :
Ados : 81%
Adult : 85%
➡️ La régression logistique a des scores F1 plus élevés, démontrant un bon équilibre entre la précision et le rappel.
5. Interprétation et Scalabilité
Logistic Regression :
Plus simple et plus rapide à entraîner.
Plus facilement interprétable grâce à ses coefficients.
Random Forest :
Plus complexe et plus lent, surtout avec un grand nombre d'estimateurs.
Moins interprétable en raison de la nature des arbres de décision combinés.
Conclusion :
Le modèle Logistic Regression est plus performant que le Random Forest dans ce cas précis. Avec une précision, un rappel et un score F1 supérieurs, il est préférable pour la classification des textes en "ados" ou "adult".




# Chargement du modèle et le vectorizer

In [None]:
import pickle

# Sauvegarde du modèle
with open("final_model.pkl", "wb") as f:
    pickle.dump(lr_model, f)  # Utilisez le modèle que vous souhaitez déployer (lr_model ou rf_model)

# Sauvegarde du vectorizer
with open("vectorizer.pkl", "wb") as f:
    pickle.dump(vectorizer, f)