In [51]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline
import joblib

In [52]:
train_file_path = r'../../data/processed/train.csv'
train_df = pd.read_csv(train_file_path)

print(train_df.head())

test_file_path = r'../../data/processed/test.csv'
test_df = pd.read_csv(test_file_path)

print(test_df.head())

                                          video_name  is_comic
0  Le Débat Éco : la campagne présidentielle la m...         0
1  Inflation pouvoir d'achat : une présidentielle...         0
2  Vacances à Abu Dhabi - La chronique de Thomas Vdb         1
3  Marion Cotillard : "Explorer pourquoi l'amour ...         0
4    Pileoufacisme - La chronique de Thomas Bidegain         1
                                          video_name  is_comic
0  De Gaulle et Jean Jaurès - Le Sketch avec Mano...         1
1  Jean-Paul Sartre et Jean-Claude Duss font du s...         0
2  Canicule : des températures pas très républica...         1
3  Éric Woerth : "On est dans une société de plus...         0
4  Antoine Bondaz : "L'objectif de la Chine sur l...         0


In [53]:
# Séparer les features (titres des vidéos) et la cible (is_comic)
train_X = train_df['video_name']
train_y = train_df['is_comic']

# Construire une pipeline avec CountVectorizer et RandomForestClassifier
pipeline = Pipeline([
    ('vectorizer', CountVectorizer()),  # Transformer les titres en vecteurs
    ('classifier', RandomForestClassifier(random_state=42))  # Modèle de forêt aléatoire
])

# Entraîner le modèle
pipeline.fit(train_X, train_y)

# Sauvegarder le modèle dans un fichier
model_path = r'../../reports/random_forest_model.pkl'
joblib.dump(pipeline, model_path)

model_path  # Retourner le chemin du modèle sauvegardé

'../../reports/random_forest_model.pkl'

In [54]:
# Charger le modèle entraîné
loaded_model = joblib.load(model_path)

dev_file_path = r'../../data/processed/dev.csv'
dev_df = pd.read_csv(train_file_path)

# Utiliser le modèle pour prédire sur les nouveaux titres
dev_df['is_comic'] = loaded_model.predict(dev_df['video_name'])

# Afficher les résultats de prédiction
print(dev_df)

                                            video_name  is_comic
0    Le Débat Éco : la campagne présidentielle la m...         0
1    Inflation pouvoir d'achat : une présidentielle...         0
2    Vacances à Abu Dhabi - La chronique de Thomas Vdb         1
3    Marion Cotillard : "Explorer pourquoi l'amour ...         0
4      Pileoufacisme - La chronique de Thomas Bidegain         1
..                                                 ...       ...
694  On n'arrête pas l'éco avec Julia Cagé économis...         0
695  Nouvelle espèce menaçante découverte par le Ge...         0
696      Sécheresse : l'Ethiopie ne voit plus la pluie         0
697  Champollion : le génial déchiffreur des hiérog...         0
698  "Ukraine la fin du monde russe" sur Arte : au ...         0

[699 rows x 2 columns]
