# Sentiment Analysis sur les critiques IMDB
Ce notebook charge des critiques de films, les nettoie, puis entraîne un modèle simple pour prédire si elles sont positives ou négatives.

## 1.  Importation des bibliothèques

In [None]:
import pandas as pd
import numpy as np
import re
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

## 2. Chargement du jeu de données

In [None]:
df = pd.read_csv("IMDB Dataset.csv")  # Assure-toi que ce fichier est dans le même dossier
df.head()

## 3. 🔍 Visualisation rapide du dataset

In [None]:
df['sentiment'].value_counts().plot(kind='bar', title='Répartition des sentiments')

## 4. Nettoyage de texte

In [None]:
def clean_text(text):
    text = re.sub(r"<.*?>", "", text)  # supprimer les balises HTML
    text = re.sub(r"[^a-zA-Z]", " ", text)  # conserver uniquement les lettres
    text = text.lower()
    return text

df['cleaned_review'] = df['review'].apply(clean_text)

## 5. ✂️ Séparation en données d'entraînement et de test

In [None]:
X = df['cleaned_review']
y = df['sentiment'].map({'positive': 1, 'negative': 0})  # encoder les labels
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## 6.  Transformation TF-IDF

In [None]:
vectorizer = TfidfVectorizer(max_features=5000)
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

## 7. Entraînement du modèle (Régression Logistique)

In [None]:
model = LogisticRegression()
model.fit(X_train_tfidf, y_train)
y_pred = model.predict(X_test_tfidf)
print("Accuracy:", accuracy_score(y_test, y_pred))

## Résultat final

In [None]:
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))