## projet ML : Analyse de Sentiments dans les Avis de Films : Construction d'un Modèle de    Classification NLP"
   # Nom et prenom : Imad AKARZABI
   # MASTER SIDI TA 
    

# 1. Introduction

Le projet a pour objectif de construire un modèle d'analyse de sentiments en utilisant la classification bayésienne naïve.
Le langage de programmation Python et plusieurs bibliothèques, telles que NumPy, pandas et scikit-learn, sont utilisés pour développer le modèle. Les étapes comprennent le chargement et le prétraitement des données, la création d'un pipeline NLP, l'entraînement du modèle et son évaluation

# 2. Importation des bibliothèques :

Dans cette section, les bibliothèques nécessaires pour le projet sont importées. NumPy est utilisé pour les opérations mathématiques, pandas pour la manipulation des données, et scikit-learn pour les outils de machine learning, tels que la division des données, la vectorisation et la classification.

In [12]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, classification_report

# 3. Chargement des données :

Les données sont chargées à partir du fichier CSV 'db_reviews.csv' en utilisant la fonction read_csv de pandas. Le paramètre delimiter est spécifié comme ';' pour indiquer que le fichier CSV utilise ce caractère comme séparateur de colonnes.

À ce stade, le jeu de données est stocké dans le DataFrame 'data', qui peut ensuite être utilisé pour l'analyse et la préparation des données.

In [13]:
# Les données sont chargées à partir d'un fichier CSV (db_reviews.csv) à l'aide de la bibliothèque pandas
data = pd.read_csv('db_reviews.csv',delimiter=';')

afficher les dimensions du DataFrame data

In [14]:
data.shape

(748, 2)

afficher les types de données de chaque colonne dans le DataFrame data

In [15]:
data.dtypes 

review        object
sentiment    float64
dtype: object

# 4. Prétraitement des Données :

La colonne 'sentiment' est convertie en type 'object'

In [16]:
# la colonne 'sentiment' est convertie en type 'object'
data['sentiment'] = data['sentiment'].astype('object')

In [17]:
data.dtypes

review       object
sentiment    object
dtype: object

In [18]:
data.head()

Unnamed: 0,review,sentiment
0,"A very, very, very slow-moving, aimless movie ...",0.0
1,Not sure who was more lost - the flat characte...,0.0
2,Attempting artiness with black & white and cle...,0.0
3,Very little music or anything to speak of.,0.0
4,The best scene in the movie was when Gerardo i...,1.0


plusieurs valeurs dans cette colonne sont remplacées simultanément pour normaliser les sentiments. 

In [19]:
# Remplacer plusieurs valeurs en une seule fois dans la colonne 'sentiment'
valeurs_a_remplacer = {0.0: 'N', 1.0: 'P'} 

In [20]:
data['sentiment'] = data['sentiment'].replace(valeurs_a_remplacer)

In [21]:
data.head()

Unnamed: 0,review,sentiment
0,"A very, very, very slow-moving, aimless movie ...",N
1,Not sure who was more lost - the flat characte...,N
2,Attempting artiness with black & white and cle...,N
3,Very little music or anything to speak of.,N
4,The best scene in the movie was when Gerardo i...,P


Les valeurs manquantes dans les colonnes 'review' et 'sentiment' sont identifiées et supprimées pour garantir la qualité des données.

In [22]:
print("Valeurs manquantes dans 'review':", data['review'].isnull().sum())
print("Valeurs manquantes dans 'sentiment':", data['sentiment'].isnull().sum())

Valeurs manquantes dans 'review': 1
Valeurs manquantes dans 'sentiment': 9


In [24]:
data = data.dropna()

In [25]:
print("Valeurs manquantes dans 'review':", data['review'].isnull().sum())
print("Valeurs manquantes dans 'sentiment':", data['sentiment'].isnull().sum())

Valeurs manquantes dans 'review': 0
Valeurs manquantes dans 'sentiment': 0


# 5. Division des Données :

Les données sont divisées en ensembles d'apprentissage et de test à l'aide de la fonction train_test_split de scikit-learn. Cela permet d'évaluer la performance du modèle sur un ensemble de données non utilisé pendant l'entraînement.

In [26]:
# Diviser l'ensemble de données en ensembles d'apprentissage et de test
X = data['review']
y = data['sentiment']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 6. Création du Modèle :

Un pipeline NLP est construit, comprenant une étape de vectorisation TF-IDF (Term Frequency-Inverse Document Frequency) et un modèle de classification bayésienne naïve. La vectorisation TF-IDF convertit les avis textuels en représentations numériques tout en tenant compte de l'importance des termes.

In [27]:
# Création d'un pipeline NLP
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer(max_features=5000)),  # Vectorisation TF-IDF
    ('classifier', MultinomialNB())  #  Modèle de classification
])

In [28]:
# Entraînement du modèle et prédiction sur l'ensemble de test
pipeline.fit(X_train, y_train)
y_pred = pipeline.predict(X_test)

# 7. Évaluation du Modèle :

Le modèle est évalué sur l'ensemble de test en calculant la précision et en générant un rapport de classification. Le rapport de classification fournit des informations détaillées sur la performance du modèle, y compris la précision, le rappel et le F1-score pour chaque classe.

In [29]:
# Évaluation du modèle
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

In [30]:
# Affichage des résultats
print(f"Précision du modèle : {accuracy:.2f}")

Précision du modèle : 0.75


In [31]:
print(report)

              precision    recall  f1-score   support

           N       0.78      0.71      0.74        75
           P       0.72      0.79      0.76        73

    accuracy                           0.75       148
   macro avg       0.75      0.75      0.75       148
weighted avg       0.75      0.75      0.75       148



# 8. Prédiction de Sentiments pour de Nouveaux Avis :

Enfin, le modèle est utilisé pour prédire le sentiment associé à de nouveaux avis. Dans l'exemple fourni, un nouvel avis est utilisé comme entrée pour le modèle, qui retourne la prédiction du sentiment.

In [33]:
# Exemple d'un nouvel avis à prédire
nouvel_avis_1 = ["i like this film "]
nouvel_avis_2 = ["i dont like this film "]
prediction_1 = pipeline.predict(nouvel_avis_1)
print(f"Sentiment prédit avis 1 : {prediction_1}")
prediction_2 = pipeline.predict(nouvel_avis_2)
print(f"Sentiment prédit avis 2 : {prediction_2}")

Sentiment prédit avis 1 : ['P']
Sentiment prédit avis 2 : ['N']


# 9. Conclusion :

Le modèle de classification bayésienne naïve semble fonctionner de manière satisfaisante pour l'analyse de sentiments dans cet ensemble de données. Des ajustements et des améliorations futures peuvent être envisagés, tels que l'exploration d'autres techniques de prétraitement des données et l'optimisation des hyperparamètres du modèle, pour augmenter la performance globale du modèle.