<h1>I. Question de cours</h1>

<h2>a. Définition et importance du NLP</h2>

Le NLP (Traitement Automatique du Langage Naturel) est un domaine de l'informatique et de l'intelligence artificielle qui se concentre sur la manière dont les ordinateurs interagissent avec le langage humain. Il vise à permettre aux machines de comprendre, d'analyser et de générer du texte ou de la parole de manière similaire à la façon dont les humains le font.<br>
Le NLP est important dans l'informatique car il permet aux ordinateurs de traiter et d'interpréter un langage humain, ce qui ouvre la porte à de nombreuses applications pratiques, telles que la traduction automatique, la recherche d'informations, l'analyse de sentiments, la génération de texte, la résumé automatique, etc.

<h2>b. Les principales étapes du traitement du langage naturel</h2>

Les principales étapes du traitement du langage naturel sont les suivantes :

<ul><li>Prétraitement : Cette étape consiste à nettoyer et préparer les données textuelles en supprimant la ponctuation, les mots inutiles, en mettant en minuscules, etc.</li>
<li>Tokenisation : Le texte est divisé en unités de sens, appelées "tokens", qui sont généralement des mots ou des phrases.</li>
<li>Analyse syntaxique : Cela implique l'analyse de la structure grammaticale du texte pour comprendre les relations entre les mots et les phrases.</li>
<li>Analyse sémantique : Elle vise à comprendre le sens du texte en associant les mots à des concepts et en identifiant les entités nommées.</li>
<li>Traitement des informations : Cette étape consiste à extraire des informations pertinentes du texte, comme des entités, des relations ou des concepts clés.</li>
<li>Modélisation du langage : Les modèles de langage sont utilisés pour prédire la probabilité des mots suivants dans une séquence de texte, ce qui est essentiel pour la génération de texte.</li></ul>

<h2>c. Les principales applications du NLP dans le monde réel</h2>

Les principales applications du NLP dans le monde réel incluent :

<ul><li>Traduction automatique, par exemple, Google Translate.</li>
    <li>Analyse de sentiment pour évaluer les opinions des utilisateurs sur les médias sociaux.</li>
    <li>Résumé automatique pour créer des résumés concis de textes longs.</li>
    <li>Chatbots et assistants virtuels pour fournir des réponses aux questions des utilisateurs.</li>
<li>Extraction d'informations à partir de textes volumineux, tels que l'extraction de données médicales à partir de dossiers de patients.</li>
    <li>Analyse de texte juridique pour la recherche de précédents juridiques.</li>
    <li>Correction orthographique et grammaticale dans les outils de traitement de texte.</li></ul>

<h2>d. Défis courants auxquels les modèles de NLP sont confrontés</h2>

Les défis courants auxquels les modèles de NLP sont confrontés incluent :

<ul><li>Biais : Les modèles de NLP peuvent contenir des biais provenant des données d'entraînement, ce qui peut conduire à des résultats discriminatoires ou inéquitables.</li>
<li>Généralisation : Les modèles de NLP peuvent ne pas généraliser correctement à de nouveaux contextes ou domaines.</li>
<li>Compréhension contextuelle : La compréhension du contexte et de l'ironie dans le langage naturel reste un défi.</li>
<li>Traitement de langues moins courantes : Les modèles de NLP sont souvent plus performants pour les langues courantes et moins pour les langues moins répandues.</li>
<li>Besoin de données massives : Les modèles de NLP nécessitent de grandes quantités de données pour l'entraînement, ce qui peut être coûteux et problématique en matière de confidentialité.</li></ul>

<h2>e. Evaluation de la performance d'un modèle de NLP</h2>

La performance d'un modèle de NLP est évaluée à l'aide de différentes métriques, notamment :

<ul><li>Précision : Mesure la proportion de prédictions correctes du modèle.</li>
    <li>Rappel : Mesure la proportion d'exemples positifs correctement identifiés.</li>
<li>F1-score : Une métrique qui combine la précision et le rappel pour évaluer la performance globale du modèle.</li>
    <li>Score BLEU : Utilisé pour évaluer la qualité des traductions automatiques.</li>
<li>Perplexité : Mesure la capacité d'un modèle de langage à prédire correctement des séquences de mots.</li>
    <li>ROUGE : Utilisé pour évaluer la qualité des résumés automatiques.</li>
<li>Score d'exactitude pour les chatbots : Évalue la précision des réponses générées par le modèle lors des conversations.</li></ul>

<h1>II. Modélisation</h1>

<h2>1. Téléchargement des données</h2>

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
dataset = pd.read_csv('Restaurant_Reviews.tsv', delimiter='\t',quoting = 3)

In [3]:
dataset.tail()

Unnamed: 0,Review,Liked
995,I think food should have flavor and texture an...,0
996,Appetite instantly gone.,0
997,Overall I was not impressed and would not go b...,0
998,"The whole experience was underwhelming, and I ...",0
999,"Then, as if I hadn't wasted enough of my life ...",0


<h2>2. Prétraitement des données</h2>

In [4]:
import re
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer

corpus = []

for i in range(0, 1000):
    review = re.sub('[^a-zA-Z]', ' ', dataset['Review'][i])
    review = review.lower()
    review = review.split()
    ps = PorterStemmer()
    review = [ps.stem(word) for word in review if not word in set(stopwords.words('english'))]
    review = ' '.join(review)
    corpus.append(review)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\gueye\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


<div style="font-size: 1.2em">Le prétraitement des données est une étape essentielle dans le traitement du texte avant de les utiliser pour l'apprentissage automatique ou l'analyse. Il aide à nettoyer, organiser et préparer les données textuelles de manière à les rendre adaptées à l'analyse. Voici les étapes de prétraitement que nous avons effectuées dans notre code :</div>

<h3>Suppression des caractères non alphabétiques et numériques :</h3>

<code>review = re.sub('[^a-zA-Z]', ' ', dataset['Review'][i])</code><br>
Importance : Cela élimine tous les caractères spéciaux, la ponctuation et les chiffres, ne conservant que les lettres. Cela simplifie le texte et permet de se concentrer sur le contenu textuel réel.

<h3>Mise en minuscule :</h3>

<code>review = review.lower()</code><br>
Importance : La mise en minuscule garantit que les mots écrits en majuscules et en minuscules sont traités de la même manière, réduisant ainsi la complexité du modèle.

<h3>Tokenization (découpage en mots) :</h3>

<code>review = review.split()</code><br>
Importance : Diviser le texte en mots individuels facilite l'analyse et la comptabilisation des mots uniques.

<h3>Stemming (réduction des mots à leur racine) :</h3>

<code>ps = PorterStemmer(); review = [ps.stem(word) for word in review if not word in set(stopwords.words('english'))]</code><br>
Importance : Le stemming réduit les mots à leur forme de base, ce qui réduit la dimensionnalité des données en combinant des mots similaires. Par exemple, "loved," "loving," et "will love" sont réduits à "love."

<h3>Suppression des stopwords :</h3>

<code>review = [ps.stem(word) for word in review if not word in set(stopwords.words('english'))]</code><br>
Importance : Les stopwords sont des mots courants tels que "the," "and," "of," qui ne portent pas de sens distinctif et peuvent être supprimés pour réduire le bruit dans les données.

<h3>Reconstitution du texte :</h3>

<code>review = ' '.join(review)</code><br>
Importance : Réassembler les mots après le nettoyage pour former une représentation de texte prête à être utilisée dans le modèle.

<h2>3. Le modèle Naïve Bayes gaussien</h2>
Le modèle de classification de texte basé sur le classificateur Naïve Bayes gaussien est un modèle relativement simple et interprétable. Voici sa structure, son architecture et son fonctionnement :

<h3>a. Structure du modèle :</h3>
Le modèle de classification de texte basé sur le classificateur Naïve Bayes gaussien repose sur le théorème de Bayes et repose sur l'hypothèse d'indépendance conditionnelle des caractéristiques (d'où le terme "Naïve"). Il est utilisé pour attribuer des classes aux textes en se basant sur des caractéristiques extraites des données textuelles.

<h3>b. Architecture du modèle :</h3>
L'architecture du modèle est relativement simple et consiste en :

<strong>Extraction des caractéristiques (Bag of Words) :</strong><br>
Le modèle commence par représenter chaque document texte comme un ensemble de caractéristiques (mots ou n-grammes) et leurs fréquences d'apparition dans le texte. Cette représentation est appelée "Bag of Words" (BoW).

<strong>Calcul des probabilités de classe :</strong><br>
Le modèle calcule la probabilité qu'un texte donné appartienne à chaque classe possible. Cela se fait en utilisant le théorème de Bayes pour estimer la probabilité a posteriori de chaque classe étant donné le texte.

<strong>Prédiction de classe :</strong><br>
Le modèle attribue le texte à la classe avec la probabilité la plus élevée.

<h3>c. Fonctionnement du modèle :</h3>

<strong>Extraction des caractéristiques (Bag of Words) :</strong><br>
Les caractéristiques (mots ou n-grammes) sont extraites à partir du texte en créant un vocabulaire de toutes les caractéristiques uniques dans le corpus. La fréquence d'apparition de chaque caractéristique dans le texte est enregistrée.

<strong>Entraînement du modèle :</strong><br>
Pendant la phase d'entraînement, le modèle calcule les statistiques (moyenne et variance) des caractéristiques pour chaque classe. Ces statistiques servent à estimer les probabilités a priori et les probabilités conditionnelles nécessaires pour le calcul des probabilités de classe.

<strong>Classification des nouveaux textes :</strong><br>
Lorsqu'un nouveau texte doit être classifié, le modèle calcule les probabilités conditionnelles pour chaque classe en utilisant les statistiques d'entraînement. Ensuite, il applique le théorème de Bayes pour calculer la probabilité a posteriori de chaque classe étant donné le texte.

<strong>Prédiction de classe :</strong><br>
Le modèle attribue le texte à la classe avec la probabilité a posteriori la plus élevée. En d'autres termes, il choisit la classe pour laquelle la probabilité conditionnelle est maximale.


<h2>4. Entrainement du modèle</h2>

In [5]:
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer(max_features = 1500)
X = cv.fit_transform(corpus).toarray()
y = dataset.iloc[:, 1].values

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20, random_state = 0)

from sklearn.naive_bayes import GaussianNB
classifier = GaussianNB()
classifier.fit(X_train, y_train)

y_pred = classifier.predict(X_test)

<h2>5. Evaluation du modèle</h2>

In [6]:
from sklearn.metrics import confusion_matrix

# Calcul de la matrice de confusion
confusion = confusion_matrix(y_test, y_pred)

print('Matrice de confusion :')
print(confusion)


Matrice de confusion :
[[55 42]
 [12 91]]


La matrice de confusion est souvent utilisée pour analyser les performances d'un modèle de classification binaire. Dans ce contexte, chaque entrée de la matrice représente le nombre d'échantillons dans une catégorie spécifique.

La première rangée concerne la classe réelle "négatif".

La deuxième rangée concerne la classe réelle "positif".

La première colonne concerne les prédictions du modèle comme "négatif".

La deuxième colonne concerne les prédictions du modèle comme "positif".

<strong>Interprétation de la matrice de confusion :</strong><br>

Vrais positifs (True Positives, TP) : Il y a 91 échantillons qui sont réellement de la classe "positif" (deuxième rangée) et que le modèle a correctement prédits comme "positif" (deuxième colonne).

Vrais négatifs (True Negatives, TN) : Il y a 55 échantillons qui sont réellement de la classe "négatif" (première rangée) et que le modèle a correctement prédits comme "négatif" (première colonne).

Faux positifs (False Positives, FP) : Il y a 42 échantillons qui sont réellement de la classe "négatif" (première rangée) mais que le modèle a incorrectement prédits comme "positif" (deuxième colonne). C'est une erreur de type I.

Faux négatifs (False Negatives, FN) : Il y a 12 échantillons qui sont réellement de la classe "positif" (deuxième rangée) mais que le modèle a incorrectement prédits comme "négatif" (première colonne). C'est une erreur de type II.