# Notebook 4 - Apprentissage supervisé et le classifieur Naïf Bayesien

CSI4506 Intelligence Artificielle  
Automne 2021  
Version 1 (2020) préparée par Julian Templeton, Caroline Barrière et Joel Muteba.  Version 2 (2021) préparée par Caroline Barrière.

***DÉFINITION DU PROBLÈME***:

La tâche de classification supervisée abordée dans ce notebook est la **détection de polarité**, qui est une activité possible dans la tendance très populaire de *Opinion Mining* dans l’IA.  Beaucoup d’entreprises veulent savoir s’il y a des commentaires positifs ou négatifs à leur sujet.  Les commentaires peuvent être sur les hôtels, restaurants, films, service à la clientèle de toute sorte, etc.

Dans la détection de polarité, nous utilisons deux classes : ***positive*** et ***négative***.  C’est différent de l’analyse des sentiments par exemple, dans laquelle les classes pourraient être (triste, heureux, anxieux, en colère, etc.). La détection de polarité est également plus restreinte que le *rating* (notation) dans lequel nous aimerions attribuer une valeur (de 0 à 5 par exemple) pour évaluer un service particulier. .

Dans ce notebook, nous utiliserons l’algorithme d’apprentissage automatique Naive Bayes (classifieur naïf bayesien) pour la détection de polarité d’un grand ensemble de données (dataset) de critiques de film.

Un but important de ce notebook est de vous permettre de mieux comprendre comment mettre en place une **experimentation** pour l’apprentissage automatique/machine supervisé.  Nous regarderons la notion d’ensemble ou de données d'entraînement, de test, d'évaluation, etc.  Le notebook introduit également la notion d’évaluation comparative.  Pour dire si une méthode est bonne ou non, nous pouvons la comparer à une approche de *base*.

***ENVIRONNEMENT DE PROGRAMMATION***:

Ce notebook utilise un package d’apprentissage automatique vraiment populaire appelé **scikit-learn** (http://scikit-learn.org/stable/).  Il contient de nombreux algorithmes d’apprentissage automatique pré-codés que vous pouvez appeler.  

L'algorithme de Naive Bayes fait partie de ce package *scikit-learn* que nous utiliserons.  Et dans de futurs notebooks, nous explorerons d’autres algorithmes d'apprentissage inclus dans scikit-learn.

Pour utiliser ce package, vous devez le télécharger. Vous aurez également besoin de télécharger **Pandas** qui est un excellent outil pour manipuler les données à utiliser dans les algorithmes d’apprentissage automatique et **Numpy** qui est souvent utilisé par les librairies d’apprentissage automatique.  À l’invite de commandes, tapez ***pip install numpy***, ***pip install sklearn*** et ***pip install pandas*** pour télécharger les packages.

ATTENTION:  Si vous rencontrez des problèmes d'installation pour ces packages scientifiques sur votre système local, je vous suggère fortement de passer à l'environnement en ligne fourni par Google, appelé Colab. Accédez simplement au site Colab (https://colab.research.google.com/) et vous pourrez y télécharger votre Notebook et l'exécuter. Tous les packages requis dans le notebook sont déjà installés dans l'environnement auquel vous aurez accès dans Colab. Mais si un package manquait, vous pourriez l'installer en ligne en incluant "!pip install package_name".

***DONNÉES (DATASET) ET RESSOURCES***:

Vous devrez télécharger l'ensemble de données (dataset) de critiques de films à partir du Google Drive partagé suivant:
https://drive.google.com/file/d/1w1TsJB-gmIkZ28d1j7sf1sqcPmHXw352/view

Les revues/critiques de film auront la mention Fresh (frais, donc positif) ou Rotten (pourri, donc négatif). Nous allons utiliser cet ensemble de données (dataset) dans tout le notebook alors soyez sûr de le placer dans le même répertoire que ce notebook. Il contient 480000 commentaires avec la moitié d’entre eux étant Rotten (pourri) et l’autre moitié étant Fresh (frais). Nous n’utiliserons qu’un sous-ensemble de ceux-ci en raison du temps de calcul important de l’apprenant de base.

Si vous travaillez sur votre propre machine, vous pourrez accéder au fichier localement une fois que vous l'aurez téléchargé. Si vous décidez de travailler sur Colab, vous pouvez télécharger (upload) le dataset vers Colab (cliquez l'icône de dossier que vous voyez à gauche et vous pourrez alors faire un téléchargement de fichier).

***DEVOIR***:  

Parcourez le notebook en exécutant chaque cellule, une à la fois.  
Recherchez **(TO DO)** pour les tâches que vous devez effectuer. Ne modifiez pas le code en dehors des questions auxquelles on vous demande de répondre, sauf si spécifié. Une fois que vous avez terminé, signez le notebook (à la fin du notebook), renommez-le NumEtudiant-NomFamille-Notebook4.ipynb, et soumettez-le.  

*Le notebook sera noté sur 25.  
Chaque **(TO DO)** a un certain nombre de points qui lui sont associés.*
***

**1. Domaine d'application:  Revue de films**  

Dans ce notebook, nous souhaitons appliquer la détection de polarité dans le domaine des films.  Les critiques/revues de films donnent une critique accompagnée d’un score pour les films qu’ils passent en revue. Le site Rotten Tomatoes est un site Web qui recueille les critiques de films et les cotes accompagnées. Les cotes peuvent être classés comme « Rotten » pour un faible score de revue ou « Fresh » pour un score de revue plus élevé. Nous utiliserons l'ensemble de données *rt_reviews.csv* que vous avez téléchargé précédemment pour effectuer la détection de polarité.

La première chose à faire est de configurer ou former les ensembles d'entrainement et de test pour nos modèles. Nous allons construire ces ensembles en important les données de l'ensemble de données (dataset) à l’aide de pandas, puis utiliser le "dataframe" (type de données pandas) avec la fonction "train_test_split" de sckikit learn qui séparera les données en ensemble d'entrainement (training set) et ensemble de test (test set). Ceux-ci seront utilisés ultérieurement par les modèles qui seront créés/utilisés.

Nous **NE DEVONS PAS** utiliser l'ensemble de test pour construire notre modèle. L’ensemble de test a pour but de tester le modèle après que nous l’ayons entrainé avec l’ensemble d'entrainement.  Dans la vidéo du cours (partie 4 - Évaluation, de la série sur l'apprentissage machine supervisé), je mentionne que cet ensemble est appelé normalement "ensemble de validation" mais sckit-learn l'appelle ensemble de test.

In [3]:
# Import the libraries that we will use to help create the train and test sets
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [4]:
# Put the dataset in a dataframe
# Make sure you put rt_reviews.csv in your colab space, or locally
df = pd.read_csv("rt_reviews.csv", encoding="ISO-8859-1")

La première étape après le chargement des données est de les regarder pour vous donner une idée de la tâche à accomplir et de la qualité de l'annotation fournie.  L'ensemble annoté est notre référence ("gold standard").  C'est ce que nous tenterons d'apprendre avec nos algorithmes.  Rappelez-vous que pour certaines tâches, il y a une dose de subjectivité.

Pandas offre les deux fonctions utiles df.head() et df.tail() qui vous permettent de visualiser le haut et le bas de votre dataframe (cadre de données).

In [5]:
pd.options.display.max_colwidth = 100
df.head(10) # Show the first ten reviews of the dataset to understand the dataframe's structure

Unnamed: 0,Freshness,Review
0,fresh,"Manakamana doesn't answer any questions, yet makes its point: Nepal, like the rest of our plane..."
1,fresh,"Wilfully offensive and powered by a chest-thumping machismo, but it's good clean fun."
2,rotten,It would be difficult to imagine material more wrong for Spade than Lost & Found.
3,rotten,"Despite the gusto its star brings to the role, it's hard to ride shotgun on Hector's voyage of ..."
4,rotten,"If there was a good idea at the core of this film, it's been buried in an unsightly pile of fla..."
5,rotten,"Gleeson goes the Hallmark Channel route, damaging an intermittently curious entry in the time t..."
6,fresh,"It was the height of satire in 1976: dark as hell, but patently absurd and surely nowhere close..."
7,rotten,"Everyone in ""The Comedian"" deserves a better movie than ""The Comedian."""
8,rotten,Actor encourages grumpy Christians to embrace the season.
9,fresh,"Slight, contained, but ineffably soulful."


**(TO DO) Q1 - 2 points** \
(a) Afficher les 20 dernières reviews de l'ensemble. \
(b) Trouvez des adjectifs utilisés dans les critiques qui indiqueraient (à votre avis) que le film était rotten ou fresh. Donnez 3-4 adjectifs avec leur association (fresh ou rotten). Par exemple, ci-dessus, "good" (review 1) est associé à fresh, ou "wrong" (review 2) est associé à rotten.

In [None]:
# RÉPONSE Q1 - Partie (a)
#
....

**RÉPONSE Q1 - Partie (b)**\
...

La deuxième étape consiste à prendre un échantillon aléatoire des films. L'ensemble de données est assez volumineux (480 000 revues), donc le temps de traitement sera assez long si on garde tout. Nous sélectionnerons 50000 au hasard. Si vous travaillez avec colab, 50K peut être raisonnable, mais si vous travaillez localement et que c'est trop grand, vous pouvez réduire l'échantillon à 10K.

In [None]:
# Randomly select 10000 fresh examples from the dataframe
dfFresh = df[df["Freshness"] == "fresh"].sample(n=50000, random_state=8)
# Randomly select 10000 rotten examples from the dataframe
dfRotten = df[df["Freshness"] == "rotten"].sample(n=50000, random_state=5)
# Combine the results to make a small random subset of reviews to use
dfPartial = dfFresh.append(dfRotten)

La troisième étape consiste à créer un ensemble d'entraînement et un ensemble de test (validation) avec nos données.

In [None]:
# Split the data such that 90% is used for training and 10% is used for testing (separating the review
# from the freshness scores that we will use as the labels)
# Recall that we do not use this test set when building the model, only the training set
# We use the parameter stratify to split the training and testing data equally to create
# a balanced dataset
train_reviews, test_reviews, train_tags, test_tags = train_test_split(dfPartial["Review"],
                                                                      dfPartial["Freshness"],
                                                                      test_size=0.1, 
                                                                      random_state=3,
                                                                      stratify=dfPartial["Freshness"])
train_tags = train_tags.to_numpy()
train_reviews = train_reviews.to_numpy()
# Testing set (what we will use to test the trained model)
test_tags = test_tags.to_numpy()
test_reviews = test_reviews.to_numpy()

**2. Utilisation des ressources disponibles**  

À la question 1, on vous a demandé de mettre en évidence quelques adjectifs menant à fresh ou rotten. Nous pouvons considérer ces mots comme des mots positifs ou négatifs. Il serait long de trouver nous-mêmes tous les mots positifs ou négatifs possibles, il est donc bon de rechercher de telles ressources.

En fait, le champ de recherche de détection de la polarité est tellement populaire, que pour leur recherche, certains chercheurs ont établi des listes de mots positifs et négatifs.  Ceux utilisés dans ce notebook ont été téléchargés à partir d' [ici](https://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html) (un site Web sur Opinion Mining par le célèbre chercheur Bing Liu) et stockés localement.  Les fichiers *positive-words.txt* et *negative-words.txt* se trouvent dans votre liste de contrôle du Module 4 dans Brightspace.  Assurez-vous de placer ces fichiers dans le même répertoire que votre Notebook si vous travaillez localement ou de les avoir téléchargés vers Colab si vous travaillez dans Colab.

In [None]:
# If you use colab but do not mount a google drive, you must upload the resources
# Import the positive words
# from google.colab import files
# uploaded = files.upload()

In [6]:
# Read the positive words

with open("positive-words.txt", encoding = "ISO-8859-1") as f:
    posWords = f.readlines()
posWords = [p[0:len(p)-1] for p in posWords if p[0].isalpha()] 

# print the first 50 words
print(posWords[:50])

['a+', 'abound', 'abounds', 'abundance', 'abundant', 'accessable', 'accessible', 'acclaim', 'acclaimed', 'acclamation', 'accolade', 'accolades', 'accommodative', 'accomodative', 'accomplish', 'accomplished', 'accomplishment', 'accomplishments', 'accurate', 'accurately', 'achievable', 'achievement', 'achievements', 'achievible', 'acumen', 'adaptable', 'adaptive', 'adequate', 'adjustable', 'admirable', 'admirably', 'admiration', 'admire', 'admirer', 'admiring', 'admiringly', 'adorable', 'adore', 'adored', 'adorer', 'adoring', 'adoringly', 'adroit', 'adroitly', 'adulate', 'adulation', 'adulatory', 'advanced', 'advantage', 'advantageous']


In [7]:
# Read the negative words

with open("negative-words.txt", encoding = "ISO-8859-1") as f:
    negWords = f.readlines()
negWords = [p[0:len(p)-1] for p in negWords if p[0].isalpha()] 

# Print the first 50 negative words
print(negWords[:50])

['abnormal', 'abolish', 'abominable', 'abominably', 'abominate', 'abomination', 'abort', 'aborted', 'aborts', 'abrade', 'abrasive', 'abrupt', 'abruptly', 'abscond', 'absence', 'absent-minded', 'absentee', 'absurd', 'absurdity', 'absurdly', 'absurdness', 'abuse', 'abused', 'abuses', 'abusive', 'abysmal', 'abysmally', 'abyss', 'accidental', 'accost', 'accursed', 'accusation', 'accusations', 'accuse', 'accuses', 'accusing', 'accusingly', 'acerbate', 'acerbic', 'acerbically', 'ache', 'ached', 'aches', 'achey', 'aching', 'acrid', 'acridly', 'acridness', 'acrimonious', 'acrimoniously']


**(TO DO) Q2 - 3 points**

Que pensez-vous de ces mots positifs et négatifs ? S'il y avait une troisième catégorie "neutre", déplaceriez-vous certains de ces mots dans la catégorie "neutre". Mentionnez-en quelques-uns et pourquoi. Vous pouvez modifier le code ci-dessus pour imprimer plus de 50 mots si vous n'en voyez aucun que vous modifieriez dans les 50 premiers.

**RÉPONSE - Q2**\
...

**3. Approche de base**  

Avant d’évaluer les performances d’une approche d’apprentissage supervisée, nous pouvons commencer par établir une approche de base très simple.  Il est toujours bon de commencer simple.  Une approche de base nous permet de mesurer si la complexité supplémentaire des différents modèles que nous développons en vaut la peine ou non.  

***3.1 Algorithme***  

L’ *algorithme de base* que nous allons utiliser compte simplement le nombre de mots positifs et négatifs dans la revue (critique) et donne la catégorie correspondant au plus grand nombre de mots (ce sera positif s'il y a plus de mots positifs et négatif dans le cas où il y a plus de mots négatifs).  Cette approche n’apprend rien.  Elle utilise simplement un *raisonnement* particulier (stratégie au moment du test).  Vous pourriez être surpris de savoir combien de *start-ups d'IA* dans le domaine d’Opinion Mining, utilisent ce genre d’approche simple. 

In [None]:
# First let's define methods to count positive and negative words

def countPos(text):
    count = 0
    for t in text.split():
        if t in posWords:
            count += 1
    return count

def countNeg(text):
    count = 0
    for t in text.split():
        if t in negWords:
            count += 1
    return count

In [None]:
# Simple counting algorithm as baseline approach to polarity detection
def baselinePolarity(review):
    numPos = countPos(review)
    numNeg = countNeg(review)
    if numPos > numNeg:
        return "fresh"   
    else:
        return "rotten"   

In [None]:
# Test the baseline method
print("Testing baselinePolarity with the review:", train_reviews[0])
print("baselinePolarity result:", baselinePolarity(train_reviews[0]))
print("Actual result:", train_tags[0])
print(" ")
print("Testing baselinePolarity with the review:", train_reviews[1])
print("baselinePolarity result:", baselinePolarity(train_reviews[1]))
print("Actual result:", train_tags[1])

***3.2 Évaluation qualitative***

Dans une évaluation qualitative, nous prenons un petit nombre de résultats et les étudions. Pour ce faire, nous devons prendre quelques résultats (test_reviews 0 à 5) et pour chacun regarder ce qui a fait dire à l'algorithme "fresh" ou "rotten" (sur quoi a-t-il basé sa décision).


**(TO DO) Q3 - 2 points**

(a) Définissez les méthodes printPos et printNeg qui imprimeront tous les mots positifs et les mots négatifs trouvés dans un texte. \
(b) Après avoir testé 5 reviews (le code est déjà fourni), discutez des résultats. Pensez-vous que les mots trouvés sont des bons indicateurs de polarité? Pensez-vous que le résultat obtenu par l'algorithme est correct et que c'est plutôt celui attendu ne l'est pas ?  Souvenez-vous dans la vidéo sur l'évaluation que nous avons parlé de subjectivité... parfois nous ne sommes pas d'accord avec le "gold standard".

In [None]:
# ANSWER Q3 - Part a
# def printPos(text):
    ...

# def printNeg(text):
    ...

In [None]:
# Showing the review, the result and the positive and negative words contained
for i in range(5):
  print(test_reviews[i])
  print("baselinePolarity result:", baselinePolarity(test_reviews[i]))
  print("Expected result:", test_tags[0])
  print("Positives words found: ")
  printPos(test_reviews[i])
  print("Negatives words found: ")
  printNeg(test_reviews[i])

**RÉPONSE Q3 - Partie (b)**\
...

***3.2 Évaluation quantitative***  

Dans une évaluation quantitative, nous nous intéressons à des résultats exprimés avec des nombres, et pour que ces résultats soient significatifs, nous avons besoin d'un ensemble de test suffisamment grand. Bien que l'évaluation qualitative soit un bon outil d'analyse, l'évaluation quantitative est un bon outil comparatif permettant la comparaison de divers algorithmes.

Pour tester notre *algorithme de base* nous utiliserons l’ensemble de test, défini plus tôt et calculerons le nombre de prédictions correctes.

In [None]:
# Function takes a one dimensional array of reviews and a one dimensional array of
# tags as input and prints the number of correct assignments when running the baseline approach
# on the reviews.
# Let's establish the polarity for each review
def correctReviews(reviews, tags):
    nbCorrect = 0
    count = 0
    for i in range(len(reviews)):
        polarity = baselinePolarity(reviews[i])
        if (count < 10):
            print(reviews[i] + " -- Prediction: " + polarity + ". Actually: " + tags[i] + " \n")
            count += 1
        if (polarity == tags[i]):
            nbCorrect += 1

    print('There are %s correct predictions out of %s total predictions' %(nbCorrect, len(tags)))    

In [None]:
# This may take a minute to run
correctReviews(test_reviews, test_tags)

**(TO DO) Q4 - 3 points**

Le résultat calculé dans la méthode "correctReviews" ne fournit pas de résultats pour les classes individuelles (fresh, rotten), nous ne savons donc pas vraiment si l'algorithme fonctionne bien ou non sur chaque classe. Faisons plutôt le calcul du ***Rappel*** de chaque classe.

(a) Modifiez le code ci-dessus afin qu'il fournisse des résultats de rappel par classe. \
(b) Discutez si les résultats de rappel sont différents entre les classes.

In [None]:
# ANSWER Q4 - Write code (you can use the last few lines to guide you.. but you can change them if you want)
def recallPerClass(reviews, tags):
    ...
    ...

    print('There are %s correct in Rotten class out of %s total predictions' %(nbCorrectRotten, nbTotalRotten))
    print('Recall for Rotten is' ... )    
    print('There are %s correct in Fresh class out of %s total predictions' %(nbCorrectFresh, nbTotalFresh))  
    print('Recall for Fresh is' ... )      

In [None]:
# This may take a minute to run (depending on the size of your test set, and whether you are on colab or not)
recallPerClass(test_reviews, test_tags)

**RÉPONSE Q4 - Partie (b)**\
...

**4. Méthode d'apprentissage supervisé**

Nous allons maintenant entraîner un modèle d’apprentissage supervisé pour la détection de la polarité.

***4.1 Données d'entraînements***  

Dans l’apprentissage supervisé, nous avons besoin de données d'entraînement. Ces données d'entraînement doivent être *différentes* mais *représentatives* des données de test éventuelles. Au début du notebook, nous avons défini les données d'entraînement et les données de test comme un sous-ensemble de l’ensemble de données (20K/100K selon votre environnement tirées de 480K revues). Nous l’avons fait en raison du temps de calcul. En réalité, nous aurions  voulu utiliser l’ensemble de données et nous assurer que nous avons entraîné notre modèle avec un ensemble d'entraînement assez grand. Cela permettra de nous assurer que nous avons suffisamment appris afin de bien effectuer nos prédictions sur de nouvelles données.

Habituellement, un ensemble d'entraînement doit être aussi grand et varié que possible. Les ensembles d'entraînement sont très précieux, mais ils sont coûteux à obtenir, car ils nécessitent un marquage (annotation humaine: positif et négatif par exemple) pour les générer et les données elles-mêmes peuvent avoir besoin d’être "nettoyées". Encore une fois, l’ensemble d'entraînement sera utilisé pour entraîner le modèle et l’ensemble de tests est utilisé pour tester la performance du modèle entraîné sur de nouveaux exemples.

In [None]:
# Looking at the shapes of the train and test datasets that we will be using
print(train_reviews.shape)
print(test_reviews.shape)

***4.2 Prétraitement des données d'entrées*** 

Ce package d’apprentissage automatique, *scikit-learn*, est quelque peu particulier dans la façon dont les données doivent être mises en forme pour être utilisées par les algorithmes d'entraînement. Donc, nous devons effectuer un certain prétraitement sur les phrases ci-dessus.  Heureusement *scikit-learn* fournit quelques fonctions prédéfinis pour faire du prétraitement de texte. 

Nous transformons facilement chaque phrase en une liste d’index en dictionnaire. Le dictionnaire est construit à partir des mots dans les phrases. Les clés du dictionnaire sont les mots, et la valeur est un index.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# The CountVectorizer builds a dictionary of all words (count_vect.vocabulary_), 
# and generates a matrix (train_counts), to represent each sentence
# as a set of indices into the dictionary. The words in the dictionary are the words found in train_reviews.

count_vect = CountVectorizer()
train_counts = count_vect.fit_transform(train_reviews)

Pour comprendre ce que fait le code ci-dessus, nous allons d’abord imprimer le vocabulaire recueilli à partir des phrases dans train_reviews.  Vous verrez un ensemble de mots et d'index. Par exemple (« avec » : 4809) signifierait que le mot « avec » est associé à l'index 4809.

In [None]:
# print the vocabulary (dictionary of words)
print(count_vect.vocabulary_)

Ensuite, imprimons le *train_counts*. Vous verrez une liste de tuples avec un nombre. Par exemple (0,8790) 1 signifierait que la phrase 0, contient le mot associé à l'index 8790 1 fois. Ou (0, 31422) 3 signifierait que la phrase 0 contient le mot associé à l'index 31422, 3 fois.

In [None]:
# print the content of the training examples in terms of frequency of words (each word represented by its index)
print(train_counts)


Donc le train_counts contient pour chaque phrase, le BOW (bag of words, sac de mots) associé mais dans la forme d'une liste d'index (chaque index correspond à un mot).

***4.3 Apprentissage Naive Bayes***

Avec les données prétraitées, nous sommes prêts à tester l’algorithme Naive Bayes fourni par scikit-learn.  Cet algorithme exigeait que les données d'entraînement soient représentées en termes de *train counts* et c’est pourquoi nous avons fait le prétraitement ci-dessus.

Étant donné que scikit-learn contient une méthode correspondant au classifeur Naive Bayes, il sera facile de l'utiliser.  Il est aussi facile d’effectuer l'*entraînement (fit)*, comme vous le voyez ci-dessous, pour entraîner le modèle.  Mais vous savez ou devez savoir ce qui s'y passe!!!  Il crée des probabilités antérieures pour les classes (fresh, rotten) et les probabilités postérieures de mots (caractéristiques) par classe (p. ex. P(terrible|fresh) (P(awful|fresh)) ou P(terrible|rotten) (P(awful|rotten)). Toutes ces probabilités sont utilisées dans le théorème de Bayes.  

In [None]:
# Test of a naive bayes algorithm, the "fit" is the training
from sklearn.naive_bayes import MultinomialNB

# Training the model
clf = MultinomialNB().fit(train_counts, train_tags)   

***4.4 Evaluation de Naive Bayes***

Examinons d’abord la performance du modèle sur l’ensemble d’entraînement.  Pour appliquer le modèle de classification (prédiction), nous utilisons la méthode *predict* ci-dessous.

In [None]:
# Testing on training set
predicted = clf.predict(train_counts)
# Print the first ten predictions
for doc, category in zip(train_reviews[:10], predicted[:10]):   # zip allows to go through two lists simultaneously
    print('%r => %s\n' % (doc, category))
correct = 0
for tag, pred in zip(train_tags, predicted):   # zip allows to go through two lists simultaneously
    if (tag == pred):
        correct += 1
print("Correctly classified %s total training examples out of %s examples" %(correct, train_tags.size))

Habituellement, sur l’ensemble d'entraînement, nous obtenons la bonne prédiction sur la plupart des exemples.... C'est un résultat beaucoup trop optimiste. Mais nous devrions tester sur un **ensemble de test** réel, à savoir test_reviews et test_tags.

**(TO DO) Q5 - 4 points**  

Testez le modèle entraîné sur l'ensemble d'entraînement avec l'ensemble de test. (attention, ne réentrainez pas sur l'ensemble test)\
(a) Écrivez le code ci-dessous pour faire ce test. Avant le test, chaque ensemble de test doit être transformé avec les étapes de prétraitement (comme nous l'avons fait pour l'ensemble d'apprentissage auparavant), afin que leur format soit compatible avec l'apprenant. \
(b) Discutez si les résultats sont meilleurs sur l'ensemble d'apprentissage ou l'ensemble de test. Quelle est la différence?

In [None]:
# RÉPONSE Q5 - Partie (a)
# 

**RÉPONSE Q5 - Partie (b)**\
...

***4.5 Évaluation:  Rappel, précision et F-mesure***\
Nous explorons les deux mesures d'évaluation présentées dans les vidéos : le rappel et la précision. Et nous introduisons une nouvelle mesure, le F-mesure.


**(TO DO) Q6 - 2 points**   

Une mesure d’**évaluation commune** dans l’apprentissage automatique est le **Rappel**. Vous avez déjà calculé le rappel de l'algorithme de base à la Question 4.

Le Rappel est le nombre de prédictions correctes pour une classe d’intérêt (appelée les vrais positifs) divisé par le nombre total d’instances qui sont effectivement étiquetées comme étant dans cette classe d’intérêt (vrais positifs + faux négatifs).  Par exemple, si l’ensemble de test contient 5 exemples *Fresh* et que l’algorithme n’en a trouvé que 2, le rappel pour la classe *Fresh* est de 2/5.  Écrivez une petite méthode ci-dessous qui calculera le rappel d’une classe.  Il recevra trois paramètres :
1. L'ensemble d'étiquettage correct (Ex: (fresh, rotten, fresh)), 
2. Les prédictions (Ex: (fresh, fresh, rotten)), et
3. La classe d'intérêt (Ex: fresh).  

La méthode doit retourner le *Rappel* (Recall) de la classe (Ex: 50%).

In [None]:
# RÉPONSE Q6 - 
# Can be implemented in any way as long as it works correctly
def recall(actualTags, predictions, classOfInterest):
  ...

Vous pouvez regarder les résultats de votre méthode avec le test ci-bas.

In [None]:
# Need to get the recall for the test set predictions from Naive Bayes
print(recall(test_tags, test_predicted, "fresh"))
print(recall(test_tags, test_predicted, "rotten"))

**(TO DO) Q7 - 2 points**   

Une autre mesure d’**évaluation commune** dans l’apprentissage automatique s’appelle **Precision**. La précision est le nombre de prédictions correctes pour une classe d’intérêt (True Positives ou Vrais Positifs) divisé par le nombre total de fois où cette classe d’intérêt a été prédite (True Positives (Vrais Positifs) + False Positives (Faux Positifs)). Par exemple, si l’ensemble de test contient 3 exemples (1 à 3) *Fresh* et 1 exemple (4) *Rotten* et que l’algorithme a étiqueté les exemples (1, 2 et 4) comme *Fresh* et l'exemple (3) comme *Rotten*, alors la précision pour la classe *Fresh* est 2/3.  Écrivez une petite méthode ci-dessous qui calculera la précision d’une classe.  Il recevra trois paramètres : 


1. L'ensemble d'étiquettage correct (Ex: (fresh, rotten, fresh)), 
2. Les prédictions (Ex: (fresh, fresh, rotten)), et
3. La classe d'intérêt (Ex: fresh).  

La méthode doit retourner la *Précision* de la classe (Ex: 50%).

In [None]:
# ANSWER Q7
def precision(actualTags, predictions, classOfInterest):
  ...

Vous pouvez regarder les résultats de votre méthode avec le test ci-bas.

In [None]:
# Get the precision for the test set predictions from Naive Bayes
print(precision(test_tags, test_predicted, "fresh"))
print(precision(test_tags, test_predicted, "rotten"))

**(TO DO) Q8 - 2 points**

Une autre mesure d'évaluation populaire en apprentissage automatique est la F-mesure.

F-Mesure fournit un moyen de combiner à la fois la précision et le rappel en une seule mesure qui capte les deux propriétés. Une fois que la précision et le rappel ont été calculés pour un problème de classification binaire ou multiclasses, les deux scores peuvent être combinés dans le calcul de la F-Mesure.

La mesure F traditionnelle est calculée comme suit : F-Mesure = (2 * Précision * Rappel) / (Précision + Rappel) C'est la moyenne harmonique des deux fractions. Ceci est parfois appelé le F-Score ou le F1-Score et pourrait être la mesure la plus couramment utilisée sur les problèmes de classification déséquilibrée.

Vous avez déjà implémenté des fonctions de précision et de rappel. Réutilisez maintenant ces deux valeurs pour implémenter la fonction F-mesure pour les deux classes.

In [None]:
# ANSWER Q8
def fmeasure(precision_score, recall_score):
  ...

Vous pouvez regarder les résultats de votre méthode avec le test ci-bas.

In [None]:
precision_score = precision(test_tags, test_predicted, "fresh")
recall_score = recall(test_tags, test_predicted, "fresh")
print (fmeasure(precision_score, recall_score))
precision_score = precision(test_tags, test_predicted, "rotten")
recall_score = recall(test_tags, test_predicted, "rotten")
print (fmeasure(precision_score, recall_score))

**(TO DO) Q9 - 2 points**

Maintenant que vous avez les résultats pour la précision, le rappel et la F-Mesure, analysez ces résultats. Voici trois questions pour vous aider dans votre analyse:


*   Est-ce qu'il y a une grande différence entre la classe Fresh et Rotten pour les divers résultats?  Qu'est-ce qui pourrait expliquer cela?
*   Est-ce qu'il y a une grande différence entre le rappel et la précision?  Qu'est-ce qui pourrait expliquer cela?
*   Trouvez-vous que les résultats sont suffisamment bons pour utiliser cet algorithme?  Si oui, pourquoi, si non pourquoi?



**RÉPONSE Q9 -** \
...

***4.6 Comparaison à l'algorithme de base***

Maintenant que nous avons testé l'algorithme Naive Bayes, nous pouvons évaluer sa valeur en le comparant à notre approche de base.

**(TO DO) Q10 - 3 points**

L'approche Naive Bayes est-elle plus performante que l'approche de base, si oui de combien ? Vous avez programmé uniquement le rappel (pas la précision) pour l'approche de base, vous pouvez donc exprimer votre comparaison en utilisant uniquement le rappel.  Indiquez combien de données d'entraînement et de test ont été utilisées.  Dites si vous trouvez les gains importants ou non.

**RÉPONSE - Q10**

En utilisant X données d'entraînement, et Y données de test.

Rappel pour le baseline sur Fresh: \
Rappel pour l'algorithme Naive Bayes sur Fresh :  \

Rappel pour le baseline sur Rotten: \
Rappel pour l'algorithme Naive Bayes sur Rotten :  \

Les gains sont de ... \

Les gains sont importants? négligeables?

***SIGNATURE:***
Mon nom est Mark-Olivier Poulin.
Mon numéro d'étudiant(e) est 300058025.
Je certifie être l'auteur(e) de ce devoir.