
# MTH3302 : Méthodes probabilistes et statistiques pour l'I.A.

Jonathan Jalbert<br/>
Professeur adjoint au Département de mathématiques et de génie industriel<br/>
Polytechnique Montréal<br/>

Ce TD a été développé avec l'aide précieuse de :
- Sanae Lofti, candidate à la maîtrise,
- Amine Bellahsen, candidat à la maîtrise.<br/>

Tous les deux étaient inscrits au cours à l'automne 2018.

---


# TD 8 : Filtre anti-spam 
___

### Description

Dans ce travail dirigé, vous aurez l'occasion de développer un filtre anti-spam basé sur la classification bayésienne naïve. Que la présence ou l'absence de certains mots sera considérée comme variable explicative.

### Données

Les données exploitées dans ce TD correspondents à des messages électroniques authentiques d'un employé de la compagnie Enron. Vous pouvez télécharger le jeux de données à partir du site web du cours. Le fichier doit être décompressé dans un dossier nommé *data* du répertoire courant de votre calepin Jupyter. 

Notez que les messages électroniques de 158 employés de la compagnie Enron ont été récupérés par la Federal Energy Regulatory Commission pendant la commission d'enquête qui a eu lieu après l'effondrement de la compagnie. Dans ce TD, nous n'utilisons que les messages d'un seul employé. Vous pouvez récupérer le jeu de données entier à l'adresse suivante https://www.cs.cmu.edu/~./enron/enron_mail_20150507.tar.gz.



### Sommaire:
___


[Préliminaires](#unit0)  
[Exercice 1](#unit1)  
[Exercice 2](#unit2)  
[Exercice 3](#unit3)  


In [1]:
using StatsBase, Statistics, DataFrames

# Préliminaires  <a id = "unit0" > </a > 


Les codes de cette section permettent de traiter les fichiers textes correspondant aux messages électroniques avant de pouvoir répondre aux questions.

### Construction des ensembles d'entraînement et de test

Les messages électroniques de l'utilisateur nommé *Enron1* sont répartis dans un dossier *ham* et un dossier *spam*. La cellule de code permet d'extraire aléatoirement des courriels et des pourriels pour l'ensemble d'entraînement. On prend le $2/3$ des messages pour constituer l'échantillon d'entraînement.

Le dictionnaire ``TrainSet`` contient deux champs :
- *:Ham* qui contient la liste des fichiers textes correspondants aux courriels de l'ensemble d'entraînement. 
- *:Spam* qui contient la liste des fichiers textes correspondants aux pourriels de l'ensemble d'entraînement.

Le dictionnaire ``TestSet`` contient les mêmes deux champs mais pour l'ensemble de test.

In [1]:
# Récupération des noms de fichier de tous les hams
filesdir = "data/enron1/ham/"
filename_ham = filesdir.*readdir(filesdir)

# Récupération des noms de fichier de tous les spams
filesdir = "data/enron1/spam/"
filename_spam = filesdir.*readdir(filesdir)

# nombre de fichiers pour contruire l'ensemble d'entraînement des hams
n = Int(round(2/3*length(filename_ham)))

# sélection aléatoire des fichiers de l'ensemble d'entraînement
ham_train = Array{String}(undef,n)
sample!(filename_ham, ham_train, replace=false, ordered=false)
ham_test = setdiff(filename_ham, ham_train)


# nombre de fichiers pour contruire l'ensemble d'entraînement des spams
n = Int(round(2/3*length(filename_spam)))

# sélection aléatoire des fichiers de l'ensemble d'entraînement
spam_train = Array{String}(undef,n)
sample!(filename_spam, spam_train, replace=false, ordered=false)
spam_test = setdiff(filename_spam, spam_train)


# Sauvegarder les ensembles d'entraînement et de test dans des dictionnaires
TrainSet = Dict( :Ham => ham_train, :Spam => spam_train)
TestSet = Dict( :Ham => ham_test, :Spam => spam_test)


UndefVarError: UndefVarError: sample! not defined

## Dénombrement des mots contenus dans les courriels

Cette cellule permet de dénombrer le nombre de courriels où chaque mot est présent. Le dictionnaire ``ham_wordcounts`` indique le nombre de courriels dans lesquels cahque mot apparaît.

La fonction *wordlisting* prend en entrée le chemin d'accès d'un fichier texte et sort la liste de mots présents du fichier. Si un mot apparaît plus d'une fois dans le fichier, la fonction ne sort que la présence de ce mot, pas la quantité de fois où il apparaît.

La fonction *wordcounting* prend en entrée une matrice de liste de mots. La fonction dénombre le nombre de lignes où le mot apparaît.

In [3]:
"""
wordlisting : Cette fonction transforme un fichier texte en une liste de mots. Le nombre de fois que
              les mots apparaîssent ne sont pas répertorié.
Input: filename::String le chemin du fichier texte 
Output: Array{Sting} Liste des mots contenus dans le fichier texte
"""
function wordlisting(filename::String)
    
    f = read(filename, String)
    text = replace(f, r"[0123456789]" => "")
    words = split(text, r"\W+")
    filter!(x -> length(x) > 1, words)
    wordlist = unique(words)
    
end

"""
wordcounting : À partir d'un Array of Array contenant la liste des mots d'un ensemble de fichiers texte, la fonction 
               retourne le nombre de fois où chaque mot est présent.
Input: Un array correspondant à la liste des mots pour chacun des fichiers texte 
Output: Dictionnaire compilant le nombre de ligne dans lesquelles chacun des mots apparaît.
"""
function wordcounting(A::Array{Array{SubString{String},1},1})
   
    words = vcat(A...)

    wordcounts = Dict{String,Int64}()

    for word in words
        wordcounts[word]=get(wordcounts, word, 0) + 1
    end
    
    return wordcounts
    
end

wordcounting (generic function with 1 method)

In [4]:
ham_wordlist = wordlisting.(TrainSet[:Ham])
ham_wordcounts = wordcounting(ham_wordlist)

Dict{String,Int64} with 13648 entries:
  "corbally"    => 1
  "henry"       => 3
  "gerdman"     => 1
  "cuss"        => 1
  "rises"       => 1
  "hampshire"   => 3
  "tnpc"        => 1
  "progression" => 1
  "rhonda"      => 9
  "gathered"    => 7
  "aldano"      => 1
  "acton"       => 66
  "underground" => 1
  "budgeted"    => 2
  "november"    => 108
  "backup"      => 2
  "undernom"    => 1
  "stress"      => 3
  "caught"      => 1
  "rectified"   => 1
  "premature"   => 1
  "fountain"    => 1
  "hicks"       => 1
  "package"     => 16
  "qnec"        => 1
  ⋮             => ⋮

## Dénombrement des mots contenus dans les pourriels

Cette cellule permet de dénombrer le nombre de courriels où chaque mot est présent. Le dictionnaire ``spam_wordcounts`` indique le nombre de courriels dans lesquels cahque mot apparaît.

Les fonctions *wordlisting* et *wordcounting* sont utilisées.

In [5]:
spam_wordlist = wordlisting.(TrainSet[:Spam])
spam_wordcounts = wordcounting(spam_wordlist)

Dict{String,Int64} with 29840 entries:
  "upsurge"        => 1
  "rpiebkwgu"      => 1
  "eowrsmi"        => 1
  "grp"            => 2
  "null"           => 1
  "staphylococcus" => 1
  "inattentive"    => 1
  "gout"           => 1
  "henry"          => 2
  "mycology"       => 1
  "aslpp"          => 1
  "maggotadvances" => 1
  "jemimajones"    => 1
  "corrodible"     => 1
  "brandt"         => 2
  "hampshire"      => 1
  "whiz"           => 1
  "vrmtk"          => 1
  "rhonda"         => 1
  "il"             => 11
  "neumann"        => 1
  "soapstone"      => 1
  "gathered"       => 14
  "dealon"         => 1
  "lovers"         => 1
  ⋮                => ⋮

# Exercice 1 <a id = "unit1" > </a > 

Considérez le mot ***http*** comme variable explicative pour classer les messages électroniques en courriels et pourriels.

### a) Si un message contient le mot ***http***, quelle est la probabilité que ce message soit un pourriel ?

### b) Si un message ne contient pas le mot ***http***, quelle est la probabilité que ce message soit un pourriel ?

### c) Filtrez tous les courriels de l'échantillon de test. Quelle est la proportion de courriels classés comme pourriels?

### d) Filtrez tous les pourriels de l'échantillon de test. Quelle est la proportion de pourriels classés comme pourriels?

# Exercice 2 <a id = "unit2" > </a > 

Considérez les mots ***http*** et ***enron*** comme variables explicatives pour classer les messages électroniques en courriels et pourriels.

### a) Si un message contient les mots ***http*** et ***enron***, quelle est la probabilité que ce message soit un pourriel ?

### b) Si un message ne contient pas les mots ***http*** et ***enron***, quelle est la probabilité que ce message soit un pourriel ?

### c) Si un message contient le mot ***http*** mais ne contient pas le mot ***enron***, quelle est la probabilité que ce message soit un pourriel ?

### d) Si un message ne contient pas le mot ***http*** mais contient le mot ***enron***, quelle est la probabilité que ce message soit un pourriel ?

### e) Filtrez tous les courriels de l'échantillon de test. Quelle est la proportion de courriels classés comme pourriels ?

### f) Filtrez tous les pourriels de l'échantillon de test. Quelle est la proportion de pourriels classés comme pourriels ?

# Exercice 3 <a id = "unit3" > </a > 

Pour cet exercice, nous utiliserons les mots les plus discriminant pour filtrer les messages. Pour identifier les mots les plus discriminants, l'information conjointe entre les mots et le classement est utilisée. L'information conjointe est une notion que nous verrons dans le dernier chapitre du cours concernant la théorie de l'information.


L'exécution de la première cellule de code de cette section vous donnera la variable ``discr_words``. Le premier mot de cette liste de mot correspond au mot le plus discriminant pour classer les messages en courriels et pourriels. Le deuxième mot de la liste est le second mot le plus discriminant et ainsi de suite.

In [6]:

struct BagOfWords
    n₀::Int               # Nombre de courriels de l'ensemble d'entraînement
    n₁::Int               # Nombre de pourriels de l'ensemble d'entraînement 
    ham_wordlist::Dict    # Occurrence des mots dans les hams
    spam_wordlist::Dict # Occurrence des mots dans les spams
end

function wordoccurrences(word::T,B::BagOfWords) where T<:AbstractString
    
    ham_wordcounts = B.ham_wordlist
    spam_wordcounts = B.spam_wordlist

    if haskey(ham_wordcounts, word)
        n10 = ham_wordcounts[word]
    else
        n10 = 0
    end

    if haskey(spam_wordcounts, word)
        n11 = spam_wordcounts[word]
    else
        n11 = 0
    end
    
    n = [n10, n11]
    
    return n
    
end

function mutualInformation(word::T,B::BagOfWords) where T<:AbstractString
   
    α = B.n₁ / (B.n₀ + B.n₁)
    
    n = wordoccurrences(word,B)
    
    θ₀₁ = (n[1]+1) / (B.n₀+2)
    θ₁₁ = (n[2]+1) / (B.n₁+2)
    
    θ₁ = (1-α)*θ₀₁ + α*θ₁₁ 
    
    I_mat = [ (1-α)*(1-θ₀₁)*log( (1-θ₀₁)/(1-θ₁) ), (1-α)*θ₀₁*log( θ₀₁/θ₁ ),
        α*(1-θ₁₁)*log( (1-θ₁₁)/(1-θ₁) ), α*θ₁₁*log( θ₁₁/θ₁ )  ]
    
    I = sum(I_mat)
    
    return I
    
end


wordBag = BagOfWords(length(TrainSet[:Ham]),length(TrainSet[:Spam]),ham_wordcounts,spam_wordcounts)

filenames = vcat(TrainSet[:Ham],TrainSet[:Spam])

wordlist = wordlisting.(filenames)

words = unique(vcat(wordlist...))

I = Float64[]

for word in words
   push!(I, mutualInformation(word,wordBag)) 
end

indperm = sortperm(I,rev=true)

discr_words = words[indperm]

37209-element Array{SubString{String},1}:
 "enron"     
 "cc"        
 "hpl"       
 "daren"     
 "gas"       
 "pm"        
 "http"      
 "forwarded" 
 "ect"       
 "hou"       
 "subject"   
 "thanks"    
 "meter"     
 ⋮           
 "fellow"    
 "compiling" 
 "portfolios"
 "alvin"     
 "wright"    
 "pete"      
 "run"       
 "again"     
 "yes"       
 "drop"      
 "type"      
 "calls"     

## a) En prenant les 10 mots les plus discriminant, quelle est la proportion de courriels de l'ensemble de test qui sont classés comme pourriels ?

## b) En prenant les 10 mots les plus discriminant, quelle est la proportion de pourriels de l'ensemble de test qui sont classés comme pourriels ?

## c) En prenant les 100 mots les plus discriminant, quelle est la proportion de courriels de l'ensemble de test qui sont classés comme pourriels ?

## d) En prenant les 100 mots les plus discriminant, quelle est la proportion de pourriels de l'ensemble de test qui sont classés comme pourriels ?

## e) Quel serait le nombre idéal de mots discriminant qu'il faudrait prendre ?