# GROUPE 10 inf3236
. TCHOUPE KENGNE DEKEL JUNIOR 19M2394 \
. NKOUNGHAWE TOMEYUM ROSALIE CORINE 19M2333 \
. BAPOLA AMASSA RICHIL PERRIN 19M2661 \
. OBAMA MEVOUNGOU DRYSTAN GODGIFT 19M2132 

## Classificateur de courrier indésirable avec KNN — From Scratch (Python)

## Type de similitude 

Dans le cadre de la classification des e-mails (spam ou jambon), les caractéristiques à comparer sont les fréquences d’un mot dans chaque email. La distance euclidienne est utilisée pour déterminer la similitude entre deux courriels; plus la distance est petite, plus elle est similaire. La formule de distance euclidienne utilisée dans l’algorithme est la suivante :

$D(a,b) = \sqrt{\sum_{i=0}^n (b_i -a_i)^2}$

 ## Pseudo code

1. Chargez les e-mails de spam et de jambon
2. Supprimer la ponctuation et les symboles courants
3. Mettre en minuscule toutes les lettres
4. Supprimez les mots vides (mots très courants comme les pronoms, les articles, etc.)
5. Divisez les e-mails en e-mails d'entrainement  et en e-mails de test
6. Pour chaque e-mail de test, calculez la similarité entre celui-ci et tous les e-mails de formation
  1. Pour chaque mot qui existe dans l'e-mail de test ou l'e-mail de formation, comptez sa fréquence dans les deux e-mails
  2. calculer la distance euclidienne entre les deux e-mails pour déterminer la similarité
7. Trier les e-mails par ordre croissant de distance euclidienne
8. Sélectionnez les k voisins les plus proches (distance la plus courte)
9. Attribuez la classe la plus fréquente dans les k plus proches voisins sélectionnés au nouvel e-mail

## Bibliothèques utilisées

In [19]:
import os ## pour manipuler les fichiers
import string ## pour avoir la liste des ponctuations
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords ## pour avoir la liste des mots vides 
from sklearn.model_selection import train_test_split ## pour diviser les données(train, test)
from sklearn.metrics import accuracy_score ## pour calculer la precision du model
import numpy as np ## pour manipuler les tableaux avancés

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## 1. Chargement des données

In [2]:
from google.colab import drive
drive.mount('/content/drive')
location = "drive/MyDrive/colab_notebooks/colab_notebooks/inf3236/enron2"
location2 = "drive/MyDrive/colab_notebooks/colab_notebooks/inf3236/"

Mounted at /content/drive


In [40]:
def load_data():
    print("Chargement des données...")
    
    ## récupérons tous les noms de fichiers des fichiers texte dans
    ## chacun des dossiers ham et spam et les stocker dans ham_files_location
    ## et spam_files_location respectivement.
    ham_files_location = os.listdir(location+"/ham")
    spam_files_location = os.listdir(location+"/spam")
    data = []  #liste pour stocker chaque texte d’e-mail et son étiquette correspondante.
    # Load ham email
    ## Nous parcourons la liste des noms de fichiers texte ham, utilisons open() pour
    ## ouvrir un fichier, puis utilisons str(f.read()) pour lire le texte de l’e-mail
    ## sous forme de chaîne et le stockons dans du texte variable. Une liste faite de texte
    ## et l’étiquette correspondante « jambon » sont ajoutées aux données de la liste.
    for file_path in ham_files_location:
        f = open(location+"/ham/" + file_path, "r")
        text = str(f.read())
        data.append([text, "ham"])
    # Load spam email
    for file_path in spam_files_location:
        f = open(location+"/spam/" + file_path, "r")  ## ouverture du fichier
        text = str(f.read()) ## lecture du fichier
        data.append([text, "spam"])   ## ajout du feature et du label au jeu de donnée
        
    ## Les données de liste sont transformées en tableau numpy, pour permettre une 
    ## meilleure manipulation du tableau ultérieurement. les données sont ensuite renvoyées.
    data = np.array(data)
    
    print("flag 1: données chargées")
    return data

## 2. Prétraitement des données

In [22]:
# Prétraitement des données : suppression du bruit
def preprocess_data(data):
    print("Prétraitement des données ...")
    
    punc = string.punctuation           # liste de ponctuation
    sw = stopwords.words('english')     # liste de stopwords
    for record in data:
        # Supprimer la ponctuation et les symboles courants
        for items in punc:
            record[0]=record[0].replace(items,"") ## renplacer chaque ponctuation par une chaine vide
        # mettre toutes les lettres en miniscule et supression des stopwords
        splittedWords = record[0].split()
        newText = ""
        for word in splittedWords:
            if word not in sw:
                word = word.lower() ## mise des lettres en miniscule
                newText = newText + " " + word  
        record[0] = newText
        
    print("flag 2:données prétraités")        
    return data

## 3. Division des données en ensembles d'entrainement et de test
L’ensemble de données est divisé en un ensemble de formation (73 %) et un ensemble de tests (27 %).

In [23]:
# Diviser l'ensemble de données d'origine en un ensemble 
#de données d'entraînement et un ensemble de données de test
def split_data(data):
    print("division des données...")
    
    features = data[:, 0]   # tableau contenant tous les corps de texte des e-mails
    labels = data[:, 1]     # tableau contenant les étiquettes correspondantes
    print(labels)
    training_data, test_data, training_labels, test_labels =\
        train_test_split(features, labels, test_size = 0.27, random_state = 42)
    
    print("flag 3: données divisées")
    return training_data, test_data, training_labels, test_labels

# L’algorithme KNN

## get_count()
Cette fonction prend un seul texte d’e-mail et le divise à l’aide de split(). 
La fréquence d’occurrence de chaque mot dans l’e-mail est comptée et enregistrée dans wordCounts, 
qui est de type de données de dictionnaire. Le dictionnaire wordCounts est ensuite renvoyé.

In [24]:
def get_count(text):
    wordCounts = dict()
    for word in text.split():
        if word in wordCounts:
            wordCounts[word] += 1
        else:
            wordCounts[word] = 1
    
    return wordCounts

## euclidean_difference()
Cette fonction prend en compte un dictionnaire du nombre de mots d’un test_WordCounts d’e-mail de test et un autre dictionnaire d’un e-mail d'entrainement, training_wordCounts. total stocke la somme de la différence au carré de la fréquence d’un mot dans l’e-mail de test et de formation.

In [25]:
def euclidean_difference(test_WordCounts, training_WordCounts):
    total = 0
    for word in test_WordCounts:
        if word in test_WordCounts and word in training_WordCounts:
            total += (test_WordCounts[word] - training_WordCounts[word])**2
            del training_WordCounts[word]
        else:
            total += test_WordCounts[word]**2
    for word in training_WordCounts:
        total += training_WordCounts[word]**2
    return total**0.5

## get_class()
Cette fonction prend en compte la liste des K voisins les plus proches sélectionnés pour déterminer la classe de l’e-mail de test actuel. spam_count et ham_count stockons la fréquence d’occurrence de chaque étiquette « spam » et étiquette « jambon » respectivement chez les voisins les plus proches sélectionnés par K.

In [26]:
def get_class(selected_Kvalues):
    spam_count = 0
    ham_count = 0
    for value in selected_Kvalues:
        if value[0] == "spam":
            spam_count += 1
        else:
            ham_count += 1
    if spam_count > ham_count:
        return "spam"
    else:
        return "ham"

## knn_classifier()
Il s’agit de la fonction de classificateur KNN. Il prend en compte l’e-mail de formation, les étiquettes de formation, les données de test, la valeur K et le nombre d’e-mails de test à tester sur les 27% d’e-mails de test d’origine. résultat est la liste qui contiendrait les étiquettes prédites. le compteur sera simplement utilisé à des fins d’affichage pour indiquer la progression lorsque le programme est exécuté.

In [27]:
def knn_classifier(training_data, training_labels, test_data, K, tsize):
    print("Running KNN Classifier...")
    
    result = []
    counter = 1
    # word counts for training email
    training_WordCounts = [] 
    for training_text in training_data:
        training_WordCounts.append(get_count(training_text))
    for test_text in test_data:
        similarity = [] # List of euclidean distances
        test_WordCounts = get_count(test_text)  # word counts for test email
        # Getting euclidean difference 
        for index in range(len(training_data)):
            euclidean_diff =\
                euclidean_difference(test_WordCounts, training_WordCounts[index])
            similarity.append([training_labels[index], euclidean_diff])
            # Sort list in ascending order based on euclidean difference
            similarity = sorted(similarity, key = lambda i:i[1])
            # Select K nearest neighbours
            selected_Kvalues = [] 
            for i in range(K):
                selected_Kvalues.append(similarity[i])
            # Predicting the class of email
            result.append(get_class(selected_Kvalues))
        return result

 ## fonction main()
 C’est la fonction principale où le programme commence à s’exécuter. C’est là que tout est mis en place. La fonction principale prend la valeur K. Tout d’abord, tous les e-mails sont chargés à l’aide de load_data(), puis stockés dans des données. Les e-mails sont ensuite prétraités à l’aide de preprocess_data() et stockés à nouveau dans les données. les données sont ensuite divisées en training_data, test_data, training_labels et test_labels à l’aide de split_data().

In [28]:
def main(K):
    data = load_data()
    data = preprocess_data(data)
    training_data, test_data, training_labels, test_labels = split_data(data)
    tsize = len(test_data)
    result = knn_classifier(training_data, training_labels, test_data[:tsize], K, tsize) 
    accuracy = accuracy_score(test_labels[:tsize], result)
    print("training data size\t: " + str(len(training_data)))
    print("test data size\t\t: " + str(len(test_data)))
    print("K value\t\t\t\t: " + str(K))
    print("Samples tested\t\t: " + str(tsize))
    print("% accuracy\t\t\t: " + str(accuracy * 100))
    print("Number correct\t\t: " + str(int(accuracy * tsize)))
    print("Number wrong\t\t: " + str(int((1 - accuracy) * tsize)))

In [None]:
main(11)

In [7]:
%cd drive/MyDrive/colab_notebooks/colab_notebooks/inf3236/


[Errno 2] No such file or directory: 'drive/MyDrive/colab_notebooks/colab_notebooks/inf3236/'
/content/drive/MyDrive/colab_notebooks/colab_notebooks/inf3236


In [11]:
%ls

 [0m[01;34menron2[0m/   TP1.ipynb   TP2.ipynb  'TPE3(KNN classifier).ipynb'


In [16]:
token = "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"
username = "dekelshoot"
useremail = "juniortchoupe5@gmail.com"
repository = "Groupe10_inf3236"
!git config --global user.email useremail
!git config --global user.name  username 
!git add  "TPE3(KNN classifier).ipynb"

!git status
!git commit -m "TPE3(KNN classifier) Machine Learning "

On branch master
Your branch is up to date with 'origin/master'.

Changes to be committed:
  (use "git reset HEAD <file>..." to unstage)

	[32mnew file:   TPE3(KNN classifier).ipynb[m

Changes not staged for commit:
  (use "git add <file>..." to update what will be committed)
  (use "git checkout -- <file>..." to discard changes in working directory)

	[31mmodified:   TP1.ipynb[m

Untracked files:
  (use "git add <file>..." to include in what will be committed)

	[31mTP2.ipynb[m
	[31menron2/[m

[master a988fc9] TPE3(KNN classifier) Machine Learning
 1 file changed, 1 insertion(+)
 create mode 100644 TPE3(KNN classifier).ipynb


In [20]:
!git remote add origin https://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@github.com/dekelshoot/projet.git
!git remote -v

usage: git remote add [<options>] <name> <url>

    -f, --fetch           fetch the remote branches
    --tags                import all tags and associated objects when fetching
                          or do not fetch any tag at all (--no-tags)
    -t, --track <branch>  branch(es) to track
    -m, --master <branch>
                          master branch
    --mirror[=<push|fetch>]
                          set up remote as a mirror to push to or fetch from



In [18]:
!git push -u origin master

fatal: could not read Password for 'https://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@github.com': No such device or address
