## Email Spam Classifier
Un classificateur d'emails est un algorithme qui apprend à savoir si un email est un spam (email non désiré) ou un ham (email désiré).

Notre programme utilisera du [Machine Learning (ML)](https://fr.wikipedia.org/wiki/Machine_learning) [plus de details](https://en.wikipedia.org/wiki/Apprentissage_automatique)

### NumPy
[NumPy](https://numpy.org/) est une bibliothèque pour langage de programmation Python, destinée à manipuler des matrices ou tableaux multidimensionnels ainsi que des fonctions mathématiques opérant sur ces tableaux.

In [None]:
import numpy as np

### Pandas
[Pandas](https://pandas.pydata.org/) est une librairie permettant la manipulation et l'analyse des données

In [None]:
import pandas as pd

**1. Manipulation du csv**

Il est maintenant temps de lire et stocker notre datasets afin de pouvoir le traîter par la suite.
La librairie Pandas devrait être utile pour ça..

In [None]:
df = # lecture des datasets (.csv)
df

L'output doit être similaire à ça:

![output_csv-2.png](attachment:output_csv-2.png)

In [None]:
# PAS BESOIN DE MODIFICATION ICI
data = df.where((pd.notnull(df)), '') # préparation des données 
data.loc[data['Category'] == 'spam', 'Category',] = 0 # remplacer 'spam' par 0
data.loc[data['Category'] == 'ham', 'Category',] = 1 # remplacer 'ham' par 1

- Récupérer les bonnes colonnes

> **X** et **Y** sont les lettres communément données pour représenter les ***inputs*** et ***outputs***

In [None]:
X = data[''] # Quelle catégorie récupérer ?
Y = data[''] # Où sont les outputs dans votre tableau ?

### Scikit-learn
[Scikit-learn](https://scikit-learn.org/stable/) est une bibliothèque open-source destinée à l'apprentissage automatique (Machine Learning - ML).

Elle est développée par de nombreux contributeurs notamment dans le monde académique par des instituts français d'enseignement supérieur et de recherche.

In [None]:
from sklearn.model_selection import train_test_split # Pour diviser le jeu de données en jeu d'entraînement et jeu de test
from sklearn.feature_extraction.text import TfidfVectorizer # Pour transformer les données textuelles en vecteurs
from sklearn.linear_model import LogisticRegression # Intialisation du modèle de régression logistique
from sklearn.metrics import accuracy_score # Mesure de performances en mesurant l'exactitude des prédictions

In [None]:
# La taille du test doit être de 20%
# L'état aléatoire doit être de 3
X_train, X_test, Y_train, Y_test = train_test_split() # Split les valeurs de test et d'entraînement

In [None]:
print(X.shape)
print(X_train.shape)
print(X_test.shape)

In [None]:
print(Y.shape)
print(Y_train.shape)
print(Y_test.shape)

In [None]:
feature_extraction = TfidfVectorizer(min_df=1, stop_words='english', lowercase=True)

X_train_features = feature_extraction.fit_transform(X_train)
X_test_features = feature_extraction.transform(X_test)


Y_train = # Y_train doit être de type int
Y_test = # Y_test doit être de type int

In [None]:
print(X_train_features)

**2. Initialisation du modèle**

Le modèle est un réseau de neurones qui va permettre l'entraînement et la prédiction sur des données.  
Notre modèle utilise la [régression logistique](https://fr.wikipedia.org/wiki/R%C3%A9gression_logistique). 

<img src="assets/illu_regression.png" alt="Description de l'image" style="width:512px;height:281px;">

En statistiques, la régression logistique ou modèle logit est un modèle de régression binomiale. Comme pour tous les modèles de régression binomiale, il s'agit d'expliquer au mieux une variable binaire par des observations réelles nombreuses, grâce à un modèle mathématique __La formule étant celle-ci__:
$$f(x) = \frac{1} {1+e^{-x}}$$

In [None]:
model = # Initialiser le modèle de régression logistique
model.fit(X_train_features, Y_train)

In [None]:
prediction_on_training_data = # Lancer une prédiction du modèle sur les valeurs 'train'
accuracy_on_training_data = # Calculer la précision sur les données 'train'

print("Précision sur les données 'train': {:.2f}%".format(accuracy_on_training_data * 100))

In [None]:
# Faire de même pour les données 'test'

print("Précision sur les données 'test': {:.2f}%".format(accuracy_on_test_data * 100))

**3. C'est l'heure de tester**

Vous pouvez maintenant tester si votre modèle reconnait bien les spams !

In [None]:
# Exemple d'email spam
# your_email = ["MobileMovieClub: To use your credit, click the WAP link in the next txt message or click here>> http://wap. xxxmobilemovieclub.com?n=QJKGIGHJJGCBL"]

# Exemple d'email ham
# your_email = ["Hello, how are you?"]

input_data_features = feature_extraction.transform(your_email) # Préparation de l'input pour le modèle

# Lancer une prédiction du modèle sur votre input et analyser le résultat

### Fin de l'exercise
Vous avez découvert un petit aperçu de ce qui se cache derrière le mot IA, mais ne pensez pas tout savoir. Car de nombreux autres termes vous attendent encore...

Si vous voulez développer vos connaissances intéressez vous aux différentes IA actuellement en développement.  
Par exemple, les LLMs (Large Langage Model) qui est nulle autre que le type d'IA de ChatGPT ! 