# AT&T Spams detector

## Loading the data and libraries

In [5]:
# librairies usuelles
import pandas as pd
import numpy as np
import plotly.express as px

# librairies qui vont servir lors du preprocessing textuel
import datetime
import spacy
from spacy.lang.en.stop_words import STOP_WORDS
import re

# librairies pour nos modèles : Tensorflow et Transformers de Hugging Face (pour les modèles pré-entraînés)
import tensorflow as tf
from transformers import TFAutoModel, AutoTokenizer

# classes et méthodes de Scikit-Learn pour le préprocessing, le splitting, les métriques, etc...
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import ConfusionMatrixDisplay, accuracy_score, precision_score, recall_score

# On importe également les plugings params pour Tensorboard, pour le tracking des performances de nos modèles
from tensorboard.plugins.hparams import api as hp

In [8]:
# import vocabulary package
# Charger le modèle de langue anglais
!python -m spacy download en_core_web_sm


Collecting en-core-web-sm==3.6.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.6.0/en_core_web_sm-3.6.0-py3-none-any.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m19.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Installing collected packages: en-core-web-sm
Successfully installed en-core-web-sm-3.6.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


In [9]:
# Load dataset 

data = pd.read_csv('./spam.csv', encoding = 'ISO-8859-1')
data.head()

Unnamed: 0,v1,v2,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,ham,"Go until jurong point, crazy.. Available only ...",,,
1,ham,Ok lar... Joking wif u oni...,,,
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,,,
3,ham,U dun say so early hor... U c already then say...,,,
4,ham,"Nah I don't think he goes to usf, he lives aro...",,,


In [10]:

# Compter le nombre de valeurs NaN pour chaque colonne
nan_counts = data.isna().sum()

print("Nombre de valeurs NaN par colonne :")
print(nan_counts)

Nombre de valeurs NaN par colonne :
v1               0
v2               0
Unnamed: 2    5522
Unnamed: 3    5560
Unnamed: 4    5566
dtype: int64


In [12]:
# Supprimer les colonnes qui contiennent plus de 50% de valeurs NaN

data = data.drop(['Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'], axis=1)
data.head()

Unnamed: 0,v1,v2
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [13]:
# check class repartition

data['v1'].value_counts()

v1
ham     4825
spam     747
Name: count, dtype: int64

## preprocessing

### vocab

In [14]:
# remove poncutuations and convert to lower cases

data['v2_clean'] = data['v2'].apply(lambda s : re.sub(r'[^\w\s]', '', s).lower())
data.head()

Unnamed: 0,v1,v2,v2_clean
0,ham,"Go until jurong point, crazy.. Available only ...",go until jurong point crazy available only in ...
1,ham,Ok lar... Joking wif u oni...,ok lar joking wif u oni
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,free entry in 2 a wkly comp to win fa cup fina...
3,ham,U dun say so early hor... U c already then say...,u dun say so early hor u c already then say
4,ham,"Nah I don't think he goes to usf, he lives aro...",nah i dont think he goes to usf he lives aroun...


In [15]:
# lemmatize 
nlp = spacy.load('en_core_web_md')
data["v2_lemma"] = data["v2_clean"].apply(lambda x: " ".join([token.lemma_ for token in nlp(x) if (token.lemma_ not in STOP_WORDS) and (token.text not in STOP_WORDS)]))    
data.head()


Unnamed: 0,v1,v2,v2_clean,v2_lemma
0,ham,"Go until jurong point, crazy.. Available only ...",go until jurong point crazy available only in ...,jurong point crazy available bugis n great wor...
1,ham,Ok lar... Joking wif u oni...,ok lar joking wif u oni,ok lar joke wif u oni
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,free entry in 2 a wkly comp to win fa cup fina...,free entry 2 wkly comp win fa cup final tkts 2...
3,ham,U dun say so early hor... U c already then say...,u dun say so early hor u c already then say,u dun early hor u c
4,ham,"Nah I don't think he goes to usf, he lives aro...",nah i dont think he goes to usf he lives aroun...,nah think usf live


In [17]:
## tokenisation


# Créer un objet Tokenizer avec un vocabulaire maximal de 2000 mots et un token "out_of_vocab" pour les mots hors vocabulaire
tokenizer = tf.keras.preprocessing.text.Tokenizer(num_words=2000, oov_token="out_of_vocab")

# Adapter le tokenizer aux textes de la colonne 'v2_lemma' de la variable 'data'
tokenizer.fit_on_texts(data['v2_lemma'])

# Obtenir la taille du vocabulaire (nombre de mots) basée sur le nombre maximal de mots spécifié
vocab_size = tokenizer.num_words
print(vocab_size)

print(tokenizer.index_word)
# Transformer les textes de la colonne 'v2_lemma' en séquences d'entiers en utilisant le tokenizer
data["v2_tokenized"] = tokenizer.texts_to_sequences(data['v2_lemma'])

# Afficher les premières lignes du DataFrame 'data' pour visualiser les résultats
print(data.head())

2000
     v1                                                 v2  \
0   ham  Go until jurong point, crazy.. Available only ...   
1   ham                      Ok lar... Joking wif u oni...   
2  spam  Free entry in 2 a wkly comp to win FA Cup fina...   
3   ham  U dun say so early hor... U c already then say...   
4   ham  Nah I don't think he goes to usf, he lives aro...   

                                            v2_clean  \
0  go until jurong point crazy available only in ...   
1                            ok lar joking wif u oni   
2  free entry in 2 a wkly comp to win fa cup fina...   
3        u dun say so early hor u c already then say   
4  nah i dont think he goes to usf he lives aroun...   

                                            v2_lemma  \
0  jurong point crazy available bugis n great wor...   
1                              ok lar joke wif u oni   
2  free entry 2 wkly comp win fa cup final tkts 2...   
3                                u dun early hor u c   
4    

### train test split

On travaille sur une tâche de classification où les classes sont déséquilibrées (il y a environ 6 fois plus de ham que de spams), donc on utilise la stratification pour s' assurer que la proportion de chaque classe est maintenue dans les ensembles dde train et test.

De plus, les hams représentent 87% des données, alors que les spams représentent seulement 13%. On va donc sélectionner un test size donc on choisit la valeur de l'argument test_size de manière à maintenir la même proportion entre les classes dans l'ensemble de test que dans l'ensemble d'entraînement. Cela garantit que votre modèle est évalué de manière équitable sur toutes les classes

In [27]:
# split train test sets with 0.13 due to 
data_train_test, data_val = train_test_split(data, test_size=0.13, stratify=data['v1'], random_state=2)
print(data_train_test)
print(data_val)

        v1                                                 v2  \
4209   ham  No da:)he is stupid da..always sending like th...   
3507   ham  Camera quite good, 10.1mega pixels, 3optical a...   
3325   ham  Huh so fast... Dat means u havent finished pai...   
2522   ham  Dunno lei... I might b eatin wif my frens... I...   
3933   ham   How come guoyang go n tell her? Then u told her?   
...    ...                                                ...   
1386   ham                        All e best 4 ur exam later.   
1271   ham  If you still havent collected the dough pls le...   
672   spam  Get ur 1st RINGTONE FREE NOW! Reply to this ms...   
2991   ham          K.i did't see you.:)k:)where are you now?   
2658   ham                         Not yet chikku..wat abt u?   

                                               v2_clean  \
4209  no dahe is stupid daalways sending like thisdo...   
3507  camera quite good 101mega pixels 3optical and ...   
3325   huh so fast dat means u havent fini

La valeur cible étant déséquillibrée nous pouvons tenter de réaliser de l'undersampling pour améliiorer  les performances du training.

Définition de la fonction d'under-sampling. On définie un nombre de fois (nb_reduce) où les non-spams seront présents par rapport au nombre de spams. On prend tous les spams, on les compte, et on prend ensuite au hasard nb_spams X nb_reduce parmi les non-spams. Puis ensuite, on concatène les deux parties et on re-mélange :


In [24]:


def data_under_sampling(data, nb_reduce):
  data_sample_2 = data.loc[data['v1']=='spam',:]
  len_class_sub = len(data_sample_2)
  # extrait toutes les lignes de l'ensemble de données où la colonne 'v1' a la valeur 'ham'.
  # Ensuite, la méthode .sample() est utilisée pour sous-échantillonner cette classe "ham". 
  # Le nombre d'échantillons de la classe "ham" sous-échantillonnée est déterminé en multipliant nb_reduce par la longueur de la classe "spam" calculée précédemment. 
  # Cela réduit la classe majoritaire à un multiple de la taille de la classe minoritaire.
  data_sample_1 = data.loc[data['v1']=='ham',:].sample(nb_reduce * len_class_sub) 
  # Concatène verticalement (axe 0) les deux sous-ensembles de données résultants (le sous-ensemble de données "ham" sous-échantillonné et 
  # le sous-ensemble de données "spam"). Ensuite, .sample(frac=1) est utilisé pour mélanger aléatoirement les lignes de l'ensemble de données résultant, 
  # et .reset_index(drop=True) réinitialise les index des lignes pour créer un nouvel ensemble de données sous-échantillonné et mélangé.".  
  return pd.concat([data_sample_1,data_sample_2], axis=0).sample(frac=1).reset_index(drop=True)

data_red = data_under_sampling(data_train_test, 4)
print(data_red.head())
print(data_red.shape)


     v1                                                 v2  \
0  spam  Do you want a New Nokia 3510i Colour Phone Del...   
1   ham                           May i call You later Pls   
2  spam  Wanna have a laugh? Try CHIT-CHAT on your mobi...   
3   ham  Yeah I think my usual guy's still passed out f...   
4   ham      HI BABE IM AT HOME NOW WANNA DO SOMETHING? XX   

                                            v2_clean  \
0  do you want a new nokia 3510i colour phone del...   
1                           may i call you later pls   
2  wanna have a laugh try chitchat on your mobile...   
3  yeah i think my usual guys still passed out fr...   
4       hi babe im at home now wanna do something xx   

                                            v2_lemma  \
0  want new nokia 3510i colour phone deliver tomo...   
1                                          later pls   
2  wanna laugh try chitchat mobile logon txte wor...   
3  yeah think usual guy pass night ahold anybody ...   
4         

In [26]:
# calcule la longueur maximale d'une séquence de tokens dans la colonne 'v2_tokenized' 

max_len_sentence = max([len(token) for token in data['v2_tokenized'].to_list()])
max_len_sentence



72

In [None]:
# on applique le padding 
v2_pad_train = tf.keras.preprocessing.sequence.pad_sequences(data_red['v2_tokenized'], padding="post", maxlen=max_len_sentence)
v2_pad_val = tf.keras.preprocessing.sequence.pad_sequences(data_val['v2_tokenized'], padding="post", maxlen=max_len_sentence)