### Import des bibliothéques
---

In [1]:

import numpy as np
import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt



###  Chargement des données
---

In [2]:
df = pd.read_csv("data/spam.csv", encoding="latin-1")
df.head()

Unnamed: 0,v1,v2,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,ham,"Go until jurong point, crazy.. Available only ...",,,
1,ham,Ok lar... Joking wif u oni...,,,
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,,,
3,ham,U dun say so early hor... U c already then say...,,,
4,ham,"Nah I don't think he goes to usf, he lives aro...",,,


### L'EDA Analyse exploratoire des données Basique
---

In [3]:
print(f"Nous avons {df.shape[0]} colonnes et {df.shape[1]} lignes dans ce jeu de données")

print("\n... Informations sur les colonnes et les types de données ...")
df.info() 

print("\n... Statistiques descriptives sur les colonnes numériques ...")
display(df.describe())

print("\n... Valeurs manquantes ...")
nb_valeurs_manquantes = df.isnull().sum()
pourcentage_valeurs_manquantes = (df.isnull().mean() * 100).round(2)
df_manquants = pd.DataFrame({
    'Nombre de Valeurs Manquantes': nb_valeurs_manquantes,
    '% Valeurs Manquantes': pourcentage_valeurs_manquantes
})
# Ne garder que les colonnes avec des valeurs manquantes
df_manquants[df_manquants['Nombre de Valeurs Manquantes'] > 0].sort_values('Nombre de Valeurs Manquantes', ascending=False)
print(df_manquants)

Nous avons 5572 colonnes et 5 lignes dans ce jeu de données

... Informations sur les colonnes et les types de données ...
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5572 entries, 0 to 5571
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   v1          5572 non-null   object
 1   v2          5572 non-null   object
 2   Unnamed: 2  50 non-null     object
 3   Unnamed: 3  12 non-null     object
 4   Unnamed: 4  6 non-null      object
dtypes: object(5)
memory usage: 217.8+ KB

... Statistiques descriptives sur les colonnes numériques ...


Unnamed: 0,v1,v2,Unnamed: 2,Unnamed: 3,Unnamed: 4
count,5572,5572,50,12,6
unique,2,5169,43,10,5
top,ham,"Sorry, I'll call later","bt not his girlfrnd... G o o d n i g h t . . .@""","MK17 92H. 450Ppw 16""","GNT:-)"""
freq,4825,30,3,2,2



... Valeurs manquantes ...
            Nombre de Valeurs Manquantes  % Valeurs Manquantes
v1                                     0                  0.00
v2                                     0                  0.00
Unnamed: 2                          5522                 99.10
Unnamed: 3                          5560                 99.78
Unnamed: 4                          5566                 99.89


### Prétraitement des données
---

In [4]:
# Traitement des valeurs manquantes : supression col unnamed 2 - 3 et 4 avec plus de 99 % de valeurs manquantes
df.drop(['Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'], axis=1, inplace=True)

# Renommer les colonnes
df.columns = ["Label", "Message"]

# ANALYSE des messages
# Visualisation des messages
pd.set_option('display.max_colwidth', None) # Configurer pandas pour afficher toute la largeur
print(df['Message'].head())

# Calcul du nombre de caractères par message
df['nbre_caractère'] = df['Message'].apply(len)

print("... Visualisation Distribution des Messages ...")
fig = px.histogram(
    df,
    x='nbre_caractère',
    color='Label',  
    title="Distribution du nombre de caractères par type de message",
    barmode='overlay')
fig.show()
print("Les spams sont plus longs, les messages ont moins de caractérent que les spam")

# ANALYSE col 'Label'
valeurs_uniques = df['Label'].value_counts()
valeurs_uniques.columns = ['label', 'nombre']
print(valeurs_uniques)

print("... Visualisation Répartition Label ...")
valeur_unique = df['Label'].value_counts().reset_index()
valeur_unique.columns = ['Label', 'Nombre']
fig = px.pie(valeur_unique, 
             values='Nombre', 
             names='Label', 
             title='Répartition Message et Spam')
fig.update_traces(textposition='inside', textinfo='label+percent')
fig.show()
print("La répartition des classes est déséquilibrée : 87 % pour les message et 13 % pour les spam")

# retraitement col 'Label' en boolean
df['Label']=df["Label"].map({"ham": 0, "spam": 1})

df.head()

0                                                Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...
1                                                                                                                                  Ok lar... Joking wif u oni...
2    Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's
3                                                                                                              U dun say so early hor... U c already then say...
4                                                                                                  Nah I don't think he goes to usf, he lives around here though
Name: Message, dtype: object
... Visualisation Distribution des Messages ...


Les spams sont plus longs, les messages ont moins de caractérent que les spam
Label
ham     4825
spam     747
Name: count, dtype: int64
... Visualisation Répartition Label ...


La répartition des classes est déséquilibrée : 87 % pour les message et 13 % pour les spam


Unnamed: 0,Label,Message,nbre_caractère
0,0,"Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...",111
1,0,Ok lar... Joking wif u oni...,29
2,1,Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's,155
3,0,U dun say so early hor... U c already then say...,49
4,0,"Nah I don't think he goes to usf, he lives around here though",61


In [5]:
# Sauvegarde du fichier 
df.to_csv("data/spam_clean.csv", index=False)