# Chargement et inspection initiale des données

- Importer les données, pensez à utiliser le bon séparateur

- Afficher les premières lignes et comprendre la structure des données (colonnes...)

- Afficher les dernières lignes pour vérifier s'il y a des erreurs ou des particularités à la fin du fichier

- Obtenir plus d'informations : nombre total de messages, types de données de chaque colonne, nombre de valeurs non nulles

- Vérifier les valeurs manquantes

- Des doublons ?

- Renommer les colonnes

# Analyse de l'étiquette spam/ham

* Compter le nombre d'occurrences de chaque classe, spam et ham

* Calculer la proportion de chaque classe

Vous pouvez utiliser un graphique pour mieux visualiser la distribution.

Déséquilibre de classes ? Le déséquilibre de classes peut influencer les performances du modèle.

# Analyse du texte des SMS

* Analyser la longueur des messages : distribution des longueurs pour les messages spam et ham, longueur moyenne, graphique

* Analyser le nombre de mots dans chaque message

* Présence de caractères spéciaux ou de chiffres dans les messages

# Corrigé

## Chargement et inspection initiale des données

In [None]:
import pandas as pd

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/remijul/dataset/refs/heads/master/SMSSpamCollection', sep='\t', header=None)

In [None]:
import chardet
with open('SMSSpamCollection', 'rb') as file:
    raw_data = file.read(10000)
    result = chardet.detect(raw_data)
    encoding = result['encoding']
print(encoding)

In [None]:
data.head()

In [None]:
data.tail()

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/remijul/dataset/refs/heads/master/SMSSpamCollection', sep='\t', names=['label', 'sms'])

In [None]:
data.info()

In [None]:
# Les entrées contenant "ham" ou "spam" dans la deuxième colonne
data[data['sms'].str.contains('ham|spam')]

In [None]:
data[data['sms'].str.contains(r'\b(ham|spam)\t')]

In [None]:
data[data['sms'].str.contains(r'\b(?:ham|spam)\t')]

In [None]:
import re

# Texte d'exemple
text = "ham\t and spam\t are types of processed meat."

# Expression régulière avec des groupes de capture et backreferences
pattern = r'\b(ham|spam)\t'
# pattern = r'\b(?:ham|spam)\t'

# Trouver toutes les correspondances
matches = re.findall(pattern, text)

# Afficher les correspondances
print(matches)

In [None]:
extracted = data['sms'].str.extract(r'\b(ham|spam)\t')
print(extracted.iloc[5081])

In [None]:
data[data.sms.str.contains(r'\b(?:ham|spam)\t')].iloc[0]['sms']

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/remijul/dataset/refs/heads/master/SMSSpamCollection', sep='\t', names=['label', 'sms'], quoting=csv.QUOTE_NONE)

In [None]:
data.shape

In [None]:
data.info()

In [None]:
data.isnull().sum()

In [None]:
data.describe()

In [None]:
data.value_counts()

In [None]:
duplicate_counts = pd.DataFrame(data.value_counts())
duplicate_counts

In [None]:
duplicate_counts[duplicate_counts['count'] > 1]

In [None]:
# renommer les colonnes
# df.rename(columns={index: 'nouvelle_colonne'})
# df.rename(columns={'ancienne_colonne': 'nouvelle_colonne'})
data = data.rename(columns={0: 'label', 1: 'message'})
data

In [None]:
data = data.rename(columns={'message': 'sms'})
data

## Analyse de l'étiquette spam/ham

In [None]:
# Compter le nombre d'occurrences de chaque classe
occurrences = data['label'].value_counts()
print(occurrences)

In [None]:
# Calculer la proportion de chaque classe
proportions = data['label'].value_counts(normalize=True)
print(proportions)

Il y a un déséquilibre de classes de classes

In [None]:
# Créer un graphique en barres
import matplotlib.pyplot as plt

occurrences.plot(kind='bar')  # Création du graphique à barres directement depuis Series
plt.title('Distribution des classes')
plt.xlabel('Classe')
plt.ylabel('Nombre d\'occurrences')
plt.show()

In [None]:
plt.pie(proportions, autopct=lambda p: f'{p:.1f}%', startangle=90)
plt.title('Proportion des classes')
plt.axis('equal')  # Cette ligne assure que le camembert est bien un cercle et non une ellipse
plt.show()

In [None]:
p = 86.5937
print(f'{p:.1f}%')

## Analyse du texte des SMS

### Analyse de la longueur des messages

In [None]:
data['longueur'] = data['sms'].apply(len)
data.head()

In [None]:
ham_data = data[data['label'] == 'ham']
ham_data['longueur'].describe()

In [None]:
spam_data = data[data['label'] == 'ham']
ham_data['longueur'].describe()

In [None]:
data.groupby('label')['longueur'].describe()

In [None]:
data.groupby('label') # diviser data en deux groupes, 'ham' et 'spam'

In [None]:
grouped = data.groupby('label')
for name, group in grouped:
    print(name)
    print(group)

In [None]:
data.groupby('label')['longueur'] # sélectionner la colonne 'longueur' à l'intérieur de chaque groupe

In [None]:
grouped_longueur = data.groupby('label')['longueur']
for name, group in grouped_longueur:
    print(name)
    print(group)

In [None]:
import seaborn as sns

# Création de la figure et des axes
fig, ax = plt.subplots(figsize=(15, 5))

# Création du boxplot avec Seaborn
# orient='h' : orientation horizontale du boxplot
# ax=ax : indique à Seaborn d'utiliser les axes 'ax' que nous avons créés
sns.boxplot(x='longueur', y='label', data=data, orient='h', ax=ax)

ax.set_title('Distribution de la longueur des messages par label')
ax.set_xlabel('Longueur du message (nombre de caractères)')
ax.set_ylabel('Label')

plt.show()

In [None]:
grouped_longueur.describe()

### Analyse du nombre de mots dans chaque message

In [None]:
data['nombre_mots'] = data['sms'].apply(lambda x: len(x.split()))
data.head()

In [None]:
# On peut créer une fonction pour compter les mots dans un message
def count_words(sms):
    # On utilise split() pour séparer les mots par les espaces
    return len(sms.split())

data['sms'].apply(count_words)
# similaire à data['sms'].apply(len)

In [None]:
data.groupby('label')['nombre_mots'].describe()

In [None]:
fig, ax = plt.subplots(figsize=(15, 5))

sns.boxplot(x='nombre_mots', y='label', data=data, orient='h', ax=ax)

ax.set_title('Distribution du nombre de mots par label')
ax.set_xlabel('Nombre de mots')
ax.set_ylabel('Label')

plt.show()

### Analyse de la présence de caractères spéciaux

In [None]:
import re

def contient_caractere_speciaux(text):
    return bool(re.search(r'[^a-zA-Z0-9\s!"\'(),-./:;?[\]_]', text))
    # L'expression régulière [^a-zA-Z0-9\s] : identifier les caractères non alphanumériques, non espaces, non ponctuations courantes

In [None]:
message = data.iloc[0]['sms']
print(message)
print(contient_caractere_speciaux(message))

In [None]:
message = data.iloc[2]['sms']
print(message)
print(contient_caractere_speciaux(message))

In [None]:
data['sms'].apply(contient_caractere_speciaux)

In [None]:
data['caractere_speciaux'] = data['sms'].apply(contient_caractere_speciaux)

In [None]:
data.head()

In [None]:
data.groupby('label')['caractere_speciaux'].value_counts()

In [None]:
proportions = data.groupby('label')['caractere_speciaux'].value_counts(normalize=True)

In [None]:
proportions

In [None]:
proportions.loc['spam']

In [None]:
proportions.loc['spam'].values
# d'abord True, ensuite False

In [None]:
proportions.loc['ham']

In [None]:
proportions.loc['ham'].values
# ordre inversé !
# d'abord False, ensuite True

In [None]:
# unstack() transforme le résultat du groupby en un DataFrame
proportions = data.groupby('label')['caractere_speciaux'].value_counts().unstack()

In [None]:
proportions

In [None]:
def display_percentage(p):
    return f'{p:.1f}%'

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(10, 5))  # 1 ligne, 2 colonnes de graphiques

# Camembert pour les messages 'ham'
axes[0].pie(proportions.loc['ham'].values, labels=proportions.loc['ham'].index, autopct=display_percentage, startangle=90)
axes[0].set_title('ham')
axes[0].axis('equal')

# Camembert pour les messages 'spam'
axes[1].pie(proportions.loc['spam'].values, labels=proportions.loc['spam'].index, autopct=display_percentage, startangle=90)
axes[1].set_title('spam')
axes[0].axis('equal')

# Titre global et ajustement de la mise en page
fig.suptitle('Proportion de messages avec (True) / sans (False) caractères spéciaux par label')
# plt.tight_layout() ajuste automatiquement les sous-graphiques (axes)
# pour garantir que tous les éléments de la figure sont visibles et bien disposés
plt.tight_layout()
plt.show()

### Analyse de la présence des chiffres

In [None]:
def contient_chiffre(text):
    return bool(re.search(r"\d", text))

In [None]:
data['chiffres'] = data['sms'].apply(contient_chiffre)

In [None]:
data.head()

In [None]:
data.groupby('label')['chiffres'].value_counts()

In [None]:
proportions = data.groupby('label')['chiffres'].value_counts(normalize=True).unstack()

In [None]:
proportions

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(10, 5))  # 1 ligne, 2 colonnes de graphiques

# Camembert pour les messages 'ham'
axes[0].pie(proportions.loc['ham'].values, labels=proportions.loc['ham'].index, autopct=display_percentage, startangle=90)
axes[0].set_title('ham')
axes[0].axis('equal')

# Camembert pour les messages 'spam'
axes[1].pie(proportions.loc['spam'].values, labels=proportions.loc['ham'].index, autopct=display_percentage, startangle=90)
axes[1].set_title('spam')
axes[0].axis('equal')

# Titre global et ajustement de la mise en page
fig.suptitle('Proportion de messages avec (True) / sans (False) chiffres par label')
plt.tight_layout()
plt.show()