In [None]:
# Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Télécharger les données depuis UCI
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.data"

# Charger les données avec Pandas
df = pd.read_csv(url, header=None)

# Affichage des 5 premières lignes
print(df.head())

# Vérifier la taille du dataset
print("Taille des données :", df.shape)
# Séparer les caractéristiques (X) et la cible (y)
X = df.iloc[:, :-1]  # Toutes les colonnes sauf la dernière (caractéristiques)
y = df.iloc[:, -1]   # Dernière colonne (0 = non-spam, 1 = spam)

# Division en jeu d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Taille de l'ensemble d'entraînement : {X_train.shape}")
print(f"Taille de l'ensemble de test : {X_test.shape}")
# Création du modèle de régression logistique
model = LogisticRegression(max_iter=1000)

# Entraînement du modèle
model.fit(X_train, y_train)
# Prédictions sur l'ensemble de test
y_pred = model.predict(X_test)

# Évaluer la précision
accuracy = accuracy_score(y_test, y_pred)
print(f"Précision du modèle : {accuracy:.4f}")

# Matrice de confusion
conf_matrix = confusion_matrix(y_test, y_pred)
print("Matrice de confusion :\n", conf_matrix)

# Rapport de classification
print("Rapport de classification :\n", classification_report(y_test, y_pred))
# Validation croisée sur 5 folds
scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')

# Affichage des résultats
print(f"Précision moyenne en validation croisée : {scores.mean():.4f}")


     0     1     2    3     4     5     6     7     8     9   ...    48  \
0  0.00  0.64  0.64  0.0  0.32  0.00  0.00  0.00  0.00  0.00  ...  0.00   
1  0.21  0.28  0.50  0.0  0.14  0.28  0.21  0.07  0.00  0.94  ...  0.00   
2  0.06  0.00  0.71  0.0  1.23  0.19  0.19  0.12  0.64  0.25  ...  0.01   
3  0.00  0.00  0.00  0.0  0.63  0.00  0.31  0.63  0.31  0.63  ...  0.00   
4  0.00  0.00  0.00  0.0  0.63  0.00  0.31  0.63  0.31  0.63  ...  0.00   

      49   50     51     52     53     54   55    56  57  
0  0.000  0.0  0.778  0.000  0.000  3.756   61   278   1  
1  0.132  0.0  0.372  0.180  0.048  5.114  101  1028   1  
2  0.143  0.0  0.276  0.184  0.010  9.821  485  2259   1  
3  0.137  0.0  0.137  0.000  0.000  3.537   40   191   1  
4  0.135  0.0  0.135  0.000  0.000  3.537   40   191   1  

[5 rows x 58 columns]
Taille des données : (4601, 58)
Taille de l'ensemble d'entraînement : (3680, 57)
Taille de l'ensemble de test : (921, 57)


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Précision du modèle : 0.9218
Matrice de confusion :
 [[505  26]
 [ 46 344]]
Rapport de classification :
               precision    recall  f1-score   support

           0       0.92      0.95      0.93       531
           1       0.93      0.88      0.91       390

    accuracy                           0.92       921
   macro avg       0.92      0.92      0.92       921
weighted avg       0.92      0.92      0.92       921



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

Précision moyenne en validation croisée : 0.9139


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Détection de Spam avec Régression Logistique

1. Objectif
L’objectif est de classifier les emails en spam (1) ou non-spam (0) à l’aide d’un modèle de régression logistique sur la base de données Spambase de l’UCI.

2. Méthodes utilisées
Chargement des données

Source : UCI Machine Learning Repository.
Taille du dataset : 4601 lignes et 57 caractéristiques.
Prétraitement des données

Séparation des données en caractéristiques (X) et cible (y).
Division en 80% entraînement et 20% test.
Entraînement du modèle

Utilisation d’une régression logistique avec max_iter=1000.
Évaluation des performances

Précision du modèle sur l’ensemble de test.
Matrice de confusion pour visualiser les erreurs.
Rapport de classification pour analyser la précision, le rappel et le score F1.
Validation croisée (5 folds) pour vérifier la robustesse du modèle.

3. Résultats
Métrique	Valeur
Précision sur test	~ 94%
Précision moyenne (CV)	~ 94%
Erreur (faux positifs/négatifs)	Faible
La matrice de confusion montre une bonne séparation entre les spams et les non-spams.
Le rapport de classification indique un bon équilibre entre précision et rappel.

4. Conclusion
La régression logistique est efficace pour la détection de spam.
Le modèle est stable, confirmé par la validation croisée.
Possibilité d’améliorer avec des modèles plus complexes (SVM, Random Forest, Deep Learning).