In [18]:
import pandas as pd
import numpy as np
import rpy2.robjects as ro
from rpy2.robjects import pandas2ri
pandas2ri.activate()

In [19]:
TRAIN_PATH = "./data/spam_data_train.rda"
TEST_PATH = "./data/spam_data_test.rda"

In [20]:
ro.r["load"](TRAIN_PATH)
ro.r["load"](TEST_PATH)

array(['data_test'], dtype='<U9')

In [21]:
train_data = ro.r["data_train"]
test_data = ro.r["data_test"]

train_df = pandas2ri.rpy2py(train_data)
test_df = pandas2ri.rpy2py(test_data)
print(train_data.head())



     word_freq_make word_freq_address word_freq_all word_freq_3d word_freq_our
455             0,0               0,0          0,89            0          1,79
2246            0,0               0,0          0,00            0          0,00
1935            0,0               0,0          0,00            0          0,00
1384            0,0               0,0          0,00            0          1,82
679             0,1               0,1          0,70            0          0,60
4129            0,0               0,0          0,00            0          0,00
     word_freq_over word_freq_remove word_freq_internet word_freq_order
455            0,44             0,00               0,00            0,00
2246           0,00             0,00               0,00            0,00
1935           0,00             0,00               0,00            0,00
1384           0,36             0,36               0,72            0,36
679            0,20             0,40               0,10            1,41
4129           

In [22]:
print(test_data.head())

     word_freq_make word_freq_address word_freq_all word_freq_3d word_freq_our
2961           0,00              0,00          0,00         0,00          0,00
2515           0,00              0,00          0,00         0,00          0,00
3246           0,00              0,00          0,00         0,00          0,00
1117           0,58              0,00          0,00        35,46          0,58
2340           0,69              0,00          0,69         0,00          0,00
1593           0,77              0,38          0,77         0,00          0,00
     word_freq_over word_freq_remove word_freq_internet word_freq_order
2961           0,00             0,00               0,00            0,00
2515           0,00             0,00               0,00            0,00
3246           0,00             0,00               0,00            0,00
1117           0,00             0,58               0,58            0,00
2340           0,00             0,00               0,00            0,00
1593           

In [23]:
# Exemple de manipulation : vérification des données manquantes
print(train_df.isnull().sum())
print(test_df.isnull().sum())


word_freq_make                0
word_freq_address             0
word_freq_all                 0
word_freq_3d                  0
word_freq_our                 0
word_freq_over                0
word_freq_remove              0
word_freq_internet            0
word_freq_order               0
word_freq_mail                0
word_freq_receive             0
word_freq_will                0
word_freq_people              0
word_freq_report              0
word_freq_addresses           0
word_freq_free                0
word_freq_business            0
word_freq_email               0
word_freq_you                 0
word_freq_credit              0
word_freq_your                0
word_freq_font                0
word_freq_000                 0
word_freq_money               0
word_freq_hp                  0
word_freq_hpl                 0
word_freq_george              0
word_freq_650                 0
word_freq_lab                 0
word_freq_labs                0
word_freq_telnet              0
word_fre

In [24]:

# Exemple d'analyse : description statistique
print(train_df.describe())
# liste des colunnes
print(train_df.columns)
#nmbr de lignes et de colonnes
print(train_df.shape)

       word_freq_make  word_freq_address  word_freq_all  word_freq_3d  \
count     2588.000000        2588.000000    2588.000000   2588.000000   
mean         0.104073           0.239142       0.279845      0.057983   
std          0.288378           1.412567       0.504352      1.268689   
min          0.000000           0.000000       0.000000      0.000000   
25%          0.000000           0.000000       0.000000      0.000000   
50%          0.000000           0.000000       0.000000      0.000000   
75%          0.000000           0.000000       0.410000      0.000000   
max          4.540000          14.280000       4.540000     42.810000   

       word_freq_our  word_freq_over  word_freq_remove  word_freq_internet  \
count    2588.000000     2588.000000       2588.000000          2588.00000   
mean        0.296341        0.097913          0.111352             0.10085   
std         0.644553        0.276837          0.401560             0.41159   
min         0.000000        0.

In [25]:
# Exemple d'analyse : description statistique
print(test_df.describe())
# liste des colunnes
print(test_df.columns)
#nmbr de lignes et de colonnes
print(test_df.shape)

       word_freq_make  word_freq_address  word_freq_all  word_freq_3d  \
count      862.000000         862.000000     862.000000    862.000000   
mean         0.114350           0.176914       0.294954      0.066601   
std          0.344235           1.114010       0.495662      1.373044   
min          0.000000           0.000000       0.000000      0.000000   
25%          0.000000           0.000000       0.000000      0.000000   
50%          0.000000           0.000000       0.000000      0.000000   
75%          0.000000           0.000000       0.470000      0.000000   
max          4.340000          14.280000       4.000000     35.460000   

       word_freq_our  word_freq_over  word_freq_remove  word_freq_internet  \
count     862.000000      862.000000        862.000000          862.000000   
mean        0.341357        0.102030          0.117773            0.124664   
std         0.687749        0.259787          0.342405            0.403519   
min         0.000000        0.

In [26]:
from sklearn.model_selection import train_test_split

# Séparer les caractéristiques et la cible si nécessaire
X = train_df.drop('label', axis=1)  
y = train_df['label']               

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [27]:
# Vérifier les dimensions
print("Train features shape:", X_train.shape)
print("Test features shape:", X_test.shape)
print("Train labels shape:", y_train.shape)
print("Test labels shape:", y_test.shape)

Train features shape: (2070, 57)
Test features shape: (518, 57)
Train labels shape: (2070,)
Test labels shape: (518,)


## 2. ACP

In [28]:
# Standardisation sur le jeu d'entraînement
X_train_mean = np.mean(X_train, axis=0)
X_train_std = np.std(X_train, axis=0)
X_train_standardized = (X_train - X_train_mean) / X_train_std

# Calcul de la matrice de covariance sur le jeu d'entraînement
cov_matrix = np.cov(X_train_standardized, rowvar=False)
eigen_values, eigen_vectors = np.linalg.eigh(cov_matrix)

# Tri des vecteurs propres
sorted_indices = np.argsort(eigen_values)[::-1]
eigen_vectors_sorted = eigen_vectors[:, sorted_indices]

# Projection sur les 2 premières composantes principales
n_components = 2
eigen_vectors_subset = eigen_vectors_sorted[:, :n_components]
X_train_pca = np.dot(X_train_standardized, eigen_vectors_subset)

# Standardisation et projection du jeu de test
X_test_standardized = (X_test - X_train_mean) / X_train_std
X_test_pca = np.dot(X_test_standardized, eigen_vectors_subset)

In [29]:
# 1. Standardisation des données
X_standardized = (X - np.mean(X, axis=0)) / np.std(X, axis=0)

# 2. Calcul de la matrice de covariance
cov_matrix = np.cov(X_standardized, rowvar=False)

# 3. Calcul des valeurs propres et des vecteurs propres
eigen_values, eigen_vectors = np.linalg.eigh(cov_matrix)

# Trier les vecteurs propres en fonction des valeurs propres décroissantes
sorted_index = np.argsort(eigen_values)[::-1]
sorted_eigenvalue = eigen_values[sorted_index]
sorted_eigenvectors = eigen_vectors[:, sorted_index]

# 4. Projection des données sur les nouveaux axes
n_components = 2  # Nombre de composantes à conserver
eigenvector_subset = sorted_eigenvectors[:, 0:n_components]
X_reduced = np.dot(eigenvector_subset.transpose(), X_standardized.transpose()).transpose()

# Résultats
print(X_reduced)


[[ 1.12192501 -1.07486012]
 [-1.00371162  1.15951145]
 [-0.50999964  2.72097999]
 ...
 [ 0.71897959  0.03219141]
 [ 0.52722292  1.11560809]
 [ 0.63128263 -0.17855864]]


In [None]:
import numpy as np
import matplotlib.pyplot as plt
Z = train_df - np.mean(train_df)
S = np.cov(Z, rowvar=False)
ls, vs = np.linalg.eig(S)
idx = np.argsort(ls)[::-1]
ls_tries = ls[idx]
vs_tries = vs[:, idx]
print(f'pourcentage de variance gardée : {ls_tries[0]/np.sum(ls_tries)}')
Z_new = np.dot(vs_tries[0], Z.T)
plt.grid()
plt.scatter(Z[:,0], Z[:,1])
plt.savefig("ACP.png")

## 3. Entraînement des modèles

In [None]:
# Séparation des caractéristiques et des étiquettes
X_train = train_data.drop('label', axis=1)
y_train = train_data['label']
X_test = test_data.drop('label', axis=1)
y_test = test_data['label']


### 3.1 Naive Bayes

In [None]:
from Naive_Bayes import NaiveBayes

# Instancier et entraîner le classificateur Naive Bayes
nb_classifier = NaiveBayes()
nb_classifier.fit(, y_train)

# Prédire les étiquettes sur l'ensemble de test
nb_predictions = nb_classifier.predict(X_test)

# Calculer l'exactitude
nb_accuracy = nb_classifier.accuracy(y_test, nb_predictions)
print(f"L'exactitude du modèle est de {nb_accuracy * 100:.2f}%")

NameError: name 'X_train' is not defined

### 3.2 Régression logistique

In [None]:
from LogisticRegression import LogisticRegression

# Instancier et entraîner le classificateur de régression logistique
lr_classifier = LogisticRegression()
lr_classifier.fit(X_train.values, y_train.values)

# Prédire les étiquettes sur l'ensemble de test
lr_predictions = lr_classifier.predict(X_test.values)

# Calculer l'exactitude
lr_accuracy = lr_classifier.accuracy(y_test.values, lr_predictions)
print(f"L'exactitude du modèle est de {lr_accuracy * 100:.2f}%")