In [72]:
# Import des bibliothèques nécessaires
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.naive_bayes import GaussianNB, MultinomialNB
from sklearn.metrics import classification_report
from sklearn.preprocessing import LabelEncoder

# Chargement des données

Les données BreatTissue sont téléchargeable à partir du lien :  https://archive.ics.uci.edu/ml/machine-learning-databases/00192/BreastTissue.xls

Les données se trouve dans le classeur 'Data'

In [73]:
# Chargement des données
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00192/BreastTissue.xls"
breast_tissue_data = pd.read_excel(url, sheet_name='Data')
print(breast_tissue_data)


     Case # Class           I0     PA500       HFS           DA  \
0         1   car   524.794072  0.187448  0.032114   228.800228   
1         2   car   330.000000  0.226893  0.265290   121.154201   
2         3   car   551.879287  0.232478  0.063530   264.804935   
3         4   car   380.000000  0.240855  0.286234   137.640111   
4         5   car   362.831266  0.200713  0.244346   124.912559   
..      ...   ...          ...       ...       ...          ...   
101     102   adi  2000.000000  0.106989  0.105418   520.222649   
102     103   adi  2600.000000  0.200538  0.208043  1063.441427   
103     104   adi  1600.000000  0.071908 -0.066323   436.943603   
104     105   adi  2300.000000  0.045029  0.136834   185.446044   
105     106   adi  2600.000000  0.069988  0.048869   745.474369   

              Area        A/DA      Max IP          DR            P  
0      6843.598481   29.910803   60.204880  220.737212   556.828334  
1      3163.239472   26.109202   69.717361   99.084964 

# Exploration des données

In [None]:
# Examiner les premières lignes du jeu de données pour comprendre sa structure.
print("Aperçu des premières lignes du jeu de données :\n", breast_tissue_data.head())

# Vérifier les statistiques descriptives pour chaque attribut.
print("\nStatistiques descriptives pour chaque attribut :\n", breast_tissue_data.describe())

# Visualiser la distribution des attributs à l'aide d'histogrammes ou de diagrammes en boîte.
import matplotlib.pyplot as plt
breast_tissue_data.hist(figsize=(10, 8))
plt.show()

# Identifier s'il y a des valeurs manquantes ou des valeurs aberrantes.
print("\nValeurs manquantes :\n", breast_tissue_data.isnull().sum())

# Données brutes

In [75]:

# Séparation des caractéristiques (X) et des étiquettes de classe (y)
X = breast_tissue_data.drop(columns=['Case #', 'Class'])
y = breast_tissue_data['Class']
print(y.unique())

['car' 'fad' 'mas' 'gla' 'con' 'adi']


In [None]:
# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Création du classificateur Naive Bayes gaussien
gnb = GaussianNB()

# Entraînement du classificateur sur l'ensemble d'entraînement
gnb.fit(X_train, y_train)

# Prédiction sur l'ensemble de test
y_pred = gnb.predict(X_test)

# Affichage du rapport de classification
print("Rapport de classification :\n", classification_report(y_test, y_pred))

# Validation croisée avec la validation k-fold
cv_scores = cross_val_score(gnb, X, y, cv=5)
print("Scores de validation croisée :", cv_scores)
print("Moyenne des scores de validation croisée :", cv_scores.mean())

# Données de classes fusionnées

In [None]:
# Fusion des classes fad, mas et gla en une seule classe
breast_tissue_data['Class'] = breast_tissue_data['Class'].replace({'fad': 'tissue', 'mas': 'tissue', 'gla': 'tissue'})

# Séparation des caractéristiques (X) et des étiquettes de classe (y)
X = breast_tissue_data.drop(columns=['Case #','Class'])
y = breast_tissue_data['Class']

print(X.head())
print(y.unique())


***Naive bayesian gaussien***

In [None]:
# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Création du classificateur Naive Bayes gaussien
gnb = GaussianNB()

# Entraînement du classificateur sur l'ensemble d'entraînement
gnb.fit(X_train, y_train)

# Prédiction sur l'ensemble de test
y_pred = gnb.predict(X_test)

# Affichage du rapport de classification
print("Rapport de classification :\n", classification_report(y_test, y_pred))

# Validation croisée avec la validation k-fold
cv_scores = cross_val_score(gnb, X, y, cv=5)
print("Scores de validation croisée :", cv_scores)
print("Moyenne des scores de validation croisée :", cv_scores.mean())

***Naive bayesian nominal***

In [None]:

# Transformation des attributs numériques en attributs catégoriels avec des seuils
X_cat = X.apply(lambda x: pd.cut(x, bins=3, labels=['low', 'medium', 'high']))

# Encodage des étiquettes catégoriques en valeurs numériques
label_encoder = LabelEncoder()

# Appliquer l'encodage des étiquettes aux données catégoriques
X_cat_encoded = X_cat.apply(label_encoder.fit_transform)

# Division des données transformées en ensembles d'entraînement et de test
X_train_cat, X_test_cat = train_test_split(X_cat_encoded, test_size=0.2, random_state=42)

print(X_cat_encoded)
# Essai avec un classificateur Naive Bayes multinomial
mnb = MultinomialNB()
mnb.fit(X_train_cat, y_train)

y_pred_mnb = mnb.predict(X_test_cat)

# Affichage du rapport de classification pour le classificateur multinomial
print("\nRapport de classification (Naive Bayes multinomial) :\n", classification_report(y_test, y_pred_mnb))

# Validation croisée avec la validation k-fold
cv_scores = cross_val_score(gnb, X, y, cv=5)
print("Scores de validation croisée :", cv_scores)
print("Moyenne des scores de validation croisée :", cv_scores.mean())