# Importation des bibliothèques necessaires

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import BernoulliNB
from sklearn.metrics import accuracy_score

# Entrainement et évaluation d'un modèle via Gaussian Naîve Bayes

In [18]:
df1 = pd.read_csv( 'diabetes.csv')
df1.head() # Affichage des 5 premières données du fichier

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [17]:
# Sélection des colonnes 'Glucose' et 'BloodPressure' comme caractéristiques (features) du modèle
a = df1['Glucose']  # Niveau de glucose
b = df1['BloodPressure']  # Tension artérielle

# Combinaison des deux colonnes dans une liste de tuples (une paire par ligne du DataFrame)
x = list(zip(a, b))  

# Définition de la variable cible (labels), ici 'Outcome', qui indique le résultat à prédire
y = df1['Outcome'] 

# Fractionnement du jeu de données en deux parties : entraînement (train) et test
# x_train, y_train : données utilisées pour entraîner le modèle
# x_test, y_test : données utilisées pour évaluer les performances du modèle
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.20)  # 20 % des données réservées pour les tests

# Instanciation du modèle Naïve Bayes Gaussien
model_Gaussian = GaussianNB()

# Entraînement du modèle sur les données d'entraînement
model_Gaussian.fit(x_train, y_train)

# Prédiction des étiquettes (outcomes) pour les données de test
prediction = model_Gaussian.predict(x_test) 

# Affichage des prédictions pour chaque observation dans le jeu de test
print(prediction)

# Évaluation du modèle : calcul de la précision (accuracy)
# La précision est le pourcentage de prédictions correctes parmi toutes les prédictions
precision = accuracy_score(y_test, prediction) * 100  # Convertir en pourcentage
print(precision)  # Afficher la précision

[0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 1 0
 1 0 0 1 1 0 0 0 1 0 1 0 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 1 0 0 1 1 0 0 1
 0 1 0 0 0 0 0 0 1 0 0 1 0 1 0 0 1 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0
 1 1 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0 0 0 0
 0 1 0 1 1 0]
75.32467532467533


# Entrainement et évaluation d'un modèle via Bernoulli Naîve Bayes

In [4]:
df2 = pd.read_excel('personne.xlsx')
print(df2.head())

   Taille  Poids  Pointure   Sexe
0   173.8   55.8        39  Homme
1   164.1   80.4        38  Femme
2   173.5   68.3        37  Femme
3   172.3   73.3        37  Femme
4   182.6   66.4        40  Homme


In [11]:
# On sélectionne les caractéristiques (features) à partir du DataFrame : 'Taille', 'Poids' et 'Pointure'
# Ces colonnes sont utilisées pour entraîner le modèle.
x = df2[['Taille', 'Poids', 'Pointure']]  # Variables indépendantes (features)

# La colonne 'Sexe' est la cible (label) que l'on souhaite prédire, donc elle est séparée de x.
y = df2['Sexe']  # Variable dépendante (target)

# Fractionnement du jeu de données en deux parties : 
# On garde 80 % des données pour l'entraînement et 20 % pour les tests.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.20)

# Instanciation du modèle Naïve Bayes de type Bernoulli
model_Bernoulli = BernoulliNB()

# Entraînement du modèle avec les données d'entraînement
# Ici, le modèle apprend à relier les caractéristiques ('Taille', 'Poids', 'Pointure') avec la cible ('Sexe')
model_Bernoulli.fit(x_train, y_train)

# Prédiction des valeurs de la variable cible sur le jeu de test
# Le modèle prédit 'Sexe' en fonction des valeurs des caractéristiques dans `x_test`
prediction = model_Bernoulli.predict(x_test)

# Affichage des prédictions obtenues pour le jeu de test
# Ces valeurs montrent la classe prédite par le modèle pour chaque observation de `x_test`
print(prediction)

# Évaluation du modèle en calculant sa précision (accuracy)
# La précision mesure le pourcentage de prédictions correctes parmi celles faites sur le jeu de test.
precision = accuracy_score(y_test, prediction) * 100  # Convertir en pourcentage
print(precision)  # Affichage de la précision du modèle


['Femme' 'Femme' 'Femme' 'Femme' 'Femme' 'Femme' 'Femme' 'Femme' 'Femme'
 'Femme' 'Femme' 'Femme' 'Femme' 'Femme' 'Femme' 'Femme' 'Femme' 'Femme'
 'Femme' 'Femme']
55.00000000000001


# Exercice 1 : Appliquez le modèle Gaussian Naîve Bayes sur les données des personnes

In [16]:
x = df2[['Taille', 'Poids', 'Pointure']]  # Variables indépendantes (features)
y = df2['Sexe']  # Variable dépendante (target)

# Fractionner le jeu de données en données d'entraînement (80%) et données de test (20%)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.20)

# Instanciation du modèle Naïve Bayes Gaussien
model_Gaussian = GaussianNB()

# Entraînement du modèle sur les données d'entraînement
model_Gaussian.fit(x_train, y_train)

# Prédiction sur les données de test
prediction = model_Gaussian.predict(x_test)

# Affichage des prédictions
print(prediction)

# Calcul de la précision du modèle et affichage en pourcentage
precision = accuracy_score(y_test, prediction) * 100
print(precision)

['Femme' 'Femme' 'Femme' 'Femme' 'Femme' 'Homme' 'Femme' 'Femme' 'Femme'
 'Homme' 'Femme' 'Femme' 'Femme' 'Femme' 'Femme' 'Femme' 'Femme' 'Femme'
 'Homme' 'Femme']
55.00000000000001


# Exercice 2 : Appliquez le Gaussian Naîve Bayes sur l’ensemble des données load_breast_cancer de sklearn

In [20]:
# Importation du jeu de données "Breast Cancer" de sklearn, qui contient des informations sur des caractéristiques de tumeurs et leur classification
from sklearn.datasets import load_breast_cancer
df = load_breast_cancer()  # Chargement du jeu de données dans la variable df

x = df['data']  # Les données (caractéristiques) qui servent à prédire la cible
y = df['target']  # La cible (0 pour maligne, 1 pour bénigne)

# Fractionnement des données en ensemble d'entraînement (60%) et de test (40%)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.40, random_state=42)

# Instanciation du modèle Naïve Bayes Gaussien
model_Gaussian = GaussianNB() 

# Entraînement du modèle avec les données d'entraînement
model_Gaussian.fit(x_train, y_train)

# Prédiction des labels sur le jeu de données de test
prediction = model_Gaussian.predict(x_test)

# Affichage des prédictions faites par le modèle
print(prediction)

# Évaluation du modèle en calculant la précision (accuracy), c'est-à-dire le pourcentage de prédictions correctes
precision = accuracy_score(y_test, prediction) * 100  # Précision en pourcentage
print(precision)  # Affichage de la précision


[1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0
 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0
 1 1 1 1 1 1 0 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0
 1 1 0 0 0 1 1 1 0 0 1 1 0 1 0 0 1 1 0 0 0 1 1 1 0 1 1 0 0 1 0 1 1 0 1 0 0
 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 0
 0 1 1 0 1 0 1 1 1 1 0 1 1 0 1 1 1 0 1 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1
 0 0 1 1 0 1]
95.17543859649122
