In [2]:
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report

# Charger le dataset IRIS
iris = datasets.load_iris()
X = iris.data
y = iris.target
classes = iris.target_names

# Séparer le dataset en données d'entraînement et de test en utilisant la stratification
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Afficher les formes des données pour vérifier la division
print(f"X_train shape: {X_train.shape}")
print(f"X_test shape: {X_test.shape}")
print(f"y_train shape: {y_train.shape}")
print(f"y_test shape: {y_test.shape}")

# Initialiser le classifieur bayésien naïf
gnb = GaussianNB()

# Entraîner le modèle
gnb.fit(X_train, y_train)

# Prédictions sur le dataset de test
y_pred = gnb.predict(X_test)

# Évaluer la précision
accuracy = accuracy_score(y_test, y_pred)
print(f'\nAccuracy: {accuracy * 100:.2f}%')

# Afficher le rapport de classification
print("\nClassification Report:")
print(classification_report(y_test, y_pred, target_names=classes))

# Afficher les probabilités a priori
print("\nProbabilités a priori pour chaque classe :")
priors = gnb.class_prior_
for cls, prob in zip(classes, priors):
    print(f"Classe {cls}: {prob:.4f}")

# Afficher les moyennes et variances des attributs par classe
print("\nMoyennes et variances pour chaque attribut par classe :")
means = gnb.theta_
variances = gnb.var_
for i, cls in enumerate(classes):
    print(f"Classe {cls}:")
    print(f"  Moyennes: {means[i]}")
    print(f"  Variances: {variances[i]}")

# Saisir une nouvelle instance
print("\nEntrez les valeurs pour une nouvelle instance :")
new_instance = np.array([
    float(input("Longueur du sépale (4.3 - 7.9 cm) : ")),
    float(input("Largeur du sépale (2.0 - 4.4 cm) : ")),
    float(input("Longueur du pétale (1.0 - 6.9 cm) : ")),
    float(input("Largeur du pétale (0.1 - 2.5 cm) : "))
]).reshape(1, -1)

# Prédire la classe pour la nouvelle instance
predicted_class = gnb.predict(new_instance)[0]
predicted_class_name = classes[predicted_class]
print(f'\nPredicted class for the new instance: {predicted_class_name}')

# Afficher les log-probabilités postérieures pour la nouvelle instance
log_posteriors = gnb._joint_log_likelihood(new_instance)[0]
print("\nLog-probabilités postérieures pour la nouvelle instance :")
for cls, log_posterior in zip(classes, log_posteriors):
    print(f"Classe {cls}: {log_posterior:.4f}")

# Afficher les densités de probabilité pour la nouvelle instance
def gaussian_density(x, mean, var):
    exponent = np.exp(-((x - mean) ** 2) / (2 * var))
    return (1 / np.sqrt(2 * np.pi * var)) * exponent

print("\nDensités de probabilité pour la nouvelle instance :")
for i, cls in enumerate(classes):
    densities = gaussian_density(new_instance, means[i], variances[i])
    print(f"Classe {cls}: {densities}")

X_train shape: (105, 4)
X_test shape: (45, 4)
y_train shape: (105,)
y_test shape: (45,)

Accuracy: 91.11%

Classification Report:
              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        15
  versicolor       0.82      0.93      0.88        15
   virginica       0.92      0.80      0.86        15

    accuracy                           0.91        45
   macro avg       0.92      0.91      0.91        45
weighted avg       0.92      0.91      0.91        45


Probabilités a priori pour chaque classe :
Classe setosa: 0.3333
Classe versicolor: 0.3333
Classe virginica: 0.3333

Moyennes et variances pour chaque attribut par classe :
Classe setosa:
  Moyennes: [4.98857143 3.42571429 1.48571429 0.24      ]
  Variances: [0.10329796 0.17391021 0.02293878 0.00925715]
Classe versicolor:
  Moyennes: [5.94857143 2.73142857 4.23714286 1.30857143]
  Variances: [0.24078368 0.08558368 0.21147755 0.03564082]
Classe virginica:
  Moyennes: [6.68285714 3.008