## 1.1 Jeu de données

L'ensemble de données Iris est un ensemble de données célèbre et largement utilisé dans l'apprentissage automatique et les statistiques.
Il a été introduit par le biologiste et statisticien britannique Ronald A. Fisher en 1936.
L'ensemble de données consiste en des mesures de diverses caractéristiques de trois espèces différentes de fleurs d'iris :

- Setosa
- Versicolor
- Virginica

Pour chacune de ces trois espèces, quatre caractéristiques ou mesures sont enregistrées :

- Longueur du sépale : Longueur du sépale de la fleur d'iris (le verticille le plus à l'extérieur de la fleur).
- Largeur du sépale : largeur du sépale de la fleur d'iris.
- Longueur du pétale : Longueur du pétale de la fleur d'iris (le verticille intérieur de la fleur).
- Largeur du pétale : largeur du pétale de la fleur d'iris.

L'ensemble de données sur les iris est un ensemble de données de classification multi-classes classique et très simple.

In [1]:
#Import libraries
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import BernoulliNB
from sklearn.preprocessing import Binarizer
from sklearn.metrics import accuracy_score, classification_report



In [2]:
# Load the Iris dataset
iris = load_iris(as_frame=True)

In [3]:
# Create a DataFrame from the dataset
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)

In [4]:
# Add the target column to the DataFrame
iris_df['target'] = iris.target

In [5]:
# Display the first few rows of the DataFrame as a table
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


## 1.2 Division de l'ensemble de données en ensembles de données de formation et de test

In [6]:
# Split the dataset into features (X) and target labels (y)
X = iris_df.drop('target', axis=1)  # Features
y = iris_df['target']  # Target labels

In [7]:
# Split the data into a training set (80%) and a testing set (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [8]:
# Display the shapes of the training and testing sets
print("X_train shape:", X_train.shape)
print("X_test shape:", X_test.shape)
print("y_train shape:", y_train.shape)
print("y_test shape:", y_test.shape)

X_train shape: (120, 4)
X_test shape: (30, 4)
y_train shape: (120,)
y_test shape: (30,)


## 1.3 Convertir des données continues en données binaires

In [9]:
# Create a Binarizer transformer
binarizer = Binarizer(threshold=2.0)  # You can adjust the threshold value

In [10]:
# Apply the Binarizer to binarize the features
X_train_bin = binarizer.transform(X_train)
X_test_bin = binarizer.transform(X_test)



In [11]:
#Lets see how data is converted?
X_train_nib_test = X_train_bin[0:5]
df = pd.DataFrame(X_train_nib_test, columns=iris.feature_names)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,1.0,1.0,0.0,0.0
1,1.0,1.0,0.0,0.0
2,1.0,1.0,1.0,0.0
3,1.0,1.0,0.0,0.0
4,1.0,1.0,0.0,0.0


## 1.4 Définir le modèle de classification

In [12]:
# Create a Bernoulli Naive Bayes classifier


In [13]:
# Train the classifier on the binarized training data


## 1.5 Evaluation


In [14]:
# Make predictions on the binarized test data


In [15]:
# Calculate and display the accuracy



In [16]:
# Display a classification report


