Le jeu de données des fleurs d'Iris, également appelé ensemble de données Iris de Fisher, est un ensemble de données multivariées introduit par le statisticien britannique, eugéniste et biologiste Ronald Fisher dans son article de 1936 intitulé "L'utilisation de mesures multiples dans les problèmes taxonomiques comme exemple d'analyse discriminante linéaire". Il est parfois appelé ensemble de données Iris d'Anderson car Edgar Anderson a collecté les données pour quantifier la variation morphologique des fleurs d'Iris de trois espèces apparentées. Deux des trois espèces ont été collectées dans la péninsule de Gaspé, "toutes dans le même pâturage, et cueillies le même jour et mesurées en même temps par la même personne avec le même appareil". L'article de Fisher a été publié dans la revue, les Annales d'Eugénique, suscitant la controverse sur l'utilisation continue de l'ensemble de données Iris pour enseigner les techniques statistiques aujourd'hui.

L'ensemble de données se compose de 50 échantillons de chacune des trois espèces d'Iris (Iris setosa, Iris virginica et Iris versicolor). Quatre caractéristiques ont été mesurées pour chaque échantillon : la longueur et la largeur des sépales et des pétales, en centimètres. En se basant sur la combinaison de ces quatre caractéristiques, Fisher a développé un modèle discriminant linéaire pour distinguer les espèces les unes des autres.

![https://miro.medium.com/max/2550/0*GVjzZeYrir0R_6-X.png](https://miro.medium.com/max/2550/0*GVjzZeYrir0R_6-X.png)

Image: https://miro.medium.com/max/2550/0*GVjzZeYrir0R_6-X.png

Cette étude vise à regrouper l'ensemble de données Iris en utilisant l'algorithme K-means.

[Attribute Information:
](https://archive.ics.uci.edu/ml/datasets/iris)
1. Longueur du sépale en cm
2. Largeur du sépale en cm
3. Longueur du pétale en cm
4. Largeur du pétale en cm
5. Classe :
   - Iris Setosa
   - Iris Versicolore
   - Iris Virginica

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
import seaborn as sns
from sklearn.cluster import KMeans 
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import MinMaxScaler

In [None]:
iris = pd.read_csv("data/IRIS.csv")
x = iris.iloc[:, [0, 1, 2, 3]].values

In [None]:
iris.info()
iris[0:10]

In [None]:
iris_outcome = pd.crosstab(index=iris["species"],
                              columns="count")     

iris_outcome

In [None]:
iris_setosa=iris.loc[iris["species"]=="Iris-setosa"]
iris_virginica=iris.loc[iris["species"]=="Iris-virginica"]
iris_versicolor=iris.loc[iris["species"]=="Iris-versicolor"]

In [None]:
sns.FacetGrid(iris,hue="species",height=3).map(sns.distplot,"petal_length").add_legend()
sns.FacetGrid(iris,hue="species",height=3).map(sns.distplot,"petal_width").add_legend()
sns.FacetGrid(iris,hue="species",height=3).map(sns.distplot,"sepal_length").add_legend()


plt.show()

In [None]:
sns.boxplot(x="species",y="petal_length",data=iris)
plt.show()

In [None]:
sns.violinplot(x="species",y="petal_length",data=iris)
plt.show()

In [None]:
sns.set_style("whitegrid")
sns.pairplot(iris,hue="species",size=3);
plt.show()

# K-Means

[K-means](http://https://www.analyticsvidhya.com/blog/2019/08/comprehensive-guide-k-means-clustering/) est un algorithme basé sur les centroïdes, ou un algorithme basé sur la distance, où nous calculons les distances pour attribuer un point à un cluster. Dans K-Means, chaque cluster est associé à un centroïde.

# Comment implémenter le regroupement K-Means ?

* Choisir le nombre de clusters k.
* Sélectionner k points aléatoires à partir des données comme centroids.
* Assigner tous les points au centroid de cluster le plus proche.
* Recalculer les centroids des clusters nouvellement formés.
* Répéter les étapes 3 et 4.

In [None]:
from sklearn.cluster import KMeans

wcss = []

for i in range(1, 11):
    kmeans = KMeans(n_clusters = i, init = 'k-means++', max_iter = 300, n_init = 10, random_state = 0)
    kmeans.fit(x)
    wcss.append(kmeans.inertia_)

# Utilisation de la méthode du coude pour déterminer le nombre optimal de clusters pour le regroupement K-means

In [None]:
plt.plot(range(1, 11), wcss)
plt.title('The elbow method')
plt.xlabel('Number of clusters')
plt.ylabel('WCSS')
plt.show()

# Implémentation du regroupement K-Means

In [None]:
kmeans = KMeans(n_clusters = 3, init = 'k-means++', max_iter = 300, n_init = 10, random_state = 0)
y_kmeans = kmeans.fit_predict(x)

In [None]:
plt.scatter(x[y_kmeans == 0, 0], x[y_kmeans == 0, 1], s = 100, c = 'purple', label = 'Iris-setosa')
plt.scatter(x[y_kmeans == 1, 0], x[y_kmeans == 1, 1], s = 100, c = 'orange', label = 'Iris-versicolour')
plt.scatter(x[y_kmeans == 2, 0], x[y_kmeans == 2, 1], s = 100, c = 'green', label = 'Iris-virginica')

plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:,1], s = 100, c = 'red', label = 'Centroids')

plt.legend()

In [None]:
fig = plt.figure(figsize = (15,15))
ax = fig.add_subplot(111, projection='3d')
plt.scatter(x[y_kmeans == 0, 0], x[y_kmeans == 0, 1], s = 100, c = 'purple', label = 'Iris-setosa')
plt.scatter(x[y_kmeans == 1, 0], x[y_kmeans == 1, 1], s = 100, c = 'orange', label = 'Iris-versicolour')
plt.scatter(x[y_kmeans == 2, 0], x[y_kmeans == 2, 1], s = 100, c = 'green', label = 'Iris-virginica')

plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:,1], s = 100, c = 'red', label = 'Centroids')
plt.show()