In [None]:
from sklearn.datasets import load_iris
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

"Reg & KNN util import"
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

"""
REPONSE 1 :
Le dataset Iris, créé par le biologiste britannique Edgar Anderson en 1935, est un ensemble de données célèbre dans le domaine de l'apprentissage automatique et de la statistique. Il contient des mesures de 150 fleurs d'iris réparties en trois espèces différentes : Iris setosa, Iris versicolor et Iris virginica.

Les variables du dataset sont :

    Longueur du sépale (sepal length)
    Largeur du sépale (sepal width)
    Longueur du pétale (petal length)
    Largeur du pétale (petal width)

L'objectif principal de l'étude est de classer ces différentes espèces d'iris en fonction de leurs caractéristiques morphologiques. Ce dataset est souvent utilisé pour des tâches de classification et pour illustrer des techniques d'apprentissage supervisé.

REPONSE 2 :
Nous avons utilisé le **pairplot**, qui permet de visualiser les relations entre deux variables à la fois. Par exemple, il aide à identifier si la longueur du sépale et celle du pétale sont corrélées, tout en montrant si cette corrélation varie selon l'espèce.

REPONSE 3 :
Les pétales permettent de mieux distinguer les espèces que les sépales. **Setosa** est facile à identifier, mais **Versicolor** et **Virginica** sont plus difficiles à séparer. Cette visualisation montre que chaque variable est importante pour la classification 
et qu'un algorithme supervisé pourrait bien fonctionner.

REPONSE 5 :
KNN est plus performant sur le dataset Iris grâce au choix optimal de k. Cependant, il est sensible au bruit et aux données déséquilibrées. La Régression Logistique reste rapide et efficace pour les problèmes linéaires. Le choix du modèle dépend des contraintes, comme 
le temps de calcul ou la complexité des données.
"""


# Charger le dataset Iris
iris = load_iris(as_frame=True)

# Créer un DataFrame
iris_df = iris.data
iris_df.columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']  # Renommer les colonnes
iris_df['species'] = iris.target.map({0: 'setosa', 1: 'versicolor', 2: 'virginica'})  # Ajouter les noms des espèces

# Vérifier le DataFrame
print(iris_df.head())

# Visualisation avec pairplot
sns.pairplot(iris_df, vars=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'], hue="species", diag_kind="hist")
plt.show()


X = iris.data[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]  # Exclude 'species' column
y = iris.target

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Standardiser les données (important pour KNN)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

"--------------------------------Régression--------------------------------- "

# Appliquer la Régression Logistique
log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)
y_pred_log = log_reg.predict(X_test)

# Évaluer la Régression Logistique
log_reg_accuracy = accuracy_score(y_test, y_pred_log)

print(f"Précision de la Régression Logistique : {log_reg_accuracy:.2f}")

"-------------------------------------KNN------------------------------------- "

# Choisir le meilleur k pour KNN
k_values = range(1, 21)
accuracies = []

for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    y_pred_knn = knn.predict(X_test)
    accuracies.append(accuracy_score(y_test, y_pred_knn))

# Trouver le meilleur k
best_k = k_values[accuracies.index(max(accuracies))]
print(f"\n\n Meilleur k pour KNN : {best_k}")

# Visualiser les performances pour différents k
plt.plot(k_values, accuracies, marker='o')
plt.xlabel("Nombre de voisins (k)")
plt.ylabel("Précision")
plt.title("Choix du meilleur k pour KNN")
plt.show()

# Appliquer KNN avec le meilleur k
knn_best = KNeighborsClassifier(n_neighbors=best_k)
knn_best.fit(X_train, y_train)
y_pred_knn_best = knn_best.predict(X_test)

# Évaluer KNN
knn_accuracy = accuracy_score(y_test, y_pred_knn_best)
print(f"Précision de KNN avec k={best_k} : {knn_accuracy:.2f}")
