In [None]:
#1.Déscription briève du dataset Iris
"""
Origine : Il a été introduit par le statisticien Ronald A. Fisher en 1936 pour illustrer des techniques de classification.
Variables :
    Caractéristiques : sepal length, sepal width, petal length, petal width.
    Classe cible : Trois espèces de fleurs (setosa, versicolor, virginica).
Objectif d’étude : Classifier les espèces de fleurs en fonction des caractéristiques mesurées.
"""

#2. Créer des visualisations pertinentes :

    #1. Importez les bibliothèques nécessaires :
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

    #2. Chargez le dataset :
iris = load_iris()
data = pd.DataFrame(data=iris.data, columns=iris.feature_names)
data['species'] = iris.target
species_names = iris.target_names
data['species'] = data['species'].map({0: species_names[0], 1: species_names[1], 2: species_names[2]})

    #3. Visualisations recommandées
sns.pairplot(data, hue="species", diag_kind="kde")
plt.show()

sns.heatmap(data.iloc[:, :-1].corr(), annot=True, cmap="coolwarm")
plt.show()



#3. Observations importantes
"""
1. Séparation des espèces
Les espèces Setosa, Versicolor, et Virginica sont bien séparées dans plusieurs dimensions.
La Setosa est particulièrement distincte des deux autres espèces, 
surtout en fonction des caractéristiques petal length (cm) et petal width (cm).
Les espèces Versicolor et Virginica se chevauchent légèrement, 
ce qui pourrait poser des défis pour certains modèles de classification.

2. Importance des variables pour la séparation
Petal length (cm) et Petal width (cm) semblent être les caractéristiques les plus discriminantes pour différencier les espèces,
car elles montrent des regroupements nets.
Les variables Sepal length (cm) et Sepal width (cm) ont une plus grande superposition entre les espèces,
ce qui les rend moins discriminantes.

3. Relation entre les variables
Une corrélation positive est visible entre petal length (cm) et petal width (cm) : à mesure que la longueur des pétales augmente, 
leur largeur augmente également.
Les variables sepal length (cm) et sepal width (cm) semblent moins fortement corrélées, 
mais elles montrent également des relations linéaires légères.

4. Distribution des variables
Les distributions des caractéristiques diffèrent selon les espèces :
Les longueurs et largeurs des pétales pour Setosa sont significativement plus petites que celles des autres espèces.
Virginica a généralement les plus grandes valeurs pour petal length (cm) et petal width (cm).

5. Séparation intra-espèce
Bien que les espèces soient globalement bien séparées, les points verts (Virginica) et points orange (Versicolor) 
montrent une certaine proximité dans les graphiques, notamment dans sepal dimensions, ce qui indique que ces caractéristiques 
pourraient ne pas suffire pour une classification fiable seule.
"""



# Afficher les premières lignes pour validation
print(data.head())

# Séparer les données en variables explicatives (X) et cible (y)
X = data[iris.feature_names]
y = data['species']

# Diviser les données en ensemble d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)



# 4a. Modèle de régression logistique
print("\n=== Régression logistique ===")
logistic_model = LogisticRegression(max_iter=200)  # Initialiser le modèle
logistic_model.fit(X_train, y_train)  # Entraîner le modèle

# Prédire sur les données de test
y_pred_logistic = logistic_model.predict(X_test)

# Évaluer les performances
accuracy_logistic = accuracy_score(y_test, y_pred_logistic)
print(f"Précision : {accuracy_logistic:.2f}")
print("\nRapport de classification :")
print(classification_report(y_test, y_pred_logistic))
print("Matrice de confusion :")
print(confusion_matrix(y_test, y_pred_logistic))



# 4b. Modèle KNN avec choix du meilleur k
print("\n=== KNN ===")
k_values = range(1, 21)  # Tester k de 1 à 20
accuracies = []

# Tester différents k pour trouver le meilleur
for k in k_values:
    knn_model = KNeighborsClassifier(n_neighbors=k)
    knn_model.fit(X_train, y_train)
    y_pred_knn = knn_model.predict(X_test)
    accuracies.append(accuracy_score(y_test, y_pred_knn))

# Trouver le k optimal
best_k = k_values[accuracies.index(max(accuracies))]
print(f"Meilleur k : {best_k}, Précision maximale : {max(accuracies):.2f}")

# Entraîner le modèle final avec le meilleur k
knn_model = KNeighborsClassifier(n_neighbors=best_k)
knn_model.fit(X_train, y_train)
y_pred_knn = knn_model.predict(X_test)



#5. Évaluer les performances
print("\nRapport de classification :")
print(classification_report(y_test, y_pred_knn))
print("Matrice de confusion :")
print(confusion_matrix(y_test, y_pred_knn))

# Comparaison des modèles
print("\n=== Comparaison des modèles ===")
print(f"Précision Régression Logistique : {accuracy_logistic:.2f}")
print(f"Précision KNN (k={best_k}) : {max(accuracies):.2f}")

# Tester quelle précision est la plus élevée et afficher le modèle le plus performant
if accuracy_logistic > max(accuracies):
    best_model = "Régression Logistique"
    best_accuracy = accuracy_logistic
else:
    best_model = f"KNN (k={best_k})"
    best_accuracy = max(accuracies)

print(f"\nLe modèle le plus performant est : {best_model} avec une précision de {best_accuracy:.2f}")