#### Importation de la bibliothèque pandas pour la manipulation et l'analyse des données

In [None]:
import pandas as pd
import numpy as np

#### Chargement des données séparées par un point-virgule depuis un fichier CSV

In [None]:
data = pd.read_csv('dataset_100_donnees.csv', delimiter=";")

#### Affichage d'un aperçu des 5 premières lignes du DataFrame pour s'assurer que les données sont correctement chargées

In [None]:
data.head()

#### Extraction et sélection des données en fonction des colonnes **Taille** et **Poids** comme variables prédictives (X) et **Admission** comme variable cible (Y)


In [None]:
X = data[['Taille (cm)', 'Poids (kg)']]
Y = data['Admission']

#### Importation de la bibliothèque scikit-klearn

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, ConfusionMatrixDisplay
from sklearn.preprocessing import StandardScaler
import time

#### Séparation des données en un ensemble de données d'entraînement et de test (20% de données pour le test et 80% pour l'entrainement)

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

#### Affichage du graphique (nuage de points) de l'ensemble de données d'entrainement

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

palette_color = {"Admis": "green", "Refusé": "red"}

sns.scatterplot(x=X_train["Taille (cm)"], y=X_train["Poids (kg)"], hue=Y_train, palette=palette_color)

plt.show()

#### Normalisation des données

In [None]:
'''scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)'''

#### Choix automatique du k optimal en considérant le taux d'erreur le plus faible

In [None]:
k_values = range(1, min(len(X_train), 500))
error_rates = []

for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, Y_train)
    Y_pred = knn.predict(X_test)
    error_rate = 1 - accuracy_score(Y_test, Y_pred)
    error_rates.append(error_rate)

best_k = np.argmin(error_rates) + 1
best_error_rate = error_rates[best_k - 1]

print(f'Le meilleur k est {best_k} avec un taux d\'erreur de {best_error_rate:.4f}')

plt.plot(k_values, error_rates, marker='o')
plt.xlabel('Valeur de k')
plt.ylabel('Taux d\'erreur')
plt.title('Taux d\'erreur en fonction de k')

plt.axvline(x=best_k, color='green', linestyle='--', label=f'k optimal = {best_k}')
plt.legend()
plt.show()

#### Initialisation de classificateur KNN grâce au choix du k voisins plus proche et Entraînement du modèle à partir des données d'entraînement

In [None]:
start_time = time.time()
best_knn = KNeighborsClassifier(n_neighbors=best_k)
best_knn.fit(X_train, Y_train)
end_time = time.time()

training_time = end_time - start_time
print(f"Temps d'entraînement : {training_time} secondes")

#### Prédiction des étiquettes pour les données de test

In [None]:
predictions = best_knn.predict(X_test)

print("Prédictions pour les données de test :")
for i, prediction in enumerate(predictions):
    print(f"Candidat {i+1} : {prediction}")

#### Matrice de confusion

In [None]:
classes = list(set(Y_test.values))
cm = confusion_matrix(Y_test, predictions, labels=classes)
cm_display = ConfusionMatrixDisplay(confusion_matrix = cm, display_labels=classes)

cm_display.plot()
plt.title('Matrice de confusion')
plt.show()

#### Affichage du rapport de classification

In [None]:
print("Rapport de classification")
print(classification_report(Y_test, predictions))

test_data = pd.DataFrame(X_test, columns=['Taille (cm)', 'Poids (kg)'])
test_data['Admission'] = Y_test

print("Les données de test et leur étiquette sont :")
print(test_data)

#### Nouvelle donnée du candidat à prédire

In [None]:
print("Entrez les données du nouveau candidat à prédire :\n\n")
new_data = {}
new_data_dup = {}

for i, column in enumerate(X.columns):
    value = float(input(f"Entrez la valeur de {column} : "))
    new_data[column] = [value]
    new_data_dup[column] = [value]
    
new_data["Admission"] = ["A prédire"]

#### Affichage du graphique (nuage de points) de l'ensemble de données d'entrainement et des nouvelles données X du candidat à prédire

In [None]:
palette_color2 = {"Admis": "green", "Refusé": "red", "A prédire": "black"}

sns.scatterplot(x=X_train["Taille (cm)"], y=X_train["Poids (kg)"], hue=Y_train, palette=palette_color2)
plt.scatter(new_data["Taille (cm)"], new_data["Poids (kg)"], color=palette_color2["A prédire"], marker="x", label="A prédire")
plt.legend()
plt.show()


#### Création d'un DataFrame à partir des nouvelles données pour la prédiction

In [None]:
new_df = pd.DataFrame(new_data_dup)

#### Prédiction pour les nouvelles données

In [None]:
# formater l'affichage des données taille et poids
new_data_taille, new_data_poids = str(new_data_dup['Taille (cm)'][0]), str(new_data_dup['Poids (kg)'][0])
index_dot_taille, index_dot_poids = new_data_taille.index('.'), new_data_poids.index('.')

new_data_taille = int(float(new_data_taille)) if new_data_taille[index_dot_taille+1:][0] == '0' else float(new_data_taille)
new_data_poids = int(float(new_data_poids)) if new_data_poids[index_dot_poids+1:][0] == '0' else float(new_data_poids)

# fonction permettant de mettre une couleur de texte à la prédiction (vert pour Admis et rouge pour Refusé
def colorise(text):
    green = '\033[92m' # vert
    red = '\033[91m' # rouge
    
    if text == 'Admis':
        return green + text
    elif text == 'Refusé':
        return red + text
        
new_prediction = best_knn.predict(new_df)

print(f"Données nouveau candidat: \nTaille: {new_data_taille} cm \nPoids: {new_data_poids} kg")
print(f"La prédiction pour les nouvelles données du nouveau candidat est : {colorise(new_prediction[0])}")