<a href="https://colab.research.google.com/github/fatimazahrae561/Python_tps/blob/main/Correction_complete_s01_et_s02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Importation de biblioth√®ques pour le calcul num√©rique et la manipulation de donn√©es
import numpy as np            # NumPy : pour les tableaux et op√©rations math√©matiques vectoris√©es
import pandas as pd           # Pandas : pour la manipulation et l'analyse de donn√©es tabulaires (DataFrames)

# Importation pour sauvegarde et chargement de mod√®les
import pickle                 # Pickle : pour s√©rialiser et d√©s√©rialiser les objets Python (ex : mod√®les entra√Æn√©s)

# Importation pour pr√©traitement des donn√©es
from sklearn.preprocessing import LabelEncoder, StandardScaler
# LabelEncoder : pour convertir les variables cat√©gorielles en valeurs num√©riques
# StandardScaler : pour normaliser les donn√©es num√©riques (moyenne = 0, √©cart-type = 1)

# Importation pour division des donn√©es
from sklearn.model_selection import train_test_split
# train_test_split : pour diviser les donn√©es en ensembles d'entra√Ænement et de test

# Importation de l'algorithme K-Nearest Neighbors
from sklearn.neighbors import KNeighborsClassifier
# KNeighborsClassifier : algorithme de classification bas√© sur les k voisins les plus proches

# Importation des m√©triques d'√©valuation
from sklearn.metrics import confusion_matrix, accuracy_score
# confusion_matrix : matrice montrant les vrais positifs, faux positifs, vrais n√©gatifs, faux n√©gatifs
# accuracy_score : calcul de la pr√©cision globale du mod√®le

In [None]:
# Lecture du fichier CSV contenant le dataset
dataset = pd.read_csv('Social_Network_Ads.csv')
# pd.read_csv() : fonction de Pandas pour charger un fichier CSV dans un DataFrame
# 'Social_Network_Ads.csv' : le nom du fichier contenant les donn√©es
# dataset : variable qui stocke le DataFrame, repr√©sentant les donn√©es sous forme tabulaire

# Affichage des 5 premi√®res lignes du dataset
dataset.head()
# head() : m√©thode de Pandas qui montre les premi√®res lignes pour v√©rifier que les donn√©es sont correctement charg√©es
# utile pour examiner les colonnes, les types de donn√©es et quelques exemples de valeurs


Unnamed: 0,User ID,Gender,Age,EstimatedSalary,Purchased
0,15624510,Male,19,19000,0
1,15810944,Male,35,20000,0
2,15668575,Female,26,43000,0
3,15603246,Female,27,57000,0
4,15804002,Male,19,76000,0


In [None]:
# Encodage de la variable cat√©gorielle 'Gender' en valeurs num√©riques
dataset['Gender'] = LabelEncoder().fit_transform(dataset['Gender'].astype(str))
# LabelEncoder() : transforme les cat√©gories en nombres (ex: 'Male' ‚Üí 1, 'Female' ‚Üí 0)
# .astype(str) : assure que toutes les valeurs sont trait√©es comme des cha√Ænes de caract√®res
# fit_transform() : apprend les cat√©gories et les convertit en nombres en une seule √©tape
# On remplace la colonne 'Gender' originale par sa version num√©rique dans le DataFrame

# S√©lection des variables ind√©pendantes (features) et d√©pendante (target)
X = dataset[['Age', 'EstimatedSalary', 'Gender']].values
# X : tableau numpy contenant les colonnes 'Age', 'EstimatedSalary' et 'Gender'
# .values : convertit le DataFrame Pandas en tableau numpy pour l'utiliser avec scikit-learn
Y = dataset['Purchased'].values
# Y : tableau numpy contenant la variable cible 'Purchased' (0 ou 1)
# Cette variable sera utilis√©e pour entra√Æner le mod√®le √† pr√©dire si un utilisateur ach√®te ou non


[[   19 19000     1]
 [   35 20000     1]
 [   26 43000     0]
 ...
 [   50 20000     0]
 [   36 33000     1]
 [   49 36000     0]]


In [None]:
# Division du dataset en ensembles d'entra√Ænement et de test
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.25, random_state=0)
# train_test_split : fonction de scikit-learn pour s√©parer les donn√©es en deux ensembles
# X : variables ind√©pendantes (features)
# Y : variable d√©pendante (target)
# test_size=0.25 : 25% des donn√©es seront utilis√©es pour le test, 75% pour l'entra√Ænement
# random_state=0 : fixe la "graine" du g√©n√©rateur al√©atoire
#     -> permet de reproduire exactement le m√™me m√©lange (shuffle) des donn√©es √† chaque ex√©cution
#     -> ne contr√¥le pas combien de fois les donn√©es sont brass√©es, mais rend le shuffle d√©terministe
# X_train, y_train : donn√©es et labels pour entra√Æner le mod√®le
# X_test, y_test : donn√©es et labels pour √©valuer les performances du mod√®le sur des donn√©es in√©dites


# Explication de la graine

En programmation et machine learning, une ‚Äúgraine‚Äù (seed en anglais) est un nombre utilis√© pour initialiser un g√©n√©rateur de nombres al√©atoires.

üí° Plus pr√©cis√©ment :

Les ordinateurs ne peuvent pas g√©n√©rer de vrais nombres al√©atoires, ils cr√©ent des nombres pseudo-al√©atoires avec un algorithme.

La graine sert de point de d√©part pour cet algorithme.

Si tu utilises la m√™me graine, tu obtiendras toujours la m√™me s√©quence de nombres pseudo-al√©atoires.

Si tu changes la graine (ou que tu n‚Äôen mets pas), la s√©quence sera diff√©rente.

In [None]:
# Cr√©ation d'un objet StandardScaler pour normaliser les donn√©es
sc = StandardScaler()
# StandardScaler : outil de scikit-learn pour centrer et r√©duire les donn√©es
#     -> moyenne = 0, √©cart-type = 1 pour chaque feature
#     -> cela am√©liore les performances des algorithmes bas√©s sur les distances (ex: KNN, SVM)

# Normalisation des donn√©es d'entra√Ænement
X_train = sc.fit_transform(X_train)
# fit_transform() :
#     -> 'fit' calcule la moyenne et l'√©cart-type de chaque colonne sur les donn√©es d'entra√Ænement
#     -> 'transform' applique la normalisation sur ces donn√©es
#     -> X_train devient un tableau numpy avec toutes les features centr√©es et r√©duites

# Normalisation des donn√©es de test
X_test = sc.transform(X_test)
# transform() uniquement : on applique la m√™me normalisation que celle calcul√©e sur X_train
#     -> important : on ne refait pas le fit sur le test, sinon on introduit une fuite de donn√©es (data leakage)
#     -> X_test est maintenant normalis√© selon les m√™mes param√®tres que X_train


In [None]:
# Cr√©ation d'un mod√®le K-Nearest Neighbors (KNN)
knn = KNeighborsClassifier(n_neighbors=5, metric='minkowski', p=2)
# KNeighborsClassifier : classe de scikit-learn pour la classification bas√©e sur les k plus proches voisins
# n_neighbors=5 : le mod√®le va regarder les 5 voisins les plus proches pour faire la pr√©diction
# metric='minkowski' : type de distance utilis√© pour calculer la proximit√© entre les points
# p=2 : param√®tre pour la distance de Minkowski, p=2 correspond √† la distance Euclidienne classique

# Entra√Ænement du mod√®le sur les donn√©es d'entra√Ænement
knn.fit(X_train, y_train)
# fit() : m√©thode qui "apprend" le mod√®le √† partir des donn√©es
#     -> pour KNN, cela consiste √† m√©moriser toutes les donn√©es d'entra√Ænement
#     -> les pr√©dictions seront faites en comparant la distance entre un point test et ces donn√©es m√©moris√©es

In [None]:
# Pr√©diction des labels pour l'ensemble de test
y_pred = knn.predict(X_test)
# predict() : m√©thode qui utilise les k plus proches voisins de chaque √©chantillon de X_test
#     -> d√©termine la classe majoritaire parmi les voisins
# y_pred : tableau numpy contenant les pr√©dictions pour chaque √©chantillon de test

# Calcul de la pr√©cision (accuracy) du mod√®le
accuracy = accuracy_score(y_test, y_pred)
# accuracy_score() : compare les labels r√©els (y_test) avec les pr√©dictions (y_pred)
#     -> renvoie le pourcentage de pr√©dictions correctes
# accuracy : valeur flottante entre 0 et 1 (ex: 0.92 ‚Üí 92% correct)
print(y_test)
print(y_pred)
# Calcul de la matrice de confusion
cm = confusion_matrix(y_test, y_pred)
print(cm)
# confusion_matrix() : tableau 2x2 (pour classification binaire)
#     -> montre le nombre de vrais positifs (TP), faux positifs (FP),
#        vrais n√©gatifs (TN) et faux n√©gatifs (FN)
#     -> permet de comprendre o√π le mod√®le se trompe

[0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 1 1 0 0 0 0
 0 0 1 0 0 0 0 1 0 0 1 0 1 1 0 0 0 1 1 0 0 1 0 0 1 0 1 0 1 0 0 0 0 1 0 0 1
 0 0 0 0 1 1 1 0 0 0 1 1 0 1 1 0 0 1 0 0 0 1 0 1 1 1]
[0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 0 1 0 0 0 0
 0 0 1 0 0 0 0 1 0 0 1 0 1 1 0 0 1 1 1 0 0 1 0 0 1 0 1 0 1 0 0 0 0 1 0 0 1
 0 0 0 0 1 1 1 1 0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 1 1 1]
[[64  4]
 [ 3 29]]


In [None]:
accuracy

0.93

In [None]:
# Sauvegarde du mod√®le KNN entra√Æn√© dans un fichier pour une utilisation future
with open('knn_model.pkl', 'wb') as file:
    # 'knn_model.pkl' : nom du fichier o√π le mod√®le sera stock√©
    # 'wb' : mode √©criture binaire, n√©cessaire pour pickle
    pickle.dump(knn, file)
    # pickle.dump(obj, file) : s√©rialise l'objet Python (ici, le mod√®le KNN)
    #     -> l'objet est converti en format binaire et enregistr√© dans le fichier
    #     -> permet de charger plus tard le mod√®le sans le r√©entra√Æner


In [None]:
# Chargement du mod√®le KNN sauvegard√©
with open('knn_model.pkl', 'rb') as file:
    model = pickle.load(file)

# Exemple de nouveaux utilisateurs
# ‚ö†Ô∏è Important : respecter l'ordre des colonnes exact X = ['Age', 'EstimatedSalary', 'Gender']
nouvelles_donnees = pd.DataFrame([
    {'Age': 25, 'EstimatedSalary': 35000, 'Gender': 1},
    {'Age': 45, 'EstimatedSalary': 85000, 'Gender': 1},
    {'Age': 29, 'EstimatedSalary': 120000, 'Gender': 1}
])

# Normalisation selon le m√™me scaler utilis√© pour l'entra√Ænement
# ‚ö†Ô∏è Warning courant :
# "X has feature names, but StandardScaler was fitted without feature names"
# Sens : le scaler a √©t√© entra√Æn√© (fit) sur un numpy array sans noms de colonnes.
#        Maintenant, on lui passe un DataFrame avec noms de colonnes.
#        Le warning indique que les noms de colonnes ne correspondent pas √† ce qu'il a vu lors du fit.
#        Les valeurs sont quand m√™me normalis√©es correctement si l'ordre des colonnes est respect√©.
# Solution : transformer le DataFrame en numpy array avant le transform pour supprimer le warning.
nouvelles_donnees_scaled = sc.transform(nouvelles_donnees.values)

# Pr√©diction
predictions = model.predict(nouvelles_donnees_scaled)

# Ajout des pr√©dictions dans le DataFrame avec une pr√©sentation lisible
nouvelles_donnees['Prediction'] = [
    'üõí Purchased' if p == 1 else 'üö´ Not Purchased' for p in predictions
]

# Affichage des r√©sultats
nouvelles_donnees

Unnamed: 0,Age,EstimatedSalary,Gender,Prediction
0,25,35000,1,üö´ Not Purchased
1,45,85000,1,üõí Purchased
2,29,120000,1,üõí Purchased


In [None]:
import ipywidgets as widgets
from IPython.display import display, clear_output
import pandas as pd

# -------------------------------
# 1. Cr√©ation des widgets pour la saisie
# -------------------------------

# Slider pour s√©lectionner l'√¢ge de l'utilisateur
age = widgets.IntSlider(
    value=30,      # valeur initiale
    min=18,        # √¢ge minimum
    max=60,        # √¢ge maximum
    step=1,        # incr√©ments de 1
    description="Age:"  # √©tiquette visible pour l'utilisateur
)

# Slider pour s√©lectionner le salaire estim√©
salary = widgets.IntSlider(
    value=50000,      # valeur initiale
    min=10000,        # salaire minimum
    max=150000,       # salaire maximum
    step=5000,        # incr√©ments de 5000
    description="Salary:"  # √©tiquette visible
)

# Dropdown pour s√©lectionner le genre
gender = widgets.Dropdown(
    options=[("Female", 0), ("Male", 1)],  # valeurs utilis√©es par le mod√®le (0 ou 1)
    description="Gender:"                  # √©tiquette visible
)

# Bouton pour lancer la pr√©diction
predict_button = widgets.Button(
    description="Predict",  # texte sur le bouton
    button_style='success', # style vert
    icon='check'            # ic√¥ne de validation
)

# Zone de sortie pour afficher les r√©sultats et messages
output = widgets.Output()

# -------------------------------
# 2. Fonction de pr√©diction
# -------------------------------
def on_predict_clicked(b):
    """
    Cette fonction est appel√©e lorsqu'on clique sur le bouton "Predict".
    Elle prend les valeurs des widgets, les normalise et effectue une pr√©diction avec le mod√®le KNN.
    """
    with output:
        clear_output()  # Efface la sortie pr√©c√©dente pour ne pas empiler les r√©sultats

        # Cr√©er un DataFrame avec les entr√©es de l'utilisateur
        # ‚ö†Ô∏è Tr√®s important : respecter exactement l'ordre des colonnes utilis√© pour entra√Æner le mod√®le
        # X = ['Age','EstimatedSalary','Gender']
        data = pd.DataFrame([{
            'Age': age.value,
            'EstimatedSalary': salary.value,
            'Gender': gender.value
        }])

        # Normaliser les donn√©es avec le StandardScaler d√©j√† entra√Æn√©
        # ‚ö†Ô∏è UserWarning fr√©quent : "X has feature names, but StandardScaler was fitted without feature names"
        # Cela se produit parce que le scaler a √©t√© entra√Æn√© sur un numpy array (sans noms de colonnes)
        # et maintenant on lui passe un DataFrame (avec noms de colonnes)
        # La solution : utiliser data.values pour passer un numpy array et supprimer le warning
        data_scaled = sc.transform(data.values)

        # Faire la pr√©diction avec le mod√®le KNN charg√©
        pred = model.predict(data_scaled)[0]

        # Convertir la pr√©diction 0/1 en texte lisible pour l'utilisateur avec emoji
        result = "üõí Purchased" if pred == 1 else "üö´ Not Purchased"

        # Afficher le r√©sultat de la pr√©diction
        print(f"Prediction result: {result}")

        # Afficher √©galement les donn√©es saisies pour v√©rification
        display(data)

# -------------------------------
# 3. Lier le bouton √† la fonction
# -------------------------------
# Quand l'utilisateur clique sur le bouton, la fonction on_predict_clicked est ex√©cut√©e
predict_button.on_click(on_predict_clicked)

# -------------------------------
# 4. Affichage des widgets
# -------------------------------
# Les widgets sont affich√©s dans l'ordre : √¢ge, salaire, genre, bouton, zone de sortie
display(age, salary, gender, predict_button, output)


IntSlider(value=30, description='Age:', max=60, min=18)

IntSlider(value=50000, description='Salary:', max=150000, min=10000, step=5000)

Dropdown(description='Gender:', options=(('Female', 0), ('Male', 1)), value=0)

Button(button_style='success', description='Predict', icon='check', style=ButtonStyle())

Output()