# Application du k-nearest neighbors et du k-means

## Importation des librairies nécessaires

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import seaborn as sns
from mpl_toolkits.mplot3d import Axes3D
import plotly.express as px

In [None]:
import pandas as pd

##Chargement des données

Nous allons ici utiliser le dataset Mall_Customers (disponible sur Kaggle https://www.kaggle.com/datasets/shwetabh123/mall-customers). Ce dataset contient les profils de clients allant au centre commercial, avec comme features l'âge, le genre, le niveau de revenu, et un score de 1 à 100 sur le niveau de dépense du client.

Il est très courant en étude de marché de diviser les clients en plusieurs groupes : c'est la segmentation des clients. Nous allons utiliser l'algorithme du kmeans pour diviser les clients du dataset en plusieurs groupes cohérents.

In [None]:
mall = pd.read_csv("Mall_Customers.csv")  # Chargement du dataset

In [None]:
mall.head()

## Premières statistiques sur le dataframe

Nous allons dans cette partie rappeler des fonctions de la librairie pandas.

Rappelons tout d'abord que pour calculer la moyenne d'une colonne "Colonne" d'un tableau tab, nous pouvons utiliser la fonction mean(). Ainsi, pour calculer la moyenne d'âge des clients, nous utlisons le code suivant :

In [None]:
mall["Age"].mean()

Pour obtenir les différentes valeurs présentes dans une colonne (ainsi que leur nombre d'occurences), nous pouvons utiliser la fonction value_counts(). Ainsi, pour obtenir la répartition des âges des clients du dataset, nous utilisons le code suivant :

In [None]:
mall["Age"].value_counts()

La fonction groupby permet d'obtenir des statistiques sur le tableau en le sous-divisant en plusieurs catégories en fonction de certaines features.

Par exemple, si nous voulons obtenir la moyenne de la colonne "Colonne2" sur le tableau tab, mais en divisant le calcul en fonction des différentes valeurs de "Colonne1", on écrira : tab.groupby(["Colonne1"])["Colonne2].mean().

Ainsi, si on veut calculer la moyenne d'âge des clients du dataset, mais en divisant les statistiques selon le genre des clients, nous obtenons le code suivant :

In [None]:
mall.groupby("Genre")["Age"].mean()

Nous pouvons sélectionner des sous-tableaux du tableau initial tab.

Ainsi, pour sélectionner le tableau avec uniquement les clients de plus de 50 ans, nous utilisons le code suivant :

In [None]:
mall[mall["Age"] > 50]

Finalement, pour obtenir le nombre de lignes du tableau tab, nous pouvons utiliser tab.shape[0].

Pour obtenir le nombre de clients du dataset, on utilisera donc :

In [None]:
mall.shape[0]

Ainsi, pour obtenir le nombre de clients du dataset qui sont des femmes et ont plus de 50 ans, on écrira :

In [None]:
mall[(mall["Age"]>50) & (mall["Genre"] == "Female")].shape[0]

###Question 1

Quel est le revenu moyen des clients du dataset ?

In [None]:
### A COMPLETER

Le revenu moyen est **A COMPLETER**.

###Question 2
Combien y a t-il de femmes dans le dataset ?

In [None]:
### A COMPLETER

Il y a **A COMPLETER** femmes dans le dataset.

###Question 3
Quel est le score moyen de dépense des clients ?


In [None]:
### A COMPLETER

Le score moyen de dépense des clients est de **A COMPLETER**.

###Question 4
Quel est le score moyen de dépense des clients de moins de 30 ans ?

In [None]:
###A COMPLETER

Le score moyen de dépense des clients de moins de 30 ans est de **A COMPLETER**.

###Question 5
Quel est le score moyen de dépense des clients de plus de 30 ans ?

In [None]:
### A COMPLETER

Le score moyen de dépense des clients de plus de 30 ans est **A COMPLETER**.

###Question 6
Combien y a t-il d'hommes de moins de 15 ans dans le dataset ?

In [None]:
### A COMPLETER

Il y a **A COMPLETER** hommes de moins de 15 ans.

##Application du kmeans

In [None]:
from sklearn.cluster import KMeans

In [None]:
X = mall[["Age","Genre","Annual Income (k$)", "Spending Score (1-100)"]]

Comme à la séance 1, nous allons nous transformer les colonnes avec des éléments de type "string". Pour cela, nous allons utiliser la fonction get_dummies qui permet de remplacer la colonne par plusieurs nouvelles colonnes contenant des booléens.

Ainsi, on remplacera la colonnes "Genre" par deux colonnes : "Genre_Female" et "Genre_Male". A chaque ligne, une seule des deux colonnes aura la valeur True.

In [None]:
X_encoded = pd.get_dummies(X, columns = ["Genre"])
X_encoded.head()

###Question 7
Nous allons désormais créer un kmeans, cherchant à diviser les données en 4 clusters.
Intialisez le Kmeans, en regardant la documentation : https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html(sélectionner random_state = 42). Pour les questions 7 et 8, il sera nécessaire de se référer à cette documentation.

In [None]:
kmeans = # A COMPLETER # Initialisation du Kmeans

###Question 8
Entraîner le Kmeans sur le dataset débarassé des chaines de caractère, X_encoded.

In [None]:
kmeans#A COMPLETER # Entraînement du kmeans

In [None]:
# Récupération des étiquettes de clusters attribuées par K-means
mall['Cluster'] = kmeans.labels_   # Création d'une nouvelle colonne Cluster : chaque client aura pour étiquette le numéro de cluster correspondant
mall.head()

###Question 9
Combien y a t-il de clients par clusters ?

In [None]:
# Affichage des résultats
print("\n Nombre de clients par cluster :")

# A COMPLETER

Il y a **A COMPLETER** clients dans le cluster 0, **A COMPLETER** clients dans le cluster 1, **A COMPLETER** clients dans le cluster 2, **A COMPLETER** clients dans le cluster 3.

Nous allons désormais visualiser la répartition selon les différents clusters des clients. Pour cela, nous allons afficher la répartition des clients en fonction de 3 features : l'âge, le revenu annuel et le score de dépense.

In [None]:
fig = px.scatter_3d(
    mall,
    x='Age',
    y='Annual Income (k$)',
    z='Spending Score (1-100)',
    color='Cluster',
    title='Clusters K-means sur le dataset Mall Customers (3D)',
    labels={
        'Age': 'Âge',
        'Annual Income (k$)': 'Revenu Annuel (k$)',
        'Spending Score (1-100)': 'Spending Score (1-100)'
    },
    opacity=0.7
)

fig.show()

Nous allons ici afficher les centroïdes (la moyenne) des différents clusters. Ceci correspond au profil moyen de chacun des 4 groupes de clients.

In [None]:
centroides = kmeans.cluster_centers_
centroides_df = pd.DataFrame(centroides, columns=['Age', 'Annual Income (k$)', 'Spending Score (1-100)', 'Genre_Female', 'Genre_Male'])
print("Coordonnées des centroides des clusters :")
centroides_df.head()

###Question 10
Décrivez grossièrement les caractéristiques de chacun des 4 groupes de clients.


**A COMPLETER**

##Application du KNN (k-nearest neighbors)

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

Nous allons encore une fois utiliser la fonction get_dummies pour nous débarasser de la colonne "Genre", contenant des chaines de caractères (string)  pour créer deux nouvelles colonnes "Genre_Male" et "Genre_Female" qui contiennent des booléens, des types qui sont acceptés par la librairie scikit-learn.

In [None]:
X = pd.get_dummies(mall.drop(columns = "Spending Score (1-100)"), ["Genre"])

In [None]:
X.head()

In [None]:
y = mall["Spending Score (1-100)"]

Nous séparons désormais les données en deux parties : les données d'entraînement et les donnée de test.

In [None]:
# Division des données en ensemble d'entraînement et de test (80% - 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


###Question 10
Initialiser un K-nearest neighbors avec un nombre de voisins à 10.

Il faudra examiner la documentation scikit-learn pour répondre aux prochaines questions (10,11,12) : https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html.


In [None]:
# Création du modèle KNN
knn = # A COMPLETER

###Question 11
Entraîner le knn sur le dataset X_train, avec pour labels y_train.

In [None]:
# Entraînement du modèle sur les données d'entraînement
knn#A COMPLETER


###Question 12
Calculez la prédiction sur X_test de notre knn.

In [None]:
# Prédiction sur les données de test
y_pred = # A COMPLETER

Nous allons désormais calculer la précision du modèle: nous allons calculer la différence moyenne entre le score de dépense prédit par le modèle et le vrai score de dépense.

In [None]:
# Évaluation de la précision
precision = np.sum( np.abs((y_pred - y_test)) ) # Calcule la distance par la norme 1 entre y_pred et y_test
print(f"Précision du modèle KNN : {precision / X_test.shape[0]}")

In [None]:
# Affichage de quelques prédictions pour vérifier
print("Exemples de prédictions :")
for i in range(5):
    print(f"Vrai score de dépense: {y_test.iloc[i]}, Score de dépense prédit: {y_pred[i]}")

###Question 13
Faites varier l'hyperparamètre n_neighbors. Avec lequel obtenez vous la meilleure précision ? Donnez la valeur de l'hyperparamètre et la précision obtenue.