**1. Classification avec KNN**

**1.1. Charger les données d'apprentissage**

In [3]:
import pandas as pd

Les données d'entrée d'apprentissage

In [4]:
X_train=pd.DataFrame([[1200,25],
                     [1300,27],
                     [1100,27],
                     [2500,49],
                     [2400,47],
                     [2600,45]], 
                     columns=['salaire','age'])

Les données de sortie d'apprentissage

In [5]:
y_train=pd.Series(['junior','junior','junior','senior','senior','senior'])

**1.2. Apprentissage avec KNN**

In [6]:
from sklearn.neighbors  import KNeighborsClassifier

knn=KNeighborsClassifier(n_neighbors=2)
knn.fit(X_train,y_train)

**1.3. Charger les données de test**

Les données d'entrée de test

In [7]:
X_test=pd.DataFrame([[1000,24],
                 [1350,29],
                 [2100,42],
                 [2300,44]], 
                 columns=['salaire','age'])

Les données de sortie de test

In [8]:
y_test=pd.Series(['junior','junior','senior','senior'])

**1.4. Evaluation de KNN**

Prédiction des données de test

In [9]:
y_test_predicted=knn.predict(X_test)
y_test_predicted

array(['junior', 'junior', 'senior', 'senior'], dtype=object)

In [10]:
y_test

0    junior
1    junior
2    senior
3    senior
dtype: object

Score d'accuracy

In [11]:
from sklearn.metrics import accuracy_score

print("accuracy=%.2f" % (accuracy_score(y_test, y_test_predicted)*100))

accuracy=100.00


Matrice de confusion

In [12]:
from sklearn.metrics import accuracy_score, confusion_matrix

M=confusion_matrix(y_test, y_test_predicted)
M

array([[2, 0],
       [0, 2]], dtype=int64)

In [13]:
pd.DataFrame(M,
             index=knn.classes_,
             columns=knn.classes_)

Unnamed: 0,junior,senior
junior,2,0
senior,0,2


Rappel (Recall) et précision apr classe

In [14]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_test_predicted))

              precision    recall  f1-score   support

      junior       1.00      1.00      1.00         2
      senior       1.00      1.00      1.00         2

    accuracy                           1.00         4
   macro avg       1.00      1.00      1.00         4
weighted avg       1.00      1.00      1.00         4



**2. Classification des données réelles (tabulaires)**

**2.1. Charger les données employes2.csv à partir de Google Drive**

In [18]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [18]:
# Précisier le chemin de fichier CSV et le nommer data_path
data_path='./employes2.csv'

In [28]:
# lire le fichier CSV et charger les données en dataframe df_employes
df_employes=pd.read_csv(data_path, index_col=0, header=0)
df_employes

Unnamed: 0_level_0,salaire,prime,etat civil,date recrutement,classe
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ali,1200.675,100.56,celibataire,20/10/2018,junior
Sonia,2800.786,400.876,marie,30/11/2005,senior
Rahma,,130.987,celibataire,04/02/2017,junior
Salma,2500.876,340.6,marie,03/02/2010,senior
Ahmed,3100.76,,marie,09/09/2004,senior
Saleh,1300.876,150.9,celibataire,01/01/2017,junior
Ameni,1100.66,130.87,celibataire,11/05/2019,junior
Mehdi,3000.76,,marie,07/07/2000,senior
Salem,1505.76,159.7,celibataire,21/11/2017,junior
Sameh,2700.33,400.0,marie,19/02/1999,senior


In [46]:
#fill the missing values with the mean of the column salaire and prime 
df_employes['salaire'].fillna(df_employes['salaire'].mean(), inplace=True)
df_employes['prime'].fillna(df_employes['prime'].mean(), inplace=True)
df_employes

Unnamed: 0_level_0,salaire,prime,etat civil,date recrutement,classe
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ali,1200.675,100.56,celibataire,20/10/2018,junior
Sonia,2800.786,400.876,marie,30/11/2005,senior
Rahma,2192.082091,130.987,celibataire,04/02/2017,junior
Salma,2500.876,340.6,marie,03/02/2010,senior
Ahmed,3100.76,257.165889,marie,09/09/2004,senior
Saleh,1300.876,150.9,celibataire,01/01/2017,junior
Ameni,1100.66,130.87,celibataire,11/05/2019,junior
Mehdi,3000.76,257.165889,marie,07/07/2000,senior
Salem,1505.76,159.7,celibataire,21/11/2017,junior
Sameh,2700.33,400.0,marie,19/02/1999,senior


**2.2. Division des données en entrée et sortie**

Données d'entrée X

C'est la partie de dataframe composée de toutes les colonnes sauf la dernière colonne 'classe'

In [47]:
#droper la colonne 'classe' du dataframe df_employes et la stocker dans le X 
X=df_employes.drop('classe', axis=1)
X

Unnamed: 0_level_0,salaire,prime,etat civil,date recrutement
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ali,1200.675,100.56,celibataire,20/10/2018
Sonia,2800.786,400.876,marie,30/11/2005
Rahma,2192.082091,130.987,celibataire,04/02/2017
Salma,2500.876,340.6,marie,03/02/2010
Ahmed,3100.76,257.165889,marie,09/09/2004
Saleh,1300.876,150.9,celibataire,01/01/2017
Ameni,1100.66,130.87,celibataire,11/05/2019
Mehdi,3000.76,257.165889,marie,07/07/2000
Salem,1505.76,159.7,celibataire,21/11/2017
Sameh,2700.33,400.0,marie,19/02/1999


Données de sortie y

C'est la dernière colonne 'classe' de df_employes

In [48]:
#afficher la colonne classe du dataframe df_employes 
y=df_employes['classe']
y

nom
Ali        junior
Sonia      senior
Rahma      junior
Salma      senior
Ahmed      senior
Saleh      junior
Ameni      junior
Mehdi      senior
Salem      junior
Sameh      senior
Wajdi      junior
Moufida    senior
Name: classe, dtype: object

**2.3. Division des données en train**

Les données sont divisées en train (60%) et test (40%)

Diviser X en X_train et X_test

Diviser y en y_train et y_test

Note : 
- Utiliser la fonction train_test_split() du module sklearn.model_selection
- Précisier le paramètre train_size = 60% des données
- Précisier le paramètre stratify  qui prend y. Il permet de garantir la même répartition entre train et test (en terme des échantillons/classe) 


In [49]:
# define train_test_split function 
from sklearn.model_selection import train_test_split
# diviser X en 2 parties: X_train et X_test (60% et 40%) 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=0)
X_train

Unnamed: 0_level_0,salaire,prime,etat civil,date recrutement
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Salem,1505.76,159.7,celibataire,21/11/2017
Sonia,2800.786,400.876,marie,30/11/2005
Mehdi,3000.76,257.165889,marie,07/07/2000
Sameh,2700.33,400.0,marie,19/02/1999
Salma,2500.876,340.6,marie,03/02/2010
Ali,1200.675,100.56,celibataire,20/10/2018
Saleh,1300.876,150.9,celibataire,01/01/2017


In [64]:
#y_train 
y_train

nom
Salem    junior
Sonia    senior
Mehdi    senior
Sameh    senior
Salma    senior
Ali      junior
Saleh    junior
Name: classe, dtype: category
Categories (2, object): ['junior', 'senior']

**2.4 Transformation des données d'apprentissage d'entrée de format brute en format numérique**

Les données d'apprentissage d'entrée ont des types hétérogènes et non numériques. Ainsi, elles sont pas pêtes pour l'apprentissage du modèle de classifieur.

Cette étape consiste à transformer les données d'apprentissage en format nuémrique comme suit :
- Créer une copie de dataframe des données d'entrée d'apprentissage sur laquelle on applique le reste de travail
- Remplir les valeurs manquantes
- Remplacer le salaire et le prime par le revenue (revenue=salaire+prime)
- Remplacer la date de recrutement par l'ancienneté de l'employé
- Remplacer les valeurs discrètes de l'état civil par leurs codes binaires OHE

In [151]:
# Créer une copie des données d'entrée d'apprentissage (X_train) en X_
X_train_=X_train.copy()
# remplacer le salaire et le prime par le revenue= salaire+prime 
X_train_['revenue']=X_train_['salaire']+X_train_['prime']
# drop les colonnes salaire et prime
X_train_=X_train_.drop(['salaire','prime'], axis=1)

In [152]:
X_train_

Unnamed: 0_level_0,etat civil,date recrutement,revenue
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Salem,celibataire,21/11/2017,1665.46
Sonia,marie,30/11/2005,3201.662
Mehdi,marie,07/07/2000,3257.925889
Sameh,marie,19/02/1999,3100.33
Salma,marie,03/02/2010,2841.476
Ali,celibataire,20/10/2018,1301.235
Saleh,celibataire,01/01/2017,1451.776


In [153]:
from datetime import datetime
#convert date to datetime format 
X_train_['date recrutement']=pd.to_datetime(X_train_['date recrutement'],infer_datetime_format=True)
X_train_

Unnamed: 0_level_0,etat civil,date recrutement,revenue
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Salem,celibataire,2017-11-21,1665.46
Sonia,marie,2005-11-30,3201.662
Mehdi,marie,2000-07-07,3257.925889
Sameh,marie,1999-02-19,3100.33
Salma,marie,2010-02-03,2841.476
Ali,celibataire,2018-10-20,1301.235
Saleh,celibataire,2017-01-01,1451.776


In [154]:
X_train_['anciennete']=X_train_['date recrutement'].apply(lambda x: datetime.now().year-x.year)
X_train_.drop('date recrutement', axis=1, inplace=True)
X_train_

Unnamed: 0_level_0,etat civil,revenue,anciennete
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Salem,celibataire,1665.46,5
Sonia,marie,3201.662,17
Mehdi,marie,3257.925889,22
Sameh,marie,3100.33,23
Salma,marie,2841.476,12
Ali,celibataire,1301.235,4
Saleh,celibataire,1451.776,5


In [155]:
#remplacer les valeurs de la coloonne 'etat civil' par leur code binaires ohe 
from sklearn.preprocessing import OneHotEncoder
OHE=OneHotEncoder().fit(X_train_[['etat civil']])
OHE.categories_

[array(['celibataire', 'marie'], dtype=object)]

In [156]:
X_train_

Unnamed: 0_level_0,etat civil,revenue,anciennete
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Salem,celibataire,1665.46,5
Sonia,marie,3201.662,17
Mehdi,marie,3257.925889,22
Sameh,marie,3100.33,23
Salma,marie,2841.476,12
Ali,celibataire,1301.235,4
Saleh,celibataire,1451.776,5


In [140]:
df_etat_civil=pd.DataFrame(etat_civil_ohe, index=X_train_.index, columns=['celibataire','marie'])
df_etat_civil

ValueError: Shape of passed values is (7, 2), indices imply (14, 2)

**2.5. Post-traitement des données d'apprentissage**

Normalisation des données d'apprentissage d'entrée 

La normalisation de X_train_ donne lieu à X_train_ss

In [19]:
from sklearn.preprocessing import StandardScaler
ss=StandardScaler()
ss.fit(X_train_)
X_train_ss=ss.transform(X_train_)
X_train_ss

NameError: name 'X_train_' is not defined

Réduction de dimension des données d'apprentissage d'entrée

La réduction de dimension de X_train_ss donne lieu à X_train_pca

In [None]:
from sklearn.decomposition import PCA
pca=PCA(n_components=2)
pca.fit(X_train_ss)
X_train_pca=pca.transform(X_train_ss)
X_train_pca

In [20]:
import numpy as np
np.cov(X_train_ss.T)

NameError: name 'X_train_ss' is not defined

**2.6. Apprentissage avec KNN**

Pour appliquer KNN, importer la classe KNeighborsClassifier du module sklearn.neighbors.

Créer une instance et précisier l'hyperparamètre n_neighbors=2

Appeler la fonction fit() et passer X_train_pca et y_train

In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn=KNeighborsClassifier(n_neighbors=2)
knn.fit(X_train_pca, y_train)

**2.7. Traitement des données de test**

Appliquer le même traitement fait sur les données d'apprentissage d'entrée (transformation en format numérique et  post-traitement)

In [None]:
# Transformation des données de test
# Créer une copie des données d'entrée d'apprentissage (X_train) en X_
X_test_=X_test.copy()
X_test_fillna({'salaire':X_test_['salaire'].mean(),
'prime':X_test_['prime'].mean()}, inplace=True)
X_test_

Normaliser et réduire la dimension des données de test

In [None]:
#
X_test_pca

**2.8. Evaluation de classifieur avec les données de test**

Prédiction des données de test

In [None]:
#
y_test_predicted

array(['senior', 'junior', 'junior', 'junior', 'senior'], dtype=object)

Score d'accuracy

In [None]:
#

accuracy=100.00


Matrice de confusion

In [None]:
#

array([[3, 0],
       [0, 2]])

Rappel et pércision

In [None]:
#

**2.9. Visualisation des données**

In [None]:
classe_junior=#
classe_senior=#

In [None]:
#