**1. Classification avec KNN**

**1.1. Charger les données d'apprentissage**

In [219]:
import pandas as pd

Les données d'entrée d'apprentissage

In [220]:
X_train=pd.DataFrame([[1200,25],
                 [1300,27],
                 [1100,27],
                 [2500,49],
                 [2400,47],
                 [2600,45]], 
                 columns=['salaire','age'])
X_train

Unnamed: 0,salaire,age
0,1200,25
1,1300,27
2,1100,27
3,2500,49
4,2400,47
5,2600,45


Les données de sortie d'apprentissage

In [221]:
y_train=pd.Series(['junior','junior','junior','senior','senior','senior'])
y_train

0    junior
1    junior
2    junior
3    senior
4    senior
5    senior
dtype: object

**1.2. Apprentissage avec KNN**

In [222]:
from sklearn.neighbors  import KNeighborsClassifier

knn=KNeighborsClassifier(n_neighbors=2)
knn.fit(X_train,y_train)

KNeighborsClassifier(n_neighbors=2)

**1.3. Charger les données de test**

Les données d'entrée de test

In [223]:
X_test=pd.DataFrame([[1000,24],
                 [1350,29],
                 [2100,42],
                 [2300,44]], 
                 columns=['salaire','age'])

Les données de sortie de test

In [224]:
y_test=pd.Series(['junior','junior','senior','senior'])

**1.4. Evaluation de KNN**

Prédiction des données de test

In [225]:
y_test_predicted=knn.predict(X_test)
y_test_predicted

array(['junior', 'junior', 'senior', 'senior'], dtype=object)

In [226]:
y_test

0    junior
1    junior
2    senior
3    senior
dtype: object

Score d'accuracy

In [227]:
from sklearn.metrics import accuracy_score

print("accuracy=%.2f" % (accuracy_score(y_test, y_test_predicted)*100))

accuracy=100.00


Matrice de confusion

In [228]:
from sklearn.metrics import accuracy_score, confusion_matrix

M=confusion_matrix(y_test, y_test_predicted)
M

array([[2, 0],
       [0, 2]], dtype=int64)

In [229]:
pd.DataFrame(M,
             index=knn.classes_,
             columns=knn.classes_)

Unnamed: 0,junior,senior
junior,2,0
senior,0,2


Rappel (Recall) et précision apr classe

In [230]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_test_predicted))

              precision    recall  f1-score   support

      junior       1.00      1.00      1.00         2
      senior       1.00      1.00      1.00         2

    accuracy                           1.00         4
   macro avg       1.00      1.00      1.00         4
weighted avg       1.00      1.00      1.00         4



**2. Classification des données réelles (tabulaires)**

**2.1. Charger les données employes2.csv à partir de Google Drive**

In [231]:
import pandas as pd

In [232]:
df_employes = pd.read_csv('employes2.csv',index_col=0)
df_employes
df_employes_=df_employes.copy()
df_employes_

Unnamed: 0_level_0,salaire,prime,etat civil,date recrutement,classe
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ali,1200.675,100.56,celibataire,20/10/2018,junior
Sonia,2800.786,400.876,marie,30/11/2005,senior
Rahma,,130.987,celibataire,04/02/2017,junior
Salma,2500.876,340.6,marie,03/02/2010,senior
Ahmed,3100.76,,marie,09/09/2004,senior
Saleh,1300.876,150.9,celibataire,01/01/2017,junior
Ameni,1100.66,130.87,celibataire,11/05/2019,junior
Mehdi,3000.76,,marie,07/07/2000,senior
Salem,1505.76,159.7,celibataire,21/11/2017,junior
Sameh,2700.33,400.0,marie,19/02/1999,senior


In [233]:
# lire le fichier CSV et charger les données en dataframe df_employes
#

**2.2. Division des données en entrée et sortie**

Données d'entrée X

C'est la partie de dataframe composée de toutes les colonnes sauf la dernière colonne 'classe'

In [234]:
X = df_employes_.iloc[:,:-1]
X
Y = df_employes_.iloc[:,-1]
Y

nom
Ali        junior
Sonia      senior
Rahma      junior
Salma      senior
Ahmed      senior
Saleh      junior
Ameni      junior
Mehdi      senior
Salem      junior
Sameh      senior
Wajdi      junior
Moufida    senior
Name: classe, dtype: object

Données de sortie y

C'est la dernière colonne 'classe' de df_employes

In [235]:
#

**2.3. Division des données en train**

Les données sont divisées en train (60%) et test (40%)

Diviser X en X_train et X_test

Diviser y en y_train et y_test

Note : 
- Utiliser la fonction train_test_split() du module sklearn.model_selection
- Précisier le paramètre train_size = 60% des données
- Précisier le paramètre stratify  qui prend y. Il permet de garantir la même répartition entre train et test (en terme des échantillons/classe) 


In [236]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X,Y,test_size=0.3,random_state=0, shuffle=True)


**2.4 Transformation des données d'apprentissage d'entrée de format brute en format numérique**

Les données d'apprentissage d'entrée ont des types hétérogènes et non numériques. Ainsi, elles sont pas pêtes pour l'apprentissage du modèle de classifieur.

Cette étape consiste à transformer les données d'apprentissage en format nuémrique comme suit :
- Créer une copie de dataframe des données d'entrée d'apprentissage sur laquelle on applique le reste de travail
- Remplir les valeurs manquantes
- Remplacer le salaire et le prime par le revenue (revenue=salaire+prime)
- Remplacer la date de recrutement par l'ancienneté de l'employé
- Remplacer les valeurs discrètes de l'état civil par leurs codes binaires OHE

In [237]:
# Créer une copie des données d'entrée d'apprentissage (X_train) en X_
X_train_=X_train.copy()
# la transformation de X_train_
# ....
X_train_

Unnamed: 0_level_0,salaire,prime,etat civil,date recrutement
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Rahma,,130.987,celibataire,04/02/2017
Salem,1505.76,159.7,celibataire,21/11/2017
Sonia,2800.786,400.876,marie,30/11/2005
Mehdi,3000.76,,marie,07/07/2000
Sameh,2700.33,400.0,marie,19/02/1999
Salma,2500.876,340.6,marie,03/02/2010
Ali,1200.675,100.56,celibataire,20/10/2018
Saleh,1300.876,150.9,celibataire,01/01/2017


In [238]:
X_train_.fillna({'salaire':X_train.salaire.mean(),'prime':X_train.prime.mean()},inplace=True)
X_train_['revenue']=X_train_.salaire+X_train_.prime
X_train_.drop(['salaire','prime'],axis=1,inplace=True)
X_train_


Unnamed: 0_level_0,etat civil,date recrutement,revenue
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Rahma,celibataire,04/02/2017,2275.281714
Salem,celibataire,21/11/2017,1665.46
Sonia,marie,30/11/2005,3201.662
Mehdi,marie,07/07/2000,3241.277571
Sameh,marie,19/02/1999,3100.33
Salma,marie,03/02/2010,2841.476
Ali,celibataire,20/10/2018,1301.235
Saleh,celibataire,01/01/2017,1451.776


In [239]:
#Date
from datetime import datetime

X_train_['date recrutement']=pd.to_datetime(X_train_['date recrutement'])
X_train_['anciennete']=X_train_['date recrutement'].apply(lambda date : datetime.now().year - date.year)
X_train_.drop('date recrutement',axis = 1, errors = 'ignore',inplace = True)



  X_train_['date recrutement']=pd.to_datetime(X_train_['date recrutement'])
  X_train_['date recrutement']=pd.to_datetime(X_train_['date recrutement'])
  X_train_['date recrutement']=pd.to_datetime(X_train_['date recrutement'])
  X_train_['date recrutement']=pd.to_datetime(X_train_['date recrutement'])


In [240]:
X_train_

Unnamed: 0_level_0,etat civil,revenue,anciennete
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Rahma,celibataire,2275.281714,5
Salem,celibataire,1665.46,5
Sonia,marie,3201.662,17
Mehdi,marie,3241.277571,22
Sameh,marie,3100.33,23
Salma,marie,2841.476,12
Ali,celibataire,1301.235,4
Saleh,celibataire,1451.776,5


**2.5. Post-traitement des données d'apprentissage**

Normalisation des données d'apprentissage d'entrée 

La normalisation de X_train_ donne lieu à X_train_ss

In [241]:
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder()
ohe.fit(X_train_[['etat civil']])
ohe.categories_

[array(['celibataire', 'marie'], dtype=object)]

In [242]:
etat_civil_sparse = ohe.transform(X_train_[['etat civil']])

etat_civil = etat_civil_sparse.toarray()
df_etat_civil = pd.DataFrame(etat_civil,index = X_train_.index, columns=  ['Etat Civil celib','Etat Civil Marie'])
X_train_ss = pd.concat([X_train_,df_etat_civil],axis=1)
X_train_ss.drop(['etat civil'],axis=1,inplace = True)
X_train_ss


Unnamed: 0_level_0,revenue,anciennete,Etat Civil celib,Etat Civil Marie
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Rahma,2275.281714,5,1.0,0.0
Salem,1665.46,5,1.0,0.0
Sonia,3201.662,17,0.0,1.0
Mehdi,3241.277571,22,0.0,1.0
Sameh,3100.33,23,0.0,1.0
Salma,2841.476,12,0.0,1.0
Ali,1301.235,4,1.0,0.0
Saleh,1451.776,5,1.0,0.0


Réduction de dimension des données d'apprentissage d'entrée

La réduction de dimension de X_train_ss donne lieu à X_train_pca

In [243]:
#Normalisation
from sklearn.preprocessing import StandardScaler

In [244]:
ss = StandardScaler()
ss.fit(X_train_ss)
X_ss = ss.transform(X_train_ss)
X_ss

array([[-0.14296903, -0.87762298,  1.        , -1.        ],
       [-0.93896252, -0.87762298,  1.        , -1.        ],
       [ 1.06622483,  0.71203374, -1.        ,  1.        ],
       [ 1.11793459,  1.37439071, -1.        ,  1.        ],
       [ 0.9339573 ,  1.5068621 , -1.        ,  1.        ],
       [ 0.59607806,  0.04967677, -1.        ,  1.        ],
       [-1.41438135, -1.01009438,  1.        , -1.        ],
       [-1.21788186, -0.87762298,  1.        , -1.        ]])

In [245]:
from sklearn.decomposition import  PCA
pca=PCA(n_components=2)
pca.fit(X_ss)
X_train_pca=pca.transform(X_ss)
X_train_pca

array([[-1.51517016, -0.04665103],
       [-1.90952485, -0.07392776],
       [ 1.89134777,  0.21667012],
       [ 2.24186986, -0.33508349],
       [ 2.21570376, -0.45209305],
       [ 1.33352172,  0.75408492],
       [-2.21003977,  0.02048593],
       [-2.04770834, -0.08348564]])

**2.6. Apprentissage avec KNN**

Pour appliquer KNN, importer la classe KNeighborsClassifier du module sklearn.neighbors.

Créer une instance et précisier l'hyperparamètre n_neighbors=2

Appeler la fonction fit() et passer X_train_pca et y_train

In [246]:
from sklearn.neighbors import KNeighborsClassifier
neigh = KNeighborsClassifier(n_neighbors=2)
neigh.fit(X_train_pca, Y_train)

KNeighborsClassifier(n_neighbors=2)

**2.7. Traitement des données de test**

Appliquer le même traitement fait sur les données d'apprentissage d'entrée (transformation en format numérique et  post-traitement)

In [247]:
# Transformation des données de test
# Créer une copie des données d'entrée d'apprentissage (X_train) en X_
X_test_=X_test.copy()
# ...
X_test_.fillna({'salaire':X_test_.salaire.mean(),'prime':X_test_.prime.mean()},inplace=True)
X_test_['revenue']=X_test_.salaire+X_test_.prime
X_test_.drop(['salaire','prime'],axis=1,inplace=True)
X_test_


Unnamed: 0_level_0,etat civil,date recrutement,revenue
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ameni,celibataire,11/05/2019,1231.53
Moufida,marie,09/12/1991,4200.44
Ahmed,marie,09/09/2004,3416.195
Wajdi,celibataire,27/11/2015,1516.415


In [248]:
X_test_['date recrutement']=pd.to_datetime(X_test_['date recrutement'])
X_test_['anciennete']=X_test_['date recrutement'].apply(lambda date : datetime.now().year - date.year)
X_test_.drop('date recrutement',axis = 1, errors = 'ignore',inplace = True)
X_test_


  X_test_['date recrutement']=pd.to_datetime(X_test_['date recrutement'])


Unnamed: 0_level_0,etat civil,revenue,anciennete
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ameni,celibataire,1231.53,3
Moufida,marie,4200.44,31
Ahmed,marie,3416.195,18
Wajdi,celibataire,1516.415,7


Normaliser et réduire la dimension des données de test

In [249]:
etat_civil_sparse = ohe.transform(X_test_[['etat civil']])

etat_civil = etat_civil_sparse.toarray()
df_etat_civil = pd.DataFrame(etat_civil,index = X_test_.index, columns=  ['Etat Civil celib','Etat Civil Marie'])
X_test_ss = pd.concat([X_test_,df_etat_civil],axis=1)
X_test_ss.drop(['etat civil'],axis=1,inplace = True)
X_test_ss


Unnamed: 0_level_0,revenue,anciennete,Etat Civil celib,Etat Civil Marie
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ameni,1231.53,3,1.0,0.0
Moufida,4200.44,31,0.0,1.0
Ahmed,3416.195,18,0.0,1.0
Wajdi,1516.415,7,1.0,0.0


In [250]:
ss.fit(X_test_ss)
X_t_ss = ss.transform(X_test_ss)
X_t_ss

array([[-1.08559791, -1.08081682,  1.        , -1.        ],
       [ 1.28495735,  1.49474666, -1.        ,  1.        ],
       [ 0.65876925,  0.29894933, -1.        ,  1.        ],
       [-0.85812869, -0.71287918,  1.        , -1.        ]])

In [251]:
pca=PCA(n_components=2)
pca.fit(X_t_ss)
X_test_pca=pca.transform(X_t_ss)
X_test_pca

array([[-2.08275399,  0.09297904],
       [ 2.38620253, -0.43749584],
       [ 1.4840388 ,  0.5665324 ],
       [-1.78748735, -0.22201561]])

In [252]:
#
X_test_pca

array([[-2.08275399,  0.09297904],
       [ 2.38620253, -0.43749584],
       [ 1.4840388 ,  0.5665324 ],
       [-1.78748735, -0.22201561]])

**2.8. Evaluation de classifieur avec les données de test**

Prédiction des données de test

In [253]:
y_test_predicted=neigh.predict(X_test_pca)
print(Y_test)
print(y_test_predicted)

nom
Ameni      junior
Moufida    senior
Ahmed      senior
Wajdi      junior
Name: classe, dtype: object
['junior' 'senior' 'senior' 'junior']


In [254]:
#
y_test_predicted

array(['junior', 'senior', 'senior', 'junior'], dtype=object)

In [255]:
Y_test == y_test_predicted

nom
Ameni      True
Moufida    True
Ahmed      True
Wajdi      True
Name: classe, dtype: bool

Score d'accuracy

In [256]:
#

Matrice de confusion

In [257]:
#

Rappel et pércision

In [258]:
#

**2.9. Visualisation des données**

In [259]:
classe_junior=#
classe_senior=#

SyntaxError: invalid syntax (4141212160.py, line 1)

In [None]:
#