# Partie 1 - Base de données, Analyse, Prétraitement et Préparation

Appliquez les traitements nécessaires pour préparer la DataSet en utilisant Numpy et Pandas, (vous pouvez trouver un référentiel sur ressource) (présenter votre pipeline dans le compte rendu). NB. Le résultat de classification dépond essentiellement de la qualité du prétraitement.

## 1) Importation des bibliothèques

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


## 2) Visualisation des données 

In [3]:
dataset = pd.read_csv("combined_csv.csv")
dataset

Unnamed: 0,Q1,Q2,Q3,Q4,Q5,Q6,Q7,Q8,Q9,Q10,Score,Interpretation
0,a,a,a,a,a,1,1,1,1,1,10,B
1,b,b,b,b,b,2,2,2,2,2,0,C
2,c,c,c,c,c,3,3,3,3,3,20,A
3,a,b,c,a,b,1,2,3,1,2,8,C
4,b,c,a,c,a,3,2,3,1,2,11,B
...,...,...,...,...,...,...,...,...,...,...,...,...
188,c,c,,c,c,,,3.0,3,3,14,B
189,b,a,c,,b,,2.0,,3,2,5,C
190,a,c,b,,,1.0,,3.0,2,3,8,C
191,a,n,e,a,b,v,t,Y,',1,3,C


## 3) Pré-traitement des données

Notre jeu de données comporte plusieurs erreurs. Premièrement, il comporte des NaN, c'est-à-dire des valeurs manquantes. Deuxièmement, il comporte des valeurs erronées, qui ne correspondent pas aux valeurs acceptées en entrée par le questionnaire. Il faut donc les remplacer. 

### 3.1) Traitement des valeurs manquantes NaN

In [5]:
dataset.isnull().sum()

Q1                 8
Q2                12
Q3                13
Q4                 9
Q5                14
Q6                12
Q7                10
Q8                12
Q9                10
Q10                8
Score              0
Interpretation     0
dtype: int64

On observe plusieurs valeurs manquantes. On peut soit les remplacer par des valeurs nulles (b où 2), où utiliser la fonction "mode" de pandas. Celle-ci va rendre compte des valeurs les plus rendondantes dans chaque colonne du dataset.

In [9]:
dataset.mode().iloc[0]

Q1                  a
Q2                  b
Q3                  c
Q4                  a
Q5                  a
Q6                  2
Q7                  3
Q8                  2
Q9                  1
Q10                 2
Score             8.0
Interpretation      C
Name: 0, dtype: object

On remplace les NaN par les données explicitées ci-dessus.

In [17]:
dataset.fillna(dataset.mode().iloc[0], inplace=True)
dataset

Unnamed: 0,Q1,Q2,Q3,Q4,Q5,Q6,Q7,Q8,Q9,Q10,Score,Interpretation
0,a,a,a,a,a,1,1,1,1,1,10,B
1,b,b,b,b,b,2,2,2,2,2,0,C
2,c,c,c,c,c,3,3,3,3,3,20,A
3,a,b,c,a,b,1,2,3,1,2,8,C
4,b,c,a,c,a,3,2,3,1,2,11,B
...,...,...,...,...,...,...,...,...,...,...,...,...
210,c,c,c,c,c,2,3,3.0,3,3,14,B
211,b,a,c,a,b,2,2.0,2,3,2,5,C
212,a,c,b,a,a,1.0,3,3.0,2,3,8,C
213,a,n,e,a,b,v,t,Y,',1,3,C


On vérifie qu'il ne nous reste plus de valeurs manquantes NaN.

In [18]:
dataset.isnull().sum()

Q1                0
Q2                0
Q3                0
Q4                0
Q5                0
Q6                0
Q7                0
Q8                0
Q9                0
Q10               0
Score             0
Interpretation    0
dtype: int64

### 3.2) Traitement des valeurs erronées

Notre hypothèse de travail sera la suivante: <br/>
1) On va devoir séparer les valeurs de notre jeu de données en deux: True et False. <br/>
2) Ensuite, on remplace l'une des deux valeurs (qui représente les valeurs erronnées) par un NaN. <br/>
3) Enfin, on applique la solution effectuée à la question précédente, pour remplacer les NaN par les valeurs de la fonction .mode() <br/>

#### 3.2.1) Remplacement des valeurs par True et False

On va devoir remplacer toutes les valeurs qui ne correspondent pas à a, b, c ou 1,2 et 3.

In [53]:
dataset.iloc[:, 0:10].isin(["a", "b", "c", "1", "2", "3"])

Unnamed: 0,Q1,Q2,Q3,Q4,Q5,Q6,Q7,Q8,Q9,Q10
0,True,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...
210,True,True,True,True,True,True,True,False,True,True
211,True,True,True,True,True,True,False,True,True,True
212,True,True,True,True,True,False,True,False,True,True
213,True,False,False,True,True,False,False,False,False,True


#### 3.2.2) Remplacement des valeurs erronnées par des NaN

On écrase notre dataset originel par le nouveau dataset dans lequel les valeurs erronées sont remplacées par des NaN. 

In [5]:
dataset.iloc[:, 0:10] = dataset.iloc[:, 0:10].where(dataset.iloc[:, 0:10].isin(["a", "b", "c", "1", "2", "3"]))
dataset

Unnamed: 0,Q1,Q2,Q3,Q4,Q5,Q6,Q7,Q8,Q9,Q10,Score,Interpretation
0,a,a,a,a,a,1,1,1,1,1,10,B
1,b,b,b,b,b,2,2,2,2,2,0,C
2,c,c,c,c,c,3,3,3,3,3,20,A
3,a,b,c,a,b,1,2,3,1,2,8,C
4,b,c,a,c,a,3,2,3,1,2,11,B
...,...,...,...,...,...,...,...,...,...,...,...,...
188,c,c,c,c,c,2,3,,3,3,14,B
189,b,a,c,a,b,2,,2,3,2,5,C
190,a,c,b,a,a,,3,,2,3,8,C
191,a,,,a,b,,,,,1,3,C


In [7]:
# On remplace les a/A par des 1
dataset = dataset.replace("a", 1)
dataset= dataset.replace("A", 1)

# On remplace les b/B par des 2
dataset = dataset.replace("b", 2)
dataset = dataset.replace("B", 2)

# On remplace les c/C par des 3
dataset = dataset.replace("c", 3)
dataset = dataset.replace("C", 3)

print(dataset)

      Q1   Q2   Q3   Q4   Q5   Q6   Q7   Q8   Q9 Q10  Score  Interpretation
0      1    1    1    1    1    1    1    1    1   1     10               2
1      2    2    2    2    2    2    2    2    2   2      0               3
2      3    3    3    3    3    3    3    3    3   3     20               1
3      1    2    3    1    2    1    2    3    1   2      8               3
4      2    3    1    3    1    3    2    3    1   2     11               2
..   ...  ...  ...  ...  ...  ...  ...  ...  ...  ..    ...             ...
188    3    3    3    3    3    2    3  NaN    3   3     14               2
189    2    1    3    1    2    2  NaN    2    3   2      5               3
190    1    3    2    1    1  NaN    3  NaN    2   3      8               3
191    1  NaN  NaN    1    2  NaN  NaN  NaN  NaN   1      3               3
192  NaN    2    3  NaN  NaN  NaN    2  NaN  NaN   3      4               3

[193 rows x 12 columns]


In [9]:
# On remplace les NAN par des 1, 2, 3 de manière aléatoire
from random import randint

c = randint(1,3)
# On remplace les NAN par des valeurs aléatoires 
dataset = dataset.fillna(c)
print(dataset.isnull().sum())

Q1                0
Q2                0
Q3                0
Q4                0
Q5                0
Q6                0
Q7                0
Q8                0
Q9                0
Q10               0
Score             0
Interpretation    0
dtype: int64


In [10]:
dataset

Unnamed: 0,Q1,Q2,Q3,Q4,Q5,Q6,Q7,Q8,Q9,Q10,Score,Interpretation
0,1,1,1,1,1,1,1,1,1,1,10,2
1,2,2,2,2,2,2,2,2,2,2,0,3
2,3,3,3,3,3,3,3,3,3,3,20,1
3,1,2,3,1,2,1,2,3,1,2,8,3
4,2,3,1,3,1,3,2,3,1,2,11,2
...,...,...,...,...,...,...,...,...,...,...,...,...
188,3,3,3,3,3,2,3,2,3,3,14,2
189,2,1,3,1,2,2,2,2,3,2,5,3
190,1,3,2,1,1,2,3,2,2,3,8,3
191,1,2,2,1,2,2,2,2,2,1,3,3


#### 3.2.3) Remplacement des NaN par la fonction .mode()

In [11]:
dataset.fillna(dataset.mode().iloc[0], inplace=True)
dataset

Unnamed: 0,Q1,Q2,Q3,Q4,Q5,Q6,Q7,Q8,Q9,Q10,Score,Interpretation
0,1,1,1,1,1,1,1,1,1,1,10,2
1,2,2,2,2,2,2,2,2,2,2,0,3
2,3,3,3,3,3,3,3,3,3,3,20,1
3,1,2,3,1,2,1,2,3,1,2,8,3
4,2,3,1,3,1,3,2,3,1,2,11,2
...,...,...,...,...,...,...,...,...,...,...,...,...
188,3,3,3,3,3,2,3,2,3,3,14,2
189,2,1,3,1,2,2,2,2,3,2,5,3
190,1,3,2,1,1,2,3,2,2,3,8,3
191,1,2,2,1,2,2,2,2,2,1,3,3


In [None]:
dataset.

# Partie 2 - Développement et entraînement d’un modèle KNN

La technique de classification KNN est considérée comme la technique la plus simple pour appliquer la classification supervisée, tout simplement, une nouvelle donnée de test sera classée comme la majorité de ses voisins (la distance la plus proche). À la suite de votre recherche sur le principe de KNN, nous développons notre modèle KNN. Pour cela :

## 2.1) Préparez une fonction permettant de calculer les 3 différentes distances : Euclidean, Manhattan et Minkowski, (def distance(metric=’ Euclidean’, **kargs)).

In [104]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 215 entries, 0 to 214
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Q1              215 non-null    object
 1   Q2              215 non-null    object
 2   Q3              215 non-null    object
 3   Q4              215 non-null    object
 4   Q5              215 non-null    object
 5   Q6              215 non-null    object
 6   Q7              215 non-null    object
 7   Q8              215 non-null    object
 8   Q9              215 non-null    object
 9   Q10             215 non-null    object
 10  Score           215 non-null    int64 
 11  Interpretation  215 non-null    object
dtypes: int64(1), object(11)
memory usage: 20.3+ KB


In [108]:
dataset["Q1"].astype(int)

ValueError: invalid literal for int() with base 10: 'a'

### 2.1.1) Distance Euclidienne

### 2.1.2) Distance Manhattan

### 2.1.3) Distance Minkowski

In [None]:
# Calculate distance between two points

def minkowski_distance(a, b, p=1):
    
    # Store the number of dimensions
    dim = len(a)
    
    # Set initial distance to 0
    distance = 0
    
    # Calculate minkowski distance using parameter p
    for d in range(dim):
        distance += abs(a[d] - b[d])**p
        
    distance = distance**(1/p)
    
    return distance


# Test the function

minkowski_distance(a=X.iloc[0], b=X.iloc[1], p=1)