# K Nearest Neighbors
***Méthode des K plus proches voisins***  

Algorithme d'apprentissage supervisé pour la classification.  

Il consiste à projetté les points de notre Dataset sur un plan, repère orthonormé ou pour prédire la classe d'un nouveau point on va lui attribuer la classe du (ou des) point le plus proche.  
Nous pourrons définir comme paramètres le nombre de points *K* à proximité à prendre en compte pour définir la classe.  
On attribuera à la prédiction la classe la plus présente parmi les *K* voisins.

## Générale
Hyper-paramètres :
- *K*, `n_neighbors` : Le nombre de points voisins à prendre en compte (défault 5)
- La mesure de la distance, `metric` : Choix du type de calcule pour la distance entre les points voisins et la prédiction (défault `minkowski`)
- Appliquer des coefficient au calcule de distance.
### Force 
### Faiblesse
### Quand l'utiliser ?

## Run K-NN 
***Le Dataset du Titanic***

- But : Déterminer si un passager va survivre ?
- Métrique :

### Imports

In [31]:
import pandas as pd 
import seaborn as sns
import numpy as np

from sklearn.neighbors import KNeighborsClassifier

In [5]:
titanic_DS = sns.load_dataset("titanic")

In [12]:
titanic_DS.shape

(891, 15)

Nous avons :
- 15 variables colonnes 
- 891 exemples lignes 

In [11]:
titanic_DS.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


### Nettoyage de données...

- Selectionne uniquement les variables qui nous intérresse

In [13]:
titanic = titanic_DS[["survived", "pclass", "sex", "age"]]

- Élimine les ligne avec des valeurs manquantes

In [16]:
titanic.dropna(axis=0, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  titanic.dropna(axis=0, inplace=True)


- Remplace les valeurs Catégorielles par un encodage en valeurs numériques discrètes

In [17]:
titanic["sex"].replace(["male", "female"], [0, 1], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._update_inplace(new_data)


In [20]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age
0,0,3,0,22.0
1,1,1,1,38.0
2,1,3,1,26.0
3,1,1,1,35.0
4,0,3,0,35.0


### Entrainement

- nous devons séparer notre *y* notre vecteur de données à prédire de notre matrice *X* nos variables

In [53]:
y = titanic["survived"]
X = titanic.drop("survived", axis=1)

In [54]:
X.shape, y.shape

((714, 3), (714,))

#### modèle

In [55]:
model = KNeighborsClassifier()

In [56]:
model.fit(X, y)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')

In [57]:
model.score(X, y)

0.8319327731092437

- Après un premier Run de notre modèle :  
Nous avons une précicion de 83%, il prédit 83% du temps la bonne réponse si le passager survit.

In [61]:
model.predict(X)[1]

1

## Test du modèle

Nous allons créer une fonction affin de passer des paramètres au modèle pour le tester

In [63]:
X.columns

Index(['pclass', 'sex', 'age'], dtype='object')

In [88]:
def pred_person_survie(model, pclass=2, sex=0, age=34):
    
    x = np.array([pclass, sex, age]).reshape(1, 3) # reshape pour donner les bonne dim
    
    print(model.predict(x))
    print(model.predict_proba(x))
     
    

In [89]:
pred_person_survie(model)

[0]
[[1. 0.]]


- On voit que je n'aurais pas survécue et que j'avais 100% de chance de mourir 