# Introduction des k plus proches voisins

> **Par définition, kNN un algorithme de classification et de régression utilisé pour effectuer des tâches telles que la classification d'un point de données dans une catégorie ou la prédiction de la valeur d'une variable cible.**

## Lecture dataset

+ Lire le fichier 'paris_airbnb.csv' dans un Dataframe nommé paris_listings.
+ Afficher la première ligne de paris_listings.


In [3]:
import pandas as pd

paris_listings = pd.read_csv("paris_airbnb.csv")

paris_listings.iloc[0]

host_response_rate                 100%
host_acceptance_rate                NaN
host_listings_count                 1.0
latitude                       48.83349
longitude                       2.31852
city                              Paris
zipcode                           75014
state                     Île-de-France
accommodates                          2
room_type               Entire home/apt
bedrooms                            0.0
bathrooms                           1.0
beds                                0.0
price                            $75.00
cleaning_fee                     $50.00
security_deposit                  $0.00
minimum_nights                        3
maximum_nights                       15
number_of_reviews                     8
Name: 0, dtype: object

## Distance Euclidienne

+ Calculer la distance Euclidienne entre notre logement qui peut accueillir 3 personnes et le premier logement du dataFrame paris_listings.
+ Assigner le résultat à la variable first_distance et afficher le résultat.

In [9]:
import numpy as np

first_distance = np.abs(3 - paris_listings["accommodates"].iloc[0])
first_distance

1

## Calculer la distance pour toutes les observations

+ Calculer la distance entre chaque valeur de la colonne 'accommodates' de paris_listings et la valeur 3 (qui est le nombre de personnes que peut accueillir notre logement):
 - Utiliser la méthode **apply** pour calculer la valeur absolue entre chaque valeur de 'accommodates' et 3 et retourner un nouvel objet Series contenant les valeurs de distance.
+ Assigner les valeurs de distance à la colonne 'distance' du dataframe.
+ Utiliser la méthode Series value_counts() et afficher le décompte de chaque valeur unique de la colonne 'distance'.


In [11]:
our_acc = 3

paris_listings["distance"] = paris_listings["accommodates"].apply(lambda x: np.abs(x - 3))
paris_listings["distance"].value_counts()

1     5665
0      878
2      726
3      508
4       88
5       82
6       18
7       14
9        8
11       4
8        4
13       3
10       2
Name: distance, dtype: int64

## Randomiser et trier

+ On commence par se placer sur le même seed: np.random.seed(1)
+ Randomiser l'ordre des lignes de paris_listings:
 - Utiliser la fonction np.random.permutation() pour retourner un tableau NumPy de valeurs d'index mélangés.
 - Utiliser la méthode sur Dataframe loc[] pour retourner un nouveau DataFrame contenant l'ordre mélangé.
 - Assigner le nouveau Dataframe de nouveau à paris_listings.
+ Après avoir randomisé, trier paris_listings sur la colonne 'distance' avec la méthode sort_values().
+ Afficher les 10 premières valeurs de la colonne 'price'.


In [13]:
np.random.seed(1)

paris_listings = paris_listings.loc[np.random.permutation(len(paris_listings))]
paris_listings = paris_listings.sort_values("distance")
paris_listings["price"].iloc[:10]

1956     $80.00
3735     $67.00
6944     $36.00
2094    $120.00
2968     $60.00
845     $200.00
6083     $95.00
5970     $95.00
2992     $76.00
3179    $100.00
Name: price, dtype: object

## Prix moyen

+ Supprimer les virgules et les signes dollars de la colonne 'price':
 - Utiliser l'accesseur str de telle sorte que nous puissions appliquer la méthode string suivi de la méthode de remplacement des caractères à chaque valeur de la colonne précédente : stripped_commas = paris_listings['price'].str.replace(',', '')
 - Répéter l'opération pour supprimer les signes $.
+ Convertir le nouvel objet Series contenant les valeurs nettoyées en float et assigner le résultat à la colonne 'price' du dataframe paris_listings.
+ Calculer la moyenne des 5 valeurs de la colonne 'price' et assigner le résultat à la variable mean_price.
+ Afficher le résultat.


In [17]:
paris_listings['price'] = paris_listings['price'].str.replace(',', '').str.replace('$', '').astype(float)
mean_price = paris_listings['price'].iloc[0:5].mean()
mean_price

  paris_listings['price'] = paris_listings['price'].str.replace(',', '').str.replace('$', '').astype(float)


72.6

## Fonction pour faire des prédictions

+ Ecrire une fonction nommée predict_price qui utilise la technique de Machine Learning des k plus proches voisins pour calculer le prix suggéré pour toute valeur du nombre de personnes que le logement peut accueillir. 
+ Cette fonction doit:
 - Prendre un seul paramètre, new_listing, le nombre de personnes que peut accueillir le logement. 
 - J'ai ajouté aussi du code qui assigne paris_listings à un nouveau DataFrame nommé temp_df. Nous utilisons la méthode pandas.DataFrame.copy() de sorte que le précédent dataframe soit assigné à la variable temp_df, au lieu de juste faire référence à paris_listings.
 - Calculer la distance entre chaque valeur de la colonne 'accommodates' et la valeur new_listing passée en paramètre de la fonction. Assigner l'objet Series résultant à la colonne  'distance' de temp_df.
 - Trier temp_df sur la colonne distance et sélectionner les 5 premières valeurs de la colonne 'price'. Ne pas randomiser l'ordre de temp_df.
 - Calculer la moyenne de ces 5 valeurs et retourner cette valeur en sortie de la fonction predict_price.
+ Utiliser la fonction predict_price pour suggérer un prix pour un logement pouvant accueillir:
 - 1 personne, assigner ce résultat à la variable acc_one.
 - 2 personnes, assigner ce résultat à la variable acc_two.
 - 4 personnes, assigner ce résultat à la variable acc_four.



In [20]:
def predict_price(new_listing):
    temp_df = paris_listings.copy()
    temp_df["distance"] = temp_df["accommodates"].apply(lambda x: np.abs(x - new_listing))
    temp_df = temp_df.sort_values("distance")
    return temp_df['price'].iloc[0:5].mean()

acc_one = predict_price(1)
acc_two = predict_price(2)
acc_four = predict_price(3)

In [21]:
print(acc_one)
print(acc_two)
print(acc_four)

46.8
59.2
84.4
