# Validation croisée

## Introduction

+ Lire le fichier paris_airbnb.csv dans un dataFrame paris_listings.
+ Eliminer les virgules et dollars de la colonne cible 'price' et la convertir en 'float'.
+ Utiliser la fonction numpy.random.permutation() pour mélanger l'ordre des lignes de paris_listings (au préalable on se place sur le random seed 1).
+ Ré-indexer le DataFrame suivant ce nouvel ordre avec la méthode DataFrame.reindex().
+ Sélectionner les 4000 premières lignes et les assigner à la variable split_one.
+ Sélectionner les 4000 lignes restantes et l'assigner à la variable split_two.


In [2]:
# .index

In [19]:
import numpy as np
import pandas as pd
pd.options.mode.chained_assignment = None
np.random.seed(1)

paris_listings = pd.read_csv('paris_airbnb.csv')
stripped_commas = paris_listings['price'].str.replace(',', '')
stripped_dollars = stripped_commas.str.replace('$','')
paris_listings['price'] = stripped_dollars.astype('float')

shuffled_index = np.random.permutation(paris_listings.index)
paris_listings = paris_listings.reindex(shuffled_index)

split_one = paris_listings.iloc[0:4000]
split_two = paris_listings.iloc[4000:]

## Validation croisée Holdout


+ Entrainer un modèle des k plus proches voisins en utilisant l'algorithme par défaut (auto) et le nombre de voisins par défaut (5) en:
 - Utilisant la colonne 'accommodates' de train_one (première moitié du dataset) pour l'entrainement et
 - Et le tester sur test_one (seconde moitié du dataset).
+ Assigner la valeur RMSE résultante (racine carrée erreur quadratique moyenne) à la variable iteration_one_rmse.
+ Entrainer un modèle des k plus proches voisins en utilisant l'algorithme par défaut (auto) et le nombre de voisins par défaut (5):
 - Utiliser la colonne 'accommodates' de train_two (seconde moitié du dataset cette fois) pour l'entrainement et
 - Et le tester sur test_two (première moitié du dataset).
+ Assigner la valeur RMSE résultante à la variable iteration_two_rmse.
+ Utiliser numpy.mean() pour calculer la moyenne des 2 valeurs RMSE et assigner le résultat à la variable avg_rmse.
+ Afficher le résultat


In [5]:
# sklearn.metrics.mean_squared_error()

In [6]:
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error

train_one = split_one
test_one = split_two
train_two = split_two
test_two = split_one

# première moitié
model = KNeighborsRegressor()
model.fit(train_one[['accommodates']], train_one['price'])
test_one['predicted_price'] = model.predict(test_one[['accommodates']])
iteration_one_rmse = mean_squared_error(test_one['price'], test_one['predicted_price'])**(1/2)

# seconde moitié
model.fit(train_two[['accommodates']], train_two['price'])
test_two['predicted_price'] = model.predict(test_two[['accommodates']])
iteration_two_rmse = mean_squared_error(test_two['price'], test_two['predicted_price'])**(1/2)

avg_rmse = np.mean([iteration_two_rmse, iteration_one_rmse])
print(iteration_one_rmse, iteration_two_rmse, avg_rmse)

88.96592437557203 115.17976784140521 102.07284610848862


## Validation croisée des K-Fold

+ Ajouter une nouvelle colonne au DataFrame paris_listings qu'on nomme 'fold' qui contient le numéro du fold de chaque ligne:
+ Fold 1 doit avoir des lignes d'index 0 à 1600, y compris ces 2 lignes.
+ Fold 2 doit avoir des lignes d'index 1600 à 3200, y compris ces 2 lignes.
+ Fold 3 doit avoir des lignes d'index 3200 à 4800, y compris ces 2 lignes.
+ Fold 4 doit avoir des lignes d'index 4800 à 6400, y compris ces 2 lignes.
+ Fold 5 doit avoir des lignes d'index 6400 à 8000, y compris ces 2 lignes.
+ Afficher le nombre de valeurs pour chaque colonne 'fold' pour confirmer que chaque fold contient à peu près le même nombre d'éléments.


In [20]:
# value_counts()

In [21]:
paris_listings['fold'] = 0
paris_listings['fold'].iloc[0:1600] = 1
paris_listings['fold'].iloc[1600:3200] = 2
paris_listings['fold'].iloc[3200:4800] = 3
paris_listings['fold'].iloc[4800:6400] = 4
paris_listings['fold'].iloc[6400:8000] = 5

print(paris_listings['fold'].value_counts())

3    1600
2    1600
5    1600
1    1600
4    1600
Name: fold, dtype: int64


## Première itération

+ Entrainer un modèle des k plus proches voisins en utilisant la colonne 'accommodates' comme unique caractéristique sur le set de training (folds 2 à 5 du DataFrame paris_listings).
+ Utiliser le modèle pour faire des prédictions sur le set de test (colonne 'accommodates' du fold 1) et assigner les résultats prédits à la variable labels.
+ Calculer la valeur RMSE en comparant la colonne 'price' avec les valeurs prédites labels.
+ Assigner la valeur RMSE à la variable iteration_one_rmse.
+ Afficher le résultat


In [24]:
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error

In [28]:
# != 1
# == 1

In [31]:
# Entrainement
model = KNeighborsRegressor()
train_iteration_one = paris_listings[paris_listings['fold'] !=1]
test_iteration_one = paris_listings[paris_listings['fold'] == 1]
model.fit(train_iteration_one[['accommodates']], train_iteration_one['price'])

# prédiction
labels = model.predict(test_iteration_one[['accommodates']])
test_iteration_one['predicted_price'] = labels
iteration_one_mse = mean_squared_error(test_iteration_one['price'], test_iteration_one['predicted_price'])
iteration_one_rmse = iteration_one_mse**(1/2)

print(iteration_one_rmse)

81.94523308283405


## Fonction pour entrainer des modèles

+ Ecrire une fonction qu'on nommera train_and_validate qui prend un dataframe en premier paramètre (df) et une liste de valeurs de numéros fold (1 à 5 dans notre cas) en 2e paramètre (folds). Cette fonction devra:
 - Entrainer n modèles (où n est le numéro de fold) et exécuter une validation croisée des k-fold (en utilisant n folds). Utiliser la valeur de k par défaut pour la classe KNeighborsRegressor.
 - Retourner la liste des valeurs RMSE, où le premier élément est quand fold 1 est le set de test, le second élément est quand fold 2 est le set de test, et ainsi de suite.
+ Utiliser la fonction train_and_validate pour retourner la liste des valeurs RMSE pour le dataframe paris_listings et l'assigner à la variable rmses.
+ Calculer la moyenne de ces valeurs et l'assigner à la variable avg_rmse.
+ Afficher rmses et avg_rmse.


In [32]:
# train = paris_listings[paris_listings['fold'] != fold]

In [33]:
import numpy as np

fold_ids = [1, 2, 3, 4, 5]

def train_and_validate(df, folds):
    fold_rmses = []
    for fold in folds:
        #entrainement
        model = KNeighborsRegressor()
        train = df[df['fold'] != fold]
        test = df[df['fold'] == fold]
        model.fit(train[['accommodates']], train['price'])
        
        #prédiction
        labels = model.predict(test[['accommodates']])
        test['predicted_price'] = labels
        mse = mean_squared_error(test['price'], test['predicted_price'])
        rmse = mse**(1/2)
        fold_rmses.append(rmse)
    return(fold_rmses)

rmses = train_and_validate(paris_listings, fold_ids)
print(rmses)

avg_rmse = np.mean(rmses)
print(avg_rmse)

[81.94523308283405, 156.1902075995803, 72.58622217749041, 99.10605291807357, 83.16789539840478]
98.59912223527662


## Exécuter une validation croisée des K-Fold en utilisant Scikit-Learn


+ Créer une nouvelle instance de la classe KFold avec les propriétés suivantes:
 - 5 folds,
 - Définir shuffle à True,
 - Définir random_state à 1 (pour avoir le même résultat que moi),
 - Assigné à la variable kf.
+ Créer une nouvelle instance de la classe KNeighborsRegressor et l'assigner à la variable knn.
+ Utiliser la fonction cross_val_score() pour effectuer la validation croisée des k-fold en:
 - Utilisant l'instance KNeighborsRegressor knn,
 - Utilisant la colonne 'accommodates' pour l'entrainement,
 - Utilisant la colonne 'price' pour la colonne cible,
 - Retournant un tableau de valeurs de MSE (une valeur pour chaque fold).
+ Assigner la liste résultante de valeurs de MSE à la variable mses. Ensuite, prendre la valeur absolue suivi de la racine carrée de chaque valeur MSE. Enfin, calculer la moyenne des valeurs RMSE résultantes et assigner le résultat à la variable avg_rmse.
 


In [34]:
from sklearn.model_selection import cross_val_score, KFold
kf = KFold(5, shuffle=True, random_state=1)
knn = KNeighborsRegressor()
mses = cross_val_score(knn, paris_listings[['accommodates']], paris_listings['price'],
                      scoring='neg_mean_squared_error', cv=kf)
rmses = np.sqrt(np.absolute(mses))
avg_rmse = np.mean(rmses)

print(rmses)
print(avg_rmse)

[ 75.39017691  78.61860292  91.61952671  87.38039883 158.31198012]
98.26413709965395


##  Explorer différentes valeurs de k


In [36]:
from sklearn.model_selection import cross_val_score, KFold

num_folds = [3, 5, 7, 9, 10, 11, 13, 15, 17, 19, 21, 23]

for fold in num_folds:
    kf = KFold(fold, shuffle=True, random_state=1)
    model = KNeighborsRegressor()
    mses = cross_val_score(model, paris_listings[["accommodates"]], paris_listings["price"],
                           scoring="neg_mean_squared_error", cv=kf)
    rmses = np.sqrt(np.absolute(mses))
    avg_rmse = np.mean(rmses)
    std_rmse = np.std(rmses)
    print(str(fold), "folds: ", "avg RMSE: ", str(avg_rmse), "std RMSE: ", str(std_rmse))

3 folds:  avg RMSE:  103.52985525843418 std RMSE:  23.4724587881722
5 folds:  avg RMSE:  98.26413709965395 std RMSE:  30.58599393612067
7 folds:  avg RMSE:  100.5802680585613 std RMSE:  30.298978546243564
9 folds:  avg RMSE:  100.65349476343783 std RMSE:  31.016383141381176
10 folds:  avg RMSE:  99.64732774449637 std RMSE:  32.80776719590842
11 folds:  avg RMSE:  98.01098681083695 std RMSE:  34.61336551901312
13 folds:  avg RMSE:  96.33532504669681 std RMSE:  36.04164484994614
15 folds:  avg RMSE:  95.58687573751473 std RMSE:  36.73027442785193
17 folds:  avg RMSE:  98.2756484776724 std RMSE:  39.844277774194715
19 folds:  avg RMSE:  94.81790717392869 std RMSE:  40.53344699367584
21 folds:  avg RMSE:  94.0176576804826 std RMSE:  40.70953766964937
23 folds:  avg RMSE:  93.25633598907179 std RMSE:  43.08460768935064
