# TP3: How Much Did It Rain? II

https://www.kaggle.com/c/how-much-did-it-rain-ii


Car cancellation guide:
https://github.com/numb3r33/Kaggle-Competitions/blob/master/cars-cancellation/cars_cancellation.ipynb


En pluviométrie, pour mesurer les hauteurs des précipitations on utilise des jauges qui receuillent la pluie. On est alors capable de déterminer la quantité d'eau tombée durant un intervalle de temps donné, ici une heure.
Cependant, les jauges ne peuvent pas couvrir l'ensemble des lieux que l'on souhaite observer. On utilise alors des radars et on estime la hauteur des précipitations à partir de leurs relevés.
Cependant, ces estimations correspondent mal aux mesures effectués sur les jauges.
L'objectif de ce challenge est de fournir un meilleur estimateur basée sur les relevés des radars.

# Imports

In [2]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
#import seaborn as sb

from sklearn import linear_model
from sklearn import cross_validation
from sklearn.metrics import mean_absolute_error

# Chargement des données

Les données sont des séquences de relevés de capteurs sur une durée d'une heure à des temps variables.
A chaque séquence est associée un identifiant et la distance du capteur à une jauge dont il faut prédire les mesures à la fin de l'heure.
Un élément de la séquence contient les différentes mesures effectués par le radar à un instant donné.

In [3]:
dfTrain = pd.read_csv('./data/train.csv')

# Premier aperçu

On commence par regarder succintement les données. On cherche à répondre à des questions d'ordre général sur les données:
Nombre de séquences et nombre de relevés, nombre de dimension, il y a-t-il des dimensions catégorielles à traiter et y a-t-il des données manquantes?

Un premier résumé permet de dire qu'il y a 13765201 entrées de 24 dimensions (23 si on exclu la quantité a prédire), toutes numériques.
On voit aussi en extrayant la tête et la fin de la table qu'il y a un certain nombre de données manquantes et qu'il y a 1180945 séquences.

In [6]:
dfTrain.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 13765201 entries, 0 to 13765200
Data columns (total 24 columns):
Id                       int64
minutes_past             int64
radardist_km             float64
Ref                      float64
Ref_5x5_10th             float64
Ref_5x5_50th             float64
Ref_5x5_90th             float64
RefComposite             float64
RefComposite_5x5_10th    float64
RefComposite_5x5_50th    float64
RefComposite_5x5_90th    float64
RhoHV                    float64
RhoHV_5x5_10th           float64
RhoHV_5x5_50th           float64
RhoHV_5x5_90th           float64
Zdr                      float64
Zdr_5x5_10th             float64
Zdr_5x5_50th             float64
Zdr_5x5_90th             float64
Kdp                      float64
Kdp_5x5_10th             float64
Kdp_5x5_50th             float64
Kdp_5x5_90th             float64
Expected                 float64
dtypes: float64(22), int64(2)

In [7]:
dfTrain.head(10)

Unnamed: 0,Id,minutes_past,radardist_km,Ref,Ref_5x5_10th,Ref_5x5_50th,Ref_5x5_90th,RefComposite,RefComposite_5x5_10th,RefComposite_5x5_50th,...,RhoHV_5x5_90th,Zdr,Zdr_5x5_10th,Zdr_5x5_50th,Zdr_5x5_90th,Kdp,Kdp_5x5_10th,Kdp_5x5_50th,Kdp_5x5_90th,Expected
0,1,3,10,,,,,,,,...,,,,,,,,,,0.254
1,1,16,10,,,,,,,,...,,,,,,,,,,0.254
2,1,25,10,,,,,,,,...,,,,,,,,,,0.254
3,1,35,10,,,,,,,,...,,,,,,,,,,0.254
4,1,45,10,,,,,,,,...,,,,,,,,,,0.254
5,1,55,10,,,,,,,,...,,,,,,,,,,0.254
6,2,1,2,9.0,5.0,7.5,10.5,15.0,10.5,16.5,...,0.998333,0.375,-0.125,0.3125,0.875,1.059998,-1.410004,-0.350006,1.059998,1.016
7,2,6,2,26.5,22.5,25.5,31.5,26.5,26.5,28.5,...,1.005,0.0625,-0.1875,0.25,0.6875,,,,1.409988,1.016
8,2,11,2,21.5,15.5,20.5,25.0,26.5,23.5,25.0,...,1.001667,0.3125,-0.0625,0.3125,0.625,0.349991,,-0.350006,1.759994,1.016
9,2,16,2,18.0,14.0,17.5,21.0,20.5,18.0,20.5,...,1.001667,0.25,0.125,0.375,0.6875,0.349991,-1.059998,0.0,1.059998,1.016


In [5]:
dfTrain.tail(10)

Unnamed: 0,Id,minutes_past,radardist_km,Ref,Ref_5x5_10th,Ref_5x5_50th,Ref_5x5_90th,RefComposite,RefComposite_5x5_10th,RefComposite_5x5_50th,...,RhoHV_5x5_90th,Zdr,Zdr_5x5_10th,Zdr_5x5_50th,Zdr_5x5_90th,Kdp,Kdp_5x5_10th,Kdp_5x5_50th,Kdp_5x5_90th,Expected
13765191,1180945,14,9,33.5,,32.5,46.5,35.5,6.5,35.5,...,,,,,,,,,,8.636004
13765192,1180945,19,9,43.5,9.5,39.0,49.5,43.5,15.5,43.0,...,,,,,,,,,,8.636004
13765193,1180945,24,9,31.5,19.5,31.5,41.0,31.5,20.0,35.0,...,,,,,,,,,,8.636004
13765194,1180945,28,9,24.0,25.5,31.0,41.0,24.0,25.5,31.0,...,,,,,,,,,,8.636004
13765195,1180945,33,9,25.5,22.0,27.0,31.0,29.0,25.0,28.0,...,,,,,,,,,,8.636004
13765196,1180945,38,9,33.0,19.5,25.5,36.5,33.0,20.5,28.0,...,,,,,,,,,,8.636004
13765197,1180945,42,9,33.0,21.0,30.5,37.0,36.5,22.0,33.5,...,,,,,,,,,,8.636004
13765198,1180945,47,9,29.5,10.0,26.0,30.5,31.0,16.5,26.0,...,1.051667,1.75,,0.75,3.0,13.37999,,,13.37999,8.636004
13765199,1180945,52,9,19.0,,15.5,26.5,19.0,,16.5,...,1.051667,,,,2.8125,,,,,8.636004
13765200,1180945,57,9,7.5,,10.0,13.0,14.5,10.0,12.5,...,1.051667,0.0,-1.125,0.375,3.25,6.069992,,-8.029999,6.069992,8.636004


## Distribution des données

On s'intéresse à la distribution des données, en particulier la quantité de données manquantes et la distribution de la quantité à prédire.

La ligne count nous permet d'évaluer que pour la plupart des colonnes, environ la moitié des données sont manquantes.
La distribution de la colonne Expected est particulière dans le sens où les 3 premiers quartiles sont très bas (respectivement 0.25, 1.02 et 3.81) alors que la moyenne est à 108.63 et le maximum à 33017.73.
C'est-à-dire que la grande majorité des valeurs sont très petites et les grandes valeurs sont extrêmement grandes.
Ceci explique aussi le choix d'une pénalisation sur la norme L1 plutot que L2 qui risquerait de donner un poids démesuré à ces valeurs extrêmes.

In [10]:
dfTrain.describe()

Unnamed: 0,Id,minutes_past,radardist_km,Ref,Ref_5x5_10th,Ref_5x5_50th,Ref_5x5_90th,RefComposite,RefComposite_5x5_10th,RefComposite_5x5_50th,...,RhoHV_5x5_90th,Zdr,Zdr_5x5_10th,Zdr_5x5_50th,Zdr_5x5_90th,Kdp,Kdp_5x5_10th,Kdp_5x5_50th,Kdp_5x5_90th,Expected
count,13765201.0,13765201.0,13765201.0,6349375.0,5283988.0,6356482.0,7551281.0,6716343.0,5755673.0,6711663.0,...,5905584.0,4934916.0,4133154.0,4936568.0,5905584.0,4182635.0,3428782.0,4187281.0,5052776.0,13765201.0
mean,592336.986614,29.523733,11.067943,22.926658,19.952271,22.610287,25.898461,24.711081,22.158238,24.420753,...,1.015272,0.536709,-0.719008,0.337622,2.07287,0.035452,-3.482325,-0.473655,4.079836,108.626306
std,340856.086254,17.308131,4.206618,10.355157,9.208166,10.053,11.109579,10.689622,9.702705,10.424526,...,0.048616,1.510399,1.006068,0.938644,1.670194,3.869725,2.79212,2.263046,4.147337,548.605805
min,1.0,0.0,0.0,-31.0,-32.0,-32.0,-28.5,-32.0,-31.0,-27.5,...,0.208333,-7.875,-7.875,-7.875,-7.875,-96.04,-80.79,-78.770004,-100.200005,0.01
25%,296897.0,15.0,9.0,16.0,14.0,16.0,18.0,17.5,16.0,17.5,...,0.998333,-0.1875,-1.125,-0.0625,1.0625,-1.410004,-4.580002,-0.710007,2.069992,0.254
50%,592199.0,30.0,11.0,22.5,20.0,22.5,25.5,24.0,22.0,24.0,...,1.011667,0.375,-0.625,0.25,1.6875,0.0,-2.820007,0.0,3.519989,1.016
75%,889582.0,44.0,14.0,29.5,26.0,29.0,33.5,31.5,28.5,31.5,...,1.051667,1.0625,-0.1875,0.6875,2.625,1.75,-1.76001,0.349991,5.639999,3.810002
max,1180945.0,59.0,21.0,71.0,62.5,69.0,72.5,92.5,66.0,71.0,...,1.051667,7.9375,7.9375,7.9375,7.9375,179.75,3.519989,12.800003,144.6,33017.73



## Données manquantes

Il y aurait 38% de données manquantes
https://www.kaggle.com/c/how-much-did-it-rain-ii/forums/t/16572/38-missing-data

Cependant, l'administrateur du challenge précise que les séquences pour lesquelles toutes les Ref (colonne \#4) sont manquantes ne seront pas prises en compte.
https://www.kaggle.com/c/how-much-did-it-rain-ii/forums/t/16622/ignored-ids

Dans un premier temps, on se contente de supprimer toutes les lignes contenant des données manquantes. On vérifie qu'on a toujours assez de données pour entrainer des premiers modèles.

In [42]:
dfTrain = dfTrain.dropna()
dfTrain.describe()

Unnamed: 0,Id,minutes_past,radardist_km,Ref,Ref_5x5_10th,Ref_5x5_50th,Ref_5x5_90th,RefComposite,RefComposite_5x5_10th,RefComposite_5x5_50th,...,RhoHV_5x5_90th,Zdr,Zdr_5x5_10th,Zdr_5x5_50th,Zdr_5x5_90th,Kdp,Kdp_5x5_10th,Kdp_5x5_50th,Kdp_5x5_90th,Expected
count,2769088.0,2769088.0,2769088.0,2769088.0,2769088.0,2769088.0,2769088.0,2769088.0,2769088.0,2769088.0,...,2769088.0,2769088.0,2769088.0,2769088.0,2769088.0,2769088.0,2769088.0,2769088.0,2769088.0,2769088.0
mean,586194.607283,29.389271,8.463606,26.589885,22.352663,26.558676,31.265658,29.175956,25.587505,29.07478,...,1.006521,0.408317,-0.551204,0.400473,1.603434,0.035481,-3.3584,0.017594,4.018159,12.224754
std,338797.830452,17.173542,3.662127,8.675702,8.118536,8.125674,8.469171,8.726032,8.288342,8.30835,...,0.019291,0.99161,0.732911,0.512091,0.885389,3.067558,2.657847,1.08519,2.786083,156.164185
min,2.0,0.0,0.0,-16.0,-22.5,-14.0,-8.0,-12.0,-12.0,-7.0,...,0.745,-7.875,-7.875,-4.6875,-1.5,-57.07,-66.65,-16.970001,-4.540008,0.01
25%,290344.75,15.0,6.0,20.5,17.0,21.0,25.5,23.0,20.0,23.0,...,0.995,-0.125,-0.9375,0.0625,0.9375,-1.410004,-4.400009,-0.350006,2.110001,0.508
50%,594954.5,29.0,9.0,26.0,22.0,26.0,31.0,28.5,25.5,28.5,...,0.998333,0.375,-0.5,0.3125,1.4375,0.0,-2.809998,0.0,3.419998,1.778001
75%,879038.25,44.0,11.0,32.0,28.0,32.0,37.0,35.0,31.0,34.5,...,1.011667,0.9375,-0.125,0.6875,2.0625,1.409988,-1.710007,0.699997,5.279999,4.318002
max,1180928.0,59.0,15.0,70.0,62.5,65.5,70.5,88.5,66.0,69.5,...,1.051667,7.9375,7.9375,7.9375,7.9375,77.399994,3.169998,10.699997,118.57001,33017.73


In [35]:
ids = dfTrain['Id'].unique()
print "nombre de séquences:", len(ids)

nombre de séquences: 393313


## Premier modèle

On entraîne un premier modèle de régression linéaire, très simple, qui prend en entré un relevé ponctuel.
Comme on dispose de beaucoup de relevés et que l'apprentissage est long, on va sous échantillonner les données.

In [46]:
sample_size = len(dfTrain) / 10

sdfTrain = dfTrain.loc[np.random.permutation(dfTrain.index)[:sample_size]]

y = sdfTrain['Expected']
x = sdfTrain.drop(['Expected', 'Id'],1)

In [47]:
len(y)

276908

In [68]:
regr = linear_model.LinearRegression()

scores = np.zeros(5)

k = 0
for idEx in cross_validation.KFold(len(x.index), n_folds=5):
    xFoldTrain = x.iloc[idEx[0]]
    yFoldTrain = y.iloc[idEx[0]]
    xFoldTest = x.iloc[idEx[1]]
    yFoldTest = y.iloc[idEx[1]]
    regr.fit(xFoldTrain, yFoldTrain)
    scores[k] = mean_absolute_error(regr.predict(xFoldTest), yFoldTest)
    k = k + 1
#scores = cross_validation.cross_val_score(regr, x, y, cv=5, scoring=mean_absolute_error)

In [1]:
print scores.mean()
print scores.std()

NameError: name 'scores' is not defined