
Le nettoyage des données est une étape fondamentale dans le traitement des données. Dès lors que
vous avez un grand nombre de données vous avez de grandes chances qu'il y ait 

* des doublons (que Pandas trouve facilement), 
* des données inutiles (parfois redondantes, parfois pas utilisées, elles occupent de la mémoire alors autant les retirer),
* des erreurs (des NaN si on a de la chance)
* des incohérences (pas toujours simples à trouver mais des courbes ou des statistiques peuvent les faire apparaître),
* des imprécisions (comme pour les incohérences), 
* des données manquantes (que Pandas trouve au chargement ou en tant que NaN).

Dans les 4 derniers cas, une fois les cas problématiques trouvés, se pose la question de comment les corriger.

Remettre tout au propre peut prendre beaucoup de temps.

# Clean up your data

Data cleansing is a fundamental step in data processing. Since
you have a lot of data you're likely to have:

* duplicates (which Pandas finds easily),
* unnecessary data (sometimes redundant, sometimes not used, they occupy the memory while removing them),
* errors (NaN if you're lucky)
* inconsistencies (not always easy to find but curves or statistics can make them appear),
* inaccuracies (as for inconsistencies),
* missing data (that Pandas finds when loading or as NaN in the DataFrame).

In the last 4 cases, once the problematic cases are found, the question arises of how to correct them.

Putting everything clean can take a long time.

## Retirer les doublons

Pandas offre la méthode `drop_duplicate` pour retirer les doublons.
Attention cette méthode comme beaucoup d’autres ne modifie pas son DataFrame par défaut. Vous devrez faire soit:

* `df1 = df1.drop_duplicates()`
* `df1.drop_duplicates(inplace = True)`

certains préfèrent le premier choix pous sa lisibilité, mais `inplace` est un peu plus rapide.

## Remove duplicates

Pandas offers the `drop_duplicate` method to remove duplicates.
Be careful this method like many others does not modify its own DataFrame. You will have to do either:

* `df1 = df1.drop_duplicates()`
* `df1.drop_duplicates(inplace = True)`

some prefer the first choice to readability, but `inplace` is a little faster.

In [1]:
import numpy as np
import pandas as pd

np.random.seed(1)  # set random seed to get the same random (try this cell twice :-)
df = pd.DataFrame({'foo': np.random.randint(5,size=5), 'bar': np.random.randint(5,size=5)})
df.iloc[1] = df.iloc[0]
df

Unnamed: 0,foo,bar
0,3,0
1,3,0
2,0,1
3,1,4
4,3,4


In [2]:
df.drop_duplicates(inplace=True)
df

Unnamed: 0,foo,bar
0,3,0
2,0,1
3,1,4
4,3,4


## Retirer les données inutiles

Pour cela la commande est [`drop`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop.html). On peut choisir de retirer des colonnes ou des lignes.

Comme pour la méthode précédente, il faut affecter le résultat ou 
utiliser `inplace` pour que la modification soit prise en compte.

## Remove unnecessary data

For this the command is [`drop`] (https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop.html). You can choose to remove columns or rows.

As with the previous method, assign the result to the dataframe or 
use `inplace` to store the result.

In [7]:
df.drop(columns='foo')

Unnamed: 0,bar
0,0
2,1
3,4
4,4


In [8]:
df.drop(index=[2,3])  # 2 & 3 are labels

Unnamed: 0,foo,bar
0,3,0
4,3,4


On peut aussi spécifier les lignes à retirer en prenant le résultat d'un filtre logique :

You can also specify the lines to remove as result of a logical filter:

In [9]:
to_be_dropped = df[df.foo % 2 == 0].index
df.drop(index = to_be_dropped)

Unnamed: 0,foo,bar
0,3,0
3,1,4
4,3,4


# Exercice

In [36]:
# Créez un filtre pour ne garder que les lignes où bar == 4
mask = 

In [37]:
# votre mask devrait correspondre à ceci:
mask

Unnamed: 0,foo,bar
3,1,4
4,3,4


In [38]:
# Utiliez l'index de votre mask pour ne garder que les lignes où bar est différent de 4:
df.drop(______remplissez ici _______)

Unnamed: 0,foo,bar
0,3,0
2,0,1


## Gérer les NaN

Un NaN, _Not a Number_, est le résultat d'une erreur de calcul ou d'une donnée manquante si la méthode de chargement
des données a choisi cette facon de l'indiquer (cf http://pandas.pydata.org/pandas-docs/stable/missing_data.html ). 
Par exemple :

* 0/0 donne un NaN
* ajouter une colonne à un tableau sans spécifier toutes les valeurs va mettre des NaN là où l'information manque


## Manage NaN

A NaN, _Not a Number_, is the result of a computation error or missing data if the loading method
has chosen this way to specify it (see http://pandas.pydata.org/pandas-docs/stable/missing_data.html ).
For example:

* 0/0 gives a NaN
* add a column to a table without specifying all the values will put NaN where information is missing

In [45]:
df.at[0,'bar'] = 0 
df.at[0,'foo'] = 0      # to get a Not a Number after division
df.at[1,'foo'] = 3      # makes df.at[1,'bar'] = Nan since line 1 has been removed
df.at[2,'bar'] = None   # None makes NaN
df['div'] = df.bar / df.foo
df

Unnamed: 0,foo,bar,div
0,0.0,0.0,
2,0.0,,
3,1.0,4.0,4.0
4,3.0,4.0,1.333333
1,3.0,,


On peut extraire les cases NaN avec les filtres logiques suivant :

We can extract NaN with the following logical filters:

In [40]:
df.isna()     # shows NaN cells
df.isnull()   # shows position of NaN for numerics, of None for objects and of NaT for DateTime

Unnamed: 0,foo,bar,div
0,False,False,True
2,False,True,True
3,False,False,False
4,False,False,False
1,False,True,True


In [44]:
# Exercice: Déconstruisez chaque brique de cette ligne de code pour bien comprendre ce qu'il se passe ;) 
(df.isna() == df.isnull()).all().all()

True

et s'en servir pour remplace les NaN avec `df.bar[df.bar.isna()] = 7` ou directement avec `fillna` :

and use them to replace NaN with `df.bar [df.bar.isna ()] = 7` or directly with` fillna`:

In [8]:
df.bar.fillna(7, inplace=True)
df

Unnamed: 0,foo,bar,div
0,0.0,0.0,
2,0.0,7.0,
3,1.0,4.0,4.0
4,3.0,4.0,1.333333
1,3.0,7.0,


Parfois on préfère retirer les lignes contenant des NaN :

Sometimes we prefer to remove lines containing NaN:

In [9]:
df.dropna(inplace=True)
df

Unnamed: 0,foo,bar,div
3,1.0,4.0,4.0
4,3.0,4.0,1.333333


### Remplacer les NaN

On peut pafois estimer les données manquantes ou fausses. Si les données sont ordonnées on peut même faire une
interpolation pour boucher les trous ou trouver les données incohérentes.

### Estimation of NaN

It is possible to estimate missing or false data. If the data is ordered, we can even make an
interpolation to fill holes or find inconsistent data.

In [10]:
dates = pd.date_range('2016-08-01', periods=8, freq='D')
temperature = pd.DataFrame({'temp': [21.5, 24, 25.5, None, 25.2, None, None, 20.1]}, index=dates)
temperature.drop(temperature.index[2], inplace=True) # so index is not linear anymore
temperature

Unnamed: 0,temp
2016-08-01,21.5
2016-08-02,24.0
2016-08-04,
2016-08-05,25.2
2016-08-06,
2016-08-07,
2016-08-08,20.1


On peut simplement indiquer que la valeur manquante copie la valeur précédente. 

Si plusieurs NaN se suivent il faut spécifier si l'on désire qu'ils prennent la valeur de la dernière valeur qui n'est pas un NaN. Cela se fait en spécifiant `limit` qui indique pour combien de NaN consécutifs on fait cette opération.

You can simply indicate that the missing value copies the previous value.

If several NaNs follow each other, it must be specified whether they should to take the value of the last value which is not a NaN. This is done by specifying `limit` which indicates for how many consecutive NaN we do this operation.

In [11]:
temperature.fillna(method='ffill', limit=1) # forward fill (backward is bfill)

Unnamed: 0,temp
2016-08-01,21.5
2016-08-02,24.0
2016-08-04,24.0
2016-08-05,25.2
2016-08-06,25.2
2016-08-07,
2016-08-08,20.1


On peut aussi interpoler.

Attention la seule méthode qui prenne en compte les dates dans l'index est `time`.

We can also interpolate.

Be careful, the only method that takes into account the dates in the index is `time`.

In [12]:
temperature.interpolate(method='linear')

Unnamed: 0,temp
2016-08-01,21.5
2016-08-02,24.0
2016-08-04,24.6
2016-08-05,25.2
2016-08-06,23.5
2016-08-07,21.8
2016-08-08,20.1


In [13]:
temperature.interpolate(method='time').iloc[2]

temp    24.8
Name: 2016-08-04 00:00:00, dtype: float64

Les méthodes possibles sont décrites dans [Scipy](http://docs.scipy.org/doc/scipy/reference/tutorial/interpolate.html).

```
method : {‘linear’, ‘time’, ‘index’, ‘values’, ‘nearest’, ‘zero’,
‘slinear’, ‘quadratic’, ‘cubic’, ‘barycentric’, ‘krogh’, ‘polynomial’, ‘spline’, 
‘piecewise_polynomial’, ‘from_derivatives’, ‘pchip’, ‘akima’}
```

![lin-quad](data/interpolate-1.png "scipy interpolation")

The possible methods are described in [Scipy](http://docs.scipy.org/doc/scipy/reference/tutorial/interpolate.html).

```
method: {'linear', 'time', 'index', 'values', 'nearest', 'zero',
'slinear', 'quadratic', 'cubic', 'barycentric', 'krogh', 'polynomial', 'spline',
'Piecewise _polynomial', 'from_ derivatives', 'pchip', 'akima'}
```

![lin-quad](data/interpolate-1.png "scipy interpolation")

## Remplacer des valeurs avec `replace`

Parfois on désire remplacer d'autres valeurs que les NaN. Cela peut être fait avec un filtre mais `replace` 
est plus rapide pour les cas simples.

## Replace

Sometimes we want to replace other values ​​than NaN. This can be done with a filter but `replace`
is faster for simple cases.

In [14]:
df2 = pd.DataFrame({'foo': np.random.randint(10,size=5000), 'bar': np.random.randint(10,size=5000)})

In [15]:
%timeit df2.replace([1,2],[11,12])   # replace 1 and 2 by 11 and 12 respectively
%timeit df2.replace([3,4],134)       # replace 3 and 4 by 134
%timeit df2[df2==5] = 105
%timeit df2[(df2==6) | (df2==7)] = 167

338 µs ± 9.79 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
328 µs ± 4.07 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
2.24 ms ± 53.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
4.26 ms ± 40.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


`replace` peut aussi utiliser les  [expressions régulières](http://pandas.pydata.org/pandas-docs/stable/missing_data.html#string-regular-expression-replacement).

`replace` can also use [regular expressions](http://pandas.pydata.org/pandas-docs/stable/missing_data.html#string-regular-expression-replacement).

# Exercice

In [46]:
df.at[0,'bar'] = 0 
df.at[0,'foo'] = 0      # to get a Not a Number after division
df.at[1,'foo'] = 3      # makes df.at[1,'bar'] = Nan since line 1 has been removed
df.at[2,'bar'] = None   # None makes NaN
df['div'] = df.bar / df.foo
df

Unnamed: 0,foo,bar,div
0,0.0,0.0,
2,0.0,,
3,1.0,4.0,4.0
4,3.0,4.0,1.333333
1,3.0,,


La plupart du temps, vous ne pourrez pas passer de NaN à votre modèle de Machine Learning (XGBoost gère les NaNs, mais c'est une exception: https://stats.stackexchange.com/questions/235489/xgboost-can-handle-missing-data-in-the-forecasting-phase)

Pourtant, le fait qu'une donnée soit manquante peut être une information en soi ! Dans une célèbre compétition Kaggle, les données manquantes sur les étudiants voulaient dire que, comme ils n'avaient pas été sélectionnés, les assistants administratifs n'avaient pas pris la peine d'enregistrer certains détails. Vous pouviez donc prédire si oui ou non ces étudiants avaient été acceptés en fonction de la présence ou non d'une valeur pour cette variable ! 
Ce qui a, bien sûr, totalement faussé la compétition.

Dans un cas plus réel, on pourrait imaginer que le scraping du site LeBonCoin permette de récupérer l'exposition au soleil, seulement quand celle-ci est plein sud (les annonces ne mentionneront pas une exposition Nord). Indiquer au modèle que la variable est manquante peut donc être intéressant

In [None]:
# Imputez la valeur -1 aux variables manquantes

In [48]:
# Vous devriez obtenir ceci:

Unnamed: 0,foo,bar,div
0,0.0,0.0,-1.0
2,0.0,-1.0,-1.0
3,1.0,4.0,4.0
4,3.0,4.0,1.333333
1,3.0,-1.0,-1.0


{{ PreviousNext("pd02 -- View vs copy.ipynb", "pd04 -- N-dimensions dataframe or multi-index.ipynb")}}