Avant de pouvoir analyser les données, ces dernières doivent être dans un format convenable. Le prétraitement ou preprocessing en Anglais permet le nettoyage, le remplacement des valeurs manquantes et la conversion de données et peut prendre jusqu'à 80% du temps nécessaire pour l'analyse.

# Traitement des données manquantes

**Manipulation des données manquantes**

In [2]:
import pandas as pd
import numpy as np

In [3]:
data = pd.Series(['Orange', 'Avocado', np.nan, 'Banana', 'Pawpaw'])

In [4]:
data

0     Orange
1    Avocado
2        NaN
3     Banana
4     Pawpaw
dtype: object

In [5]:
data.isnull()

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [6]:
data[0] = None

In [7]:
data

0       None
1    Avocado
2        NaN
3     Banana
4     Pawpaw
dtype: object

In [8]:
data.isnull()

0     True
1    False
2     True
3    False
4    False
dtype: bool

Méthode | Description
-- | --
dropna | Filtrer les étiquettes de l'axe
fillna | Remplir les valeurs manquantes en utilisant une méthode d'interpolation 'ffill' ou 'bfill'
isnull | Retourner les valeurs booléennes pour les valeurs manquantes
notnull | Négation de isnull


**Filtrer les valeurs manquantes**

In [9]:
from numpy import nan as NA

In [10]:
data = pd.Series([1, NA, 3.5, NA, 7])

In [11]:
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [12]:
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

Ce qui est équivalent à:

In [14]:
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

Pour un DataFrame, il faut faire la distinction entre les lignes et les colonnes:

In [15]:
data = pd.DataFrame([
                     [1., 6.5, 3.],
                     [1., NA, NA],
                     [NA, NA, NA],
                     [NA, 6.5, 3.]])

In [16]:
cleaned = data.dropna()

In [17]:
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [18]:
cleaned

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


En passant how='all', dropna va supprimer que les lignes qui ont des NA partout.

Pour raisonner en terme de colonnes, il faut spécifier axis=1 ou axis='columns'

In [19]:
data[4] = NA

In [20]:
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [21]:
data.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


On peut aussi supprimer que les lignes qui ont un minimum de valeurs non manquantes:

In [22]:
df = pd.DataFrame(np.random.randn(7, 3))

In [23]:
df.iloc[:4, 1] = NA

In [24]:
df.iloc[:2, 2] = NA

In [25]:
df

Unnamed: 0,0,1,2
0,0.046225,,
1,0.782643,,
2,0.471379,,0.354862
3,-1.186059,,1.429645
4,0.782406,-0.723274,0.973623
5,-0.169681,-0.513975,-0.348232
6,-0.232261,0.186887,1.322485


In [26]:
df.dropna()

Unnamed: 0,0,1,2
4,0.782406,-0.723274,0.973623
5,-0.169681,-0.513975,-0.348232
6,-0.232261,0.186887,1.322485


In [27]:
df.dropna(thresh=2)

Unnamed: 0,0,1,2
2,0.471379,,0.354862
3,-1.186059,,1.429645
4,0.782406,-0.723274,0.973623
5,-0.169681,-0.513975,-0.348232
6,-0.232261,0.186887,1.322485


**Remplissage des valeurs manquantes**

In [28]:
df.fillna(0)

Unnamed: 0,0,1,2
0,0.046225,0.0,0.0
1,0.782643,0.0,0.0
2,0.471379,0.0,0.354862
3,-1.186059,0.0,1.429645
4,0.782406,-0.723274,0.973623
5,-0.169681,-0.513975,-0.348232
6,-0.232261,0.186887,1.322485


On peut spécifier la valeur de remplissage par colonne:

In [29]:
df.fillna({1: 0.5, 2: 0})

Unnamed: 0,0,1,2
0,0.046225,0.5,0.0
1,0.782643,0.5,0.0
2,0.471379,0.5,0.354862
3,-1.186059,0.5,1.429645
4,0.782406,-0.723274,0.973623
5,-0.169681,-0.513975,-0.348232
6,-0.232261,0.186887,1.322485


On peut utiliser inplace pour remplacer l'objet initial au lieu de le retourner.

In [30]:
df.fillna(0, inplace=True)

In [31]:
df

Unnamed: 0,0,1,2
0,0.046225,0.0,0.0
1,0.782643,0.0,0.0
2,0.471379,0.0,0.354862
3,-1.186059,0.0,1.429645
4,0.782406,-0.723274,0.973623
5,-0.169681,-0.513975,-0.348232
6,-0.232261,0.186887,1.322485


Les mêmes méthodes d'interpolation disponibles pour la réindexation peuvent être utilisées pour le remplissage des valeurs manquantes:

In [10]:
import pandas as pd
import numpy as np

In [13]:
from numpy import nan as NA

In [14]:
df = pd.DataFrame(np.random.randn(6, 3))

In [15]:
df.iloc[2:, 1] = NA

In [16]:
df.iloc[4:, 1] = NA

In [20]:
df

Unnamed: 0,0,1,2
0,1.150541,-0.724689,2.14402
1,-1.029568,-0.005683,0.129208
2,0.614146,,1.018599
3,-0.555666,,0.847277
4,1.514245,,-0.336998
5,-0.839376,,1.467783


In [18]:
df.fillna(method='ffill')

Unnamed: 0,0,1,2
0,1.150541,-0.724689,2.14402
1,-1.029568,-0.005683,0.129208
2,0.614146,,1.018599
3,-0.555666,,0.847277
4,1.514245,,-0.336998
5,-0.839376,,1.467783


In [37]:
df.fillna(method='ffill', limit=2)

Unnamed: 0,0,1,2
0,-2.012694,-1.45568,3.008077
1,1.340872,1.597419,1.155669
2,0.632951,1.597419,-1.061043
3,0.818095,1.597419,1.370115
4,0.344029,,-0.537469
5,-1.000739,,-1.769673


On peut utiliser les fonctions pour imputer les valeurs manquantes:

In [22]:
data = pd.Series([1., NA, 3.5, NA, 7])

In [23]:
data.fillna(data.mean())

0    1.0
1    3.5
2    3.5
3    NaN
4    7.0
dtype: float64

Argument | Description
-- | --
value | Valeur scalaire ou sous forme de dictionnaire à utiliser pour le remplissage
method | Interpolation, par défaut 'ffill'
axis | L'axe à utiliser, par défaut axis=0 
inplace | Modifier l'objet sans faire une copie
limit | Maximum nombre de valeurs à remplir

# Transormation de données

**Supprimer les doublons**

In [40]:
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'],
                     'k2': [1, 1, 2, 3, 3, 4, 4]})

In [41]:
data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


In [42]:
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [43]:
data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


**Transofrmation en utilisant une fonction ou le mapping**

**Remplacer les valeurs**

**Renommer les Index des axes**

**Discrétisation et regroupement par classes: binning**

**Détection et filtrage des valeurs extrêmes**

**Permutation et échantillonnage**

**Les variables dummy**

# Manipulation des chaînes de caractères**

**Méthodes String**

Argument | Description
-- | --
count | Nombre d'occurrences de sous chaînes dans la chaîne de caractères
endswith | Retourne True si la chaîne se termine avec un suffixe spécifié.
startswith | Retourne True si la chaîne commence avec le préfixe spécifié.
join | Concaténer une séquence de chaînes de caractères en utilisant le délimiteur spécifié
index | Retourne la position du premier caractère de la sous chaîne trouvé dans la chaîne de caractères, l'exception ValueError si non trouvé
find | Retourne la position du premier caractère de la sous chaîne trouvé dans la chaîne de caracères, -1 sinon
rfind | Retourne la position de la dernière occurrence, -1 sinon
replace | Remplacer les occurrences de la chaîne par une autre chaîne
strip | Enlever les espaces de la chaîne
rstrip | Enlever les espaces à droite
lstrip | Enlever les espaces à gauche
split | casser la chaîne de caractères en plusieurs sous chaînes en utilisant le délimiteur spécifié
lower | Convertir la chaîne en minuscules
upper | Convertir la chaîne en majuscules
ljust | Justification à gauche
rjust | Justification à droite


**Expressions régulières**

Méthodes | Description
-- | --
findall | Trouver toutes les occurrences
finditer | Trouver toutes les occurrences et retourner un itérateur
match | Matcher un pattern
search | Scan la chaîne pour trouver un pattern
split | casser la chaîne en utilisant l'expression régulière
sub, subn | Remplacer en utilisant l'expression régulière

**Vectorisation**