Avant de pouvoir analyser les données, ces dernières doivent être dans un format convenable. Le prétraitement ou preprocessing en Anglais permet le nettoyage, le remplacement des valeurs manquantes et la conversion de données et peut prendre jusqu'à 80% du temps nécessaire pour l'analyse.

# Traitement des données manquantes

**Manipulation des données manquantes**

In [None]:
import pandas as pd
import numpy as np

In [None]:
data = pd.Series(['Orange', 'Avocado', np.nan, 'Banana', 'Pawpaw'])

In [None]:
data

0     Orange
1    Avocado
2        NaN
3     Banana
4     Pawpaw
dtype: object

In [None]:
data.isnull()

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [None]:
data[0] = None

In [None]:
data

0       None
1    Avocado
2        NaN
3     Banana
4     Pawpaw
dtype: object

In [None]:
data.isnull()

0     True
1    False
2     True
3    False
4    False
dtype: bool

Méthode | Description
-- | --
dropna | Filtrer les étiquettes de l'axe
fillna | Remplir les valeurs manquantes en utilisant une méthode d'interpolation 'ffill' ou 'bfill'
isnull | Retourner les valeurs booléennes pour les valeurs manquantes
notnull | Négation de isnull


**Filtrer les valeurs manquantes**

In [None]:
from numpy import nan as NA

In [None]:
data = pd.Series([1, NA, 3.5, NA, 7])

In [None]:
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [None]:
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

Ce qui est équivalent à:

In [None]:
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

Pour un DataFrame, il faut faire la distinction entre les lignes et les colonnes:

In [None]:
data = pd.DataFrame([
                     [1., 6.5, 3.],
                     [1., NA, NA],
                     [NA, NA, NA],
                     [NA, 6.5, 3.]])

In [None]:
cleaned = data.dropna()

In [None]:
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [None]:
cleaned

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


En passant how='all', dropna va supprimer que les lignes qui ont des NA partout.

Pour raisonner en terme de colonnes, il faut spécifier axis=1 ou axis='columns'

In [None]:
data[4] = NA

In [None]:
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [None]:
data.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


On peut aussi supprimer que les lignes qui ont un minimum de valeurs non manquantes:

In [None]:
df = pd.DataFrame(np.random.randn(7, 3))

In [None]:
df.iloc[:4, 1] = NA

In [None]:
df.iloc[:2, 2] = NA

In [None]:
df

Unnamed: 0,0,1,2
0,0.046225,,
1,0.782643,,
2,0.471379,,0.354862
3,-1.186059,,1.429645
4,0.782406,-0.723274,0.973623
5,-0.169681,-0.513975,-0.348232
6,-0.232261,0.186887,1.322485


In [None]:
df.dropna()

Unnamed: 0,0,1,2
4,0.782406,-0.723274,0.973623
5,-0.169681,-0.513975,-0.348232
6,-0.232261,0.186887,1.322485


In [None]:
df.dropna(thresh=2)

Unnamed: 0,0,1,2
2,0.471379,,0.354862
3,-1.186059,,1.429645
4,0.782406,-0.723274,0.973623
5,-0.169681,-0.513975,-0.348232
6,-0.232261,0.186887,1.322485


**Remplissage des valeurs manquantes**

In [None]:
df.fillna(0)

Unnamed: 0,0,1,2
0,0.046225,0.0,0.0
1,0.782643,0.0,0.0
2,0.471379,0.0,0.354862
3,-1.186059,0.0,1.429645
4,0.782406,-0.723274,0.973623
5,-0.169681,-0.513975,-0.348232
6,-0.232261,0.186887,1.322485


On peut spécifier la valeur de remplissage par colonne:

In [None]:
df.fillna({1: 0.5, 2: 0})

Unnamed: 0,0,1,2
0,0.046225,0.5,0.0
1,0.782643,0.5,0.0
2,0.471379,0.5,0.354862
3,-1.186059,0.5,1.429645
4,0.782406,-0.723274,0.973623
5,-0.169681,-0.513975,-0.348232
6,-0.232261,0.186887,1.322485


On peut utiliser inplace pour remplacer l'objet initial au lieu de le retourner.

In [None]:
df.fillna(0, inplace=True)

In [None]:
df

Unnamed: 0,0,1,2
0,0.046225,0.0,0.0
1,0.782643,0.0,0.0
2,0.471379,0.0,0.354862
3,-1.186059,0.0,1.429645
4,0.782406,-0.723274,0.973623
5,-0.169681,-0.513975,-0.348232
6,-0.232261,0.186887,1.322485


Les mêmes méthodes d'interpolation disponibles pour la réindexation peuvent être utilisées pour le remplissage des valeurs manquantes:

In [None]:
import pandas as pd
import numpy as np

In [None]:
from numpy import nan as NA

In [None]:
df = pd.DataFrame(np.random.randn(6, 3))

In [None]:
df.iloc[2:, 1] = NA

In [None]:
df.iloc[4:, 1] = NA

In [None]:
df

Unnamed: 0,0,1,2
0,1.150541,-0.724689,2.14402
1,-1.029568,-0.005683,0.129208
2,0.614146,,1.018599
3,-0.555666,,0.847277
4,1.514245,,-0.336998
5,-0.839376,,1.467783


In [None]:
df.fillna(method='ffill')

Unnamed: 0,0,1,2
0,1.150541,-0.724689,2.14402
1,-1.029568,-0.005683,0.129208
2,0.614146,,1.018599
3,-0.555666,,0.847277
4,1.514245,,-0.336998
5,-0.839376,,1.467783


In [None]:
df.fillna(method='ffill', limit=2)

Unnamed: 0,0,1,2
0,-2.012694,-1.45568,3.008077
1,1.340872,1.597419,1.155669
2,0.632951,1.597419,-1.061043
3,0.818095,1.597419,1.370115
4,0.344029,,-0.537469
5,-1.000739,,-1.769673


On peut utiliser les fonctions pour imputer les valeurs manquantes:

In [None]:
data = pd.Series([1., NA, 3.5, NA, 7])

In [None]:
data.fillna(data.mean())

0    1.0
1    3.5
2    3.5
3    NaN
4    7.0
dtype: float64

Argument | Description
-- | --
value | Valeur scalaire ou sous forme de dictionnaire à utiliser pour le remplissage
method | Interpolation, par défaut 'ffill'
axis | L'axe à utiliser, par défaut axis=0 
inplace | Modifier l'objet sans faire une copie
limit | Maximum nombre de valeurs à remplir

# Transormation de données

**Supprimer les doublons**

In [3]:
import pandas as pd

In [4]:
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'],
                     'k2': [1, 1, 2, 3, 3, 4, 4]})

In [5]:
data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


In [6]:
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [7]:
data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


Les deux méthodes se basent sur l'ensemble des colonnes, On peut spécifier un sous ensemble de colonnes pour dédupliquer.

In [8]:
data['v1'] = range(7)

In [9]:
data.drop_duplicates(['k1'])

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1


Par défaut, les premières instances sont gardées, ce comportement peut être changé en utilisant l'argument keep='last'.

In [10]:
data.drop_duplicates(['k1', 'k2'], keep='last')

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
6,two,4,6


**Transofrmation en utilisant une fonction ou le mapping**

Plusieurs jeux de données, on a besoin de faires des transformations en basant sur les valeurs dans un tableau, Series ou une colonne d'un DataFrame.

In [15]:
data = pd.DataFrame({'product': ['macbook', 'hp deskjet', 'canon', 'ipad', 'iphone 12', 'samsung s20', 'xbox'],
                     'price': [1500.00, 100.12, 500.99, 350.50, 569.99, 600.20, 330.12]})

In [16]:
data

Unnamed: 0,product,price
0,macbook,1500.0
1,hp deskjet,100.12
2,canon,500.99
3,ipad,350.5
4,iphone 12,569.99
5,samsung s20,600.2
6,xbox,330.12


Supposons qu'on veut ajouter une colonne indiquant la catégorie de chaque produit, on peut ajouter un mapping pour chaque produit:

In [18]:
product_category = {
    'MacBook': 'computer',
    'HP Deskjet': 'computer',
    'Canon': 'photography',
    'iPad': 'computer',
    'iPhone 12': 'phones',
    'Samsung s20': 'phones',
    'XBox': 'gaming'
}

In [22]:
product_category = {key.lower():value for (key, value) in product_category.items()}

In [23]:
product_category

{'canon': 'photography',
 'hp deskjet': 'computer',
 'ipad': 'computer',
 'iphone 12': 'phones',
 'macbook': 'computer',
 'samsung s20': 'phones',
 'xbox': 'gaming'}

In [26]:
data['category'] = data['product'].map(product_category)

In [27]:
data

Unnamed: 0,product,price,category
0,macbook,1500.0,computer
1,hp deskjet,100.12,computer
2,canon,500.99,photography
3,ipad,350.5,computer
4,iphone 12,569.99,phones
5,samsung s20,600.2,phones
6,xbox,330.12,gaming


On peut également passer directement une fonction:

In [29]:
data['product'].map(lambda x: product_category[x.lower()])

0       computer
1       computer
2    photography
3       computer
4         phones
5         phones
6         gaming
Name: product, dtype: object

**Remplacer les valeurs**

Le remplacement des valeurs manquantes en utilisant la méthode **fillna** est un cas particulier du remplacement de valeurs. La fonction map peut être utilisée pour modifier un sous ensemble de valeurs dans un objet mais la fonction **replace** fournit une alternative plus simple et flexible.

In [30]:
data = pd.Series([1., -999., 2., -999., -1000., 3.])

In [31]:
data

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

La valeur -999 peut être une sentinelle pour les valeurs manquantes. Pour les remplacer avec NA, on peut utiliser la fonction **replace** produisant une nouvelle Series:

In [33]:
import numpy as np

In [34]:
data.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

On peut également remplacer plusieurs valeurs d'un seul coup:

In [35]:
data.replace([-999, -1000], np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

Pour utiliser une valeur différente pour le remplacement:

In [36]:
data.replace([-999, -1000], [np.nan, 0])

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

L'argument passé peut être également un dictionnaire:

In [37]:
data.replace({-999: np.nan, -1000: 0})

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

**Renommer les Index des axes**

Comme les valeurs, les étiquettes des axes peuvent également être transformées en utilisant une fonction ou un mapping pour produire de nouvelles étiquettes.

In [39]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)),
                    index=['Ohio', 'Colorado', 'New York'],
                    columns=['one', 'two', 'three', 'four'])

In [40]:
transform = lambda x: x[:4].upper()

In [41]:
data.index.map(transform)

Index(['OHIO', 'COLO', 'NEW '], dtype='object')

On peut affecter le résultat à index pour modifier le DataFrame sur place:

In [42]:
data.index = data.index.map(transform)

In [43]:
data

Unnamed: 0,one,two,three,four
OHIO,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


Pour créer une version transformée du jeux de données sans modifier la version originale, on peut utiliser la fonction rename:

In [44]:
data.rename(index=str.title, columns=str.upper)

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colo,4,5,6,7
New,8,9,10,11


La fonction **rename** peut également être utilisée avec un dictionnaire:

In [46]:
data.rename(index={'OHIO': 'INDIANA'},
            columns={'three': 'trois'})

Unnamed: 0,one,two,trois,four
INDIANA,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


On peut changer le jeux de données sur place avec inplace=True

In [47]:
data.rename(index={'OHIO': 'INDIANA'}, inplace=True)

In [48]:
data

Unnamed: 0,one,two,three,four
INDIANA,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


**Discrétisation et regroupement par paliers: binning**

Les données continues sont souvent discrétisées ou séparées sous forme de paliers pour l'analyse.

In [49]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

Si on veut les diviser aux intervalles [18,25], [26,35], [36,60] et 61+, on peut utiliser la fonction **cut**:

In [50]:
bins = [18, 25, 35, 60, 100]

In [51]:
cats = pd.cut(ages, bins)

In [52]:
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

L'objet retourné est un objet Categorical et décrit les intervalles calculés par cut. En interne, il est composé des noms de catégories et les codes des différentes catégories.

In [53]:
cats.codes

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

In [54]:
cats.categories

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]],
              closed='right',
              dtype='interval[int64]')

Conformément à la notation mathématique, une borne d'intervalle fermée est dénotée avec "]" alors qu'une borne ouverte est dénotée avec ")", on peut inverser avec l'argument right=False.

In [55]:
pd.cut(ages, [18, 26, 36, 61, 100], right=False)

[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)]
Length: 12
Categories (4, interval[int64]): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]

On peut utiliser notre nomenclature en passant une liste d'étiquettes:

In [56]:
group_names = ['Jeune', 'Adule', 'Agé', 'Vieu']

In [57]:
pd.cut(ages, bins, labels=group_names)

['Jeune', 'Jeune', 'Jeune', 'Adule', 'Jeune', ..., 'Adule', 'Vieu', 'Agé', 'Agé', 'Adule']
Length: 12
Categories (4, object): ['Jeune' < 'Adule' < 'Agé' < 'Vieu']

Si on passe une valeur entière à **cut**, elle va calculer des intervalles de même largeur en se basant sur la valeur minimale et maximale des données.

In [58]:
data = np.random.rand(20)

In [60]:
pd.cut(data, 4, precision=2)

[(0.48, 0.72], (0.0051, 0.24], (0.72, 0.95], (0.0051, 0.24], (0.0051, 0.24], ..., (0.48, 0.72], (0.48, 0.72], (0.48, 0.72], (0.48, 0.72], (0.0051, 0.24]]
Length: 20
Categories (4, interval[float64]): [(0.0051, 0.24] < (0.24, 0.48] < (0.48, 0.72] < (0.72, 0.95]]

L'argument precision permet de préciser le nombre de chiffres après la virgule pour les décimaux.

La fonction qcut permet d'obtenir des intervalles de tailles égales:

In [62]:
data = np.random.randn(1000)

In [65]:
cats = pd.qcut(data, 4, precision=2)

In [66]:
cats

[(0.61, 3.85], (-3.15, -0.72], (-3.15, -0.72], (-0.72, -0.042], (0.61, 3.85], ..., (-3.15, -0.72], (-3.15, -0.72], (0.61, 3.85], (-0.72, -0.042], (-0.042, 0.61]]
Length: 1000
Categories (4, interval[float64]): [(-3.15, -0.72] < (-0.72, -0.042] < (-0.042, 0.61] < (0.61, 3.85]]

In [67]:
pd.value_counts(cats)

(0.61, 3.85]       250
(-0.042, 0.61]     250
(-0.72, -0.042]    250
(-3.15, -0.72]     250
dtype: int64

On peut également passer nos propres quantiles:

In [69]:
pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.], precision=2)

[(-0.042, 1.16], (-3.15, -1.32], (-3.15, -1.32], (-1.32, -0.042], (1.16, 3.85], ..., (-3.15, -1.32], (-1.32, -0.042], (-0.042, 1.16], (-1.32, -0.042], (-0.042, 1.16]]
Length: 1000
Categories (4, interval[float64]): [(-3.15, -1.32] < (-1.32, -0.042] < (-0.042, 1.16] < (1.16, 3.85]]

**Détection et filtrage des valeurs extrêmes**

In [70]:
data = pd.DataFrame(np.random.randn(1000, 4))

In [71]:
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,0.006599,-0.020717,0.007385,0.00917
std,0.971942,1.011793,0.94644,1.019338
min,-3.382524,-2.974472,-3.268365,-4.178724
25%,-0.642323,-0.684394,-0.585505,-0.672457
50%,0.021047,-0.003979,0.049417,-0.012128
75%,0.681776,0.684353,0.616574,0.718116
max,2.652766,3.499658,2.872306,3.579696


Pour retrouver les valeurs excédant 3 en terme de valeur absolue: 

In [72]:
col = data[2]

In [73]:
col[np.abs(col) > 3]

905   -3.268365
Name: 2, dtype: float64

Pour sélectionner toutes les lignes contenant une valeur excédant 3 ou -3, on peut appliquer la méthode **any** sur un DataFrame booléen:

In [74]:
data[(np.abs(data) > 3).any(1)]

Unnamed: 0,0,1,2,3
1,-3.382524,0.818368,0.260239,0.10489
269,0.145099,3.499658,0.560406,-0.988199
378,-3.196364,0.343968,-0.556747,0.641087
421,-1.814705,-0.234993,1.935972,3.579696
473,0.061119,3.14046,0.897999,-0.19854
592,0.594453,-2.974472,-0.12537,3.467139
594,-0.303294,-1.181987,-0.918743,-3.511173
812,-0.192873,1.09613,-1.428691,3.225982
864,1.243678,0.582533,-0.737887,-4.178724
905,1.214165,0.515966,-3.268365,-1.646037


Pour capper les valeurs en dehors de l'intervalle [-3,3]:

In [75]:
data[np.abs(data) > 3] = np.sign(data) * 3

In [76]:
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,0.007177,-0.021357,0.007654,0.009587
std,0.970053,1.009745,0.945548,1.009451
min,-3.0,-2.974472,-3.0,-3.0
25%,-0.642323,-0.684394,-0.585505,-0.672457
50%,0.021047,-0.003979,0.049417,-0.012128
75%,0.681776,0.684353,0.616574,0.718116
max,2.652766,3.0,2.872306,3.0


**Permutation et échantillonnage**

La permutation des Series ou des lignes dans un DataFrame peut être effectuée à l'aide de la fonction numpy.random.permutation. Appeler la fonction permutation avec la longueur de l'axe pour lequel on veut permuter les valeurs produit un tableau d'entiers avec le nouvel ordre:

In [77]:
df = pd.DataFrame(np.arange(5 * 4).reshape((5, 4)))

In [78]:
sampler = np.random.permutation(5)

Le tableau peut être ensuite utilisé avec iloc ou la fonction **take**:

In [79]:
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [80]:
df.take(sampler)

Unnamed: 0,0,1,2,3
3,12,13,14,15
4,16,17,18,19
1,4,5,6,7
2,8,9,10,11
0,0,1,2,3


Pour sélectionner un échantillon sans remplacement, on peut utiliser la fonction **sample**:

In [82]:
df.sample(3)

Unnamed: 0,0,1,2,3
3,12,13,14,15
4,16,17,18,19
0,0,1,2,3


Pour générer un échantillon sans remplacement, on peut passer replace=True:

In [83]:
choices = pd.Series([5, 7, -1, 6, 4])

In [84]:
draws = choices.sample(n=10, replace=True)

In [85]:
draws

2   -1
0    5
1    7
4    4
3    6
2   -1
1    7
2   -1
1    7
3    6
dtype: int64

**Les variables dummy**

Un autre type de transformation pour la modélisation statistique ou le machine learning est la conversion d'une variable catégorique vers une variable "dummy".
Si une colonne a une modalité k "k valeurs distinctes", on peut dériver une matrice de k colonne contenant des 1 et des 0. Pandas a la fonction **get_dummies** pour faire cette conversion:

In [86]:
df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'],
                   'data1': range(6)})

In [87]:
pd.get_dummies(df['key'])

Unnamed: 0,a,b,c
0,0,1,0
1,0,1,0
2,1,0,0
3,0,0,1
4,1,0,0
5,0,1,0


Dans certains cas, on souhaite ajouter un prefixe à une colonne:

In [88]:
dummies = pd.get_dummies(df['key'], prefix='key')

In [89]:
df_with_dummy = df[['data1']].join(dummies)

In [90]:
df_with_dummy

Unnamed: 0,data1,key_a,key_b,key_c
0,0,0,1,0
1,1,0,1,0
2,2,1,0,0
3,3,0,0,1
4,4,1,0,0
5,5,0,1,0


# Manipulation des chaînes de caractères

**Méthodes String**

Argument | Description
-- | --
count | Nombre d'occurrences de sous chaînes dans la chaîne de caractères
endswith | Retourne True si la chaîne se termine avec un suffixe spécifié.
startswith | Retourne True si la chaîne commence avec le préfixe spécifié.
join | Concaténer une séquence de chaînes de caractères en utilisant le délimiteur spécifié
index | Retourne la position du premier caractère de la sous chaîne trouvé dans la chaîne de caractères, l'exception ValueError si non trouvé
find | Retourne la position du premier caractère de la sous chaîne trouvé dans la chaîne de caracères, -1 sinon
rfind | Retourne la position de la dernière occurrence, -1 sinon
replace | Remplacer les occurrences de la chaîne par une autre chaîne
strip | Enlever les espaces de la chaîne
rstrip | Enlever les espaces à droite
lstrip | Enlever les espaces à gauche
split | casser la chaîne de caractères en plusieurs sous chaînes en utilisant le délimiteur spécifié
lower | Convertir la chaîne en minuscules
upper | Convertir la chaîne en majuscules
ljust | Justification à gauche
rjust | Justification à droite


**Expressions régulières**

Méthodes | Description
-- | --
findall | Trouver toutes les occurrences
finditer | Trouver toutes les occurrences et retourner un itérateur
match | Matcher un pattern
search | Scan la chaîne pour trouver un pattern
split | casser la chaîne en utilisant l'expression régulière
sub, subn | Remplacer en utilisant l'expression régulière