# Comprendre les données - Partie 1

Qu'il s'agisse d'un projet de Machine Learning ou non, comprendre la structure des données est une étape fondamentale dans tout projet. Bien souvent, c'est cette compréhension des données et leurs éventuels traitements qui fait toute la différence entre bon et un mauvais modèle. En vérité, la grande majorité du temps alloué à un tel projet est consacré au traitement des données, et non pas tant à l'entraînement du modèle lui-même.

Comme dit précédemment, les données utilisées pour entraîner un modèle peuvent provenir de n'importe quelle source et avoir n'importe quelle forme (json, csv, plein texte). Cependant, on préfère de manière générale les réprésenter sous forme de tableau ou de matrice. En Python, l'outil par excellence pour manipuler ce type de donnée est la librairie ``pandas``.

## Pandas

``Pandas`` est une des plus importantes libraires de Data Science. Elle permet de consulter et manipuler des jeux de données extrêmement grands, et ce très rapidement. Elle est donc naturellement devenue un des outils de base pour tout travail concernant des données. 

L'élément le plus important de cette librairie est la classe ``DataFrame``, qui permet effectivement de charger, manipuler les données et les représenter sous forme de matrice:

In [2]:
## par convention, on importe toujours pandas de cette façon
import pandas as pd

## DataFrame

Un DataFrame est une matrice ou un tableau (similaire à un fichier Excel ou LibreOffice Calc). Chaque ligne et chaque colonne de cette matrice sont des vecteurs, qui contiennent les données. Un DataFrame peut être créé de multiples façons, mais la plus simple reste de le créer à partir d'un dictionnaire. Dans ce cas, le nom des colonnes correspond aux clés du dictionnaire, et les colonnes elles-mêmes correspondent aux valeurs.


Il faut cependant bien faire attention à ce que chaque valeur du dictionnaire, donc chaque liste, ait le même nombre d'éléments.

In [3]:
dic = {
    "A" : [1,2,3,4],
    "B" : [3,4,5,6],
    "C" : [5,6,7,8]
    
}
df = pd.DataFrame(dic)
df

Unnamed: 0,A,B,C
0,1,3,5
1,2,4,6
2,3,5,7
3,4,6,8


In [4]:
# Tous les arrays ont la même longueur
# on peut mélanger les types dans une même colonne
dic = {
    "A" : [1,2,3,4], # valeurs de la colonne A
    "B" : ['a', 'b', 'c', 'd'], # valeurs de la colonne B
    "C" : ['e',4,'f',6], # valeurs de la colonne C
}
df = pd.DataFrame(dic)
df

Unnamed: 0,A,B,C
0,1,a,e
1,2,b,4
2,3,c,f
3,4,d,6


## Exercice : 
Créez un DataFrame à partir d'un dictionnaire. Vous pouvez nommer les colonnes comme vous le voulez, de même pour les valeurs du dictionnaire.

In [5]:
# Exerices

In [6]:
# Les arrays n'ont pas tous la même longueur : erreur
dic = {
    "A" : [1,2,3,4],
    "B" : ['a', 'b'], 
    "C" : ['e',4,'f']}
df = pd.DataFrame(dic)
df

ValueError: All arrays must be of the same length

On peut filtrer les données d'entrées et ne garder que certaines colonnes. C'est particulièrement utile dans des datasets à plusieurs dizaines de colonnes, pour lesquels seules deux colonnes nous sont utiles.

In [7]:
dic = {
    "A" : [1,2,3,4],
    "B" : ['a', 'b', 'c', 'd'], 
    "C" : ['e',4,'f', 5]
}
df = pd.DataFrame(dic, columns=['A', 'B'])
df

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,c
3,4,d


In [8]:
dic = {
    "A" : [1,2,3,4],
    "B" : ['a', 'b', 'c', 'd'], 
    "C" : ['e',4,'f', 5]
}

# on ne conserve que les colonnes A et C
df = pd.DataFrame(dic, columns=['A', 'C'])
df

Unnamed: 0,A,C
0,1,e
1,2,4
2,3,f
3,4,5


Si vous sélectionnez une colonne qui n'est pas dans les données d'entrées, la colonne sera vide. Dans ``pandas``, les valeurs vides sont indiquées par ``NaN``:

In [9]:
dic = {
    "A" : [1,2,3,4],
    "B" : ['a', 'b', 'c', 'd'], 
    "C" : ['e',4,'f', 5]
}

# on sélectionne les colonnes A, C et D. Cette dernière sera vide
df = pd.DataFrame(dic, columns=['A', 'C', 'D']) 
df

Unnamed: 0,A,C,D
0,1,e,
1,2,4,
2,3,f,
3,4,5,


## Series

Les Series sont un des deux types de base de pandas avec le DataFrame. Ils se comparent à des vecteurs, et correspondent soit à une colonne soit à une ligne dans une matrice. 

In [10]:
# ci-dessous, l'index est affiché à gauche, les valeurs à droite
# par défaut, l'index d'une Serie ou DataFrame commence par 0.
serie = pd.Series([1, 2, 3, 4]
                )
print("Serie :", serie)

print("Serie index :", serie.index)
print("Premier element :", serie[0])

Serie : 0    1
1    2
2    3
3    4
dtype: int64
Serie index : RangeIndex(start=0, stop=4, step=1)
Premier element : 1


Un des avantages de Serie est que l'on peut modifier l'index en utilisant des valeurs numériques comme textuelles ce qui permet d'avoir un index qui correspond plus aux données:

In [11]:

serie = pd.Series([1, 2, 3, 4],
                  index = ['un', 'deux', 'trois', 'quatre']
                )
print("Serie :", serie)

print("Serie index :", serie.index)
print('Premier element :', serie['un'])

Serie : un        1
deux      2
trois     3
quatre    4
dtype: int64
Serie index : Index(['un', 'deux', 'trois', 'quatre'], dtype='object')
Premier element : 1


## Exercice:

Créez deux objets Series avec les valeurs que vous voulez. Dans le second, indiquez l'index, de même avec les valeurs que vous voulez

In [None]:
# Exercices

Comme un DataFrame, on peut créer une Serie à partir d'un dictionnaire: les clés du dictionnaire serviront alors d'index:

In [12]:
dic = {
    "un" : 1,
    "deux" : 2,
    "trois" : 3,
    "quatre" : 4
}
serie = pd.Series(dic)
print("Serie :", serie)

print("Serie index :", serie.index)
print('Premier element :', serie['un'])

Serie : un        1
deux      2
trois     3
quatre    4
dtype: int64
Serie index : Index(['un', 'deux', 'trois', 'quatre'], dtype='object')
Premier element : 1


L'index d'une Serie comme d'un DataFrame peut être changé après sa création, en utilise la propriété ``index``:

In [13]:
serie.index = ['a', 'b', 'c', 'd']
print("Serie index :", serie.index)
print('Premier element :', serie['a'])

Serie index : Index(['a', 'b', 'c', 'd'], dtype='object')
Premier element : 1


### Note

Un DataFrame n'est en fait qu'une collection de Series, dans lequel chaque ligne et chaque colonne est une Serie:

In [14]:
df['C']

0    e
1    4
2    f
3    5
Name: C, dtype: object

In [None]:
type(df['A'])

## Ouvrir un fichier avec ``pandas``

``pandas`` permet d'ouvrir plusieurs types de fichiers, dans lesquels les données sont soit enregistrées de manière tabulaires (séparées par un délimiteur comme un virgule, une tabulation, un espace, ...) ou ordonnées (fichier json, base de données SQL).

La plupart du temps, les données sont enregistrées au format ``csv`` (Comma-Separated-Values), pour lesquelles on peut utiliser la fonction ``read_csv``. On trouve également des données au format json, pour lequel on utilise la fonction ``read_json``. Enfin, on peut ouvrir d'autres types de fichiers avec la fonction ``read_table``, tant que les données sont séparées d'une certaine façon (par défaut, le délimiteur est \t), ou bien directement accéder à une base de données SQL avec la fonction ``read_sql``.

Ci-dessous, nous ouvrons le fichier ``iris_dataset.csv`` contenu dans le dossier ``data``. Le paramètre ``names`` permet de spécifier le nom de chaque colonne du fichier. Le nom des colonnes sera parfois déjà spécifié dans certains fichiers tabulaires. Il ne sera donc pas nécessaire de compléter le paramètre names, contrairement à ici:

In [15]:
df = pd.read_csv('data/iris_dataset.csv', 
                 names = ['sepal_length', 'sepal_width', 
                          'petal_length', 'petal_width', 'class']
                 
                )

## Voir les premières et dernières lignes du DataFrame

Souvent, les DataFrame que vous manipulerez seront très larges (plusieurs milliers de lignes). Pour avoir un aperçu de vos données, vous pouvez utiliser respectivement les fonction ``head()`` et ``tail()`` pour voir les premières et dernières lignes du DataFrame:

In [16]:
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [17]:
df.tail()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


## Avoir un résumé du DataFrame

La fonction ``info()`` du DataFrame permet d'en voir un résumé. Elle est très utile pour voir le type de données de chaque colonne ou pour voir s'il y a des cellules vides:

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   class         150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


### Ajouter et supprimer une colonne

Vous pouvez créer une nouvelle colonne comme ci-dessus au moment de la création du DataFrame (celle-ci sera alors vide), ou plus tard en indexant cette nouvelle colonne. 

Dans ce cas là, on peut soit assigner une valeur unique à la colonne ou passer une liste de valeurs. Si l'on passe une liste, celle-ci doit contenir autant d'éléments que les autres colonnes du DataFrame.

In [19]:
import numpy as np # on importe toujours numpy de cette facon
new_column = np.arange(150) # on génère 150 valeurs pour remplir la colonne
df['new_col'] = new_column # on créé la colonne
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class,new_col
0,5.1,3.5,1.4,0.2,Iris-setosa,0
1,4.9,3.0,1.4,0.2,Iris-setosa,1
2,4.7,3.2,1.3,0.2,Iris-setosa,2
3,4.6,3.1,1.5,0.2,Iris-setosa,3
4,5.0,3.6,1.4,0.2,Iris-setosa,4


Pour supprimer une colonne, il suffit d'utiliser l'opérateur ``del``:

In [20]:
del df['new_col']
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


## Sélectionner des données

### Sélectionner des colonnes

Sélectionner des colonnes d'un DataFrame est très simple, et peut se comparer à la sélection d'une clé dans un dictionnaire en Python. Il suffit donc d'indiquer le nom de la colonne dans l'index:

In [21]:
df['class']

0         Iris-setosa
1         Iris-setosa
2         Iris-setosa
3         Iris-setosa
4         Iris-setosa
            ...      
145    Iris-virginica
146    Iris-virginica
147    Iris-virginica
148    Iris-virginica
149    Iris-virginica
Name: class, Length: 150, dtype: object

Pour sélectionner plusieurs colonnes à la fois, il suffit de passer une liste des noms de colonnes voulues:

In [22]:
df[['sepal_length', 'class']]

Unnamed: 0,sepal_length,class
0,5.1,Iris-setosa
1,4.9,Iris-setosa
2,4.7,Iris-setosa
3,4.6,Iris-setosa
4,5.0,Iris-setosa
...,...,...
145,6.7,Iris-virginica
146,6.3,Iris-virginica
147,6.5,Iris-virginica
148,6.2,Iris-virginica


Lors de la sélection d'une colonne, on peut également ajouter des conditions afin d'en filtrer les résultats:

In [23]:
df['sepal_length'] < 5

0      False
1       True
2       True
3       True
4      False
       ...  
145    False
146    False
147    False
148    False
149    False
Name: sepal_length, Length: 150, dtype: bool

In [24]:
df[df['sepal_length'] < 5]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa
11,4.8,3.4,1.6,0.2,Iris-setosa
12,4.8,3.0,1.4,0.1,Iris-setosa
13,4.3,3.0,1.1,0.1,Iris-setosa
22,4.6,3.6,1.0,0.2,Iris-setosa


In [None]:
# Exercice:
# sepal_length, sepal_width, petal_length, petal_width
df[df['sepal_width'] == 5]

### Note

La notation ci-dessus demande un petite explication: ``df['sepal_length'] > 5`` est un calcul vectoriel qui permet de retourner toutes les valeurs de la colonne 'sepal_length' qui sont inférieures à 5. Pour chaque valeur de la colonne, ce calcul retourne un vecteur dans lequel chaque ligne indique si elle correspond à la condition demandée:

In [None]:
df['sepal_length'] > 5

Ainsi, en faisant ``df[df['sepal_length'] > 5]``, on demande en réalité de filtrer le DataFrame df par rapport aux valeurs retournées par ``df['sepal_length'] > 5``.

### Sélectionner des lignes

``pandas`` utilise une syntaxe particulière qui repose sur l'utilisation de l'Index (réel ou numérique) pour sélectionner un ou plusieurs éléments. Ces deux propriétés permettent respectivement de sélectionner des lignes selon leur index réel ou bien de les sélectionner selon leur index numérique. Ces propriétés sont respectivement ``loc`` (location) et ``iloc``(integer-location).

Pour plus de clarté, nous aller remplacer l'index de ``df`` par le nom des classes:

In [25]:
df.index = df['class'] # on remplace l'index actuel par les valeurs de la colonne 'class'
del df['class'] # on supprime la colonne 'class'
df.head()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-setosa,5.1,3.5,1.4,0.2
Iris-setosa,4.9,3.0,1.4,0.2
Iris-setosa,4.7,3.2,1.3,0.2
Iris-setosa,4.6,3.1,1.5,0.2
Iris-setosa,5.0,3.6,1.4,0.2


### ``loc`` (location)

La fonction ``loc`` permet de sélectionner des élements par rapport à l'index réel du DataFrame.

Ici on sélectionne toutes les lignes ayant pour index 'Iris-setosa', puis celles ayant pour index 'Iris-setosa' et 'Iris-versicolor':

In [27]:
setosa = df.loc['Iris-versicolor']
setosa.head()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-versicolor,7.0,3.2,4.7,1.4
Iris-versicolor,6.4,3.2,4.5,1.5
Iris-versicolor,6.9,3.1,4.9,1.5
Iris-versicolor,5.5,2.3,4.0,1.3
Iris-versicolor,6.5,2.8,4.6,1.5


In [28]:
# pour sélectionner plusieurs indexs différents,
# il faut passer une liste de valeurs en argument
setosa_versi = df.loc[['Iris-setosa', 'Iris-versicolor']]
setosa_versi.head()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-setosa,5.1,3.5,1.4,0.2
Iris-setosa,4.9,3.0,1.4,0.2
Iris-setosa,4.7,3.2,1.3,0.2
Iris-setosa,4.6,3.1,1.5,0.2
Iris-setosa,5.0,3.6,1.4,0.2


In [29]:
df.loc[0] # provoque une erreur car 0 n'est plus une valeur valide pour l'index

KeyError: 0

On peut également sélectionner des lignes et des colonnes. Pour cela, on indique d'abord les lignes que l'on veut sélectionner, puis les colonnes:

In [30]:
# on indique d'abord vouloir garder les lignes ayant
# Iris-setosa comme index, puis on indique ne vouloir
# garder que la colonne 'sepal_length'
setosa_length = df.loc['Iris-setosa','sepal_length']
setosa_length.head()

class
Iris-setosa    5.1
Iris-setosa    4.9
Iris-setosa    4.7
Iris-setosa    4.6
Iris-setosa    5.0
Name: sepal_length, dtype: float64

In [None]:
# Exercice: 
# 1/ Selectionner 1 seul index
# 2/ Selectionner plusieurs index
# 3/ Selectionner 1 index et 1 colonne

### ``iloc`` (integer-location)

La fonction ``iloc`` permet de sélectionner une partie du DataFrame de la même manière que l'on sélectionne un index d'une liste.

Ci-dessous, on sélectionne les 100 premières lignes:

In [31]:
# la sélection des 100 premières lignes se fait
# comme si l'on sélectionnait les 100 premiers
# éléments d'une liste
first_100 = df.iloc[:100]
first_100

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-setosa,5.1,3.5,1.4,0.2
Iris-setosa,4.9,3.0,1.4,0.2
Iris-setosa,4.7,3.2,1.3,0.2
Iris-setosa,4.6,3.1,1.5,0.2
Iris-setosa,5.0,3.6,1.4,0.2
...,...,...,...,...
Iris-versicolor,5.7,3.0,4.2,1.2
Iris-versicolor,5.7,2.9,4.2,1.3
Iris-versicolor,6.2,2.9,4.3,1.3
Iris-versicolor,5.1,2.5,3.0,1.1


De la même manière, on sélectionne les 100 premières lignes ainsi que les 2 premières colonnes:

In [33]:
first_100_2 = df.iloc[:100, -1].head()
first_100_2

class
Iris-setosa    0.2
Iris-setosa    0.2
Iris-setosa    0.2
Iris-setosa    0.2
Iris-setosa    0.2
Name: petal_width, dtype: float64

### Note

La notation ci-dessus peut surprendre et être difficile à comprendre la première fois. De manière simple, dans ``[:100, :2]``, tout ce qui se trouve avant la virgule concerne les lignes tandis que tous ce qui se trouve après concerne les colonnes.

## Remplacer les valeurs dans une ou plusieurs colonnes

Parfois, il peut être nécessaire de remplacer une ou plusieus valeurs rapidement dans les colonnes du DataFrame. Cette opération est réalisable sans même passer par une boucle. Ci-dessous, on sélectionne la colonne 'sepal_width' et l'on remplace chaque valeur 0.2 par 2:

In [36]:
df['petal_width']

class
Iris-setosa       2.0
Iris-setosa       2.0
Iris-setosa       2.0
Iris-setosa       2.0
Iris-setosa       2.0
                 ... 
Iris-virginica    2.3
Iris-virginica    1.9
Iris-virginica    2.0
Iris-virginica    2.3
Iris-virginica    1.8
Name: petal_width, Length: 150, dtype: float64

In [37]:
df['petal_width'].replace(2, 10, inplace=True)
df.head()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-setosa,5.1,3.5,1.4,10.0
Iris-setosa,4.9,3.0,1.4,10.0
Iris-setosa,4.7,3.2,1.3,10.0
Iris-setosa,4.6,3.1,1.5,10.0
Iris-setosa,5.0,3.6,1.4,10.0


On peut également remplacer plusieurs valeurs à la fois en passant une liste de valeurs en argument:

In [38]:
df['petal_width'].replace([10, 3.5], 1.5, inplace=True)
df['petal_width']

class
Iris-setosa       1.5
Iris-setosa       1.5
Iris-setosa       1.5
Iris-setosa       1.5
Iris-setosa       1.5
                 ... 
Iris-virginica    2.3
Iris-virginica    1.9
Iris-virginica    1.5
Iris-virginica    2.3
Iris-virginica    1.8
Name: petal_width, Length: 150, dtype: float64

## Traiter les valeurs manquantes

A moins de trouver un Dataset préparé et nettoyé, les données que vous pourrez collecter comporterons souvent des manques. Ces manques peuvent à terme poser problèmes, et doivent donc être traités en amont. ``pandas`` représentent les valeurs manquantes par NaN:

In [39]:
import numpy as np
df['petal_width'].replace(1.5, np.nan, inplace=True)
df['sepal_length'].replace(5.0, np.nan, inplace=True)

df.head()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-setosa,5.1,3.5,1.4,
Iris-setosa,4.9,3.0,1.4,
Iris-setosa,4.7,3.2,1.3,
Iris-setosa,4.6,3.1,1.5,
Iris-setosa,,3.6,1.4,


On peut rapidement voir où il manque des données grâce à la fonction ``info()``:

In [40]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 150 entries, Iris-setosa to Iris-virginica
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  140 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   104 non-null    float64
dtypes: float64(4)
memory usage: 9.9+ KB


On peut également voir les valeurs nulles d'une colonne à l'aide la fonction ``isnull()``:

In [41]:
df['petal_width'].isnull()

class
Iris-setosa        True
Iris-setosa        True
Iris-setosa        True
Iris-setosa        True
Iris-setosa        True
                  ...  
Iris-virginica    False
Iris-virginica    False
Iris-virginica     True
Iris-virginica    False
Iris-virginica    False
Name: petal_width, Length: 150, dtype: bool

In [42]:
df[df['petal_width'].isnull()]

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-setosa,5.1,3.5,1.4,
Iris-setosa,4.9,3.0,1.4,
Iris-setosa,4.7,3.2,1.3,
Iris-setosa,4.6,3.1,1.5,
Iris-setosa,,3.6,1.4,
Iris-setosa,,3.4,1.5,
Iris-setosa,4.4,2.9,1.4,
Iris-setosa,5.4,3.7,1.5,
Iris-setosa,4.8,3.4,1.6,
Iris-setosa,5.8,4.0,1.2,


On a alors plusieurs solutions pour traiter ces valeurs:

* les supprimer
* les remplacer par une valeur

Pour remplacer une valeur vide, on utilise la fonction ``fillna()``:

In [43]:
df['petal_width'].fillna(100, inplace=True)
df.petal_width

class
Iris-setosa       100.0
Iris-setosa       100.0
Iris-setosa       100.0
Iris-setosa       100.0
Iris-setosa       100.0
                  ...  
Iris-virginica      2.3
Iris-virginica      1.9
Iris-virginica    100.0
Iris-virginica      2.3
Iris-virginica      1.8
Name: petal_width, Length: 150, dtype: float64

Pour supprimer les valeurs nulles, on utilise la fonction ``dropna()``. Attention, ``dropna()`` fonctionne sur l'ensemble du DataFrame, et ne fonctionnera pas sur une seule colonne:

In [44]:
# df['sepal_length'].dropna(inplace=True) # ne fonctionne pas
df.dropna(inplace=True) # fonctionne
df.head()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-setosa,5.1,3.5,1.4,100.0
Iris-setosa,4.9,3.0,1.4,100.0
Iris-setosa,4.7,3.2,1.3,100.0
Iris-setosa,4.6,3.1,1.5,100.0
Iris-setosa,5.4,3.9,1.7,0.4


In [45]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 140 entries, Iris-setosa to Iris-virginica
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  140 non-null    float64
 1   sepal_width   140 non-null    float64
 2   petal_length  140 non-null    float64
 3   petal_width   140 non-null    float64
dtypes: float64(4)
memory usage: 5.5+ KB


## Sauvegarder des données sur le disque

De la même manière que l'on peut ouvrir différents types de fichiers, on peut sauvegarder sur le disque les données d'un DataFrame sous différents formats.

En général, on utilisera la fonction ``to_csv()``, pour conserver la forme tabulaire des données. 

In [47]:
df.to_csv('iris_dataset_modified.csv', index=False)

Attention, lorsque l'on sauvegarde un DataFrame, ``pandas`` sauvegarde par défaut son index, et rajoute donc une colonne / une clé. Si vous ne faites pas attention, ceci peut poser problème dans la suite des manipulations, l'ordre des colonnes étant changé. Pour éviter cela, on indique ``index = False``:

## Références

* Documentation pandas: https://pandas.pydata.org/docs/

* Tutoriel Kaggle sur pandas: https://www.kaggle.com/learn/pandas