In [None]:
# importing pandas
import pandas as pd

# csv file location
url = 'https://dq-content.s3.amazonaws.com/291/f500.csv'

# making data frame from csv file
data = pd.read_csv(url, index_col = 'company')

# Gestion des Données Manquantes

Un ensemble de données peut contenir des entrées `NA`. Il s'agit de valeurs telles que `null`, `None` ou `NaN` (Not a Number).

Pandas utilise une valeur sentinelle (`None` ou `NaN`) pour indiquer une entrée manquante.

# Valeur sentinelle **`None`**

La première valeur sentinelle utilisée par Pandas est `None`, un objet singleton Python souvent utilisé pour les données manquantes dans le code Python.

Si on effectue des agrégations telles que `sum()` ou `min()` sur un array avec une valeur `None`, on obtiendra généralement une erreur.

# Données numériques manquantes **`NaN`**

L'autre valeur sentinelle utilisée par Pandas est `NaN`, une valeur à virgule flottante spéciale reconnue par tous les systèmes utilisant la représentation à virgule flottante standard IEEE.

Quelle que soit l'opération, le résultat de l'arithmétique avec `NaN` sera un autre `NaN`.

NumPy fournit des versions de ses fonctions d'agrégation qui sont sécurisées vis à vis de `NaN`, telles que `np.nansum()`, `np.nanmin()` et `np.nanmax()`, qui ignorent ces valeurs manquantes.

# **`NaN`** et **`None`** dans Pandas

`NaN` et `None` ont tous deux leur place, et Pandas est conçu pour les gérer de manière quasi interchangeable, en effectuant des conversions entre eux si nécessaire.

# Opérations sur les valeurs **`null`**

Pandas traite `None` et `NaN` comme interchangeables pour indiquer les valeurs manquantes ou `null`.

Pour faciliter cette convention, il existe plusieurs méthodes utiles pour détecter, supprimer et remplacer les valeurs `null` dans les structures de données Pandas.

Les voici:

* `isnull()`: génère un masque booléen indiquant les valeurs manquantes.
* `notnull()`: opposé de `isnull()`.
* `dropna()`: renvoie une version filtrée des données.
* `fillna()`: renvoie une copie des données avec les valeurs manquantes complétées ou imputées.

**Exemple**

In [None]:
# data filter
data_filter = data['profits'].isnull()

# data selection
data_selection = data[data_filter]['profits']

data_selection

Unnamed: 0_level_0,profits
company,Unnamed: 1_level_1
Heraeus Holding,


## Suppression des valeurs **`null`**

La méthode `dropna()` permet de supprimer les valeurs `NA`. Elle renvoie une version filtrée des données.

Par défaut, elle supprime toutes les lignes contenant une valeur `null`.

Vous pouvez également supprimer les valeurs `NA` le long d'un axe différent. Par exemple, `axis=1` supprime toutes les colonnes contenant une valeur `null`:

`dropna(axis='columns')`

## Remplissage des valeurs **`null`**

La méthode `fillna()` permet de remplir les valeurs `NA`. Elle renvoie une copie de l'array dans lequel les valeurs `null` sont remplacées par une valeur spécifiée. Par exemple, `data.fillna(0)` remplit les valeurs `NA` avec 0.