# Semaine 1
# Semaine 1`Pandas`, bibliothèque d'analyse de données


«Pandas» est une bibliothèque d'analyse de données qui fournit une variété de structures de données et de méthodes de manipulation de données qui permettent d'effectuer des tâches complexes avec de simples commandes d'une seule ligne.

Dans les sections suivantes, nous travaillerons sur la bibliothèque `Pandas` et ses utilisations. Nous examinerons comment les objets sont définis par les «pandas», en opérant leurs valeurs et en exécutant une série d'opérations importantes pour l'analyse des données. Commençons!

## 1. Installation et utilisation de Pandas

Le téléchargement et l'installation du processus de la bibliothèque `pandas` peuvent être effectués via le système de gestion de paquets standard` pip`, en exécutant dans la console de votre environnement local cette seule ligne:

`pip installer des pandas`

Une fois installé, nous pouvons l'importer de la manière suivante:

In [None]:
import pandas
pandas.__version__

'1.1.2'

Il est recommandé de créer l'alias `pd` pour` pandas`:

In [None]:
import pandas as pd

## 2. Révision des objets Pandas

Au cœur de la bibliothèque `` pandas '', il y a deux structures de données / objets fondamentaux:
1. **`Series`**: stocke les données d'une seule colonne avec un ** index **. Un index est juste un moyen de "numéroter" l'objet `Series`.
2. **`DataFrame`**: est une structure de données tabulaire bidimensionnelle avec des axes étiquetés. Il est conceptuellement utile de considérer un objet `DataFrame` comme une collection d'objets` Series`. Autrement dit, considérez chaque colonne dans un DataFrame comme un objet unique dans la «Series», où chacun de ces objets de la «Series» partage un index commun: l'index de l'objet «DataFrame».

Importons les bibliothèques nécessaires et nous approfondirons chacun de ces concepts `pandas`:

In [None]:
import numpy as np
import pandas as pd

### 2.1. Objet Pandas `Series`



Une `` série '' de Pandas est un tableau unidimensionnel de données indexées.
Il peut être créé à partir d'une liste ou d'un tableau comme suit:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Comme nous le voyons dans la sortie, la `Series` encapsule à la fois une séquence de valeurs et une séquence d'indices commençant de 0 au nombre de valeurs ajoutées via la liste, auxquelles nous pouvons accéder avec les attributs` values` et ʻindex`. Les valeurs sont simplement un tableau familier `NumPy`:

In [None]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

L'index est un objet de type tableau de type `pd.Index`.

In [None]:
data.index

RangeIndex(start=0, stop=4, step=1)

Comme avec un tableau NumPy, les données sont accessibles par l'index associé via la notation familière de découpage entre crochets Python:

In [None]:
data[1]

0.5

In [None]:
data[1:3]

1    0.50
2    0.75
dtype: float64

Comme nous le verrons, la `` série '' de Pandas est beaucoup plus générale et flexible que le tableau NumPy unidimensionnel qu'elle émule.

#### 2.1.1. `Series` comme tableau NumPy généralisé

Le tableau `Numpy` a un index entier défini implicitement utilisé pour accéder aux valeurs. La «Série» Pandas a un «index» explicitement défini associé aux valeurs.

Cette définition «index» explicite donne à l'objet «Series» des capacités supplémentaires. L '«index» n'a pas besoin d'une valeur entière obligatoire, mais peut être constitué de valeurs de n'importe quel type souhaité, comme nous pouvons le voir dans l'exemple suivant:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Comme nous pouvons le voir, nous avons défini les indices comme des caractères de l'alphabet anglais. Un fait important est que le nombre d'indices définis correspond au nombre de valeurs ajoutées dans la "Série". Lors de l'accès aux valeurs associées aux index, il faut considérer la nouvelle nomenclature d'index et accéder aux valeurs avec le découpage commun:

In [None]:
data['b']

0.5

We can even use non-contiguous or non-sequential indices (index), considering the number of defined indices corresponds to the number of added values in the `Series`:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

Et nous accédons aux valeurs en découpant les indices tels que:

In [None]:
data[5]

0.5

#### 2.1.2 Les «séries» en tant que dictionnaires spécialisés

Un dictionnaire est une structure qui mappe des clés arbitraires à un ensemble de valeurs arbitraires, et une «série» est une structure qui mappe des clés tapées à un ensemble de valeurs typées. Nous pouvons profiter de ces similitudes pour créer une «Série» à partir d'un dictionnaire, où les «clés» sont les «indices» de la «Série» et les «valeurs» sont celles associées à ces «indices».

In [None]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

À partir de là, un accès typique aux éléments de style dictionnaire peut être effectué:

In [None]:
population['California']

38332521

Contrairement à un dictionnaire, la `` série '' prend également en charge les opérations de style tableau telles que le découpage:

In [None]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

### 2.2. Objet Pandas `DataFrame`

Un ``DataFrame'' est un analogue d'un tableau à deux dimensions avec à la fois des indices de ligne flexibles et des noms de colonne flexibles.
Tout comme vous pourriez penser à un tableau bidimensionnel comme une séquence ordonnée de colonnes unidimensionnelles alignées, vous pouvez considérer un `` DataFrame '' comme une séquence d'objets `` Série '' alignés.
Ici, par «aligné», nous entendons qu'ils partagent le même indice.

Pour le démontrer, construisons d'abord une nouvelle `` Série '' listant la zone de chacun des cinq états discutés dans la section précédente:

In [None]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

Maintenant que nous l'avons avec la série `` population '' d'avant, nous pouvons utiliser un dictionnaire pour construire un seul objet bidimensionnel contenant ces informations:

In [None]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


Comme l'objet `` Series``, le `` DataFrame`` possède un attribut `ʻindex`` qui donne accès aux étiquettes d'index:

In [None]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

De plus, le `` DataFrame`` a un attribut `` columns``, qui est un objet `ʻIndex`` contenant les étiquettes de colonne:

In [None]:
states.columns

Index(['population', 'area'], dtype='object')

Ainsi, le `` DataFrame '' peut être considéré comme une généralisation d'un tableau NumPy à deux dimensions, où les lignes et les colonnes ont un index généralisé pour accéder aux données.

Certaines fonctions et attributs nous permettent d'observer des informations de base sur les données stockées dans un objet `DataFrame`:

1. `DataFrame.head ()` -> renvoie le contenu des 5 premières lignes, par défaut
2. `DataFrame.tail ()` -> renvoie le contenu des 5 dernières lignes, par défaut
3. `DataFrame.shape` -> renvoie un tuple de la forme (num_rows, num_columns)
4. `DataFrame.columns` -> renvoie le nom des colonnes
5. `DataFrame.index` -> renvoie l'index des lignes

En utilisant `` data.head () '' et `` data.tail () '', nous pouvons voir le contenu des données. Sauf indication contraire, les objets `DataFrame` et` Series` ont des index commençant à 0 et incrémentés de manière monotone et incrémentielle sous forme d'entiers.

In [None]:
states.head(3) # The first three rows

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297


In [None]:
states.tail(3) # The last three rows

Unnamed: 0,population,area
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


### 2.3. Objet Pandas ʻIndex`

Cet objet `ʻIndex`` est une structure intéressante en lui-même, et il peut être pensé comme un * tableau immuable *:

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

Cet objet d'index peut être découpé sous forme de liste ou de tableau numpy:

In [None]:
ind[1] # Accessing element in position 1

3

In [None]:
ind[::2] # Accessing elements starting from position 0 through all the elements two by two.

Int64Index([2, 5, 11], dtype='int64')

Quelques attributs communs avec les tableaux `Numpy`:

In [None]:
print(' Size:',ind.size,'\n',
      'Shape:',ind.shape,'\n',
      'Dimension:',ind.ndim,'\n', 
      'Data type:',ind.dtype)

 Size: 5 
 Shape: (5,) 
 Dimension: 1 
 Data type: int64


Une différence entre les objets «Index» et les tableaux «Numpy» est que les indices sont **immuables**. Autrement dit, ils ne peuvent pas être modifiés via les moyens normaux, ce qui entraînera une erreur:

In [None]:
ind[1] = 0

TypeError: ignored

## 3. Indexation et sélection des données

Let's see in detail how to access the elements of the `Series` and `DataFrames` objects.

### 3.1. Sélection de données dans `Series`

Redéfinissons un objet `Series` à des fins explicatives:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

En plus d'accéder aux éléments d'une `Série` en découpant les index, nous pouvons mettre à jour les valeurs qui leur sont associées comme:

In [None]:
data['d'] = 0.95 # updating the value associated with 'd' index in Series object
data

Nous pouvons également ajouter une nouvelle valeur en utilisant la même procédure, comme nous le ferions avec un dictionnaire:

In [None]:
data['e'] = 1.25 # New value added with 'e' index in Series object
data

L'accès par découpage peut être effectué *explicitement* ou *implicitement* via une plage, telle que:

In [None]:
# slicing by explicit index
data['a':'c']

In [None]:
# slicing by implicit integer index
data[0:2]

On peut accéder à un groupe d'indices spécifiques en incluant ces indices dans une liste, de telle manière que l'accès se fait comme suit:

In [None]:
# express indexing
data[['a', 'e']]

Notez que lors du découpage avec un index explicite (c'est-à-dire, `data ['a': 'c']`), l'index final est inclus dans la tranche, tandis que lors du découpage avec un index implicite (c'est-à-dire `data [0: 2 ] `), l'index final est exclu de la tranche. Lorsque nous découpons une liste (c'est-à-dire `data [['a', 'e']]`), tous les indices sont également accessibles.

### 3.2. Indexeurs: loc, iloc pour `Series`

Nous allons passer en revue deux façons d'accéder aux éléments d'une `Series`, en utilisant deux attributs déterminés pour cela:` .loc [] `et` .iloc [] `. Définissons d'abord une `Série` de trois éléments de chaîne et d'indices de caractères:

In [None]:
data = pd.Series(['Hello', 'DPhi', 'world'], index=['a', 'b', 'c'])
data

#### 3.2.1. Attribut `loc`

L'attribut `` loc`` permet l'indexation et le découpage qui font toujours référence à l'index explicite (le nom explicite de l'index):

In [None]:
data.loc['a']

In [None]:
data.loc['a':'c']

#### 3.2.2. Attribut ʻiloc`

L'attribut `ʻiloc`` permet l'indexation et le découpage qui font toujours référence à l'index implicite de style Python (le numéro de ligne directe des valeurs augmentant de manière monotone de 0 à 3):

In [None]:
data.iloc[1]

In [None]:
data.iloc[1:3]

## Exercice 1

Considérez les listes suivantes:
''
lst1 = [1, 2, 3, 5, 8]
lst2 = [8, 5, 3, 2, 1]
''

1. Créez et affichez deux objets «Série» individuels «s1» et «s2» à partir des données disponibles sur chaque liste.


2. Effectuez les opérations suivantes avec les deux séries (élément par élément):
     1. Ajoutez `s1` et` s2` et stockez le résultat dans une nouvelle variable `s3_add`
     2. Soustrayez «s2» de «s1» et stockez le résultat dans une nouvelle variable «s3_sub»
     3. Multipliez «s1» et «s2» et stockez le résultat dans une nouvelle variable «s3_mul»
     4. Divisez `s1` par` s2` et stockez le résultat dans une nouvelle variable `s3_div`

In [None]:
# Answer 1

In [None]:
# Answer 2

## Exercice 2

Considérez l'objet `Series` suivant:
''
0 45000
1 37872
2 57923
3 68979
4 78934
5 69897
6 56701
Nom: Amazon_Reviews, dtype: int64
''

1. Créez et affichez la série ʻAmazon_Reviews`.

2. Obtenez les trois dernières valeurs de ʻAmazon_Reviews` en utilisant l'indexation négative.

In [None]:
# Answer 1

In [None]:
# Answer 2

## Exercice 3

Considérez le dictionnaire suivant qui relate la superficie en unités carrés de certains États américains:
''
     area_dict = {'Californie': 423967, 'Texas': 695662, 'New York': 141297,
              «Floride»: 170312, «Illinois»: 149995}
''

1. Créez une `Série` en utilisant le dictionnaire donné
2. Extrayez les zones «Texas», «New York» et «Florida» de la série créée

In [None]:
# Answer 1

In [None]:
# Answer 2

### 3.3. Sélection de données dans `DataFrame`

Voyons en détail comment accéder aux éléments des objets `DataFrame`, redéfinissons un objet` DataFrame` à des fins explicatives:

In [None]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Les différentes `` séries '' qui composent les colonnes du `` DataFrame '' sont accessibles via l'indexation de style dictionnaire du nom de la colonne:

In [None]:
data['area'] # Accessing the 'area' column of the data DataFrame

In [None]:
data['pop'] # Accessing the 'pop' column of the data DataFrame

De manière équivalente, nous pouvons utiliser un accès de style attribut avec des noms de colonne qui sont des chaînes, ce qui donnera exactement la même sortie `Series`:

In [None]:
data.area # Equivalent to data['area']

Comme pour les objets `` Series '' évoqués précédemment, cette syntaxe de style dictionnaire peut également être utilisée pour modifier l'objet, dans ce cas en ajoutant une nouvelle colonne:

In [None]:
data['density'] = data['pop']/data['area']
data

Comme vous pouvez le voir, lorsque l'on accède à la "Série" "pop" et qu'elle est divisée dans la zone "Série", l'opération arithmétique devient élément par élément et le résultat est assigné à la nouvelle densité "Série", qui devient la troisième colonne des données `DataFrame`.

Nous pouvons également voir le `` DataFrame '' comme un tableau bidimensionnel amélioré.
Nous pouvons examiner le tableau de données sous-jacent brutes à l'aide de l'attribut `` values``, qui renverra un tableau à deux dimensions dans lequel chaque ligne correspond à une ligne de valeurs `DataFrame`:

In [None]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

### 3.4. Indexeurs: loc, iloc pour `DataFrame`

Nous allons passer en revue deux façons d'accéder aux éléments d'un `DataFrame`, en utilisant deux attributs déterminés pour cela:` .loc [] `et` .iloc [] `:

#### 3.4.1. Attribut `loc`

L'attribut `` loc`` permet l'indexation et le découpage qui font toujours référence à l'index explicite (le nom explicite de l'index):

In [None]:
data.loc[:'Illinois', :'pop']

IndexingError: ignored

Dans cet exemple, nous découpons les indices en commençant par le premier par défaut et se terminant par «Illinois», ainsi que par les colonnes commençant par le premier par défaut et se terminant par «pop».

#### 3.4.2. Attribut ʻiloc`

L'attribut `ʻiloc`` permet l'indexation et le découpage qui font toujours référence à l'index implicite de style Python (le numéro de ligne directe des valeurs augmentant de manière monotone de 0 à 3):

In [None]:
data.iloc[:3, :2]

Dans cet exemple, nous découpons le `DataFrame` de l'index 0 par défaut à 3 exclusifs, et de la colonne 0 par défaut à 2 exclusifs.

## Exercise 4

Considérez ci-dessous les informations de DPhi Bootcamp sur les différents lots:

```
Total_Candidates = {'absolute_beginners': 785, 'beginners': 825, 'intermediat_advanced': 602} # this is true data
Active_Candidates = {'absolute_beginners': 500, 'beginners': 425, 'intermediat_advanced': 300}  # this is hypothetical data
```
    
1. Créez un `DataFrame` Pandas en utilisant les informations ci-dessus (nommez votre Dataframe comme` DPhi`)
2. Obtenez toutes les colonnes dans DPhi.
3. Obtenez les informations sur le nombre total de candidats présents dans chaque lot en utilisant une indexation de style dictionnaire.
4. Trouvez le nombre de candidats pour chaque lot qui ne sont pas actifs et ajoutez ces informations au dataframe DPhi.
5. Recherchez également le pourcentage de candidats actifs dans chaque lot et ajoutez ces informations à la base de données «DPhi» (indice: $ percent = (actif / total) * 100 $)
6. Obtenez tous les lots où le pourcentage de candidats actifs est supérieur à 60%

In [None]:
# Answer 1

In [None]:
# Answer 2

In [None]:
# Answer 3

In [None]:
# Answer 4

In [None]:
# Answer 5

In [None]:
# Answer 6

### 3.5. Sous-définition d'un `Dataframe`

**Subsetting** un `DataFrame` est un moyen de filtrage qui permet d'extraire des portions d'intérêt. Le sous-ensemble peut être fait à l'aide d'opérateurs de comparaison et d'opérateurs logiques à l'intérieur d'une paire de crochets `[]` comme indiqué dans l'exemple suivant:

In [None]:
data[data['density'] > 100]

Dans l'exemple ci-dessus, nous extrayons les lignes pour lesquelles il est "True" que la densité de population est supérieure à 100 unités. Pour plus de précisions sur le concept d'opération logique, jetez un œil à l'extrait suivant de l'exemple ci-dessus:

In [None]:
data['density'] > 100

Comme il n'y a que deux lignes où la densité est supérieure à 100, le résultat sera une valeur booléenne `DataFrame` dans laquelle les valeurs` True` correspondent aux lignes qui accomplissent l'expression locale, et les valeurs `False` à la ceux qui ne le font pas.

Voyons un exemple dans lequel nous incluons une deuxième opération logique pour sélectionner les lignes dans lesquelles la densité de population est supérieure à 100 unités `data ['densité']> 100` et (` & `) la superficie est inférieure à 150 000 unités` data ['area'] <150000`:

In [None]:
data[(data['density'] > 100) & (data['area'] < 150000)]

Nous pourrions également sélectionner les enregistrements dans lesquels la densité de population est inférieure à 90 unités `data ['densité'] <90` ou (` | `) supérieure à 120` data ['densité']> 120`:

In [None]:
data[(data['density'] < 90) | (data['density'] > 120)]

L'exemple précédent peut être réécrit pour exprimer la négation de la condition ci-dessus, sélectionnez les enregistrements qui n'ont pas une densité de population supérieure ou égale à 90 unités et inférieure ou égale à 120 unités `~ ((data ['densité'] > = 90) & (données ['densité'] <= 120)) `:

In [None]:
data[~((data['density'] >= 90) & (data['density'] <= 120))]

Comme nous pouvons le voir, les résultats des deux derniers exemples sont les mêmes, puisque nous exprimons la même condition de différentes manières.

## 4. querelle de données

La différence entre les données trouvées dans de nombreux didacticiels et les données du monde réel est que les données du monde réel sont rarement propres et homogènes. En particulier, de nombreux ensembles de données intéressants auront une certaine quantité de données manquantes. Pour rendre les choses encore plus compliquées, différentes sources de données peuvent indiquer des données manquantes de différentes manières.

De cette manière, nous devons définir des méthodes qui nous permettent de structurer, nettoyer et enrichir les données acquises du monde réel, qui sont les principales étapes du **Data Wrangling**. Avant de continuer, voyons quelle est la différence entre ces trois étapes et élargissons leur définition:

**1. Structuration des données:**

La première étape du processus de traitement des données consiste à séparer les données pertinentes en plusieurs colonnes, afin que l'analyse puisse être exécutée en regroupant par valeurs communes de manière distincte. À son tour, s'il y a des colonnes qui ne sont pas souhaitées ou qui ne seront pas pertinentes pour l'analyse, c'est la phase de filtrage des données ou de mélange de certaines de leurs colonnes.

**2. Nettoyage des données**

Dans cette étape, les données sont nettoyées pour une analyse de haute qualité. Les «valeurs nulles» sont gérées et le format des données est normalisé. Nous entamerons ce processus dans les semaines à venir.

**3. Enrichissement des données**

Après le nettoyage, les données sont enrichies en augmentant certaines variables dans ce que l'on appelle * Augmentation des données * et en utilisant des sources supplémentaires pour les enrichir pour les étapes de traitement suivantes.

Pour l'instant, nous allons examiner comment gérer les valeurs manquantes, une étape fondamentale pour le nettoyage des données.

## 5. Traitement des données manquantes

Il s'agit d'une étape fondamentale du nettoyage des données. Il est courant que lors des processus d'acquisition de données, des enregistrements soient perdus, soit en raison des difficultés d'acquisition, en raison d'erreurs dans la source ou la destination, ou parce que nous n'avons tout simplement pas pu acquérir les données. Il existe trois types de données manquantes:

- Manquant complètement au hasard (MCAR): lorsque le fait que les données sont manquantes est indépendant des données observées et non observées.
- Manquant au hasard (MAR): lorsque le fait que les données sont manquantes est systématiquement lié aux données observées mais pas aux données non observées.
- Missing not at random (MNAR): lorsque le manque de données est lié à des événements ou à des facteurs non mesurés par le chercheur.

Nous aborderons ces types en détail plus tard. Pour l'instant, nous allons examiner les principes de base de la gestion des données manquantes dans les pandas:

### 5.1. `NaN` et` None` dans les pandas

Les données manquantes sont gérées dans Pandas comme des espaces réservés de valeurs «NaN». La valeur `NaN` est une représentation en virgule flottante IEEE 754 de *Not a Number (NaN)*. L'une des principales raisons de traiter les données manquantes comme «NaN» plutôt que «Null» dans Pandas est que «NaN» (de «np.nan») permet des opérations vectorisées, car il s'agit d'une valeur flottante. «Aucun», par définition, force le type d'objet, ce qui désactive fondamentalement toute efficacité dans Numpy et Pandas.

`` NaN '' et `` Aucun '' sont traités de manière presque interchangeable par `Pandas`, convertissant entre eux le cas échéant:

In [None]:
import numpy as np

pd.Series([1, np.nan, 2, None])

### 5.2. Opérations sur les valeurs manquantes

Il existe plusieurs méthodes utiles pour détecter, supprimer et remplacer les valeurs manquantes dans les structures de données Pandas:

- `ʻisnull ()` `: génère un masque booléen indiquant les valeurs manquantes
- `` notnull () '': génère un masque booléen de valeurs non manquantes. Est le contraire de «isnull ()».
- `` dropna () '': renvoie une version filtrée des données, sans valeurs manquantes.
- `` fillna () '': retourne une copie des données avec des valeurs manquantes remplies ou imputées avec une stratégie souhaitée.

Passons en revue quelques exemples des deux premières fonctions ʻisnull () `et` notnull () `:

In [None]:
data = pd.Series([1, np.nan, 'hello', None])
data

In [None]:
data.isnull()

In [None]:
data.notnull()

Comme vous pouvez le voir, la fonction `.isnull ()` renvoie un Dataframe avec des valeurs booléennes, où `False` indique une valeur actuelle et` True` indique une valeur manquante. Inversement, la fonction «.notnull ()» renvoie un Dataframe avec des valeurs booléennes, où «True» indique une valeur actuelle et «False» indique une valeur manquante.

Avec ce résultat booléen, nous pouvons créer un sous-ensemble pour filtrer ces valeurs manquantes:

In [None]:
data[data.notnull()]

In [None]:
data

Bien que nous ayons filtré les données manquantes, si nous revoyons le contenu de la variable, nous verrons que les données manquantes persistent. En effet, aucune opération de sous-ensemble n'est effectuée sur place. Voyons maintenant comment nous supprimons les données manquantes de notre ensemble de données.

### 5.3. Supprimer les valeurs manquantes

La fonction de base pour supprimer toutes les valeurs manquantes d'un objet `Series` est la suivante, bien que la fonction ne soit pas exécutée sur place:

In [None]:
data.dropna()

In [None]:
data

Pour un `` DataFrame '', il y a plus d'options.
Considérez le `` DataFrame '' suivant:

In [None]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

Nous ne pouvons pas supprimer des valeurs uniques d'un `` DataFrame ''; nous ne pouvons supprimer que des lignes complètes ou des colonnes complètes.
Selon l'application, vous voudrez peut-être l'un ou l'autre, donc `` dropna () '' donne un certain nombre d'options pour un `` DataFrame ''.

Par défaut, `` dropna () '' supprimera toutes les lignes dans lesquelles * une * valeur manquante est présente:

In [None]:
df.dropna()

Vous pouvez également déposer les valeurs manquantes le long d'un axe différent; ʻAxis = 1` supprime toutes les colonnes contenant une valeur manquante:

In [None]:
df.dropna(axis='columns')

Mais cela laisse également tomber de bonnes données; vous pourriez plutôt être intéressé par la suppression de lignes ou de colonnes avec * toutes * les valeurs `NaN`, ou une majorité de valeurs` NaN`. Cela peut être spécifié via les paramètres `` comment '' ou `` seuil '', qui permettent un contrôle précis du nombre de valeurs nulles à autoriser.

La valeur par défaut est `` how = 'any' '', de sorte que toute ligne ou colonne (selon le mot clé `ʻaxis``) contenant une valeur nulle sera supprimée. Vous pouvez également spécifier `` how = 'all' '', qui ne supprimera que les lignes / colonnes qui sont * toutes * des valeurs nulles:

In [None]:
df = pd.DataFrame([[1,      np.nan, 2, np.nan],
                   [2,      3,      5, np.nan],
                   [np.nan, 4,      6, np.nan]])
df

In [None]:
df.dropna(axis='columns', how='all')

### 5.4. Remplir les valeurs nulles

Parfois, plutôt que de supprimer les valeurs `NaN`, vous préférez les remplacer par une valeur valide.
Cette valeur peut être un seul nombre comme zéro, ou il peut s'agir d'une sorte d'imputation ou d'interpolation à partir des bonnes valeurs.

Il existe quatre types de traitement qui peuvent être administrés, dans cet ordre, à des données non-existantes ou manquantes indésirables:

1. **Traitement 1:** Ignorez les données manquantes ou indésirables dans certaines colonnes, étant donné que dans d'autres colonnes des mêmes lignes, il y a des données importantes ou pertinentes pour l'étude.
2. **Traitement 2:** Remplacez les données manquantes ou indésirables par des valeurs qui représentent un indicateur de nullité.
3. **Traitement 3:** Remplacez les données manquantes, inexistantes ou indésirables par des valeurs interpolées liées à la tendance des données présentes.
4. **Traitement 4:** Supprimer les données manquantes, avec la certitude que les informations précieuses ne seront pas perdues lors de l'analyse des données.

Vous pouvez appliquer **Traitement 2** et **Traitement 3** en place en utilisant la méthode `ʻisnull ()` `comme masque, mais comme il s'agit d'une opération si courante,` Pandas` fournit le `` fillna ( ) ``, qui renvoie une copie du tableau avec les valeurs manquantes remplacées.

Considérez la `` série '' suivante:

In [None]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

To replace the missing values of the Series with a null value, we can do the following:

In [None]:
data.fillna(0)

Nous pouvons spécifier un remplissage avant pour propager la valeur précédente vers l'avant:

In [None]:
# forward-fill
data.fillna(method='ffill')

Ou nous pouvons spécifier un remplissage pour propager les valeurs suivantes vers l'arrière:

In [None]:
# back-fill
data.fillna(method='bfill')

Pour les objets `` DataFrame`` les options sont similaires, mais nous pouvons également spécifier une `ʻaxe`` le long de laquelle les remplissages ont lieu:

In [None]:
df

In [None]:
df.fillna(method='ffill', axis=1) # forward-fill along the columns

In [None]:
df.fillna(method='ffill', axis=0) # forward-fill along the rows

Notez que si une valeur précédente n'est pas disponible lors d'un remplissage avant, la valeur `NaN` reste.

## 6. Opérations sur les chaînes `Pandas`

Lorsqu'un objet `Pandas` stocke des données de chaîne,` Pandas` fournit certaines opérations pour faciliter sa manipulation. Voyons ce qui se passerait si une structure de stockage de données classique telle qu'une liste avait des données manquantes et qu'une opération de chaîne était exécutée. Tout d'abord, nous définissons une liste avec quatre valeurs de chaîne:

In [None]:
data = ['peter', 'Paul', 'MARY', 'gUIDO']
[s.capitalize() for s in data]

C'est peut-être suffisant pour travailler avec certaines données, mais cela se cassera s'il y a des valeurs manquantes:

In [None]:
data = ['peter', 'Paul', None, 'MARY', 'gUIDO'] #this has a missing value None hence the error below
[s.capitalize() for s in data]

Regardons maintenant une `série` de Pandas:

In [None]:
import pandas as pd
names = pd.Series(data)
names

Nous pouvons maintenant appeler une méthode unique qui mettra en majuscule toutes les entrées, tout en ignorant les valeurs manquantes ou les valeurs non-string:

In [None]:
names.str.capitalize()

Nous avons accédé à l'attribut `str` qui analyse les valeurs stockées dans la` Series` en string.

### 6.1. Méthodes de chaîne

Voici une liste des méthodes Pandas `` str '' qui reflètent les méthodes de chaîne Python:

|             |                  |                  |                  |
|-------------|------------------|------------------|------------------|
|``len()``    | ``lower()``      | ``translate()``  | ``islower()``    | 
|``ljust()``  | ``upper()``      | ``startswith()`` | ``isupper()``    | 
|``rjust()``  | ``find()``       | ``endswith()``   | ``isnumeric()``  | 
|``center()`` | ``rfind()``      | ``isalnum()``    | ``isdecimal()``  | 
|``zfill()``  | ``index()``      | ``isalpha()``    | ``split()``      | 
|``strip()``  | ``rindex()``     | ``isdigit()``    | ``rsplit()``     | 
|``rstrip()`` | ``capitalize()`` | ``isspace()``    | ``partition()``  | 
|``lstrip()`` |  ``swapcase()``  |  ``istitle()``   | ``rpartition()`` |

Voyons quelques exemples de méthodes de chaîne pour Pandas `Series` avec la série` monte`:

In [None]:
monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam',
                   'Eric Idle', 'Terry Jones', 'Michael Palin'])

In [None]:
monte.str.lower() # Parse values to string and transform all characters to lowercase

In [None]:
monte.str.len() # Parse values to string and calculates their length

In [None]:
# Parse values to string and calculates a mask of string values starting by 'T'
monte.str.startswith('T')

In [None]:
monte.str.split() # Parse values to string and splits them by ' ' character, by default

## Exercice 5

Considérez les listes suivantes:

```
country = ['Netherland', 'Germany', 'Peru', 'Israel', 'Madagascar']
year = [2002, 2002, 1957, 2007, 1967]
population = [16122830.0, np.nan, 9146100.0, 6426679.0, 6334556.0]
continent = ['Europe', 'europe', 'Americas', 'asia', 'Africa']
```

1. Créez un objet Dataframe qui contient toutes les valeurs des listes sous forme de série. Le DataFrame final doit être nommé comme `country_info`, contenant 4 colonnes et 5 lignes.
2. Supprimez les lignes contenant des valeurs manquantes
3. Capitalisez tous les continents dans la colonne continent.
4. Obtenez la longueur des noms de chaque pays.

In [None]:
# Answer 1

In [None]:
# Answer 2

In [None]:
# Answer 3

In [None]:
# Answer 4

## 7. Concaténer `Series`

Ici, nous allons jeter un œil à la simple concaténation des objets `Series` et` DataFrame` avec la fonction `pd.concat ()`:

In [None]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2], axis=0)

In [None]:
pd.concat([ser1, ser2], axis=1)

Par défaut, la concaténation a lieu en ligne dans le `` DataFrame`` (c'est-à-dire, `ʻaxis = 0``). Cependant, comme vous pouvez le voir, la concaténation de `Series` dans un` DataFrame` peut être effectuée dans des lignes ou des colonnes contiguës en spécifiant le paramètre ʻaxis`. Dans le cas où ce sont des colonnes, il faut prendre soin de définir les mêmes valeurs d'index, afin que les colonnes soient placées de manière contiguë sans valeurs «NaN».

## Exercice 6

Considérez les listes suivantes:

```
country = ['Netherland', 'Germany', 'Peru', 'Israel', 'Madagascar']
gdp_per_cap = [33724.757780, 30035.801980, 4245.256698, 25523.277100, 1634.047282]
```

1. Créez un objet Dataframe qui contient toutes les valeurs des listes sous forme de série. Le DataFrame final doit être nommé comme «country_gdp», contenant 2 colonnes et 5 lignes.
2. Concaténez les deux dataframes: `country_info` et` country_gdp` avec ʻaxis = 0` et nommez-le `concat_data`
3. Vérifiez s'il y a des valeurs nulles dans `concat_data`
4. Trouvez le nombre total de valeurs manquantes dans chaque colonne. *astuce: Utilisez les fonctions `.isnull ()` et `.sum ()`*

In [None]:
# Answer 1

In [None]:
# Answer 2

In [None]:
# Answer 3

In [None]:
# Answer 4

## 8. Impression de table fantaisie `DataFrame`

Dans les deux cellules suivantes, nous allons définir une manière élégante de visualiser les données de plusieurs objets `DataFrame`. Commençons par utiliser la bibliothèque ʻIPython.display`, qui nous permet de visualiser le contenu des objets `DataFrame` individuellement, à la manière d'un tableau:

In [None]:
from IPython.display import display, HTML

display(pd.concat([ser1, ser2], axis=1))

Regardons maintenant une fonction que nous avons définie, qui nous permet de mettre en évidence les données de plusieurs objets `DataFrame`. Il n'est pas nécessaire pour l'instant d'avoir une compréhension complète de la fonction suivante. Ce qui est important à ce stade, c'est de savoir comment l'utiliser.

In [None]:
class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

Définissons également une fonction utilisateur qui nous permet de créer rapidement un `DataFrame` en utilisant *Dictionary Comprehension*. Cette fonction transforme une chaîne d'entrée en un tableau carré qui est ensuite converti en un `DataFrame` où les noms de colonne sont chacun des caractères de la chaîne:

In [None]:
def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

# example DataFrame
make_df('ABC', range(3))

La fonction nous permet également de concaténer des objets de plus grande dimension, tels que des objets `` DataFrame '':

In [None]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
display('df1', 'df2', 'pd.concat([df1, df2])')

In [None]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
display('df3', 'df4', "pd.concat([df3, df4], axis=1)")

## la conclusions

Nous avons appris les principes de base de la bibliothèque `pandas` pour l'analyse des données, qui nous permet d'exécuter efficacement des opérations avec des données stockées, d'ajouter des enregistrements et de gérer les données manquantes. Nous avons également mis en évidence certaines des fonctions les plus importantes des objets «Series» et «DataFrame» de Pandas, ainsi que suivre une procédure de Data Wrangling.

Dans la prochaine étude de cas, nous passerons en revue les principes fondamentaux des bibliothèques de visualisation de données, afin de pouvoir identifier des modèles visuels dans nos données.