# **Analyse et Néttoyage de Données avec NumPy et Pandas**

<figure style="padding: 1em;">
    <img src="img/np-pd.png" width="800" height="400" alt="">
</figure>

# **I. Manipulation de Données avec Pandas**


<figure style="padding: 1em;">
    <img src="img/pandas_logo.webp" width="500" height="300" alt="">
</figure>

Dans cette partie, nous allons voir tout sur **[pandas](https://pandas.pydata.org)**, très probablement la bibliothèque Python la plus populaire pour l'analyse de données.

**Vous apprendrez comment créer vos propres données, ainsi que comment travailler avec des données déjà existantes.**

> Biensur comme toute autre librairie, pour utiliser pandas, il faut toujours commencer par l'installation (si ce n'est pas une librairie intégrée dans python) puis par l'importation.

In [59]:
### installation de pandas sur un notebook jupiter
!pip install pandas



In [60]:
### importation
import pandas as pd

#### **1. Création de données**

Il y a **deux (02) types d'objets** principaux dans pandas : le **DataFrame** et la **Series**.

- **Le DataFrame:** c'est simplement une table (pensez à une table excel) qui contient un ensemble d'*entrées* individuelles, chacune ayant une certaine *valeur*. Chaque entrée correspond à une ligne (ou *enregistrement*) et à une *colonne*.

<figure style="padding: 1em;">
    <img src="img/pandas-data-structure.svg" width="500" height="300" alt="">
</figure>

Par exemple, considérez le DataFrame simple suivant :

In [61]:
pd.DataFrame({'Oui': [50, 21], 
              'Non': [131, 2]
              })

Unnamed: 0,Oui,Non
0,50,131
1,21,2


In [62]:
pd.DataFrame({
    "Fruits": ["oranges", "bananes", "pommes"],
    "Voitures": ["tesla", "audit", "porche"]
})

Unnamed: 0,Fruits,Voitures
0,oranges,tesla
1,bananes,audit
2,pommes,porche


Dans cet exemple, l'entrée "0, Non" a la valeur 131. L'entrée "0, Oui" a une valeur de 50, et ainsi de suite.

Les entrées du DataFrame ne sont pas limitées aux entiers. Par exemple, voici un DataFrame dont les valeurs sont des chaînes de caractères :

In [63]:
df = pd.DataFrame( {'Bob': ['J\'ai aimé.', 'C\'était horrible.'], 
                    'Sue': ['Assez bien.', 'Fade.']
                        })
df

Unnamed: 0,Bob,Sue
0,J'ai aimé.,Assez bien.
1,C'était horrible.,Fade.


In [64]:
type(df)

pandas.core.frame.DataFrame

Nous utilisons la classe `pd.DataFrame()` pour générer ces objets DataFrame. La syntaxe pour en déclarer un nouveau est un dictionnaire dont les clés sont les noms des colonnes (`Bob` et `Sue` dans cet exemple), et dont les valeurs sont une liste d'entrées. 

C'est la manière standard de construire un nouveau DataFrame, et celle que vous rencontrerez le plus souvent.

Le **constructeur dictionnaire-liste** attribue des valeurs aux *étiquettes de colonne*, mais utilise simplement un compte ascendant à partir de 0 (0, 1, 2, 3, ...) pour les *étiquettes de ligne*(les indices en fait). Parfois, cela convient, mais souvent, nous voudrons attribuer nous-mêmes ces étiquettes.

La liste des étiquettes de ligne utilisées dans un DataFrame est appelée **index**. Nous pouvons leur attribuer des valeurs en utilisant un paramètre `index` dans notre constructeur :

In [65]:
pd.DataFrame({'Bob': ['J\'ai aimé.', 'C\'était horrible.'], 
              'Sue': ['Assez bien.', 'Fade.']},
             index=['Produit A', 'Produit B'])

Unnamed: 0,Bob,Sue
Produit A,J'ai aimé.,Assez bien.
Produit B,C'était horrible.,Fade.


- **Series:** une Series, en revanche, est une séquence de valeurs de données. Si un DataFrame est une table, une Series est une liste. Et en fait, vous pouvez en créer une avec rien de plus qu'une liste :


<figure style="padding: 1em;">
    <img src="img/series-and-dataframe.png" width="500" height="300" alt="">
</figure>

In [66]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

**Une Series est, en essence, une seule colonne d'un DataFrame.** 

Vous pouvez donc attribuer des étiquettes de ligne à la Series de la même manière qu'avant, en utilisant un paramètre `index`. Cependant, une Series n'a pas de nom de colonne, elle n'a qu'un seul `nom` général :

In [67]:
pd.Series([30, 35, 40], 
          index=['Ventes 2015', 'Ventes 2016', 'Ventes 2017'], 
          name='Produit A'
          )

Ventes 2015    30
Ventes 2016    35
Ventes 2017    40
Name: Produit A, dtype: int64

La Series et le DataFrame sont intimement liés. **Il est utile de penser qu'un DataFrame est en réalité juste un ensemble de Series "collées ensemble".**

#### **2. Lecture de données à partir d'un fichier**

La possibilité de créer un DataFrame ou une Series à la main est pratique. Mais, la plupart du temps, nous ne créerons pas réellement nos propres données à la main. Au lieu de cela, nous travaillerons avec des données déjà existantes.

Les données peuvent être stockées sous différentes formes et formats. 

De loin, **le plus basique d'entre eux est le simple fichier CSV**. Lorsque vous ouvrez un fichier CSV, vous obtenez quelque chose qui ressemble à ceci :

```
Produit A,Produit B,Produit C,
30,21,9,
35,34,1,
41,11,11
```

> **Un fichier CSV est donc une table de valeurs séparées par des virgules. D'où le nom : "Comma-Separated Values" ou CSV.**

<figure style="padding: 1em;">
    <img src="img/csv-file.png" width="500" height="300" alt="">
</figure>

Mettons maintenant de côté nos jeux de données jouets et voyons à quoi ressemble un vrai jeu de données lorsqu'on le lit dans un DataFrame. Nous utiliserons la fonction `pd.read_csv()` pour lire les données dans un DataFrame:

In [68]:
chemin_dataset = "data/melb_data.csv"
melb_data = pd.read_csv(chemin_dataset)

Nous pouvons utiliser l'attribut `shape` pour vérifier la taille du DataFrame résultant :

In [69]:
melb_data.shape

(13580, 22)

Notre nouveau DataFrame a donc 13580 enregistrements répartis sur 22 colonnes différentes.

Nous pouvons examiner le contenu du DataFrame résultant en utilisant la commande `head()`, qui prend les cinq premières lignes :

In [70]:
melb_data.head(10)

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0
5,5,Abbotsford,129 Charles St,2,h,941000.0,S,Jellis,7/05/2016,2.5,...,1.0,0.0,181.0,,,Yarra,-37.8041,144.9953,Northern Metropolitan,4019.0
6,6,Abbotsford,124 Yarra St,3,h,1876000.0,S,Nelson,7/05/2016,2.5,...,2.0,0.0,245.0,210.0,1910.0,Yarra,-37.8024,144.9993,Northern Metropolitan,4019.0
7,7,Abbotsford,98 Charles St,2,h,1636000.0,S,Nelson,8/10/2016,2.5,...,1.0,2.0,256.0,107.0,1890.0,Yarra,-37.806,144.9954,Northern Metropolitan,4019.0
8,8,Abbotsford,6/241 Nicholson St,1,u,300000.0,S,Biggin,8/10/2016,2.5,...,1.0,1.0,0.0,,,Yarra,-37.8008,144.9973,Northern Metropolitan,4019.0
9,9,Abbotsford,10 Valiant St,2,h,1097000.0,S,Biggin,8/10/2016,2.5,...,1.0,2.0,220.0,75.0,1900.0,Yarra,-37.801,144.9989,Northern Metropolitan,4019.0


In [71]:
melb_data.tail(3)

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
13577,13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,...,2.0,4.0,436.0,,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0
13578,13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
13579,13579,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0


La fonction `pd.read_csv()` est bien dotée, avec plus de 30 paramètres optionnels que vous pouvez spécifier. Par exemple, vous pouvez voir dans ce jeu de données que le fichier CSV a un index intégré, que pandas n'a pas détecté automatiquement. Pour que pandas utilise cette colonne pour l'index (au lieu d'en créer un nouveau à partir de zéro), nous pouvons spécifier un `index_col`.

In [72]:
melb_data = pd.read_csv(chemin_dataset, index_col=0)
melb_data.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,2.0,1.0,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


# **II. Indexation, slicing et assignement**
Sélectionner des valeurs spécifiques d'un DataFrame ou d'une Series pandas pour travailler dessus est une **étape implicite dans presque toutes les opérations de d'analyse de données que vous effectuerez.** 

Donc, l'une des premières choses que vous devez apprendre en travaillant avec des données en Python est comment sélectionner rapidement et efficacement les points de données qui vous concernent.

##### **1. Accesseurs natifs**

Les objets Python natifs fournissent de bons moyens d'indexation des données. **Pandas reprend pratiquemment toutes ces fonctionnalités, ce qui aide à démarrer facilement.**

Considérons le meme DataFrame :

In [73]:
melb_data.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,2.0,1.0,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


En Python, nous pouvons accéder à la propriété d'un objet en y accédant comme à un attribut. Un objet `livre`, par exemple, pourrait avoir une propriété `titre`, à laquelle nous pouvons accéder en appelant `livre.titre`. 

Les colonnes dans un DataFrame pandas fonctionnent de la même manière. Ainsi, pour accéder à la propriété `Address` de `melb_data`, nous pouvons utiliser :

In [74]:
melb_data.Address

0            85 Turner St
1         25 Bloomburg St
2            5 Charles St
3        40 Federation La
4             55a Park St
               ...       
13575        12 Strada Cr
13576       77 Merrett Dr
13577         83 Power St
13578        96 Verdon St
13579          6 Agnes St
Name: Address, Length: 13580, dtype: object

Si nous avons un dictionnaire Python, nous pouvons accéder à ses valeurs en utilisant l'**opérateur d'indexation (`[]`)**. Nous pouvons faire de même avec les colonnes d'un DataFrame :

In [75]:
melb_data['Address']

0            85 Turner St
1         25 Bloomburg St
2            5 Charles St
3        40 Federation La
4             55a Park St
               ...       
13575        12 Strada Cr
13576       77 Merrett Dr
13577         83 Power St
13578        96 Verdon St
13579          6 Agnes St
Name: Address, Length: 13580, dtype: object

Ce sont les deux façons de sélectionner une Series spécifique d'un DataFrame. Aucune d'elles n'est plus ou moins syntaxiquement valide que l'autre, mais **l'opérateur d'indexation `[]` a l'avantage de pouvoir gérer les noms de colonnes avec des caractères réservés** (par exemple, si nous avions une colonne `postal  code`, `melb_data.postal  code` ne fonctionnerait pas).

Une Series pandas ne ressemble-t-elle pas à un dictionnaire sophistiqué ? C'en est essentiellement un, donc il n'est pas surprenant que, pour extraire une valeur spécifique, nous n'ayons qu'à utiliser l'opérateur d'indexation `[]` une fois de plus :

In [76]:
melb_data['Address'][0]

'85 Turner St'

##### **2. Indexation dans pandas**

L'opérateur d'indexation et la sélection d'attributs sont intéressants parce qu'ils fonctionnent de la même manière que dans le reste de l'écosystème Python. En tant que novice, cela les rend faciles à apprendre et à utiliser. 

**Cependant, pandas a ses propres opérateurs d'accès (ou d'indexation), `loc` et `iloc` (2 paradigmes différent mais ayant le meme objectif). Pour des opérations plus avancées, ce sont ceux que vous êtes censé utiliser.**

- **Sélection basée sur l'index:** sélectionner des données en fonction de leur position numérique dans les données. `iloc` suit ce paradigme.

Pour **sélectionner la première ligne de données dans un DataFrame**, nous pouvons utiliser :

In [77]:
melb_data.iloc[0]

Suburb                      Abbotsford
Address                   85 Turner St
Rooms                                2
Type                                 h
Price                        1480000.0
Method                               S
SellerG                         Biggin
Date                         3/12/2016
Distance                           2.5
Postcode                        3067.0
Bedroom2                           2.0
Bathroom                           1.0
Car                                1.0
Landsize                         202.0
BuildingArea                       NaN
YearBuilt                          NaN
CouncilArea                      Yarra
Lattitude                     -37.7996
Longtitude                    144.9984
Regionname       Northern Metropolitan
Propertycount                   4019.0
Name: 0, dtype: object

**Les opérateurs `loc` et `iloc` sont d'abord pour les lignes, ensuite pour les colonnes.**

Cela signifie qu'il est marginalement plus facile de récupérer des lignes et marginalement plus difficile de récupérer des colonnes. Pour obtenir une colonne avec `iloc`, nous pouvons faire ce qui suit :

In [78]:
melb_data.iloc[:, 1]

0            85 Turner St
1         25 Bloomburg St
2            5 Charles St
3        40 Federation La
4             55a Park St
               ...       
13575        12 Strada Cr
13576       77 Merrett Dr
13577         83 Power St
13578        96 Verdon St
13579          6 Agnes St
Name: Address, Length: 13580, dtype: object

**À lui seul, l'opérateur `:` (de Python natif) signifie "tout".** Lorsqu'il est combiné avec d'autres sélecteurs, cependant, il peut être utilisé pour indiquer une plage de valeurs. Par exemple, pour sélectionner la colonne `Address` des **première, deuxième et troisième lignes**, nous ferions :

In [79]:
melb_data.iloc[:3, 1]

0       85 Turner St
1    25 Bloomburg St
2       5 Charles St
Name: Address, dtype: object

Ou, pour sélectionner uniquement les **deuxième et troisième entrées**, nous ferions :

In [80]:
melb_data.iloc[1:3, 1]

1    25 Bloomburg St
2       5 Charles St
Name: Address, dtype: object

Il est également possible de **passer une liste** :

In [81]:
melb_data.iloc[[0, 5000, 8500], 1]

0            85 Turner St
5000         21 George St
8500    106 Summerhill Rd
Name: Address, dtype: object

**Enfin, il est utile de savoir que les nombres négatifs peuvent être utilisés dans la sélection.** Cela commencera à compter à partir de la _fin_ des valeurs. Voici par exemple les cinq derniers éléments du dataset :

In [82]:
melb_data.iloc[-3:]

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,3016.0,...,2.0,4.0,436.0,,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0
13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,3016.0,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
13579,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,3013.0,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0


- **Sélection basée sur les labels:** le deuxième paradigme pour la sélection d'attributs est celui suivi par l'opérateur `loc`. Dans ce paradigme, c'est la valeur de l'index des données, et non sa position, qui compte.

Par exemple, pour obtenir la première entrée de `melb_data`, nous ferions maintenant ce qui suit :

In [83]:
melb_data.loc[0, 'Address']

'85 Turner St'

`iloc` est conceptuellement plus simple que `loc` car il ignore les indices du dataset. 

    -  Lorsque nous utilisons `iloc`, nous traitons le dataset comme une grande matrice (une liste de listes), dans laquelle nous devons indexer par position. 

    - `loc`, en revanche, utilise les informations dans les indices pour faire son travail. Puisque votre dataset a généralement des indices significatifs, il est généralement plus facile de faire les choses en utilisant `loc`. 

Par exemple, voici une opération beaucoup plus facile à faire en utilisant `loc` :

In [84]:
melb_data.loc[:, ['Landsize', 'Car', 'Price']]

Unnamed: 0,Landsize,Car,Price
0,202.0,1.0,1480000.0
1,156.0,0.0,1035000.0
2,134.0,0.0,1465000.0
3,94.0,1.0,850000.0
4,120.0,2.0,1600000.0
...,...,...,...
13575,652.0,2.0,1245000.0
13576,333.0,2.0,1031000.0
13577,436.0,4.0,1170000.0
13578,866.0,5.0,2500000.0


In [85]:
melb_data.loc[:, "YearBuilt":"Regionname"]

Unnamed: 0,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname
0,,Yarra,-37.79960,144.99840,Northern Metropolitan
1,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan
2,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan
3,,Yarra,-37.79690,144.99690,Northern Metropolitan
4,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan
...,...,...,...,...,...
13575,1981.0,,-37.90562,145.16761,South-Eastern Metropolitan
13576,1995.0,,-37.85927,144.87904,Western Metropolitan
13577,1997.0,,-37.85274,144.88738,Western Metropolitan
13578,1920.0,,-37.85908,144.89299,Western Metropolitan


##### **3. Choisir entre `loc` et `iloc`**

Lorsque vous choisissez ou passez de `loc` à `iloc`, il y a un "piège" à garder à l'esprit, c'est que les deux méthodes utilisent des schémas d'indexation légèrement différents.

`iloc` utilise le schéma d'indexation de la bibliothèque standard de Python, où le premier élément de la plage est inclus et le dernier est exclu. Donc `0:10` sélectionnera les entrées `0,...,9`. `loc`, en revanche, indexe de manière inclusive. Donc `0:10` sélectionnera les entrées `0,...,10`.

Pourquoi ce changement ? Rappelez-vous que `loc` peut indexer n'importe quel type de la bibliothèque standard : des chaînes de caractères, par exemple. Si nous avons un DataFrame avec des valeurs d'index `Pommes, ..., Patates, ...`, et que nous voulons sélectionner "tous les choix de fruits alphabétiques entre Pommes et Patates", il est beaucoup plus pratique d'indexer `df.loc['Pommes':'Patates']` que d'indexer quelque chose comme `df.loc['Pommes', 'Patateu']` (`u` venant après `s` dans l'alphabet).

Cela est particulièrement déroutant lorsque l'index du DataFrame est une simple liste numérique, par exemple `0,...,1000`. Dans ce cas, `df.iloc[0:1000]` renverra 1000 entrées, tandis que `df.loc[0:1000]` en renverra 1001 ! Pour obtenir 1000 éléments en utilisant `loc`, vous devrez descendre d'un et demander `df.loc[0:999]`.

Sinon, les sémantiques de l'utilisation de `loc` sont les mêmes que celles de `iloc`.

##### **3. Manipulation de l'index**

La sélection basée sur les labels tire sa puissance des labels dans l'index. Critiquement, l'index que nous utilisons n'est pas immuable. Nous pouvons manipuler l'index de la manière que nous voulons.

La méthode `set_index()` peut être utilisée pour faire le travail. Voici ce qui se passe lorsque nous définissons l'index sur le champ `title` :

In [86]:
melb_data.set_index("Address")

Unnamed: 0_level_0,Suburb,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
Address,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
85 Turner St,Abbotsford,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,2.0,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
25 Bloomburg St,Abbotsford,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,2.0,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
5 Charles St,Abbotsford,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
40 Federation La,Abbotsford,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
55a Park St,Abbotsford,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,3.0,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12 Strada Cr,Wheelers Hill,4,h,1245000.0,S,Barry,26/08/2017,16.7,3150.0,4.0,2.0,2.0,652.0,,1981.0,,-37.90562,145.16761,South-Eastern Metropolitan,7392.0
77 Merrett Dr,Williamstown,3,h,1031000.0,SP,Williams,26/08/2017,6.8,3016.0,3.0,2.0,2.0,333.0,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0
83 Power St,Williamstown,3,h,1170000.0,S,Raine,26/08/2017,6.8,3016.0,3.0,2.0,4.0,436.0,,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0
96 Verdon St,Williamstown,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,3016.0,4.0,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0


Cela est utile si vous pouvez trouver un index pour le dataset qui est meilleur que celui actuel.

##### **4. Sélection conditionnelle**

Jusqu'à présent, nous avons indexé diverses parties de données en utilisant les propriétés structurelles du DataFrame lui-même. Pour faire des choses *intéressantes* avec les données, **cependant, nous devons souvent poser des questions basées sur des conditions.**

Par exemple, supposons que nous nous intéressons spécifiquement aux appartements avec un prix supérieur à la moyenne.

Nous pouvons commencer par vérifier si chaque appartement est de la région 'Western Metropolitan' ou non:

In [87]:
melb_data.Regionname == 'Western Metropolitan'

0        False
1        False
2        False
3        False
4        False
         ...  
13575    False
13576     True
13577     True
13578     True
13579     True
Name: Regionname, Length: 13580, dtype: bool

Cette opération a produit une Series de booléens `True`/`False` basée sur le `Regionname` de chaque enregistrement. Ce résultat peut ensuite être utilisé dans `loc` pour sélectionner les données pertinentes :

In [88]:
melb_data.loc[melb_data.Regionname == 'Western Metropolitan']

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
38,Airport West,154 Halsey Rd,3,t,840000.0,PI,Nelson,3/09/2016,13.5,3042.0,...,2.0,1.0,303.0,225.0,2016.0,Moonee Valley,-37.71800,144.87800,Western Metropolitan,3464.0
39,Airport West,50 Bedford St,3,h,730000.0,VB,Nelson,3/12/2016,13.5,3042.0,...,2.0,1.0,0.0,145.0,1965.0,Moonee Valley,-37.72030,144.87550,Western Metropolitan,3464.0
40,Airport West,50 Bedford St,3,h,770000.0,SP,Nelson,4/03/2017,13.5,3042.0,...,2.0,1.0,0.0,145.0,1965.0,Moonee Valley,-37.72030,144.87550,Western Metropolitan,3464.0
41,Airport West,23 Hart St,2,h,603000.0,S,Nelson,4/03/2017,13.5,3042.0,...,1.0,1.0,272.0,84.0,1950.0,Moonee Valley,-37.72940,144.88800,Western Metropolitan,3464.0
42,Airport West,1/80 Hawker St,3,t,700000.0,S,Brad,4/03/2017,13.5,3042.0,...,2.0,2.0,239.0,134.0,2009.0,Moonee Valley,-37.72180,144.88370,Western Metropolitan,3464.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13573,Werribee,5 Nuragi Ct,4,h,635000.0,S,hockingstuart,26/08/2017,14.7,3030.0,...,2.0,1.0,662.0,172.0,1980.0,,-37.89327,144.64789,Western Metropolitan,16166.0
13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,3016.0,...,2.0,2.0,333.0,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0
13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,3016.0,...,2.0,4.0,436.0,,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0
13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,3016.0,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0


In [89]:
#melb_data.Price.mean()

Ce DataFrame a environ 2948 lignes. L'original en avait environ 13580.   
**Cela signifie qu'environ 21% des appartement sont situés dans la région 'Western Metropolitan'.**

Nous voulions également savoir lesquels ont un prix inférieur à la moyenne. Supposons dans un 1er temps pour simplifier que la moyenne est de 1.000.000

Nous pouvons utiliser l'**esperluette (`&`) pour combiner les deux questions** :

In [90]:
melb_data.loc[(melb_data.Regionname == 'Western Metropolitan') & (melb_data.Price <= 1000000)]

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
38,Airport West,154 Halsey Rd,3,t,840000.0,PI,Nelson,3/09/2016,13.5,3042.0,...,2.0,1.0,303.0,225.0,2016.0,Moonee Valley,-37.71800,144.87800,Western Metropolitan,3464.0
39,Airport West,50 Bedford St,3,h,730000.0,VB,Nelson,3/12/2016,13.5,3042.0,...,2.0,1.0,0.0,145.0,1965.0,Moonee Valley,-37.72030,144.87550,Western Metropolitan,3464.0
40,Airport West,50 Bedford St,3,h,770000.0,SP,Nelson,4/03/2017,13.5,3042.0,...,2.0,1.0,0.0,145.0,1965.0,Moonee Valley,-37.72030,144.87550,Western Metropolitan,3464.0
41,Airport West,23 Hart St,2,h,603000.0,S,Nelson,4/03/2017,13.5,3042.0,...,1.0,1.0,272.0,84.0,1950.0,Moonee Valley,-37.72940,144.88800,Western Metropolitan,3464.0
42,Airport West,1/80 Hawker St,3,t,700000.0,S,Brad,4/03/2017,13.5,3042.0,...,2.0,2.0,239.0,134.0,2009.0,Moonee Valley,-37.72180,144.88370,Western Metropolitan,3464.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13551,Sunshine West,24 Hilma St,4,h,682000.0,S,Barry,26/08/2017,10.5,3020.0,...,1.0,2.0,534.0,,1970.0,,-37.79161,144.80461,Western Metropolitan,6763.0
13552,Sunshine West,16 Mudford St,3,h,640000.0,S,Bells,26/08/2017,10.5,3020.0,...,1.0,1.0,616.0,,,,-37.79798,144.81529,Western Metropolitan,6763.0
13556,Tarneit,27 McMahon Cr,3,h,350000.0,VB,S&L,26/08/2017,18.4,3029.0,...,1.0,1.0,466.0,103.0,2003.0,,-37.86744,144.65609,Western Metropolitan,10160.0
13564,Tullamarine,7 Londrew Ct,3,h,540000.0,S,Barry,26/08/2017,12.9,3043.0,...,1.0,1.0,607.0,102.0,1970.0,,-37.69423,144.88002,Western Metropolitan,3296.0


Supposons que nous achèterons **n'importe quel appartement situé en 'Western Metropolitan' _ou_ dont le prix est en-dessous de la moyenne.** 

Pour cela, nous utilisons une **barre verticale (`|`)** :

In [91]:
melb_data.loc[(melb_data.Regionname == 'Western Metropolitan') | (melb_data.Price <= 1000000) ]

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
5,Abbotsford,129 Charles St,2,h,941000.0,S,Jellis,7/05/2016,2.5,3067.0,...,1.0,0.0,181.0,,,Yarra,-37.80410,144.99530,Northern Metropolitan,4019.0
8,Abbotsford,6/241 Nicholson St,1,u,300000.0,S,Biggin,8/10/2016,2.5,3067.0,...,1.0,1.0,0.0,,,Yarra,-37.80080,144.99730,Northern Metropolitan,4019.0
10,Abbotsford,411/8 Grosvenor St,2,u,700000.0,VB,Jellis,12/11/2016,2.5,3067.0,...,2.0,1.0,0.0,,,Yarra,-37.81100,145.00670,Northern Metropolitan,4019.0
12,Abbotsford,123/56 Nicholson St,2,u,750000.0,S,Biggin,12/11/2016,2.5,3067.0,...,2.0,1.0,0.0,94.0,2009.0,Yarra,-37.80780,144.99650,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13574,Westmeadows,9 Black St,3,h,582000.0,S,Red,26/08/2017,16.5,3049.0,...,2.0,2.0,256.0,,,,-37.67917,144.89390,Northern Metropolitan,2474.0
13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,3016.0,...,2.0,2.0,333.0,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0
13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,3016.0,...,2.0,4.0,436.0,,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0
13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,3016.0,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0


Pandas propose quelques sélecteurs conditionnels intégrés, dont nous mettrons en avant deux ici.

**Le premier est `isin`. `isin` vous permet de sélectionner des données dont la valeur "est dans" une liste de valeurs.**

Par exemple, voici comment nous pouvons l'utiliser:

In [92]:
melb_data.loc[melb_data.Regionname.isin(['Western Metropolitan', 'Northern Metropolitan'])]

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13574,Westmeadows,9 Black St,3,h,582000.0,S,Red,26/08/2017,16.5,3049.0,...,2.0,2.0,256.0,,,,-37.67917,144.89390,Northern Metropolitan,2474.0
13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,3016.0,...,2.0,2.0,333.0,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0
13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,3016.0,...,2.0,4.0,436.0,,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0
13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,3016.0,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0


**Le second est `isnull` (et son compagnon `notnull`).** 

Ces méthodes vous permettent de mettre en évidence les valeurs qui sont (ou ne sont pas) vides (`NaN`). 

Par exemple, pour filtrer les appartements ne possédant pas de prix dans le dataset, voici ce que nous ferions :

In [93]:
#melb_data.loc[melb_data.BuildingArea.isnull()]

melb_data.loc[melb_data.BuildingArea.notnull()]

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
6,Abbotsford,124 Yarra St,3,h,1876000.0,S,Nelson,7/05/2016,2.5,3067.0,...,2.0,0.0,245.0,210.0,1910.0,Yarra,-37.80240,144.99930,Northern Metropolitan,4019.0
7,Abbotsford,98 Charles St,2,h,1636000.0,S,Nelson,8/10/2016,2.5,3067.0,...,1.0,2.0,256.0,107.0,1890.0,Yarra,-37.80600,144.99540,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13572,Watsonia,76 Kenmare St,2,h,650000.0,PI,Morrison,26/08/2017,14.5,3087.0,...,1.0,1.0,210.0,79.0,2006.0,,-37.70657,145.07878,Northern Metropolitan,2329.0
13573,Werribee,5 Nuragi Ct,4,h,635000.0,S,hockingstuart,26/08/2017,14.7,3030.0,...,2.0,1.0,662.0,172.0,1980.0,,-37.89327,144.64789,Western Metropolitan,16166.0
13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,3016.0,...,2.0,2.0,333.0,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0
13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,3016.0,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0


##### **5. Assignation de données**

Aller dans l'autre sens, assigner des données à un DataFrame est facile. Vous pouvez assigner soit une valeur constante :

In [94]:
melb_data['Continent'] = 'America'
melb_data['Continent']

0        America
1        America
2        America
3        America
4        America
          ...   
13575    America
13576    America
13577    America
13578    America
13579    America
Name: Continent, Length: 13580, dtype: object

Ou avec un itérable de valeurs :

In [95]:
melb_data['index_backwards'] = range(len(melb_data), 0, -1)
melb_data['index_backwards']

0        13580
1        13579
2        13578
3        13577
4        13576
         ...  
13575        5
13576        4
13577        3
13578        2
13579        1
Name: index_backwards, Length: 13580, dtype: int64

In [96]:
melb_data.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Continent,index_backwards
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0,America,13580
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0,America,13579
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0,America,13578
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0,America,13577
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0,America,13576


# **III. Méthodes descriptives dans Pandas**

#### **1. Fonctions de résumé**

Pandas fournit de nombreuses "fonctions de résumé" simples qui restructurent les données de manière utile. 

Par exemple, considérez la méthode `describe()` :

In [97]:
melb_data.Price.describe()

count    1.358000e+04
mean     1.075684e+06
std      6.393107e+05
min      8.500000e+04
25%      6.500000e+05
50%      9.030000e+05
75%      1.330000e+06
max      9.000000e+06
Name: Price, dtype: float64

**Cette méthode génère un résumé de haut niveau des attributs de la colonne donnée.** 

Elle est sensible au type, ce qui signifie que sa sortie change en fonction du type de données de l'entrée. 

La sortie ci-dessus n'a de sens que pour les données numériques ; pour les données textuelles, voici ce que nous obtenons :

In [98]:
melb_data.Regionname.describe()

count                     13580
unique                        8
top       Southern Metropolitan
freq                       4695
Name: Regionname, dtype: object

In [99]:
melb_data.describe()

Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount,index_backwards
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13518.0,13580.0,7130.0,8205.0,13580.0,13580.0,13580.0,13580.0
mean,2.937997,1075684.0,10.137776,3105.301915,2.914728,1.534242,1.610075,558.416127,151.96765,1964.684217,-37.809203,144.995216,7454.417378,6790.5
std,0.955748,639310.7,5.868725,90.676964,0.965921,0.691712,0.962634,3990.669241,541.014538,37.273762,0.07926,0.103916,4378.581772,3920.352663
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0,1.0
25%,2.0,650000.0,6.1,3044.0,2.0,1.0,1.0,177.0,93.0,1940.0,-37.856822,144.9296,4380.0,3395.75
50%,3.0,903000.0,9.2,3084.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.802355,145.0001,6555.0,6790.5
75%,3.0,1330000.0,13.0,3148.0,3.0,2.0,2.0,651.0,174.0,1999.0,-37.7564,145.058305,10331.0,10185.25
max,10.0,9000000.0,48.1,3977.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0,13580.0


**Si vous souhaitez obtenir une statistique de résumé simple particulière sur une colonne d'un DataFrame ou d'une Series, il y a généralement une fonction pandas utile pour cela.**

Par exemple, pour voir la moyenne des points attribués (par exemple, à quel point un vin moyennement noté se comporte), nous pouvons utiliser la fonction `mean()` :

In [100]:
melb_data.Price.mean()

np.float64(1075684.079455081)

Pour voir une liste de valeurs uniques, nous pouvons utiliser la fonction `unique()` :

In [101]:
melb_data.Regionname.unique()

array(['Northern Metropolitan', 'Western Metropolitan',
       'Southern Metropolitan', 'Eastern Metropolitan',
       'South-Eastern Metropolitan', 'Eastern Victoria',
       'Northern Victoria', 'Western Victoria'], dtype=object)


Pour voir une liste de valeurs uniques _et_ à quelle fréquence elles apparaissent dans le dataset, nous pouvons utiliser la méthode `value_counts()` :

In [102]:
melb_data.Regionname.value_counts(ascending=False)

Regionname
Southern Metropolitan         4695
Northern Metropolitan         3890
Western Metropolitan          2948
Eastern Metropolitan          1471
South-Eastern Metropolitan     450
Eastern Victoria                53
Northern Victoria               41
Western Victoria                32
Name: count, dtype: int64

##### **2. Maps**

Un **map** est un terme emprunté aux mathématiques **pour une fonction qui prend un ensemble de valeurs et les "mappe" vers un autre ensemble de valeurs.** 

En Data Science, on as souvent besoin de **créer de nouvelles représentations à partir de données existantes ou de transformer les données** du format dans lequel elles se trouvent maintenant au format souhaité plus tard. Les maps gèrent ce travail, ce qui les rend extrêmement importantes pour accomplir votre travail !

Il y a deux méthodes de mapping que vous utiliserez souvent.

- **[`map()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.map.html) est la première, et la plus simple.**

In [103]:
price_mean = melb_data.Price.mean()
melb_data.Price.map(lambda p: p - price_mean)

0        4.043159e+05
1       -4.068408e+04
2        3.893159e+05
3       -2.256841e+05
4        5.243159e+05
             ...     
13575    1.693159e+05
13576   -4.468408e+04
13577    9.431592e+04
13578    1.424316e+06
13579    2.093159e+05
Name: Price, Length: 13580, dtype: float64

La fonction que vous passez à `map()` doit s'attendre à une seule valeur de la Series (une valeur de point, dans l'exemple ci-dessus) et renvoyer une version transformée de cette valeur. 

`map()` renvoie une nouvelle Series où toutes les valeurs ont été transformées par votre fonction.


- **[`apply()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.apply.html) est la méthode équivalente si nous voulons transformer un DataFrame entier en appelant une méthode personnalisée sur chaque ligne.**

In [104]:
def remean_points(row):
    row.Price = row.Price - price_mean
    return row

wine_reviews = melb_data.apply(remean_points, axis='columns')

Si nous avions appelé `melb_data.apply()` avec `axis='index'`, alors au lieu de passer une fonction pour transformer chaque ligne, nous devrions donner une fonction pour transformer chaque *colonne*.

Notez que `map()` et `apply()` renvoient respectivement de nouvelles Series et DataFrames transformées. Ils ne modifient pas les données d'origine sur lesquelles ils sont appelés. Si nous regardons la première ligne de `melb_data`, nous pouvons voir qu'elle a toujours sa valeur `Price` d'origine.

In [105]:
melb_data.head(1)

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Continent,index_backwards
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0,America,13580


Pandas propose de nombreuses opérations de mapping courantes en tant que fonctionnalités intégrées. Par exemple, voici un moyen plus rapide de ramener notre colonne de points à la moyenne :

In [106]:
price_mean = melb_data.Price.mean()
melb_data.Price - price_mean

0        4.043159e+05
1       -4.068408e+04
2        3.893159e+05
3       -2.256841e+05
4        5.243159e+05
             ...     
13575    1.693159e+05
13576   -4.468408e+04
13577    9.431592e+04
13578    1.424316e+06
13579    2.093159e+05
Name: Price, Length: 13580, dtype: float64


Dans ce code, nous effectuons une opération entre de nombreuses valeurs à gauche (tout dans la Series) et une seule valeur à droite (la valeur moyenne). Pandas regarde cette expression et comprend que nous devons soustraire cette valeur moyenne de chaque valeur du dataset.

Pandas comprendra également quoi faire si nous effectuons ces opérations entre Series de longueur égale. Par exemple, un moyen facile de combiner les informations de pays et de région dans le dataset serait de faire ce qui suit :

In [107]:
melb_data["continent-region"] = melb_data.Continent + " - " + melb_data.Regionname
melb_data

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Continent,index_backwards,continent-region
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0,America,13580,America - Northern Metropolitan
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0,America,13579,America - Northern Metropolitan
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0,America,13578,America - Northern Metropolitan
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0,America,13577,America - Northern Metropolitan
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0,America,13576,America - Northern Metropolitan
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13575,Wheelers Hill,12 Strada Cr,4,h,1245000.0,S,Barry,26/08/2017,16.7,3150.0,...,,1981.0,,-37.90562,145.16761,South-Eastern Metropolitan,7392.0,America,5,America - South-Eastern Metropolitan
13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,3016.0,...,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0,America,4,America - Western Metropolitan
13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,3016.0,...,,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0,America,3,America - Western Metropolitan
13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,3016.0,...,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0,America,2,America - Western Metropolitan


Ces opérateurs sont plus rapides que `map()` ou `apply()` car ils utilisent des accélérations intégrées à pandas. Tous les opérateurs Python standard (`>`, `<`, `==`, etc.) fonctionnent de cette manière.

Cependant, ils ne sont pas aussi flexibles que `map()` ou `apply()`, qui peuvent faire des choses plus avancées, comme appliquer une logique conditionnelle, ce qui ne peut pas être fait avec des opérations d'addition et de soustraction seules.

# **IV Types de données Pandas**

##### **1. Dtypes**

Le type de données pour une colonne dans un DataFrame ou une Series est appelé **dtype**.

Vous pouvez utiliser la propriété `dtype` pour obtenir le type d'une colonne spécifique. Par exemple, nous pouvons obtenir le dtype de la colonne `price` dans le DataFrame `reviews` :

In [108]:
melb_data.Price.dtype

dtype('float64')

Alternativement, la propriété `dtypes` renvoie le `dtype` de _chaque_ colonne du DataFrame :

In [109]:
melb_data.dtypes

Suburb               object
Address              object
Rooms                 int64
Type                 object
Price               float64
Method               object
SellerG              object
Date                 object
Distance            float64
Postcode            float64
Bedroom2            float64
Bathroom            float64
Car                 float64
Landsize            float64
BuildingArea        float64
YearBuilt           float64
CouncilArea          object
Lattitude           float64
Longtitude          float64
Regionname           object
Propertycount       float64
Continent            object
index_backwards       int64
continent-region     object
dtype: object

Les types de données nous indiquent quelque chose sur la façon dont pandas stocke les données en interne. 

- `float64` signifie qu'il utilise un nombre à virgule flottante 64 bits ; 
- `int64` signifie un entier de taille similaire, et ainsi de suite.
- Une particularité à garder à l'esprit (et affichée très clairement ici) est que les colonnes constituées entièrement de chaînes de caractères n'ont pas leur propre type ; elles sont plutôt attribuées au type `object`.


Il est possible de convertir une colonne d'un type à un autre lorsqu'une telle conversion a du sens en utilisant la fonction `astype()`. 

Par exemple, nous pouvons transformer la colonne `points` de son type de données `int64` existant en un type de données `float64` :

In [110]:
melb_data.Price.astype('int64')

0        1480000
1        1035000
2        1465000
3         850000
4        1600000
          ...   
13575    1245000
13576    1031000
13577    1170000
13578    2500000
13579    1285000
Name: Price, Length: 13580, dtype: int64

Un DataFrame ou une Series index a aussi son propre `dtype` :

In [111]:
melb_data.index.dtype

dtype('int64')

##### **2. Données manquantes**

**Les entrées manquant de valeurs reçoivent la valeur `NaN`, abréviation de "Not a Number".** Pour des raisons techniques, ces valeurs `NaN` sont toujours de type `float64`.

Pandas fournit quelques méthodes spécifiques aux données manquantes. 

Pour sélectionner les entrées `NaN`, vous pouvez utiliser `pd.isnull()` (ou son compagnon `pd.notnull()`). Cela doit être utilisé de cette manière :

In [112]:
melb_data[pd.isnull(melb_data.Price)]

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Continent,index_backwards,continent-region


Remplacer les valeurs manquantes est une opération courante. Pandas fournit une méthode très pratique pour ce problème : `fillna()`. `fillna()` propose quelques stratégies différentes pour atténuer ces données. Par exemple, nous pouvons simplement remplacer chaque `NaN` par `"Unknown"` :

In [113]:
melb_data.Regionname.fillna("Unknown")

0             Northern Metropolitan
1             Northern Metropolitan
2             Northern Metropolitan
3             Northern Metropolitan
4             Northern Metropolitan
                    ...            
13575    South-Eastern Metropolitan
13576          Western Metropolitan
13577          Western Metropolitan
13578          Western Metropolitan
13579          Western Metropolitan
Name: Regionname, Length: 13580, dtype: object

Ou nous pourrions remplir chaque valeur manquante avec la première valeur non nulle qui apparaît après l'enregistrement donné dans la base de données. 

**Cela est connu sous le nom de stratégie de remplissage par défaut (backfill).**

In [114]:
melb_data.fillna(method='bfill')

  melb_data.fillna(method='bfill')


Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Continent,index_backwards,continent-region
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,79.0,1900.0,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0,America,13580,America - Northern Metropolitan
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0,America,13579,America - Northern Metropolitan
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0,America,13578,America - Northern Metropolitan
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,142.0,2014.0,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0,America,13577,America - Northern Metropolitan
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0,America,13576,America - Northern Metropolitan
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13575,Wheelers Hill,12 Strada Cr,4,h,1245000.0,S,Barry,26/08/2017,16.7,3150.0,...,133.0,1981.0,,-37.90562,145.16761,South-Eastern Metropolitan,7392.0,America,5,America - South-Eastern Metropolitan
13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,3016.0,...,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0,America,4,America - Western Metropolitan
13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,3016.0,...,157.0,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0,America,3,America - Western Metropolitan
13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,3016.0,...,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0,America,2,America - Western Metropolitan
