## Charger et mettre en forme une DataFrame

On charge habituellement les données d'une DataFrame à partir d'un fichier externe, puis on réduit son contenu aux lignes et colonnes qui nous intéressent pour le traitement à suivre.

Pandas supporte de nombreux format de fichiers : CSV, Excel, tables Html, base de données relationnelle.

On peut afficher le contenu d'un fichier dans un notebook Jupyter de la manière suivante :
- commencer la ligne par un point d'exclamation
- dans ce cas, le reste de la ligne est directement envoyé à la ligne de commande du système d'exploitation
- utiliser la commande cat sous Unix ou la commande type sous Windows, suivie du nom de fichier

In [1]:
!type annonces_immo.csv

crawlSource,url,marketingType,department,departmentCode,adCount
LOGIC_IMMO,,SALE,NOUVELLE_CALEDONIE,988,0
OUEST_FRANCE_IMMO,,SALE,LOT,46,0
OUEST_FRANCE_IMMO,,SALE,HAUTES_PYRENEES,65,0
OUEST_FRANCE_IMMO,,SALE,PARIS,75,0
OUEST_FRANCE_IMMO,,SALE,TARN,81,0
OUEST_FRANCE_IMMO,,SALE,SEINE_ET_MARNE,77,0
OUEST_FRANCE_IMMO,,SALE,TARN_ET_GARONNE,82,0
OUEST_FRANCE_IMMO,,SALE,YVELINES,78,0
OUEST_FRANCE_IMMO,,SALE,AUDE,11,0
OUEST_FRANCE_IMMO,,SALE,ESSONE,91,0
OUEST_FRANCE_IMMO,,SALE,GARD,30,0
OUEST_FRANCE_IMMO,,SALE,HAUTS_DE_SEINE,92,0
OUEST_FRANCE_IMMO,,SALE,HERAULT,34,0
OUEST_FRANCE_IMMO,,SALE,SEINE_SAINT_DENIS,93,0
OUEST_FRANCE_IMMO,,SALE,LOZERE,48,0
OUEST_FRANCE_IMMO,,SALE,VAL_DE_MARNE,94,0
OUEST_FRANCE_IMMO,,SALE,PYRENEES_ORIENTALES,66,0
OUEST_FRANCE_IMMO,,SALE,VAL_D_OISE,95,0
OUEST_FRANCE_IMMO,,SALE,ALLIER,3,0
OUEST_FRANCE_IMMO,,SALE,ALPES_DE_HAUTE_PROVENCE,4,0
OUEST_FRANCE_IMMO,,SALE,CANTAL,15,0
OUEST_FRANCE_IMMO,,SALE,HAUTES_ALPES,5,0
OUEST_FRANCE_IMMO,,SALE,HAUTE_LOIRE,43,0
OUEST_FRANCE_IMM

A_VENDRE_A_LOUER,,SALE,ILE_DE_SAINT_MARTIN_ANTILLES,978,0
A_VENDRE_A_LOUER,,SALE,WALLIS_ET_FUTUNA,986,0
A_VENDRE_A_LOUER,,SALE,POLYNESIE_FRANCAISE,987,0
A_VENDRE_A_LOUER,,SALE,NOUVELLE_CALEDONIE,988,0
IMMONOT,http://www.immonot.com/immobilier.do?action=recherche&transactions=VENT&localite=974&typesBiens=MAIS&typesBiens=APPT&indexDebut=0,SALE,ILE_DE_LA_REUNION,974,207
A_VENDRE_A_LOUER,http://www.avendrealouer.fr/recherche.html?pageIndex=1&localityIds=3-33&searchTypeID=1&typeGroupCategoryID=1&typeGroupIds=1%2C2%2C10%2C11%2C12,SALE,GIRONDE,33,13134
A_VENDRE_A_LOUER,http://www.avendrealouer.fr/recherche.html?pageIndex=1&localityIds=3-40&searchTypeID=1&typeGroupCategoryID=1&typeGroupIds=1%2C2%2C10%2C11%2C12,SALE,LANDES,40,4200
IMMONOT,,SALE,SAINT_PIERRE_ET_MIQUELON,975,0
BIEN_ICI,https://www.bienici.com/realEstateAds.json?filters=%7B%22size%22%3A24%2C%22from%22%3A0%2C%22filterType%22%3A%22buy%22%2C%22propertyType%22%3A%5B%22house%22%2C%22flat%22%5D%2C%22sortBy%22%3A%22publicationDate%22%2C%

In [2]:
import pandas as pd
df = pd.read_csv("annonces_immo.csv")
df.head()

Unnamed: 0,crawlSource,url,marketingType,department,departmentCode,adCount
0,LOGIC_IMMO,,SALE,NOUVELLE_CALEDONIE,988,0
1,OUEST_FRANCE_IMMO,,SALE,LOT,46,0
2,OUEST_FRANCE_IMMO,,SALE,HAUTES_PYRENEES,65,0
3,OUEST_FRANCE_IMMO,,SALE,PARIS,75,0
4,OUEST_FRANCE_IMMO,,SALE,TARN,81,0


Le paramètre **skiprows** permet d'indiquer la ligne du fichier sur laquelle se trouvent les noms de colonnes.

Le paramètre **index_col** permet d'indiquer l'indice de la colonne du fichier à utiliser comme index (à défaut, des index numériques sont créés automatiquement, comme vu ci-dessus).

In [3]:
df = pd.read_csv("annonces_immo.csv", index_col=3)
df.head()

Unnamed: 0_level_0,crawlSource,url,marketingType,departmentCode,adCount
department,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
NOUVELLE_CALEDONIE,LOGIC_IMMO,,SALE,988,0
LOT,OUEST_FRANCE_IMMO,,SALE,46,0
HAUTES_PYRENEES,OUEST_FRANCE_IMMO,,SALE,65,0
PARIS,OUEST_FRANCE_IMMO,,SALE,75,0
TARN,OUEST_FRANCE_IMMO,,SALE,81,0


On peut modifier le nom des colonnes pour rendre la table de données plus lisible à l'aide de la méthode **rename()** et supprimer les colonnes inutiles à l'aide de la méthode **drop()**.

In [4]:
df.rename(columns={"crawlSource":"site","adCount":"annonces"}, inplace=True)
df.drop(["url","marketingType","departmentCode"], axis=1, inplace=True)
df.head()

Unnamed: 0_level_0,site,annonces
department,Unnamed: 1_level_1,Unnamed: 2_level_1
NOUVELLE_CALEDONIE,LOGIC_IMMO,0
LOT,OUEST_FRANCE_IMMO,0
HAUTES_PYRENEES,OUEST_FRANCE_IMMO,0
PARIS,OUEST_FRANCE_IMMO,0
TARN,OUEST_FRANCE_IMMO,0


## Requêter une DataFrame

La technique de **boolean masking** est au coeur du mécanisme d'exécution rapide de requêtes dans les librairies Numpy et Pandas.

Un masque de booléens est une table à une dimensions comme une structure Series, ou une table à deux dimensions comme une structure DataFrame dans laquelle chaque valeur est vraie ou fausse.

Cette table de sélection est superposée à la structure de données à requêter, pour décider des valeurs à conserver ou non dans le résultat retourné.

Par exemple, pour filtrer les lignes qui ont un nombre d'annonces non nul, on commence par créer une table de valeurs vrai/faux à superposer à la colonne "annonces":

In [5]:
masque = df["annonces"] > 0
masque.head(10)

department
NOUVELLE_CALEDONIE    False
LOT                   False
HAUTES_PYRENEES       False
PARIS                 False
TARN                  False
SEINE_ET_MARNE        False
TARN_ET_GARONNE       False
YVELINES              False
AUDE                  False
ESSONE                False
Name: annonces, dtype: bool

Dans l'instruction ci-dessus, l'opérateur de comparaison > 0 a été distribué (**broadcasting**) sur chacune des valeurs de la structure Series correspondant à la colonne à filter, construisant un objet Series qui contient des valeurs vrai ou faux.

On applique ce masque de filtrage à la DataFrame à l'aide de la méthode **where()** :

In [6]:
filtre1 = df.where(df["annonces"] > 0)
filtre1.head()

Unnamed: 0_level_0,site,annonces
department,Unnamed: 1_level_1,Unnamed: 2_level_1
NOUVELLE_CALEDONIE,,
LOT,,
HAUTES_PYRENEES,,
PARIS,,
TARN,,


On voit que toutes les valeurs des lignes non sélectionnées ont été remplacées par NaN.

Toutes les fonctions de calcul de statistiques sur les données de la DataFrame ignorent les valeurs NaN, le filtre est pris en compte :

In [7]:
print(df["annonces"].count())
print(filtre1["annonces"].count())

1819
1608


On peut effectivement supprimer les lignes du tableau plutôt que les filtrer à l'aide de la méthode **dropna()**.

In [8]:
filtre2 = filtre1.dropna()
filtre2.head()

Unnamed: 0_level_0,site,annonces
department,Unnamed: 1_level_1,Unnamed: 2_level_1
OISE,A_VENDRE_A_LOUER,5129.0
ARDECHE,ANNONCES_JAUNES,2182.0
ORNE,TOP_ANNONCES,1792.0
CORREZE,LE_BON_COIN,3211.0
ALPES_DE_HAUTE_PROVENCE,LUX_RESIDENCE,108.0


On peut filtrer directement les lignes d'une DataFrame à l'aide de **l'opérateur d'indexation (crochets)**, qui peut aussi prendre en paramètre un masque booléen. NB : dans ce cas, aucune valeur NaN n'est retournée, les lignes exclues du filtre ne sont retirées du résultat.

In [9]:
filtre3 = df[df["annonces"] > 0]
filtre3.head()

Unnamed: 0_level_0,site,annonces
department,Unnamed: 1_level_1,Unnamed: 2_level_1
OISE,A_VENDRE_A_LOUER,5129
ARDECHE,ANNONCES_JAUNES,2182
ORNE,TOP_ANNONCES,1792
CORREZE,LE_BON_COIN,3211
ALPES_DE_HAUTE_PROVENCE,LUX_RESIDENCE,108


On peut chainer plusieurs masques booléens (*attention : obligatoirement definis entre parenthèses*) avec des opérateurs booléens **& (bitwise and)** et **| (bitwise or)** pour créer un masque booléen plus complexe :

In [10]:
filtre4 = df[(df["annonces"] > 0) & (df["site"] == "LE_BON_COIN")]
filtre4.head()

Unnamed: 0_level_0,site,annonces
department,Unnamed: 1_level_1,Unnamed: 2_level_1
CORREZE,LE_BON_COIN,3211
CREUSE,LE_BON_COIN,841
HAUTE_VIENNE,LE_BON_COIN,3840
DOUBS,LE_BON_COIN,4597
JURA,LE_BON_COIN,2951


La fonction **unique()** permet de lister les valeurs distinctes d'une Series :

In [11]:
filtre3["site"].unique()

array(['A_VENDRE_A_LOUER', 'ANNONCES_JAUNES', 'TOP_ANNONCES',
       'LE_BON_COIN', 'LUX_RESIDENCE', 'SUPER_IMMO', 'FNAIM',
       'OUEST_FRANCE_IMMO', 'SE_LOGER', 'LOGIC_IMMO',
       'PROPRIETES_DE_FRANCE', 'IMMONOT', 'ACHETER_LOUER', 'PARU_VENDU',
       'EXPLORIMMO', 'BELLES_DEMEURES', 'BIEN_ICI'], dtype=object)

## Définir l'index d'une DataFrame

La fonction **set_index()** prend en paramètre une liste de colonnes et les promeut en tant qu'index. 

Si un index était déjà défini, les données associées sont définitivement perdues : il faut les copier au préalable dans une nouvelle colonne.

In [12]:
df = filtre4
df["departement"] = df.index
df = df.set_index("site")
df.head()

Unnamed: 0_level_0,annonces,departement
site,Unnamed: 1_level_1,Unnamed: 2_level_1
LE_BON_COIN,3211,CORREZE
LE_BON_COIN,841,CREUSE
LE_BON_COIN,3840,HAUTE_VIENNE
LE_BON_COIN,4597,DOUBS
LE_BON_COIN,2951,JURA


On peut supprimer l'index à l'aide de la fonction **reset_index()** : les données redeviennent une colonne ordinaire.

In [13]:
df = df.reset_index()
df.head()

Unnamed: 0,site,annonces,departement
0,LE_BON_COIN,3211,CORREZE
1,LE_BON_COIN,841,CREUSE
2,LE_BON_COIN,3840,HAUTE_VIENNE
3,LE_BON_COIN,4597,DOUBS
4,LE_BON_COIN,2951,JURA


Pandas permet de définir des **index à plusieurs niveaux**, lorsqu'on passe plusieurs noms de colonnes à la fonction set_index() :

In [14]:
df = filtre3.reset_index()
df = df.set_index(["department","site"])
df.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,annonces
department,site,Unnamed: 2_level_1
OISE,A_VENDRE_A_LOUER,5129
ARDECHE,ANNONCES_JAUNES,2182
ORNE,TOP_ANNONCES,1792
CORREZE,LE_BON_COIN,3211
ALPES_DE_HAUTE_PROVENCE,LUX_RESIDENCE,108
SOMME,A_VENDRE_A_LOUER,3468
DROME,ANNONCES_JAUNES,3613
SEINE_ET_MARNE,SUPER_IMMO,21536
HAUTES_ALPES,LUX_RESIDENCE,34
NORD,A_VENDRE_A_LOUER,12766


On requête un index à deux niveaux en passant un tuple de valeurs à la propriété loc[] :

In [15]:
df.loc[[("ORNE","TOP_ANNONCES"),("DROME","ANNONCES_JAUNES")]]

Unnamed: 0_level_0,Unnamed: 1_level_0,annonces
department,site,Unnamed: 2_level_1
ORNE,TOP_ANNONCES,1792
DROME,ANNONCES_JAUNES,3613


On peut trier les données d'une DataFrame avec la fonction **sort_index()** :

In [16]:
df = df.sort_index()
df.head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,annonces
department,site,Unnamed: 2_level_1
AIN,ACHETER_LOUER,4498
AIN,ANNONCES_JAUNES,2516
AIN,A_VENDRE_A_LOUER,2533
AIN,BELLES_DEMEURES,116
AIN,BIEN_ICI,2305
AIN,EXPLORIMMO,3336
AIN,FNAIM,543
AIN,IMMONOT,514
AIN,LE_BON_COIN,6518
AIN,LOGIC_IMMO,4908


## Gérer les valeurs manquantes

La fonction **fillna()** permet de remplir la valeur d'une cellule vide (NaN) avec la valeur de la cellule précédente (**forward filling**) ou la valeur de la cellule suivante (**backward filling**).

Les fonctions statistiques ignorent les valeurs manquantes.

## Fusionner des DataFrames



Pour les exemples qui suivent, on réutilise la table d'achats du notebook précédent :

In [17]:
achat1 = pd.Series({"nom":"Jean","article":"pain","prix":1.1})
achat2 = pd.Series({"nom":"Pierre","article":"lait","prix":2.5})
achat3 = pd.Series({"nom":"Marc","article":"chips","prix":1.9})
df = pd.DataFrame([achat1,achat2,achat3],index=["magasin1","magasin1","magasin2"])
df

Unnamed: 0,article,nom,prix
magasin1,pain,Jean,1.1
magasin1,lait,Pierre,2.5
magasin2,chips,Marc,1.9


Voici différentes manières d'ajouter des données dans de nouvelles colonnes à cette table :

In [18]:
df["Date"] = ["Janvier","Février","Mars"]
df

Unnamed: 0,article,nom,prix,Date
magasin1,pain,Jean,1.1,Janvier
magasin1,lait,Pierre,2.5,Février
magasin2,chips,Marc,1.9,Mars


In [19]:
df["enregistre"] = True
df

Unnamed: 0,article,nom,prix,Date,enregistre
magasin1,pain,Jean,1.1,Janvier,True
magasin1,lait,Pierre,2.5,Février,True
magasin2,chips,Marc,1.9,Mars,True


In [20]:
df["Avis"] = ["Positif",None,"Négatif"]
df

Unnamed: 0,article,nom,prix,Date,enregistre,Avis
magasin1,pain,Jean,1.1,Janvier,True,Positif
magasin1,lait,Pierre,2.5,Février,True,
magasin2,chips,Marc,1.9,Mars,True,Négatif


In [21]:
rdf = df.reset_index()
rdf["Date"] = pd.Series({0:"Juin",2:"Mai"})
rdf

Unnamed: 0,index,article,nom,prix,Date,enregistre,Avis
0,magasin1,pain,Jean,1.1,Juin,True,Positif
1,magasin1,lait,Pierre,2.5,,True,
2,magasin2,chips,Marc,1.9,Mai,True,Négatif


Pour fusionner (réaliser une jointure entre) deux DataFrames, on utilise la fonction **merge()**.

Le paramètre **how** est utilisé pour spécifier le type de jointure à réaliser :
- outer : full outer join (union)
- inner : inner join (intersection)
- left : left outer join
- right : right outer join

In [22]:
etudiants = pd.DataFrame([{"Nom":"Jean","Année":"2017"},
                          {"Nom":"Pierre","Année":"2016"},
                          {"Nom":"Marc","Année":"2015"}])
etudiants = etudiants.set_index("Nom")

professeurs = pd.DataFrame([{"Nom":"Albert","Matière":"Physique"},
                            {"Nom":"Raymond","Matière":"Math"},
                            {"Nom":"Jean","Matière":"Math"},
                            {"Nom":"Marc","Matière":"Physique"}])
professeurs = professeurs.set_index("Nom")

In [23]:
dfout = pd.merge(etudiants, professeurs, how="outer", left_index=True, right_index=True)
dfout

Unnamed: 0_level_0,Année,Matière
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Albert,,Physique
Jean,2017.0,Math
Marc,2015.0,Physique
Pierre,2016.0,
Raymond,,Math


Après fusion, on note qu'on retrouve dans la DataFrame résultat l'ensemble des lignes et des colonnes des deux tables d'origine, avec des valeurs absentes (NaN) dans tous les lignes qui ne se retouvent pas dans les deux tableaux d'origine.

In [24]:
dfinner = pd.merge(etudiants, professeurs, how="inner", left_index=True, right_index=True)
dfinner

Unnamed: 0_level_0,Année,Matière
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Jean,2017,Math
Marc,2015,Physique


In [25]:
dfleft = pd.merge(etudiants, professeurs, how="left", left_index=True, right_index=True)
dfleft

Unnamed: 0_level_0,Année,Matière
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Jean,2017,Math
Pierre,2016,
Marc,2015,Physique


In [26]:
dfright = pd.merge(etudiants, professeurs, how="right", left_index=True, right_index=True)
dfright

Unnamed: 0_level_0,Année,Matière
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Albert,,Physique
Raymond,,Math
Jean,2017.0,Math
Marc,2015.0,Physique


NB : il n'est pas obligatoire d'utiliser des index pour fusionner deux DataFrames, on peut aussi utiliser des colonnes ordinaires à l'aide des paramètres **left_on** et **right_on**.

In [27]:
dfnoindex = pd.merge(etudiants.reset_index(), professeurs.reset_index(), 
                     how="left", left_on="Nom", right_on="Nom")
dfnoindex

Unnamed: 0,Nom,Année,Matière
0,Jean,2017,Math
1,Pierre,2016,
2,Marc,2015,Physique


Lorsque les deux tables fusionnées contiennent à l'oirigine une colonne du même nom, Pandas préserve les deux colonnes d'origine, et suffixe leur nom de _x ou _y :

In [28]:
etudiants["Adresse"] = ["Salle A", "Salle B", "Salle C"]
professeurs["Adresse"] = ["Salle D", "Salle E", "Salle F", "Salle G"]

dfconflict = pd.merge(etudiants, professeurs, how="left", left_index=True, right_index=True)
dfconflict

Unnamed: 0_level_0,Année,Adresse_x,Matière,Adresse_y
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Jean,2017,Salle A,Math,Salle F
Pierre,2016,Salle B,,
Marc,2015,Salle C,Physique,Salle G


Pour réaliser une jointure sur plusieurs colonnes, il suffit de passer des listes de noms de colonnes dans les paramètres **left_on** et **right_on** de la fonction merge().

Par exemple :

pd.merge(table1, table2, left_on=["nom","prénom"], right_on=["lastName","firstName])

## Conseils d'utilisation de Pandas

1. Eviter le chainage d'opérateurs d'indexation (crochets) : Pandas peut retourner une copie des données

Exemple : df.loc["indexLigne"]["nomColonne"]