# 1. Importer et découvrir un dataframe

Les deux premières choses à faire avec Pandas sont: 
- de l'installer: pip install pandas dans un terminal
- de l'importer: import pandas as pd dans une cellule


Vous ne devrez l'installer qu'une seule fois sur votre ordinateur, il faudra en revanche l'importer à chaque fois

In [1]:
import pandas as pd

## Créer un dataframe et l'afficher

Nous avons dit que l'objet que nous allons utiliser est principalement le dataframe qui est de dimension 2 (lignes et colonnes)

On peut le créer directement "à la main"

In [2]:
df = pd.DataFrame({
    "nom": ["Bernard", "Aline", "Fred"], 
    "age": [38, 24, 46],
    "taille": [1.82,1.75,1.64],
    "derniere_mise_a_jour": [pd.Timestamp("20220102"),pd.Timestamp("20220308"),pd.Timestamp("20220811")],
    "logiciel": [["Excel","Pandas"],["Excel"],["Pandas"]],
    "Male":[True,False,True]
    })



On appelle souvent les tableaux "df" pour dataframe mais rien ne nous empêche de lui donner le nom que l'on veut
On a même vu qu'avec la Pep8, il vaut mieux donner des noms parlant à nos objets.

On a créé notre tableau mais rien ne s'est passé, pour l'afficher il faut simplement appeler le dataframe:

In [6]:
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True
1,Aline,24,1.75,2022-03-08,[Excel],False
2,Fred,46,1.64,2022-08-11,[Pandas],True


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 6 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   nom                   3 non-null      object        
 1   age                   3 non-null      int64         
 2   taille                3 non-null      float64       
 3   derniere_mise_a_jour  3 non-null      datetime64[ns]
 4   logiciel              3 non-null      object        
 5   Male                  3 non-null      bool          
dtypes: bool(1), datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 251.0+ bytes


On peut voir qu'un tableau peut contenir des données de plusieurs types, on peut obtenir ces types à l'aide de cette commande

In [5]:
df.dtypes

nom                             object
age                              int64
taille                         float64
derniere_mise_a_jour    datetime64[ns]
logiciel                        object
Male                              bool
dtype: object

Cependant la plupart du temps on travaille avec des bases de données qui existent déja et qu'il faut importer.
Le format le plus facile pour importer des données est le format CSV (comma separated values).
Cependant il existe plusieurs types de CSV, le standard qu'on vous conseille d'utiliser est celui où chaque colonne est séparée par une virgule, chaque ligne par un retour à la ligne. Les nombres à virgule sont donc dans ce standard écrits avec des points.

Quand ces règles sont respectées, l'import est aussi simple que cela:

## Importer un dataframe

In [76]:
# On utilise la fonction read_csv et on indique le chemin relatif
df_air_bnb = pd.read_csv("data/Airbnb_Open_Data.csv")

  df_air_bnb = pd.read_csv("data/Airbnb_Open_Data.csv")


Cependant si on regarde la [documentation](https://pandas.pydata.org/docs/user_guide/io.html), on voit que:
- On peut importer depuis une multitude de format: text, excel, json, xml, sql....
- On peut modifier des paramètres de la fonction: 
    - sep : le séparateur de colonne
    - delimiter : le séparateur de lignes
    - header : pour désigner la ligne qui contient les noms de colonnes
    

Une fois un fichier importé, il est important d'obtenir quelques informations essentielles:

Le nombre de lignes et de colonnes:

In [11]:
df_air_bnb.shape

(102599, 26)

Le type de chaque colonne comme nous l'avons déja vu:

In [12]:
df_air_bnb.dtypes

id                                  int64
NAME                               object
host id                             int64
host_identity_verified             object
host name                          object
neighbourhood group                object
neighbourhood                      object
lat                               float64
long                              float64
country                            object
country code                       object
instant_bookable                   object
cancellation_policy                object
room type                          object
Construction year                 float64
price                              object
service fee                        object
minimum nights                    float64
number of reviews                 float64
last review                        object
reviews per month                 float64
review rate number                float64
calculated host listings count    float64
availability 365                  

Etant donné la taille de la table, ce serait inutile de tout afficher, et aussi beaucoup trop lourd. C'est cependant souvent utile d'avoir un aperçu de la table. On va afficher donc le début ou la fin de la table comme cela:

In [13]:
# On affiche les 10 premières lignes
df_air_bnb.head(10)

Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,...,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
0,1001254,Clean & quiet apt home by the park,80014485718,unconfirmed,Madaline,Brooklyn,Kensington,40.64749,-73.97237,United States,...,$193,10.0,9.0,10/19/2021,0.21,4.0,6.0,286.0,Clean up and treat the home the way you'd like...,
1,1002102,Skylit Midtown Castle,52335172823,verified,Jenna,Manhattan,Midtown,40.75362,-73.98377,United States,...,$28,30.0,45.0,5/21/2022,0.38,4.0,2.0,228.0,Pet friendly but please confirm with me if the...,
2,1002403,THE VILLAGE OF HARLEM....NEW YORK !,78829239556,,Elise,Manhattan,Harlem,40.80902,-73.9419,United States,...,$124,3.0,0.0,,,5.0,1.0,352.0,"I encourage you to use my kitchen, cooking and...",
3,1002755,,85098326012,unconfirmed,Garry,Brooklyn,Clinton Hill,40.68514,-73.95976,United States,...,$74,30.0,270.0,7/5/2019,4.64,4.0,1.0,322.0,,
4,1003689,Entire Apt: Spacious Studio/Loft by central park,92037596077,verified,Lyndon,Manhattan,East Harlem,40.79851,-73.94399,United States,...,$41,10.0,9.0,11/19/2018,0.1,3.0,1.0,289.0,"Please no smoking in the house, porch or on th...",
5,1004098,Large Cozy 1 BR Apartment In Midtown East,45498551794,verified,Michelle,Manhattan,Murray Hill,40.74767,-73.975,United States,...,$115,3.0,74.0,6/22/2019,0.59,3.0,1.0,374.0,"No smoking, please, and no drugs.",
6,1004650,BlissArtsSpace!,61300605564,,Alberta,Brooklyn,Bedford-Stuyvesant,40.68688,-73.95596,United States,...,$14,45.0,49.0,10/5/2017,0.4,5.0,1.0,224.0,Please no shoes in the house so bring slippers...,
7,1005202,BlissArtsSpace!,90821839709,unconfirmed,Emma,Brooklyn,Bedford-Stuyvesant,40.68688,-73.95596,United States,...,$212,45.0,49.0,10/5/2017,0.4,5.0,1.0,219.0,House Guidelines for our BnB We are delighted ...,
8,1005754,Large Furnished Room Near B'way,79384379533,verified,Evelyn,Manhattan,Hell's Kitchen,40.76489,-73.98493,United States,...,$204,2.0,430.0,6/24/2019,3.47,3.0,1.0,180.0,- Please clean up after yourself when using th...,
9,1006307,Cozy Clean Guest Room - Family Apt,75527839483,unconfirmed,Carl,Manhattan,Upper West Side,40.80178,-73.96723,United States,...,$58,2.0,118.0,7/21/2017,0.99,5.0,1.0,375.0,NO SMOKING OR PETS ANYWHERE ON THE PROPERTY 1....,


## Trier les dataframes

Tout comme sur excel, il est possible de trier ces données:

In [15]:
df.sort_values(by="age")

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel
1,Aline,24,1.75,2022-03-08,[Excel]
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]"
2,Fred,46,1.64,2022-08-11,[Pandas]


Attention l'opération renvoie une copie mais la table originale n'est pas modifiée

In [16]:
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]"
1,Aline,24,1.75,2022-03-08,[Excel]
2,Fred,46,1.64,2022-08-11,[Pandas]


Pour la modifier il faut redéfinir notre table initiale pour indiquer quelle doit correspondre maintenant à la base triée

In [11]:
# on ajoute ici un double filtre, d'abord sur le genre puis sur la taille
df = df.sort_values(by=["Male","taille"])
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
1,Aline,24,1.75,2022-03-08,[Excel],False
2,Fred,46,1.64,2022-08-11,[Pandas],True
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True


**`Exercice`**: 
- Affichez les 5 annonces air BNB dont le nombre de revues est le plus bas (ce n'est pas grave si tous les prix les moins chers sont identiques)
- En vous aidant de la [documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html), affichez également les 5 annonces avec le plus de revues
- Toujours en vous aidant de la documentation, affichez les 5 annonces avec le plus de revues en utilisant la fonction inverse de head.

# 2. Sélectionner des lignes et des colonnes, créer de nouvelles colonnes ou modifier des données

## Sélectionner des colonnes

Chaque colonne possède un nom, on peut la sélectionner de deux manière différentes:

In [None]:
df.age

# ou

df["age"]

1    24
2    46
0    38
Name: age, dtype: int64

Si on veut accéder à plusieurs colonnes alors on doit utiliser un format différent:

In [None]:
df[["nom","age"]]

Unnamed: 0,nom,age
1,Aline,24
2,Fred,46
0,Bernard,38


L'ensemble des noms de colonnes se retrouve dans l'attribut columns:

In [None]:
df.columns

Index(['nom', 'age', 'taille', 'derniere_mise_a_jour', 'logiciel', 'Male'], dtype='object')

On peut facilement créer une nouvelle colonne, supprimer ou renommer une colonne:

In [9]:
df["new_age"] = 48
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,new_age
0,Bernard,44,1.82,2022-01-02,"[Excel, Pandas]",True,48
1,Aline,30,1.75,2022-03-08,[Excel],False,48
2,Fred,52,1.64,2022-08-11,[Pandas],True,48


In [14]:
df = df.rename(mapper={"new_name":"new_age"})
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,new_age
0,Bernard,44,1.82,2022-01-02,"[Excel, Pandas]",True,48
1,Aline,30,1.75,2022-03-08,[Excel],False,48
2,Fred,52,1.64,2022-08-11,[Pandas],True,48


In [None]:
df.drop("new_name")

## Sélection de lignes

On va utiliser deux méthodes pour accéder aux lignes et aux colonnes de notre data frame
- `iloc` qui permet de rechercher des lignes en fonction de leur indice
- `loc` qui permet de recher

### La méthode iloc

In [None]:
# La méthode .iloc suit la syntaxe suivante :  
df.iloc[indice_ligne, indice_colonne]

In [12]:
# on cherche pour la première personne de la base (Aline) la valeur de la troisième colonne (taille)
df.iloc[0,2]

1.75

On peut également afficher seulement la première ligne

In [13]:
df.iloc[0]

nom                                   Aline
age                                      24
taille                                 1.75
derniere_mise_a_jour    2022-03-08 00:00:00
logiciel                            [Excel]
Male                                  False
Name: 1, dtype: object

ou plusieurs lignes et plusieurs colonnes

In [14]:
df.iloc[0:2, 3:5]

Unnamed: 0,derniere_mise_a_jour,logiciel
1,2022-03-08,[Excel]
2,2022-08-11,[Pandas]


### La méthode loc

Cependant la majeure partie du temps on va filter les lignes en fonction de critères et non en fonction de leur indice.  
Pour cela on utilise la méthode loc

In [None]:
# Cette méthode suit la syntaxe suivante.
mon_dataframe.loc[ condition sur les lignes, colonne(s) ]

In [15]:
df.loc[ df['taille']> 1.70, :]

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
1,Aline,24,1.75,2022-03-08,[Excel],False
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True


On peut aussi utiliser une double condition, attention:
- il faut mettre des parenthèse
- on ne va pas utiliser "and" ou "or" mais & et |

In [3]:
df.loc[ (df['taille']> 1.70) &(df['age']<30), :]

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
1,Aline,24,1.75,2022-03-08,[Excel],False


### Indice et Index

Pour le moment nous n'avons pas distinguer deux notions proches qui sont celle de `ìndice`et `index``
- indice: correspond à la ligne sur lequel se trouve la donnée
- l'index est un moyen unique d'identifier une ligne

Quand on on crée un dataframe, l'indice correspond à l'index. Cependant après certaines opérations comme sort, les deux ne sont plus confondus.

In [26]:
# loc permet de rechercher en fonction de l'index
print(df.loc[[0,1],:])


       nom  age  taille derniere_mise_a_jour         logiciel   Male
0  Bernard   38    1.82           2022-01-02  [Excel, Pandas]   True
1    Aline   24    1.75           2022-03-08          [Excel]  False


Après une opération comme sort() on peut remettre à jour l'index

In [None]:
df.reset_index()

On peut modifier l'index en utilisant une colonne mais il faut que celle-ci soit unique. On verra l'interet de cette opération quand on passera à a visualisation

In [20]:
df.set_index('nom')

Unnamed: 0_level_0,age,taille,derniere_mise_a_jour,logiciel,Male
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Bernard,38.0,1.82,2022-01-02,"[Excel, Pandas]",True
Aline,24.0,1.75,2022-03-08,[Excel],False
Fred,46.0,1.64,2022-08-11,[Pandas],True
Marie,,1.7,2022-08-12,[Excel],False


**`Exercice`**: 
- créez une table à partir de la table airbnb en ne concervant que les annonces disponibles plus de 100 jours par an ou 100 jours exactement.
- selectionner parmi cette table créée les 15 annonces ayant le plus de revues et pour ces annonces ne conserver que les colonnes "host id",	"host name"	et "neighbourhood"
- renommez ces colonnes "host_id",	"host_name"	et "neighbourhood"
- faite de host_id l'index puis triez la table en fonction de l'index.

## L'échantillonage avec sample

Enfin il arrive souvent qu'on veille créer un échantillon aléatoire de nos données pour travailler avec mon de donner.
On va utiliser la méthode sample qui a plusieurs paramètres interessants:
- n (int): si on veut préciser combien de données on veut obtenir
- frac (float) : si on veut préciser la fraction de données qu'on veut obtenir 
- replace (bool): est ce qu'on autorise qu'une occurrence puisse être tirée au sort plusieurs fois
- weight: est ce que certaines occurrences doivent avoir plus de poids (utile dans les jeux non équilibrés) 

In [1]:
df.sample(frac=1/3)

NameError: name 'df' is not defined

## Créer de nouvelles colonnes ou modifier la valeur d'une colonne 

### Opération simple

In [None]:
Il est possible de modifier une colonne en faisant une simple opération

In [4]:
df["taille_inch"]= df["taille"]*1.6

Avec la méthode loc, on peut meme ne modifier qu'une partie d'une colone

In [5]:
df.loc[df["taille"]>1.8,"age"]=30

In [None]:
df["date_de_naissance"] = 2022 - df["age"] 
df["ims"] = df["age"] * 2 + df["taille"]

Mais avec ce n'est pas possible de l'utiliser avec des fonctions

In [None]:
df["name_length"] = len(df["nom"])

### la fonction apply

On va dans ce cas là utiliser une fonction apply à l'aide d'une fonction lambda

In [None]:
df["name_length"] = df["nom"].apply(lambda x: len(x))
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,date_de_naissance,ims,name_length
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True,1984,77.82,7
1,Aline,24,1.75,2022-03-08,[Excel],False,1998,49.75,5
2,Fred,46,1.64,2022-08-11,[Pandas],True,1976,93.64,4


Ce qui va nous permettre des usages plus complexes

In [None]:
df["observation_taille"] = df["taille"].apply(lambda x: "grand" if x> 1.8 else "petit")

In [None]:
df[["nom","taille","observation_taille"]]

Unnamed: 0,nom,taille,observation_taille
0,Bernard,1.82,grand
1,Aline,1.75,petit
2,Fred,1.64,petit


Attention si on veut créer un colonne à partir de deux colonnes, l'écriture diffère:

In [None]:
df["new_col"] = df[["taille","nom"]].apply(lambda x: x[0]+len(x[1]), axis=1)

In [None]:
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,date_de_naissance,ims,name_length,observation_taille,valeur_x,new_col
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True,1984,77.82,7,grand,"(1.82, Bernard)",8.82
1,Aline,24,1.75,2022-03-08,[Excel],False,1998,49.75,5,petit,"(1.75, Aline)",6.75
2,Fred,46,1.64,2022-08-11,[Pandas],True,1976,93.64,4,petit,"(1.64, Fred)",5.64


### remplacer des données par d'autres avec map ou catcode

Map permet d'utiliser un dictionnaire pour remplacer des valeurs par n'importe quelles autres.

In [None]:
df["Male"].map({True:1,False:0})

Quand on a beaucoup de valeurs et qu'on veut faire une conversion numérique, on peut utiliser la méthode catcode

In [None]:
df["Male"].astype("category").cat.codes

# 3. Nettoyage de données

## Traitement des valeurs manquantes

On a ajouté Marie à notre base de données mais on ne connait pas son âge. C'est parfois génant dans les calculs et les traitements. Il faut donc nettoyer la base de données.

In [17]:
from cmath import nan


df = pd.DataFrame({
    "nom": ["Bernard", "Aline", "Fred", "Marie"], 
    "age": [38, 24, 46,nan],
    "taille": [1.82,1.75,1.64,1.70],
    "derniere_mise_a_jour": [pd.Timestamp("20220102"),pd.Timestamp("20220308"),pd.Timestamp("20220811"),pd.Timestamp("20220812")],
    "logiciel": [["Excel","Pandas"],["Excel"],["Pandas"],["Excel"]],
    "Male":[True,False,True,False]
    })


In [94]:
# On peut commencer par rechercher ces valeurs manquantes
df.info()

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,True,False,False,False,False


On peut suivre 4 étapes pour traiter les valeurs manquantes
- supprimer les colonnes à la qualité trop faible : celles qui ont entre 50% et 99% de données manquantes 
- supprimer les lignes des colonnes crtiiques: si une colonne est centrale pour notre analyse, alors les lignes qui ne possèdent pas cette information n'ont aucun interet, on peut donc les supprimer
- remplacer les données des autres colonnes: de nombreuses manipulations ne peuvent être réalisées si on a des na, il faut donc remplacer les na par quelques choses pour pouvoir les traiter, il existe plusieurs stratégies:
    - une valeur indentifiable: 0 , "pas de données"
    - une valeur statistiquement plausible
        - la moyenne
        - la valeur de la donnée précédente ou suivante

In [8]:
#supprimer les colonnes à la qualité trop faible

df.drop(["liste","des","colonnes","a","supprimer"])

# supprimer les lignes des colonnes crtiiques
df = df.dropna(subset=['age'])

# remplacer les données des autres colonnes

    # par une valeur identifiable
df = df["age"].fillna(25)

    # par une valeur statistiquement plausible
df = df["age"].fillna(df["age"].mean())

df = df["age"].fillna(method="ffil")

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,Bernard,38.0,1.82,2022-01-02,"[Excel, Pandas]",True
1,Aline,24.0,1.75,2022-03-08,[Excel],False
2,Fred,46.0,1.64,2022-08-11,[Pandas],True


In [9]:
#On peut choisir de remplacer cette valeur
df.fillna(value=25)

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,Bernard,38.0,1.82,2022-01-02,"[Excel, Pandas]",True
1,Aline,24.0,1.75,2022-03-08,[Excel],False
2,Fred,46.0,1.64,2022-08-11,[Pandas],True
3,Marie,25.0,1.7,2022-08-12,[Excel],False


On peut aussi remplacer les valeurs manquantes suivant des méthodes indiquées avec l'argument nommé `method` :

- `'ffill'` pour *forward fill*, c'est-à-dire en utilisant la dernière valeur présente :

In [None]:
df.fillna(method='ffill')

Supposons maintenant que la base de données soit mal renseignée et qu'une information s'y retrouve en double

## Supprimer les doublons

In [10]:
df.drop_duplicates

<bound method DataFrame.drop_duplicates of        nom   age  taille derniere_mise_a_jour         logiciel   Male
0  Bernard  38.0    1.82           2022-01-02  [Excel, Pandas]   True
1    Aline  24.0    1.75           2022-03-08          [Excel]  False
2     Fred  46.0    1.64           2022-08-11         [Pandas]   True
3    Marie   NaN    1.70           2022-08-12          [Excel]  False>

## Conversion des types

On peut utiliser la méthode `astype` pour changer le type d'une `Colonne` :

In [18]:
df.age = df.age.astype('str')

df.age.dtype
df.age

0    38.0
1    24.0
2    46.0
3     nan
Name: age, dtype: object

In [None]:
# Exercice: essayez de deviner le résultat de cette opération:
df.age.astype('str') + df.age.astype('str')

**`Exercice`**: 
- Utilisez à nouveau la table airbnb. Recherchez les valeurs nulles et proposez une méthode pour les traiter.
- Explorez le type des colonnes price et service fees, trouvez le moyen de les mettre au bon format. 

## Consistance des données

La consistance des données est la dernière grande étape du nettoyage de données.
Elle consiste à uniformiser les valeurs catégorielles et à supprimer les valeurs abbérantes des variables numériques. Pour faire cela il faut maitriser les opérations d'agrégation du les données.
Nous allons donc les étudier.

# 4. Aggrégats 

## Groupby

On peut calculer des valeurs pour décrire les colonnes d'une
`DataFrame` avec les méthodes suivantes:

-   'sum'
-   'count'
-   'median'
-   'quantile'
-   'min'
-   'max'
-   'mean'
-   'var'
-   'std'

On peut aussi appliquer n'importe quelle fonction python en la passant
en argument à la méthode `apply` (mais attention à la performance).



In [None]:
df= pd.DataFrame([["Paris",2190327,105.4],["Pau", 77251,31.51],["Biarritz", 24457,11.66],["Bordeaux",252040, 49.36]], columns=['Nom', 'Population', 'Superficie'])
df.quantile([0.25,0.5,0.75])

Unnamed: 0,Population,Superficie
0.25,64052.5,26.5475
0.5,164645.5,40.435
0.75,736611.75,63.37


In [None]:
# Ou plus simplement:
df.describe()

Unnamed: 0,age,taille
count,3.0,4.0
mean,36.0,1.7275
std,11.135529,0.076322
min,24.0,1.64
25%,31.0,1.685
50%,38.0,1.725
75%,42.0,1.7675
max,46.0,1.82


On peut aussi effectuer ces calculs sur des aggrégats calculés en regroupant les lignes d'une `DataFrame` ayant la même valeur pour une colonne donnée :



In [6]:
df= pd.DataFrame([["Paris","Île-de-France",2190327,105.4],["Pau", "Nouvelle-Aquitaine", 77251,31.51],
                  ["Biarritz", "Nouvelle-Aquitaine", 24457,11.66],["Bordeaux", "Nouvelle-Aquitaine",252040, 49.36],
                 ["Montreuil", "Île-de-France",108402, 8.92]], columns=['Nom', 'Région', 'Population', 'Superficie'])
gb=df.groupby(by='Région').median()
gb

  gb=df.groupby(by='Région').median()


Unnamed: 0_level_0,Population,Superficie
Région,Unnamed: 1_level_1,Unnamed: 2_level_1
Nouvelle-Aquitaine,77251.0,31.51
Île-de-France,1149364.5,57.16


In [None]:
gb=df.groupby(by='Région').min()
gb

Unnamed: 0_level_0,Nom,Population,Superficie
Région,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Nouvelle-Aquitaine,Biarritz,24457,11.66
Île-de-France,Montreuil,108402,8.92


On peut aussi appeler la méthode `size` pour connaitre les effectifs
de chaque aggrégat :



In [None]:
gb=df.groupby(by='Région').size()
gb

Région
Nouvelle-Aquitaine    3
Île-de-France         2
dtype: int64

On prefère cependant à cette dernière méthode, la méthode value_counts()

In [None]:
df.value_counts()

On peut également obtenir plusieurs indicateurs avec la méthode agg()

In [8]:
df.groupby(by=['Région','Nom']).agg(["min","std"])

Unnamed: 0_level_0,Unnamed: 1_level_0,Population,Population,Superficie,Superficie
Unnamed: 0_level_1,Unnamed: 1_level_1,min,std,min,std
Région,Nom,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Nouvelle-Aquitaine,Biarritz,24457,,11.66,
Nouvelle-Aquitaine,Bordeaux,252040,,49.36,
Nouvelle-Aquitaine,Pau,77251,,31.51,
Île-de-France,Montreuil,108402,,8.92,
Île-de-France,Paris,2190327,,105.4,


Bien sûr, cet aperçu ne fait qu'effleurer les possibilités de [groupby](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html) !



`Exercice`:
A partir de la table airbnb, calculez: 
- l'année de construction moyenne en fonction de "group_neibourhood"
- le nombre de revue maximum en fonction de la validation de l'annonce et du type de chambre

## Les pivots tables

Il est possible avec de pandas de réaliser une pivot table comme avec excel, on utilise pour ça la méthode .pivot_table() qui prend 4 arguments:
- index : variable(s) placée(s) en ligne 
- columns : variable(s) placée en colonne(s) 
- values : variable sur laquelle on va appliquer la fonction d’agrégation
- aggfunc : fonction d’agrégation

Exemple:

In [None]:
df = pd.DataFrame({
    "nom": ["Bernard", "Aline", "Fred", "Marie"], 
    "age": [38, 24, 46,32],
    "taille": [1.82,1.75,1.64,1.70],
    "derniere_mise_a_jour": [pd.Timestamp("20220102"),pd.Timestamp("20220308"),pd.Timestamp("20220811"),pd.Timestamp("20220812")],
    "logiciel": ["Excel","Pandas","Pandas","Excel"],
    "Male":[True,False,True,False]
    })

df.pivot_table(index="Male", columns = "logiciel", values="taille", aggfunc = "min")

# on pourrait certainement trouver des exemples plus interessants

logiciel,Excel,Pandas
Male,Unnamed: 1_level_1,Unnamed: 2_level_1
False,1.7,1.75
True,1.82,1.64


`Exercice`:  
A partir de la table airbnb en faisant un tableau croisé dynamique, calculez :
- l'année de construction moyenne en fonction de "group_neibourhood" 
- le nombre de revue maximum en fonction de la validation de l'annonce et du type de chambre

# 5. Opérations d'ensemble

## Concaténations avec concat

Les exemples ci-après illustrent la concaténation (ou plutôt les façons de concaterner) de deux `DataFrame`:



In [None]:
df1 = pd.DataFrame({'A': [3, 5], 'B': [1, 2]})
df1

Unnamed: 0,A,B
0,3,1
1,5,2


In [None]:
df2 = pd.DataFrame({'A': [6, 7], 'B': [4, 9]})
df2

Unnamed: 0,A,B
0,6,4
1,7,9


In [None]:
# Si on concatène directement on va avoir un problème d'indice dans la table crée
pd.concat([df1, df2])

Unnamed: 0,A,B
0,3,1
1,5,2
0,6,4
1,7,9


In [None]:
# On va donc ignorer l'index
pd.concat([df1, df2], ignore_index = True)

Unnamed: 0,A,B
0,3,1
1,5,2
2,6,4
3,7,9


In [None]:
# On peut aussi concaténer dans le sens des colonnes
df1 = pd.DataFrame({'A': [3, 5], 'B': [1, 2]})
df2 = pd.DataFrame({'C': [6, 7], 'D': [4, 9]})
pd.concat([df1, df2], axis=1)

Unnamed: 0,A,B,C,D
0,3,1,6,4
1,5,2,7,9


## Jointure avec merge



Sur le même principe que les jointures de bases de données
relationnelles, on peut fusionner les données de deux `DataFrame` avec
la méthode `merge`. Par défaut, `merge` utilise le ou les noms de
colonne en commun, sinon on peut préciser la colonne de jointure avec
l'argument nommé `on` :



In [None]:
df_pop= pd.DataFrame([["Paris",2190327],["Pau", 77251],["Biarritz", 24457],["Bodeaux",252040]], columns=['Nom', 'Population'])
df_sup= pd.DataFrame([["Pau",31.51],["Biarritz",11.66],["Paris",105.4],["Bordeaux",49.36]], columns=['Nom', 'Superficie'])
df_pop.merge(df_sup)

S'il n'y a pas toutes les valeurs de la colonne de jointure dans les deux `DataFrame`, on peut préciser les lignes à obtenir avec l'argument nommé `how` qui peut prendre les valeurs :

-   `'left'` : qui considère les lignes de la `DataFrame` de gauche,
    c'est-à-dire celle sur laquelle on appelle la méthode `merge`.



In [None]:
df_pop= pd.DataFrame([["Paris",2190327],["Pau", 77251],["Biarritz", 24457],["Bodeaux",252040]], columns=['Nom', 'Population'])
df_sup= pd.DataFrame([["Pau",31.51],["Biarritz",11.66],["Paris",105.4],["Marseille",240.6]], columns=['Nom', 'Superficie'])
df_pop.merge(df_sup, how='left')

-   `'right'` : qui considère les lignes de la `DataFrame` de droite,
    c'est-à-dire celle passée en argument à la méthode `merge`.



In [None]:
df_pop= pd.DataFrame([["Paris",2190327],["Pau", 77251],["Biarritz", 24457],["Bodeaux",252040]], columns=['Nom', 'Population'])
df_sup= pd.DataFrame([["Pau",31.51],["Biarritz",11.66],["Paris",105.4],["Marseille",240.6]], columns=['Nom', 'Superficie'])
df_pop.merge(df_sup, how='right')

-   `'inner'` : qui considère l'intersection des lignes de la
    `DataFrame` de droite et celles de la `DataFrame` de gauche.



In [None]:
df_pop= pd.DataFrame([["Paris",2190327],["Pau", 77251],["Biarritz", 24457],["Bodeaux",252040]], columns=['Nom', 'Population'])
df_sup= pd.DataFrame([["Pau",31.51],["Biarritz",11.66],["Paris",105.4],["Marseille",240.6]], columns=['Nom', 'Superficie'])
df_pop.merge(df_sup, how='inner')

**Exercice :** Quelle est la valeur par défaut de l'argument `how` ?



## Liens

<https://pandas.pydata.org/docs/user_guide/10min.html#min> : intro en 10 minutes

<https://pandas.pydata.org/docs/user_guide/cookbook.html#cookbook> : d'autres utilisations plus avancées

<https://www.kaggle.com/learn/pandas>

In [None]:
df_air_bnb["price"] = df_air_bnb.price.str.slice(start=1).str.replace(',', '', regex=False).astype("float")
df_air_bnb["service fee"] = df_air_bnb["service fee"].str.slice(start=1).str.replace(',', '', regex=False).astype("float")