# 1. Importer et découvrir un dataframe

Les deux premières choses à faire avec Pandas sont: 
- de l'installer: pip install pandas dans un terminal
- de l'importer: import pandas as pd dans une cellule


Vous ne devrez l'installer qu'une seule fois sur votre ordinateur, il faudra en revanche l'importer à chaque fois

In [3]:
import pandas as pd

In [41]:
dir(pd)

['ArrowDtype',
 'BooleanDtype',
 'Categorical',
 'CategoricalDtype',
 'CategoricalIndex',
 'DataFrame',
 'DateOffset',
 'DatetimeIndex',
 'DatetimeTZDtype',
 'ExcelFile',
 'ExcelWriter',
 'Flags',
 'Float32Dtype',
 'Float64Dtype',
 'Float64Index',
 'Grouper',
 'HDFStore',
 'Index',
 'IndexSlice',
 'Int16Dtype',
 'Int32Dtype',
 'Int64Dtype',
 'Int64Index',
 'Int8Dtype',
 'Interval',
 'IntervalDtype',
 'IntervalIndex',
 'MultiIndex',
 'NA',
 'NaT',
 'NamedAgg',
 'Period',
 'PeriodDtype',
 'PeriodIndex',
 'RangeIndex',
 'Series',
 'SparseDtype',
 'StringDtype',
 'Timedelta',
 'TimedeltaIndex',
 'Timestamp',
 'UInt16Dtype',
 'UInt32Dtype',
 'UInt64Dtype',
 'UInt64Index',
 'UInt8Dtype',
 '__all__',
 '__builtins__',
 '__cached__',
 '__deprecated_num_index_names',
 '__dir__',
 '__doc__',
 '__docformat__',
 '__file__',
 '__getattr__',
 '__git_version__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '__version__',
 '_config',
 '_is_numpy_dev',
 '_libs',
 '_testing',
 '

## Créer un dataframe et l'afficher

Nous avons dit que l'objet que nous allons utiliser est principalement le dataframe qui est de dimension 2 (lignes et colonnes)

On peut le créer directement "à la main"

In [42]:
df = pd.DataFrame({
    "nom": ["Bernard", "Aline", "Fred"], 
    "age": [38, 24, 46],
    "taille": [1.82,1.75,1.64],
    "derniere_mise_a_jour": [pd.Timestamp("20220102"),pd.Timestamp("20220308"),pd.Timestamp("20220811")],
    "logiciel": [["Excel","Pandas"],["Excel"],["Pandas"]],
    "Male":[True,False,True]
    })



On appelle souvent les tableaux "df" pour dataframe mais rien ne nous empêche de lui donner le nom que l'on veut
On a même vu qu'avec la Pep8, il vaut mieux donner des noms parlant à nos objets.

On a créé notre tableau mais rien ne s'est passé, pour l'afficher il faut simplement appeler le dataframe:

In [118]:
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True
1,Aline,24,1.75,2022-03-08,[Excel],False
2,Fred,46,1.64,2022-08-11,[Pandas],True


In [44]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 6 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   nom                   3 non-null      object        
 1   age                   3 non-null      int64         
 2   taille                3 non-null      float64       
 3   derniere_mise_a_jour  3 non-null      datetime64[ns]
 4   logiciel              3 non-null      object        
 5   Male                  3 non-null      bool          
dtypes: bool(1), datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 251.0+ bytes


On peut voir qu'un tableau peut contenir des données de plusieurs types, on peut obtenir ces types à l'aide de cette commande

In [45]:
df.dtypes

nom                             object
age                              int64
taille                         float64
derniere_mise_a_jour    datetime64[ns]
logiciel                        object
Male                              bool
dtype: object

La commande "df.shape" est utilisée pour obtenir la forme d'un DataFrame en pandas, un librairie de traitement de données en Python. Elle retourne un tuple qui indique le nombre de lignes et de colonnes dans le DataFrame, sous la forme (nombre de lignes, nombre de colonnes). Cela peut être utile pour comprendre la taille d'un jeu de données et comment il est structuré.

In [46]:
df.shape

(3, 6)

Cependant la plupart du temps on travaille avec des bases de données qui existent déja et qu'il faut importer.
Le format le plus facile pour importer des données est le format CSV (comma separated values).
Cependant il existe plusieurs types de CSV, le standard qu'on vous conseille d'utiliser est celui où chaque colonne est séparée par une virgule, chaque ligne par un retour à la ligne. Les nombres à virgule sont donc dans ce standard écrits avec des points.

Quand ces règles sont respectées, l'import est aussi simple que cela:

## Importer un dataframe

In [5]:
# On utilise la fonction read_csv et on indique le chemin relatif
df_air_bnb = pd.read_csv("Airbnb_Open_Data.csv")

  df_air_bnb = pd.read_csv("Airbnb_Open_Data.csv")


Cependant si on regarde la [documentation](https://pandas.pydata.org/docs/user_guide/io.html), on voit que:
- On peut importer depuis une multitude de format: text, excel, json, xml, sql....
- On peut modifier des paramètres de la fonction: 
    - sep : le séparateur de colonne
    - delimiter : le séparateur de lignes
    - header : pour désigner la ligne qui contient les noms de colonnes
    

Une fois un fichier importé, il est important d'obtenir quelques informations essentielles:

In [48]:
df_air_bnb.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102599 entries, 0 to 102598
Data columns (total 26 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   id                              102599 non-null  int64  
 1   NAME                            102349 non-null  object 
 2   host id                         102599 non-null  int64  
 3   host_identity_verified          102310 non-null  object 
 4   host name                       102193 non-null  object 
 5   neighbourhood group             102570 non-null  object 
 6   neighbourhood                   102583 non-null  object 
 7   lat                             102591 non-null  float64
 8   long                            102591 non-null  float64
 9   country                         102067 non-null  object 
 10  country code                    102468 non-null  object 
 11  instant_bookable                102494 non-null  object 
 12  cancellation_pol

Le nombre de lignes et de colonnes:

In [49]:
df_air_bnb.shape

(102599, 26)

Le type de chaque colonne comme nous l'avons déja vu:

In [50]:
df_air_bnb.dtypes

id                                  int64
NAME                               object
host id                             int64
host_identity_verified             object
host name                          object
neighbourhood group                object
neighbourhood                      object
lat                               float64
long                              float64
country                            object
country code                       object
instant_bookable                   object
cancellation_policy                object
room type                          object
Construction year                 float64
price                              object
service fee                        object
minimum nights                    float64
number of reviews                 float64
last review                        object
reviews per month                 float64
review rate number                float64
calculated host listings count    float64
availability 365                  

Etant donné la taille de la table, ce serait inutile de tout afficher, et aussi beaucoup trop lourd. C'est cependant souvent utile d'avoir un aperçu de la table. On va afficher donc le début ou la fin de la table comme cela:

In [51]:
pd.set_option('display.max_columns', None) # On affiche toutes les colonnes
# On affiche les 10 premières lignes
df_air_bnb.head(3)

Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,country code,instant_bookable,cancellation_policy,room type,Construction year,price,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
0,1001254,Clean & quiet apt home by the park,80014485718,unconfirmed,Madaline,Brooklyn,Kensington,40.64749,-73.97237,United States,US,False,strict,Private room,2020.0,$966,$193,10.0,9.0,10/19/2021,0.21,4.0,6.0,286.0,Clean up and treat the home the way you'd like...,
1,1002102,Skylit Midtown Castle,52335172823,verified,Jenna,Manhattan,Midtown,40.75362,-73.98377,United States,US,False,moderate,Entire home/apt,2007.0,$142,$28,30.0,45.0,5/21/2022,0.38,4.0,2.0,228.0,Pet friendly but please confirm with me if the...,
2,1002403,THE VILLAGE OF HARLEM....NEW YORK !,78829239556,,Elise,Manhattan,Harlem,40.80902,-73.9419,United States,US,True,flexible,Private room,2005.0,$620,$124,3.0,0.0,,,5.0,1.0,352.0,"I encourage you to use my kitchen, cooking and...",


## Trier les dataframes

In [52]:
df #base df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True
1,Aline,24,1.75,2022-03-08,[Excel],False
2,Fred,46,1.64,2022-08-11,[Pandas],True


Tout comme sur excel, il est possible de trier ces données:

In [53]:
df.sort_values(by="age", inplace=True)    #trier par age  

Attention l'opération renvoie une copie mais la table originale n'est pas modifiée

In [54]:
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
1,Aline,24,1.75,2022-03-08,[Excel],False
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True
2,Fred,46,1.64,2022-08-11,[Pandas],True


Pour la modifier il faut redéfinir notre table initiale pour indiquer quelle doit correspondre maintenant à la base triée

In [55]:
# on ajoute ici un double filtre, d'abord sur le genre puis sur la taille
df = df.sort_values(by=["Male","taille"])
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
1,Aline,24,1.75,2022-03-08,[Excel],False
2,Fred,46,1.64,2022-08-11,[Pandas],True
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True


**`Exercice`**: 
- Affichez les 5 annonces air BNB dont le nombre de revues est le plus bas (ce n'est pas grave si tous les prix les moins chers sont identiques)
- En vous aidant de la [documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html), affichez également les 5 annonces avec le plus de revues
- Toujours en vous aidant de la documentation, affichez les 5 annonces avec le plus de revues en utilisant la fonction inverse de head.

In [56]:
df_air_bnb.dtypes
df_review_bas = df_air_bnb.sort_values(by=["number of reviews"] , na_position="first")
df_review_bas.head(5)

Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,country code,instant_bookable,cancellation_policy,room type,Construction year,price,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
97,1054909,,8644470108,verified,Sydney,Manhattan,Upper West Side,40.79764,-73.96177,United States,US,True,strict,Entire home/apt,2017.0,$343,$69,,,7/7/2019,0.71,,1.0,55.0,We ask that guests be respectful and considera...,
141,1079210,"Modern Greenpoint, Brooklyn Apt",63891709973,verified,Martin,Brooklyn,Greenpoint,40.73409,-73.95348,United States,US,False,moderate,Entire home/apt,2016.0,$488,$98,,,,0.03,4.0,1.0,325.0,,
566,1313938,East Village House -- Unique!,77437300795,unconfirmed,Alisa,Manhattan,East Village,40.72956,-73.97903,United States,US,False,strict,Entire home/apt,2007.0,$844,$169,1.0,,7/1/2019,0.65,3.0,1.0,85.0,,
1066,1590088,"No Inq,Read it, 1 BR, Rt of Subway,",16471166561,verified,Sharma,Queens,Jackson Heights,40.74906,-73.89377,United States,US,True,flexible,Private room,,$399,$80,7.0,,9/30/2018,0.64,5.0,3.0,126.0,House Rules The house rules are an important p...,
1591,1880045,Space! Light! Charm! 1BR close to subways & park,5336294653,verified,Ellen,Manhattan,Upper West Side,40.79241,-73.97111,United States,US,False,strict,Entire home/apt,2021.0,$564,$113,3.0,,9/18/2018,0.43,5.0,1.0,194.0,,


In [57]:
df_review_haut = df_air_bnb.sort_values(by=["number of reviews"] , ascending=False)
df_review_haut.head(5)

Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,country code,instant_bookable,cancellation_policy,room type,Construction year,price,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
52488,29990458,Sonder Battery Park | Studio Apartment,53558555483,verified,Sonder (NYC),Manhattan,Financial District,40.70617,-74.01486,United States,US,False,strict,Entire home/apt,2019.0,$121,$24,2.0,1024.0,2/21/2022,57.31,4.0,54.0,365.0,,
62244,35378697,City King,44069230937,verified,Arlo SoHo,Manhattan,SoHo,40.7244,-74.00794,United States,US,False,moderate,Hotel room,2017.0,"$1,097",$219,1.0,1010.0,11/22/2021,33.08,4.0,11.0,80.0,,
49799,28505324,Amazing Micro Unit W/ communal rooftop and kit...,23813117370,verified,The Ridge,Manhattan,East Village,40.7238,-73.99038,United States,US,True,strict,Private room,2011.0,$123,$25,1.0,966.0,3/2/2022,34.46,2.0,4.0,355.0,,
53078,30316315,Enjoy great views of the City!,41031720514,unconfirmed,Row NYC,Manhattan,Theater District,40.75876,-73.98846,United States,US,False,flexible,Hotel room,2004.0,$486,$97,1.0,884.0,2/19/2022,25.23,3.0,9.0,360.0,,
49653,28424688,Come catch a Broadway Show & stay in Times Square,20032806094,verified,M,Manhattan,Theater District,40.7636,-73.98473,United States,US,False,flexible,Private room,2008.0,$89,$18,1.0,849.0,3/3/2022,90.0,4.0,12.0,361.0,,


In [58]:
df_review_bas.tail(5)

Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,country code,instant_bookable,cancellation_policy,room type,Construction year,price,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
49653,28424688,Come catch a Broadway Show & stay in Times Square,20032806094,verified,M,Manhattan,Theater District,40.7636,-73.98473,United States,US,False,flexible,Private room,2008.0,$89,$18,1.0,849.0,3/3/2022,90.0,4.0,12.0,361.0,,
53078,30316315,Enjoy great views of the City!,41031720514,unconfirmed,Row NYC,Manhattan,Theater District,40.75876,-73.98846,United States,US,False,flexible,Hotel room,2004.0,$486,$97,1.0,884.0,2/19/2022,25.23,3.0,9.0,360.0,,
49799,28505324,Amazing Micro Unit W/ communal rooftop and kit...,23813117370,verified,The Ridge,Manhattan,East Village,40.7238,-73.99038,United States,US,True,strict,Private room,2011.0,$123,$25,1.0,966.0,3/2/2022,34.46,2.0,4.0,355.0,,
62244,35378697,City King,44069230937,verified,Arlo SoHo,Manhattan,SoHo,40.7244,-74.00794,United States,US,False,moderate,Hotel room,2017.0,"$1,097",$219,1.0,1010.0,11/22/2021,33.08,4.0,11.0,80.0,,
52488,29990458,Sonder Battery Park | Studio Apartment,53558555483,verified,Sonder (NYC),Manhattan,Financial District,40.70617,-74.01486,United States,US,False,strict,Entire home/apt,2019.0,$121,$24,2.0,1024.0,2/21/2022,57.31,4.0,54.0,365.0,,


In [59]:
df_air_bnb.nsmallest(n= 5, columns="number of reviews")

Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,country code,instant_bookable,cancellation_policy,room type,Construction year,price,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
2,1002403,THE VILLAGE OF HARLEM....NEW YORK !,78829239556,,Elise,Manhattan,Harlem,40.80902,-73.9419,United States,US,True,flexible,Private room,2005.0,$620,$124,3.0,0.0,,,5.0,1.0,352.0,"I encourage you to use my kitchen, cooking and...",
20,1012382,Huge 2 BR Upper East Cental Park,79805143117,verified,Audrey,Manhattan,East Harlem,40.79685,-73.94872,United States,,,moderate,Entire home/apt,2013.0,$281,$56,7.0,0.0,,,3.0,2.0,347.0,"No smoking, No pets. No shoes in the house. V...",
27,1016248,Magnifique Suite au N de Manhattan - vue Cloitres,38811420224,verified,Adrianna,Manhattan,Inwood,40.86754,-73.92639,United States,,,strict,Private room,2017.0,$274,$55,4.0,0.0,,,,1.0,96.0,To treat our home with respect. No smoking in...,
37,1021771,Clean and Quiet in Brooklyn,26207748876,verified,Arthur,Brooklyn,Bedford-Stuyvesant,40.68876,-73.94312,United States,US,False,moderate,Private room,2004.0,$203,$41,60.0,0.0,,,,1.0,294.0,NO Shoes in the house. This is why my house is...,
39,1022876,Country space in the city,49725315867,verified,Deanna,Brooklyn,Flatbush,40.63702,-73.96327,United States,US,True,strict,Private room,2011.0,"$1,020",$204,1.0,0.0,,,3.0,1.0,356.0,House Guidelines for our BnB We are delighted ...,


In [60]:
df_air_bnb.nlargest(n= 5, columns="number of reviews")

Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,country code,instant_bookable,cancellation_policy,room type,Construction year,price,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
52488,29990458,Sonder Battery Park | Studio Apartment,53558555483,verified,Sonder (NYC),Manhattan,Financial District,40.70617,-74.01486,United States,US,False,strict,Entire home/apt,2019.0,$121,$24,2.0,1024.0,2/21/2022,57.31,4.0,54.0,365.0,,
62244,35378697,City King,44069230937,verified,Arlo SoHo,Manhattan,SoHo,40.7244,-74.00794,United States,US,False,moderate,Hotel room,2017.0,"$1,097",$219,1.0,1010.0,11/22/2021,33.08,4.0,11.0,80.0,,
49799,28505324,Amazing Micro Unit W/ communal rooftop and kit...,23813117370,verified,The Ridge,Manhattan,East Village,40.7238,-73.99038,United States,US,True,strict,Private room,2011.0,$123,$25,1.0,966.0,3/2/2022,34.46,2.0,4.0,355.0,,
53078,30316315,Enjoy great views of the City!,41031720514,unconfirmed,Row NYC,Manhattan,Theater District,40.75876,-73.98846,United States,US,False,flexible,Hotel room,2004.0,$486,$97,1.0,884.0,2/19/2022,25.23,3.0,9.0,360.0,,
49653,28424688,Come catch a Broadway Show & stay in Times Square,20032806094,verified,M,Manhattan,Theater District,40.7636,-73.98473,United States,US,False,flexible,Private room,2008.0,$89,$18,1.0,849.0,3/3/2022,90.0,4.0,12.0,361.0,,


In [61]:
df_air_bnb.sort_values(by=["number of reviews" , 'Construction year', "minimum nights"] , ascending=[True , False , True]).head(5)

Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,country code,instant_bookable,cancellation_policy,room type,Construction year,price,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
996,1551427,Stay with a Jazz Singer in Harlem!,38298412868,verified,Taylor,Manhattan,Harlem,40.80192,-73.95827,United States,US,True,flexible,Private room,2022.0,$993,$199,1.0,0.0,,,3.0,1.0,160.0,"No smoking in the apartment, in the foyer or o...",
2136,2181049,Large and sunny one BR (600 sq.ft),53882844476,unconfirmed,Olivia,Manhattan,Morningside Heights,40.81062,-73.96015,United States,US,True,moderate,Entire home/apt,2022.0,$606,$121,1.0,0.0,,,1.0,1.0,262.0,No Smoking No Drugs No Parties on property No...,
3482,2924445,Live like a native,21338861795,unconfirmed,Chris,Brooklyn,Bedford-Stuyvesant,40.68773,-73.9452,United States,US,False,strict,Private room,2022.0,$595,$119,1.0,0.0,,,4.0,1.0,273.0,,
3618,2999557,Exclusive Upper East Side Studio,24463750542,verified,Ellen,Manhattan,Upper East Side,40.77464,-73.95226,United States,US,True,moderate,Entire home/apt,2022.0,$655,$131,1.0,0.0,,,5.0,1.0,423.0,,
3637,3010051,Superbowl - NYC Apartment,94195661171,verified,Ankur,Manhattan,Midtown,40.75764,-73.96827,United States,US,True,moderate,Entire home/apt,2022.0,$75,$15,1.0,0.0,,,4.0,1.0,183.0,"Check-in is at 3pm, and check-out is by 11am. ...",


# 2. Sélectionner des lignes et des colonnes, créer de nouvelles colonnes ou modifier des données

## Sélectionner des colonnes

Chaque colonne possède un nom, on peut la sélectionner de deux manière différentes:

In [94]:
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True
1,Aline,24,1.75,2022-03-08,[Excel],False
2,Fred,46,1.64,2022-08-11,[Pandas],True


In [93]:
df.age

#ou

df["age"]

0    38
1    24
2    46
Name: age, dtype: int64

In [73]:
type(df["age"])

pandas.core.series.Series

In [74]:
df["age"].shape

(3,)

Si on veut accéder à plusieurs colonnes alors on doit utiliser un format différent:

In [92]:
df[["nom","age"]]

Unnamed: 0,nom,age
0,Bernard,38
1,Aline,24
2,Fred,46


L'ensemble des noms de colonnes se retrouve dans l'attribut columns:

In [79]:
df.columns

Index(['nom', 'age', 'taille', 'derniere_mise_a_jour', 'logiciel', 'Male',
       'new_name', 'new_name'],
      dtype='object')

On peut facilement créer une nouvelle colonne, supprimer ou renommer une colonne:

In [100]:
df["new_age"] = 48
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,new_name,new_age
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True,48,48
1,Aline,24,1.75,2022-03-08,[Excel],False,48,48
2,Fred,46,1.64,2022-08-11,[Pandas],True,48,48


In [96]:
df = df.rename(columns={"new_age":"new_name"})
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,new_name
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True,48
1,Aline,24,1.75,2022-03-08,[Excel],False,48
2,Fred,46,1.64,2022-08-11,[Pandas],True,48


In [98]:
df.drop("new_name" , axis=1)

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True
1,Aline,24,1.75,2022-03-08,[Excel],False
2,Fred,46,1.64,2022-08-11,[Pandas],True


In [99]:
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,new_name
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True,48
1,Aline,24,1.75,2022-03-08,[Excel],False,48
2,Fred,46,1.64,2022-08-11,[Pandas],True,48


**Exercice**
dans le dataframe df:
- créer une colone intitulée "nouelle colonne" qui prend une unique valeur booléen 10
- Renomer cette colonne "new_column"
- créer une nouvelle colonne  "addition" qui est égale à la valeur de "new_column" + 3
- supprimez la colonne "new_column"

In [119]:
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True
1,Aline,24,1.75,2022-03-08,[Excel],False
2,Fred,46,1.64,2022-08-11,[Pandas],True


In [137]:
df["nouvelle_colonne"] = 10
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,addition,nouvelle_colonne
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True,13,10
1,Aline,24,1.75,2022-03-08,[Excel],False,13,10
2,Fred,46,1.64,2022-08-11,[Pandas],True,13,10


In [160]:
df.rename(columns={"nouvelle_colonne":"new_colunm"})
df["addition"] = df["new_colunm"] + 3
df = df.drop("new_colunm", axis=1)
df

KeyError: 'new_colunm'

In [147]:
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,addition,new_colunm
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True,13,10
1,Aline,24,1.75,2022-03-08,[Excel],False,13,10
2,Fred,46,1.64,2022-08-11,[Pandas],True,13,10


## Sélection de lignes

On va utiliser deux méthodes pour accéder aux lignes et aux colonnes de notre data frame
- `iloc` qui permet de rechercher des lignes en fonction de leur indice
- `loc` qui permet de rechercher en fonction d'un filtre

### La méthode iloc

In [152]:
# La méthode .iloc suit la syntaxe suivante :  
df.iloc[indice_ligne, indice_colonne]

NameError: name 'indice_ligne' is not defined

In [None]:
# on cherche pour la première personne de la base (Aline) la valeur de la troisième colonne (taille)
df.iloc[0,2]

1.75

On peut également afficher seulement la première ligne

In [None]:
df.iloc[0]

nom                                   Aline
age                                      24
taille                                 1.75
derniere_mise_a_jour    2022-03-08 00:00:00
logiciel                            [Excel]
Male                                  False
Name: 1, dtype: object

ou plusieurs lignes et plusieurs colonnes

In [154]:
df.iloc[0:2, 3:6]

Unnamed: 0,derniere_mise_a_jour,logiciel,Male
0,2022-01-02,"[Excel, Pandas]",True
1,2022-03-08,[Excel],False


### La méthode loc

Cependant la majeure partie du temps on va filter les lignes en fonction de critères et non en fonction de leur indice.  
Pour cela on utilise la méthode loc

In [None]:
# Cette méthode suit la syntaxe suivante.
mon_dataframe.loc[ condition sur les lignes, colonne(s) ]

In [162]:
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True
1,Aline,24,1.75,2022-03-08,[Excel],False
2,Fred,46,1.64,2022-08-11,[Pandas],True


In [163]:
df.loc[ df['taille']> 1.70, :]

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True
1,Aline,24,1.75,2022-03-08,[Excel],False


On peut aussi utiliser une double condition, attention:
- il faut mettre des parenthèse
- on ne va pas utiliser "and" ou "or" mais & et |

In [None]:
df.loc[ (df['taille']> 1.70) &(df['age']<30), :]

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
1,Aline,24,1.75,2022-03-08,[Excel],False


### Indice et Index

Pour le moment nous n'avons pas distinguer deux notions proches qui sont celle de `ìndice`et `index``
- indice: correspond à la ligne sur lequel se trouve la donnée
- l'index est un moyen unique d'identifier une ligne

Quand on on crée un dataframe, l'indice correspond à l'index. Cependant après certaines opérations comme sort, les deux ne sont plus confondus.

In [None]:
# loc permet de rechercher en fonction de l'index
print(df.loc[[0,1],:])


       nom  age  taille derniere_mise_a_jour         logiciel   Male
0  Bernard   38    1.82           2022-01-02  [Excel, Pandas]   True
1    Aline   24    1.75           2022-03-08          [Excel]  False


Après une opération comme sort() on peut remettre à jour l'index

In [164]:
df.reset_index()

Unnamed: 0,index,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True
1,1,Aline,24,1.75,2022-03-08,[Excel],False
2,2,Fred,46,1.64,2022-08-11,[Pandas],True


On peut modifier l'index en utilisant une colonne mais il faut que celle-ci soit unique. On verra l'interet de cette opération quand on passera à a visualisation

In [169]:
df_index_name = df.set_index('nom')
df_index_name

Unnamed: 0_level_0,age,taille,derniere_mise_a_jour,logiciel,Male
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True
Aline,24,1.75,2022-03-08,[Excel],False
Fred,46,1.64,2022-08-11,[Pandas],True


In [171]:
df_index_name.iloc[0:2, :]

Unnamed: 0_level_0,age,taille,derniere_mise_a_jour,logiciel,Male
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True
Aline,24,1.75,2022-03-08,[Excel],False


In [4]:
df_index_name.loc[["Bernard"],:]

NameError: name 'df_index_name' is not defined

**`Exercice`**: 
- créez une table à partir de la table airbnb en ne concervant que les annonces disponibles plus de 100 jours par an ou 100 jours exactement.
- selectionner parmi cette table créée les 15 annonces ayant le plus de revues et pour ces annonces ne conserver que les colonnes "host id",	"host name"	et "neighbourhood"
- renommez ces colonnes "host_id",	"host_name"	et "neighbourhood"
- faite de host_id l'index puis triez la table en fonction de l'index.

In [212]:
# Récupérer les données Airbnb Open Data
df_air_bnb = pd.read_csv("Airbnb_Open_Data.csv")
# Récupérer les listes avec plus de 100 jours de disponibilité
df_air_bnb_annonce = df_air_bnb.loc[df_air_bnb['availability 365'] >= 100, :]
# Trier les listes par nombre de commentaires
df_air_bnb_annonce = df_air_bnb_annonce.sort_values(by='number of reviews', ascending=False)
# Récupérer les colonnes pertinentes et limiter à 15 entrées
df_air_bnb_annonce = df_air_bnb_annonce[['host id' , 'host name' , 'neighbourhood']].head(15)
# Renommer les colonnes
df_air_bnb_annonce = df_air_bnb_annonce.rename(columns={'host id': 'host_id', 'host name': 'host_name'})
# Définir host_id comme index
df_air_bnb_annonce = df_air_bnb_annonce.set_index('host_id')
# Trier par index
df_air_bnb_annonce.sort_index()


  df_air_bnb = pd.read_csv("Airbnb_Open_Data.csv")


Unnamed: 0_level_0,host_name,neighbourhood
host_id,Unnamed: 1_level_1,Unnamed: 2_level_1
2035884636,Martin,Williamsburg
3714601299,Jj,Harlem
5145717894,Jj,Harlem
14713491370,Arlo SoHo,SoHo
20032806094,M,Theater District
23813117370,The Ridge,East Village
28338699286,Martin,Williamsburg
39066649621,M,Theater District
41031720514,Row NYC,Theater District
51011773515,Jj,Harlem


## L'échantillonage avec sample

Enfin il arrive souvent qu'on veille créer un échantillon aléatoire de nos données pour travailler avec mon de donner.
On va utiliser la méthode sample qui a plusieurs paramètres interessants:
- n (int): si on veut préciser combien de données on veut obtenir
- frac (float) : si on veut préciser la fraction de données qu'on veut obtenir 
- replace (bool): est ce qu'on autorise qu'une occurrence puisse être tirée au sort plusieurs fois
- weight: est ce que certaines occurrences doivent avoir plus de poids (utile dans les jeux non équilibrés) 

In [None]:
df.sample(frac=1/3)

NameError: name 'df' is not defined

## Créer de nouvelles colonnes ou modifier la valeur d'une colonne 

### Opération simple

In [216]:
df = pd.DataFrame({
    "nom": ["Bernard", "Aline", "Fred"], 
    "age": [38, 24, 46],
    "taille": [1.82,1.75,1.64],
    "derniere_mise_a_jour": [pd.Timestamp("20220102"),pd.Timestamp("20220308"),pd.Timestamp("20220811")],
    "logiciel": [["Excel","Pandas"],["Excel"],["Pandas"]],
    "Male":[True,False,True]
    })

df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True
1,Aline,24,1.75,2022-03-08,[Excel],False
2,Fred,46,1.64,2022-08-11,[Pandas],True


Il est possible de modifier une colonne en faisant une simple opération

In [None]:
df["taille_inch"]= df["taille"]*1.6

Avec la méthode loc, on peut meme ne modifier qu'une partie d'une colone

In [217]:
df.loc[df["taille"]>1.8,"age"]=30

In [None]:
df["date_de_naissance"] = 2022 - df["age"] 
df["ims"] = df["age"] * 2 + df["taille"]

Mais avec ce n'est pas possible de l'utiliser avec des fonctions

In [221]:
df["name_length"] = len(df["nom"])

### la fonction apply

On va dans ce cas là utiliser une fonction apply à l'aide d'une fonction lambda

In [227]:
df["name_length"] = df["nom"].apply(lambda x: len(x))
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,new_col,name_length,observation_taille
0,Bernard,30,1.82,2022-01-02,"[Excel, Pandas]",True,8.82,7,grand
1,Aline,24,1.75,2022-03-08,[Excel],False,6.75,5,petit
2,Fred,46,1.64,2022-08-11,[Pandas],True,5.64,4,petit


Ce qui va nous permettre des usages plus complexes

In [223]:
df["observation_taille"] = df["taille"].apply(lambda x: "grand" if x> 1.8 else "petit")

In [224]:
df[["nom","taille","observation_taille"]]

Unnamed: 0,nom,taille,observation_taille
0,Bernard,1.82,grand
1,Aline,1.75,petit
2,Fred,1.64,petit


Attention si on veut créer un colonne à partir de deux colonnes, l'écriture diffère:

In [225]:
df["new_col"] = df[["taille","nom"]].apply(lambda x: x[0]+len(x[1]), axis=1)

In [226]:
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,new_col,name_length,observation_taille
0,Bernard,30,1.82,2022-01-02,"[Excel, Pandas]",True,8.82,7,grand
1,Aline,24,1.75,2022-03-08,[Excel],False,6.75,5,petit
2,Fred,46,1.64,2022-08-11,[Pandas],True,5.64,4,petit


### remplacer des données par d'autres avec map ou catcode

Map permet d'utiliser un dictionnaire pour remplacer des valeurs par n'importe quelles autres.

In [None]:
df["Male"].map({True:1,False:0})

Quand on a beaucoup de valeurs et qu'on veut faire une conversion numérique, on peut utiliser la méthode catcode

In [None]:
df["Male"].astype("category").cat.codes

# 3. Nettoyage de données

## Traitement des valeurs manquantes

**Exercice:**

Supposons qu'à partir du dataset airbnb nous voulions faire une étude sur le prix des logements en fonction du quartier. Nous pensons que la taille de la description peut avoir un impact. Quel traitement des variables nan faudrait il-faire?

In [12]:
df_air_bnb.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102599 entries, 0 to 102598
Data columns (total 26 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   id                              102599 non-null  int64  
 1   NAME                            102349 non-null  object 
 2   host id                         102599 non-null  int64  
 3   host_identity_verified          102310 non-null  object 
 4   host name                       102193 non-null  object 
 5   neighbourhood group             102570 non-null  object 
 6   neighbourhood                   102583 non-null  object 
 7   lat                             102591 non-null  float64
 8   long                            102591 non-null  float64
 9   country                         102067 non-null  object 
 10  country code                    102468 non-null  object 
 11  instant_bookable                102494 non-null  object 
 12  cancellation_pol

On a ajouté Marie à notre base de données mais on ne connait pas son âge. C'est parfois génant dans les calculs et les traitements. Il faut donc nettoyer la base de données.

In [13]:
from cmath import nan


df = pd.DataFrame({
    "nom": ["Bernard", "Aline", "Fred", "Marie"], 
    "age": [38, 24, 46,nan],
    "taille": [1.82,1.75,1.64,1.70],
    "derniere_mise_a_jour": [pd.Timestamp("20220102"),pd.Timestamp("20220308"),pd.Timestamp("20220811"),pd.Timestamp("20220812")],
    "logiciel": [["Excel","Pandas"],["Excel"],["Pandas"],["Excel"]],
    "Male":[True,False,True,False]
    })


In [None]:
# On peut commencer par rechercher ces valeurs manquantes
df.info()

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,True,False,False,False,False


On peut suivre 4 étapes pour traiter les valeurs manquantes
- supprimer les colonnes à la qualité trop faible : celles qui ont entre 50% et 99% de données manquantes 
- supprimer les lignes des colonnes critiques: si une colonne est centrale pour notre analyse, alors les lignes qui ne possèdent pas cette information n'ont aucun interet, on peut donc les supprimer
- Se poser la question de est ce qu'il faut remplacer ou non les nan ?
    -Si on fait que des agrégats (mean(), sum() ou des opérations simples (+ - /):pas de besoin de remplacer les nans
    -Si on utilise apply , si on utilise un modèle de ML (avec sckitlearn), cela ne tolère pas les nans non plus. Il faut les remplacer.
    -Il existe plusieurs stratégies :
- remplacer les données des autres colonnes: de nombreuses manipulations ne peuvent être réalisées si on a des na, il faut donc remplacer les na par quelques choses pour pouvoir les traiter, il existe plusieurs stratégies:
    - une valeur indentifiable: 0 , "pas de données"
    - une valeur statistiquement plausible
        - la moyenne
        - la valeur de la donnée précédente ou suivante

In [15]:
#supprimer les colonnes à la qualité trop faible

df.drop(["liste","des","colonnes","a","supprimer"], axis=1)

# supprimer les lignes des colonnes crtiiques
df = df.dropna(subset=['age'])

# supprimer les lignes des colonnes non-crtiiques 100 lignes au moins
df.dropna(subset=['age', 'taille'], thresh = 100)

# remplacer les données des autres colonnes

    # par une valeur identifiable
df["age"] = df["age"].fillna(25)

    # par une valeur statistiquement plausible
df["age"] = df["age"].fillna(df["age"].mean())

df["age"] = df["age"].fillna(method="ffil")

KeyError: "['liste', 'des', 'colonnes', 'a', 'supprimer'] not found in axis"

In [None]:
#On peut choisir de remplacer cette valeur
df.fillna(value=25)

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,Bernard,38.0,1.82,2022-01-02,"[Excel, Pandas]",True
1,Aline,24.0,1.75,2022-03-08,[Excel],False
2,Fred,46.0,1.64,2022-08-11,[Pandas],True
3,Marie,25.0,1.7,2022-08-12,[Excel],False


On peut aussi remplacer les valeurs manquantes suivant des méthodes indiquées avec l'argument nommé `method` :

- `'ffill'` pour *forward fill*, c'est-à-dire en utilisant la dernière valeur présente :

In [None]:
df.fillna(method='ffill')

Supposons maintenant que la base de données soit mal renseignée et qu'une information s'y retrouve en double

## Supprimer les doublons

In [17]:
df.drop_duplicates

<bound method DataFrame.drop_duplicates of        nom   age  taille derniere_mise_a_jour         logiciel   Male
0  Bernard  38.0    1.82           2022-01-02  [Excel, Pandas]   True
1    Aline  24.0    1.75           2022-03-08          [Excel]  False
2     Fred  46.0    1.64           2022-08-11         [Pandas]   True
3    Marie   NaN    1.70           2022-08-12          [Excel]  False>

## Conversion des types

On peut utiliser la méthode `astype` pour changer le type d'une `Colonne` :

In [None]:
df.age = df.age.astype('str')

df.age.dtype
df.age

0    38.0
1    24.0
2    46.0
3     nan
Name: age, dtype: object

In [None]:
# Exercice: essayez de deviner le résultat de cette opération:
df.age.astype('str') + df.age.astype('str')

**`Exercice`**: 
- Explorez le type des colonnes price et service fees, trouvez le moyen de les mettre au bon format. 

In [39]:
df_air_bnb = pd.read_csv("Airbnb_Open_Data.csv")
df_air_bnb['price'] = df_air_bnb['price'].str.replace('$','' , regex = False).str.replace(',','' ,regex = False)
df_air_bnb['price'] = df_air_bnb['price'].astype(float)
df_air_bnb['service fee'] = df_air_bnb['service fee'].str.replace('$','', regex = False).str.replace(',','' ,regex = False)
df_air_bnb['service fee'] = df_air_bnb['service fee'].astype(float)
df_air_bnb

# df_air_bnb["price_fillna"] = df_air_bnb["price"].fillna("0")
# df_air_bnb["price_fillna"] = df_air_bnb["price_fillna"].apply(lambda x : x.replace("$","").replace(",",""))
# df_air_bnb["price_fillna"] = df_air_bnb["price_fillna"].astype(float)
# df_air_bnb["price_fillna"]
# # solution en utilisant les mécanismes de python
# df_air_bnb["price_str"] = df_air_bnb["price"].astype(str)

# df_air_bnb["price_str"].apply(lambda x : x.replace("$","").replace(",","")).astype(float) 
# df_air_bnb["price_sans_dollar"] = df_air_bnb["price"].str.replace("$","").str.replace(",","")
# df_air_bnb["price_sans_dollar"].astype(float)

  df_air_bnb = pd.read_csv("Airbnb_Open_Data.csv")


Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,...,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
0,1001254,Clean & quiet apt home by the park,80014485718,unconfirmed,Madaline,Brooklyn,Kensington,40.64749,-73.97237,United States,...,193.0,10.0,9.0,10/19/2021,0.21,4.0,6.0,286.0,Clean up and treat the home the way you'd like...,
1,1002102,Skylit Midtown Castle,52335172823,verified,Jenna,Manhattan,Midtown,40.75362,-73.98377,United States,...,28.0,30.0,45.0,5/21/2022,0.38,4.0,2.0,228.0,Pet friendly but please confirm with me if the...,
2,1002403,THE VILLAGE OF HARLEM....NEW YORK !,78829239556,,Elise,Manhattan,Harlem,40.80902,-73.94190,United States,...,124.0,3.0,0.0,,,5.0,1.0,352.0,"I encourage you to use my kitchen, cooking and...",
3,1002755,,85098326012,unconfirmed,Garry,Brooklyn,Clinton Hill,40.68514,-73.95976,United States,...,74.0,30.0,270.0,7/5/2019,4.64,4.0,1.0,322.0,,
4,1003689,Entire Apt: Spacious Studio/Loft by central park,92037596077,verified,Lyndon,Manhattan,East Harlem,40.79851,-73.94399,United States,...,41.0,10.0,9.0,11/19/2018,0.10,3.0,1.0,289.0,"Please no smoking in the house, porch or on th...",
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
102594,6092437,Spare room in Williamsburg,12312296767,verified,Krik,Brooklyn,Williamsburg,40.70862,-73.94651,United States,...,169.0,1.0,0.0,,,3.0,1.0,227.0,No Smoking No Parties or Events of any kind Pl...,
102595,6092990,Best Location near Columbia U,77864383453,unconfirmed,Mifan,Manhattan,Morningside Heights,40.80460,-73.96545,United States,...,167.0,1.0,1.0,7/6/2015,0.02,2.0,2.0,395.0,House rules: Guests agree to the following ter...,
102596,6093542,"Comfy, bright room in Brooklyn",69050334417,unconfirmed,Megan,Brooklyn,Park Slope,40.67505,-73.98045,United States,...,198.0,3.0,0.0,,,5.0,1.0,342.0,,
102597,6094094,Big Studio-One Stop from Midtown,11160591270,unconfirmed,Christopher,Queens,Long Island City,40.74989,-73.93777,United States,...,109.0,2.0,5.0,10/11/2015,0.10,3.0,1.0,386.0,,


## Consistance des données

La consistance des données est la dernière grande étape du nettoyage de données.
Elle consiste à uniformiser les valeurs catégorielles et à supprimer les valeurs abbérantes des variables numériques. Pour faire cela il faut maitriser les opérations d'agrégation du les données.
Nous allons donc les étudier.

# 4. Aggrégats 

## Groupby            
Variance

On peut calculer des valeurs pour décrire les colonnes d'une
`DataFrame` avec les méthodes suivantes:

-   'sum'
-   'count'
-   'median'
-   'quantile'
-   'min'
-   'max'
-   'mean'
-   'var'
-   'std'

On peut aussi appliquer n'importe quelle fonction python en la passant
en argument à la méthode `apply` (mais attention à la performance).

  ## Voici une description de chaque méthode de calcul de valeurs pour les colonnes d'un DataFrame :

- sum : Retourne la somme de toutes les valeurs dans la colonne.

- count : Retourne le nombre de valeurs non manquantes dans la colonne.

- median : Retourne la médiane des valeurs dans la colonne. La médiane est le nombre central d'une série de données ordonnées, c'est-à-dire le nombre qui se trouve au milieu de la série de données lorsqu'elle est triée.

- quantile : Retourne le quantile spécifié des valeurs dans la colonne. Les quantiles sont des valeurs qui divisent une série de données en segments égaux. Par exemple, le quantile 0.5 (ou la médiane) divise les données en deux segments égaux.

- min : Retourne la valeur minimale dans la colonne.

- max : Retourne la valeur maximale dans la colonne.

- mean : Retourne la moyenne des valeurs dans la colonne. La moyenne est simplement la somme des valeurs dans la colonne divisée par le nombre de valeurs.

- var : Retourne la variance des valeurs dans la colonne. La variance est une mesure de la dispersion des valeurs autour de la moyenne.

- std : Retourne l'écart-type des valeurs dans la colonne. L'écart-type est une mesure de la dispersion des valeurs autour de la moyenne et est la racine carrée de la variance.



In [79]:
df_air_bnb['number of reviews'].quantile([x/10 for x in range(1,10)])

0.1     0.0
0.2     1.0
0.3     2.0
0.4     4.0
0.5     7.0
0.6    13.0
0.7    23.0
0.8    42.0
0.9    81.5
Name: number of reviews, dtype: float64

In [80]:
df= pd.DataFrame([["Paris",2190327,105.4],["Pau", 77251,31.51],["Biarritz", 24457,11.66],["Bordeaux",252040, 49.36]], columns=['Nom', 'Population', 'Superficie'])
df.quantile([0.25,0.5,0.75])

  df.quantile([0.25,0.5,0.75])


Unnamed: 0,Population,Superficie
0.25,64052.5,26.5475
0.5,164645.5,40.435
0.75,736611.75,63.37


In [81]:
# Ou plus simplement:
df.describe()

Unnamed: 0,Population,Superficie
count,4.0,4.0
mean,636018.8,49.4825
std,1040760.0,40.333336
min,24457.0,11.66
25%,64052.5,26.5475
50%,164645.5,40.435
75%,736611.8,63.37
max,2190327.0,105.4


In [78]:
df_air_bnb.describe()

Unnamed: 0,id,host id,lat,long,Construction year,price,service fee,minimum nights,number of reviews,reviews per month,review rate number,calculated host listings count,availability 365
count,102599.0,102599.0,102591.0,102591.0,102385.0,102352.0,102326.0,102190.0,102416.0,86720.0,102273.0,102280.0,102151.0
mean,29146230.0,49254110000.0,40.728094,-73.949644,2012.487464,625.293536,125.026924,8.135845,27.483743,1.374022,3.279106,7.936605,141.133254
std,16257510.0,28539000000.0,0.055857,0.049521,5.765556,331.671614,66.325739,30.553781,49.508954,1.746621,1.284657,32.21878,135.435024
min,1001254.0,123600500.0,40.49979,-74.24984,2003.0,50.0,10.0,-1223.0,0.0,0.01,1.0,1.0,-10.0
25%,15085810.0,24583330000.0,40.68874,-73.98258,2007.0,340.0,68.0,2.0,1.0,0.22,2.0,1.0,3.0
50%,29136600.0,49117740000.0,40.72229,-73.95444,2012.0,624.0,125.0,3.0,7.0,0.74,3.0,1.0,96.0
75%,43201200.0,73996500000.0,40.76276,-73.93235,2017.0,913.0,183.0,5.0,30.0,2.0,4.0,2.0,269.0
max,57367420.0,98763130000.0,40.91697,-73.70522,2022.0,1200.0,240.0,5645.0,1024.0,90.0,5.0,332.0,3677.0


On peut aussi effectuer ces calculs sur des aggrégats calculés en regroupant les lignes d'une `DataFrame` ayant la même valeur pour une colonne donnée :



In [None]:
df= pd.DataFrame([["Paris","Île-de-France",2190327,105.4],["Pau", "Nouvelle-Aquitaine", 77251,31.51],
                  ["Biarritz", "Nouvelle-Aquitaine", 24457,11.66],["Bordeaux", "Nouvelle-Aquitaine",252040, 49.36],
                 ["Montreuil", "Île-de-France",108402, 8.92]], columns=['Nom', 'Région', 'Population', 'Superficie'])
gb=df.groupby(by='Région').median()
gb

  gb=df.groupby(by='Région').median()


Unnamed: 0_level_0,Population,Superficie
Région,Unnamed: 1_level_1,Unnamed: 2_level_1
Nouvelle-Aquitaine,77251.0,31.51
Île-de-France,1149364.5,57.16


In [None]:
gb=df.groupby(by='Région').min()
gb

Unnamed: 0_level_0,Nom,Population,Superficie
Région,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Nouvelle-Aquitaine,Biarritz,24457,11.66
Île-de-France,Montreuil,108402,8.92


On peut aussi appeler la méthode `size` pour connaitre les effectifs
de chaque aggrégat :



In [None]:
gb=df.groupby(by='Région').size()
gb

Région
Nouvelle-Aquitaine    3
Île-de-France         2
dtype: int64

On prefère cependant à cette dernière méthode, la méthode value_counts()

In [None]:
df.value_counts()

On peut également obtenir plusieurs indicateurs avec la méthode agg()

In [None]:
df.groupby(by=['Région','Nom']).agg(["min","std"])

Unnamed: 0_level_0,Unnamed: 1_level_0,Population,Population,Superficie,Superficie
Unnamed: 0_level_1,Unnamed: 1_level_1,min,std,min,std
Région,Nom,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Nouvelle-Aquitaine,Biarritz,24457,,11.66,
Nouvelle-Aquitaine,Bordeaux,252040,,49.36,
Nouvelle-Aquitaine,Pau,77251,,31.51,
Île-de-France,Montreuil,108402,,8.92,
Île-de-France,Paris,2190327,,105.4,


Bien sûr, cet aperçu ne fait qu'effleurer les possibilités de [groupby](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html) !



`Exercice`:
A partir de la table airbnb, calculez: 
- l'année de construction moyenne en fonction de "group_neibourhood"
- le nombre de revue maximum en fonction de la validation de l'annonce et du type de chambre

## Les pivots tables

Il est possible avec de pandas de réaliser une pivot table comme avec excel, on utilise pour ça la méthode .pivot_table() qui prend 4 arguments:
- index : variable(s) placée(s) en ligne 
- columns : variable(s) placée en colonne(s) 
- values : variable sur laquelle on va appliquer la fonction d’agrégation
- aggfunc : fonction d’agrégation

Exemple:

In [None]:
df = pd.DataFrame({
    "nom": ["Bernard", "Aline", "Fred", "Marie"], 
    "age": [38, 24, 46,32],
    "taille": [1.82,1.75,1.64,1.70],
    "derniere_mise_a_jour": [pd.Timestamp("20220102"),pd.Timestamp("20220308"),pd.Timestamp("20220811"),pd.Timestamp("20220812")],
    "logiciel": ["Excel","Pandas","Pandas","Excel"],
    "Male":[True,False,True,False]
    })

df.pivot_table(index="Male", columns = "logiciel", values="taille", aggfunc = "min")

# on pourrait certainement trouver des exemples plus interessants

logiciel,Excel,Pandas
Male,Unnamed: 1_level_1,Unnamed: 2_level_1
False,1.7,1.75
True,1.82,1.64


`Exercice`:  
A partir de la table airbnb en faisant un tableau croisé dynamique, calculez :
- l'année de construction moyenne en fonction de "group_neibourhood" 
- le nombre de revue maximum en fonction de la validation de l'annonce et du type de chambre

# 5. Opérations d'ensemble

## Concaténations avec concat

Les exemples ci-après illustrent la concaténation (ou plutôt les façons de concaterner) de deux `DataFrame`:



In [None]:
df1 = pd.DataFrame({'A': [3, 5], 'B': [1, 2]})
df1

Unnamed: 0,A,B
0,3,1
1,5,2


In [None]:
df2 = pd.DataFrame({'A': [6, 7], 'B': [4, 9]})
df2

Unnamed: 0,A,B
0,6,4
1,7,9


In [None]:
# Si on concatène directement on va avoir un problème d'indice dans la table crée
pd.concat([df1, df2])

Unnamed: 0,A,B
0,3,1
1,5,2
0,6,4
1,7,9


In [None]:
# On va donc ignorer l'index
pd.concat([df1, df2], ignore_index = True)

Unnamed: 0,A,B
0,3,1
1,5,2
2,6,4
3,7,9


In [None]:
# On peut aussi concaténer dans le sens des colonnes
df1 = pd.DataFrame({'A': [3, 5], 'B': [1, 2]})
df2 = pd.DataFrame({'C': [6, 7], 'D': [4, 9]})
pd.concat([df1, df2], axis=1)

Unnamed: 0,A,B,C,D
0,3,1,6,4
1,5,2,7,9


## Jointure avec merge



Sur le même principe que les jointures de bases de données
relationnelles, on peut fusionner les données de deux `DataFrame` avec
la méthode `merge`. Par défaut, `merge` utilise le ou les noms de
colonne en commun, sinon on peut préciser la colonne de jointure avec
l'argument nommé `on` :



In [None]:
df_pop= pd.DataFrame([["Paris",2190327],["Pau", 77251],["Biarritz", 24457],["Bodeaux",252040]], columns=['Nom', 'Population'])
df_sup= pd.DataFrame([["Pau",31.51],["Biarritz",11.66],["Paris",105.4],["Bordeaux",49.36]], columns=['Nom', 'Superficie'])
df_pop.merge(df_sup)

S'il n'y a pas toutes les valeurs de la colonne de jointure dans les deux `DataFrame`, on peut préciser les lignes à obtenir avec l'argument nommé `how` qui peut prendre les valeurs :

-   `'left'` : qui considère les lignes de la `DataFrame` de gauche,
    c'est-à-dire celle sur laquelle on appelle la méthode `merge`.



In [None]:
df_pop= pd.DataFrame([["Paris",2190327],["Pau", 77251],["Biarritz", 24457],["Bodeaux",252040]], columns=['Nom', 'Population'])
df_sup= pd.DataFrame([["Pau",31.51],["Biarritz",11.66],["Paris",105.4],["Marseille",240.6]], columns=['Nom', 'Superficie'])
df_pop.merge(df_sup, how='left')

-   `'right'` : qui considère les lignes de la `DataFrame` de droite,
    c'est-à-dire celle passée en argument à la méthode `merge`.



In [None]:
df_pop= pd.DataFrame([["Paris",2190327],["Pau", 77251],["Biarritz", 24457],["Bodeaux",252040]], columns=['Nom', 'Population'])
df_sup= pd.DataFrame([["Pau",31.51],["Biarritz",11.66],["Paris",105.4],["Marseille",240.6]], columns=['Nom', 'Superficie'])
df_pop.merge(df_sup, how='right')

-   `'inner'` : qui considère l'intersection des lignes de la
    `DataFrame` de droite et celles de la `DataFrame` de gauche.



In [None]:
df_pop= pd.DataFrame([["Paris",2190327],["Pau", 77251],["Biarritz", 24457],["Bodeaux",252040]], columns=['Nom', 'Population'])
df_sup= pd.DataFrame([["Pau",31.51],["Biarritz",11.66],["Paris",105.4],["Marseille",240.6]], columns=['Nom', 'Superficie'])
df_pop.merge(df_sup, how='inner')

**Exercice :** Quelle est la valeur par défaut de l'argument `how` ?



## Liens

<https://pandas.pydata.org/docs/user_guide/10min.html#min> : intro en 10 minutes

<https://pandas.pydata.org/docs/user_guide/cookbook.html#cookbook> : d'autres utilisations plus avancées

<https://www.kaggle.com/learn/pandas>

In [None]:
df_air_bnb["price"] = df_air_bnb.price.str.slice(start=1).str.replace(',', '', regex=False).astype("float")
df_air_bnb["service fee"] = df_air_bnb["service fee"].str.slice(start=1).str.replace(',', '', regex=False).astype("float")