# 1. Importer et découvrir un dataframe

Les deux premières choses à faire avec Pandas sont: 
- de l'installer: pip install pandas dans un terminal
- de l'importer: import pandas as pd dans une cellule


Vous ne devrez l'installer qu'une seule fois sur votre ordinateur, il faudra en revanche l'importer à chaque fois

In [142]:
import pandas as pd

## Créer un dataframe et l'afficher

Nous avons dit que l'objet que nous allons utiliser est principalement le dataframe qui est de dimension 2 (lignes et colonnes)

On peut le créer directement "à la main"

In [143]:
df = pd.DataFrame({
    "nom": ["Bernard", "Aline", "Fred"], 
    "age": [38, 24, 46],
    "taille": [1.82,1.75,1.64],
    "derniere_mise_a_jour": [pd.Timestamp("20220102"),pd.Timestamp("20220308"),pd.Timestamp("20220811")],
    "logiciel": [["Excel","Pandas"],["Excel"],["Pandas"]],
    "Male":[True,False,True]
    })



On appelle souvent les tableaux "df" pour dataframe mais rien ne nous empêche de lui donner le nom que l'on veut
On a même vu qu'avec la Pep8, il vaut mieux donner des noms parlant à nos objets.

On a créé notre tableau mais rien ne s'est passé, pour l'afficher il faut simplement appeler le dataframe:

In [144]:
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True
1,Aline,24,1.75,2022-03-08,[Excel],False
2,Fred,46,1.64,2022-08-11,[Pandas],True


In [145]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 6 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   nom                   3 non-null      object        
 1   age                   3 non-null      int64         
 2   taille                3 non-null      float64       
 3   derniere_mise_a_jour  3 non-null      datetime64[ns]
 4   logiciel              3 non-null      object        
 5   Male                  3 non-null      bool          
dtypes: bool(1), datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 255.0+ bytes


On peut voir qu'un tableau peut contenir des données de plusieurs types, on peut obtenir ces types à l'aide de cette commande

In [146]:
df.dtypes

nom                             object
age                              int64
taille                         float64
derniere_mise_a_jour    datetime64[ns]
logiciel                        object
Male                              bool
dtype: object

Cependant la plupart du temps on travaille avec des bases de données qui existent déja et qu'il faut importer.
Le format le plus facile pour importer des données est le format CSV (comma separated values).
Cependant il existe plusieurs types de CSV, le standard qu'on vous conseille d'utiliser est celui où chaque colonne est séparée par une virgule, chaque ligne par un retour à la ligne. Les nombres à virgule sont donc dans ce standard écrits avec des points.

Quand ces règles sont respectées, l'import est aussi simple que cela:

## Importer un dataframe

In [147]:
# On utilise la fonction read_csv et on indique le chemin relatif
df_air_bnb = pd.read_csv("Airbnb_Open_Data.csv")
df_air_bnb.tail(10)

  df_air_bnb = pd.read_csv("Airbnb_Open_Data.csv")


Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,country code,instant_bookable,cancellation_policy,room type,Construction year,price,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
102589,6089676,Lrg room 1 block from Prospect Park,74549151787,unconfirmed,Dave,Brooklyn,Flatbush,40.65231,-73.96189,United States,US,False,flexible,Private room,2006.0,$306,$61,3.0,0.0,,,1.0,1.0,200.0,House Rules 1. Check-in is 4 pm local time. If...,
102590,6090228,Wonderful artists' loft in Brooklyn,9184535139,unconfirmed,Daniel,Brooklyn,Crown Heights,40.66673,-73.96127,United States,US,True,moderate,Entire home/apt,2003.0,$250,$50,1.0,0.0,,,1.0,1.0,276.0,#NAME?,
102591,6090781,Columbus Ave Apt 1 block from Park,50908010324,verified,Lawrence,Manhattan,Upper West Side,40.77408,-73.98181,United States,US,False,strict,Entire home/apt,2005.0,"$1,139",$228,5.0,17.0,1/4/2019,0.35,5.0,1.0,134.0,#NAME?,
102592,6091333,3BR/1 Ba in TriBeCa w/ outdoor deck,53266862889,unconfirmed,Nick,Manhattan,Tribeca,40.71845,-74.01183,United States,US,False,moderate,Entire home/apt,2016.0,$787,$157,1.0,0.0,,,2.0,1.0,177.0,Guests should treat my home as if it were thei...,
102593,6091885,"Welcoming, Clean, Cheap on St Marks",33188605074,verified,Felipe,Manhattan,East Village,40.72826,-73.98422,United States,US,True,strict,Private room,2017.0,"$1,099",$220,1.0,8.0,9/6/2015,0.16,4.0,2.0,152.0,* No smoking indoors. * No pets * No loud/la...,
102594,6092437,Spare room in Williamsburg,12312296767,verified,Krik,Brooklyn,Williamsburg,40.70862,-73.94651,United States,US,False,flexible,Private room,2003.0,$844,$169,1.0,0.0,,,3.0,1.0,227.0,No Smoking No Parties or Events of any kind Pl...,
102595,6092990,Best Location near Columbia U,77864383453,unconfirmed,Mifan,Manhattan,Morningside Heights,40.8046,-73.96545,United States,US,True,moderate,Private room,2016.0,$837,$167,1.0,1.0,7/6/2015,0.02,2.0,2.0,395.0,House rules: Guests agree to the following ter...,
102596,6093542,"Comfy, bright room in Brooklyn",69050334417,unconfirmed,Megan,Brooklyn,Park Slope,40.67505,-73.98045,United States,US,True,moderate,Private room,2009.0,$988,$198,3.0,0.0,,,5.0,1.0,342.0,,
102597,6094094,Big Studio-One Stop from Midtown,11160591270,unconfirmed,Christopher,Queens,Long Island City,40.74989,-73.93777,United States,US,True,strict,Entire home/apt,2015.0,$546,$109,2.0,5.0,10/11/2015,0.1,3.0,1.0,386.0,,
102598,6094647,585 sf Luxury Studio,68170633372,unconfirmed,Rebecca,Manhattan,Upper West Side,40.76807,-73.98342,United States,US,False,flexible,Entire home/apt,2010.0,"$1,032",$206,1.0,0.0,,,3.0,1.0,69.0,,


Cependant si on regarde la [documentation](https://pandas.pydata.org/docs/user_guide/io.html), on voit que:
- On peut importer depuis une multitude de format: text, excel, json, xml, sql....
- On peut modifier des paramètres de la fonction: 
    - sep : le séparateur de colonne
    - delimiter : le séparateur de lignes
    - header : pour désigner la ligne qui contient les noms de colonnes
    

Une fois un fichier importé, il est important d'obtenir quelques informations essentielles:

In [148]:
df_air_bnb.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102599 entries, 0 to 102598
Data columns (total 26 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   id                              102599 non-null  int64  
 1   NAME                            102349 non-null  object 
 2   host id                         102599 non-null  int64  
 3   host_identity_verified          102310 non-null  object 
 4   host name                       102193 non-null  object 
 5   neighbourhood group             102570 non-null  object 
 6   neighbourhood                   102583 non-null  object 
 7   lat                             102591 non-null  float64
 8   long                            102591 non-null  float64
 9   country                         102067 non-null  object 
 10  country code                    102468 non-null  object 
 11  instant_bookable                102494 non-null  object 
 12  cancellation_pol

Le nombre de lignes et de colonnes:

In [149]:
df_air_bnb.shape

(102599, 26)

Le type de chaque colonne comme nous l'avons déja vu:

In [150]:
df_air_bnb.dtypes

id                                  int64
NAME                               object
host id                             int64
host_identity_verified             object
host name                          object
neighbourhood group                object
neighbourhood                      object
lat                               float64
long                              float64
country                            object
country code                       object
instant_bookable                   object
cancellation_policy                object
room type                          object
Construction year                 float64
price                              object
service fee                        object
minimum nights                    float64
number of reviews                 float64
last review                        object
reviews per month                 float64
review rate number                float64
calculated host listings count    float64
availability 365                  

Etant donné la taille de la table, ce serait inutile de tout afficher, et aussi beaucoup trop lourd. C'est cependant souvent utile d'avoir un aperçu de la table. On va afficher donc le début ou la fin de la table comme cela:

In [151]:
pd.set_option('display.max_columns', None)

# On affiche les 10 premières lignes
df_air_bnb.head(10)

Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,country code,instant_bookable,cancellation_policy,room type,Construction year,price,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
0,1001254,Clean & quiet apt home by the park,80014485718,unconfirmed,Madaline,Brooklyn,Kensington,40.64749,-73.97237,United States,US,False,strict,Private room,2020.0,$966,$193,10.0,9.0,10/19/2021,0.21,4.0,6.0,286.0,Clean up and treat the home the way you'd like...,
1,1002102,Skylit Midtown Castle,52335172823,verified,Jenna,Manhattan,Midtown,40.75362,-73.98377,United States,US,False,moderate,Entire home/apt,2007.0,$142,$28,30.0,45.0,5/21/2022,0.38,4.0,2.0,228.0,Pet friendly but please confirm with me if the...,
2,1002403,THE VILLAGE OF HARLEM....NEW YORK !,78829239556,,Elise,Manhattan,Harlem,40.80902,-73.9419,United States,US,True,flexible,Private room,2005.0,$620,$124,3.0,0.0,,,5.0,1.0,352.0,"I encourage you to use my kitchen, cooking and...",
3,1002755,,85098326012,unconfirmed,Garry,Brooklyn,Clinton Hill,40.68514,-73.95976,United States,US,True,moderate,Entire home/apt,2005.0,$368,$74,30.0,270.0,7/5/2019,4.64,4.0,1.0,322.0,,
4,1003689,Entire Apt: Spacious Studio/Loft by central park,92037596077,verified,Lyndon,Manhattan,East Harlem,40.79851,-73.94399,United States,US,False,moderate,Entire home/apt,2009.0,$204,$41,10.0,9.0,11/19/2018,0.1,3.0,1.0,289.0,"Please no smoking in the house, porch or on th...",
5,1004098,Large Cozy 1 BR Apartment In Midtown East,45498551794,verified,Michelle,Manhattan,Murray Hill,40.74767,-73.975,United States,US,True,flexible,Entire home/apt,2013.0,$577,$115,3.0,74.0,6/22/2019,0.59,3.0,1.0,374.0,"No smoking, please, and no drugs.",
6,1004650,BlissArtsSpace!,61300605564,,Alberta,Brooklyn,Bedford-Stuyvesant,40.68688,-73.95596,United States,US,False,moderate,Private room,2015.0,$71,$14,45.0,49.0,10/5/2017,0.4,5.0,1.0,224.0,Please no shoes in the house so bring slippers...,
7,1005202,BlissArtsSpace!,90821839709,unconfirmed,Emma,Brooklyn,Bedford-Stuyvesant,40.68688,-73.95596,United States,US,False,moderate,Private room,2009.0,"$1,060",$212,45.0,49.0,10/5/2017,0.4,5.0,1.0,219.0,House Guidelines for our BnB We are delighted ...,
8,1005754,Large Furnished Room Near B'way,79384379533,verified,Evelyn,Manhattan,Hell's Kitchen,40.76489,-73.98493,United States,US,True,strict,Private room,2005.0,"$1,018",$204,2.0,430.0,6/24/2019,3.47,3.0,1.0,180.0,- Please clean up after yourself when using th...,
9,1006307,Cozy Clean Guest Room - Family Apt,75527839483,unconfirmed,Carl,Manhattan,Upper West Side,40.80178,-73.96723,United States,US,False,strict,Private room,2015.0,$291,$58,2.0,118.0,7/21/2017,0.99,5.0,1.0,375.0,NO SMOKING OR PETS ANYWHERE ON THE PROPERTY 1....,


## Trier les dataframes

Tout comme sur excel, il est possible de trier ces données:

In [152]:
df.sort_values(by="age")

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
1,Aline,24,1.75,2022-03-08,[Excel],False
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True
2,Fred,46,1.64,2022-08-11,[Pandas],True


Attention l'opération renvoie une copie mais la table originale n'est pas modifiée

In [153]:
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True
1,Aline,24,1.75,2022-03-08,[Excel],False
2,Fred,46,1.64,2022-08-11,[Pandas],True


Pour la modifier il faut redéfinir notre table initiale pour indiquer quelle doit correspondre maintenant à la base triée

In [154]:
# on ajoute ici un double filtre, d'abord sur le genre puis sur la taille
df = df.sort_values(by=["Male","taille"])
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
1,Aline,24,1.75,2022-03-08,[Excel],False
2,Fred,46,1.64,2022-08-11,[Pandas],True
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True


**`Exercice`**: 
- Affichez les 5 annonces air BNB dont le nombre de revues est le plus bas (ce n'est pas grave si tous les prix les moins chers sont identiques)
- En vous aidant de la [documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html), affichez également les 5 annonces avec le plus de revues
- Toujours en vous aidant de la documentation, affichez les 5 annonces avec le plus de revues en utilisant la fonction inverse de head.

In [155]:
df_air_bnb.head()

Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,country code,instant_bookable,cancellation_policy,room type,Construction year,price,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
0,1001254,Clean & quiet apt home by the park,80014485718,unconfirmed,Madaline,Brooklyn,Kensington,40.64749,-73.97237,United States,US,False,strict,Private room,2020.0,$966,$193,10.0,9.0,10/19/2021,0.21,4.0,6.0,286.0,Clean up and treat the home the way you'd like...,
1,1002102,Skylit Midtown Castle,52335172823,verified,Jenna,Manhattan,Midtown,40.75362,-73.98377,United States,US,False,moderate,Entire home/apt,2007.0,$142,$28,30.0,45.0,5/21/2022,0.38,4.0,2.0,228.0,Pet friendly but please confirm with me if the...,
2,1002403,THE VILLAGE OF HARLEM....NEW YORK !,78829239556,,Elise,Manhattan,Harlem,40.80902,-73.9419,United States,US,True,flexible,Private room,2005.0,$620,$124,3.0,0.0,,,5.0,1.0,352.0,"I encourage you to use my kitchen, cooking and...",
3,1002755,,85098326012,unconfirmed,Garry,Brooklyn,Clinton Hill,40.68514,-73.95976,United States,US,True,moderate,Entire home/apt,2005.0,$368,$74,30.0,270.0,7/5/2019,4.64,4.0,1.0,322.0,,
4,1003689,Entire Apt: Spacious Studio/Loft by central park,92037596077,verified,Lyndon,Manhattan,East Harlem,40.79851,-73.94399,United States,US,False,moderate,Entire home/apt,2009.0,$204,$41,10.0,9.0,11/19/2018,0.1,3.0,1.0,289.0,"Please no smoking in the house, porch or on th...",


In [156]:
df_air_bnb.sort_values(by=['number of reviews']).head(5)


Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,country code,instant_bookable,cancellation_policy,room type,Construction year,price,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
102598,6094647,585 sf Luxury Studio,68170633372,unconfirmed,Rebecca,Manhattan,Upper West Side,40.76807,-73.98342,United States,US,False,flexible,Entire home/apt,2010.0,"$1,032",$206,1.0,0.0,,,3.0,1.0,69.0,,
20118,12112507,"Luxury Townhouse , Private Garden",70695290942,unconfirmed,Ramez,Manhattan,Greenwich Village,40.7324,-73.99708,United States,US,False,flexible,Entire home/apt,2008.0,$879,$176,5.0,0.0,,,2.0,1.0,0.0,,
71733,40619472,$1200/ Feb.16th---Mar.13th *^COZY STUDIO APART...,90589170755,verified,Brad,Manhattan,East Harlem,40.79106,-73.94588,United States,US,False,moderate,Entire home/apt,2015.0,$111,$22,20.0,0.0,,,2.0,1.0,0.0,,
71736,40621129,Your cozy spot in Upper West Manhat,95449489762,verified,Hongqing,Manhattan,Upper West Side,40.80299,-73.96465,United States,US,False,strict,Private room,2019.0,$938,$188,9.0,0.0,,,2.0,1.0,0.0,,
20100,12102566,"Perfect, Private Bedroom on Prospect Park",73497537832,unconfirmed,Stanley,Brooklyn,Prospect Heights,40.67414,-73.96723,United States,US,True,flexible,Private room,2022.0,$182,$36,1.0,0.0,,,3.0,1.0,15.0,,


In [157]:
df_air_bnb.sort_values(by=['number of reviews'], ascending=False).head(5)

Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,country code,instant_bookable,cancellation_policy,room type,Construction year,price,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
52488,29990458,Sonder Battery Park | Studio Apartment,53558555483,verified,Sonder (NYC),Manhattan,Financial District,40.70617,-74.01486,United States,US,False,strict,Entire home/apt,2019.0,$121,$24,2.0,1024.0,2/21/2022,57.31,4.0,54.0,365.0,,
62244,35378697,City King,44069230937,verified,Arlo SoHo,Manhattan,SoHo,40.7244,-74.00794,United States,US,False,moderate,Hotel room,2017.0,"$1,097",$219,1.0,1010.0,11/22/2021,33.08,4.0,11.0,80.0,,
49799,28505324,Amazing Micro Unit W/ communal rooftop and kit...,23813117370,verified,The Ridge,Manhattan,East Village,40.7238,-73.99038,United States,US,True,strict,Private room,2011.0,$123,$25,1.0,966.0,3/2/2022,34.46,2.0,4.0,355.0,,
53078,30316315,Enjoy great views of the City!,41031720514,unconfirmed,Row NYC,Manhattan,Theater District,40.75876,-73.98846,United States,US,False,flexible,Hotel room,2004.0,$486,$97,1.0,884.0,2/19/2022,25.23,3.0,9.0,360.0,,
49653,28424688,Come catch a Broadway Show & stay in Times Square,20032806094,verified,M,Manhattan,Theater District,40.7636,-73.98473,United States,US,False,flexible,Private room,2008.0,$89,$18,1.0,849.0,3/3/2022,90.0,4.0,12.0,361.0,,


In [158]:
df_air_bnb.sort_values(by=['number of reviews'], ascending=False).tail(5)

Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,country code,instant_bookable,cancellation_policy,room type,Construction year,price,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
91027,51275548,"Large, Sunny Studio in the heart of Chelsea.",2477107287,unconfirmed,Eunice,Manhattan,Chelsea,40.74089,-74.00002,United States,US,False,strict,Entire home/apt,2021.0,$695,$139,2.0,,1/1/2019,0.13,1.0,1.0,0.0,,
91831,51719597,Upper East Side Cozy Apartment,93404114754,unconfirmed,Vladimir,Manhattan,Upper East Side,40.7683,-73.95919,United States,US,False,moderate,Entire home/apt,2003.0,$151,$30,4.0,,6/25/2019,1.33,1.0,1.0,4.0,1. No parties. 2. Respect the neighbors. Nois...,
99736,56085529,Bright and Charming Private Room in Williamburg!,32648903471,unconfirmed,Naveen,Brooklyn,Williamsburg,40.71365,-73.96232,United States,US,True,flexible,Private room,2022.0,$546,$109,3.0,,10/10/2018,0.38,1.0,1.0,188.0,"- cleaning, quiet, friendly, no drug, no smoking,",
100590,56557193,Room at Home in Lower East Side,95585296622,unconfirmed,Andrea,Manhattan,Lower East Side,40.71833,-73.98556,United States,US,True,strict,Private room,2015.0,$671,$134,4.0,,6/25/2019,0.63,4.0,2.0,244.0,I spent a lot of time and effort renovating my...,
101292,56944908,"Large, Sunny Studio in the heart of Chelsea.",94156210997,verified,Eunice,Manhattan,Chelsea,40.74089,-74.00002,United States,US,False,strict,Entire home/apt,2021.0,$695,$139,2.0,,1/1/2019,0.13,1.0,1.0,0.0,,


# 2. Sélectionner des lignes et des colonnes, créer de nouvelles colonnes ou modifier des données

## Sélectionner des colonnes

Chaque colonne possède un nom, on peut la sélectionner de deux manière différentes:

In [159]:
df.age

# ou

df["age"]

1    24
2    46
0    38
Name: age, dtype: int64

Si on veut accéder à plusieurs colonnes alors on doit utiliser un format différent:

In [160]:
df[["nom","age"]]

Unnamed: 0,nom,age
1,Aline,24
2,Fred,46
0,Bernard,38


L'ensemble des noms de colonnes se retrouve dans l'attribut columns:

In [161]:
df.columns

Index(['nom', 'age', 'taille', 'derniere_mise_a_jour', 'logiciel', 'Male'], dtype='object')

On peut facilement créer une nouvelle colonne, supprimer ou renommer une colonne:

In [162]:
df["new_age"] = 48
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,new_age
1,Aline,24,1.75,2022-03-08,[Excel],False,48
2,Fred,46,1.64,2022-08-11,[Pandas],True,48
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True,48


In [163]:
df = df.rename(columns={"new_age":"new_name"})
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,new_name
1,Aline,24,1.75,2022-03-08,[Excel],False,48
2,Fred,46,1.64,2022-08-11,[Pandas],True,48
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True,48


In [164]:
df = df.drop("new_name",axis=1)
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
1,Aline,24,1.75,2022-03-08,[Excel],False
2,Fred,46,1.64,2022-08-11,[Pandas],True
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True


In [165]:
df.insert(1, "newcol", [99, 99,101])
df

Unnamed: 0,nom,newcol,age,taille,derniere_mise_a_jour,logiciel,Male
1,Aline,99,24,1.75,2022-03-08,[Excel],False
2,Fred,99,46,1.64,2022-08-11,[Pandas],True
0,Bernard,101,38,1.82,2022-01-02,"[Excel, Pandas]",True


In [166]:
df.pop("newcol")
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
1,Aline,24,1.75,2022-03-08,[Excel],False
2,Fred,46,1.64,2022-08-11,[Pandas],True
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True


**`Exercice`**
dans le dataframe df:
- créez une colone intitulée "nouelle_colonne" qui prend une unique valeur 10
- Renomer cette colonne "new_column"
- créer une nouvelle colonne  "addition" qui est égale à la valeur de "new_column" + 3
- supprimez les deux colonnes créées

In [167]:
type(df)

pandas.core.frame.DataFrame

In [168]:
df['nouvelle_colonne'] = 10
df


Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,nouvelle_colonne
1,Aline,24,1.75,2022-03-08,[Excel],False,10
2,Fred,46,1.64,2022-08-11,[Pandas],True,10
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True,10


In [169]:
df = df.rename(columns={'nouvelle_colonne':'new_column'})
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,new_column
1,Aline,24,1.75,2022-03-08,[Excel],False,10
2,Fred,46,1.64,2022-08-11,[Pandas],True,10
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True,10


In [170]:
df['Addition'] = df['new_column'] + 3
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,new_column,Addition
1,Aline,24,1.75,2022-03-08,[Excel],False,10,13
2,Fred,46,1.64,2022-08-11,[Pandas],True,10,13
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True,10,13


In [171]:
df = df.drop(['new_column', 'Addition'], axis=1)

In [172]:
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
1,Aline,24,1.75,2022-03-08,[Excel],False
2,Fred,46,1.64,2022-08-11,[Pandas],True
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True


## Sélection de lignes

On va utiliser deux méthodes pour accéder aux lignes et aux colonnes de notre data frame
- `iloc` qui permet de rechercher des lignes en fonction de leur indice
- `loc` qui permet de rechercher en fonction d'un filtre

### La méthode iloc

# La méthode .iloc suit la syntaxe suivante :  
df.iloc[indice_ligne, indice_colonne]

In [173]:
# on cherche pour la première personne de la base (Aline) la valeur de la troisième colonne (taille)
df.iloc[0,2]

1.75

On peut également afficher seulement la première ligne

In [174]:
df.iloc[0]

nom                                   Aline
age                                      24
taille                                 1.75
derniere_mise_a_jour    2022-03-08 00:00:00
logiciel                            [Excel]
Male                                  False
Name: 1, dtype: object

ou plusieurs lignes et plusieurs colonnes

In [175]:
df.iloc[0:2, 3:5]

Unnamed: 0,derniere_mise_a_jour,logiciel
1,2022-03-08,[Excel]
2,2022-08-11,[Pandas]


### La méthode loc

Cependant la majeure partie du temps on va filter les lignes en fonction de critères et non en fonction de leur indice.  
Pour cela on utilise la méthode loc

# Cette méthode suit la syntaxe suivante.
mon_dataframe.loc[ condition sur les lignes, colonne(s) ]

In [176]:
df.loc[ df['taille']> 1.70, :]

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
1,Aline,24,1.75,2022-03-08,[Excel],False
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True


On peut aussi utiliser une double condition, attention:
- il faut mettre des parenthèse
- on ne va pas utiliser "and" ou "or" mais & et |

In [177]:
df.loc[ (df['taille']> 1.70) & (df['age']<30) , :]

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
1,Aline,24,1.75,2022-03-08,[Excel],False


### Indice et Index

Pour le moment nous n'avons pas distinguer deux notions proches qui sont celle de `ìndice`et `index``
- indice: correspond à la ligne sur lequel se trouve la donnée
- l'index est un moyen unique d'identifier une ligne

Quand on on crée un dataframe, l'indice correspond à l'index. Cependant après certaines opérations comme sort, les deux ne sont plus confondus.

In [178]:
# loc permet de rechercher en fonction de l'index
print(df.loc[[0,1],:])


       nom  age  taille derniere_mise_a_jour         logiciel   Male
0  Bernard   38    1.82           2022-01-02  [Excel, Pandas]   True
1    Aline   24    1.75           2022-03-08          [Excel]  False


Après une opération comme sort() on peut remettre à jour l'index

In [179]:
df.reset_index()
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
1,Aline,24,1.75,2022-03-08,[Excel],False
2,Fred,46,1.64,2022-08-11,[Pandas],True
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True


On peut modifier l'index en utilisant une colonne mais il faut que celle-ci soit unique. On verra l'interet de cette opération quand on passera à a visualisation

In [180]:
df.set_index('nom')

Unnamed: 0_level_0,age,taille,derniere_mise_a_jour,logiciel,Male
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Aline,24,1.75,2022-03-08,[Excel],False
Fred,46,1.64,2022-08-11,[Pandas],True
Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True


**`Exercice`**: 
- créez une table à partir de la table airbnb en ne concervant que les annonces disponibles plus de 100 jours par an ou 100 jours exactement.
- selectionner parmi cette table créée les 15 annonces ayant le plus de revues et pour ces annonces ne conserver que les colonnes "host id",	"host name"	et "neighbourhood"
- renommez ces colonnes "host_id",	"host_name"	et "neighbourhood"
- faite de host_id l'index puis triez la table en fonction de l'index.

In [181]:
df_air_bnb.columns

Index(['id', 'NAME', 'host id', 'host_identity_verified', 'host name',
       'neighbourhood group', 'neighbourhood', 'lat', 'long', 'country',
       'country code', 'instant_bookable', 'cancellation_policy', 'room type',
       'Construction year', 'price', 'service fee', 'minimum nights',
       'number of reviews', 'last review', 'reviews per month',
       'review rate number', 'calculated host listings count',
       'availability 365', 'house_rules', 'license'],
      dtype='object')

In [182]:
nights_100_plus = df_air_bnb.loc[df_air_bnb['availability 365']>=100, :]
nights_100_plus

Unnamed: 0,id,NAME,host id,host_identity_verified,host name,neighbourhood group,neighbourhood,lat,long,country,country code,instant_bookable,cancellation_policy,room type,Construction year,price,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
0,1001254,Clean & quiet apt home by the park,80014485718,unconfirmed,Madaline,Brooklyn,Kensington,40.64749,-73.97237,United States,US,False,strict,Private room,2020.0,$966,$193,10.0,9.0,10/19/2021,0.21,4.0,6.0,286.0,Clean up and treat the home the way you'd like...,
1,1002102,Skylit Midtown Castle,52335172823,verified,Jenna,Manhattan,Midtown,40.75362,-73.98377,United States,US,False,moderate,Entire home/apt,2007.0,$142,$28,30.0,45.0,5/21/2022,0.38,4.0,2.0,228.0,Pet friendly but please confirm with me if the...,
2,1002403,THE VILLAGE OF HARLEM....NEW YORK !,78829239556,,Elise,Manhattan,Harlem,40.80902,-73.94190,United States,US,True,flexible,Private room,2005.0,$620,$124,3.0,0.0,,,5.0,1.0,352.0,"I encourage you to use my kitchen, cooking and...",
3,1002755,,85098326012,unconfirmed,Garry,Brooklyn,Clinton Hill,40.68514,-73.95976,United States,US,True,moderate,Entire home/apt,2005.0,$368,$74,30.0,270.0,7/5/2019,4.64,4.0,1.0,322.0,,
4,1003689,Entire Apt: Spacious Studio/Loft by central park,92037596077,verified,Lyndon,Manhattan,East Harlem,40.79851,-73.94399,United States,US,False,moderate,Entire home/apt,2009.0,$204,$41,10.0,9.0,11/19/2018,0.10,3.0,1.0,289.0,"Please no smoking in the house, porch or on th...",
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
102593,6091885,"Welcoming, Clean, Cheap on St Marks",33188605074,verified,Felipe,Manhattan,East Village,40.72826,-73.98422,United States,US,True,strict,Private room,2017.0,"$1,099",$220,1.0,8.0,9/6/2015,0.16,4.0,2.0,152.0,* No smoking indoors. * No pets * No loud/la...,
102594,6092437,Spare room in Williamsburg,12312296767,verified,Krik,Brooklyn,Williamsburg,40.70862,-73.94651,United States,US,False,flexible,Private room,2003.0,$844,$169,1.0,0.0,,,3.0,1.0,227.0,No Smoking No Parties or Events of any kind Pl...,
102595,6092990,Best Location near Columbia U,77864383453,unconfirmed,Mifan,Manhattan,Morningside Heights,40.80460,-73.96545,United States,US,True,moderate,Private room,2016.0,$837,$167,1.0,1.0,7/6/2015,0.02,2.0,2.0,395.0,House rules: Guests agree to the following ter...,
102596,6093542,"Comfy, bright room in Brooklyn",69050334417,unconfirmed,Megan,Brooklyn,Park Slope,40.67505,-73.98045,United States,US,True,moderate,Private room,2009.0,$988,$198,3.0,0.0,,,5.0,1.0,342.0,,


In [183]:
nights_100_plus = nights_100_plus.sort_values(by='number of reviews', ascending=False).drop(['id', 'NAME', 'host_identity_verified', 'neighbourhood group', 'lat', 'long', 'country','country code', 'instant_bookable', 'cancellation_policy', 'room type','Construction year', 'price', 'service fee', 'minimum nights','number of reviews', 'last review', 'reviews per month','review rate number', 'calculated host listings count','availability 365', 'house_rules', 'license'], axis=1).head(15)
nights_100_plus

Unnamed: 0,host id,host name,neighbourhood
52488,53558555483,Sonder (NYC),Financial District
49799,23813117370,The Ridge,East Village
53078,41031720514,Row NYC,Theater District
49653,20032806094,M,Theater District
49827,78564178478,M,Theater District
49605,87332142446,The Ridge,Lower East Side
57532,90212124971,Arlo NoMad,Midtown
49926,2035884636,Martin,Williamsburg
50715,28338699286,Martin,Williamsburg
11760,58525948778,Dona,Jamaica


In [184]:
nights_100_plus.columns

Index(['host id', 'host name', 'neighbourhood'], dtype='object')

In [185]:
nights_100_plus = nights_100_plus.rename(columns={'host id':'Host_id', 'host name':'Host_name', 'neighbourhood':'District'})
nights_100_plus

Unnamed: 0,Host_id,Host_name,District
52488,53558555483,Sonder (NYC),Financial District
49799,23813117370,The Ridge,East Village
53078,41031720514,Row NYC,Theater District
49653,20032806094,M,Theater District
49827,78564178478,M,Theater District
49605,87332142446,The Ridge,Lower East Side
57532,90212124971,Arlo NoMad,Midtown
49926,2035884636,Martin,Williamsburg
50715,28338699286,Martin,Williamsburg
11760,58525948778,Dona,Jamaica


In [186]:
nights_100_plus = nights_100_plus.set_index('Host_id').sort_index()
nights_100_plus

Unnamed: 0_level_0,Host_name,District
Host_id,Unnamed: 1_level_1,Unnamed: 2_level_1
2035884636,Martin,Williamsburg
3714601299,Jj,Harlem
5145717894,Jj,Harlem
14713491370,Arlo SoHo,SoHo
20032806094,M,Theater District
23813117370,The Ridge,East Village
28338699286,Martin,Williamsburg
39066649621,M,Theater District
41031720514,Row NYC,Theater District
51011773515,Jj,Harlem


## L'échantillonage avec sample

Enfin il arrive souvent qu'on veille créer un échantillon aléatoire de nos données pour travailler avec mon de donner.
On va utiliser la méthode sample qui a plusieurs paramètres interessants:
- n (int): si on veut préciser combien de données on veut obtenir
- frac (float) : si on veut préciser la fraction de données qu'on veut obtenir 
- replace (bool): est ce qu'on autorise qu'une occurrence puisse être tirée au sort plusieurs fois
- weight: est ce que certaines occurrences doivent avoir plus de poids (utile dans les jeux non équilibrés) 

In [187]:
df.sample(frac=1/3)

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
2,Fred,46,1.64,2022-08-11,[Pandas],True


## Créer de nouvelles colonnes ou modifier la valeur d'une colonne 

### Opération simple

Il est possible de modifier une colonne en faisant une simple opération

In [188]:
df["taille_inch"]= df["taille"]*39.3701
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,taille_inch
1,Aline,24,1.75,2022-03-08,[Excel],False,68.897675
2,Fred,46,1.64,2022-08-11,[Pandas],True,64.566964
0,Bernard,38,1.82,2022-01-02,"[Excel, Pandas]",True,71.653582


Avec la méthode loc, on peut meme ne modifier qu'une partie d'une colone

In [189]:
df.loc[df["taille"]>1.8,"age"]=30
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,taille_inch
1,Aline,24,1.75,2022-03-08,[Excel],False,68.897675
2,Fred,46,1.64,2022-08-11,[Pandas],True,64.566964
0,Bernard,30,1.82,2022-01-02,"[Excel, Pandas]",True,71.653582


In [190]:
df["date_de_naissance"] = 2022 - df["age"] 
df["ims"] = df["age"] * 2 + df["taille"]
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,taille_inch,date_de_naissance,ims
1,Aline,24,1.75,2022-03-08,[Excel],False,68.897675,1998,49.75
2,Fred,46,1.64,2022-08-11,[Pandas],True,64.566964,1976,93.64
0,Bernard,30,1.82,2022-01-02,"[Excel, Pandas]",True,71.653582,1992,61.82


Mais avec ce n'est pas possible de l'utiliser avec des fonctions

In [191]:
df["name_length"] = len(df["nom"])
df


Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,taille_inch,date_de_naissance,ims,name_length
1,Aline,24,1.75,2022-03-08,[Excel],False,68.897675,1998,49.75,3
2,Fred,46,1.64,2022-08-11,[Pandas],True,64.566964,1976,93.64,3
0,Bernard,30,1.82,2022-01-02,"[Excel, Pandas]",True,71.653582,1992,61.82,3


### la fonction apply

Apply permet d'appliquer une certaine fonction à chacunes des lignes de notre dataframe

In [192]:
df["name_length"] = df["nom"].apply(len)
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,taille_inch,date_de_naissance,ims,name_length
1,Aline,24,1.75,2022-03-08,[Excel],False,68.897675,1998,49.75,5
2,Fred,46,1.64,2022-08-11,[Pandas],True,64.566964,1976,93.64,4
0,Bernard,30,1.82,2022-01-02,"[Excel, Pandas]",True,71.653582,1992,61.82,7


On peut l'utiliser avec une fonction built-in mais aussi avec une fonction définie nous même

In [193]:
def len_plus_1(x):
    return len(x)+ 1
len_plus_1("abc")

4

In [194]:
df["name_length"] = df["nom"].apply(len_plus_1)
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,taille_inch,date_de_naissance,ims,name_length
1,Aline,24,1.75,2022-03-08,[Excel],False,68.897675,1998,49.75,6
2,Fred,46,1.64,2022-08-11,[Pandas],True,64.566964,1976,93.64,5
0,Bernard,30,1.82,2022-01-02,"[Excel, Pandas]",True,71.653582,1992,61.82,8


On peut également l'utiliser avec une fonction lambda

In [195]:
df["name_length"] = df["nom"].apply(lambda x: len(x)+ 1)
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,taille_inch,date_de_naissance,ims,name_length
1,Aline,24,1.75,2022-03-08,[Excel],False,68.897675,1998,49.75,6
2,Fred,46,1.64,2022-08-11,[Pandas],True,64.566964,1976,93.64,5
0,Bernard,30,1.82,2022-01-02,"[Excel, Pandas]",True,71.653582,1992,61.82,8


**`Exercice`**:

Sur le dataframe df, à l'aide de apply. 
 - calculez l'année de naissance à partir de l'age
 - calculez la taille en inch à partir de la taille (taile en cm *39.3701)
 - créez une variable (genre) qui prend les valeurs "masculin" / "féminin"

In [196]:
df.columns

Index(['nom', 'age', 'taille', 'derniere_mise_a_jour', 'logiciel', 'Male',
       'taille_inch', 'date_de_naissance', 'ims', 'name_length'],
      dtype='object')

In [197]:
df['date_de_naissance'] = 2022 - df['age']
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,taille_inch,date_de_naissance,ims,name_length
1,Aline,24,1.75,2022-03-08,[Excel],False,68.897675,1998,49.75,6
2,Fred,46,1.64,2022-08-11,[Pandas],True,64.566964,1976,93.64,5
0,Bernard,30,1.82,2022-01-02,"[Excel, Pandas]",True,71.653582,1992,61.82,8


In [198]:
#les repons ont déjà été écrits

Ce qui va nous permettre des usages plus complexes

In [199]:
df["observation_taille"] = df["taille"].apply(lambda x: "grand" if x> 1.8 else "petit")
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,taille_inch,date_de_naissance,ims,name_length,observation_taille
1,Aline,24,1.75,2022-03-08,[Excel],False,68.897675,1998,49.75,6,petit
2,Fred,46,1.64,2022-08-11,[Pandas],True,64.566964,1976,93.64,5,petit
0,Bernard,30,1.82,2022-01-02,"[Excel, Pandas]",True,71.653582,1992,61.82,8,grand


In [200]:
df[["nom","taille","observation_taille"]]

Unnamed: 0,nom,taille,observation_taille
1,Aline,1.75,petit
2,Fred,1.64,petit
0,Bernard,1.82,grand


Attention si on veut créer un colonne à partir de deux colonnes, l'écriture diffère:

In [201]:
df["new_col"] = df[["taille","nom"]].apply(lambda x: x[0]+len(x[1]), axis=1)

  df["new_col"] = df[["taille","nom"]].apply(lambda x: x[0]+len(x[1]), axis=1)


In [202]:
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,taille_inch,date_de_naissance,ims,name_length,observation_taille,new_col
1,Aline,24,1.75,2022-03-08,[Excel],False,68.897675,1998,49.75,6,petit,6.75
2,Fred,46,1.64,2022-08-11,[Pandas],True,64.566964,1976,93.64,5,petit,5.64
0,Bernard,30,1.82,2022-01-02,"[Excel, Pandas]",True,71.653582,1992,61.82,8,grand,8.82


### remplacer des données par d'autres avec map ou catcode

Map permet d'utiliser un dictionnaire pour remplacer des valeurs par n'importe quelles autres.

In [203]:
df["Male"].map({True:1,False:0})
df

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male,taille_inch,date_de_naissance,ims,name_length,observation_taille,new_col
1,Aline,24,1.75,2022-03-08,[Excel],False,68.897675,1998,49.75,6,petit,6.75
2,Fred,46,1.64,2022-08-11,[Pandas],True,64.566964,1976,93.64,5,petit,5.64
0,Bernard,30,1.82,2022-01-02,"[Excel, Pandas]",True,71.653582,1992,61.82,8,grand,8.82


Quand on a beaucoup de valeurs et qu'on veut faire une conversion numérique, on peut utiliser la méthode catcode

In [204]:
df["Male"].astype("category").cat.codes

1    0
2    1
0    1
dtype: int8

# 3. Nettoyage de données

## Traitement des valeurs manquantes

On a ajouté Marie à notre base de données mais on ne connait pas son âge. C'est parfois génant dans les calculs et les traitements. Il faut donc nettoyer la base de données.

In [205]:
from cmath import nan


df = pd.DataFrame({
    "nom": ["Bernard", "Aline", "Fred", "Marie"], 
    "age": [38, 24, 46,nan],
    "taille": [1.82,1.75,1.64,1.70],
    "derniere_mise_a_jour": [pd.Timestamp("20220102"),pd.Timestamp("20220308"),pd.Timestamp("20220811"),pd.Timestamp("20220812")],
    "logiciel": [["Excel","Pandas"],["Excel"],["Pandas"],["Excel"]],
    "Male":[True,False,True,False]
    })


In [206]:
# On peut commencer par rechercher ces valeurs manquantes
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 6 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   nom                   4 non-null      object        
 1   age                   3 non-null      float64       
 2   taille                4 non-null      float64       
 3   derniere_mise_a_jour  4 non-null      datetime64[ns]
 4   logiciel              4 non-null      object        
 5   Male                  4 non-null      bool          
dtypes: bool(1), datetime64[ns](1), float64(2), object(2)
memory usage: 296.0+ bytes


On peut suivre 4 étapes pour traiter les valeurs manquantes
- supprimer les colonnes à la qualité trop faible : celles qui ont entre 50% et 99% de données manquantes 
- supprimer les lignes des colonnes crtiiques: si une colonne est centrale pour notre analyse, alors les lignes qui ne possèdent pas cette information n'ont aucun interet, on peut donc les supprimer
- remplacer les données des autres colonnes: de nombreuses manipulations ne peuvent être réalisées si on a des na, il faut donc remplacer les na par quelques choses pour pouvoir les traiter, il existe plusieurs stratégies:
    - une valeur indentifiable: 0 , "pas de données"
    - une valeur statistiquement plausible
        - la moyenne
        - la valeur de la donnée précédente ou suivante

**`Exercice`**:

Supposons qu'à partir du dataset airbnb nous voulions faire une étude sur le prix des logements en fonction du quartier. Nous pensons que la taille de la description peut avoir un impact. 
- Affichez les valeurs na pour chaque colonne et en fonction décidez du traitement des na à réaliser.

In [207]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 6 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   nom                   4 non-null      object        
 1   age                   3 non-null      float64       
 2   taille                4 non-null      float64       
 3   derniere_mise_a_jour  4 non-null      datetime64[ns]
 4   logiciel              4 non-null      object        
 5   Male                  4 non-null      bool          
dtypes: bool(1), datetime64[ns](1), float64(2), object(2)
memory usage: 296.0+ bytes


In [208]:
nan_count = df.isna().sum()
print(nan_count )

nom                     0
age                     1
taille                  0
derniere_mise_a_jour    0
logiciel                0
Male                    0
dtype: int64


In [209]:
#supprimer les colonnes à la qualité trop faible

df.drop(["liste","des","colonnes","a","supprimer"],axis=1)

# supprimer les lignes des colonnes crtiiques
df = df.dropna(subset=['age'])

# remplacer les données des autres colonnes

    # par une valeur identifiable
df["age"] = df["age"].fillna("pas de données")

    # par une valeur statistiquement plausible
df["age"] = df["age"].fillna(int(df["age"].median()))

df["age"] = df["age"].fillna(method="ffil")

KeyError: "['liste', 'des', 'colonnes', 'a', 'supprimer'] not found in axis"

In [211]:
#On peut choisir de remplacer cette valeur
df.fillna(value=25)

Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,Bernard,38.0,1.82,2022-01-02,"[Excel, Pandas]",True
1,Aline,24.0,1.75,2022-03-08,[Excel],False
2,Fred,46.0,1.64,2022-08-11,[Pandas],True
3,Marie,25.0,1.7,2022-08-12,[Excel],False


On peut aussi remplacer les valeurs manquantes suivant des méthodes indiquées avec l'argument nommé `method` :

- `'ffill'` pour *forward fill*, c'est-à-dire en utilisant la dernière valeur présente :

In [212]:
df.fillna(method='ffill')

  df.fillna(method='ffill')


Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,Bernard,38.0,1.82,2022-01-02,"[Excel, Pandas]",True
1,Aline,24.0,1.75,2022-03-08,[Excel],False
2,Fred,46.0,1.64,2022-08-11,[Pandas],True
3,Marie,46.0,1.7,2022-08-12,[Excel],False


Supposons maintenant que la base de données soit mal renseignée et qu'une information s'y retrouve en double

## Supprimer les doublons

In [213]:
df.drop_duplicates

<bound method DataFrame.drop_duplicates of        nom   age  taille derniere_mise_a_jour         logiciel   Male
0  Bernard  38.0    1.82           2022-01-02  [Excel, Pandas]   True
1    Aline  24.0    1.75           2022-03-08          [Excel]  False
2     Fred  46.0    1.64           2022-08-11         [Pandas]   True
3    Marie   NaN    1.70           2022-08-12          [Excel]  False>

## Conversion des types

On peut utiliser la méthode `astype` pour changer le type d'une `Colonne` :

In [214]:
df.age = df.age.astype('str')

df.age.dtype
df.age

0    38.0
1    24.0
2    46.0
3     nan
Name: age, dtype: object

In [215]:
# Exercice: essayez de deviner le résultat de cette opération:
df.age.astype('str') + df.age.astype('str')

0    38.038.0
1    24.024.0
2    46.046.0
3      nannan
Name: age, dtype: object

**`Exercice`**: 
- Utilisez à nouveau la table airbnb. Recherchez les valeurs nulles et proposez une méthode pour les traiter.
- Explorez le type des colonnes price et service fees, trouvez le moyen de les mettre au bon format. 

In [216]:
def nan_count(column):
    return column.isna().sum()
    

df_air_bnb.apply(nan_count)

id                                     0
NAME                                 250
host id                                0
host_identity_verified               289
host name                            406
neighbourhood group                   29
neighbourhood                         16
lat                                    8
long                                   8
country                              532
country code                         131
instant_bookable                     105
cancellation_policy                   76
room type                              0
Construction year                    214
price                                247
service fee                          273
minimum nights                       409
number of reviews                    183
last review                        15893
reviews per month                  15879
review rate number                   326
calculated host listings count       319
availability 365                     448
house_rules     

In [217]:
# #creating a function for further exercices where i'll need to deall with other NAN medling with program exécution
def take_out_na(column): 
    return column.dropna()


In [218]:

#here didn't want to use the function just yet.Start simple!!
df_air_bnb = df.fillna(method='ffill')
df


  df_air_bnb = df.fillna(method='ffill')


Unnamed: 0,nom,age,taille,derniere_mise_a_jour,logiciel,Male
0,Bernard,38.0,1.82,2022-01-02,"[Excel, Pandas]",True
1,Aline,24.0,1.75,2022-03-08,[Excel],False
2,Fred,46.0,1.64,2022-08-11,[Pandas],True
3,Marie,,1.7,2022-08-12,[Excel],False


In [None]:
df_air_bnb.isna().sum()

nom                     0
age                     0
taille                  0
derniere_mise_a_jour    0
logiciel                0
Male                    0
taille_inch             0
date_de_naissance       0
ims                     0
name_length             0
observation_taille      0
new_col                 0
dtype: int64

## Consistance des données

La consistance des données est la dernière grande étape du nettoyage de données.
Elle consiste à uniformiser les valeurs catégorielles et à supprimer les valeurs abbérantes des variables numériques. Pour faire cela il faut maitriser les opérations d'agrégation du les données.
Nous allons donc les étudier.

# 4. Aggrégats 

## Les différents aggrégats

In [None]:
.apply( lambda x : pd.Na if x. )

On peut calculer des valeurs pour décrire les colonnes d'une
`DataFrame` avec les méthodes suivantes:

`Méthodes générales`:
-   'count' (nombre de valeur non nulle)
-   'nunique' (nombre de valeur unique différents)
-   'mode' (valeur la plus fréquente)

`Méthodes numériques`
-   'sum'
-   'median'
-   'quantile'
-   'min'
-   'max'
-   'mean'
-   'var'
-   'std'

`Méthodes pour les variables catégorielles`
- count_values (le nombre de valeurs prises pour chaque catégories)

In [None]:
df.sum()

In [None]:
df.quantile([0.25,0.5,0.75])
df['taille'].quantile([(x/10) for x in range(1,10)])

Unnamed: 0,Population,Superficie
0.25,64052.5,26.5475
0.5,164645.5,40.435
0.75,736611.75,63.37


In [None]:
df["nom"].value_counts()

In [None]:
# Ou plus simplement:
df.describe()

Unnamed: 0,age,taille
count,3.0,4.0
mean,36.0,1.7275
std,11.135529,0.076322
min,24.0,1.64
25%,31.0,1.685
50%,38.0,1.725
75%,42.0,1.7675
max,46.0,1.82


In [None]:
df['nom'].describe()

count           3
unique          3
top       Bernard
freq            1
Name: nom, dtype: object

## Groupby

On peut aussi effectuer ces calculs sur des aggrégats calculés en regroupant les lignes d'une `DataFrame` ayant la même valeur pour une colonne donnée :



In [None]:
df= pd.DataFrame([["Paris","Île-de-France",2190327,105.4],["Pau", "Nouvelle-Aquitaine", 77251,31.51],
                  ["Biarritz", "Nouvelle-Aquitaine", 24457,11.66],["Bordeaux", "Nouvelle-Aquitaine",252040, 49.36],
                 ["Montreuil", "Île-de-France",108402, 8.92]], columns=['Nom', 'Région', 'Population', 'Superficie'])
df

Unnamed: 0,Nom,Région,Population,Superficie
0,Paris,Île-de-France,2190327,105.4
1,Pau,Nouvelle-Aquitaine,77251,31.51
2,Biarritz,Nouvelle-Aquitaine,24457,11.66
3,Bordeaux,Nouvelle-Aquitaine,252040,49.36
4,Montreuil,Île-de-France,108402,8.92


In [None]:
gb=df.groupby(by='Région').nunique()
gb

Unnamed: 0_level_0,Nom,Population,Superficie
Région,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Nouvelle-Aquitaine,3,3,3
Île-de-France,2,2,2


In [None]:
gb=df.groupby(by='Région').describe()
gb.transpose()

Unnamed: 0,Région,Nouvelle-Aquitaine,Île-de-France
Population,count,3.0,2.0
Population,mean,117916.0,1149364.0
Population,std,119116.485597,1472143.0
Population,min,24457.0,108402.0
Population,25%,50854.0,628883.2
Population,50%,77251.0,1149364.0
Population,75%,164645.5,1669846.0
Population,max,252040.0,2190327.0
Superficie,count,3.0,2.0
Superficie,mean,30.843333,57.16


On peut également obtenir plusieurs indicateurs avec la méthode agg()

In [None]:
df.groupby(by=['Région','Nom']).agg(["min","std","max"])

Unnamed: 0_level_0,Unnamed: 1_level_0,Population,Population,Population,Superficie,Superficie,Superficie
Unnamed: 0_level_1,Unnamed: 1_level_1,min,std,max,min,std,max
Région,Nom,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Nouvelle-Aquitaine,Biarritz,24457,,24457,11.66,,11.66
Nouvelle-Aquitaine,Bordeaux,252040,,252040,49.36,,49.36
Nouvelle-Aquitaine,Pau,77251,,77251,31.51,,31.51
Île-de-France,Montreuil,108402,,108402,8.92,,8.92
Île-de-France,Paris,2190327,,2190327,105.4,,105.4


Bien sûr, cet aperçu ne fait qu'effleurer les possibilités de [groupby](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html) !



`Exercice`:
A partir de la table airbnb, calculez: 
- l'année de construction moyenne en fonction de "group_neibourhood"
- le nombre de revue maximum en fonction de la validation de l'annonce et du type de chambre

In [219]:
df_air_bnb2 = pd.read_csv('Airbnb_Open_Data.csv')


  df_air_bnb2 = pd.read_csv('Airbnb_Open_Data.csv')


In [220]:
df_air_bnb2.columns

Index(['id', 'NAME', 'host id', 'host_identity_verified', 'host name',
       'neighbourhood group', 'neighbourhood', 'lat', 'long', 'country',
       'country code', 'instant_bookable', 'cancellation_policy', 'room type',
       'Construction year', 'price', 'service fee', 'minimum nights',
       'number of reviews', 'last review', 'reviews per month',
       'review rate number', 'calculated host listings count',
       'availability 365', 'house_rules', 'license'],
      dtype='object')

In [221]:
df_air_bnb2.describe()

Unnamed: 0,id,host id,lat,long,Construction year,minimum nights,number of reviews,reviews per month,review rate number,calculated host listings count,availability 365
count,102599.0,102599.0,102591.0,102591.0,102385.0,102190.0,102416.0,86720.0,102273.0,102280.0,102151.0
mean,29146230.0,49254110000.0,40.728094,-73.949644,2012.487464,8.135845,27.483743,1.374022,3.279106,7.936605,141.133254
std,16257510.0,28539000000.0,0.055857,0.049521,5.765556,30.553781,49.508954,1.746621,1.284657,32.21878,135.435024
min,1001254.0,123600500.0,40.49979,-74.24984,2003.0,-1223.0,0.0,0.01,1.0,1.0,-10.0
25%,15085810.0,24583330000.0,40.68874,-73.98258,2007.0,2.0,1.0,0.22,2.0,1.0,3.0
50%,29136600.0,49117740000.0,40.72229,-73.95444,2012.0,3.0,7.0,0.74,3.0,1.0,96.0
75%,43201200.0,73996500000.0,40.76276,-73.93235,2017.0,5.0,30.0,2.0,4.0,2.0,269.0
max,57367420.0,98763130000.0,40.91697,-73.70522,2022.0,5645.0,1024.0,90.0,5.0,332.0,3677.0


In [222]:
df_air_bnb2 = df_air_bnb2.rename(columns={'neighbourhood group':'group_neibourhood'})
df_air_bnb2.head(2)

Unnamed: 0,id,NAME,host id,host_identity_verified,host name,group_neibourhood,neighbourhood,lat,long,country,country code,instant_bookable,cancellation_policy,room type,Construction year,price,service fee,minimum nights,number of reviews,last review,reviews per month,review rate number,calculated host listings count,availability 365,house_rules,license
0,1001254,Clean & quiet apt home by the park,80014485718,unconfirmed,Madaline,Brooklyn,Kensington,40.64749,-73.97237,United States,US,False,strict,Private room,2020.0,$966,$193,10.0,9.0,10/19/2021,0.21,4.0,6.0,286.0,Clean up and treat the home the way you'd like...,
1,1002102,Skylit Midtown Castle,52335172823,verified,Jenna,Manhattan,Midtown,40.75362,-73.98377,United States,US,False,moderate,Entire home/apt,2007.0,$142,$28,30.0,45.0,5/21/2022,0.38,4.0,2.0,228.0,Pet friendly but please confirm with me if the...,


In [223]:

construction_avg_year = df_air_bnb2['Construction year'].groupby(df_air_bnb2['group_neibourhood']).mean()

construction_avg_year


group_neibourhood
Bronx            2012.476929
Brooklyn         2012.515655
Manhattan        2012.477781
Queens           2012.484565
Staten Island    2011.736897
brookln          2010.000000
manhatan         2008.000000
Name: Construction year, dtype: float64

In [226]:
df_air_bnb2 = df_air_bnb2.dropna()


In [227]:
df_air_bnb2.apply(nan_count)

id                                0
NAME                              0
host id                           0
host_identity_verified            0
host name                         0
group_neibourhood                 0
neighbourhood                     0
lat                               0
long                              0
country                           0
country code                      0
instant_bookable                  0
cancellation_policy               0
room type                         0
Construction year                 0
price                             0
service fee                       0
minimum nights                    0
number of reviews                 0
last review                       0
reviews per month                 0
review rate number                0
calculated host listings count    0
availability 365                  0
house_rules                       0
license                           0
dtype: int64

In [229]:
#nb_reviews = df_air_bnb2['number of reviews'].groupby(df_air_bnb2['NAME', 'room type']).count()
nb_reviews = df_air_bnb2['number of reviews'].groupby(['NAME', 'room type']).count()

nb_reviews

KeyError: 'NAME'

## Les pivots tables

Il est possible avec de pandas de réaliser une pivot table comme avec excel, on utilise pour ça la méthode .pivot_table() qui prend 4 arguments:
- index : variable(s) placée(s) en ligne 
- columns : variable(s) placée en colonne(s) 
- values : variable sur laquelle on va appliquer la fonction d’agrégation
- aggfunc : fonction d’agrégation

Exemple:

In [None]:
df = pd.DataFrame({
    "nom": ["Bernard", "Aline", "Fred", "Marie"], 
    "age": [38, 24, 46,32],
    "taille": [1.82,1.75,1.64,1.70],
    "derniere_mise_a_jour": [pd.Timestamp("20220102"),pd.Timestamp("20220308"),pd.Timestamp("20220811"),pd.Timestamp("20220812")],
    "logiciel": ["Excel","Pandas","Pandas","Excel"],
    "Male":[True,False,True,False]
    })

df.pivot_table(index="Male", columns = "logiciel", values="taille", aggfunc = "min")

# on pourrait certainement trouver des exemples plus interessants

logiciel,Excel,Pandas
Male,Unnamed: 1_level_1,Unnamed: 2_level_1
False,1.7,1.75
True,1.82,1.64


`Exercice`:  
A partir de la table airbnb en faisant un tableau croisé dynamique, calculez :
- l'année de construction moyenne en fonction de "group_neibourhood" 
- le nombre de revue maximum en fonction de la validation de l'annonce et du type de chambre

# 5. Opérations d'ensemble

## Concaténations avec concat

Les exemples ci-après illustrent la concaténation (ou plutôt les façons de concaterner) de deux `DataFrame`:



In [None]:
df1 = pd.DataFrame({'A': [3, 5], 'B': [1, 2]})
df1

Unnamed: 0,A,B
0,3,1
1,5,2


In [None]:
df2 = pd.DataFrame({'A': [6, 7], 'B': [4, 9]})
df2

Unnamed: 0,A,B
0,6,4
1,7,9


In [None]:
# Si on concatène directement on va avoir un problème d'indice dans la table crée
pd.concat([df1, df2])

Unnamed: 0,A,B
0,3,1
1,5,2
0,6,4
1,7,9


In [None]:
# On va donc ignorer l'index
pd.concat([df1, df2], ignore_index = True)

NameError: name 'pd' is not defined

In [None]:
# On peut aussi concaténer dans le sens des colonnes
df1 = pd.DataFrame({'A': [3, 5], 'B': [1, 2]})
df2 = pd.DataFrame({'C': [6, 7], 'D': [4, 9]})
pd.concat([df1, df2], axis=1)

Unnamed: 0,A,B,C,D
0,3,1,6,4
1,5,2,7,9


## Jointure avec merge



Sur le même principe que les jointures de bases de données
relationnelles, on peut fusionner les données de deux `DataFrame` avec
la méthode `merge`. Par défaut, `merge` utilise le ou les noms de
colonne en commun, sinon on peut préciser la colonne de jointure avec
l'argument nommé `on` :



In [None]:
df_pop= pd.DataFrame([["Paris",2190327],["Pau", 77251],["Biarritz", 24457],["Bodeaux",252040]], columns=['Nom', 'Population'])
df_sup= pd.DataFrame([["Pau",31.51],["Biarritz",11.66],["Paris",105.4],["Bordeaux",49.36]], columns=['Nom', 'Superficie'])
df_pop.merge(df_sup)

S'il n'y a pas toutes les valeurs de la colonne de jointure dans les deux `DataFrame`, on peut préciser les lignes à obtenir avec l'argument nommé `how` qui peut prendre les valeurs :

-   `'left'` : qui considère les lignes de la `DataFrame` de gauche,
    c'est-à-dire celle sur laquelle on appelle la méthode `merge`.



In [None]:
df_pop= pd.DataFrame([["Paris",2190327],["Pau", 77251],["Biarritz", 24457],["Bodeaux",252040]], columns=['Nom', 'Population'])
df_sup= pd.DataFrame([["Pau",31.51],["Biarritz",11.66],["Paris",105.4],["Marseille",240.6]], columns=['Nom', 'Superficie'])
df_pop.merge(df_sup, how='left')

-   `'right'` : qui considère les lignes de la `DataFrame` de droite,
    c'est-à-dire celle passée en argument à la méthode `merge`.



In [None]:
df_pop= pd.DataFrame([["Paris",2190327],["Pau", 77251],["Biarritz", 24457],["Bodeaux",252040]], columns=['Nom', 'Population'])
df_sup= pd.DataFrame([["Pau",31.51],["Biarritz",11.66],["Paris",105.4],["Marseille",240.6]], columns=['Nom', 'Superficie'])
df_pop.merge(df_sup, how='right')

-   `'inner'` : qui considère l'intersection des lignes de la
    `DataFrame` de droite et celles de la `DataFrame` de gauche.



In [None]:
df_pop= pd.DataFrame([["Paris",2190327],["Pau", 77251],["Biarritz", 24457],["Bodeaux",252040]], columns=['Nom', 'Population'])
df_sup= pd.DataFrame([["Pau",31.51],["Biarritz",11.66],["Paris",105.4],["Marseille",240.6]], columns=['Nom', 'Superficie'])
df_pop.merge(df_sup, how='inner')

**Exercice :** Quelle est la valeur par défaut de l'argument `how` ?



## Liens

<https://pandas.pydata.org/docs/user_guide/10min.html#min> : intro en 10 minutes

<https://pandas.pydata.org/docs/user_guide/cookbook.html#cookbook> : d'autres utilisations plus avancées

<https://www.kaggle.com/learn/pandas>

In [None]:
df_air_bnb["price"] = df_air_bnb.price.str.slice(start=1).str.replace(',', '', regex=False).astype("float")
df_air_bnb["service fee"] = df_air_bnb["service fee"].str.slice(start=1).str.replace(',', '', regex=False).astype("float")

In [None]:
bath_dict_1 = {
    "1 bath" : "1 baths",
    "Half-bath" : "0.5 baths",
    "Private half-bath" : "1 baths",
    "Shared half-bath" : "0.25 baths"
}

def bath_adjust(x):
    for key in bath_dict_1:
        print(key)
        if x == key:
            return bath_dict_1[key]
        else:
            return x

print(bath_adjust("1 bath"))
bath_adjust("Half-bath")

1 bath
1 baths
1 bath


'Half-bath'