# Notebook 1 : Découverte de Pandas

In [1]:
import pandas as pd

## Iris

Nous considérons le jeu de données connu sous le nom des [Iris de Fisher](https://fr.wikipedia.org/wiki/Iris_de_Fisher). Répondez aux questions suivantes à l'aide du module Pandas.

1. Charger le jeu de données dans un dataframe `iris` à partir du fichier `iris.csv` et afficher le dataframe.

In [3]:
iris = pd.read_csv('/home/onyxia/work/formation_cepe/data/iris.csv')

2. Sélectionner les variables `PetalWidth` et `Species`.

In [4]:
iris[["PetalWidth", "Species"]]

Unnamed: 0,PetalWidth,Species
0,0.2,setosa
1,0.2,setosa
2,0.2,setosa
3,0.2,setosa
4,0.2,setosa
...,...,...
145,2.3,virginica
146,1.9,virginica
147,2.0,virginica
148,2.3,virginica


3. Extraire le sous-dataframe qui contient uniquement les iris des espèces `versicolor` ou `virginica`.

In [8]:
iris[(iris.Species == 'versicolor') | (iris.Species == 'virginica')]

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Species
50,7.0,3.2,4.7,1.4,versicolor
51,6.4,3.2,4.5,1.5,versicolor
52,6.9,3.1,4.9,1.5,versicolor
53,5.5,2.3,4.0,1.3,versicolor
54,6.5,2.8,4.6,1.5,versicolor
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


4. Compter le nombre d'iris de l'espèce `setosa`.

In [47]:
iris["Species"][iris.Species == 'setosa'].agg("count")

np.int64(50)

5. Calculer la moyenne de la variable `PetalWidth` pour les iris de l'espèce `versicolor`.

In [17]:
iris["PetalWidth"][iris.Species == 'versicolor'].agg("mean")

np.float64(1.3259999999999998)

6. Ajouter une variable `SumWidth` qui contient la somme des variables `PetalWidth` et `SepalWidth`.

In [18]:
iris["SumWidth"] = iris.PetalWidth + iris.SepalWidth
print(iris.head())

   SepalLength  SepalWidth  PetalLength  PetalWidth Species  SumWidth
0          5.1         3.5          1.4         0.2  setosa       3.7
1          4.9         3.0          1.4         0.2  setosa       3.2
2          4.7         3.2          1.3         0.2  setosa       3.4
3          4.6         3.1          1.5         0.2  setosa       3.3
4          5.0         3.6          1.4         0.2  setosa       3.8


7. Calculer la moyenne et la variance de la variable `SepalLength` pour chaque espèce.

In [20]:
print( # Remarquer la syntaxe de cet exemple
iris
.groupby(iris.Species)
.agg( # NamedAgg permet de nommer les agrégations
moyenne=pd.NamedAgg(column="SepalLength", aggfunc="mean"),
variance=pd.NamedAgg(column="SepalLength", aggfunc="std")
)
.sort_values(by="moyenne", ascending=False)
)


            moyenne  variance
Species                      
virginica     6.588  0.635880
versicolor    5.936  0.516171
setosa        5.006  0.352490


8. Calculer la moyenne de toutes les variables pour chaque espèce. Afficher le résultat au format large et au format long.

In [84]:
format_large =iris.groupby(iris.Species).mean().reset_index()
print(format_large)

      Species  SepalLength  SepalWidth  PetalLength  PetalWidth  SumWidth
0      setosa        5.006       3.428        1.462       0.246     3.674
1  versicolor        5.936       2.770        4.260       1.326     4.096
2   virginica        6.588       2.974        5.552       2.026     5.000


In [85]:
print(
format_large.melt(id_vars=["Species"], value_name="moyenne")
)


       Species     variable  moyenne
0       setosa  SepalLength    5.006
1   versicolor  SepalLength    5.936
2    virginica  SepalLength    6.588
3       setosa   SepalWidth    3.428
4   versicolor   SepalWidth    2.770
5    virginica   SepalWidth    2.974
6       setosa  PetalLength    1.462
7   versicolor  PetalLength    4.260
8    virginica  PetalLength    5.552
9       setosa   PetalWidth    0.246
10  versicolor   PetalWidth    1.326
11   virginica   PetalWidth    2.026
12      setosa     SumWidth    3.674
13  versicolor     SumWidth    4.096
14   virginica     SumWidth    5.000


## Houston flights

Nous considérons le jeux de données `hflights` relatif à des vols au départ des aéroports *Houston George Bush Intercontinental Airport* (IAH) et *William P. Hobby Airport* (HOU).

1. Charger le jeu de données dans un dataframe `hflights` à partir du fichier `hflights.csv`

In [33]:
hflights = pd.read_csv("/home/onyxia/work/formation_cepe/data/hflights.csv")

2. Sélectionner les variable `Dest`, `Distance`, `TaxiIn` et `TaxiOut` avec la méthode `filter`.

In [34]:
hflights.filter(items=["Dest", "Distance", "TaxiIn", "TaxiOut"])

Unnamed: 0,Dest,Distance,TaxiIn,TaxiOut
0,DFW,224,7.0,13.0
1,DFW,224,6.0,9.0
2,DFW,224,5.0,17.0
3,DFW,224,9.0,22.0
4,DFW,224,9.0,9.0
...,...,...,...,...
227491,TPA,781,5.0,11.0
227492,TPA,781,4.0,9.0
227493,TUL,453,4.0,14.0
227494,TUL,453,3.0,9.0


3. Sélectionner les variables `DepTime`, `ArrTime`, `ActualElapsedTime` et `AirTime` avec la méthode `filter` et le paramètre `like`.

In [35]:
hflights.filter(like="Time")

Unnamed: 0,DepTime,ArrTime,ActualElapsedTime,AirTime
0,1400.0,1500.0,60.0,40.0
1,1401.0,1501.0,60.0,45.0
2,1352.0,1502.0,70.0,48.0
3,1403.0,1513.0,70.0,39.0
4,1405.0,1507.0,62.0,44.0
...,...,...,...,...
227491,1818.0,2111.0,113.0,97.0
227492,2047.0,2334.0,107.0,94.0
227493,912.0,1031.0,79.0,61.0
227494,656.0,812.0,76.0,64.0


4. Ajouter une variable `ActualGroundTime` qui correspond à `ActualElapsedTime` moins `AirTime`.

In [36]:
hflights["ActualGroundTime"] = hflights.ActualElapsedTime - hflights.AirTime
print(hflights.head())

   Year  Month  DayofMonth  DayOfWeek  DepTime  ArrTime UniqueCarrier  \
0  2011      1           1          6   1400.0   1500.0            AA   
1  2011      1           2          7   1401.0   1501.0            AA   
2  2011      1           3          1   1352.0   1502.0            AA   
3  2011      1           4          2   1403.0   1513.0            AA   
4  2011      1           5          3   1405.0   1507.0            AA   

   FlightNum TailNum  ActualElapsedTime  ...  DepDelay  Origin  Dest Distance  \
0        428  N576AA               60.0  ...       0.0     IAH   DFW      224   
1        428  N557AA               60.0  ...       1.0     IAH   DFW      224   
2        428  N541AA               70.0  ...      -8.0     IAH   DFW      224   
3        428  N403AA               70.0  ...       3.0     IAH   DFW      224   
4        428  N492AA               62.0  ...       5.0     IAH   DFW      224   

  TaxiIn  TaxiOut  Cancelled  CancellationCode  Diverted ActualGroundTime 

5. Ajouter une variable `AverageSpeed` qui donne la vitesse moyenne du vol et ordonner la table selon les valeurs décroissantes de cette variable.

In [39]:
hflights["AverageSpeed"] = hflights.Distance / hflights.AirTime
hflights.sort_values(by = "AverageSpeed", ascending=False, inplace=True)
print(hflights)

        Year  Month  DayofMonth  DayOfWeek  DepTime  ArrTime UniqueCarrier  \
147589  2011      8          31          3   1255.0   1346.0            CO   
8318    2011      1           8          6   1620.0   1730.0            EV   
34761   2011      2          21          1    834.0   1156.0            US   
185953  2011     10           9          7   1104.0   1117.0            XE   
40764   2011      3           9          3   1905.0   2225.0            CO   
...      ...    ...         ...        ...      ...      ...           ...   
227134  2011     12           4          7   1050.0   1843.0            WN   
227153  2011     12           4          7      NaN      NaN            WN   
227271  2011     12           5          1      NaN      NaN            WN   
227302  2011     12           5          1    819.0   1221.0            WN   
227394  2011     12           6          2      NaN      NaN            WN   

        FlightNum TailNum  ActualElapsedTime  ...  Origin  Dest

6. Sélectionner les vols à destination de `JFK`.

In [40]:
hflights[hflights.Dest == "JFK"]

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,DepTime,ArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,...,Origin,Dest,Distance,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,ActualGroundTime,AverageSpeed
19193,2011,2,7,1,659.0,1045.0,B6,620,N607JB,166.0,...,HOU,JFK,1428,5.0,14.0,0,,0,19.0,9.714286
19191,2011,2,6,7,700.0,1045.0,B6,620,N657JB,165.0,...,HOU,JFK,1428,4.0,10.0,0,,0,14.0,9.456954
19190,2011,2,5,6,700.0,1113.0,B6,620,N653JB,193.0,...,HOU,JFK,1428,8.0,32.0,0,,0,40.0,9.333333
19192,2011,2,6,7,1529.0,1917.0,B6,624,N531JB,168.0,...,HOU,JFK,1428,5.0,9.0,0,,0,14.0,9.272727
342,2011,1,24,1,707.0,1059.0,B6,620,N605JB,172.0,...,HOU,JFK,1428,4.0,12.0,0,,0,16.0,9.153846
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
147441,2011,8,27,6,,,B6,622,N568JB,,...,HOU,JFK,1428,,,1,B,0,,
147442,2011,8,28,7,,,B6,620,N606JB,,...,HOU,JFK,1428,,,1,B,0,,
147443,2011,8,28,7,,,B6,622,N606JB,,...,HOU,JFK,1428,,,1,B,0,,
147444,2011,8,29,1,,,B6,620,N653JB,,...,HOU,JFK,1428,,,1,B,0,,


7. Compter le nombre de vols à destination de `JFK`.

In [46]:
hflights["Dest"][hflights.Dest=="JFK"].agg("count")

np.int64(695)

8. Agréger les données `hflights` pour obtenir :
- `n` : le nombre total de vols,
- `n_dest`: le nombre total de destinations distinctes,
- `n_carrier` : le nombre total de compagnies distinctes.

In [None]:

pd.DataFrame(
    {
        "n" : hflights.FlightNum.count(),
        "n_dest" : hflights.Dest.nunique(),
        "n_carrier" : hflights.UniqueCarrier.nunique()
    },
    index=[0]
)


Unnamed: 0,n,n_dest,n_carrier
0,227496,116,15


9. Agréger les données des vols de la compagnie `AA` pour obtenir :
- le nombre total de vols,
- le nombre total de vols annulés,
- la valeur moyenne de `ArrDelay`.

In [88]:

hflights_AA = hflights[["FlightNum", "Cancelled", "ArrDelay"]][hflights.UniqueCarrier=="AA"]
pd.DataFrame(
    {
        "n" : hflights_AA.FlightNum.count(),
        "n_cancelled" : hflights_AA.Cancelled.sum(),
        "mean_arrdelay" : hflights_AA.ArrDelay.mean()
    },
    index=[0]
)

Unnamed: 0,n,n_cancelled,mean_arrdelay
0,3244,60,0.891756


10. Calculer pour chaque compagnie :
- le nombre total de vols,
- la valeur moyenne de `AirTime`.

In [None]:
print( # Remarquer la syntaxe de cet exemple
hflights
.groupby(hflights.UniqueCarrier)
.agg( # NamedAgg permet de nommer les agrégations
nb_vols=pd.NamedAgg(column="FlightNum", aggfunc="count"),
nb_annul = pd.NamedAgg(column="Cancelled", aggfunc="sum"),
variance=pd.NamedAgg(column="AirTime", aggfunc="mean")
)
)

               nb_vols  nb_annul    variance
UniqueCarrier                               
AA                3244        60   69.652612
AS                 365         0  254.184066
B6                 695        18  183.985141
CO               70032       475  145.457873
DL                2641        42   97.801235
EV                2204        76  103.656766
F9                 838         6  125.341346
FL                2139        21   92.706300
MQ                4648       135   93.839476
OO               16061       224  113.410684
UA                2072        34  157.406296
US                4082        46  133.856328
WN               45343       703   86.731341
XE               73053      1132   83.222146
YV                  79         1  121.935897


11. Ordonner les compagnies en fonction des retards moyens au départ.

In [80]:
print( # Remarquer la syntaxe de cet exemple
hflights
.groupby(hflights.UniqueCarrier)
.agg( # NamedAgg permet de nommer les agrégations
mean_depdelay=pd.NamedAgg(column="DepDelay", aggfunc="mean")
)
.sort_values(by="mean_depdelay")
)

               mean_depdelay
UniqueCarrier               
YV                  1.538462
US                  1.622926
AS                  3.712329
FL                  4.716376
F9                  5.093637
AA                  6.390144
XE                  7.713728
OO                  8.885482
CO                  9.261313
DL                  9.370627
MQ                 11.071745
EV                 12.482193
UA                 12.918707
B6                 13.320532
WN                 13.488241
