# Notebook 1 : Découverte de Pandas

In [1]:
import pandas as pd

## Iris

Nous considérons le jeu de données connu sous le nom des [Iris de Fisher](https://fr.wikipedia.org/wiki/Iris_de_Fisher). Répondez aux questions suivantes à l'aide du module Pandas.

1. Charger le jeu de données dans un dataframe `iris` à partir du fichier `iris.csv` et afficher le dataframe.

In [2]:
iris = pd.read_csv("data/iris.csv")
iris

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


2. Sélectionner les variables `PetalWidth` et `Species`.

In [3]:
# Sélection par nom
iris[["PetalWidth", "Species"]]

# Sélection avec filter
iris.filter(items=["PetalWidth", "Species"])

Unnamed: 0,PetalWidth,Species
0,0.2,setosa
1,0.2,setosa
2,0.2,setosa
3,0.2,setosa
4,0.2,setosa
...,...,...
145,2.3,virginica
146,1.9,virginica
147,2.0,virginica
148,2.3,virginica


3. Extraire le sous-dataframe qui contient uniquement les iris des espèces `versicolor` ou `virginica`.

In [4]:
# Avec l'opérateur "|"
iris[(iris.Species == "versicolor") | (iris.Species == "virginica")]

# Avec la méthode isin
iris[iris.Species.isin(["versicolor", "virginica"])]

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Species
50,7.0,3.2,4.7,1.4,versicolor
51,6.4,3.2,4.5,1.5,versicolor
52,6.9,3.1,4.9,1.5,versicolor
53,5.5,2.3,4.0,1.3,versicolor
54,6.5,2.8,4.6,1.5,versicolor
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


4. Compter le nombre d'iris de l'espèce `setosa`.

In [5]:
# Avec la fonction len
len(iris[iris.Species == "setosa"])

# Avec l'agrégateur count
iris[iris.Species == "setosa"].Species.count()

np.int64(50)

5. Calculer la moyenne de la variable `PetalWidth` pour les iris de l'espèce `versicolor`.

In [6]:
# Avec la méthode mean
iris[iris.Species == "versicolor"].PetalWidth.mean()

# Avec l'agrégateur mean
iris[iris.Species == "versicolor"].PetalWidth.agg("mean")

np.float64(1.3259999999999998)

6. Ajouter une variable `SumWidth` qui contient la somme des variables `PetalWidth` et `SepalWidth`.

In [7]:
iris["SumWidth"] = iris.PetalWidth + iris.SepalWidth
iris

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Species,SumWidth
0,5.1,3.5,1.4,0.2,setosa,3.7
1,4.9,3.0,1.4,0.2,setosa,3.2
2,4.7,3.2,1.3,0.2,setosa,3.4
3,4.6,3.1,1.5,0.2,setosa,3.3
4,5.0,3.6,1.4,0.2,setosa,3.8
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,5.3
146,6.3,2.5,5.0,1.9,virginica,4.4
147,6.5,3.0,5.2,2.0,virginica,5.0
148,6.2,3.4,5.4,2.3,virginica,5.7


7. Calculer la moyenne et la variance de la variable `SepalLength` pour chaque espèce.

In [8]:
iris.groupby("Species").SepalLength.agg(["mean", "var"])

Unnamed: 0_level_0,mean,var
Species,Unnamed: 1_level_1,Unnamed: 2_level_1
setosa,5.006,0.124249
versicolor,5.936,0.266433
virginica,6.588,0.404343


8. Calculer la moyenne de toutes les variables pour chaque espèce. Afficher le résultat au format large et au format long.

In [9]:
# Moyennes avec la méthode mean
format_large = iris.groupby("Species").mean()
format_large

Unnamed: 0_level_0,SepalLength,SepalWidth,PetalLength,PetalWidth,SumWidth
Species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
setosa,5.006,3.428,1.462,0.246,3.674
versicolor,5.936,2.77,4.26,1.326,4.096
virginica,6.588,2.974,5.552,2.026,5.0


In [10]:
# Passage au format long
(
    format_large.reset_index()
    .melt(
        id_vars=["Species"],
        var_name="Variable",
        value_name="Mean",
    )
)

Unnamed: 0,Species,Variable,Mean
0,setosa,SepalLength,5.006
1,versicolor,SepalLength,5.936
2,virginica,SepalLength,6.588
3,setosa,SepalWidth,3.428
4,versicolor,SepalWidth,2.77
5,virginica,SepalWidth,2.974
6,setosa,PetalLength,1.462
7,versicolor,PetalLength,4.26
8,virginica,PetalLength,5.552
9,setosa,PetalWidth,0.246


## Houston flights

Nous considérons le jeux de données `hflights` relatif à des vols au départ des aéroports *Houston George Bush Intercontinental Airport* (IAH) et *William P. Hobby Airport* (HOU).

1. Charger le jeu de données dans un dataframe `hflights` à partir du fichier `hflights.csv`

In [11]:
hflights = pd.read_csv("data/hflights.csv")

2. Sélectionner les variable `Dest`, `Distance`, `TaxiIn` et `TaxiOut` avec la méthode `filter`.

In [12]:
# Sélection avec items
hflights.filter(items=["Dest", "Distance", "TaxiIn", "TaxiOut"])

# Sélection par expression régulière
hflights.filter(regex="^(D.st|Taxi)")

Unnamed: 0,Dest,Distance,TaxiIn,TaxiOut
0,DFW,224,7.0,13.0
1,DFW,224,6.0,9.0
2,DFW,224,5.0,17.0
3,DFW,224,9.0,22.0
4,DFW,224,9.0,9.0
...,...,...,...,...
227491,TPA,781,5.0,11.0
227492,TPA,781,4.0,9.0
227493,TUL,453,4.0,14.0
227494,TUL,453,3.0,9.0


3. Sélectionner les variables `DepTime`, `ArrTime`, `ActualElapsedTime` et `AirTime` avec la méthode `filter` et le paramètre `like`.

In [13]:
hflights.filter(like="Time")

Unnamed: 0,DepTime,ArrTime,ActualElapsedTime,AirTime
0,1400.0,1500.0,60.0,40.0
1,1401.0,1501.0,60.0,45.0
2,1352.0,1502.0,70.0,48.0
3,1403.0,1513.0,70.0,39.0
4,1405.0,1507.0,62.0,44.0
...,...,...,...,...
227491,1818.0,2111.0,113.0,97.0
227492,2047.0,2334.0,107.0,94.0
227493,912.0,1031.0,79.0,61.0
227494,656.0,812.0,76.0,64.0


4. Ajouter une variable `ActualGroundTime` qui correspond à `ActualElapsedTime` moins `AirTime`.

In [14]:
hflights["ActualGroundTime"] = hflights.ActualElapsedTime - hflights.AirTime

5. Ajouter une variable `AverageSpeed` qui donne la vitesse moyenne du vol et ordonner la table selon les valeurs décroissantes de cette variable.

In [15]:
hflights["AverageSpeed"] = hflights.Distance / hflights.AirTime
hflights.sort_values(by="AverageSpeed", ascending=False, inplace=True)
hflights

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,DepTime,ArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,...,Origin,Dest,Distance,TaxiIn,TaxiOut,a,CancellationCode,Diverted,ActualGroundTime,AverageSpeed
147589,2011,8,31,3,1255.0,1346.0,CO,1646,N11612,51.0,...,IAH,AUS,140,8.0,32.0,0,,0,40.0,12.727273
8318,2011,1,8,6,1620.0,1730.0,EV,5229,N451CA,70.0,...,IAH,MEM,469,10.0,18.0,0,,0,28.0,11.166667
34761,2011,2,21,1,834.0,1156.0,US,944,N409US,142.0,...,IAH,CLT,913,22.0,35.0,0,,0,57.0,10.741176
185953,2011,10,9,7,1104.0,1117.0,XE,4634,N11121,73.0,...,IAH,HOB,501,13.0,13.0,0,,0,26.0,10.659574
40764,2011,3,9,3,1905.0,2225.0,CO,500,N19638,140.0,...,IAH,IND,845,6.0,52.0,0,,0,58.0,10.304878
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
227134,2011,12,4,7,1050.0,1843.0,WN,1797,N791SW,,...,HOU,BWI,1246,6.0,11.0,0,,1,,
227153,2011,12,4,7,,,WN,2387,N928WN,,...,HOU,DAL,239,,,1,A,0,,
227271,2011,12,5,1,,,WN,38,N604SW,,...,HOU,DAL,239,,,1,A,0,,
227302,2011,12,5,1,819.0,1221.0,WN,269,N665WN,,...,HOU,JAN,359,6.0,9.0,0,,1,,


6. Sélectionner les vols à destination de `JFK`.

In [16]:
hflights[hflights.Dest == "JFK"]

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,DepTime,ArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,...,Origin,Dest,Distance,TaxiIn,TaxiOut,a,CancellationCode,Diverted,ActualGroundTime,AverageSpeed
19193,2011,2,7,1,659.0,1045.0,B6,620,N607JB,166.0,...,HOU,JFK,1428,5.0,14.0,0,,0,19.0,9.714286
19191,2011,2,6,7,700.0,1045.0,B6,620,N657JB,165.0,...,HOU,JFK,1428,4.0,10.0,0,,0,14.0,9.456954
19190,2011,2,5,6,700.0,1113.0,B6,620,N653JB,193.0,...,HOU,JFK,1428,8.0,32.0,0,,0,40.0,9.333333
19192,2011,2,6,7,1529.0,1917.0,B6,624,N531JB,168.0,...,HOU,JFK,1428,5.0,9.0,0,,0,14.0,9.272727
342,2011,1,24,1,707.0,1059.0,B6,620,N605JB,172.0,...,HOU,JFK,1428,4.0,12.0,0,,0,16.0,9.153846
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
147441,2011,8,27,6,,,B6,622,N568JB,,...,HOU,JFK,1428,,,1,B,0,,
147442,2011,8,28,7,,,B6,620,N606JB,,...,HOU,JFK,1428,,,1,B,0,,
147443,2011,8,28,7,,,B6,622,N606JB,,...,HOU,JFK,1428,,,1,B,0,,
147444,2011,8,29,1,,,B6,620,N653JB,,...,HOU,JFK,1428,,,1,B,0,,


7. Compter le nombre de vols à destination de `JFK`.

In [17]:
len(hflights[hflights.Dest == "JFK"])

695

8. Agréger les données `hflights` pour obtenir :
- `n` : le nombre total de vols,
- `n_dest`: le nombre total de destinations distinctes,
- `n_carrier` : le nombre total de compagnies distinctes.

In [18]:
# Avec agg
hflights.agg(
    n=pd.NamedAgg(column="FlightNum", aggfunc="count"),
    n_dest=pd.NamedAgg(column="Dest", aggfunc=pd.Series.nunique),
    n_carrier=pd.NamedAgg(column="UniqueCarrier", aggfunc=pd.Series.nunique),
)

# Avec un nouveau dataframe
pd.DataFrame(
    {
        "n": len(hflights),
        "n_dest": hflights.Dest.nunique(),
        "n_carrier": hflights.UniqueCarrier.nunique(),
    },
    index=[0] # Index obligatoire si on ne passe pas des listes
)

Unnamed: 0,n,n_dest,n_carrier
0,227496,116,15


9. Agréger les données des vols de la compagnie `AA` pour obtenir :
- le nombre total de vols,
- le nombre total de vols annulés,
- la valeur moyenne de `ArrDelay`.

In [19]:
aa = hflights[hflights.UniqueCarrier == "AA"]
pd.DataFrame(
    # Index non nécessaire si on n'utilise des listes
    {
        "n": [len(aa)],
        "n_cancel": [aa.Cancelled.sum()],
        "mean": [aa.ArrDelay.mean()],
    },
)

AttributeError: 'DataFrame' object has no attribute 'Cancelled'

10. Calculer pour chaque compagnie :
- le nombre total de vols,
- la valeur moyenne de `AirTime`.

In [None]:
hflights.groupby("UniqueCarrier").agg(
    n=pd.NamedAgg(column="FlightNum", aggfunc="count"),
    mean=pd.NamedAgg(column="AirTime", aggfunc="mean"),
)

11. Ordonner les compagnies en fonction des retards moyens au départ.

In [20]:
hflights.groupby("UniqueCarrier").agg(
    mean=pd.NamedAgg(column="DepDelay", aggfunc="mean"),
).sort_values(by="mean")

Unnamed: 0_level_0,mean
UniqueCarrier,Unnamed: 1_level_1
YV,1.538462
US,1.622926
AS,3.712329
FL,4.716376
F9,5.093637
AA,6.390144
XE,7.713728
OO,8.885482
CO,9.261313
DL,9.370627
