# Introduction

On va étudier un jeu de données contenant différentes infos autour des retards d'avion aux Etats-Unis en mai 2006. On utilise principalement pandas qui est un module Python dédié à la manipulation de données de grandes dimensions : https://pandas.pydata.org/pandas-docs/stable/ (la doc est votre amie !)

# Import du module

In [1]:
import pandas as pd

# Lecture des données
La méthode read_csv permet d'importer les données depuis un fichier csv. L'option index_col=0 indique que la première colonne du fichier sera l'index de notre DataFrame, et non une colonne comme les autres. Le DataFrame est la structure de données principale du module pandas : https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html

In [12]:
df = pd.read_csv("datas.csv", index_col=0)

# Aperçu du tableau
Les méthodes head et tail permettent respectivement de visualiser les n premières et dernières lignes d'un DataFrame. Par défaut, n vaut 5 mais on peut choisir le nombre de lignes que l'on veut afficher

In [13]:
df.head(10)

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,...,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
Vol_0,2006,5,8,1,705.0,700,917.0,915,US,560,...,6,9,0,,0,0,0,0,0,0
Vol_1,2006,5,10,3,705.0,700,920.0,915,US,560,...,5,10,0,,0,0,0,0,0,0
Vol_2,2006,5,12,5,700.0,700,922.0,915,US,560,...,8,11,0,,0,0,0,0,0,0
Vol_3,2006,5,14,7,700.0,700,910.0,915,US,560,...,5,5,0,,0,0,0,0,0,0
Vol_4,2006,5,16,2,724.0,700,921.0,915,US,560,...,3,9,0,,0,0,0,0,0,0
Vol_5,2006,5,18,4,658.0,700,909.0,915,US,560,...,6,12,0,,0,0,0,0,0,0
Vol_6,2006,5,20,6,657.0,700,908.0,915,US,560,...,3,11,0,,0,0,0,0,0,0
Vol_7,2006,5,22,1,653.0,700,904.0,915,US,560,...,3,9,0,,0,0,0,0,0,0
Vol_8,2006,5,24,3,658.0,700,914.0,915,US,560,...,4,9,0,,0,0,0,0,0,0
Vol_9,2006,5,26,5,800.0,700,1017.0,915,US,560,...,9,11,0,,0,60,0,2,0,0


In [14]:
df.tail(10)

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,...,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
Vol_301450,2006,5,31,3,1922.0,1858,2151.0,2122,DL,371,...,7,12,0,,0,24,0,5,0,0
Vol_301451,2006,5,31,3,1501.0,1504,1841.0,1826,DL,373,...,7,40,0,,0,0,0,15,0,0
Vol_301452,2006,5,31,3,1851.0,1850,2024.0,2033,DL,376,...,6,18,0,,0,0,0,0,0,0
Vol_301453,2006,5,31,3,640.0,645,1408.0,1400,DL,378,...,8,41,0,,0,0,0,0,0,0
Vol_301454,2006,5,31,3,1151.0,1020,1833.0,1710,DL,379,...,11,16,0,,0,83,0,0,0,0
Vol_301455,2006,5,31,3,1838.0,1842,1943.0,1945,DL,384,...,12,16,0,,0,0,0,0,0,0
Vol_301456,2006,5,31,3,640.0,645,1307.0,1318,DL,385,...,5,13,0,,0,0,0,0,0,0
Vol_301457,2006,5,31,3,1222.0,1155,1422.0,1345,DL,387,...,11,24,0,,0,27,0,10,0,0
Vol_301458,2006,5,31,3,1830.0,1800,2057.0,2037,DL,389,...,9,25,0,,0,0,0,17,0,3
Vol_301459,2006,5,31,3,1615.0,1615,1755.0,1804,DL,392,...,6,14,0,,0,0,0,0,0,0


# Liste des colonnes
l'attribut columns permet de récupérer la liste des colonnes d'un DataFrame 

In [15]:
df.columns

Index(['Year', 'Month', 'DayofMonth', 'DayOfWeek', 'DepTime', 'CRSDepTime',
       'ArrTime', 'CRSArrTime', 'UniqueCarrier', 'FlightNum', 'TailNum',
       'ActualElapsedTime', 'CRSElapsedTime', 'AirTime', 'ArrDelay',
       'DepDelay', 'Origin', 'Dest', 'Distance', 'TaxiIn', 'TaxiOut',
       'Cancelled', 'CancellationCode', 'Diverted', 'CarrierDelay',
       'WeatherDelay', 'NASDelay', 'SecurityDelay', 'LateAircraftDelay'],
      dtype='object')

# Dimensions du tableau
l'attribut shape permet de récupérer les dimensions du tableau. La première valeur est lenombre de lignes, la seonde le nombre de colonnes (c'est un tuple, cf cours précédent)

In [16]:
df.shape

(301460, 29)

# Type des données
l'attribut dtypes permet de récupérer les dtypes de chaque colonne

In [17]:
df.dtypes

Year                   int64
Month                  int64
DayofMonth             int64
DayOfWeek              int64
DepTime              float64
CRSDepTime             int64
ArrTime              float64
CRSArrTime             int64
UniqueCarrier         object
FlightNum              int64
TailNum               object
ActualElapsedTime    float64
CRSElapsedTime       float64
AirTime              float64
ArrDelay             float64
DepDelay             float64
Origin                object
Dest                  object
Distance               int64
TaxiIn                 int64
TaxiOut                int64
Cancelled              int64
CancellationCode      object
Diverted               int64
CarrierDelay           int64
WeatherDelay           int64
NASDelay               int64
SecurityDelay          int64
LateAircraftDelay      int64
dtype: object

# Premier exercice (ne vous inquiétez pas il est facile !)
Cherchez dans la doc et utilisez l'attribut qui permet d'accéder à l'index du DataFrame

In [18]:
df.index

Index(['Vol_0', 'Vol_1', 'Vol_2', 'Vol_3', 'Vol_4', 'Vol_5', 'Vol_6', 'Vol_7',
       'Vol_8', 'Vol_9',
       ...
       'Vol_301450', 'Vol_301451', 'Vol_301452', 'Vol_301453', 'Vol_301454',
       'Vol_301455', 'Vol_301456', 'Vol_301457', 'Vol_301458', 'Vol_301459'],
      dtype='object', length=301460)

# Décompte des valeurs présentes
la méthode count permet de compter le nombre de valeurs non-nan pour chaque colonne

In [19]:
df.count()

Year                 301460
Month                301460
DayofMonth           301460
DayOfWeek            301460
DepTime              297914
CRSDepTime           301460
ArrTime              297324
CRSArrTime           301460
UniqueCarrier        301460
FlightNum            301460
TailNum              301460
ActualElapsedTime    297324
CRSElapsedTime       301460
AirTime              297324
ArrDelay             297324
DepDelay             297914
Origin               301460
Dest                 301460
Distance             301460
TaxiIn               301460
TaxiOut              301460
Cancelled            301460
CancellationCode       3546
Diverted             301460
CarrierDelay         301460
WeatherDelay         301460
NASDelay             301460
SecurityDelay        301460
LateAircraftDelay    301460
dtype: int64

# Première infos statistiques
la méthode describe donne de premières infos de statistiques descriptives par colonne

In [20]:
df.describe()

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,FlightNum,ActualElapsedTime,...,Distance,TaxiIn,TaxiOut,Cancelled,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
count,301460.0,301460.0,301460.0,301460.0,297914.0,301460.0,297324.0,301460.0,301460.0,297324.0,...,301460.0,301460.0,301460.0,301460.0,301460.0,301460.0,301460.0,301460.0,301460.0,301460.0
mean,2006.0,5.0,15.928073,3.743601,1338.087599,1330.788725,1486.53993,1494.931002,2207.965889,125.134967,...,730.104979,6.797406,15.426965,0.011763,0.001957,2.879888,0.541531,3.194497,0.014264,4.011441
std,0.0,0.0,8.946855,1.985304,473.382507,460.417894,496.297795,476.034379,2025.136577,71.050381,...,577.823534,29.621836,10.887856,0.107817,0.044196,17.16873,7.330082,14.44562,0.799616,18.106906
min,2006.0,5.0,1.0,1.0,1.0,10.0,1.0,1.0,1.0,16.0,...,24.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,2006.0,5.0,8.0,2.0,930.0,930.0,1109.0,1115.0,576.0,74.0,...,316.0,4.0,10.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,2006.0,5.0,16.0,4.0,1327.0,1323.0,1516.0,1520.0,1476.0,106.0,...,576.0,5.0,13.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
75%,2006.0,5.0,24.0,5.0,1730.0,1720.0,1909.0,1905.0,3640.0,155.0,...,957.0,7.0,18.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
max,2006.0,5.0,31.0,7.0,2431.0,2359.0,2550.0,2359.0,9501.0,1511.0,...,4962.0,1467.0,292.0,1.0,1.0,1064.0,646.0,495.0,179.0,515.0


# Exercice !
Cherchez dans la doc et utilisez les méthodes qui respectivement : renvoie la mémoire utilisée par le DataFrame, supprime les colonnes Year et Month, et trie le DataFrame par FlightNum

In [21]:
df.memory_usage()

Index                2411680
Year                 2411680
Month                2411680
DayofMonth           2411680
DayOfWeek            2411680
DepTime              2411680
CRSDepTime           2411680
ArrTime              2411680
CRSArrTime           2411680
UniqueCarrier        2411680
FlightNum            2411680
TailNum              2411680
ActualElapsedTime    2411680
CRSElapsedTime       2411680
AirTime              2411680
ArrDelay             2411680
DepDelay             2411680
Origin               2411680
Dest                 2411680
Distance             2411680
TaxiIn               2411680
TaxiOut              2411680
Cancelled            2411680
CancellationCode     2411680
Diverted             2411680
CarrierDelay         2411680
WeatherDelay         2411680
NASDelay             2411680
SecurityDelay        2411680
LateAircraftDelay    2411680
dtype: int64

In [22]:
df.drop(['Year', 'Month'], axis=1, inplace=True)

In [23]:
df.sort_values(by='FlightNum')

Unnamed: 0,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,...,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
Vol_124482,1,1,1009.0,1010,1409.0,1431,UA,1,N215UA,540.0,...,8,19,0,,0,0,0,0,0,0
Vol_225990,22,1,858.0,900,1216.0,1201,AA,1,N332AA,378.0,...,15,24,0,,0,0,0,15,0,0
Vol_225991,24,3,851.0,900,1135.0,1201,AA,1,N319AA,344.0,...,4,24,0,,0,0,0,0,0,0
Vol_225993,29,1,853.0,900,1141.0,1201,AA,1,N322AA,348.0,...,5,21,0,,0,0,0,0,0,0
Vol_225994,31,3,852.0,900,1145.0,1201,AA,1,N321AA,353.0,...,4,27,0,,0,0,0,0,0,0
Vol_176876,31,3,839.0,840,1104.0,1110,HA,1,N588HA,325.0,...,4,15,0,,0,0,0,0,0,0
Vol_258977,17,3,1159.0,1200,1424.0,1438,AS,1,N611AS,205.0,...,6,19,0,,0,0,0,0,0,0
Vol_258978,17,3,1527.0,1520,1615.0,1616,AS,1,N611AS,48.0,...,3,7,0,,0,0,0,0,0,0
Vol_176875,29,1,835.0,840,1051.0,1110,HA,1,N593HA,316.0,...,4,10,0,,0,0,0,0,0,0
Vol_176874,27,6,837.0,840,1053.0,1110,HA,1,N587HA,316.0,...,3,11,0,,0,0,0,0,0,0


# Accéder à une colonne
On cherche ici à accéder aux données de la colonne UniqueCarrier en particulier. On crée donc la variable extrait qui va contenir ses informations. La variable extrait sera soit une Series soit un DataFrame selon la méthode utilisée. La Series est une structure de données à une dimension, différente du DataFrame : http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html même si beaucoups d'attributs et de méthodes sont identiques

### par son nom

##### méthode 1

In [24]:
extrait = df.loc[:, 'UniqueCarrier']
print(extrait.head())
print('')
print(type(extrait))

Vol_0    US
Vol_1    US
Vol_2    US
Vol_3    US
Vol_4    US
Name: UniqueCarrier, dtype: object

<class 'pandas.core.series.Series'>


##### méthode 2

In [25]:
extrait = df.UniqueCarrier
print(extrait.head())
print('')
print(type(extrait))

Vol_0    US
Vol_1    US
Vol_2    US
Vol_3    US
Vol_4    US
Name: UniqueCarrier, dtype: object

<class 'pandas.core.series.Series'>


##### méthode 3

In [26]:
extrait = df.loc[:, ['UniqueCarrier']]
print(extrait.head())
print('')
print(type(extrait))

      UniqueCarrier
Vol_0            US
Vol_1            US
Vol_2            US
Vol_3            US
Vol_4            US

<class 'pandas.core.frame.DataFrame'>


##### méthode 4

In [27]:
extrait = df[['UniqueCarrier']]
print(extrait.head())
print('')
print(type(extrait))

      UniqueCarrier
Vol_0            US
Vol_1            US
Vol_2            US
Vol_3            US
Vol_4            US

<class 'pandas.core.frame.DataFrame'>


### par sa position dans la liste des colonnes

##### méthode 1

In [30]:
extrait = df.iloc[:, 6]
print(extrait.head())
print('')
print(type(extrait))

Vol_0    US
Vol_1    US
Vol_2    US
Vol_3    US
Vol_4    US
Name: UniqueCarrier, dtype: object

<class 'pandas.core.series.Series'>


##### méthode 2

In [31]:
extrait = df.iloc[:, [6]]
print(extrait.head())
print('')
print(type(extrait))

      UniqueCarrier
Vol_0            US
Vol_1            US
Vol_2            US
Vol_3            US
Vol_4            US

<class 'pandas.core.frame.DataFrame'>


# Accéder à un ensemble de colonnes
On peut également accéder à un ensemble de colonnes parmi celles du DataFrame d'origine

### Exercice : créer une variable extrait contenant les informations UniqueCarrier, DepTime et ArrTime

In [33]:
extrait = df[['UniqueCarrier', 'DepTime', 'ArrTime']]
print(extrait.head())

      UniqueCarrier  DepTime  ArrTime
Vol_0            US    705.0    917.0
Vol_1            US    705.0    920.0
Vol_2            US    700.0    922.0
Vol_3            US    700.0    910.0
Vol_4            US    724.0    921.0


### Exercice : créer une variable extrait2 contenant les informations CRSDepTime et CRSArrTime

In [34]:
extrait2 = df[['CRSDepTime', 'CRSArrTime']]
print(extrait2.head())

       CRSDepTime  CRSArrTime
Vol_0         700         915
Vol_1         700         915
Vol_2         700         915
Vol_3         700         915
Vol_4         700         915


### Exercice : trouver comment coller extrait et extrait2 en un seul DataFrame (3 méthodes possibles)

In [36]:
collage = extrait.join(extrait2)
print(collage.head())

      UniqueCarrier  DepTime  ArrTime  CRSDepTime  CRSArrTime
Vol_0            US    705.0    917.0         700         915
Vol_1            US    705.0    920.0         700         915
Vol_2            US    700.0    922.0         700         915
Vol_3            US    700.0    910.0         700         915
Vol_4            US    724.0    921.0         700         915


In [37]:
collage = pd.concat([extrait, extrait2], axis=1)
print(collage.head())

      UniqueCarrier  DepTime  ArrTime  CRSDepTime  CRSArrTime
Vol_0            US    705.0    917.0         700         915
Vol_1            US    705.0    920.0         700         915
Vol_2            US    700.0    922.0         700         915
Vol_3            US    700.0    910.0         700         915
Vol_4            US    724.0    921.0         700         915


In [38]:
collage = pd.merge(extrait, extrait2, how='inner', left_index=True, right_index=True)
print(collage.head())

      UniqueCarrier  DepTime  ArrTime  CRSDepTime  CRSArrTime
Vol_0            US    705.0    917.0         700         915
Vol_1            US    705.0    920.0         700         915
Vol_2            US    700.0    922.0         700         915
Vol_3            US    700.0    910.0         700         915
Vol_4            US    724.0    921.0         700         915


# Accéder à une ligne
De la même manière que l'on peut accéder à une colonne ou à une liste de colonnes, on peut également accéder aux lignes que l'on souhaite

### par son nom

In [39]:
df.loc['Vol_0']

DayofMonth                8
DayOfWeek                 1
DepTime                 705
CRSDepTime              700
ArrTime                 917
CRSArrTime              915
UniqueCarrier            US
FlightNum               560
TailNum              N405US
ActualElapsedTime       132
CRSElapsedTime          135
AirTime                 117
ArrDelay                  2
DepDelay                  5
Origin                  PBI
Dest                    DCA
Distance                857
TaxiIn                    6
TaxiOut                   9
Cancelled                 0
CancellationCode        NaN
Diverted                  0
CarrierDelay              0
WeatherDelay              0
NASDelay                  0
SecurityDelay             0
LateAircraftDelay         0
Name: Vol_0, dtype: object

### par sa position dans la liste

In [40]:
df.iloc[0]

DayofMonth                8
DayOfWeek                 1
DepTime                 705
CRSDepTime              700
ArrTime                 917
CRSArrTime              915
UniqueCarrier            US
FlightNum               560
TailNum              N405US
ActualElapsedTime       132
CRSElapsedTime          135
AirTime                 117
ArrDelay                  2
DepDelay                  5
Origin                  PBI
Dest                    DCA
Distance                857
TaxiIn                    6
TaxiOut                   9
Cancelled                 0
CancellationCode        NaN
Diverted                  0
CarrierDelay              0
WeatherDelay              0
NASDelay                  0
SecurityDelay             0
LateAircraftDelay         0
Name: Vol_0, dtype: object

# Accéder à un ensemble de lignes

### par leurs noms

In [43]:
df.loc[['Vol_0', 'Vol_1', 'Vol_2']]

Unnamed: 0,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,...,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
Vol_0,8,1,705.0,700,917.0,915,US,560,N405US,132.0,...,6,9,0,,0,0,0,0,0,0
Vol_1,10,3,705.0,700,920.0,915,US,560,N784AU,135.0,...,5,10,0,,0,0,0,0,0,0
Vol_2,12,5,700.0,700,922.0,915,US,560,N421US,142.0,...,8,11,0,,0,0,0,0,0,0


### par leurs positions

In [44]:
df.iloc[[0, 1, 2]]

Unnamed: 0,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,...,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
Vol_0,8,1,705.0,700,917.0,915,US,560,N405US,132.0,...,6,9,0,,0,0,0,0,0,0
Vol_1,10,3,705.0,700,920.0,915,US,560,N784AU,135.0,...,5,10,0,,0,0,0,0,0,0
Vol_2,12,5,700.0,700,922.0,915,US,560,N421US,142.0,...,8,11,0,,0,0,0,0,0,0


### Exercice : extraire les 100 premières lignes dans une nouvelle variable, les 100 dernières dans une autre, et recoller ces deux nouvelles variables en un seul DataFrame de 200 lignes

In [45]:
extrait1 = df.iloc[:100]

In [48]:
extrait2 = df.iloc[-100:]

In [49]:
collage = pd.concat([extrait1, extrait2], axis=0)
print(collage)

            DayofMonth  DayOfWeek  DepTime  CRSDepTime  ArrTime  CRSArrTime  \
Vol_0                8          1    705.0         700    917.0         915   
Vol_1               10          3    705.0         700    920.0         915   
Vol_2               12          5    700.0         700    922.0         915   
Vol_3               14          7    700.0         700    910.0         915   
Vol_4               16          2    724.0         700    921.0         915   
Vol_5               18          4    658.0         700    909.0         915   
Vol_6               20          6    657.0         700    908.0         915   
Vol_7               22          1    653.0         700    904.0         915   
Vol_8               24          3    658.0         700    914.0         915   
Vol_9               26          5    800.0         700   1017.0         915   
Vol_10              28          7    703.0         700    920.0         915   
Vol_11              30          2    706.0         7

# Accéder à un ensemble de lignes et colonnes

### par leurs noms

In [50]:
df.loc[['Vol_0', 'Vol_1'], ['UniqueCarrier', 'Distance']]

Unnamed: 0,UniqueCarrier,Distance
Vol_0,US,857
Vol_1,US,857


### par leurs positions dans la liste

In [52]:
df.iloc[[0, 1], [6, 16]]

Unnamed: 0,UniqueCarrier,Distance
Vol_0,US,857
Vol_1,US,857


# Extraction conditionnelle

### exemple 1

In [56]:
extrait = df[df.UniqueCarrier == 'AA']
print(extrait.head())

            DayofMonth  DayOfWeek  DepTime  CRSDepTime  ArrTime  CRSArrTime  \
Vol_225980           2          2    853.0         900   1156.0        1201   
Vol_225981           4          4   1146.0         900   1444.0        1201   
Vol_225982           6          6    853.0         900   1208.0        1201   
Vol_225983           8          1    852.0         900   1144.0        1201   
Vol_225984          10          3    852.0         900   1152.0        1201   

           UniqueCarrier  FlightNum TailNum  ActualElapsedTime  \
Vol_225980            AA          1  N325AA              363.0   
Vol_225981            AA          1  N338AA              358.0   
Vol_225982            AA          1  N336AA              375.0   
Vol_225983            AA          1  N330AA              352.0   
Vol_225984            AA          1  N327AA              360.0   

                  ...          TaxiIn  TaxiOut  Cancelled  CancellationCode  \
Vol_225980        ...               7       29   

In [57]:
print(extrait.shape)

(27652, 27)


In [58]:
print(extrait.UniqueCarrier.value_counts())

AA    27652
Name: UniqueCarrier, dtype: int64


### exemple 2

In [59]:
extrait = df[df.CarrierDelay > 10]
print(extrait.head())

         DayofMonth  DayOfWeek  DepTime  CRSDepTime  ArrTime  CRSArrTime  \
Vol_9            26          5    800.0         700   1017.0         915   
Vol_19           15          1   1710.0        1635   1919.0        1843   
Vol_26           29          1   1653.0        1635   1909.0        1843   
Vol_41            1          1   1222.0        1145   1432.0        1402   
Vol_102           7          7   2156.0        2140   2313.0        2256   

        UniqueCarrier  FlightNum TailNum  ActualElapsedTime  \
Vol_9              US        560  N785AU              137.0   
Vol_19             US        566  N708UW              129.0   
Vol_26             US        566  N710UW              136.0   
Vol_41             US        696  N420US              130.0   
Vol_102            US        790  N770UW               77.0   

               ...          TaxiIn  TaxiOut  Cancelled  CancellationCode  \
Vol_9          ...               9       11          0               NaN   
Vol_19      

In [60]:
print(extrait.shape)

(18551, 27)


In [61]:
print(extrait.CarrierDelay.describe())

count    18551.000000
mean        44.181769
std         54.353875
min         11.000000
25%         17.000000
50%         27.000000
75%         50.000000
max       1064.000000
Name: CarrierDelay, dtype: float64


### Exercice : chercher comment combiner les 2 conditions précedentes

In [62]:
extrait = df[(df.UniqueCarrier == 'AA') & (df.CarrierDelay > 10)]
print(extrait.head())

            DayofMonth  DayOfWeek  DepTime  CRSDepTime  ArrTime  CRSArrTime  \
Vol_225981           4          4   1146.0         900   1444.0        1201   
Vol_225995           2          2    947.0         930   1809.0        1752   
Vol_226003          18          4    950.0         930   1830.0        1752   
Vol_226005          22          1   1026.0         930   1832.0        1752   
Vol_226010           1          1   1240.0        1200   1514.0        1453   

           UniqueCarrier  FlightNum TailNum  ActualElapsedTime  \
Vol_225981            AA          1  N338AA              358.0   
Vol_225995            AA          2  N324AA              322.0   
Vol_226003            AA          2  N329AA              340.0   
Vol_226005            AA          2  N347AA              306.0   
Vol_226010            AA          3  N338AA              334.0   

                  ...          TaxiIn  TaxiOut  Cancelled  CancellationCode  \
Vol_225981        ...               3       13   

In [63]:
print(extrait.shape)

(1740, 27)


### Exercice : extraire le DataFrame des vols ayant parcouru une distance supérieure à la distance moyenne

In [64]:
extrait = df[df.Distance > df.Distance.mean()]
print(extrait.head())

       DayofMonth  DayOfWeek  DepTime  CRSDepTime  ArrTime  CRSArrTime  \
Vol_0           8          1    705.0         700    917.0         915   
Vol_1          10          3    705.0         700    920.0         915   
Vol_2          12          5    700.0         700    922.0         915   
Vol_3          14          7    700.0         700    910.0         915   
Vol_4          16          2    724.0         700    921.0         915   

      UniqueCarrier  FlightNum TailNum  ActualElapsedTime        ...          \
Vol_0            US        560  N405US              132.0        ...           
Vol_1            US        560  N784AU              135.0        ...           
Vol_2            US        560  N421US              142.0        ...           
Vol_3            US        560  N435US              130.0        ...           
Vol_4            US        560  N426US              117.0        ...           

       TaxiIn  TaxiOut  Cancelled  CancellationCode Diverted CarrierDelay 

In [65]:
extrait.shape

(114257, 27)

In [66]:
extrait.Distance.describe()

count    114257.000000
mean       1302.229649
std         551.560483
min         732.000000
25%         895.000000
50%        1076.000000
75%        1587.000000
max        4962.000000
Name: Distance, dtype: float64