# Introduction

On va étudier un jeu de données contenant différentes infos autour des retards d'avion aux Etats-Unis en mai 2006. On utilise principalement pandas qui est un module Python dédié à la manipulation de données de grandes dimensions : https://pandas.pydata.org/pandas-docs/stable/ (la doc est votre amie !)

# Import du module

In [None]:
import pandas as pd

# Lecture des données
La méthode read_csv permet d'importer les données depuis un fichier csv. L'option index_col=0 indique que la première colonne du fichier sera l'index de notre DataFrame, et non une colonne comme les autres. Le DataFrame est la structure de données principale du module pandas : https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html

In [None]:
df = pd.read_csv("datas.csv", index_col=0)

# Aperçu du tableau
Les méthodes head et tail permettent respectivement de visualiser les n premières et dernières lignes d'un DataFrame. Par défaut, n vaut 5 mais on peut choisir le nombre de lignes que l'on veut afficher

In [None]:
df.head(10)

In [None]:
df.tail(10)

# Première infos statistiques
la méthode describe donne de premières infos de statistiques descriptives par colonne

In [None]:
df.describe()

# Liste des colonnes
l'attribut columns permet de récupérer la liste des colonnes d'un DataFrame 

In [None]:
df.columns

# Dimensions du tableau
l'attribut shape permet de récupérer les dimensions du tableau. La première valeur est lenombre de lignes, la seonde le nombre de colonnes (c'est un tuple, cf cours précédent)

In [None]:
df.shape

# Exercice
Cherchez dans la doc l'attribut qui permet d'accéder à l'index du DataFrame

# Exercice
Cherchez dans la doc la méthode qui permet de compter le nombre de valeurs présentes par colonne

# Accéder à une colonne
On cherche ici à accéder aux données de la colonne UniqueCarrier en particulier. On crée donc la variable carrier qui va contenir ses informations. La variable carrier sera soit une Series soit un DataFrame selon la méthode utilisée. La Series est une structure de données à une dimension, différente du DataFrame : http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html même si beaucoups d'attributs et de méthodes sont identiques

### par son nom

##### méthode 1

In [None]:
carrier = df.loc[:, 'UniqueCarrier']
print(carrier.head())
print('')
print(type(carrier))

##### méthode 2

In [None]:
carrier = df.UniqueCarrier
print(carrier.head())
print('')
print(type(carrier))

##### méthode 3

In [None]:
carrier = df.loc[:, ['UniqueCarrier']]
print(carrier.head())
print('')
print(type(carrier))

##### méthode 4

In [None]:
carrier = df[['UniqueCarrier']]
print(carrier.head())
print('')
print(type(carrier))

### par sa position dans la liste des colonnes

##### méthode 1

In [None]:
carrier = df.iloc[:, 6]
print(carrier.head())
print('')
print(type(carrier))

##### méthode 2

In [None]:
carrier = df.iloc[:, [6]]
print(carrier.head())
print('')
print(type(carrier))

# Accéder à un ensemble de colonnes
On peut également accéder à un ensemble de colonnes parmi celles du DataFrame d'origine

### Exercice : créer un DataFrame contenant les informations UniqueCarrier, DepTime et ArrTime

### Exercice : créer un autre DataFrame contenant les informations CRSDepTime et CRSArrTime

# Accéder à une ligne
De la même manière, on peut également accéder aux lignes que l'on souhaite

### par son nom

In [None]:
df.loc['Vol_0']

### par sa position dans la liste

In [None]:
df.iloc[0]

# Accéder à un ensemble de lignes

### par leurs noms

In [None]:
df.loc[['Vol_0', 'Vol_1', 'Vol_2']]

### par leurs positions

In [None]:
df.iloc[[0, 1, 2]]

### Exercice : extraire les 100 premières lignes et les 100 dernières lignes du DataFrame

# Accéder à un ensemble de lignes et colonnes

### par leurs noms

In [None]:
df.loc[['Vol_0', 'Vol_1'], ['UniqueCarrier', 'Distance']]

### par leurs positions dans la liste

In [None]:
df.iloc[[0, 1], [6, 16]]

# Premières statistiques sur les colonnes

### Moyenne de la distance parcourue

In [None]:
df.Distance.mean()

### Exercice : Trouver comment obtenir : l'écart-type de la distance parcourue

In [None]:
df.Distance.std()

# Extraction conditionnelle

### exemple 1

In [None]:
df.UniqueCarrier == 'AA'

In [None]:
extrait = df[df.UniqueCarrier == 'AA']
print(extrait.head())

In [None]:
print(extrait.shape)

In [None]:
print(extrait.UniqueCarrier.value_counts())

### exemple 2

In [None]:
extrait = df[df.CarrierDelay > 10]
print(extrait.head())

In [None]:
print(extrait.shape)

In [None]:
print(extrait.CarrierDelay.describe())

### Exercice : chercher comment combiner les 2 conditions précedentes

### Exercice : extraire le DataFrame des vols ayant parcouru une distance supérieure à la distance moyenne

# Exercice final : extraire le dataframe des vols dont la distance est comprise entre la distance moyenne - 3xl'écart-type de distance et la distance moyenne + 3xl'écart-type de distance