# Section 1: On démarre avec Pandas

On commence par introduire les classes `Series`, `DataFrame`, et `Index` qui sont les blocs fondamentaux de la librairie pandas.

## Anatomie d'une DataFrame

Une **DataFrame** est composée d'une ou plusieurs **Series**. Les nomes des **Series** sont les noms des colonnes et les labels des lignes sont l'**Index**.

In [2]:
import pandas as pd

meteorites = pd.read_csv('./data/Meteorite_Landings.csv', nrows=5)
meteorites

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21,Fell,01/01/1880 12:00:00 AM,50.775,6.08333,"(50.775, 6.08333)"
1,Aarhus,2,Valid,H6,720,Fell,01/01/1951 12:00:00 AM,56.18333,10.23333,"(56.18333, 10.23333)"
2,Abee,6,Valid,EH4,107000,Fell,01/01/1952 12:00:00 AM,54.21667,-113.0,"(54.21667, -113.0)"
3,Acapulco,10,Valid,Acapulcoite,1914,Fell,01/01/1976 12:00:00 AM,16.88333,-99.9,"(16.88333, -99.9)"
4,Achiras,370,Valid,L6,780,Fell,01/01/1902 12:00:00 AM,-33.16667,-64.95,"(-33.16667, -64.95)"


*Source: [NASA's Open Data Portal](https://data.nasa.gov/Space-Science/Meteorite-Landings/gh4g-9sfh)*

#### Series:

In [3]:
meteorites.name

0      Aachen
1      Aarhus
2        Abee
3    Acapulco
4     Achiras
Name: name, dtype: object

#### Columns:

In [4]:
meteorites.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass (g)', 'fall', 'year',
       'reclat', 'reclong', 'GeoLocation'],
      dtype='object')

#### Index:

In [5]:
meteorites.index

RangeIndex(start=0, stop=5, step=1)

## Création de DataFrames

On peut créer des DataFrames à partir d'une variété de sources telles que d'autres objets Python, des fichiers bruts, du webscraping, ou des requêtes via API. Ici on n'en voit que quelques possibilités. Vous pouvez lire [ici la documentation](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html) pour un exposé exhaustif.

### Utiliser un fichier brut.

In [6]:
import pandas as pd

meteorites = pd.read_csv('./data/Meteorite_Landings.csv')

*Tip: Il y a énormément de paramètres à cette fonction pour gérer le preprocessing lors de la lecture du fichier. Référez vous à la [documentation](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) pour plus de détails.*

### Utilisation d'un API.

On peut aussi récupérer les données via le [portail de la NASA](https://data.nasa.gov/Space-Science/Meteorite-Landings/gh4g-9sfh) avec le Socrata Open Data API (SODA) et la librairie `requests` :

In [8]:
import requests

response = requests.get(
    'https://data.nasa.gov/resource/gh4g-9sfh.json',
    params={'$limit': 50_000}
)

if response.ok:
    payload = response.json()
else:
    print(f'Request was not successful and returned code: {response.status_code}.')
    payload = None

On crée ensuite le `DataFrame` à partir de l'objet `payload`:

In [9]:
import pandas as pd

df = pd.DataFrame(payload)
df.head(3)

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,geolocation,:@computed_region_cbhk_fwbd,:@computed_region_nnqa_25f4
0,Aachen,1,Valid,L5,21,Fell,1880-01-01T00:00:00.000,50.775,6.08333,"{'latitude': '50.775', 'longitude': '6.08333'}",,
1,Aarhus,2,Valid,H6,720,Fell,1951-01-01T00:00:00.000,56.18333,10.23333,"{'latitude': '56.18333', 'longitude': '10.23333'}",,
2,Abee,6,Valid,EH4,107000,Fell,1952-01-01T00:00:00.000,54.21667,-113.0,"{'latitude': '54.21667', 'longitude': '-113.0'}",,


*Tip: `df.to_csv('data.csv')` écrit les données dans un nouveau fichier `data.csv`.*

## Inspectons les données

Maintenant qu'on a des données, on fait une première inspection. Cela nous donne de l'information sur ce à quoi la donnée ressemble, combien de lignes, colonnes etc..

Observons l'objet `meteorites`.

#### Combien de lignes et colonnes ?

In [10]:
meteorites.shape

(45716, 10)

#### Quels sont les noms des colonnes ?

In [11]:
meteorites.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass (g)', 'fall', 'year',
       'reclat', 'reclong', 'GeoLocation'],
      dtype='object')

#### Quel type de données dans chaque colonne ?

In [12]:
meteorites.dtypes

name            object
id               int64
nametype        object
recclass        object
mass (g)       float64
fall            object
year            object
reclat         float64
reclong        float64
GeoLocation     object
dtype: object

#### À quoi ressemble nos données ?

In [13]:
meteorites.head()

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21.0,Fell,01/01/1880 12:00:00 AM,50.775,6.08333,"(50.775, 6.08333)"
1,Aarhus,2,Valid,H6,720.0,Fell,01/01/1951 12:00:00 AM,56.18333,10.23333,"(56.18333, 10.23333)"
2,Abee,6,Valid,EH4,107000.0,Fell,01/01/1952 12:00:00 AM,54.21667,-113.0,"(54.21667, -113.0)"
3,Acapulco,10,Valid,Acapulcoite,1914.0,Fell,01/01/1976 12:00:00 AM,16.88333,-99.9,"(16.88333, -99.9)"
4,Achiras,370,Valid,L6,780.0,Fell,01/01/1902 12:00:00 AM,-33.16667,-64.95,"(-33.16667, -64.95)"


Parfois, il y a des données externes à la fin du fichier donc il est pertinent de jeter un oeil aux dernières lignes :

In [14]:
meteorites.tail()

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
45711,Zillah 002,31356,Valid,Eucrite,172.0,Found,01/01/1990 12:00:00 AM,29.037,17.0185,"(29.037, 17.0185)"
45712,Zinder,30409,Valid,"Pallasite, ungrouped",46.0,Found,01/01/1999 12:00:00 AM,13.78333,8.96667,"(13.78333, 8.96667)"
45713,Zlin,30410,Valid,H4,3.3,Found,01/01/1939 12:00:00 AM,49.25,17.66667,"(49.25, 17.66667)"
45714,Zubkovsky,31357,Valid,L6,2167.0,Found,01/01/2003 12:00:00 AM,49.78917,41.5046,"(49.78917, 41.5046)"
45715,Zulu Queen,30414,Valid,L3.7,200.0,Found,01/01/1976 12:00:00 AM,33.98333,-115.68333,"(33.98333, -115.68333)"


#### Récupérer de l'information à propos de l'objet DataFrame

In [15]:
meteorites.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45716 entries, 0 to 45715
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   name         45716 non-null  object 
 1   id           45716 non-null  int64  
 2   nametype     45716 non-null  object 
 3   recclass     45716 non-null  object 
 4   mass (g)     45585 non-null  float64
 5   fall         45716 non-null  object 
 6   year         45425 non-null  object 
 7   reclat       38401 non-null  float64
 8   reclong      38401 non-null  float64
 9   GeoLocation  38401 non-null  object 
dtypes: float64(3), int64(1), object(6)
memory usage: 3.5+ MB


### Exercise 1.1

##### Créer un DataFrame en lisant le fichier `2019_Yellow_Taxi_Trip_Data.csv`. Examiner les cinq premières lignes.

In [17]:
df_taxi = pd.read_csv("data/2019_Yellow_Taxi_Trip_Data.csv")
df_taxi.head()

Unnamed: 0,vendorid,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,ratecodeid,store_and_fwd_flag,pulocationid,dolocationid,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge
0,2,2019-10-23T16:39:42.000,2019-10-23T17:14:10.000,1,7.93,1,N,138,170,1,29.5,1.0,0.5,7.98,6.12,0.3,47.9,2.5
1,1,2019-10-23T16:32:08.000,2019-10-23T16:45:26.000,1,2.0,1,N,11,26,1,10.5,1.0,0.5,0.0,0.0,0.3,12.3,0.0
2,2,2019-10-23T16:08:44.000,2019-10-23T16:21:11.000,1,1.36,1,N,163,162,1,9.5,1.0,0.5,2.0,0.0,0.3,15.8,2.5
3,2,2019-10-23T16:22:44.000,2019-10-23T16:43:26.000,1,1.0,1,N,170,163,1,13.0,1.0,0.5,4.32,0.0,0.3,21.62,2.5
4,2,2019-10-23T16:45:11.000,2019-10-23T16:58:49.000,1,1.96,1,N,163,236,1,10.5,1.0,0.5,0.5,0.0,0.3,15.3,2.5


### Exercise 1.2

##### Donner les dimensions de cette donnée (nb de lignes et de colonnes).

In [20]:
df_taxi.shape

(10000, 18)

## Extraction de sous-ensembles

Une partie cruciale du travail avec les DataFrames consiste à extraire des sous-ensembles de donnée : trouver les lignes qui vérifient certains critères, isoler les colonnes intéressantes etc.. Après avoir réduit nos données, il sera plus simple d'avoir des intuitions pertinentes. C'est le coeur de beaucoup de tâches en analyse de données.

#### Sélection de colonnes.

On peut sélectionner les colonnes comme des attributs quand leur nom est un nom valide de variable Python :


In [21]:
meteorites.name

0            Aachen
1            Aarhus
2              Abee
3          Acapulco
4           Achiras
            ...    
45711    Zillah 002
45712        Zinder
45713          Zlin
45714     Zubkovsky
45715    Zulu Queen
Name: name, Length: 45716, dtype: object

Si ce n'est pas le cas, il faut les sélectionner en tant que clés. De plus il est ainsi possible de sélectionner plusieurs colonnes à la fois :

In [22]:
meteorites[['name', 'mass (g)']]

Unnamed: 0,name,mass (g)
0,Aachen,21.0
1,Aarhus,720.0
2,Abee,107000.0
3,Acapulco,1914.0
4,Achiras,780.0
...,...,...
45711,Zillah 002,172.0
45712,Zinder,46.0
45713,Zlin,3.3
45714,Zubkovsky,2167.0


#### Sélection de lignes

In [23]:
meteorites[100:104]

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
100,Benton,5026,Valid,LL6,2840.0,Fell,01/01/1949 12:00:00 AM,45.95,-67.55,"(45.95, -67.55)"
101,Berduc,48975,Valid,L6,270.0,Fell,01/01/2008 12:00:00 AM,-31.91,-58.32833,"(-31.91, -58.32833)"
102,Béréba,5028,Valid,Eucrite-mmict,18000.0,Fell,01/01/1924 12:00:00 AM,11.65,-3.65,"(11.65, -3.65)"
103,Berlanguillas,5029,Valid,L6,1440.0,Fell,01/01/1811 12:00:00 AM,41.68333,-3.8,"(41.68333, -3.8)"


#### Indexation

On utilise `iloc[]` pour sélectionner des lignes **et** des colonnes via leurs positions :

In [24]:
meteorites.iloc[100:104, [0, 3, 4, 6]]

Unnamed: 0,name,recclass,mass (g),year
100,Benton,LL6,2840.0,01/01/1949 12:00:00 AM
101,Berduc,L6,270.0,01/01/2008 12:00:00 AM
102,Béréba,Eucrite-mmict,18000.0,01/01/1924 12:00:00 AM
103,Berlanguillas,L6,1440.0,01/01/1811 12:00:00 AM


On utilise `loc[]` pour les sélectionner par leur nom:

In [25]:
meteorites.loc[100:104, 'mass (g)':'year']

Unnamed: 0,mass (g),fall,year
100,2840.0,Fell,01/01/1949 12:00:00 AM
101,270.0,Fell,01/01/2008 12:00:00 AM
102,18000.0,Fell,01/01/1924 12:00:00 AM
103,1440.0,Fell,01/01/1811 12:00:00 AM
104,960.0,Fell,01/01/2004 12:00:00 AM


#### Filtrer par des masques booléens

Un **masque booléen** est une structure de tableau de valeurs booléennes. Il permet de spécifier quelles lignes/colonnes on veut sélectionner (`True`) ou pas (`False`).

Voici un exemple de masque booléen pour les météorites pesant plus de 50 grammes qui ont été trouvées sur Terre (qui n'ont pas juste été observées):

In [26]:
(meteorites['mass (g)'] > 50) & (meteorites.fall == 'Found')

0        False
1        False
2        False
3        False
4        False
         ...  
45711     True
45712    False
45713    False
45714     True
45715     True
Length: 45716, dtype: bool

**Important**: Observer la syntaxe. Chaque condition est entourée de parenthèses et on utilise les opérateurs (`&`, `|`, `~`) au lieu des opérateurs logiques (`and`, `or`, `not`).

On peut utiliser un masque booléen pour sélectionner les météorites pesant plus d'une tonne qui ont été observées:

In [27]:
meteorites[(meteorites['mass (g)'] > 1e6) & (meteorites.fall == 'Fell')]

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
29,Allende,2278,Valid,CV3,2000000.0,Fell,01/01/1969 12:00:00 AM,26.96667,-105.31667,"(26.96667, -105.31667)"
419,Jilin,12171,Valid,H5,4000000.0,Fell,01/01/1976 12:00:00 AM,44.05,126.16667,"(44.05, 126.16667)"
506,Kunya-Urgench,12379,Valid,H5,1100000.0,Fell,01/01/1998 12:00:00 AM,42.25,59.2,"(42.25, 59.2)"
707,Norton County,17922,Valid,Aubrite,1100000.0,Fell,01/01/1948 12:00:00 AM,39.68333,-99.86667,"(39.68333, -99.86667)"
920,Sikhote-Alin,23593,Valid,"Iron, IIAB",23000000.0,Fell,01/01/1947 12:00:00 AM,46.16,134.65333,"(46.16, 134.65333)"


*Tip: Les masques booléens peuvent être utilisés avec `loc[]` et `iloc[]`.*

Une alternative consiste à utiliser la méthode `query()` :

In [28]:
meteorites.query("`mass (g)` > 1e6 and fall == 'Fell'")

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
29,Allende,2278,Valid,CV3,2000000.0,Fell,01/01/1969 12:00:00 AM,26.96667,-105.31667,"(26.96667, -105.31667)"
419,Jilin,12171,Valid,H5,4000000.0,Fell,01/01/1976 12:00:00 AM,44.05,126.16667,"(44.05, 126.16667)"
506,Kunya-Urgench,12379,Valid,H5,1100000.0,Fell,01/01/1998 12:00:00 AM,42.25,59.2,"(42.25, 59.2)"
707,Norton County,17922,Valid,Aubrite,1100000.0,Fell,01/01/1948 12:00:00 AM,39.68333,-99.86667,"(39.68333, -99.86667)"
920,Sikhote-Alin,23593,Valid,"Iron, IIAB",23000000.0,Fell,01/01/1947 12:00:00 AM,46.16,134.65333,"(46.16, 134.65333)"


*Tip: Dans ce cas les opérateurs logiques sont autorisés.*

## Statistiques sommaires

Nous allons plus tard nettoyer les données mais on peut déjà récupérer quelques informations intéressantes de la donnée `meteorites` avec les opérations statistiques de base.

#### Combien de météorites ont été trouvées par rapport à celles qui ont été observées ?

In [29]:
meteorites.fall.value_counts()

fall
Found    44609
Fell      1107
Name: count, dtype: int64

[La Meteoritical Society](https://www.lpi.usra.edu/meteor/metbull.php?code=56147) dit "relict meteorites are composed mostly of terrestrial minerals, but are thought to have once been meteorites."  Quelle propotion des données sont des relict meteorites ? Vérifions qu'elles ont toutes bien été trouvées et non observées.

In [30]:
df.value_counts(subset=['nametype', 'fall'], normalize=True)

nametype  fall 
Valid     Found    0.974145
          Fell     0.024215
Relict    Found    0.001641
Name: proportion, dtype: float64

#### Quel est le poids moyen des météorites ?

In [31]:
meteorites['mass (g)'].mean()

np.float64(13278.078548601512)

**Important**: La moyenne n'est pas toujours un bon indicateur de centralité. Ici la moyenne est tirée par le haut par quelques météorites immenses.

En regardant les quantiles, on se rend compte que la moyenne est entre le 95ème et le 99ème percentiles. Ce n'est donc pas un indicateur très pertinent.

In [32]:
meteorites['mass (g)'].quantile([0.01, 0.05, 0.5, 0.95, 0.99])

0.01        0.44
0.05        1.10
0.50       32.60
0.95     4000.00
0.99    50600.00
Name: mass (g), dtype: float64

A better measure in this case is the median (50th percentile), since it is robust to outliers:

In [33]:
meteorites['mass (g)'].median()

np.float64(32.6)

#### Quel est le poids de la météorite la plus lourde ?

In [34]:
meteorites['mass (g)'].max()

np.float64(60000000.0)

Observons les informations sur cette météorite :

In [35]:
meteorites.loc[meteorites['mass (g)'].idxmax()]

name                             Hoba
id                              11890
nametype                        Valid
recclass                    Iron, IVB
mass (g)                   60000000.0
fall                            Found
year           01/01/1920 12:00:00 AM
reclat                      -19.58333
reclong                      17.91667
GeoLocation     (-19.58333, 17.91667)
Name: 16392, dtype: object

#### Combien de classes différentes de météorites sont représentées dans ce dataset ?

In [36]:
meteorites.recclass.nunique()

466

Quelques exemples :

In [38]:
meteorites.recclass.unique()[:14]

array(['L5', 'H6', 'EH4', 'Acapulcoite', 'L6', 'LL3-6', 'H5', 'L',
       'Diogenite-pm', 'Unknown', 'H4', 'H', 'Iron, IVA', 'CR2-an'],
      dtype=object)

*Note: Tous les champs précédés de "rec" sont les valeurs recommandées par la Meteoritical Society. Voir [cet article Wikipedia](https://en.wikipedia.org/wiki/Meteorite_classification) pour plus d'infos sur les classes de météorites.*

#### Statistiques sommaires sur la donnée elle-même.

On peut récupérer des statistiques sur toutes les colonnes en même temps. Par défaut, `describe` ne considère que les colonnes numériques, mais on peut lui préciser de résumer toutes les colonnes :

In [39]:
meteorites.describe(include='all')

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
count,45716,45716.0,45716,45716,45585.0,45716,45425,38401.0,38401.0,38401
unique,45716,,2,466,,2,266,,,17100
top,Zulu Queen,,Valid,L6,,Found,01/01/2003 12:00:00 AM,,,"(0.0, 0.0)"
freq,1,,45641,8285,,44609,3323,,,6214
mean,,26889.735104,,,13278.08,,,-39.12258,61.074319,
std,,16860.68303,,,574988.9,,,46.378511,80.647298,
min,,1.0,,,0.0,,,-87.36667,-165.43333,
25%,,12688.75,,,7.2,,,-76.71424,0.0,
50%,,24261.5,,,32.6,,,-71.5,35.66667,
75%,,40656.75,,,202.6,,,0.0,157.16667,


**Important**: `NaN` veut dire qu'il manque des données. Par exemple, la colonne `fall` contient du texte donc la moyenne n'a pas de sens. De même, `mass (g)` est numériques donc on n'a pas d'entrée pour les statistiques catégorielles (`unique`, `top`, `freq`).

#### Documentation pour plus de descriptions statistiques :

- [Series](https://pandas.pydata.org/docs/reference/series.html#computations-descriptive-stats)
- [DataFrame](https://pandas.pydata.org/docs/reference/frame.html#computations-descriptive-stats)

### Exercise 1.3

##### En utilisant les données du fichier `2019_Yellow_Taxi_Trip_Data.csv`, calculer le résumé statistique des colonnes `fare_amount`, `tip_amount`, `tolls_amount`, et `total_amount`.

In [44]:
df_taxi[["fare_amount", "tip_amount", "tolls_amount", "total_amount"]].describe()

Unnamed: 0,fare_amount,tip_amount,tolls_amount,total_amount
count,10000.0,10000.0,10000.0,10000.0
mean,15.106313,2.634494,0.623447,22.564659
std,13.954762,3.4098,6.437507,19.209255
min,-52.0,0.0,-6.12,-65.92
25%,7.0,0.0,0.0,12.375
50%,10.0,2.0,0.0,16.3
75%,16.0,3.25,0.0,22.88
max,176.0,43.0,612.0,671.8


### Exercise 1.4

##### Isoler les colonnes `fare_amount`, `tip_amount`, `tolls_amount`, et `total_amount` pour le plus long voyage (`trip_distance`).

In [48]:
df_taxi.loc[df_taxi['total_amount'].idxmax(), ["fare_amount", "tip_amount", "tolls_amount", "total_amount"]]

fare_amount      52.0
tip_amount        0.0
tolls_amount    612.0
total_amount    671.8
Name: 449, dtype: object