# Section 1: Introduction à Pandas

Nous allons commencer par présenter les classes Series, DataFrame et Index, qui sont les éléments de base de la bibliothèque **pandas**, et nous allons montrer comment travailler avec. 
À la fin de cette section, vous pourrez créer des DataFrames et y effectuer des opérations pour inspecter et filtrer les données.

##  <font color='green'>Anatomie d’un DataFrame</font> 


Un **DataFrame** est composé d’une ou de plusieurs **séries**. Les noms des **séries** forment les noms des colonnes, et les étiquettes des lignes forment **l’index**.

In [14]:
import pandas as pd

meteorites = pd.read_csv('./datasets/Meteorite_Landings.csv', nrows=5)
meteorites

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21,Fell,01/01/1880 12:00:00 AM,50.775,6.08333,"(50.775, 6.08333)"
1,Aarhus,2,Valid,H6,720,Fell,01/01/1951 12:00:00 AM,56.18333,10.23333,"(56.18333, 10.23333)"
2,Abee,6,Valid,EH4,107000,Fell,01/01/1952 12:00:00 AM,54.21667,-113.0,"(54.21667, -113.0)"
3,Acapulco,10,Valid,Acapulcoite,1914,Fell,01/01/1976 12:00:00 AM,16.88333,-99.9,"(16.88333, -99.9)"
4,Achiras,370,Valid,L6,780,Fell,01/01/1902 12:00:00 AM,-33.16667,-64.95,"(-33.16667, -64.95)"


 
*Source: [NASA's Open Data Portal](https://data.nasa.gov/Space-Science/Meteorite-Landings/gh4g-9sfh).*      

*Series:*

In [15]:
meteorites.name

0      Aachen
1      Aarhus
2        Abee
3    Acapulco
4     Achiras
Name: name, dtype: object

*Colonne:*

In [16]:
meteorites.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass (g)', 'fall', 'year',
       'reclat', 'reclong', 'GeoLocation'],
      dtype='object')

*Index*

In [17]:
meteorites.index

RangeIndex(start=0, stop=5, step=1)

## <font color='green'>Création de DataFrames</font> 

Nous pouvons créer des **DataFrames** à partir de diverses sources, par exemple à partir d'autres objets Python, des fichiers plats, du webscraping et des requêtes API.  
Ici, nous ne verrons que quelques exemples, mais vous pouvez consulter cette [page](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html) dans la documentation **Pandas** pour une liste complète.

In [18]:
import pandas as pd

meteorites = pd.read_csv('./datasets/Meteorite_Landings.csv')

*Conseil : La fonction **read_csv()** admet plusieurs paramètres pour la lecture des fichiers –  consulter la [documentation](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) pour plus de détail*.

## <font color='green'>Inspecting the data</font> 

Cela nous donne de l’information sur les données, le nombre de lignes/colonnes et la quantité de données que nous avons.

**Combien de lignes et de colonnes y a-t-il**?

In [19]:
meteorites.shape

(45716, 10)

**Quelles sont les noms des colonnes**?

In [20]:
meteorites.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass (g)', 'fall', 'year',
       'reclat', 'reclong', 'GeoLocation'],
      dtype='object')

**Quels sont les types des colonnes**?

In [21]:
meteorites.dtypes

name            object
id               int64
nametype        object
recclass        object
mass (g)       float64
fall            object
year            object
reclat         float64
reclong        float64
GeoLocation     object
dtype: object

**À quoi ressemblent les données?**

In [22]:
meteorites.head()

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21.0,Fell,01/01/1880 12:00:00 AM,50.775,6.08333,"(50.775, 6.08333)"
1,Aarhus,2,Valid,H6,720.0,Fell,01/01/1951 12:00:00 AM,56.18333,10.23333,"(56.18333, 10.23333)"
2,Abee,6,Valid,EH4,107000.0,Fell,01/01/1952 12:00:00 AM,54.21667,-113.0,"(54.21667, -113.0)"
3,Acapulco,10,Valid,Acapulcoite,1914.0,Fell,01/01/1976 12:00:00 AM,16.88333,-99.9,"(16.88333, -99.9)"
4,Achiras,370,Valid,L6,780.0,Fell,01/01/1902 12:00:00 AM,-33.16667,-64.95,"(-33.16667, -64.95)"


In [23]:
meteorites.tail()

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
45711,Zillah 002,31356,Valid,Eucrite,172.0,Found,01/01/1990 12:00:00 AM,29.037,17.0185,"(29.037, 17.0185)"
45712,Zinder,30409,Valid,"Pallasite, ungrouped",46.0,Found,01/01/1999 12:00:00 AM,13.78333,8.96667,"(13.78333, 8.96667)"
45713,Zlin,30410,Valid,H4,3.3,Found,01/01/1939 12:00:00 AM,49.25,17.66667,"(49.25, 17.66667)"
45714,Zubkovsky,31357,Valid,L6,2167.0,Found,01/01/2003 12:00:00 AM,49.78917,41.5046,"(49.78917, 41.5046)"
45715,Zulu Queen,30414,Valid,L3.7,200.0,Found,01/01/1976 12:00:00 AM,33.98333,-115.68333,"(33.98333, -115.68333)"


**Obtenir des informations sur le DataFrame**

In [24]:
meteorites.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45716 entries, 0 to 45715
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   name         45716 non-null  object 
 1   id           45716 non-null  int64  
 2   nametype     45716 non-null  object 
 3   recclass     45716 non-null  object 
 4   mass (g)     45585 non-null  float64
 5   fall         45716 non-null  object 
 6   year         45425 non-null  object 
 7   reclat       38401 non-null  float64
 8   reclong      38401 non-null  float64
 9   GeoLocation  38401 non-null  object 
dtypes: float64(3), int64(1), object(6)
memory usage: 3.5+ MB


**Extraction de sous-ensembles**

Une partie cruciale de la manipulation des DataFrames consiste à extraire des sous-ensembles de données : trouver des lignes qui répondent à un certain ensemble de critères, isoler des colonnes/lignes d’intérêt, etc.   
Après avoir réduit nos données, nous sommes plus près de découvrir des idées. Cette section sera l’épine dorsale de nombreuses tâches d’analyse.

**Sélection des colonnes**

Nous pouvons sélectionner des colonnes comme attributs si leurs noms sont des variables Python valides :

In [25]:
meteorites.name

0            Aachen
1            Aarhus
2              Abee
3          Acapulco
4           Achiras
            ...    
45711    Zillah 002
45712        Zinder
45713          Zlin
45714     Zubkovsky
45715    Zulu Queen
Name: name, Length: 45716, dtype: object

Nous pouvons sélectionner plusieurs colonnes à la fois

In [26]:
meteorites[['name', 'mass (g)']]

Unnamed: 0,name,mass (g)
0,Aachen,21.0
1,Aarhus,720.0
2,Abee,107000.0
3,Acapulco,1914.0
4,Achiras,780.0
...,...,...
45711,Zillah 002,172.0
45712,Zinder,46.0
45713,Zlin,3.3
45714,Zubkovsky,2167.0


**Selection des lignes**

In [27]:
meteorites[100:104]

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
100,Benton,5026,Valid,LL6,2840.0,Fell,01/01/1949 12:00:00 AM,45.95,-67.55,"(45.95, -67.55)"
101,Berduc,48975,Valid,L6,270.0,Fell,01/01/2008 12:00:00 AM,-31.91,-58.32833,"(-31.91, -58.32833)"
102,Béréba,5028,Valid,Eucrite-mmict,18000.0,Fell,01/01/1924 12:00:00 AM,11.65,-3.65,"(11.65, -3.65)"
103,Berlanguillas,5029,Valid,L6,1440.0,Fell,01/01/1811 12:00:00 AM,41.68333,-3.8,"(41.68333, -3.8)"


**Indexing**

Nous utilisons <font color='blue'>**iloc[ ]**</font> pour sélectionner des lignes et des colonnes par **position/rang**:

In [28]:
meteorites.iloc[100:104, [0, 3, 4, 6]]

Unnamed: 0,name,recclass,mass (g),year
100,Benton,LL6,2840.0,01/01/1949 12:00:00 AM
101,Berduc,L6,270.0,01/01/2008 12:00:00 AM
102,Béréba,Eucrite-mmict,18000.0,01/01/1924 12:00:00 AM
103,Berlanguillas,L6,1440.0,01/01/1811 12:00:00 AM


Nous utilison **loc[ ]** pour sélectionner par **nom**

In [29]:
meteorites.loc[100:104, 'mass (g)':'year']

Unnamed: 0,mass (g),fall,year
100,2840.0,Fell,01/01/1949 12:00:00 AM
101,270.0,Fell,01/01/2008 12:00:00 AM
102,18000.0,Fell,01/01/1924 12:00:00 AM
103,1440.0,Fell,01/01/1811 12:00:00 AM
104,960.0,Fell,01/01/2004 12:00:00 AM


**Filtrage avec masques booléens**

Un masque booléen est une structure de type **tableau de valeurs booléennes** – c’est une façon de spécifier quelles lignes/colonnes nous voulons sélectionner **(True)** et lesquelles nous ne voulons pas **(False)**.

Voici un exemple de masque booléen pour les météorites pesant plus de 50 grammes *(mass (g) > 50)* et qui ont été trouvés sur Terre *(fall == 'Found')*:



In [30]:
meteorites[(meteorites['mass (g)'] > 50) & (meteorites.fall == 'Found')]

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
37,Northwest Africa 5815,50693,Valid,L5,256.80,Found,,0.00000,0.00000,"(0.0, 0.0)"
757,Dominion Range 03239,32591,Valid,L6,69.50,Found,01/01/2002 12:00:00 AM,,,
804,Dominion Range 03240,32592,Valid,LL5,290.90,Found,01/01/2002 12:00:00 AM,,,
1111,Abajo,4,Valid,H5,331.00,Found,01/01/1982 12:00:00 AM,26.80000,-105.41667,"(26.8, -105.41667)"
1112,Abar al' Uj 001,51399,Valid,H3.8,194.34,Found,01/01/2008 12:00:00 AM,22.72192,48.95937,"(22.72192, 48.95937)"
...,...,...,...,...,...,...,...,...,...,...
45709,Zhongxiang,30406,Valid,Iron,100000.00,Found,01/01/1981 12:00:00 AM,31.20000,112.50000,"(31.2, 112.5)"
45710,Zillah 001,31355,Valid,L6,1475.00,Found,01/01/1990 12:00:00 AM,29.03700,17.01850,"(29.037, 17.0185)"
45711,Zillah 002,31356,Valid,Eucrite,172.00,Found,01/01/1990 12:00:00 AM,29.03700,17.01850,"(29.037, 17.0185)"
45714,Zubkovsky,31357,Valid,L6,2167.00,Found,01/01/2003 12:00:00 AM,49.78917,41.50460,"(49.78917, 41.5046)"


*Important : Concernant la syntaxe ici. Nous entourons chaque condition avec des parenthèses, et nous utilisons des opérateurs binaires (&, |, ~) pour désigner les opérateurs logiques (et, ou, pas).*

Le filtrage peut être fait aussi par la fonction **query()**

In [31]:
meteorites.query("`mass (g)`> 50 and fall == 'Found'")

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
37,Northwest Africa 5815,50693,Valid,L5,256.80,Found,,0.00000,0.00000,"(0.0, 0.0)"
757,Dominion Range 03239,32591,Valid,L6,69.50,Found,01/01/2002 12:00:00 AM,,,
804,Dominion Range 03240,32592,Valid,LL5,290.90,Found,01/01/2002 12:00:00 AM,,,
1111,Abajo,4,Valid,H5,331.00,Found,01/01/1982 12:00:00 AM,26.80000,-105.41667,"(26.8, -105.41667)"
1112,Abar al' Uj 001,51399,Valid,H3.8,194.34,Found,01/01/2008 12:00:00 AM,22.72192,48.95937,"(22.72192, 48.95937)"
...,...,...,...,...,...,...,...,...,...,...
45709,Zhongxiang,30406,Valid,Iron,100000.00,Found,01/01/1981 12:00:00 AM,31.20000,112.50000,"(31.2, 112.5)"
45710,Zillah 001,31355,Valid,L6,1475.00,Found,01/01/1990 12:00:00 AM,29.03700,17.01850,"(29.037, 17.0185)"
45711,Zillah 002,31356,Valid,Eucrite,172.00,Found,01/01/1990 12:00:00 AM,29.03700,17.01850,"(29.037, 17.0185)"
45714,Zubkovsky,31357,Valid,L6,2167.00,Found,01/01/2003 12:00:00 AM,49.78917,41.50460,"(49.78917, 41.5046)"


*Remarque : la fonction query() supporte à la fois les opérateurs binaires et logiques*

## <font color='green'> Calcul des statistiques synthétiques</font> 

Dans cette section, nous discuterons du nettoyage des données pour une analyse plus significative; En effet, nous pouvons extraire quelques idées intéressantes des données des météorites en calculant des statistiques de synthèse.

**Combien de météorites ont été trouvées par rapport aux chutes observées?**

In [32]:
meteorites.fall.value_counts()

fall
Found    44609
Fell      1107
Name: count, dtype: int64

*Conseil : Passez dans les paramètres normalize=True pour voir ce résultat en pourcentages. Consultez la [documentation](https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html) pour des fonctionnalités supplémentaires.*

**Quelle est la masse moyenne de la météorite ?**

In [33]:
meteorites['mass (g)'].mean()

np.float64(13278.078548601512)

**Nous pouvons avoir plus de détail sur masse à travers les quantiles**

In [34]:
meteorites['mass (g)'].quantile([0.25, 0.5, 0.75])

0.25      7.2
0.50     32.6
0.75    202.6
Name: mass (g), dtype: float64

**Quelle est la masse maximale des météorites?**

In [35]:
meteorites['mass (g)'].max()

np.float64(60000000.0)

**Nous pouvons obtenir l'index de la ligne de donnée relative à la masse maximale**

In [36]:
meteorites['mass (g)'].idxmax()

16392

**Nous pouvons maintenant accéder à cette ligne de la dataset**  

In [37]:
meteorites.loc[meteorites['mass (g)'].idxmax()]

name                             Hoba
id                              11890
nametype                        Valid
recclass                    Iron, IVB
mass (g)                   60000000.0
fall                            Found
year           01/01/1920 12:00:00 AM
reclat                      -19.58333
reclong                      17.91667
GeoLocation     (-19.58333, 17.91667)
Name: 16392, dtype: object

**Combien de types différents de classes de météorites sont représentés dans cet ensemble de données?**

In [38]:
meteorites['recclass'].nunique()

466

**Nous pouvons afficher quelques exemples de valeurs**

In [39]:
meteorites['recclass'].unique()[0:4]

array(['L5', 'H6', 'EH4', 'Acapulcoite'], dtype=object)

**Obtenir des statistiques récapitulatives sur l'ensemble des données**

Nous pouvons obtenir des statistiques de synthèse sur toutes les colonnes à la fois. Par défaut, ce ne sera que des colonnes numériques, mais ici, nous résumerons tout ensemble :

 La fonction <font color='green'> describe()</font> renvoie un dataframe donnant des statistiques sur les colonnes (nombres de valeurs, moyenne, écart-type, ...), mais uniquement sur les colonnes numériques

In [40]:
meteorites.describe()

Unnamed: 0,id,mass (g),reclat,reclong
count,45716.0,45585.0,38401.0,38401.0
mean,26889.735104,13278.08,-39.12258,61.074319
std,16860.68303,574988.9,46.378511,80.647298
min,1.0,0.0,-87.36667,-165.43333
25%,12688.75,7.2,-76.71424,0.0
50%,24261.5,32.6,-71.5,35.66667
75%,40656.75,202.6,0.0,157.16667
max,57458.0,60000000.0,81.16667,354.47333


Pour avoir des statistiques récapitulatives sur l'ensemble des données des colonnes, ajouter le paramètre <font color='green'> include='all'</font>

In [41]:
meteorites.describe(include='all')

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
count,45716,45716.0,45716,45716,45585.0,45716,45425,38401.0,38401.0,38401
unique,45716,,2,466,,2,266,,,17100
top,Aachen,,Valid,L6,,Found,01/01/2003 12:00:00 AM,,,"(0.0, 0.0)"
freq,1,,45641,8285,,44609,3323,,,6214
mean,,26889.735104,,,13278.08,,,-39.12258,61.074319,
std,,16860.68303,,,574988.9,,,46.378511,80.647298,
min,,1.0,,,0.0,,,-87.36667,-165.43333,
25%,,12688.75,,,7.2,,,-76.71424,0.0,
50%,,24261.5,,,32.6,,,-71.5,35.66667,
75%,,40656.75,,,202.6,,,0.0,157.16667,


*Important : les valeurs NaN signifient des données manquantes. Par exemple, la colonne `Fall` contient des chaînes de caractères, donc il n’y a pas de valeur pour la moyenne ; de même, mass (g) est numérique, donc nous n’avons pas de valeurs pour les statistiques catégorielles (unique, top, freq).*

Consultez la documentation pour obtenir plus de statistiques descriptives et synhétiques:
 -  [Series](https://pandas.pydata.org/docs/reference/series.html#computations-descriptive-stats)
 -  [DataFrame](https://pandas.pydata.org/docs/reference/frame.html#computations-descriptive-stats)

## Exercices

1. Créer un DataFrame en lisant dans le fichier `2019_Yellow_Taxi_Trip_Data.csv` :   
Voire la description des données [ici](https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf)

In [42]:
df = pd.read_csv('./datasets/2019_Yellow_Taxi_Trip_Data.csv')
df

Unnamed: 0,vendorid,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,ratecodeid,store_and_fwd_flag,pulocationid,dolocationid,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge
0,2,2019-10-23T16:39:42.000,2019-10-23T17:14:10.000,1,7.93,1,N,138,170,1,29.5,1.0,0.5,7.98,6.12,0.3,47.90,2.5
1,1,2019-10-23T16:32:08.000,2019-10-23T16:45:26.000,1,2.00,1,N,11,26,1,10.5,1.0,0.5,0.00,0.00,0.3,12.30,0.0
2,2,2019-10-23T16:08:44.000,2019-10-23T16:21:11.000,1,1.36,1,N,163,162,1,9.5,1.0,0.5,2.00,0.00,0.3,15.80,2.5
3,2,2019-10-23T16:22:44.000,2019-10-23T16:43:26.000,1,1.00,1,N,170,163,1,13.0,1.0,0.5,4.32,0.00,0.3,21.62,2.5
4,2,2019-10-23T16:45:11.000,2019-10-23T16:58:49.000,1,1.96,1,N,163,236,1,10.5,1.0,0.5,0.50,0.00,0.3,15.30,2.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,1,2019-10-23T17:39:59.000,2019-10-23T17:49:26.000,2,1.30,1,N,238,239,1,8.0,3.5,0.5,2.46,0.00,0.3,14.76,2.5
9996,1,2019-10-23T17:53:02.000,2019-10-23T18:00:45.000,1,1.40,1,N,239,166,2,8.0,3.5,0.5,0.00,0.00,0.3,12.30,2.5
9997,1,2019-10-23T17:07:16.000,2019-10-23T17:11:35.000,1,0.70,1,N,166,152,2,5.0,1.0,0.5,0.00,0.00,0.3,6.80,0.0
9998,1,2019-10-23T17:38:26.000,2019-10-23T17:49:28.000,2,2.50,1,N,151,42,1,10.0,1.0,0.5,0.00,0.00,0.3,11.80,0.0


 
2. Afficher les dimensions (nombre de lignes et nombre de colonnes) dans le jeu de données :
 

In [47]:
df.shape

(10000, 18)

3. Calculer des statistiques récapitulatives pour les colonnes `fare_amount`, `tip_amount`, `tolls_amount` et `total_amount` :


In [49]:
df[["fare_amount", "tip_amount", "tolls_amount", "total_amount"]].describe()

Unnamed: 0,fare_amount,tip_amount,tolls_amount,total_amount
count,10000.0,10000.0,10000.0,10000.0
mean,15.106313,2.634494,0.623447,22.564659
std,13.954762,3.4098,6.437507,19.209255
min,-52.0,0.0,-6.12,-65.92
25%,7.0,0.0,0.0,12.375
50%,10.0,2.0,0.0,16.3
75%,16.0,3.25,0.0,22.88
max,176.0,43.0,612.0,671.8


4. Calculer les fréquences et les pourcentage des différentes valeurs prises par la colonne `payment_type`

In [54]:
print(df["payment_type"].value_counts(normalize=True))

df["payment_type"].value_counts(normalize=True) * 100

payment_type
1    0.7103
2    0.2803
3    0.0075
4    0.0019
Name: proportion, dtype: float64


payment_type
1    71.03
2    28.03
3     0.75
4     0.19
Name: proportion, dtype: float64

5. Isoler et afficher les valeurs de `fare_amount` , `tip_amount`, `tolls_amount`, et `total_amount` pour le plus long voyage (`trip_distance`) :

In [56]:
df.loc[df.trip_distance.idxmax(), ["fare_amount", "tip_amount", "tolls_amount", "total_amount"]]

fare_amount      176.0
tip_amount       18.29
tolls_amount      6.12
total_amount    201.21
Name: 8338, dtype: object