# Section 2: Manipulation des donn√©es

Dans cette section, nous apprendrons comment nettoyer et reformater les donn√©es (p. ex., renommer les colonnes, corriger les non-concordances de types de donn√©es), les restructurer/les reformuler et les enrichir (p. ex., Cr√©er renommer discr√©tiser trier des colonnes, calculer les agr√©gations, combiner les sources de donn√©es ...).

Nous travaillerons avec les donn√©es du voyage en taxi jaune 2019 `2019_Yellow_Taxi_Trip_Data.csv`.

In [1]:
import pandas as pd

taxis  = pd.read_csv('./datasets/2019_Yellow_Taxi_Trip_Data.csv')
taxis.head() 

Unnamed: 0,vendorid,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,ratecodeid,store_and_fwd_flag,pulocationid,dolocationid,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge
0,2,2019-10-23T16:39:42.000,2019-10-23T17:14:10.000,1,7.93,1,N,138,170,1,29.5,1.0,0.5,7.98,6.12,0.3,47.9,2.5
1,1,2019-10-23T16:32:08.000,2019-10-23T16:45:26.000,1,2.0,1,N,11,26,1,10.5,1.0,0.5,0.0,0.0,0.3,12.3,0.0
2,2,2019-10-23T16:08:44.000,2019-10-23T16:21:11.000,1,1.36,1,N,163,162,1,9.5,1.0,0.5,2.0,0.0,0.3,15.8,2.5
3,2,2019-10-23T16:22:44.000,2019-10-23T16:43:26.000,1,1.0,1,N,170,163,1,13.0,1.0,0.5,4.32,0.0,0.3,21.62,2.5
4,2,2019-10-23T16:45:11.000,2019-10-23T16:58:49.000,1,1.96,1,N,163,236,1,10.5,1.0,0.5,0.5,0.0,0.3,15.3,2.5


*Source : [NYC Open Data](https://data.cityofnewyork.us/Transportation/2019-Yellow-Taxi-Trip-Data/2upf-qytp)*

# <font color='Red'>I) Cr√©er, Supprimer, Renommer des colonnes</font> 

## <font color='green'>Supprimer des colonnes</font> 

Commen√ßons par supprimer les colonnes `ID` et la colonne `store_and_fwd_flag` que nous n‚Äôutiliserons pas, et ce en utilisant les expressions r√©guli√®res.   

`Series.str.contains` retourne une s√©ries de valeurs `boolean` pour indiquer si une s√©rie de cha√Ænes de caract√®res contient des caract√®res sp√©cifiques.

Pour plus de d√©lail sur les `regular expressions (RegEx)` cliquer [ici](https://www.programiz.com/python-programming/regex)

In [2]:
mask = taxis.columns.str.contains('id$|store_and_fwd_flag', regex=True) # mask est une s√©rie logique qui vaut True pour les noms de colonnes 
                                                                        # contenant les expressions sp√©cifi√©es ('id' √† la fin ou 'store_and_fwd_flag')
mask

array([ True, False, False, False, False,  True,  True,  True,  True,
       False, False, False, False, False, False, False, False, False])

In [3]:
columns_to_drop = taxis.columns[mask]
columns_to_drop

Index(['vendorid', 'ratecodeid', 'store_and_fwd_flag', 'pulocationid',
       'dolocationid'],
      dtype='object')

In [4]:
taxis = taxis.drop(columns=columns_to_drop)
taxis.columns

Index(['tpep_pickup_datetime', 'tpep_dropoff_datetime', 'passenger_count',
       'trip_distance', 'payment_type', 'fare_amount', 'extra', 'mta_tax',
       'tip_amount', 'tolls_amount', 'improvement_surcharge', 'total_amount',
       'congestion_surcharge'],
      dtype='object')

In [5]:
taxis.head()

Unnamed: 0,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge
0,2019-10-23T16:39:42.000,2019-10-23T17:14:10.000,1,7.93,1,29.5,1.0,0.5,7.98,6.12,0.3,47.9,2.5
1,2019-10-23T16:32:08.000,2019-10-23T16:45:26.000,1,2.0,1,10.5,1.0,0.5,0.0,0.0,0.3,12.3,0.0
2,2019-10-23T16:08:44.000,2019-10-23T16:21:11.000,1,1.36,1,9.5,1.0,0.5,2.0,0.0,0.3,15.8,2.5
3,2019-10-23T16:22:44.000,2019-10-23T16:43:26.000,1,1.0,1,13.0,1.0,0.5,4.32,0.0,0.3,21.62,2.5
4,2019-10-23T16:45:11.000,2019-10-23T16:58:49.000,1,1.96,1,10.5,1.0,0.5,0.5,0.0,0.3,15.3,2.5


*Astuce¬†: Une autre fa√ßon de proc√©der est de s√©lectionner les colonnes que nous voulons conserver¬†: taxis.loc[ : ,~mask].*

## <font color='green'>Renommer des colonnes</font> 

In [6]:
taxis.rename(
    columns={
        'tpep_pickup_datetime': 'pickup', 
        'tpep_dropoff_datetime': 'dropoff'}, 
    inplace=True)

taxis.head()

Unnamed: 0,pickup,dropoff,passenger_count,trip_distance,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge
0,2019-10-23T16:39:42.000,2019-10-23T17:14:10.000,1,7.93,1,29.5,1.0,0.5,7.98,6.12,0.3,47.9,2.5
1,2019-10-23T16:32:08.000,2019-10-23T16:45:26.000,1,2.0,1,10.5,1.0,0.5,0.0,0.0,0.3,12.3,0.0
2,2019-10-23T16:08:44.000,2019-10-23T16:21:11.000,1,1.36,1,9.5,1.0,0.5,2.0,0.0,0.3,15.8,2.5
3,2019-10-23T16:22:44.000,2019-10-23T16:43:26.000,1,1.0,1,13.0,1.0,0.5,4.32,0.0,0.3,21.62,2.5
4,2019-10-23T16:45:11.000,2019-10-23T16:58:49.000,1,1.96,1,10.5,1.0,0.5,0.5,0.0,0.3,15.3,2.5


## <font color='green'>Conversion des types</font> 

In [7]:
taxis.dtypes

pickup                    object
dropoff                   object
passenger_count            int64
trip_distance            float64
payment_type               int64
fare_amount              float64
extra                    float64
mta_tax                  float64
tip_amount               float64
tolls_amount             float64
improvement_surcharge    float64
total_amount             float64
congestion_surcharge     float64
dtype: object

In [8]:
pd.to_datetime(taxis.loc[: ,'dropoff'])

0      2019-10-23 17:14:10
1      2019-10-23 16:45:26
2      2019-10-23 16:21:11
3      2019-10-23 16:43:26
4      2019-10-23 16:58:49
               ...        
9995   2019-10-23 17:49:26
9996   2019-10-23 18:00:45
9997   2019-10-23 17:11:35
9998   2019-10-23 17:49:28
9999   2019-10-23 17:52:09
Name: dropoff, Length: 10000, dtype: datetime64[ns]

`pickup` et `dropoff` doivent √™tre stock√©s en tant que datetimes. Corrigeons ceci¬†:

In [9]:
taxis.loc[:, ['pickup', 'dropoff']] = taxis.loc[:, ['pickup', 'dropoff']].apply(pd.to_datetime)
taxis.dtypes

  taxis.loc[:, ['pickup', 'dropoff']] = taxis.loc[:, ['pickup', 'dropoff']].apply(pd.to_datetime)


pickup                   datetime64[ns]
dropoff                  datetime64[ns]
passenger_count                   int64
trip_distance                   float64
payment_type                      int64
fare_amount                     float64
extra                           float64
mta_tax                         float64
tip_amount                      float64
tolls_amount                    float64
improvement_surcharge           float64
total_amount                    float64
congestion_surcharge            float64
dtype: object

*Astuce¬†:*  
 - *Pour plus de d√©tail sur `datetime` cliquer [ici](https://www.programiz.com/python-programming/datetime)*
 - *Il existe d‚Äôautres fa√ßons d‚Äôeffectuer la conversion de type. Pour les valeurs num√©riques, nous pouvons utiliser la fonction `pd.to_numeric()`, et nous verrons la m√©thode `astype()`, qui est une m√©thode plus g√©n√©rique, un peu plus tard.*

## <font color='green'>Cr√©ation de nouvelles colonnes</font> 

Calculons ce qui suit pour chaque ligne¬†:  

 1. temps √©coul√© du voyage : *elapsed_time= dropoff - pickup*  
 2. le pourcentage de pourboire : *tip_pct= tip_amount / (total_amount - tip_amount)*  
 3. le total des taxes, droits, frais et suppl√©ments : *fees= cost_before_tip - fare_amount*
 4. la vitesse moyenne du taxi : *avg_speed = trip_distance.div(elapsed_time.dt.total_seconds() / 60 / 60)*

*[`Series.dt.total_seconds()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.total_seconds.html) retourne la dur√©e totale de chaque √©l√©ment exprim√©e en secondes*

In [10]:
taxis = taxis.assign(
    elapsed_time=lambda x: x.dropoff - x.pickup, # 1
    cost_before_tip=lambda x: x.total_amount - x.tip_amount,
    tip_pct=lambda x: x.tip_amount / x.cost_before_tip, # 2
    fees=lambda x: x.cost_before_tip - x.fare_amount, # 3
    avg_speed=lambda x: x.trip_distance.div(x.elapsed_time.dt.total_seconds() / 60 / 60) # 4
)


*Astuce: **les fonctions anonymes (lambda)** sont utilis√©es lorsqu‚Äôil n‚Äôest pas n√©cessaire de nommer une fonction. En effet, il y a aucun int√©r√™t de nommer une fonction qu‚Äôon utilisera qu‚Äôune seule fois* ü§î.

In [11]:
taxis.head(2)

Unnamed: 0,pickup,dropoff,passenger_count,trip_distance,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge,elapsed_time,cost_before_tip,tip_pct,fees,avg_speed
0,2019-10-23 16:39:42,2019-10-23 17:14:10,1,7.93,1,29.5,1.0,0.5,7.98,6.12,0.3,47.9,2.5,0 days 00:34:28,39.92,0.1999,10.42,13.804642
1,2019-10-23 16:32:08,2019-10-23 16:45:26,1,2.0,1,10.5,1.0,0.5,0.0,0.0,0.3,12.3,0.0,0 days 00:13:18,12.3,0.0,1.8,9.022556


*Remarque¬†: Pour cr√©er une seule nouvelle colonne, nous pouvons √©galement utiliser df['new_col'] = expression.*

## <font color='green'>Le tri par valeur</font> 

Nous pouvons utiliser la m√©thode `sort_values()` pour trier en fonction d'une ou de plusieurs colonnes¬†:

In [12]:
taxis.sort_values(['passenger_count', 'pickup'], ascending=[False, True]).head()

Unnamed: 0,pickup,dropoff,passenger_count,trip_distance,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge,elapsed_time,cost_before_tip,tip_pct,fees,avg_speed
5997,2019-10-23 15:55:19,2019-10-23 16:08:25,6,1.58,2,10.0,1.0,0.5,0.0,0.0,0.3,14.3,2.5,0 days 00:13:06,14.3,0.0,4.3,7.236641
443,2019-10-23 15:56:59,2019-10-23 16:04:33,6,1.46,2,7.5,1.0,0.5,0.0,0.0,0.3,11.8,2.5,0 days 00:07:34,11.8,0.0,4.3,11.577093
8722,2019-10-23 15:57:33,2019-10-23 16:03:34,6,0.62,1,5.5,1.0,0.5,0.7,0.0,0.3,10.5,2.5,0 days 00:06:01,9.8,0.071429,4.3,6.182825
4198,2019-10-23 15:57:38,2019-10-23 16:05:07,6,1.18,1,7.0,1.0,0.5,1.0,0.0,0.3,12.3,2.5,0 days 00:07:29,11.3,0.088496,4.3,9.461024
8238,2019-10-23 15:58:31,2019-10-23 16:29:29,6,3.23,2,19.5,1.0,0.5,0.0,0.0,0.3,23.8,2.5,0 days 00:30:58,23.8,0.0,4.3,6.258342


Pour choisir les plus grandes (ou les plus petites) valeurs, utilisez `nlargest()` (ou `nsmallest()`). Par exemple, ci-apr√®s les trois voyages les plus longs :

In [13]:
taxis.nlargest(3, 'elapsed_time')

Unnamed: 0,pickup,dropoff,passenger_count,trip_distance,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge,elapsed_time,cost_before_tip,tip_pct,fees,avg_speed
7576,2019-10-23 16:52:51,2019-10-24 16:51:44,1,3.75,1,17.5,1.0,0.5,0.0,0.0,0.3,21.8,2.5,0 days 23:58:53,21.8,0.0,4.3,0.156371
6902,2019-10-23 16:51:42,2019-10-24 16:50:22,1,11.19,2,39.5,1.0,0.5,0.0,0.0,0.3,41.3,0.0,0 days 23:58:40,41.3,0.0,1.8,0.466682
4975,2019-10-23 16:18:51,2019-10-24 16:17:30,1,0.7,2,7.0,1.0,0.5,0.0,0.0,0.3,11.3,2.5,0 days 23:58:39,11.3,0.0,4.3,0.029194


# <font color='Red'>II) Travailler avec les indices </font> 

Jusqu‚Äô√† pr√©sent, nous n‚Äôavons pas vraiment travaill√© avec l‚Äôindex parce que c‚Äô√©tait juste un num√©ro de ligne ; cependant, nous pouvons changer les valeurs que nous avons dans l‚Äôindex pour acc√©der √† des fonctionnalit√©s suppl√©mentaires de la biblioth√®que pandas.


## **D√©finition et tri de l‚Äôindex**

Actuellement, nous avons un RangeIndex, mais nous pouvons passer √† un DatetimeIndex en sp√©cifiant une colonne datetime lors de l‚Äôappel √† `set_index()`¬†:

In [14]:
taxis.set_index('pickup', inplace=True)
taxis.head(3)

Unnamed: 0_level_0,dropoff,passenger_count,trip_distance,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge,elapsed_time,cost_before_tip,tip_pct,fees,avg_speed
pickup,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
2019-10-23 16:39:42,2019-10-23 17:14:10,1,7.93,1,29.5,1.0,0.5,7.98,6.12,0.3,47.9,2.5,0 days 00:34:28,39.92,0.1999,10.42,13.804642
2019-10-23 16:32:08,2019-10-23 16:45:26,1,2.0,1,10.5,1.0,0.5,0.0,0.0,0.3,12.3,0.0,0 days 00:13:18,12.3,0.0,1.8,9.022556
2019-10-23 16:08:44,2019-10-23 16:21:11,1,1.36,1,9.5,1.0,0.5,2.0,0.0,0.3,15.8,2.5,0 days 00:12:27,13.8,0.144928,4.3,6.554217


√âtant donn√© que nous avons un √©chantillon de l‚Äôensemble de donn√©es complet, trions l‚Äôindex (`pickup `)¬†:

In [15]:
taxis.sort_index(inplace=True)
taxis.index

DatetimeIndex(['2019-10-23 07:05:34', '2019-10-23 07:48:58',
               '2019-10-23 08:02:09', '2019-10-23 08:18:47',
               '2019-10-23 09:27:16', '2019-10-23 09:47:25',
               '2019-10-23 12:35:27', '2019-10-23 12:56:53',
               '2019-10-23 13:15:05', '2019-10-23 13:15:19',
               ...
               '2019-10-23 18:00:03', '2019-10-23 18:01:21',
               '2019-10-23 18:03:03', '2019-10-24 07:17:09',
               '2019-10-24 07:21:35', '2019-10-24 07:23:52',
               '2019-10-24 07:29:52', '2019-10-24 07:58:31',
               '2019-10-24 08:07:45', '2019-10-24 08:19:11'],
              dtype='datetime64[ns]', name='pickup', length=10000, freq=None)

*Astuce: `taxis.sort_index(axis=1)` triera les colonnes selon leurs noms. Le param√®tre ``axis`` est pr√©sent dans toute la biblioth√®que pandas¬†: `axis=0` cible les lignes et `axis=1` cible les colonnes.*

Nous pouvons maintenant s√©lectionner des plages de donn√©es en fonction de la date-heure comme nous l‚Äôavons fait avec les num√©ros de ligne¬†:

In [16]:
taxis['2019-10-23 16:08':'2019-10-23 16:45']

Unnamed: 0_level_0,dropoff,passenger_count,trip_distance,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge,elapsed_time,cost_before_tip,tip_pct,fees,avg_speed
pickup,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
2019-10-23 16:08:00,2019-10-23 16:20:37,1,1.60,2,9.5,1.0,0.5,0.00,0.0,0.3,11.30,0.0,0 days 00:12:37,11.3,0.000000,1.8,7.608983
2019-10-23 16:08:02,2019-10-23 16:12:06,1,0.70,1,5.0,3.5,0.5,1.85,0.0,0.3,11.15,2.5,0 days 00:04:04,9.3,0.198925,4.3,10.327869
2019-10-23 16:08:02,2019-10-23 16:14:51,1,1.00,1,6.5,3.5,0.5,2.70,0.0,0.3,13.50,2.5,0 days 00:06:49,10.8,0.250000,4.3,8.801956
2019-10-23 16:08:03,2019-10-23 16:18:00,1,0.96,1,7.5,1.0,0.5,1.00,0.0,0.3,12.80,2.5,0 days 00:09:57,11.8,0.084746,4.3,5.788945
2019-10-23 16:08:03,2019-10-23 16:15:35,1,1.10,1,7.0,1.0,0.5,3.39,0.0,0.3,14.69,2.5,0 days 00:07:32,11.3,0.300000,4.3,8.761062
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2019-10-23 16:45:58,2019-10-23 17:00:54,1,1.30,2,10.5,3.5,0.5,0.00,0.0,0.3,14.80,2.5,0 days 00:14:56,14.8,0.000000,4.3,5.223214
2019-10-23 16:45:58,2019-10-23 17:04:09,3,3.00,1,14.5,3.5,0.5,0.00,0.0,0.3,18.80,2.5,0 days 00:18:11,18.8,0.000000,4.3,9.899175
2019-10-23 16:45:58,2019-10-23 16:55:03,1,0.94,1,7.0,1.0,0.5,2.00,0.0,0.3,13.30,2.5,0 days 00:09:05,11.3,0.176991,4.3,6.209174
2019-10-23 16:45:59,2019-10-23 16:49:31,1,0.60,2,4.5,3.5,0.5,0.00,0.0,0.3,8.80,2.5,0 days 00:03:32,8.8,0.000000,4.3,10.188679


In [17]:
taxis[(taxis.index >= '2019-10-23 16:08') & (taxis.index <'2019-10-23 16:45') & taxis.payment_type==1]

Unnamed: 0_level_0,dropoff,passenger_count,trip_distance,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge,elapsed_time,cost_before_tip,tip_pct,fees,avg_speed
pickup,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
2019-10-23 16:08:02,2019-10-23 16:12:06,1,0.70,1,5.0,3.5,0.5,1.85,0.0,0.3,11.15,2.5,0 days 00:04:04,9.3,0.198925,4.3,10.327869
2019-10-23 16:08:02,2019-10-23 16:14:51,1,1.00,1,6.5,3.5,0.5,2.70,0.0,0.3,13.50,2.5,0 days 00:06:49,10.8,0.250000,4.3,8.801956
2019-10-23 16:08:03,2019-10-23 16:18:00,1,0.96,1,7.5,1.0,0.5,1.00,0.0,0.3,12.80,2.5,0 days 00:09:57,11.8,0.084746,4.3,5.788945
2019-10-23 16:08:03,2019-10-23 16:15:35,1,1.10,1,7.0,1.0,0.5,3.39,0.0,0.3,14.69,2.5,0 days 00:07:32,11.3,0.300000,4.3,8.761062
2019-10-23 16:08:03,2019-10-23 16:13:45,1,0.82,1,6.0,1.0,0.5,2.06,0.0,0.3,12.36,2.5,0 days 00:05:42,10.3,0.200000,4.3,8.631579
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2019-10-23 16:44:58,2019-10-23 16:53:11,4,1.41,1,7.5,1.0,0.5,2.36,0.0,0.3,14.16,2.5,0 days 00:08:13,11.8,0.200000,4.3,10.296146
2019-10-23 16:44:58,2019-10-23 17:04:44,1,0.84,1,12.0,1.0,0.5,3.26,0.0,0.3,19.56,2.5,0 days 00:19:46,16.3,0.200000,4.3,2.549747
2019-10-23 16:44:58,2019-10-23 17:08:47,1,2.65,1,16.0,1.0,0.5,5.08,0.0,0.3,25.38,2.5,0 days 00:23:49,20.3,0.250246,4.3,6.675997
2019-10-23 16:44:59,2019-10-23 16:54:50,1,1.62,1,8.5,1.0,0.5,2.56,0.0,0.3,15.36,2.5,0 days 00:09:51,12.8,0.200000,4.3,9.868020


Si vous ne sp√©cifiez pas de plage, utilisez `loc[ ]`¬†:

In [18]:
taxis.loc['2019-10-23 16:08']

Unnamed: 0_level_0,dropoff,passenger_count,trip_distance,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge,elapsed_time,cost_before_tip,tip_pct,fees,avg_speed
pickup,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
2019-10-23 16:08:00,2019-10-23 16:20:37,1,1.60,2,9.5,1.0,0.5,0.00,0.00,0.3,11.30,0.0,0 days 00:12:37,11.30,0.000000,1.80,7.608983
2019-10-23 16:08:02,2019-10-23 16:12:06,1,0.70,1,5.0,3.5,0.5,1.85,0.00,0.3,11.15,2.5,0 days 00:04:04,9.30,0.198925,4.30,10.327869
2019-10-23 16:08:02,2019-10-23 16:14:51,1,1.00,1,6.5,3.5,0.5,2.70,0.00,0.3,13.50,2.5,0 days 00:06:49,10.80,0.250000,4.30,8.801956
2019-10-23 16:08:03,2019-10-23 16:18:00,1,0.96,1,7.5,1.0,0.5,1.00,0.00,0.3,12.80,2.5,0 days 00:09:57,11.80,0.084746,4.30,5.788945
2019-10-23 16:08:03,2019-10-23 16:15:35,1,1.10,1,7.0,1.0,0.5,3.39,0.00,0.3,14.69,2.5,0 days 00:07:32,11.30,0.300000,4.30,8.761062
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2019-10-23 16:08:58,2019-10-23 17:23:27,2,20.40,2,52.0,7.0,0.5,0.00,6.12,0.3,65.92,2.5,0 days 01:14:29,65.92,0.000000,13.92,16.433207
2019-10-23 16:08:59,2019-10-23 16:17:56,1,1.00,2,7.5,3.5,0.5,0.00,0.00,0.3,11.80,2.5,0 days 00:08:57,11.80,0.000000,4.30,6.703911
2019-10-23 16:08:59,2019-10-23 16:23:16,1,1.61,1,10.0,1.0,0.5,2.00,0.00,0.3,16.30,2.5,0 days 00:14:17,14.30,0.139860,4.30,6.763127
2019-10-23 16:08:59,2019-10-23 16:14:22,1,0.75,1,5.5,1.0,0.5,1.96,0.00,0.3,11.76,2.5,0 days 00:05:23,9.80,0.200000,4.30,8.359133


# **R√©initialisation de l‚Äôindex**


Nous travaillerons avec les s√©ries chronologiques plus tard dans cette section, mais parfois nous voulons r√©initialiser notre index aux num√©ros de ligne et restaurer les colonnes.  
Nous pouvons faire r√©cup√©rer la colonne *pickup* √† nouveau avec la m√©thode `reset_index()`¬†:

In [19]:
taxis.reset_index(inplace=True)
taxis.head()

Unnamed: 0,pickup,dropoff,passenger_count,trip_distance,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge,elapsed_time,cost_before_tip,tip_pct,fees,avg_speed
0,2019-10-23 07:05:34,2019-10-23 08:03:16,3,14.68,1,50.0,1.0,0.5,4.0,0.0,0.3,55.8,0.0,0 days 00:57:42,51.8,0.07722,1.8,15.265165
1,2019-10-23 07:48:58,2019-10-23 07:52:09,1,0.67,2,4.5,1.0,0.5,0.0,0.0,0.3,8.8,2.5,0 days 00:03:11,8.8,0.0,4.3,12.628272
2,2019-10-23 08:02:09,2019-10-24 07:42:32,1,8.38,1,32.0,1.0,0.5,5.5,0.0,0.3,41.8,2.5,0 days 23:40:23,36.3,0.151515,4.3,0.353989
3,2019-10-23 08:18:47,2019-10-23 08:36:05,1,2.39,2,12.5,1.0,0.5,0.0,0.0,0.3,16.8,2.5,0 days 00:17:18,16.8,0.0,4.3,8.289017
4,2019-10-23 09:27:16,2019-10-23 09:33:13,2,1.11,2,6.0,1.0,0.5,0.0,0.0,0.3,7.8,0.0,0 days 00:05:57,7.8,0.0,1.8,11.193277


# <font color='Red'>III) Redimentionner les donn√©es </font> 

L‚Äôensemble de donn√©es sur les taxis avec lequel nous travaillons est dans un format propice √† une analyse. Ce n‚Äôest pas toujours le cas. Jetons maintenant un coup d‚Äô≈ìil aux donn√©es sur le d√©bit des voyageurs de la TSA, qui comparent le d√©bit de 2021 au m√™me jour en 2020 et en 2019¬†:

In [23]:
tsa = pd.read_csv('./datasets/tsa_passenger_throughput.csv', parse_dates=['Date'])
tsa.head()

Unnamed: 0,Date,2021 Traveler Throughput,2020 Traveler Throughput,2019 Traveler Throughput
0,2021-05-14,1716561.0,250467,2664549
1,2021-05-13,1743515.0,234928,2611324
2,2021-05-12,1424664.0,176667,2343675
3,2021-05-11,1315493.0,163205,2191387
4,2021-05-10,1657722.0,215645,2512315


*Source: [TSA.gov](https://www.tsa.gov/coronavirus/passenger-throughput)*

Tout d‚Äôabord, nous minusculerons les noms des colonnes et prendrons le premier mot ( ex., `2021` pour `2021 Traveler Throughput`) pour faciliter le travail avec¬†:

In [24]:
tsa = tsa.rename(columns=lambda x: x.lower().split()[0]) # split()[0] utilise par d√©faut s√©parateur " " 
tsa.head()

Unnamed: 0,date,2021,2020,2019
0,2021-05-14,1716561.0,250467,2664549
1,2021-05-13,1743515.0,234928,2611324
2,2021-05-12,1424664.0,176667,2343675
3,2021-05-11,1315493.0,163205,2191387
4,2021-05-10,1657722.0,215645,2512315


# **Melting**


La fonction `pandas.melt()` remod√®le ou transforme un DataFrame existant. Il change l‚Äôorientation du DataFrame d‚Äôun format large √† un format long.    
Voir [ici](https://www.delftstack.com/fr/api/python-pandas/pandas-dataframe-dataframe.melt-function/) pour plus de d√©tails.

Maintenant, nous avons toutes les valeurs du d√©bit voyageurs dans une seule colonne¬†:

In [25]:
tsa_melted = tsa.melt(
    id_vars='date', 
    var_name='year', 
    value_name='travelers'
)
tsa_melted.tail()

Unnamed: 0,date,year,travelers
1090,2020-05-19,2019,2312727.0
1091,2020-05-18,2019,2615691.0
1092,2020-05-17,2019,2620276.0
1093,2020-05-16,2019,2091116.0
1094,2020-05-15,2019,2664549.0


In [26]:
tsa_melted.sort_values(['date', 'year'], ascending=([True, False]))

Unnamed: 0,date,year,travelers
364,2020-05-15,2021,
729,2020-05-15,2020,250467.0
1094,2020-05-15,2019,2664549.0
363,2020-05-16,2021,
728,2020-05-16,2020,193340.0
...,...,...,...
366,2021-05-13,2020,234928.0
731,2021-05-13,2019,2611324.0
0,2021-05-14,2021,1716561.0
365,2021-05-14,2020,250467.0


Pour convertir cela en une s√©rie chronologique de d√©bit de voyageurs, nous devons remplacer l‚Äôann√©e dans la colonne de la date par celle dans la colonne de l‚Äôann√©e. Autrement, les chiffres des ann√©es pr√©c√©dentes ne correspondent pas √† la bonne ann√©e.

In [27]:
tsa_melted = tsa_melted.assign(
    date=lambda x: pd.to_datetime(x.year + x.date.dt.strftime('-%m-%d'))
)
tsa_melted.tail()

Unnamed: 0,date,year,travelers
1090,2019-05-19,2019,2312727.0
1091,2019-05-18,2019,2615691.0
1092,2019-05-17,2019,2620276.0
1093,2019-05-16,2019,2091116.0
1094,2019-05-15,2019,2664549.0


Cela nous laisse avec quelques valeurs nulles (les dates qui n‚Äôont pas encore eu lieu)

In [28]:
tsa_melted.sort_values('date').tail(3)

Unnamed: 0,date,year,travelers
136,2021-12-29,2021,
135,2021-12-30,2021,
134,2021-12-31,2021,


Ces lignes peuvent √™tre supprim√©es par la fonction `dropna()`

In [29]:
tsa_melted = tsa_melted.dropna()
tsa_melted.sort_values('date').tail(3)

Unnamed: 0,date,year,travelers
2,2021-05-12,2021,1424664.0
1,2021-05-13,2021,1743515.0
0,2021-05-14,2021,1716561.0


## **Pivoting**

En utilisant les donn√©es `tsa_melted`, nous pouvons faire pivoter les donn√©es pour comparer le d√©bit de voyageurs TSA sur des jours sp√©cifiques √† travers les ann√©es.    
Ici nous allons comparer le d√©bit des voyageurs `travelers` dans les 10 premiers jours du mois Mars sur les ann√©es 2019, 2020 et 2021.

In [30]:
tsa_pivoted = tsa_melted\
    .query('date.dt.month == 3 and date.dt.day <= 10')\
    .assign(day_in_march=lambda x: x.date.dt.day)\
    .pivot(index='year', columns='day_in_march', values='travelers')
tsa_pivoted

day_in_march,1,2,3,4,5,6,7,8,9,10
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2019,2257920.0,1979558.0,2143619.0,2402692.0,2543689.0,2156262.0,2485430.0,2378673.0,2122898.0,2187298.0
2020,2089641.0,1736393.0,1877401.0,2130015.0,2198517.0,1844811.0,2119867.0,1909363.0,1617220.0,1702686.0
2021,1049692.0,744812.0,826924.0,1107534.0,1168734.0,992406.0,1278557.0,1119303.0,825745.0,974221.0


*Explications*

    - query('date.dt.month == 3 and date.dt.day <= 10') : S√©lecionner les 10 premiers jours de Mars 
    - assign(day_in_march=lambda x: x.date.dt.day)      : Cr√©er une variable le jour du mois     
    - pivot(index='year', columns='day_in_march', values='travelers') : la fonction pivot fait le r√¥le inverse de melt  

## **Transposer**

L'op√©rateur `T` permet de transposer les lignes et les colonnes

In [31]:
tsa_pivoted.T

year,2019,2020,2021
day_in_march,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2257920.0,2089641.0,1049692.0
2,1979558.0,1736393.0,744812.0
3,2143619.0,1877401.0,826924.0
4,2402692.0,2130015.0,1107534.0
5,2543689.0,2198517.0,1168734.0
6,2156262.0,1844811.0,992406.0
7,2485430.0,2119867.0,1278557.0
8,2378673.0,1909363.0,1119303.0
9,2122898.0,1617220.0,825745.0
10,2187298.0,1702686.0,974221.0


## **Fusionnner les donn√©es**


Nous observons habituellement des changements dans le transport a√©rien pendant les jours de vacance. Le fichier holidays.csv contient quelques jours f√©ri√©s importants aux √âtats-Unis¬†:

In [32]:
holidays = pd.read_csv('./datasets/holidays.csv', parse_dates=True, index_col='date')
holidays.index

DatetimeIndex(['2019-01-01', '2019-05-27', '2019-07-04', '2019-09-02',
               '2019-11-28', '2019-12-24', '2019-12-25', '2019-12-31',
               '2020-01-01', '2020-05-25', '2020-07-04', '2020-09-07',
               '2020-11-26', '2020-12-24', '2020-12-25', '2020-12-31',
               '2021-01-01', '2021-05-31', '2021-07-04', '2021-09-06',
               '2021-11-25', '2021-12-24', '2021-12-25', '2021-12-31'],
              dtype='datetime64[ns]', name='date', freq=None)

La fusion des donn√©es relatives aux jours de vacance avec celles de la TSA nous permettra de mieux situer notre analyse¬†:

In [None]:
tsa_melted_holidays = tsa_melted\
    .merge(holidays, left_on='date', right_index=True, how='left')\
    .sort_values('date')
tsa_melted_holidays.head()

In [None]:
tsa_melted_holiday_travel = tsa_melted_holidays.assign(
    holiday=lambda x: x.holiday.fillna(method='ffill', limit=1).fillna(method='bfill', limit=2)) 


In [None]:
tsa_melted_holiday_travel.iloc[140:150, :]

Astuce¬†: Il y a beaucoup de param√®tres pour cette m√©thode, il est recommend√© de consuler la [documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html).  

Nous pouvons aller plus loin en marquant quelques jours avant et apr√®s chaque jour f√©ri√©. Il serait ainsi plus facile de comparer les voyages de vacances d‚Äôune ann√©e √† l‚Äôautre et de rep√©rer toute hausse des voyages pendant les F√™tes¬†:

In [None]:

tsa_melted_holiday_travel.query('(year == "2019") and'
                                '( holiday == "Thanksgiving")')

In [None]:
tsa_melted_holiday_travel.query(
    'year == "2019" and '
    '(holiday == "Thanksgiving" or holiday.str.contains("Christmas"))',engine='python')

# <font color='Red'>III) Agr√©gations et regroupements </font> 

Apr√®s avoir remodel√© et nettoy√© nos donn√©es, nous pouvons effectuer des agr√©gations pour les r√©sumer de diff√©rentes fa√ßons. Dans cette section, nous explorerons l‚Äôutilisation de tableaux crois√©s dynamiques, d‚Äôonglets crois√©s et de groupes par op√©rations pour agr√©ger les donn√©es.

## **Tableaux crois√©s dynamiques**

Nous pouvons cr√©er un tableau crois√© dynamique pour comparer les voyages de vacances au fil des ans dans notre ensemble de donn√©es¬†:

In [None]:
tsa_melted_holiday_travel

In [None]:
tsa_melted_holiday_travel.pivot_table(
    index='year', columns='holiday', 
    values='travelers', aggfunc='sum'
)

Nous pouvons utiliser la m√©thode `pct_change()` sur ce r√©sultat pour voir quelles p√©riodes de voyage de vacances ont vu **le plus grand changement** dans le voyage¬†:

In [None]:
tsa_melted_holiday_travel.pivot_table(
    index='year', columns='holiday', 
    values='travelers', aggfunc='sum'
).pct_change()

Ensuite, nous regroupons `Christmas Eve` et `Christmas Day`,  de m√™me que `New Year's Eve` et `New Year's Day`, et nous cr√©ons le tableau crois√©¬†:

*Astuces: Dans **pandas** les fonctions:  
 - `where()` se comporte comme `if then/if else`.   
 - `str.strip()` permet de supprimer les espaces au d√©but et √† la fin da la cha√Æne* de caract√®res.

In [None]:
import numpy as np
pd.DataFrame(tsa_melted_holiday_travel.assign(
    holiday=lambda x: np.where(
        x.holiday.str.contains('Christmas|New Year', regex=True), 
        x.holiday.str.replace('Day|Eve', '', regex=True).str.strip(), 
        x.holiday
    )
)).pivot_table(
    index='year', columns='holiday', 
    values='travelers', aggfunc='sum',
    margins=True, margins_name='Total'
)

## **Table crois√©**

La fonction `pd.crosstab()` permet de cr√©er facilement une table de fr√©quence. Et la fonction `pd.cut()` permet de discr√©tiser une variable quantitative. 

In [None]:
pd.crosstab(
    index=pd.cut(
        tsa_melted_holiday_travel.travelers, 
        bins=3, labels=['low', 'medium', 'high']
    ),
    columns=tsa_melted_holiday_travel.year,
    rownames=['travel_volume']
)

*Astuce¬†: La fonction `pd.crosstab()` supporte d‚Äôautres agr√©gations √† condition de passer les donn√©es pour les agr√©ger en valeurs et sp√©cifier l‚Äôagr√©gation avec `aggfunc`. Voir la [documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.crosstab.html) pour plus d‚Äôinformations.*

## Op√©rations avec `groupby()`

Plut√¥t que d‚Äôeffectuer des agr√©gations, comme `mean()` ou `describe()` sur l‚Äôensemble complet de donn√©es √† la fois, nous pouvons effectuer ces calculs par groupe en appelant d‚Äôabord `groupby()`¬†:

In [None]:
tsa_melted_holiday_travel.groupby('year').describe()

Des groupes peuvent √©galement √™tre utilis√©s pour effectuer des calculs distincts par sous-ensemble de donn√©es. Par exemple, nous pouvons trouver le jour de voyage le plus important par ann√©e en utilisant `rank()¬†`.      

*Astuce; `rank( )` permet de calculer les rangs des points de donn√©es.*

In [None]:
tsa_melted_holiday_travel.assign(
    travel_volume_rank=lambda x: x.groupby('year').travelers.rank(ascending=False)
).sort_values(['travel_volume_rank', 'year'])

Les deux exemples pr√©c√©dents ont appel√© une seule m√©thode sur les donn√©es group√©es, mais en utilisant la m√©thode `agg()` nous pouvons en sp√©cifier plusieurs.

**1. Commen√ßons tout d'abord par la s√©paration de la colonne `travelers` en `holiday_travelers` et `non_holiday_travelers`.**

In [None]:
tsa_melted_holiday_travel.assign(
    holiday_travelers=lambda x: np.where(~x.holiday.isna(), x.travelers, np.nan),
    non_holiday_travelers=lambda x: np.where(x.holiday.isna(), x.travelers, np.nan),
    year=lambda x: pd.to_numeric(x.year)
)

**2. Calculons mainteant des statistiques par `year`**

*Conseil¬†: La m√©thode `select_dtypes()` permet de s√©lectionner des colonnes par type de donn√©es ('number' or 'category' ...). On peut sp√©cifier les types de donn√©es √† exclure et/ou √† inclure.*   
*En outre, nous pouvons sp√©cifier les agr√©gations √† effectuer sur chaque colonne¬†:*

In [None]:
tsa_melted_holiday_travel.assign(
    holiday_travelers=lambda x: np.where(~x.holiday.isna(), x.travelers, np.nan),
    non_holiday_travelers=lambda x: np.where(x.holiday.isna(), x.travelers, np.nan)
).groupby('year').agg({
    'holiday_travelers': ['mean', 'std'], 
    'holiday': ['nunique', 'count']
})

Ci-apr√®s quelques fonctionnalit√©s suppl√©mentaires √† conna√Ætre¬†:  

 - Nous pouvons regrouper par plusieurs colonnes ‚Äì cela cr√©e un index hi√©rarchique.
 - Les groupes peuvent √™tre exclus des calculs avec la m√©thode [`filter()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.core.groupby.DataFrameGroupBy.filter.html?highlight=filter#pandas.core.groupby.DataFrameGroupBy.filter).
 - Nous pouvons regrouper le contenu dans l‚Äôindex en utilisant les param√®tres de niveau ou de nom par ex. groupby(level=0) ou groupby(name='year').
 - Nous pouvons regrouper par plage de dates si nous utilisons un objet pd. [`Grouper()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Grouper.html?highlight=grouper).  
 
Consulter la [documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html) pour plus de d√©tails.

# <font color='Red'>IV) S√©ries temporelles </font> 

Lorsque nous travaillons avec des donn√©es de s√©ries chronologiques, pandas nous fournit des fonctionnalit√©s suppl√©mentaires pour analyser les donn√©es.   
Dans cette section, nous verrons quelques op√©rations pour s√©lectionner des plages de dates et d‚Äôheures, calculer les changements au fil du temps et r√©√©chantillonner les donn√©es √† diff√©rents intervalles de dates et d‚Äôheures.


## **S√©lection en fonction de la date et de l‚Äôheure**

Revenons √† l‚Äôensemble de donn√©es taxis, qui comprend des horodatages de ramassages et de d√©p√¥ts. Tout d‚Äôabord, nous d√©finirons la colonne de d√©p√¥t comme l‚Äôindex et trierons les donn√©es¬†:

In [None]:
taxis.set_index('dropoff', inplace=True)
taxis.sort_index(inplace=True)

In [None]:
taxis.shape

On a vu d√©j√† qu‚Äôon peut s√©l√©ctionner sur les datetimes¬†:

In [None]:
taxis['2019-10-24 7:15:00':'2019-10-24 7:45:00']

Nous pouvons √©galement utiliser `loc[ ]` ici¬†:

In [None]:
taxis.loc['2019-10-24 07']

Nous pouvons extraire les chutes qui se sont produites entre un certain intervalle de temps n‚Äôimporte quel jour avec la m√©thode `between_time()`¬†:

In [None]:
taxis.between_time('12:00', '13:00')

*Conseil¬†: La m√©thode `at_time()` peut √™tre utilis√©e pour extraire toutes les entr√©es √† un moment donn√© (par ex. 12:35:27)*.

*Enfin, head() et tail() nous limitent √† un certain nombre de lignes, mais nous pouvons √™tre int√©ress√©s par des lignes dans les 2 premi√®res/derni√®res heures (ou tout autre intervalle de temps) des donn√©es, auquel cas, nous devrions utiliser` first() / last()`¬†:*

In [None]:
taxis.first('2H')

*Conseil¬†: plus de fonctions date/heure se trouvent dans ladocumentation pandas [ici](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects).*  
Pour le reste de cette section, nous travaillerons avec les donn√©es de d√©bit des voyageurs TSA. Commen√ßons par d√©finir l‚Äôindex √† la colonne de date¬†:

In [None]:
tsa_melted_holiday_travel.set_index('date', inplace=True)

In [None]:
tsa_melted_holiday_travel

## **Calcul des changement dans une p√©riode de temps**

In [None]:
tsa_melted_holiday_travel.loc['2020'].assign(
    one_day_change=lambda x: x.travelers.diff(),
    seven_day_change=lambda x: x.travelers.diff(7),
).head(10)

*Astuce¬†: Pour effectuer des op√©rations autres que la soustraction, regardez la m√©thode [`shift()`](). Elle permet √©galement d‚Äôeffectuer des op√©rations sur plusieurs colonnes.*

## **R√©√©chantillonnage**

Nous pouvons utiliser [`resample()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.resample.html?highlight=resample#pandas.DataFrame.resample) pour agr√©ger les donn√©es des s√©ries chronologiques √† une nouvelle fr√©quence.  
 Ici nous allons r√©duire le jeu de donn√©e en trimestre/quarter (groupe de 3 mois) et calculer les statistiques par groupe

In [None]:
tsa_melted_holiday_travel['2019':'2021-Q1'].select_dtypes(include='number')\
    .resample('Q').agg(['sum', 'mean', 'std'])


## **Calculs fen√™tre**

Les calculs fen√™tre sont semblables aux calculs de groupe, sauf que le groupe sur lequel le calcul est effectu√© n‚Äôest pas statique ‚Äì il peut se d√©placer ou se d√©velopper.   
Pandas offre des fonctionnalit√©s pour construire une vari√©t√© de fen√™tres, y compris les fen√™tres mobiles (`rolling`), les fen√™tres en expansion (`expanding` p. ex., somme cumulative ou moyenne jusqu‚Äô√† la date actuelle dans une s√©rie chronologique).  
 
Nous n‚Äôexaminerons ici que les calculs [`rolling()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.rolling.html?highlight=rolling#pandas.Series.rolling) et [`expanding()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.expanding.html?highlight=expanding#pandas.Series.expanding).

Effectuer un calcul de fen√™tre est tr√®s similaire √† un groupe par calcul¬†: on d√©finit d‚Äôabord la fen√™tre, puis on sp√©cifie l‚Äôagr√©gation¬†:

In [None]:
tsa_melted_holiday_travel.loc['2020'].assign(
    **{
        '7D MA'   : lambda x: x.rolling('7D').travelers.mean(), #Moyenne sur les 7 dernierer valeurs
        'YTD mean': lambda x: x.expanding().travelers.mean()    #Moyenne sur toutes les dernierer valeurs
      }
).head(10)

Pour comprendre ce qui se passe, il est pr√©f√©rable de visualiser les donn√©es originales et le r√©sultat¬†:

In [None]:
%matplotlib inline
tsa_melted_holiday_travel.loc['2020'].assign(
    **{
        '7D MA': lambda x: x.rolling('7D').travelers.mean(),
        'YTD mean': lambda x: x.expanding().travelers.mean()
      }
).plot(title='2020 TSA Traveler Throughput', ylabel='travelers', alpha=0.8)

## <font color='Red'>V) Exercices </font> 

1. Lire les donn√©es de m√©t√©orite du fichier Meteorite_Landings.csv¬†:

2. Renommez la colonne `masse (g)` en `mass` et supprimez les colonnes `latitude` et `longitude`.

3. Mettez √† jour la colonne `year` pour ne contenir que l‚Äôann√©e, convertissez-la en type `numeric` et cr√©ez une nouvelle colonne indiquant si l‚Äôann√©e est inconnue. Conseil¬†: Utilisez `year.str.slice()` pour extraire une sous-cha√Æne.

4. Il y a une erreur de saisie dans la colonne  `year`. Pouvez-vous la trouver?

5. Comparer les statistiques synth√©tiques de la colonne `mass` pour les m√©t√©orites trouv√©es par rapport aux chutes observ√©es.

6. Cr√©er un tableau crois√© qui montre √† la fois le nombre de m√©t√©orites et le 95e percentile de la masse de m√©t√©orites pour celles qui ont √©t√© trouv√©es par rapport aux chutes observ√©es par ann√©e de 1990 √† 2000 (inclusivement).

7. √Ä l‚Äôaide des donn√©es sur les taxis de cette section, √©chantillonnez de nouveau les donn√©es √† une fr√©quence horaire en fonction de l‚Äôheure de d√©p√¥t `dropoff`. Calculez les totaux `trip_distance`, `fare_amount`, `tolls_amount` et `tip_amount`, puis trouvez les 5 heures avec le plus de voyages.