# Apercu des donnees

In [36]:
import requests
import pandas as pd

In [4]:
# Telechargement des donnees (Janvier 2024)
download_url = f"https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2024-01.parquet"
response = requests.get(download_url)
with open("yellow_tripdata_2024-01.parquet", "wb") as f:
    f.write(response.content)

In [37]:
# Importation des donnes de Janvier 2024
#installer pyarrow sinon ce code ne fonctionnera pas
df_janv_2024 = pd.read_parquet("yellow_tripdata_2024-01.parquet")
df_janv_2024.head()

Unnamed: 0,VendorID,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,RatecodeID,store_and_fwd_flag,PULocationID,DOLocationID,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge,Airport_fee
0,2,2024-01-01 00:57:55,2024-01-01 01:17:43,1.0,1.72,1.0,N,186,79,2,17.7,1.0,0.5,0.0,0.0,1.0,22.7,2.5,0.0
1,1,2024-01-01 00:03:00,2024-01-01 00:09:36,1.0,1.8,1.0,N,140,236,1,10.0,3.5,0.5,3.75,0.0,1.0,18.75,2.5,0.0
2,1,2024-01-01 00:17:06,2024-01-01 00:35:01,1.0,4.7,1.0,N,236,79,1,23.3,3.5,0.5,3.0,0.0,1.0,31.3,2.5,0.0
3,1,2024-01-01 00:36:38,2024-01-01 00:44:56,1.0,1.4,1.0,N,79,211,1,10.0,3.5,0.5,2.0,0.0,1.0,17.0,2.5,0.0
4,1,2024-01-01 00:46:51,2024-01-01 00:52:57,1.0,0.8,1.0,N,211,148,1,7.9,3.5,0.5,3.2,0.0,1.0,16.1,2.5,0.0


In [9]:
df_janv_2024.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2964624 entries, 0 to 2964623
Data columns (total 19 columns):
 #   Column                 Dtype         
---  ------                 -----         
 0   VendorID               int32         
 1   tpep_pickup_datetime   datetime64[us]
 2   tpep_dropoff_datetime  datetime64[us]
 3   passenger_count        float64       
 4   trip_distance          float64       
 5   RatecodeID             float64       
 6   store_and_fwd_flag     object        
 7   PULocationID           int32         
 8   DOLocationID           int32         
 9   payment_type           int64         
 10  fare_amount            float64       
 11  extra                  float64       
 12  mta_tax                float64       
 13  tip_amount             float64       
 14  tolls_amount           float64       
 15  improvement_surcharge  float64       
 16  total_amount           float64       
 17  congestion_surcharge   float64       
 18  Airport_fee           

In [11]:
df_janv_2024.isna().sum()

VendorID                      0
tpep_pickup_datetime          0
tpep_dropoff_datetime         0
passenger_count          140162
trip_distance                 0
RatecodeID               140162
store_and_fwd_flag       140162
PULocationID                  0
DOLocationID                  0
payment_type                  0
fare_amount                   0
extra                         0
mta_tax                       0
tip_amount                    0
tolls_amount                  0
improvement_surcharge         0
total_amount                  0
congestion_surcharge     140162
Airport_fee              140162
dtype: int64

# Description des variables 

Voici la description de chaque variable du jeu de données des enregistrements de voyages en taxi jaune :

1. **VendorID** : Un code indiquant le fournisseur TPEP qui a fourni l'enregistrement. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc.

2. **tpep_pickup_datetime** : La date et l'heure auxquelles le compteur a été engagé.

3. **tpep_dropoff_datetime** : La date et l'heure auxquelles le compteur a été désengagé.

4. **Passenger_count** : Le nombre de passagers dans le véhicule. Ceci est une valeur saisie par le conducteur.

5. **Trip_distance** : La distance de voyage écoulée en miles rapportée par le taximètre.

6. **RateCodeID** : Le code tarifaire final en vigueur à la fin du voyage.
   1= Tarif standard
   2= JFK
   3= Newark
   4= Nassau ou Westchester
   5= Tarif négocié
   6= Trajet en groupe

7. **Store_and_fwd_flag** : Ce drapeau indique si l'enregistrement du voyage a été conservé en mémoire dans le véhicule avant d'être envoyé au fournisseur, autrement dit "stockage et transmission différée", car le véhicule n'avait pas de connexion au serveur.
   Y= Voyage enregistré et transmis ultérieurement
   N= Pas de voyage enregistré et transmis ultérieurement

8. **PULocationID** : Zone de taxi TLC dans laquelle le taximètre a été engagé.

9. **DOLocationID** : Zone de taxi TLC dans laquelle le taximètre a été désengagé.

10. **Payment_type** : Un code numérique indiquant comment le passager a payé pour le voyage.
    1= Carte de crédit
    2= Espèces
    3= Gratuit
    4= Litige
    5= Inconnu
    6= Voyage annulé

11. **Fare_amount** : Le montant du tarif calculé en fonction du temps et de la distance par le compteur.

12. **Extra** : Extras et suppléments divers. Actuellement, cela inclut uniquement les frais de $0,50 et $1 pour les heures de pointe et les trajets de nuit.

13. **MTA_tax** : Taxe MTA de $0,50 automatiquement déclenchée en fonction du tarif en cours d'utilisation.

14. **Tip_amount** : Montant du pourboire - Ce champ est automatiquement renseigné pour les pourboires par carte de crédit. Les pourboires en espèces ne sont pas inclus.

15. **Tolls_amount** : Montant total de tous les péages payés lors du voyage.

16. **Improvement_surcharge** : Supplément d'amélioration de $0,30 facturé au départ du drapeau. Le supplément d'amélioration a commencé à être prélevé en 2015.

17. **Total_amount** : Le montant total facturé aux passagers. Ne comprend pas les pourboires en espèces.

18. **Congestion_Surcharge** : Montant total collecté lors du voyage pour la surcharge de congestion de l'État de New York.

19. **Airport_fee** : $1.25 pour les prises en charge uniquement aux aéroports de LaGuardia et John F. Kennedy.

In [14]:
df_passengers_not_missing = df_janv_2024.dropna(subset=['passenger_count', 'total_amount'])
df_passengers_not_missing.isna().sum()

VendorID                 0
tpep_pickup_datetime     0
tpep_dropoff_datetime    0
passenger_count          0
trip_distance            0
RatecodeID               0
store_and_fwd_flag       0
PULocationID             0
DOLocationID             0
payment_type             0
fare_amount              0
extra                    0
mta_tax                  0
tip_amount               0
tolls_amount             0
improvement_surcharge    0
total_amount             0
congestion_surcharge     0
Airport_fee              0
dtype: int64

In [15]:
df_passengers_not_missing.shape

(2824462, 19)

Je vais travailler uniquement avec des donnees ou le nombre de passengers ainsi que le montant total facture dans un trajet n'est pas une valeur manquante.

Je choisis de travailler avec les donnees historiques de 2016 a Fevrier 2024 (donnees les plus recentes a ce jour).

# Idees d'analyses

Avec ces données sur les trajets en taxi jaune à New York, il y a plusieurs analyses que tu peux effectuer pour en tirer des informations utiles. Voici quelques suggestions :

1. **Analyse temporelle** :
   - Analyser les tendances saisonnières, mensuelles, hebdomadaires et journalières des voyages en taxi pour identifier les moments de pointe et les creux d'activité.
   - Examiner les variations de la durée moyenne des trajets et du montant total facturé au fil du temps.
   - Identifier les jours fériés ou les événements spéciaux qui influencent le nombre de voyages en taxi.

2. **Analyse de la géographie** :
   - Cartographier les trajets en taxi pour visualiser les zones les plus fréquentées et les itinéraires populaires.
   - Examiner les différences de tarification et de durée de trajet entre les zones géographiques de la ville.

3. **Analyse des tarifs** :
   - Étudier la distribution des tarifs de taxi et des suppléments pour comprendre les variations et identifier les facteurs qui influencent les prix.
   - Analyser la corrélation entre la distance parcourue et le montant total facturé.

4. **Analyse des clients** :
   - Examiner la répartition des passagers par nombre de passagers, mode de paiement et zone géographique.
   - Identifier les habitudes de voyage des différents segments de clients.

5. **Analyse des pourboires** :
   - Étudier les montants de pourboires pour comprendre les comportements des passagers et des chauffeurs.
   - Examiner la corrélation entre le montant total facturé et le pourcentage de pourboires.

6. **Analyse des anomalies** :
   - Identifier les voyages atypiques, comme les trajets très courts ou très longs, les tarifs anormalement élevés ou bas, pour détecter d'éventuelles erreurs ou fraudes.

7. **Analyse comparative** :
   - Comparer les performances des différents fournisseurs de services de paiement et des zones géographiques pour identifier les tendances et les opportunités d'amélioration.

8. **Prévisions et modèles prédictifs** :
   - Utiliser les données historiques pour développer des modèles de prévision du nombre de trajets, des tarifs ou des pourboires.
   - Prédire la demande future de taxis en fonction de variables telles que le temps, les événements locaux ou les tendances saisonnières.

Ces analyses peuvent fournir des informations précieuses pour les opérateurs de taxis, les autorités de régulation et les chercheurs en urbanisme pour optimiser les services de transport et prendre des décisions éclairées.

# Execution des activites ETL (Extract, Tranform, Load)

1. Executer le script download_data_files.py (lq fonction est ecrite de telle sorte aue les fichiers de donnees existant deja ne seront pas retelecharges de nouveau)

