<a href="https://colab.research.google.com/github/CrissRMFI/TA047R-2C2024-GRUPO08/blob/main/TA047R_TP1_GRUPOXX_ENTREGA_EJ01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Análisis Exploratorio de Datos sobre Taxis Yellow Cab

Realizaremos un análisis exhaustivo de un conjunto de datos sobre los viajes en taxi Yellow Cab en Estados Unidos durante el año 2023, en los meses correspondientes a Octubre, Noviembre y Diciembre

In [1]:
import pyarrow.parquet as pq
trips = pq.read_table('yellow_tripdata_2023-10.parquet')
trips_oct = trips.to_pandas()
trips = pq.read_table('yellow_tripdata_2023-11.parquet')
trips_nov = trips.to_pandas()
trips = pq.read_table('yellow_tripdata_2023-12.parquet')
trips_dec = trips.to_pandas()


## Exploración Inicial:

Verificamos que los tres DataFrame tengan exactamente las mismas columnas

In [8]:
sorted(trips_nov.columns.to_list()) == sorted(trips_oct.columns.to_list()) == sorted(trips_dec.columns.to_list())

True

Realizamos una discriminación de las columnas que representen Variables de tipo categóricas, ordinales, discretas y continuas

In [9]:
trips_oct.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3522285 entries, 0 to 3522284
Data columns (total 19 columns):
 #   Column                 Dtype         
---  ------                 -----         
 0   VendorID               int32         
 1   tpep_pickup_datetime   datetime64[us]
 2   tpep_dropoff_datetime  datetime64[us]
 3   passenger_count        float64       
 4   trip_distance          float64       
 5   RatecodeID             float64       
 6   store_and_fwd_flag     object        
 7   PULocationID           int32         
 8   DOLocationID           int32         
 9   payment_type           int64         
 10  fare_amount            float64       
 11  extra                  float64       
 12  mta_tax                float64       
 13  tip_amount             float64       
 14  tolls_amount           float64       
 15  improvement_surcharge  float64       
 16  total_amount           float64       
 17  congestion_surcharge   float64       
 18  Airport_fee           

En la [documentación](https://www.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf) se describe el contenido de cada columna, por lo que solo haremos mención a las columnas que requieran un interés especial.



#VendorID
Un código que indica el proveedor de TPEP que proporcionó el registro.

La documentación indica que los posibles valores son:
  1.   Creative Mobile Technologies, LLC
  2.   VeriFone Inc

Por lo tanto, si bien se trata de una columna del tipo de dato int32, no puede ser considerada una columna con variables discretas, es mas adecuado clasificarla en variables categóricas

In [10]:
trips_oct.VendorID.value_counts()

Unnamed: 0_level_0,count
VendorID,Unnamed: 1_level_1
2,2617320
1,904463
6,502


In [13]:
trips_nov.VendorID.value_counts()

Unnamed: 0_level_0,count
VendorID,Unnamed: 1_level_1
2,2487817
1,851444
6,454


In [14]:
trips_dec.VendorID.value_counts()

Unnamed: 0_level_0,count
VendorID,Unnamed: 1_level_1
2,2530460
1,845688
6,419


Observamos que para los tres DataFrames presentan un valor no indicado en la [documentación](https://www.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf) para "VendorID == 6".

Es un dato no indicado, no está en el estándar, pero por el momento aunque sea  insignificante cantidad de datos (comparado con los valores 1 y 2) no descartaremos esa información, veremos más adelante.





#Passenger_count

Se indica que el tipo de dato es float64, lo cual puede interpretarse como una variable continua. Sin embargo, esto es incorrecto, ya que no tendría sentido tener un número de pasajeros en el taxi igual a 2.32. Esta variable debe ser numérica, es decir, int32, estamos hablando de un conjunto numerable.

In [41]:
trips_oct["passenger_count"].value_counts()

Unnamed: 0_level_0,count
passenger_count,Unnamed: 1_level_1
1.0,2557196
2.0,507321
3.0,117675
4.0,66473
0.0,46634
5.0,44449
6.0,27588
8.0,10
7.0,9
9.0,1


In [48]:
trips_oct["passenger_count"].isna().value_counts()

Unnamed: 0_level_0,count
passenger_count,Unnamed: 1_level_1
False,3367356
True,154929


In [42]:
trips_nov["passenger_count"].value_counts()

Unnamed: 0_level_0,count
passenger_count,Unnamed: 1_level_1
1.0,2438039
2.0,484579
3.0,113651
4.0,64725
0.0,41443
5.0,39579
6.0,24969
8.0,42
7.0,9
9.0,4


In [43]:
trips_dec["passenger_count"].value_counts()

Unnamed: 0_level_0,count
passenger_count,Unnamed: 1_level_1
1.0,2346555
2.0,513262
3.0,137098
4.0,93498
0.0,42450
5.0,39430
6.0,24196
8.0,53
7.0,17
9.0,5
