### Data join

- Programa que lee todos los parquets resultantes del postprocesado, guardados en la carpeta /data, y los agrupa en un solo dataframe para poder trabajar con él.

In [1]:
import os
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

# Obtén la ruta de la carpeta "data"
ruta_actual = os.getcwd()
ruta_data = os.path.join(ruta_actual, "data")

# Obtén la lista de archivos Parquet en la carpeta "data"
archivos_parquet = [archivo for archivo in os.listdir(ruta_data) if archivo.endswith('.parquet')]

# Crear una lista para almacenar los DataFrames de cada archivo Parquet
dataframes = []

# Itera sobre los archivos Parquet
for archivo_parquet in archivos_parquet:
    ruta_parquet = os.path.join(ruta_data, archivo_parquet)
    
    # Lee el archivo Parquet con pyarrow
    tabla = pq.read_table(ruta_parquet)
    
    # Convierte la tabla en un DataFrame de pandas
    dataframe = tabla.to_pandas()
    
    # Agrega el DataFrame a la lista
    dataframes.append(dataframe)

# Combina todos los DataFrames en uno solo
dataframe_completo = pd.concat(dataframes, ignore_index=True)


# Guarda el DataFrame resultante en la misma carpeta "data"
ruta_resultante = os.path.join(ruta_data, "data.parquet")
tabla_resultante = pa.Table.from_pandas(dataframe_completo)
pq.write_table(tabla_resultante, ruta_resultante)

In [2]:
dataframe_completo

Unnamed: 0,index,station_id,houryear,num_bikes_available,num_bikes_available_types.mechanical,num_bikes_available_types.ebike,num_docks_available,is_installed,is_renting,is_returning,...,dayofweek,time2,Rain,Rain_Lectura,year,dayyear,Wind,Wind_Lectura,AñoMes,traffic
0,0,1,2081,16.000000,16.000000,0.0,14.0,1.0,1.0,1.0,...,3,2019-03-28,0,0.0,2019,87,0,6.6,201903,
1,4665,70,2081,21.000000,21.000000,0.0,5.0,1.0,1.0,1.0,...,3,2019-03-28,0,0.0,2019,87,0,6.6,201903,
2,29692,425,2081,27.000000,27.000000,0.0,0.0,1.0,1.0,1.0,...,3,2019-03-28,0,0.0,2019,87,0,6.6,201903,
3,4741,71,2081,18.000000,18.000000,0.0,3.0,1.0,1.0,1.0,...,3,2019-03-28,0,0.0,2019,87,0,6.6,201903,
4,22422,316,2081,25.000000,25.000000,0.0,1.0,1.0,1.0,1.0,...,3,2019-03-28,0,0.0,2019,87,0,6.6,201903,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
30012561,288553,398,8759,3.000000,3.000000,0.0,32.0,1.0,1.0,1.0,...,5,2022-12-31,0,0.0,2022,365,0,8.6,202212,
30012562,144282,204,8759,14.000000,12.000000,2.0,18.0,1.0,1.0,1.0,...,5,2022-12-31,0,0.0,2022,365,0,8.6,202212,
30012563,2975,4,8759,19.000000,19.000000,0.0,2.0,1.0,1.0,1.0,...,5,2022-12-31,0,0.0,2022,365,0,8.6,202212,
30012564,129428,183,8759,21.666667,14.666667,7.0,9.0,1.0,1.0,1.0,...,5,2022-12-31,0,0.0,2022,365,0,8.6,202212,
