![ETL](<../5_Sources/Images/banner_etl.gif>)

<p align="center">

## **Unificación de Datasets extraidos**

</p>

A través de la API se realiza extracción de multiples datasets en `JSON` por restricciones de la plataforma **HOTELBEDS** la cual permite en el caso de datos de HOTELES extraer por País y por lotes de 1000, su funcionalidad se limita a 50 extracciones cada 24H lo que nos indica que si tenemos aproximadamente **40Mil** Hoteles lo podemos hacer con una cuenta de API limitado a 40 lotes (40 extracciones) de archivos `JSON` para luego proceder a unificar y enviar directamente a realizarle `EDA`.

<mark>Parte de este script será reutilizado para agregar a la automatización</mark>

In [1]:
# Usaremos librería Pandas y Json para permitir la lectura de los archivos
import pandas as pd
import json

### Alistamos variables antes de realizar la iteración con `for`

In [2]:
# Inicializa un DataFrame vacío
df_hotels = pd.DataFrame()
# Número total de conjuntos de datos que deseas leer
num_datasets = 40
# Ruta base donde se encuentran los archivos JSON
path_base = "../2_Datasets/original/hotelbeds/"

### Creamos la iteración con `for` concatenando al mismo tiempo los datasets en JSON ya que tienen la misma estructura

In [3]:
# Itera sobre los nombres de los archivos y los concatena en el DataFrame total
for i in range(1, num_datasets + 1):
    file_json = f"hotels_us_total_api_{i}.json"
    path_file = path_base + file_json
    
    # Lee el archivo JSON y conviértelo en un DataFrame
    df = pd.read_json(path_file)
    
    # Concatena el DataFrame actual al DataFrame total
    df_hotels = pd.concat([df_hotels, df], ignore_index=True)

**`Importante`**: para la automatización y la extracción posterior debemos tener en cuenta la columna **`"code"`** con esta vamos a excluir en extracciones futuras datos repetidos, también nos ayuda a extraer los detalles de cada hotel y su disponibilidad de habitaciones en tiempo real.

In [5]:
# Guardamos un archivo csv su funcionalidad no va a ser a modo de dataset sino una forma de excluir data repetitiva en procesos automáticos
df_hotels['code'].to_csv(path_base + "hotels_code.csv")

### Guardamos la unificación del dataset para el proceso de EDA

In [6]:
# Guardamos el dataset en csv para la fácil lectura.
df_hotels.to_csv(path_base + "hotels_dataset.csv")