![EDA](../5_Sources/Images/banner_eda.gif)

<p align="center">

## **Normalización de Datos - EDA**

</p>

Se evidencia que en varias columnas su contenido está estructurado como diccionario y como formato JSON, la prioridad es analizar estas columnas si son datos relevantes y si es posible desanidarlas en el mismo dataset sin repetir datos se realiza.

<mark>Parte de este script será reutilizado para agregar a la automatización</mark>

**`Importante:`** Para que este **EDA** se pueda realizar es necesario tener en cuenta la data analizada de `EDA_hotelbeads.ipynb` a su vez el diccionario de datos realizado en [Excel aquí](https://docs.google.com/spreadsheets/d/1Cb9qUBbyXu-8US3OhfAiyZLHjSJrZstZ/edit?usp=sharing&ouid=105689737903283188966&rtpof=true&sd=true).

In [15]:
# Usaremos librería Pandas y Json para permitir la lectura de los archivos
import pandas as pd
import json

In [16]:
# Ruta base donde se encuentran los archivos JSON
path_base = "../2_Datasets/original/hotelbeds/"

### Realizamos lectura del dataset

In [4]:
# Guardamos el dataset en csv para la fácil lectura.
# df_hotels_c = pd.read_csv(path_base + "hotels_details_dataset.csv")

### Al Menjar Grandes cantidades de Datos el PC local comienza a limitarse en memoria RAM y en Procesador por lo cual realizamos la toma de una muestra de uno de los lotes de datasets (1 archivo JSON) y procesamos el script pertinente y luego lo corremos en la concatenación de la data, esto reduce los recursos.

In [17]:
with open(path_base + "hotels_us_details_api_1.json", "r") as archivo:
    data_json = json.load(archivo)

# Accede a la parte de "hotels" si existe en el JSON
if "hotels" in data_json:
    hotels_data = data_json["hotels"]
    # Ahora hotels_data contiene la parte correspondiente a "hotels"
else:
    print("La clave 'hotels' no existe en el JSON.")

df_hotels_d = pd.DataFrame(hotels_data)

In [18]:
# Revisamos su estructura, tipos de datos
df_hotels_d.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 31 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   code               200 non-null    int64 
 1   name               200 non-null    object
 2   description        200 non-null    object
 3   country            200 non-null    object
 4   state              200 non-null    object
 5   destination        200 non-null    object
 6   zone               200 non-null    object
 7   coordinates        200 non-null    object
 8   category           200 non-null    object
 9   categoryGroup      200 non-null    object
 10  chain              162 non-null    object
 11  accommodationType  200 non-null    object
 12  boards             197 non-null    object
 13  segments           193 non-null    object
 14  address            200 non-null    object
 15  postalCode         200 non-null    object
 16  city               200 non-null    object
 1

In [19]:
df_hotels_d.head()

Unnamed: 0,code,name,description,country,state,destination,zone,coordinates,category,categoryGroup,...,interestPoints,images,wildcards,web,lastUpdate,S2C,ranking,terminals,issues,license
0,6474,{'content': 'Hilton Chicago'},{'content': 'Our Hotel's Policies Have Changed...,"{'code': 'US', 'isoCode': 'US', 'description':...","{'code': 'IL', 'name': 'ILLINOIS'}","{'code': 'ORD', 'name': {'content': 'Chicago -...","{'zoneCode': 2, 'name': 'Downtown', 'descripti...","{'longitude': -87.6244, 'latitude': 41.8725}","{'code': '4EST', 'description': {'content': '4...","{'code': 'GRUPO4', 'description': {'content': ...",...,"[{'facilityCode': 10, 'facilityGroupCode': 100...","[{'type': {'code': 'HAB', 'description': {'con...","[{'roomType': 'ROO.LK', 'roomCode': 'ROO', 'ch...",www3.hilton.com/en/hotels/illinois/hilton-chic...,2023-07-28,3*,47,,,
1,6478,{'content': 'Four Points by Sheraton Los Angel...,{'content': 'This charming hotel is just a mil...,"{'code': 'US', 'isoCode': 'US', 'description':...","{'code': 'CA', 'name': 'CALIFORNIA'}","{'code': 'LAX', 'name': {'content': 'Los Angel...","{'zoneCode': 9, 'name': 'Los Angeles Internati...","{'longitude': -118.3859708, 'latitude': 33.948...","{'code': '3EST', 'description': {'content': '3...","{'code': 'GRUPO3', 'description': {'content': ...",...,,"[{'type': {'code': 'RES', 'description': {'con...",,http://www.fourpointslax.com/la-airport-hotel,2023-07-28,3*,82,,,
2,6480,{'content': 'Sheraton Universal Hotel'},"{'content': 'This upscale, landmark hotel enjo...","{'code': 'US', 'isoCode': 'US', 'description':...","{'code': 'CA', 'name': 'CALIFORNIA'}","{'code': 'LAX', 'name': {'content': 'Los Angel...","{'zoneCode': 21, 'name': 'Universal Studios / ...","{'longitude': -118.35955291287974, 'latitude':...","{'code': '3EST', 'description': {'content': '3...","{'code': 'GRUPO3', 'description': {'content': ...",...,,"[{'type': {'code': 'GEN', 'description': {'con...",,,2023-07-28,4*,119,,,
3,6483,{'content': 'Westin Copley Place'},{'content': 'Experience one of Boston's most c...,"{'code': 'US', 'isoCode': 'US', 'description':...","{'code': 'MA', 'name': 'MASSACHUSETTS'}","{'code': 'BOS', 'name': {'content': 'Boston - ...","{'zoneCode': 2, 'name': 'Back Bay', 'descripti...","{'longitude': -71.077539, 'latitude': 42.348577}","{'code': 'H4_5', 'description': {'content': '4...","{'code': 'GRUPO4', 'description': {'content': ...",...,,"[{'type': {'code': 'GEN', 'description': {'con...","[{'roomType': 'DBL.ST', 'roomCode': 'DBL', 'ch...",http://www.westincopleyplaceboston.com/,2023-07-28,3*,62,,,
4,6487,{'content': 'Wyndham Garden New Orleans Airport'},{'content': 'Wyndham Garden New Orleans Airpor...,"{'code': 'US', 'isoCode': 'US', 'description':...","{'code': 'LA', 'name': 'LOUISIANA'}","{'code': 'MSY', 'name': {'content': 'New Orlea...","{'zoneCode': 8, 'name': 'Metairie', 'descripti...","{'longitude': -90.1227, 'latitude': 30}","{'code': '3EST', 'description': {'content': '3...","{'code': 'GRUPO3', 'description': {'content': ...",...,,"[{'type': {'code': 'RES', 'description': {'con...","[{'roomType': 'DBL.KG', 'roomCode': 'DBL', 'ch...",www.wyndhamhotels.com,2023-07-28,,55,,,


Preparamos un script para poder determinar que columnas están anidadas en forma de diccionarios, listas o formatos JSON

In [20]:
# Define una función para determinar el tipo de contenido anidado
def determine_nested_type(cell):
    if isinstance(cell, list) and all(isinstance(item, dict) for item in cell):
        return 'Lista de diccionarios'
    elif isinstance(cell, dict):
        return 'Diccionario'
    elif isinstance(cell, list):
        return 'Lista'
    
    return 'Desconocido'

# Crea un diccionario para almacenar los resultados por columna
results = {}

# Itera a través de las columnas del DataFrame original
for column in df_hotels_d.columns:
    # Inicializa un conjunto para esta columna (conjunto para eliminar duplicados)
    nesteds_type = set()
    
    # Itera a través de las celdas de la columna
    for cell in df_hotels_d[column]:
        # Determina el tipo de contenido anidado
        nested_type = determine_nested_type(cell)
        
        # Si el tipo no es "Desconocido", agrega al conjunto
        if nested_type != 'Desconocido':
            nesteds_type.add(nested_type)
    
    # Almacena el resultado para esta columna en el diccionario de resultados
    results[column] = ', '.join(nesteds_type) if nesteds_type else 'Ninguno'

# Crea un DataFrame a partir del diccionario de resultados
resume_df = pd.DataFrame(list(results.items()), columns=['Columnas', 'Tipos de Contenido Anidado'])

# Muestra el DataFrame resumen
print(resume_df)

             Columnas Tipos de Contenido Anidado
0                code                    Ninguno
1                name                Diccionario
2         description                Diccionario
3             country                Diccionario
4               state                Diccionario
5         destination                Diccionario
6                zone                Diccionario
7         coordinates                Diccionario
8            category                Diccionario
9       categoryGroup                Diccionario
10              chain                Diccionario
11  accommodationType                Diccionario
12             boards      Lista de diccionarios
13           segments      Lista de diccionarios
14            address                Diccionario
15         postalCode                    Ninguno
16               city                Diccionario
17              email                    Ninguno
18             phones      Lista de diccionarios
19              room

Requerimos la columna **code** que es la que nos identifica en la otra tabla

La **Lista de Diccionarios** hace un llamado a los detalles de los servicios que tiene el Hotel, estos se pueden manejar en su mayoría como una tabla relacionada, para este es necesario un proceso de ETL y normalizado de tablas.

En su mayoría los datos anidados como **Ninguno** son varibles del hotel los cuales ya contiene el otro dataset

Podemos observar que las columnas que son en forma de **Diccionarios** como: `name`, `description`, `coordinates`, `address`, `city` estas columnas ya se desanidaron en el otro dataset, las restantes son importantes detalles del hotel.

Eliminamos algunas columnas que ya se encuentran en el dataset de `hotels_dataset.csv`, es el caso de `name, description, coordinates, address, city, email, phones, license, web, S2C, ranking, postalCode, coordinates` en otros casos como el de `license` por tener el 99% de campos vacíos se procede a eliminar la columna ya verificando que los datos no son relevantes.

In [21]:
# Eliminar columnas con datos null: 'name', 'description', 'coordinates', 'address', 'city', 'email', 'phones', 'license', 'web', 'S2C', 'ranking', 'postalCode'
df_hotels_d = df_hotels_d.drop(columns=['name', 'description', 'coordinates', 'address', 'city', 'email', 'phones', 'license', 'web', 'S2C', 'ranking', 'postalCode'])

In [22]:
df_hotels_d.head()

Unnamed: 0,code,country,state,destination,zone,category,categoryGroup,chain,accommodationType,boards,segments,rooms,facilities,interestPoints,images,wildcards,lastUpdate,terminals,issues
0,6474,"{'code': 'US', 'isoCode': 'US', 'description':...","{'code': 'IL', 'name': 'ILLINOIS'}","{'code': 'ORD', 'name': {'content': 'Chicago -...","{'zoneCode': 2, 'name': 'Downtown', 'descripti...","{'code': '4EST', 'description': {'content': '4...","{'code': 'GRUPO4', 'description': {'content': ...","{'code': 'HILTO', 'description': {'content': '...","{'code': 'H', 'typeMultiDescription': {'conten...","[{'code': 'BB', 'description': {'content': 'BE...","[{'code': 34, 'description': {'content': 'Busi...","[{'roomCode': 'ROO.RO-1', 'isParentRoom': True...","[{'facilityCode': 30, 'facilityGroupCode': 10,...","[{'facilityCode': 10, 'facilityGroupCode': 100...","[{'type': {'code': 'HAB', 'description': {'con...","[{'roomType': 'ROO.LK', 'roomCode': 'ROO', 'ch...",2023-07-28,,
1,6478,"{'code': 'US', 'isoCode': 'US', 'description':...","{'code': 'CA', 'name': 'CALIFORNIA'}","{'code': 'LAX', 'name': {'content': 'Los Angel...","{'zoneCode': 9, 'name': 'Los Angeles Internati...","{'code': '3EST', 'description': {'content': '3...","{'code': 'GRUPO3', 'description': {'content': ...","{'code': 'MARIO', 'description': {'content': '...","{'code': 'H', 'typeMultiDescription': {'conten...","[{'code': 'BB', 'description': {'content': 'BE...","[{'code': 34, 'description': {'content': 'Busi...","[{'roomCode': 'DBL.2Q-NM', 'isParentRoom': Fal...","[{'facilityCode': 30, 'facilityGroupCode': 10,...",,"[{'type': {'code': 'RES', 'description': {'con...",,2023-07-28,,
2,6480,"{'code': 'US', 'isoCode': 'US', 'description':...","{'code': 'CA', 'name': 'CALIFORNIA'}","{'code': 'LAX', 'name': {'content': 'Los Angel...","{'zoneCode': 21, 'name': 'Universal Studios / ...","{'code': '3EST', 'description': {'content': '3...","{'code': 'GRUPO3', 'description': {'content': ...","{'code': 'MARIO', 'description': {'content': '...","{'code': 'H', 'typeMultiDescription': {'conten...","[{'code': 'BB', 'description': {'content': 'BE...","[{'code': 34, 'description': {'content': 'Busi...","[{'roomCode': 'DBL.ST-4', 'isParentRoom': Fals...","[{'facilityCode': 30, 'facilityGroupCode': 10,...",,"[{'type': {'code': 'GEN', 'description': {'con...",,2023-07-28,,
3,6483,"{'code': 'US', 'isoCode': 'US', 'description':...","{'code': 'MA', 'name': 'MASSACHUSETTS'}","{'code': 'BOS', 'name': {'content': 'Boston - ...","{'zoneCode': 2, 'name': 'Back Bay', 'descripti...","{'code': 'H4_5', 'description': {'content': '4...","{'code': 'GRUPO4', 'description': {'content': ...","{'code': 'MARIO', 'description': {'content': '...","{'code': 'H', 'typeMultiDescription': {'conten...","[{'code': 'BB', 'description': {'content': 'BE...","[{'code': 34, 'description': {'content': 'Busi...","[{'roomCode': 'ROO.RV', 'isParentRoom': False,...","[{'facilityCode': 30, 'facilityGroupCode': 10,...",,"[{'type': {'code': 'GEN', 'description': {'con...","[{'roomType': 'DBL.ST', 'roomCode': 'DBL', 'ch...",2023-07-28,,
4,6487,"{'code': 'US', 'isoCode': 'US', 'description':...","{'code': 'LA', 'name': 'LOUISIANA'}","{'code': 'MSY', 'name': {'content': 'New Orlea...","{'zoneCode': 8, 'name': 'Metairie', 'descripti...","{'code': '3EST', 'description': {'content': '3...","{'code': 'GRUPO3', 'description': {'content': ...","{'code': 'WYNDH', 'description': {'content': '...","{'code': 'H', 'typeMultiDescription': {'conten...","[{'code': 'BB', 'description': {'content': 'BE...","[{'code': 34, 'description': {'content': 'Busi...","[{'roomCode': 'TWN.2D', 'isParentRoom': False,...","[{'facilityCode': 30, 'facilityGroupCode': 10,...",,"[{'type': {'code': 'RES', 'description': {'con...","[{'roomType': 'DBL.KG', 'roomCode': 'DBL', 'ch...",2023-07-28,,
