## 🛠️ **ETL (Extract, Transform, Load)**



#### **📂Procesamiento del 1er archivo: `Google Maps/metadata-sitios/review-hawaii-`**

####  **Importamos las librerías que vamos a usar**


In [1]:
import pandas as pd
import os
import gc
import data_utils   
from data_utils import data_type_check


# Reviews Hawaii

#### 📦 **Extraccion** de los datos y primera exploración 
 

🌟 Primero, vamos a convertir los datos de las reseñas de Google Maps del estado de Hawaii, distribuidos en 11 archivos JSON

In [2]:
# Se especifica la ruta que contiene la carpeta con los archivos:
carpeta = "../0_Dataset/review-Hawaii"

# Se crea lista vacía donde se almacenarán los dataframes de cada archivo:
reviews = []

# Se recorre por todos los archivos en la carpeta:
for filename in os.listdir(carpeta):
    if filename.endswith('.json'):
        # Se carga el archivo JSON en un DataFrame de Pandas:
        filepath = os.path.join(carpeta, filename)
        df = pd.read_json(filepath, lines = True)
        
        # Se agrega el DataFrame a la lista:
        reviews.append(df)

# Se combinan todos los DataFrames en uno solo usando pd.concat:
df_rev_hawai = pd.concat(reviews, ignore_index=True)

# Se chequean 2 valores:
df_rev_hawai.sample(2)

Unnamed: 0,user_id,name,time,rating,text,pics,resp,gmap_id
402458,1.061036e+20,Steve Leith,1618783273967,5,,,,0x7c006e6de49e8a1f:0xa44b7af81f555ead
1259332,1.035604e+20,Nathan Gold,1453692250037,5,,,,0x7c0058d3c82ca71d:0xcc193f36c9ed743d


#### Usando la funcion personalizada `data_type_check` invocada desde `data_utils.py` podemos observar:
- Variables categóricas
- Variables numéricas
- Dimensiones del dataframe
- Nulos
- Tipos de datos
- Informacion acerca de los datos faltantes o nulos de cada columna    


In [3]:
data_type_check(df_rev_hawai)


 Resumen del dataframe:

Dimensiones:  (1504347, 8)
   columna  %_no_nulos  %_nulos  total_nulos tipo_dato
0  user_id      100.00     0.00            0   float64
1     name      100.00     0.00            0    object
2     time      100.00     0.00            0     int64
3   rating      100.00     0.00            0     int64
4     text       56.68    43.32       651751    object
5     pics        8.82    91.18      1371645    object
6     resp        7.23    92.77      1395548    object
7  gmap_id      100.00     0.00            0    object


#### **📤 LOAD**

In [4]:
# Divido el parquet en 2 muestras 
df_rev_hawai_muestra = df_rev_hawai[:int(len(df_rev_hawai)/2)]

In [5]:
# Se exporta el archivo en formato parquet:
df_rev_hawai_muestra.to_parquet("../0_Dataset/Google_reviews_california_muestra.parquet", engine="pyarrow")

In [6]:
# Se buscan los valores únicos en gmap_id:
df_rev_hawai_muestra = df_rev_hawai_muestra.dropna(subset="gmap_id")
id_unicos = df_rev_hawai_muestra["gmap_id"].unique()
id_unicos

array(['0x7c00159b5b1b1d25:0x8d2d85d4a758290e',
       '0x7c006de89f2d86e1:0x23d998532e9317a6',
       '0x7c0065ffde090f89:0x910053daf03f6f3f', ...,
       '0x7c006df045a36271:0x2e82a95b7fa088b4',
       '0x7c001226c044ba33:0xec80ba7ae569fed',
       '0x7c006d9f6a3fffff:0x93e62ce20799a22d'], dtype=object)

# Metadata-sitios

🌟 La "metadata" incluye la información de diversos establecimientos en Google Maps.

📂 Esta información está dividida en 11 archivos JSON, organizados en 3 carpetas para facilitar el procesamiento y almacenamiento.

In [7]:
# Se especifica la ruta que contiene la carpeta con los archivos:
carpeta = "../0_Dataset/metadata-sitios"

# Se crea lista vacía donde se almacenarán los dataframes de cada archivo:
metadata = []

# Se recorre por todos los archivos en la carpeta:
for filename in os.listdir(carpeta):
    if filename.endswith('.json'):
        # Se carga el archivo JSON en un DataFrame de Pandas:
        filepath = os.path.join(carpeta, filename)
        df1 = pd.read_json(filepath, lines = True)
        
        # Se agrega el DataFrame a la lista:
        metadata.append(df1)

# Se combinan todos los DataFrames en uno solo usando pd.concat:
df_md_hawaii = pd.concat(metadata, ignore_index=True)

# Se chequean 2 valores:
df_md_hawaii.sample(2)

#### Usando la funcion personalizada `data_type_check` invocada desde `data_utils.py` podemos observar:
- Variables categóricas
- Variables numéricas
- Dimensiones del dataframe
- Nulos
- Tipos de datos
- Informacion acerca de los datos faltantes o nulos de cada columna    


In [None]:
data_type_check(df_md_hawaii)


 Resumen del dataframe:

Dimensiones:  (2475009, 15)
             columna  %_no_nulos  %_nulos  total_nulos tipo_dato
0               name      100.00     0.00           33    object
1            address       97.19     2.81        69648    object
2            gmap_id      100.00     0.00            0    object
3        description        7.53    92.47      2288605    object
4           latitude      100.00     0.00            0   float64
5          longitude      100.00     0.00            0   float64
6           category       99.39     0.61        15163    object
7         avg_rating      100.00     0.00            0   float64
8     num_of_reviews      100.00     0.00            0     int64
9              price        8.12    91.88      2273984    object
10             hours       73.19    26.81       663517    object
11              MISC       76.15    23.85       590243    object
12             state       74.56    25.44       629696    object
13  relative_results       89.88    

#### **🔄 TRANSFORM**

- Limpieza pendiente, es posible que lo hagamos en la nube y ya.
- Falta duplicados
- 

#### **📤 LOAD**

In [None]:
# Divido el parquet en 2 muestras para poder subirlo a github y mostralo al equipo
df_md_hawaii_muestra = df_md_hawaii[:int(len(df_md_hawaii)/10)]

In [None]:
# Se exporta el archivo en formato parquet:
df_md_hawaii_muestra.to_parquet("../0_Dataset/Google_metadata_california_muestra.parquet", engine="pyarrow")

gc.collect()

 Posibles soluciones: Exportar multiples parquet de metadata