## 🛠️ **ETL (Extract, Transform, Load)**



#### **📂Procesamiento del 1er archivo: `Google Maps/metadata-sitios/review-hawaii-`**

####  **Importamos las librerías que vamos a usar**


In [1]:
import pandas as pd
import os
import gc
import data_utils   
from data_utils import data_type_check


# Reviews Hawaii

#### 📦 **Extraccion** de los datos y primera exploración 
 

🌟 Primero, vamos a convertir los datos de las reseñas de Google Maps del estado de Hawaii, distribuidos en 11 archivos JSON

In [2]:
# Se especifica la ruta que contiene la carpeta con los archivos:
carpeta = "../0 Dataset/review-Hawaii"

# Se crea lista vacía donde se almacenarán los dataframes de cada archivo:
reviews = []

# Se recorre por todos los archivos en la carpeta:
for filename in os.listdir(carpeta):
    if filename.endswith('.json'):
        # Se carga el archivo JSON en un DataFrame de Pandas:
        filepath = os.path.join(carpeta, filename)
        df = pd.read_json(filepath, lines = True)
        
        # Se agrega el DataFrame a la lista:
        reviews.append(df)

# Se combinan todos los DataFrames en uno solo usando pd.concat:
df_rev_hawai = pd.concat(reviews, ignore_index=True)

# Se chequean los primeros 5 valores:
df_rev_hawai.head()

Unnamed: 0,user_id,name,time,rating,text,pics,resp,gmap_id
0,1.139654e+20,manuel grimaldo,1591839903487,5,Great new upgrade,,,0x7c00159b5b1b1d25:0x8d2d85d4a758290e
1,1.166558e+20,Enrique Lara,1568059018979,5,,,,0x7c00159b5b1b1d25:0x8d2d85d4a758290e
2,1.008341e+20,Gregory Donaldson,1594885588335,5,,,,0x7c00159b5b1b1d25:0x8d2d85d4a758290e
3,1.032072e+20,Brian Baker,1575951131613,5,,,,0x7c00159b5b1b1d25:0x8d2d85d4a758290e
4,1.085262e+20,Kam J,1573076723916,3,,,,0x7c00159b5b1b1d25:0x8d2d85d4a758290e


#### Usando la funcion personalizada `data_type_check` invocada desde `data_utils.py` podemos observar:
- Variables categóricas
- Variables numéricas
- Dimensiones del dataframe
- Nulos
- Tipos de datos
- Informacion acerca de los datos faltantes o nulos de cada columna    


In [3]:
data_type_check(df_rev_hawai)


 Resumen del dataframe:

Dimensiones:  (1504347, 8)
   columna  %_no_nulos  %_nulos  total_nulos tipo_dato
0  user_id      100.00     0.00            0   float64
1     name      100.00     0.00            0    object
2     time      100.00     0.00            0     int64
3   rating      100.00     0.00            0     int64
4     text       56.68    43.32       651751    object
5     pics        8.82    91.18      1371645    object
6     resp        7.23    92.77      1395548    object
7  gmap_id      100.00     0.00            0    object


#### **📤 LOAD**

In [5]:
# Se exporta el archivo en formato parquet:
df_rev_hawai.to_parquet("../0 Dataset/reviews_california.parquet", engine="pyarrow")