## Importación de Librerías

In [1]:
from google.colab import drive
import json
import polars as pl
import os

## Montar Google Drive

In [2]:
drive.mount('/content/drive')


Mounted at /content/drive


## Función para leer archivos JSOM

In [3]:
def leer_json(n, ubicacion):
    data_list = []

    with open(f'/content/drive/MyDrive/reviews/{ubicacion}/{n}.json', 'r') as file:
        for line in file:
            # Cargar cada objeto JSON por separado
            data = json.loads(line)
            data_list.append(data)

    # Ahora data_list es una lista que contiene todos los objetos JSON del archivo
    df = pl.DataFrame(data_list, infer_schema_length=len(data_list))
    return df



## Función para eliminar columnas innecesarias

In [4]:
def eliminar_columnas(df):
    columns_to_remove = ['name', 'pics', 'resp']
    return df.drop(columns_to_remove)


## Definir una lista de ubicaciones y nombres de carpetas

In [5]:
ubicaciones = ['review-Florida', 'review-New_York']
carpetas = {'review-Florida': 19, 'review-New_York': 18}


## Bucle para ejecucion de funciones y guardar archivos limpios

In [6]:
for ubicacion in ubicaciones:
    # Crear una carpeta para los archivos Parquet si no existe
    if not os.path.exists(f'/content/drive/MyDrive/reviews/{ubicacion}_parquet'):
        os.makedirs(f'/content/drive/MyDrive/reviews/{ubicacion}_parquet')

    # Recorrer todos los archivos en la carpeta actual
    for i in range(1, carpetas[ubicacion] + 1):

        # Leer el archivo JSON
        df = leer_json(str(i), ubicacion)

        # Elimino columnas innecesarias
        df = eliminar_columnas(df)

        # Guardar los datos en formato Parquet
        df.write_parquet(f'/content/drive/MyDrive/reviews/{ubicacion}_parquet/{i}.parquet')


In [7]:
df.head()

user_id,time,rating,text,gmap_id
str,i64,i64,str,str
"""10667018490555…",1618704999688,5,"""Loved it food …","""0x89c3290c158f…"
"""11750689641685…",1604187022627,5,"""Amazing, food …","""0x89c3290c158f…"
"""10432332451618…",1615602714275,5,"""Excellent serv…","""0x89c3290c158f…"
"""10378124184273…",1593438633862,5,"""Excellent food…","""0x89c3290c158f…"
"""10876037678631…",1614478143861,5,"""Great food and…","""0x89c3290c158f…"
