En este notebook, se transforman los archivos de Yelp y Google a formato parquet.


Se asume la siguente estructura de directorios para el dataset:
```
├── data
│   ├── Google
│   │   ├── metadata-sitios
│   │   └── reviews-estados
│   └── Yelp
└── ...
```

In [2]:
import os
from glob import glob
import json
import dask.dataframe as dd
import pandas as pd
import pyarrow as pa
from pyarrow import parquet as pq

In [None]:
# Opción que deshabilita el limite de columnas mostradas
pd.set_option('display.max_columns', None)

---
## Dataset Yelp

### `business.pkl`

In [None]:
business_path = '../data/Yelp/business.pkl'
# Leer pkl (pickle)
df = pd.read_pickle(business_path)
df.sample(2)

* Se observan columnas con nombres duplicados. Hay que unir estas columns.

In [None]:
# Calcular la cantida de columns dividida por 2
punto_medio = len(df.columns) // 2
# Dividir el dataframe por mitad, a largo de las columns,
# utilizando el punto_medio calculado
df_1er_mitad = df.iloc[:, :punto_medio]
df_2nd_mitad = df.iloc[:, punto_medio:]
# Unir los dataframes resultantes
df_reorganizado = pd.concat([df_1er_mitad, df_2nd_mitad], axis=0)
df_reorganizado.sample(2)

In [None]:
# Eliminar filas con todo nulos
df_reorganizado.dropna(axis=0, how='all', inplace=True)

In [None]:
# Almacenar en formato parquet, en el mismo directorio de 'business_path'
df_reorganizado.to_parquet(business_path.replace('.pkl', '.parquet'))  # se cambia sufijo '.pkl' a '.parquet'

### `checkin.json`

In [None]:
checkin_path = '../data/Yelp/checkin.json'
# Leer JSON
df = pd.read_json(checkin_path, lines=True)
# Almacenar en formato parquet, en el mismo directorio
df.to_parquet(checkin_path.replace('.json', '.parquet'))  # se cambia sufijo '.json' a '.parquet'

### `review.json`

In [None]:
review_path = '../data/Yelp/review.json'
# Crear el dir del almacen para parquets, si no existe
os.makedirs('../data/Yelp/review/', exist_ok=True)

In [None]:
def convertir_json_a_parquets(json_path, output_dir, batch_size=2_350_000):
    # Abrir el archivo JSON
    with open(json_path, 'r') as json_file:
        # Inicializar una lista vacía para contener los objetos JSON
        objects = []
        contador = 0
        
        # Leer el archivo línea por línea
        for line in json_file:
            # Analizar cada línea como un objeto JSON
            obj = json.loads(line)

            # Agregar el objeto a la lista
            objects.append(obj)

            # Si la lista ha alcanzado el tamaño del batch_size, escribirlo en un archivo Parquet
            if len(objects) == batch_size:
                df = pd.DataFrame(objects)
                contador += 1
                pq.write_table(pa.Table.from_pandas(df), os.path.join(output_dir, f'review_{str(contador).zfill(2)}.parquet'))
                objects = []

        # Escribir cualquier objeto restante en un archivo Parquet
        if objects:
            df = pd.DataFrame(objects)
            contador += 1
            pq.write_table(pa.Table.from_pandas(df), os.path.join(output_dir, f'review_{str(contador).zfill(2)}.parquet'))


In [None]:
# Convertir 'review.json' a archivos parquet
convertir_json_a_parquets(review_path, '../data/Yelp/review/')

### `tip.json`

In [None]:
tip_path = '../data/Yelp/tip.json'
# Leer JSON
df = pd.read_json(tip_path, lines=True)
# Almacenar en formato parquet, en el mismo directorio
df.to_parquet(tip_path.replace('.json', '.parquet'))  # se cambia sufijo '.json' a '.parquet'Merge de parquets

### `user.parquet`

Esta en formato parquet, pero es de aprox. 2.7GB. Hay que dividirlo en fragmentos manejables (850MB).

In [None]:
user_path = '../data/Yelp/user.parquet'
# Crear el dir del almacen para parquets, si no existe
user_dir = '../data/Yelp/user/'
os.makedirs(user_dir, exist_ok=True)

In [None]:
# Leer 'user.parquet' 
df = dd.read_parquet(user_path)
# Reparticionar la data a archivos de 850MB
df = df.repartition(partition_size='850MB')
# Almacenar en 'user_dir'
df.to_parquet(user_dir)

---
## Dataset Google

### `metadata-sitios/`

In [2]:
# Crear lista de JSON en /metadata-sitios/
google_dir = '../data/Google'
sitios_jsons = glob(f'{google_dir}/metadata-sitios/*.json')
sitios_jsons

[]

In [None]:
## Convertir archivos JSON, en /metadata-sitios/, a parquet

# Crear dataframe donde se unen los datos extraidos de JSON
df_union = pd.DataFrame()
# Iterar por cada JSON dentro de /metadata-sitios/
for f_json in sitios_jsons:
    # Leer JSON
    df = pd.read_json(f_json, lines=True)
    # Unir a union_df
    df_union = pd.concat([df_union, df], ignore_index=True)

# Almacenar en formato parquet, en el mismo directorio
df_union.to_parquet(f'{google_dir}/metadata-sitios/metadata_sitios.parquet')

#### Union de parquets
Se unen los parquets resultantes del block anterior en un archivo único.

In [3]:
# Crear lista de parquets en /metadata-sitios/
google_dir = '../data/Google'
sitios_parquets = glob(f'{google_dir}/metadata-sitios/*.parquet')
sitios_parquets

['../data/Google/metadata-sitios\\metadata_sitios_01.parquet',
 '../data/Google/metadata-sitios\\metadata_sitios_02.parquet',
 '../data/Google/metadata-sitios\\metadata_sitios_03.parquet',
 '../data/Google/metadata-sitios\\metadata_sitios_04.parquet',
 '../data/Google/metadata-sitios\\metadata_sitios_05.parquet',
 '../data/Google/metadata-sitios\\metadata_sitios_06.parquet',
 '../data/Google/metadata-sitios\\metadata_sitios_07.parquet',
 '../data/Google/metadata-sitios\\metadata_sitios_08.parquet',
 '../data/Google/metadata-sitios\\metadata_sitios_09.parquet',
 '../data/Google/metadata-sitios\\metadata_sitios_10.parquet',
 '../data/Google/metadata-sitios\\metadata_sitios_11.parquet']

In [4]:
# Inicializar una lista para contener dataframes
dfs = []
# Leer cada archivo parquet como un dataframe y agregar a la lista
for archivo in sitios_parquets:
    tabla = pq.read_table(archivo)
    df = tabla.to_pandas()
    dfs.append(df)

# Unir todos los dataframes en la lista 'dfs'
resultado = pd.concat(dfs, ignore_index=True)

# ALmacenar el resultado en un nuevo archivo parquet
tabla = pa.Table.from_pandas(resultado)
pq.write_table(tabla, f'./g-sitios.parquet')

### `reviews-estados/`

In [None]:
# Lista de directorios en /reviews-estados/
google_dir = '../data/Google'
review_dirs = glob(f'{google_dir}/reviews-estados/*')
review_dirs

In [None]:
## Convertir archivos JSON, en todo directorio dentro de /reviews-estados/, a parquet

# Iterar por cada directorio dentro de /reviews-estados/
for path_dir in review_dirs:
    # Crear lista de JSON dentro de 'path_dir'
    path_jsons = glob(f'{path_dir}/*.json')
    # Crear dataframe donde se unen los datos extraidos de JSON
    df_union = pd.DataFrame()

    # Iterar por cada JSON dentro de 'path_jsons' y almacenar su data en 'union_df'
    for f_json in path_jsons:
        # Leer JSON
        df = pd.read_json(f_json, dtype={'user_id':str}, lines=True)  # fijando 'user_id' a tipo str
        # Unir a union_df
        df_union = pd.concat([df_union, df], ignore_index=True)

    # Almacenar 'union_df' como parquet, en el path '../data/Google/reviews-estados/'
    path_almacen = f'{google_dir}/reviews-estados'
    nombre_archivo = f'{path_dir.split("/")[-1].replace("-","_")}'
    df_union.to_parquet(f'{path_almacen}/{nombre_archivo}.parquet')

---
## Tranformacion a CSV, para visualizar

### Yelp

Nota: para dataset Yelp, falta `review.json`

In [None]:
review_path = '../data/Yelp/review/review_01.parquet'
# Leer parquet
df = pd.read_parquet(review_path)
# Almacenar como CSV, un ejemplar de 100 filas
df.sample(100).to_csv(f'../data_csv/yelp_{review_path.split("/")[-1].replace(".parquet","")}.csv')

In [None]:
business_path = '../data/Yelp/business.parquet'
# Leer parquet
df = pd.read_parquet(business_path)
# Almacenar como CSV, un ejemplar de 100 filas
df.sample(100).to_csv(f'../data_csv/yelp_{business_path.split("/")[-1].replace(".parquet","")}.csv')

In [None]:
checkin_path = '../data/Yelp/checkin.parquet'
# Leer parquet
df = pd.read_parquet(checkin_path)
# Almacenar como CSV, un ejemplar de 100 filas
df.sample(100).to_csv(f'../data_csv/yelp_{checkin_path.split("/")[-1].replace(".parquet","")}.csv')

In [None]:
tip_path = '../data/Yelp/tip.parquet'
# Leer parquet
df = pd.read_parquet(tip_path)
# Almacenar como CSV, un ejemplar de 100 filas
df.sample(100).to_csv(f'../data_csv/yelp_{tip_path.split("/")[-1].replace(".parquet","")}.csv')

In [None]:
user_path = '../data/Yelp/user.parquet'
# Leer parquet
df = pd.read_parquet(user_path)
# Almacenar como CSV, un ejemplar de 100 filas
df.sample(100).to_csv(f'../data_csv/yelp_{user_path.split("/")[-1].replace(".parquet","")}.csv')

### Google

In [None]:
google_dir = '../data/Google'

In [None]:
# Leer parquet
df = pd.read_parquet(f'{google_dir}/metadata-sitios/metadata_sitios_01.parquet')
# Almacenar como CSV, un ejemplar de 100 filas
df.sample(100).to_csv(f'../data_csv/google_sitios.csv')

In [None]:
# Leer parquet
df = pd.read_parquet(f'{google_dir}/reviews-estados/review_District_of_Columbia.parquet')
# Almacenar como CSV, un ejemplar de 100 filas
df.sample(100).to_csv(f'../data_csv/google_reviews.csv')