In [1]:
from glob import glob
import warnings
import pandas as pd

In [None]:
# Opción para ignorar advertencias
warnings.filterwarnings('ignore')
# Opción que deshabilitaa el limite de columnas mostradas
pd.set_option('display.max_columns', None)

---
## Dataset Yelp

### `business.pkl`

In [None]:
business_path = './data/Yelp/business.pkl'
# Leer pkl (pickle)
df = pd.read_pickle(business_path)
df.sample(2)

* Se observan columnas con nombres duplicados. Hay que unir estas columns.

In [None]:
# Calcular la cantida de columns dividida por 2
punto_medio = len(df.columns) // 2
# Dividir el dataframe por mitad, a largo de las columns,
# utilizando el punto_medio calculado
df_1er_mitad = df.iloc[:, :punto_medio]
df_2nd_mitad = df.iloc[:, punto_medio:]
# Unir los dataframes resultantes
df_reorganizado = pd.concat([df_1er_mitad, df_2nd_mitad], axis=0)
df_reorganizado.sample(2)

In [None]:
# Eliminar filas con todo nulos
df_reorganizado.dropna(axis=0, how='all', inplace=True)

In [None]:
# Almacenar en formato parquet, en el mismo directorio de 'business_path'
df_reorganizado.to_parquet(business_path.replace('.pkl', '.parquet'))  # se cambia sufijo '.pkl' a '.parquet'

### `checkin.json`

In [None]:
checkin_path = './data/Yelp/checkin.json'
# Leer JSON
df = pd.read_json(checkin_path, lines=True)
# Almacenar en formato parquet, en el mismo directorio
df.to_parquet(checkin_path.replace('.json', '.parquet'))  # se cambia sufijo '.json' a '.parquet'

### `review.json`

! Transformacion no posible en este ambiente

In [None]:
#review_path = './data/Yelp/review.json'Merge de parquets
# Leer JSON
#df = pd.read_json(review_path, lines=True)
# Almacenar en formato parquet, en el mismo directorio
#df.to_parquet(review_path.replace('.json', '.parquet'))  # se cambia sufijo '.json' a '.parquet'

In [None]:
#from pyarrow import json
#import pyarrow.parquet as pq

#review_path = './data/Yelp/review.json'
# Leer JSON como tabla parquet
#tabla = json.read_json(review_path)
# Almacenar en formato parquet, en el mismo directorio
#pq.write_table(tabla, review_path.replace('.json', '.parquet'))

### `tip.json`

In [None]:
tip_path = './data/Yelp/tip.json'
# Leer JSON
df = pd.read_json(tip_path, lines=True)
# Almacenar en formato parquet, en el mismo directorio
df.to_parquet(tip_path.replace('.json', '.parquet'))  # se cambia sufijo '.json' a '.parquet'Merge de parquets

### `user.parquet`

In [None]:
user_df = pd.read_parquet('./data/Yelp/user.parquet')
user_df.sample(2)

---
## Dataset Google

### `metadata-sitios/`

In [None]:
# Crear lista de JSON en /metadata-sitios/
review_jsons = glob('./data/Google/metadata-sitios/*')
review_jsons

In [None]:
## Convertir archivos JSON, en /metadata-sitios/, a parquet
# Iterar por cada JSON dentro de /metadata-sitios/
for f_json in review_jsons:
    # Leer JSON
    df = pd.read_json(f_json, lines=True)
    # Almacenar en formato parquet, en el mismo directorio
    df.to_parquet(f_json.replace('.json', '.parquet'))  # se cambia sufijo '.json' a '.parquet'

### `reviews-estados/`

In [None]:
# Lista de directorios en /reviews-estados/
review_dirs = glob('./data/Google/reviews-estados/*.json')
review_dirs

In [None]:
## Convertir archivos JSON, en todo directorio dentro de /reviews-estados/, a parquet
# Iterar por cada directorio dentro de /reviews-estados/
for path_dir in review_dirs:
    # Craer lista de JSON dentro de 'path_dir'
    path_jsons = glob(f'{path_dir}/*.json')
    # Iterar por cada JSON dentro de 'path_jsons'
    for f_json in path_jsons:
        # Leer JSON
        df = pd.read_json(f_json, lines=True)
        # Almacenar en formato parquet, en el mismo directorio,
        # cambiando el nombre del archivo (de .json a .parquet)
        df.to_parquet(f_json.replace('.json', '.parquet'))  # se cambia sufijo '.json' a '.parquet'

---
## Merge de parquets
Los parquets del dataset de Google estan fragmentados. Se uniran en seguida.

In [2]:
# Crear lista de JSON en /metadata-sitios/
review_parquets = glob('./data/Google/metadata-sitios/*.parquet')
review_parquets

['./data/Google/metadata-sitios/10.parquet',
 './data/Google/metadata-sitios/2.parquet',
 './data/Google/metadata-sitios/6.parquet',
 './data/Google/metadata-sitios/1.parquet',
 './data/Google/metadata-sitios/3.parquet',
 './data/Google/metadata-sitios/9.parquet',
 './data/Google/metadata-sitios/4.parquet',
 './data/Google/metadata-sitios/11.parquet',
 './data/Google/metadata-sitios/5.parquet',
 './data/Google/metadata-sitios/7.parquet',
 './data/Google/metadata-sitios/8.parquet']

In [None]:
## Unir los archivos parquet, en /metadata-sitios/
# Iterar por cada parquet dentro de /metadata-sitios/
for f_pq in review_parquets:
    pass  # pendiente

---
## Tranformacion a CSV para visualizar

Nota: para dataset Yelp, faltaria `review.json`

In [None]:
business_path = './data/Yelp/business.parquet'
# Leer parquet
df = pd.read_parquet(business_path)
# Almacenar como CSV, un ejemplar de 100 filas
df.sample(100).to_csv(f'./data_csv/yelp_{business_path.split("/")[-1].replace(".parquet","")}.csv')

In [None]:
checkin_path = './data/Yelp/checkin.parquet'
# Leer parquet
df = pd.read_parquet(checkin_path)
# Almacenar como CSV, un ejemplar de 100 filas
df.sample(100).to_csv(f'./data_csv/yelp_{checkin_path.split("/")[-1].replace(".parquet","")}.csv')

In [None]:
tip_path = './data/Yelp/tip.parquet'
# Leer parquet
df = pd.read_parquet(tip_path)
# Almacenar como CSV, un ejemplar de 100 filas
df.sample(100).to_csv(f'./data_csv/yelp_{tip_path.split("/")[-1].replace(".parquet","")}.csv')

In [3]:
user_path = './data/Yelp/user.parquet'
# Leer parquet
df = pd.read_parquet(user_path)
df.sample(100).to_csv(f'./data_csv/yelp_{user_path.split("/")[-1].replace(".parquet","")}.csv')