In [1]:
from glob import glob
import warnings
import pandas as pd
from pyarrow import json
import pyarrow.parquet as pq

In [2]:
# Opción para ignorar advertencias
warnings.filterwarnings('ignore')
# Opción que deshabilitaa el limite de columnas mostradas
pd.set_option('display.max_columns', None)

---
## Dataset Yelp

### `business.pkl`

In [5]:
business_path = './data/Yelp/business.pkl'
# Leer pkl (pickle)
df = pd.read_pickle(business_path)
df.sample(2)

Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,is_open,attributes,categories,hours,business_id.1,name.1,address.1,city.1,state.1,postal_code.1,latitude.1,longitude.1,stars.1,review_count.1,is_open.1,attributes.1,categories.1,hours.1
28985,7nCS0gWoipPTmAvkpAOOIg,The Lighthouse - Wedding + Events,133 Sanders Ferry Rd,Hendersonville,NJ,37075,36.300919,-86.614772,3.5,7,1,"{'BusinessAcceptsCreditCards': 'True', 'Wheelc...","Venues & Event Spaces, Event Planning & Servic...",,,,,,,,,,,,,,,
49302,fwpgD5hXdSBdB87vfZjHhA,Peppers,6283 N College Ave,Indianapolis,PA,46220,39.869429,-86.146101,2.5,9,0,"{'GoodForKids': 'False', 'RestaurantsTakeOut':...","Nightlife, Bars, American (New), Restaurants",,,,,,,,,,,,,,,


* Se observan columnas con nombres duplicados. Hay que unir estas columns.

In [10]:
# Calcular la cantida de columns dividida por 2
punto_medio = len(df.columns) // 2
# Dividir el dataframe por mitad, a largo de las columns,
# utilizando el punto_medio calculado
df_1er_mitad = df.iloc[:, :punto_medio]
df_2nd_mitad = df.iloc[:, punto_medio:]
# Unir los dataframes resultantes
df_reorganizado = pd.concat([df_1er_mitad, df_2nd_mitad], axis=0)
df_reorganizado.sample(2)

Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,is_open,attributes,categories,hours
30494,zcqHaDOFh9TapJ_Mo-GgWA,Gutty’s Comedy Club - Indiana,"1251 US 31 N, Ste 120",Greenwood,AZ,46142,39.633357,-86.122491,5.0,10,1,"{'Ambience': '{u'divey': False, u'hipster': No...","Nightlife, Comedy Clubs","{'Monday': '19:30-21:30', 'Thursday': '19:30-2..."
32270,k7f8RodiNHDrk_N8Glp5gg,Bar Centro,345 N Virginia St,Reno,PA,89501,39.529724,-119.814388,4.5,11,1,"{'NoiseLevel': 'u'loud'', 'Alcohol': 'u'full_b...","Nightlife, Bars","{'Monday': '0:0-0:0', 'Tuesday': '0:0-0:0', 'W..."


In [11]:
# Eliminar filas con todo nulos
df_reorganizado.dropna(axis=0, how='all', inplace=True)

In [13]:
# Almacenar en formato parquet, en el mismo directorio de 'business_path'
df_reorganizado.to_parquet(business_path.replace('.pkl', '.parquet'))  # se cambia sufijo '.pkl' a '.parquet'

### `checkin.json`

In [None]:
checkin_path = './data/Yelp/checkin.json'
# Leer JSON
df = pd.read_json(checkin_path, lines=True)
# Almacenar en formato parquet, en el mismo directorio
df.to_parquet(checkin_path.replace('.json', '.parquet'))  # se cambia sufijo '.json' a '.parquet'

### `review.json`

In [None]:
review_path = './data/Yelp/review.json'
# Leer JSON como tabla parquet
tabla = json.read_json(review_path)
# Almacenar en formato parquet, en el mismo directorio
pq.write_table(tabla, review_path.replace('.json', '.parquet'))

In [3]:
review_path = './data/Yelp/review.json'
# Leer JSON
df = pd.read_json(review_path, lines=True)
# Almacenar en formato parquet, en el mismo directorio
#df.to_parquet(review_path.replace('.json', '.parquet'))  # se cambia sufijo '.json' a '.parquet'

: 

: 

### `tip.json`

In [3]:
tip_path = './data/Yelp/tip.json'
# Leer JSON
df = pd.read_json(tip_path, lines=True)
# Almacenar en formato parquet, en el mismo directorio
df.to_parquet(tip_path.replace('.json', '.parquet'))  # se cambia sufijo '.json' a '.parquet'

### `user.parquet`

In [None]:
user_df = pd.read_parquet('./data/Yelp/user.parquet')
user_df.sample(2)

---
## Dataset Google

### `metadata-sitios/`

In [None]:
# Crear lista de JSON en /metadata-sitios/
review_jsons = glob('./data/Google/metadata-sitios/*')
review_jsons

In [None]:
## Convertir archivos JSON, en /metadata-sitios/, a parquet
# Iterar por cada JSON dentro de /metadata-sitios/
for f_json in review_jsons:
    # Leer JSON
    df = pd.read_json(f_json, lines=True)
    # Almacenar en formato parquet, en el mismo directorio
    df.to_parquet(f_json.replace('.json', '.parquet'))  # se cambia sufijo '.json' a '.parquet'

### `reviews-estados/`

In [None]:
# Lista de directorios en /reviews-estados/
review_dirs = glob('./data/Google/reviews-estados/*.json')
review_dirs

In [None]:
## Convertir archivos JSON, en todo directorio dentro de /reviews-estados/, a parquet
# Iterar por cada directorio dentro de /reviews-estados/
for path_dir in review_dirs:
    # Craer lista de JSON dentro de 'path_dir'
    path_jsons = glob(f'{path_dir}/*.json')
    # Iterar por cada JSON dentro de 'path_jsons'
    for f_json in path_jsons:
        # Leer JSON
        df = pd.read_json(f_json, lines=True)
        # Almacenar en formato parquet, en el mismo directorio,
        # cambiando el nombre del archivo (de .json a .parquet)
        df.to_parquet(f_json.replace('.json', '.parquet'))  # se cambia sufijo '.json' a '.parquet'