# Optimización de los datos

En este proceso buscaremos optimizar los datos que nos proveen los datasets de la carpeta Yelp. Esta optimización consistirá en transformar los archivos 'business.pkl', 'checkin.json', 'tip.json' y 'review.json' a formato Parquet para que sea más fácil leerlos, analizarlos y manipularlos. Para empezar importaremos las librerías necesarias:

In [1]:
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq
import json
import os

También importaremos NLTK que es una biblioteca de Python que nos ayudará a aplicar el análisis de sentimiento a las reseñas disponibles en el archivo 'review.json'

In [23]:
from nltk.sentiment import SentimentIntensityAnalyzer
import nltk
nltk.download(['vader_lexicon', 'stopwords', 'names'])

sid = SentimentIntensityAnalyzer()

[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\agust\AppData\Roaming\nltk_data...
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\agust\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.
[nltk_data] Downloading package names to
[nltk_data]     C:\Users\agust\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\names.zip.


# business.pkl

Comenzaremos por el archivo 'business.pkl' que está en formato PKL. Pandas nos ofrece la opción de poder leerlos, por lo que lo leeremos a continuación:

In [2]:
business = pd.read_pickle('Yelp/business.pkl')

In [3]:
business

Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,...,state.1,postal_code.1,latitude.1,longitude.1,stars.1,review_count.1,is_open,attributes,categories,hours
0,Pns2l4eNsfO8kk83dixA6A,"Abby Rappoport, LAC, CMQ","1616 Chapala St, Ste 2",Santa Barbara,,93101,34.426679,-119.711197,5.0,7,...,,,,,,,,,,
1,mpf3x-BjTdTEA3yCZrAYPw,The UPS Store,87 Grasso Plaza Shopping Center,Affton,,63123,38.551126,-90.335695,3.0,15,...,,,,,,,,,,
2,tUFrWirKiKi_TAnsVWINQQ,Target,5255 E Broadway Blvd,Tucson,,85711,32.223236,-110.880452,3.5,22,...,,,,,,,,,,
3,MTSW4McQd7CbVtyjqoe9mw,St Honore Pastries,935 Race St,Philadelphia,CA,19107,39.955505,-75.155564,4.0,80,...,,,,,,,,,,
4,mWMc6_wTdE0EUBKIGXDVfA,Perkiomen Valley Brewery,101 Walnut St,Green Lane,MO,18054,40.338183,-75.471659,4.5,13,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
150341,IUQopTMmYQG-qRtBk-8QnA,Binh's Nails,3388 Gateway Blvd,Edmonton,IN,T6J 5H2,53.468419,-113.492054,3.0,13,...,,,,,,,,,,
150342,c8GjPIOTGVmIemT7j5_SyQ,Wild Birds Unlimited,2813 Bransford Ave,Nashville,DE,37204,36.115118,-86.766925,4.0,5,...,,,,,,,,,,
150343,_QAMST-NrQobXduilWEqSw,Claire's Boutique,"6020 E 82nd St, Ste 46",Indianapolis,AB,46250,39.908707,-86.065088,3.5,8,...,,,,,,,,,,
150344,mtGm22y5c2UHNXDFAjaPNw,Cyclery & Fitness Center,2472 Troy Rd,Edwardsville,AB,62025,38.782351,-89.950558,4.0,24,...,,,,,,,,,,


In [5]:
business.info()

<class 'pandas.core.frame.DataFrame'>
Index: 150346 entries, 0 to 150345
Data columns (total 28 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   business_id   150346 non-null  object
 1   name          150346 non-null  object
 2   address       150346 non-null  object
 3   city          150346 non-null  object
 4   state         150343 non-null  object
 5   postal_code   150346 non-null  object
 6   latitude      150346 non-null  object
 7   longitude     150346 non-null  object
 8   stars         150346 non-null  object
 9   review_count  150346 non-null  object
 10  is_open       150346 non-null  object
 11  attributes    136602 non-null  object
 12  categories    150243 non-null  object
 13  hours         127123 non-null  object
 14  business_id   5 non-null       object
 15  name          5 non-null       object
 16  address       5 non-null       object
 17  city          5 non-null       object
 18  state         5 non-null     

Como podemos observar, este dataset posee todas sus columnas duplicadas y casi llena por valores nulos (exceptuando 5), por lo que asumiremos que son irrelevantes y procederemos a eliminarlas.

In [6]:
business = business.iloc[::,:14].copy()

In [7]:
business.info()

<class 'pandas.core.frame.DataFrame'>
Index: 150346 entries, 0 to 150345
Data columns (total 14 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   business_id   150346 non-null  object
 1   name          150346 non-null  object
 2   address       150346 non-null  object
 3   city          150346 non-null  object
 4   state         150343 non-null  object
 5   postal_code   150346 non-null  object
 6   latitude      150346 non-null  object
 7   longitude     150346 non-null  object
 8   stars         150346 non-null  object
 9   review_count  150346 non-null  object
 10  is_open       150346 non-null  object
 11  attributes    136602 non-null  object
 12  categories    150243 non-null  object
 13  hours         127123 non-null  object
dtypes: object(14)
memory usage: 17.2+ MB


Ahora guardaremos el archivo en formato Parquet

In [8]:
business.to_parquet('Yelp/business.parquet', index=False)

# checkin.json y tip.json

Para leer estos 2 archivos utilizaremos un código que primero obtendrá na lista de nombres de archivos en la carpeta 'Yelp' que contengan la extensión '.json' (cabe aclarar que el archivo review.json fue temporalmente removido de la carpeta, por lo que no se verá afectado por este código). Luego iterará sobre cada archivo JSON encontrado en la carpeta (checkin.json y tip.json). Luego leerá cada línea de los archivos JSON e intentará cargarla como objeto JSON y agregará el objeto JSON resultante a una lista llamada 'data'. Finalmente creará un DataFrame de pandas a partir de la lista de objetos JSON y generará un archivo Parquet en la carpeta Yelp.

In [2]:
# Ruta de la carpeta de archivos JSON
ruta_carpeta = r'Yelp'

# Obtener la lista de archivos JSON en la carpeta
archivos_json = [archivo for archivo in os.listdir(ruta_carpeta) if archivo.endswith('.json')]

for archivo_json in archivos_json:
    ruta_archivo = os.path.join(ruta_carpeta, archivo_json)

    data = []  # Crear una lista para almacenar los objetos JSON

    with open(ruta_archivo, 'r', encoding='utf-8', errors='replace') as file:
        for line in file:
            try:
                json_data = json.loads(line)
                data.append(json_data)
            except json.JSONDecodeError:
                print(f"Error en línea: {line.strip()}")

    df = pd.DataFrame(data)
    
    # Crear una carpeta para los archivos Parquet si no existe
    ruta_carpeta_parquet = r'Yelp'
    if not os.path.exists(ruta_carpeta_parquet):
        os.makedirs(ruta_carpeta_parquet)

    ruta_archivo_parquet = os.path.join(ruta_carpeta_parquet, archivo_json.replace('.json', '.parquet'))
    df.to_parquet(ruta_archivo_parquet, index=False)
    
    print(f"Archivo {archivo_json} procesado y guardado como {ruta_archivo_parquet}")

Archivo checkin.json procesado y guardado como Yelp\checkin.parquet
Archivo tip.json procesado y guardado como Yelp\tip.parquet


In [3]:
pd.read_parquet('Yelp/checkin.parquet')

Unnamed: 0,business_id,date
0,---kPU91CF4Lq2-WlRu9Lw,"2020-03-13 21:10:56, 2020-06-02 22:18:06, 2020..."
1,--0iUa4sNDFiZFrAdIWhZQ,"2010-09-13 21:43:09, 2011-05-04 23:08:15, 2011..."
2,--30_8IhuyMHbSOcNWd6DQ,"2013-06-14 23:29:17, 2014-08-13 23:20:22"
3,--7PUidqRWpRSpXebiyxTg,"2011-02-15 17:12:00, 2011-07-28 02:46:10, 2012..."
4,--7jw19RH9JKXgFohspgQw,"2014-04-21 20:42:11, 2014-04-28 21:04:46, 2014..."
...,...,...
131925,zznJox6-nmXlGYNWgTDwQQ,"2013-03-23 16:22:47, 2013-04-07 02:03:12, 2013..."
131926,zznZqH9CiAznbkV6fXyHWA,2021-06-12 01:16:12
131927,zzu6_r3DxBJuXcjnOYVdTw,"2011-05-24 01:35:13, 2012-01-01 23:44:33, 2012..."
131928,zzw66H6hVjXQEt0Js3Mo4A,"2016-12-03 23:33:26, 2018-12-02 19:08:45"


In [4]:
pd.read_parquet('Yelp/tip.parquet')

Unnamed: 0,user_id,business_id,text,date,compliment_count
0,AGNUgVwnZUey3gcPCJ76iw,3uLgwr0qeCNMjKenHJwPGQ,Avengers time with the ladies.,2012-05-18 02:17:21,0
1,NBN4MgHP9D3cw--SnauTkA,QoezRbYQncpRqyrLH6Iqjg,They have lots of good deserts and tasty cuban...,2013-02-05 18:35:10,0
2,-copOvldyKh1qr-vzkDEvw,MYoRNLb5chwjQe3c_k37Gg,It's open even when you think it isn't,2013-08-18 00:56:08,0
3,FjMQVZjSqY8syIO-53KFKw,hV-bABTK-glh5wj31ps_Jw,Very decent fried chicken,2017-06-27 23:05:38,0
4,ld0AperBXk1h6UbqmM80zw,_uN0OudeJ3Zl_tf6nxg5ww,Appetizers.. platter special for lunch,2012-10-06 19:43:09,0
...,...,...,...,...,...
908910,eYodOTF8pkqKPzHkcxZs-Q,3lHTewuKFt5IImbXJoFeDQ,Disappointed in one of your managers.,2021-09-11 19:18:57,0
908911,1uxtQAuJ2T5Xwa_wp7kUnA,OaGf0Dp56ARhQwIDT90w_g,Great food and service.,2021-10-30 11:54:36,0
908912,v48Spe6WEpqehsF2xQADpg,hYnMeAO77RGyTtIzUSKYzQ,Love their Cubans!!,2021-11-05 13:18:56,0
908913,ckqKGM2hl7I9Chp5IpAhkw,s2eyoTuJrcP7I_XyjdhUHQ,Great pizza great price,2021-11-20 16:11:44,0


# review.json

Este archivo tiene un tamaño de 4,97 GB, por lo que es demasiado grande para trabajarlo y consume demasiados recursos. Por lo que se optó por particionarlo en archivos más pequeños para que al leerlos queden como datasets de 300,000 filas máximo. Para ello generaremos un código con 2 funciones que divida el archivo JSON en partes y las guarde en la ruta que le especifiquemos.

In [None]:
def dividir_json_en_partes(archivo_entrada, tamaño_maximo, prefijo_salida):
    with open(archivo_entrada, 'rb') as f_entrada:
        # Inicializa la lista para almacenar cada parte del JSON
        partes = []
        numero_parte = 1

        # Itera sobre cada línea del archivo JSON
        for linea_binaria in f_entrada:
            # Decodifica la línea binaria como UTF-8
            linea = linea_binaria.decode('utf-8')

            # Decodifica la línea como JSON
            dato = json.loads(linea)

            # Agrega el dato a la parte actual
            partes.append(dato)

            # Si la parte alcanza el tamaño máximo, guárdala y reinicia la lista
            if len(partes) >= tamaño_maximo:
                guardar_parte(prefijo_salida, numero_parte, partes)
                numero_parte += 1
                partes = []

        # Si hay datos restantes, guárdalos como la última parte
        if partes:
            guardar_parte(prefijo_salida, numero_parte, partes)

def guardar_parte(prefijo_salida, numero_parte, datos):
    nombre_salida = f"{prefijo_salida}_{numero_parte}.json"
    with open(f'Yelp/review/reviews_{nombre_salida}', 'w') as f_salida:
        json.dump(datos, f_salida, indent=2)  # Puedes ajustar el nivel de indentación según tus preferencias

Ahora llamamos a la función para que realice el trabajo

In [None]:
dividir_json_en_partes('Yelp/review.json', 300000, 'parte')

Nos ha quedado un total de 24 archivos JSON, el siguiente paso es convertirlos a formato Parquet y comprimirlos para que su tamaño sea el menor posible, para ello generamos otra función:

In [2]:
def convertir_json_a_parquet(archivo_json, archivo_parquet):
    # Lee el archivo JSON en un DataFrame de pandas
    with open(archivo_json, 'r', encoding='utf-8') as f:
        datos_json = json.load(f)

    # Convierte el JSON a un DataFrame de pandas
    dataframe = pd.DataFrame(datos_json)

    # Convierte el DataFrame de pandas a una tabla de PyArrow
    tabla = pa.Table.from_pandas(dataframe)

    # Escribe la tabla en un archivo Parquet
    pq.write_table(tabla, archivo_parquet, compression='gzip')

In [None]:
for i in range(1,25):
    archivo_json = f'Yelp/review/reviews_parte_{i}.json'
    archivo_parquet = f'Yelp/review parquet/reviews_parte_{i}.gz.parquet'

    convertir_json_a_parquet(archivo_json, archivo_parquet)

Ahora vamos a abrir uno de los archivos Parquet para poder analizarlo y saber cuál es el motivo de que tenga un tamaño tan grande y si se puede hacer algo para reducirlo y que el archivo sea más manejable.

In [2]:
pd.read_parquet('Yelp/review parquet/reviews_parte_1.gz.parquet')

Unnamed: 0,review_id,user_id,business_id,stars,useful,funny,cool,text,date
0,KU_O5udG6zpxOg-VcAEodg,mh_-eMZ6K5RLWhZyISBhwA,XQfwVwDr-v0ZS3_CbbE5Xw,3.0,0,0,0,"If you decide to eat here, just be aware it is...",2018-07-07 22:09:11
1,BiTunyQ73aT9WBnpR9DZGw,OyoGAe7OKpv6SyGZT5g77Q,7ATYjTIgM3jUlt4UM3IypQ,5.0,1,0,1,I've taken a lot of spin classes over the year...,2012-01-03 15:28:18
2,saUsX_uimxRlCVr67Z4Jig,8g_iMtfSiwikVnbP2etR0A,YjUWPpI6HXG530lwP-fb2A,3.0,0,0,0,Family diner. Had the buffet. Eclectic assortm...,2014-02-05 20:30:30
3,AqPFMleE6RsU23_auESxiA,_7bHUi9Uuf5__HHc_Q8guQ,kxX2SOes4o-D3ZQBkiMRfA,5.0,1,0,1,"Wow! Yummy, different, delicious. Our favo...",2015-01-04 00:01:03
4,Sx8TMOWLNuJBWer-0pcmoA,bcjbaE6dDog4jkNY91ncLQ,e4Vwtrqf-wpJfwesgvdgxQ,4.0,1,0,1,Cute interior and owner (?) gave us tour of up...,2017-01-14 20:54:15
...,...,...,...,...,...,...,...,...,...
299995,fQDcqVHa432UQrxjEIf9wQ,zX8cJhp70EXCEJ05H1GZCA,Qa1YQzo00sm9O0JUlwdCQw,5.0,0,0,0,We did the tour today 1/28 with Bob and it was...,2016-01-29 05:53:11
299996,jirp0s-rnstijLulxOxh7w,tJfEL_sE5EInJxXAZ3LZZw,bU4GhYyuzrziT19JUlnjBg,3.0,0,0,0,The cheesecake scoop flavors are not actual di...,2016-12-31 16:10:26
299997,KSmQ7ynexKJy-NdxUgBu8g,m7C39M4qWXinNjfgD2NkpQ,GBTPC53ZrG1ZBY3DT8Mbcw,5.0,0,0,0,Best place we are at while in Nola! Firstly sh...,2017-09-07 15:15:45
299998,2tUlKjxxqKjVdphmSpgAnA,IYqLco4eB4CMy_ISnBE39g,TghRoAMx43V-9l7mH-SENg,4.0,0,0,0,This is the trendy place to eat at Clearwater ...,2016-03-26 19:51:12


Como podemos ver, el motivo principal de que el archivo sea tan grande (además de que posee aproximadamente 7 millones de filas) es la columna 'text' que posee las reseñas y al ser millones de textos, el archivo queda muy pesado. Por lo que para solucionarlo utilizaremos NLTK para aplicar análisis de sentimiento ya que no nos interesa la reseña, lo que nos interesa es saber si dicha reseña es positiva, neutral o negativa, entonces buscaremos obtener dicho análisis de sentimiento para finalmente poder eliminar la columna 'text'. Primero aplicaremos análisis de sentimiento a cada archivo y generaremos uno nuevo en la ruta especificada. Para saber si un comentario es positivo, negativo o neutro, utilizamos polarity_scores que devuelve un diccionario de 4 claves, neg, neu, pos y compound. Las que nos interesa para clasificar la reseña es el compound, que es una puntuación compuesta de todo el texto.

In [29]:
for i in range(1,25):
    df = pd.read_parquet(f'Yelp/review parquet/reviews_parte_{i}.gz.parquet')
    analisis = df['text'].apply(lambda x: sid.polarity_scores(x)["compound"])
    df['text'] = analisis
    df.to_parquet(f'Review/reviews_parte_{i}_gz.parquet', compression='gzip')

Finalmente concatenamos todo para obtener un solo dataset:

In [2]:
df = pd.read_parquet('Review/reviews_parte_1_gz.parquet')

In [None]:
for i in range(2,25):
    aux = pd.read_parquet(f'Review/reviews_parte_{i}_gz.parquet')
    df = pd.concat([df,aux], axis=0, ignore_index=True)

In [30]:
df

Unnamed: 0,review_id,user_id,business_id,stars,useful,funny,cool,text,date
0,KU_O5udG6zpxOg-VcAEodg,mh_-eMZ6K5RLWhZyISBhwA,XQfwVwDr-v0ZS3_CbbE5Xw,3.0,0,0,0,0.8597,2018-07-07 22:09:11
1,BiTunyQ73aT9WBnpR9DZGw,OyoGAe7OKpv6SyGZT5g77Q,7ATYjTIgM3jUlt4UM3IypQ,5.0,1,0,1,0.9858,2012-01-03 15:28:18
2,saUsX_uimxRlCVr67Z4Jig,8g_iMtfSiwikVnbP2etR0A,YjUWPpI6HXG530lwP-fb2A,3.0,0,0,0,0.9201,2014-02-05 20:30:30
3,AqPFMleE6RsU23_auESxiA,_7bHUi9Uuf5__HHc_Q8guQ,kxX2SOes4o-D3ZQBkiMRfA,5.0,1,0,1,0.9588,2015-01-04 00:01:03
4,Sx8TMOWLNuJBWer-0pcmoA,bcjbaE6dDog4jkNY91ncLQ,e4Vwtrqf-wpJfwesgvdgxQ,4.0,1,0,1,0.9804,2017-01-14 20:54:15
...,...,...,...,...,...,...,...,...,...
6990275,H0RIamZu0B0Ei0P4aeh3sQ,qskILQ3k0I_qcCMI-k6_QQ,jals67o91gcrD4DC81Vk6w,5.0,1,2,1,0.1027,2014-12-17 21:45:20
6990276,shTPgbgdwTHSuU67mGCmZQ,Zo0th2m8Ez4gLSbHftiQvg,2vLksaMmSEcGbjI5gywpZA,5.0,2,1,2,0.8549,2021-03-31 16:55:10
6990277,YNfNhgZlaaCO5Q_YJR4rEw,mm6E4FbCMwJmb7kPDZ5v2Q,R1khUUxidqfaJmcpmGd4aw,4.0,1,0,0,0.6792,2019-12-30 03:56:30
6990278,i-I4ZOhoX70Nw5H0FwrQUA,YwAMC-jvZ1fvEUum6QkEkw,Rr9kKArrMhSLVE9a53q-aA,5.0,1,0,0,0.9982,2022-01-19 18:59:27


Como podemos ver el archivo quedó mucho más ligero y manipulable, finalmente lo guardamos en formato Parquet:

In [31]:
df.to_parquet('review.parquet', index=False)

# user.parquet

Este archivo ya está en formato Parquet, por lo que por el momento no lo modificaremos.

In [22]:
pd.read_parquet('Yelp/user.parquet')

Unnamed: 0,user_id,name,review_count,yelping_since,useful,funny,cool,elite,friends,fans,...,compliment_more,compliment_profile,compliment_cute,compliment_list,compliment_note,compliment_plain,compliment_cool,compliment_funny,compliment_writer,compliment_photos
0,qVc8ODYU5SZjKXVBgXdI7w,Walker,585,2007-01-25 16:47:26,7217,1259,5994,2007,"NSCy54eWehBJyZdG2iE84w, pe42u7DcCH2QmI81NX-8qA...",267,...,65,55,56,18,232,844,467,467,239,180
1,j14WgRoU_-2ZE1aw1dXrJg,Daniel,4333,2009-01-25 04:35:42,43091,13066,27281,"2009,2010,2011,2012,2013,2014,2015,2016,2017,2...","ueRPE0CX75ePGMqOFVj6IQ, 52oH4DrRvzzl8wh5UXyU0A...",3138,...,264,184,157,251,1847,7054,3131,3131,1521,1946
2,2WnXYQFK0hXEoTxPtV2zvg,Steph,665,2008-07-25 10:41:00,2086,1010,1003,20092010201120122013,"LuO3Bn4f3rlhyHIaNfTlnA, j9B4XdHUhDfTKVecyWQgyA...",52,...,13,10,17,3,66,96,119,119,35,18
3,SZDeASXq7o05mMNLshsdIA,Gwen,224,2005-11-29 04:38:33,512,330,299,200920102011,"enx1vVPnfdNUdPho6PH_wg, 4wOcvMLtU6a9Lslggq74Vg...",28,...,4,1,6,2,12,16,26,26,10,9
4,hA5lMy-EnncsH4JoR-hFGQ,Karen,79,2007-01-05 19:40:59,29,15,7,,"PBK4q9KEEBHhFvSXCUirIw, 3FWPpM7KU1gXeOM_ZbYMbA...",1,...,1,0,0,0,1,1,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2105592,4QGxxakRZeOlg_qDuxmTeQ,Jennilee,38,2012-01-19 23:33:02,74,9,6,,kmwNG5LZSHFmveg6wYYdrw,0,...,1,0,0,0,1,4,0,0,1,0
2105593,tmelBbVBGAzXBVfH2u_R6g,Gerry,19,2009-06-09 16:34:54,14,5,2,,"BFYdCAMFyjYHDwesndEXEg, _9fTIqfSJc7g3V_o76XRVg...",1,...,1,0,0,0,0,1,0,0,0,0
2105594,tpBznnD6uJN3m_pJubj09w,Emily,26,2013-08-13 23:18:11,4,1,2,,"bKV3ly2MuK-K1cptMrFknQ, liel18zRoSB4tEkUP7i6Cg...",0,...,0,0,0,0,1,0,0,0,0,0
2105595,Kst_srPw7GdYydMFYdCtzw,Heatheranne,25,2015-01-10 00:06:25,21,2,5,,"dzHTk52vbGtbktRm_B-wEg, fOfFLV7IbBDN6lzARaLqdg...",0,...,0,0,0,0,0,1,0,0,0,0
