## Importamos las librerías necesarias

Estas librerías nos ayudan a manipular los datos para que tengan consistencia y calidad. Además, importamos un módulo propio llamado 'herramientas' que nos ayuda en todo este proceso.

In [2]:
import pandas as pd
import Herramientas as Her
import warnings
warnings.filterwarnings("ignore")

## Carga de Datos

In [3]:
df_reviews = Her.AbrirJsonYelp('review-001.json')

## Transformaciones

Procederemos a eliminar las columnas que contienen tres tipos de calificaciones: 
*  cool
*  funny 
*  useful  

Ya que realizaremos nuestro propio análisis de sentimientos.

In [4]:
df_reviews = df_reviews.drop(columns=['cool','funny','useful'])
df_reviews

Unnamed: 0,review_id,user_id,business_id,stars,text,date
0,KU_O5udG6zpxOg-VcAEodg,mh_-eMZ6K5RLWhZyISBhwA,XQfwVwDr-v0ZS3_CbbE5Xw,3.0,"If you decide to eat here, just be aware it is...",2018-07-07 22:09:11
1,BiTunyQ73aT9WBnpR9DZGw,OyoGAe7OKpv6SyGZT5g77Q,7ATYjTIgM3jUlt4UM3IypQ,5.0,I've taken a lot of spin classes over the year...,2012-01-03 15:28:18
2,saUsX_uimxRlCVr67Z4Jig,8g_iMtfSiwikVnbP2etR0A,YjUWPpI6HXG530lwP-fb2A,3.0,Family diner. Had the buffet. Eclectic assortm...,2014-02-05 20:30:30
3,AqPFMleE6RsU23_auESxiA,_7bHUi9Uuf5__HHc_Q8guQ,kxX2SOes4o-D3ZQBkiMRfA,5.0,"Wow! Yummy, different, delicious. Our favo...",2015-01-04 00:01:03
4,Sx8TMOWLNuJBWer-0pcmoA,bcjbaE6dDog4jkNY91ncLQ,e4Vwtrqf-wpJfwesgvdgxQ,4.0,Cute interior and owner (?) gave us tour of up...,2017-01-14 20:54:15
...,...,...,...,...,...,...
6990275,H0RIamZu0B0Ei0P4aeh3sQ,qskILQ3k0I_qcCMI-k6_QQ,jals67o91gcrD4DC81Vk6w,5.0,Latest addition to services from ICCU is Apple...,2014-12-17 21:45:20
6990276,shTPgbgdwTHSuU67mGCmZQ,Zo0th2m8Ez4gLSbHftiQvg,2vLksaMmSEcGbjI5gywpZA,5.0,"This spot offers a great, affordable east week...",2021-03-31 16:55:10
6990277,YNfNhgZlaaCO5Q_YJR4rEw,mm6E4FbCMwJmb7kPDZ5v2Q,R1khUUxidqfaJmcpmGd4aw,4.0,This Home Depot won me over when I needed to g...,2019-12-30 03:56:30
6990278,i-I4ZOhoX70Nw5H0FwrQUA,YwAMC-jvZ1fvEUum6QkEkw,Rr9kKArrMhSLVE9a53q-aA,5.0,For when I'm feeling like ignoring my calorie-...,2022-01-19 18:59:27


Se verifica la correcta eliminación de las columnas, asegurándonos de que el cambio se haya realizado correctamente. Ahora, podremos corroborar si hay valores nulos y determinar los tipos de datos presentes en cada columna.

In [5]:
Her.analizar_datos(df_reviews)

Unnamed: 0,Nombre,Tipos de Datos Únicos,% de Valores No Nulos,% de Valores Nulos,Cantidad de Valores Nulos
0,review_id,[<class 'str'>],100.0,0.0,0
1,user_id,[<class 'str'>],100.0,0.0,0
2,business_id,[<class 'str'>],100.0,0.0,0
3,stars,[<class 'float'>],100.0,0.0,0
4,text,[<class 'str'>],100.0,0.0,0
5,date,[<class 'str'>],100.0,0.0,0


## Column ``Date``

Se observó que tenemos una columna con horas y fechas que tenía formato de cadena de caracteres (string). Por lo tanto, se utilizó la biblioteca pandas para manejarla y convertirla a formato de fecha(datetime). Se eligió pandas debido a su versatilidad en comparación con las funciones estándar de Python.

In [6]:
df_reviews['date'] = pd.to_datetime(df_reviews['date'],format='%Y-%m-%d %H:%M:%S')
df_reviews

Unnamed: 0,review_id,user_id,business_id,stars,text,date
0,KU_O5udG6zpxOg-VcAEodg,mh_-eMZ6K5RLWhZyISBhwA,XQfwVwDr-v0ZS3_CbbE5Xw,3.0,"If you decide to eat here, just be aware it is...",2018-07-07 22:09:11
1,BiTunyQ73aT9WBnpR9DZGw,OyoGAe7OKpv6SyGZT5g77Q,7ATYjTIgM3jUlt4UM3IypQ,5.0,I've taken a lot of spin classes over the year...,2012-01-03 15:28:18
2,saUsX_uimxRlCVr67Z4Jig,8g_iMtfSiwikVnbP2etR0A,YjUWPpI6HXG530lwP-fb2A,3.0,Family diner. Had the buffet. Eclectic assortm...,2014-02-05 20:30:30
3,AqPFMleE6RsU23_auESxiA,_7bHUi9Uuf5__HHc_Q8guQ,kxX2SOes4o-D3ZQBkiMRfA,5.0,"Wow! Yummy, different, delicious. Our favo...",2015-01-04 00:01:03
4,Sx8TMOWLNuJBWer-0pcmoA,bcjbaE6dDog4jkNY91ncLQ,e4Vwtrqf-wpJfwesgvdgxQ,4.0,Cute interior and owner (?) gave us tour of up...,2017-01-14 20:54:15
...,...,...,...,...,...,...
6990275,H0RIamZu0B0Ei0P4aeh3sQ,qskILQ3k0I_qcCMI-k6_QQ,jals67o91gcrD4DC81Vk6w,5.0,Latest addition to services from ICCU is Apple...,2014-12-17 21:45:20
6990276,shTPgbgdwTHSuU67mGCmZQ,Zo0th2m8Ez4gLSbHftiQvg,2vLksaMmSEcGbjI5gywpZA,5.0,"This spot offers a great, affordable east week...",2021-03-31 16:55:10
6990277,YNfNhgZlaaCO5Q_YJR4rEw,mm6E4FbCMwJmb7kPDZ5v2Q,R1khUUxidqfaJmcpmGd4aw,4.0,This Home Depot won me over when I needed to g...,2019-12-30 03:56:30
6990278,i-I4ZOhoX70Nw5H0FwrQUA,YwAMC-jvZ1fvEUum6QkEkw,Rr9kKArrMhSLVE9a53q-aA,5.0,For when I'm feeling like ignoring my calorie-...,2022-01-19 18:59:27


## Column ``review_id``

Comenzaremos buscando valores nulos mediante una función de nuestro módulo personalizado.

In [7]:
Her.nulls(df_reviews,'review_id')

The column "review_id" does not have nulls


Unnamed: 0,review_id,user_id,business_id,stars,text,date


Vamos a buscar si existen registros vacíos.

In [8]:
Her.empty_values(df_reviews,'review_id')

The column "review_id" does not have empty values


Vamos a buscar si existen datos duplicados.

In [9]:
Her.duplicates(df_reviews)

Unnamed: 0,review_id,user_id,business_id,stars,text,date


Observamos que al no encontrar duplicados, podemos concluir que no hay un usuario que haya hecho más de una reseña en el mismo local. Además, no hay valores vacíos ni nulos, lo que nos indica que la información está completa y consistente.

## Column ``text``

Comenzaremos buscando valores nulos mediante una función de nuestro módulo personalizado.

In [10]:
Her.nulls(df_reviews,'text')

The column "text" does not have nulls


Unnamed: 0,review_id,user_id,business_id,stars,text,date


Vamos a buscar si existen registros vacíos.

In [11]:
Her.empty_values(df_reviews,'text')

The column "text" does not have empty values


Se pueden observar algunos comentarios que se repiten hasta 10 veces, se presentan con fines de visualización.

In [12]:
df_reviews['text'].value_counts().head()

text
DO NOT PARK HERE!\nthey are too quick to boot you!\n$144 to remove a boot.\nIf you lose track of time (a normal affair in New Orleans, having fun) and even if (like I did) you add time, they get you in between!!!!\nAVOID ALL PREMIUM PARKING LOTS!!\nThere are so many other options near by!\nTrust me!                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       

## Column ``stars``

Comenzaremos buscando valores nulos mediante una función de nuestro módulo personalizado.

In [13]:
Her.nulls(df_reviews,'stars')

The column "stars" does not have nulls


Unnamed: 0,review_id,user_id,business_id,stars,text,date


Vamos a buscar si existen registros vacíos.

In [14]:
Her.empty_values(df_reviews,'stars')

The column "stars" does not have empty values


Se pueden observar que la gran mayoria suele calificar con 5 estrellas a los restaurantes , se presentan con fines de visualización.

In [15]:
Her.cantidad_porcentaje(df_reviews,'stars')

Los valores de stars:
5.0    3231627
4.0    1452918
1.0    1069561
3.0     691934
2.0     544240

El porcentaje que representa cada valor:
5.0    46.23
4.0    20.78
1.0    15.30
3.0     9.90
2.0     7.79


## Column ``business_id``

Comenzaremos buscando valores nulos mediante una función de nuestro módulo personalizado.

In [16]:
Her.nulls(df_reviews,'business_id')

The column "business_id" does not have nulls


Unnamed: 0,review_id,user_id,business_id,stars,text,date


Vamos a buscar si existen registros vacíos.

In [17]:
Her.empty_values(df_reviews,'business_id')

The column "business_id" does not have empty values


Se puede observar que los cinco principales negocios tienen más de cinco mil y hasta más de siete mil reseñas realizadas por clientes. Estos datos se presentan con fines de visualización.

In [18]:
df_reviews['business_id'].value_counts().head()

business_id
_ab50qdWOk0DdB6XOrBitw    7673
ac1AeYqs8Z4_e2X5M3if2A    7516
GXFMD0Z4jEVZBCsbPf4CTQ    6160
ytynqOUb3hjKeJfRj5Tshw    5778
oBNrLz4EDhiscSlbOl8uAw    5264
Name: count, dtype: int64

## Column ``user_id``

Comenzaremos buscando valores nulos mediante una función de nuestro módulo personalizado.

In [19]:
Her.nulls(df_reviews,'user_id')

The column "user_id" does not have nulls


Unnamed: 0,review_id,user_id,business_id,stars,text,date


Vamos a buscar si existen registros vacíos.

In [20]:
Her.empty_values(df_reviews,'user_id')

The column "user_id" does not have empty values


Se puede observar que los cinco principales usuarios tienen más de mil quinientos y hasta más de tres mil reseñas realizadas. Estos datos se presentan con fines de visualización.

In [21]:
df_reviews['user_id'].value_counts().head()

user_id
_BcWyKQL16ndpBdggh2kNA    3048
Xw7ZjaGfr0WNVt6s_5KZfA    1840
0Igx-a1wAstiBDerGxXk2A    1747
-G7Zkl1wIWBBmD0KRy_sCw    1682
ET8n-r7glWYqZhuR6GcdNw    1653
Name: count, dtype: int64

Después de analizar todas las columnas, se agregará una columna adicional llamada 'id_review_yelp', que nos servirá para identificar de qué plataforma es el usuario al momento de conectar la información con los datos de Google.

In [23]:
df_reviews['id_review_yelp'] = range(0,len(df_reviews))

## Exportamos los datos

In [25]:
df_reviews.to_csv('df_reviews.csv')

Concluido este ETL pasaremos al siguiente de usuarios.