## Dataset consejos
### Limpieza Inicial

In [1]:
import pandas as pd

df_consejos = pd.read_json('Dataset/datos_consejos.json', lines=True, chunksize=100)

df_consejos

<pandas.io.json._json.JsonReader at 0x7fda614f11d0>

### Carga del fichero

Este fichero, al contrario que el resto, está en formato JSON por lo que no podemos hacer la carga directamente.
Para cargarlo, lo abrimos como un fichero regular y con la librería de JSON lo leemos. Al leerlo obtenemos un diccionario (por la sintaxis de JSON) y lo transformamos a Dataframe con una función de Pandas.

In [2]:
import pandas as pd
import json

with open('Dataset/datos_consejos.json') as f:
   json_consejos = json.load(f)


In [3]:
json_consejos["data"]

[{'index': 0,
  'usuario_id': 'UPw5DWs_b-e2JRBS-t37Ag',
  'negocio_id': 'VaKXUpmWTTWDKbpJ3aQdMw',
  'texto': 'Great for watching games, ufc, and whatever else tickles yer fancy',
  'fecha': '2014-03-27 03:51:24',
  'num_likes': 0},
 {'index': 1,
  'usuario_id': 'Ocha4kZBHb4JK0lOWvE0sg',
  'negocio_id': 'OPiPeoJiv92rENwbq76orA',
  'texto': 'Happy Hour 2-4 daily with 1/2 price drinks and slushes AND after 8 half price shakes.  They actually have a peanut butter and bacon shake.',
  'fecha': '2013-05-25 06:00:56',
  'num_likes': 0},
 {'index': 2,
  'usuario_id': 'jRyO2V1pA4CdVVqCIOPc1Q',
  'negocio_id': '5KheTjYPu1HcQzQFtm4_vw',
  'texto': 'Good chips and salsa. Loud at times. Good service. Bathrooms AWFUL. So that tanks my view on this place.',
  'fecha': '2011-12-26 01:46:17',
  'num_likes': 0},
 {'index': 3,
  'usuario_id': 'FuTJWFYm4UKqewaosss1KA',
  'negocio_id': 'TkoyGi8J7YFjA6SbaRzrxg',
  'texto': 'The setting and decoration here is amazing. Come check out the waterfall fountain in

In [4]:
# Pasamos el diccionario generador por JSON READER a Dataframe
df_consejos = pd.DataFrame.from_dict(json_consejos["data"])
df_consejos

Unnamed: 0,index,usuario_id,negocio_id,texto,fecha,num_likes
0,0,UPw5DWs_b-e2JRBS-t37Ag,VaKXUpmWTTWDKbpJ3aQdMw,"Great for watching games, ufc, and whatever el...",2014-03-27 03:51:24,0
1,1,Ocha4kZBHb4JK0lOWvE0sg,OPiPeoJiv92rENwbq76orA,Happy Hour 2-4 daily with 1/2 price drinks and...,2013-05-25 06:00:56,0
2,2,jRyO2V1pA4CdVVqCIOPc1Q,5KheTjYPu1HcQzQFtm4_vw,Good chips and salsa. Loud at times. Good serv...,2011-12-26 01:46:17,0
3,3,FuTJWFYm4UKqewaosss1KA,TkoyGi8J7YFjA6SbaRzrxg,The setting and decoration here is amazing. Co...,2014-03-23 21:32:49,0
4,4,LUlKtaM3nXd-E4N4uOk_fQ,AkL6Ous6A1atZejfZXn1Bg,Molly is definately taking a picture with Sant...,2012-10-06 00:19:27,0
...,...,...,...,...,...,...
1223089,1223089,nus5X9JKgU_SzfAL4vhJrg,qdwwiRKwnhdlr9QcgJuzbg,"Very good class, great instructor!!",2018-08-05 20:58:09,0
1223090,1223090,95wqYGU6-OiHqRPZP0uAWw,wrs4Zbz17q_G49AIRxRPVw,Excellent food,2018-08-15 18:05:22,0
1223091,1223091,HtLaONYabidSxMS1eGHcXA,wEc4JE2NYQr1RnGjGr4q7w,Jess is the best bartender!! Go check her out!,2018-10-02 03:34:58,0
1223092,1223092,T4R5ZKfcGt1GIAgjCh67eA,n5Hc_iMVkyxcS0SXiBCbOQ,Excellent food and AMAZING service by Anneliese!!,2018-10-13 16:57:50,0


### Búsqueda de valores nulos

In [5]:
print("¿Hay valores nulos?\n", pd.isnull(df_consejos).any(), "\n")
print("¿Cuantos?\n", pd.isnull(df_consejos).sum(), "\n")

¿Hay valores nulos?
 index         False
usuario_id    False
negocio_id    False
texto          True
fecha         False
num_likes     False
dtype: bool 

¿Cuantos?
 index         0
usuario_id    0
negocio_id    0
texto         4
fecha         0
num_likes     0
dtype: int64 



Encontramos 4 instancias que tienen el texto de la opinion nulos, visualizamos estas instancias para confirmar lo que hemos detectado.

In [6]:
import numpy as np

# Buscamos las filas en las que hay nulos para comprobar la anomalía y encontrar explicaciones
filas, _ = np.where(df_consejos.isnull().values == True)

for fila in filas:
    print(str(df_consejos.iloc[fila]) + "\n")

index                         463764
usuario_id    GJJPGC3m5EGJHRDYW5HyZw
negocio_id    _J-nDE8uzOs4dW7FOVN54A
texto                           None
fecha            2018-06-22 02:58:52
num_likes                          0
Name: 463764, dtype: object

index                         581548
usuario_id    42GskOrO9tRGvt2OrC1srg
negocio_id    WcdNwJ1DVcHz_8tzuphweg
texto                           None
fecha            2018-01-16 22:12:53
num_likes                          0
Name: 581548, dtype: object

index                         856381
usuario_id    pQ7cqiX9Ocs9Rk9yBDguRQ
negocio_id    uuaH1UNcqcV-alT6nh42WA
texto                           None
fecha            2018-05-29 02:25:07
num_likes                          0
Name: 856381, dtype: object

index                         961436
usuario_id    wHKGTsPrB_DX4Fur2GGLJQ
negocio_id    PS5ghm09F2km76m4sQNJAw
texto                           None
fecha            2015-01-10 19:53:16
num_likes                          0
Name: 961436, dtype: obje

Tal y como habíamos encontrado, se trata de cuatro instancias que tienen el campo de texto del consejo vacío, ya que no tiene sentido tener un consejo sin el texto, decidimos eliminar estas instancias del dataframe.

In [7]:
import numpy as np

# Tomamos las filas en las que hay nulos para eliminarlas 
filas, _ = np.where(df_consejos.isnull().values == True)

for fila in filas:
    df_consejos = df_consejos.drop(fila, axis=0)
df_consejos

Unnamed: 0,index,usuario_id,negocio_id,texto,fecha,num_likes
0,0,UPw5DWs_b-e2JRBS-t37Ag,VaKXUpmWTTWDKbpJ3aQdMw,"Great for watching games, ufc, and whatever el...",2014-03-27 03:51:24,0
1,1,Ocha4kZBHb4JK0lOWvE0sg,OPiPeoJiv92rENwbq76orA,Happy Hour 2-4 daily with 1/2 price drinks and...,2013-05-25 06:00:56,0
2,2,jRyO2V1pA4CdVVqCIOPc1Q,5KheTjYPu1HcQzQFtm4_vw,Good chips and salsa. Loud at times. Good serv...,2011-12-26 01:46:17,0
3,3,FuTJWFYm4UKqewaosss1KA,TkoyGi8J7YFjA6SbaRzrxg,The setting and decoration here is amazing. Co...,2014-03-23 21:32:49,0
4,4,LUlKtaM3nXd-E4N4uOk_fQ,AkL6Ous6A1atZejfZXn1Bg,Molly is definately taking a picture with Sant...,2012-10-06 00:19:27,0
...,...,...,...,...,...,...
1223089,1223089,nus5X9JKgU_SzfAL4vhJrg,qdwwiRKwnhdlr9QcgJuzbg,"Very good class, great instructor!!",2018-08-05 20:58:09,0
1223090,1223090,95wqYGU6-OiHqRPZP0uAWw,wrs4Zbz17q_G49AIRxRPVw,Excellent food,2018-08-15 18:05:22,0
1223091,1223091,HtLaONYabidSxMS1eGHcXA,wEc4JE2NYQr1RnGjGr4q7w,Jess is the best bartender!! Go check her out!,2018-10-02 03:34:58,0
1223092,1223092,T4R5ZKfcGt1GIAgjCh67eA,n5Hc_iMVkyxcS0SXiBCbOQ,Excellent food and AMAZING service by Anneliese!!,2018-10-13 16:57:50,0


### Comprobación sintáctica de la fecha

Comprobamos si la fecha es correcta sintácticamente utilizando una expresión regular. No se imprime ninguna fecha incorrecta, por lo que todas están bien.

In [8]:
import re
pattern = re.compile("[0-9][0-9][0-9][0-9][-][0-1][0-9][-][0-3][0-9]\s[0-2][0-9][:][0-5][0-9][:][0-5][0-9]")


def preprocesa(x):
    if(pattern.match(x) == None):
        print("date not matching: " + str(x))
        return True
    return False

df_consejos['fecha'].apply(lambda x: preprocesa(x))

0          False
1          False
2          False
3          False
4          False
           ...  
1223089    False
1223090    False
1223091    False
1223092    False
1223093    False
Name: fecha, Length: 1223090, dtype: bool

### Transformación inicial

Una vez que hemos pasado la cadena de texto del JSON a dataframe y hemos eliminado algunos valores nulos, vamos a cambiar el formato de la fecha para que sea más manejable. En primer lugar, eliminamos el atributo index ya que no aporta ninguna información a las instancias del dataframe. 

De todos los elementos que podemos quedarnos de la fecha, decidimos quedarnos con el día, el mes, el año, la hora y el minuto, ya que puede ser que posteriormente nos sean útiles. El atributo que puede llegar a ser más controversial es el minuto puesto que se puede considerar que es hilar demasiado fino. Sin embargo, lo vemos necesario para casos en los que por ejemplo queramos analizar consejos muy cercanos entre sí.

In [9]:
# Eliminamos la columna índice que no aporta información
df_consejos = df_consejos.drop("index", axis=1)
df_consejos

Unnamed: 0,usuario_id,negocio_id,texto,fecha,num_likes
0,UPw5DWs_b-e2JRBS-t37Ag,VaKXUpmWTTWDKbpJ3aQdMw,"Great for watching games, ufc, and whatever el...",2014-03-27 03:51:24,0
1,Ocha4kZBHb4JK0lOWvE0sg,OPiPeoJiv92rENwbq76orA,Happy Hour 2-4 daily with 1/2 price drinks and...,2013-05-25 06:00:56,0
2,jRyO2V1pA4CdVVqCIOPc1Q,5KheTjYPu1HcQzQFtm4_vw,Good chips and salsa. Loud at times. Good serv...,2011-12-26 01:46:17,0
3,FuTJWFYm4UKqewaosss1KA,TkoyGi8J7YFjA6SbaRzrxg,The setting and decoration here is amazing. Co...,2014-03-23 21:32:49,0
4,LUlKtaM3nXd-E4N4uOk_fQ,AkL6Ous6A1atZejfZXn1Bg,Molly is definately taking a picture with Sant...,2012-10-06 00:19:27,0
...,...,...,...,...,...
1223089,nus5X9JKgU_SzfAL4vhJrg,qdwwiRKwnhdlr9QcgJuzbg,"Very good class, great instructor!!",2018-08-05 20:58:09,0
1223090,95wqYGU6-OiHqRPZP0uAWw,wrs4Zbz17q_G49AIRxRPVw,Excellent food,2018-08-15 18:05:22,0
1223091,HtLaONYabidSxMS1eGHcXA,wEc4JE2NYQr1RnGjGr4q7w,Jess is the best bartender!! Go check her out!,2018-10-02 03:34:58,0
1223092,T4R5ZKfcGt1GIAgjCh67eA,n5Hc_iMVkyxcS0SXiBCbOQ,Excellent food and AMAZING service by Anneliese!!,2018-10-13 16:57:50,0


In [10]:
# Dividimos la fecha en año, mes , dia, hora y minuto
df_consejos['anyo'] = pd.DatetimeIndex(df_consejos['fecha']).year
df_consejos['mes'] = pd.DatetimeIndex(df_consejos['fecha']).month
df_consejos['dia'] = pd.DatetimeIndex(df_consejos['fecha']).day
df_consejos['hora'] = pd.DatetimeIndex(df_consejos['fecha']).hour
df_consejos['minuto'] = pd.DatetimeIndex(df_consejos['fecha']).minute

# Eliminamos el atributo fecha
df_consejos = df_consejos.drop("fecha", axis=1)
df_consejos

Unnamed: 0,usuario_id,negocio_id,texto,num_likes,anyo,mes,dia,hora,minuto
0,UPw5DWs_b-e2JRBS-t37Ag,VaKXUpmWTTWDKbpJ3aQdMw,"Great for watching games, ufc, and whatever el...",0,2014,3,27,3,51
1,Ocha4kZBHb4JK0lOWvE0sg,OPiPeoJiv92rENwbq76orA,Happy Hour 2-4 daily with 1/2 price drinks and...,0,2013,5,25,6,0
2,jRyO2V1pA4CdVVqCIOPc1Q,5KheTjYPu1HcQzQFtm4_vw,Good chips and salsa. Loud at times. Good serv...,0,2011,12,26,1,46
3,FuTJWFYm4UKqewaosss1KA,TkoyGi8J7YFjA6SbaRzrxg,The setting and decoration here is amazing. Co...,0,2014,3,23,21,32
4,LUlKtaM3nXd-E4N4uOk_fQ,AkL6Ous6A1atZejfZXn1Bg,Molly is definately taking a picture with Sant...,0,2012,10,6,0,19
...,...,...,...,...,...,...,...,...,...
1223089,nus5X9JKgU_SzfAL4vhJrg,qdwwiRKwnhdlr9QcgJuzbg,"Very good class, great instructor!!",0,2018,8,5,20,58
1223090,95wqYGU6-OiHqRPZP0uAWw,wrs4Zbz17q_G49AIRxRPVw,Excellent food,0,2018,8,15,18,5
1223091,HtLaONYabidSxMS1eGHcXA,wEc4JE2NYQr1RnGjGr4q7w,Jess is the best bartender!! Go check her out!,0,2018,10,2,3,34
1223092,T4R5ZKfcGt1GIAgjCh67eA,n5Hc_iMVkyxcS0SXiBCbOQ,Excellent food and AMAZING service by Anneliese!!,0,2018,10,13,16,57


### Análisis descriptivo

Inicialmente, lanzamos un describe para conocer cómo se distribuyen los datos y posibles incoherencias en los mismos, como número de likes negativos... etc.

In [11]:
# Lo ponemos de esta forma para quitar la notación científica
df_consejos.describe().apply(lambda s: s.apply(lambda x: format(x, 'g')))


Unnamed: 0,num_likes,anyo,mes,dia,hora,minuto
count,1223090.0,1223090.0,1223090.0,1223090.0,1223090.0,1223090.0
mean,0.0164738,2014.08,6.37506,15.7498,12.0047,29.5622
std,0.14564,2.29733,3.2916,8.80876,8.43059,17.3066
min,0.0,2009.0,1.0,1.0,0.0,0.0
25%,0.0,2012.0,4.0,8.0,3.0,15.0
50%,0.0,2014.0,6.0,16.0,15.0,30.0
75%,0.0,2016.0,9.0,23.0,20.0,45.0
max,15.0,2018.0,12.0,31.0,23.0,59.0
