## Data Cleaning - tripadvisor

In [1]:
#pip install tqdm

In [2]:
import requests as req
import re
import numpy as np
import pandas as pd
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

import time
from tqdm import tqdm
import warnings
warnings.filterwarnings('ignore')

import sys
sys.path.append('../src')

In [2]:
df1 = pd.read_csv('./datos/data1.csv')

In [3]:
df1.tail()

Unnamed: 0,0,1,2,3,4,5,6,7
61,56. Latasia,480 opinionesAbierto ahora,"Peruana, Latina€€ - €€€Carta",Buenísimo,Cocina creativa muy sabrosa,,,
62,57. Sibuya Urban Sushi Bar X-Madrid,337 opinionesAbierto ahora,"Japonesa, Sushi€€ - €€€Carta",11.6 km,Alcorcón,super bien,Nunca falla,
63,58. La Pizzateca,1150 opinionesCerrado ahora,"Italiana, Pizza€",La mejor pizza de queso que he comido nunca.,Los jóvenes que nos atendieron nos dieron la b...,Hacer pedido online,,
64,59. Sibuya Urban Sushi Bar Madrid C/ibiza,724 opinionesAbierto ahora,"Japonesa, Sushi€€ - €€€Carta",Delicioso,Buen trato y buena comida,,,
65,60. Inclán Brutal Bar,5570 opinionesAbierto ahora,"Bar, Mediterránea€€ - €€€Carta",Un lugar diferente donde comer,Sitio para repetir,,,


In [4]:
df2 = pd.read_csv('./datos/data2.csv')

In [5]:
df2.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,Patrocinado,La Cúpula - Salón Japonés,3 opinionesCerrado ahora,"Japonesa, Internacional€€ - €€€Carta",Gran trato y espectacular local,Beware,Reservar,,,,
1,61. CHILA,88 opinionesAbierto ahora,"China, Café€€ - €€€Carta",Buen y original restaurante chino,Excelente comida asiática,,,,,,
2,62. Angelita Madrid,809 opinionesAbierto ahora,"Internacional, Mediterránea€€ - €€€",centrico y muy buen vino y comida,EXCELENTE SERVICIO,,,,,,
3,63. Divino Tinto,278 opinionesCerrado ahora,"Mediterránea, Europea€€ - €€€",Recomendado 100%,Espectacular,,,,,,
4,64. Pizzamascalzone,157 opinionesAbierto ahora,"Italiana, Pizza€€ - €€€Carta",Experiencia única,Masa perfecta !!!,Hacer pedido online,,,,,


In [6]:
# Uno ambos dataframes para comenzar con la limpieza de un único df. 

df = pd.concat([df1, df2], ignore_index = True)

In [7]:
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,Patrocinado,Yakiniku Rikyu,267 opinionesAbierto ahora,"Japonesa, Barbacoa€€ - €€€Carta",Para repetir sin duda,Muy buen lugar tranquilo,Reservar,,,,
1,1. Bardero,106 opinionesAbierto ahora,"Mediterránea, Europea€€ - €€€Carta",Comida espectacular por 37€ por persona,Una experiencia imperdible ir a comer en Barde...,,,,,,
2,2. Pizzart Fuencarral,940 opinionesAbierto ahora,"Italiana, Pizza€€ - €€€Carta",Excelente comida,Buenísimo todo perfecto 👌🏽,Hacer pedido online,,,,,
3,3. Ornella Velázquez,2317 opinionesAbierto ahora,"Italiana, Mediterránea€€ - €€€Carta",La parmigiana de la nonna y la atencion 10/10,Buen italiano en Madrid,,,,,,
4,4. Lettera Trattoria moderna,1564 opinionesAbierto ahora,"Italiana, Mediterránea€€ - €€€Carta",Muy recomendable,Genial,ReservarHacer pedido online,,,,,


In [8]:
len(df)

345

- Voy a tratar de cambiar algunas columnas que tienen información relevante, sin embargo están seleccionadas y su informacion en las columnas está dispuesta de forma diferente, por lo que nos puede dar problemas. 
    - Veo que en la columna '0', hay varias filas con las palabras 'Patrocinado' y 'MICHELIN'. ESTAS SON LAS QUE DEBEMOS TRATAR.
    - SELECCIONO ESTAS y las meto en un dataframe único 'nuevo_df' -> TRABAJAR CON ESTAS.

In [9]:
# Encuentra las filas que tienen 'Patrocinado' o 'MICHELIN' en cualquier columna

filtro = df.apply(lambda row: 'Patrocinado' in row.values or 'MICHELIN' in row.values, axis=1)

In [10]:
#Posteriormente elimino del dataframe completo el filtro que acabo de ejecutar para la selección anterior. 

df_sin_patrocinados_michelin = df[~filtro]    # Invierte el filtro para seleccionar las filas que NO cumplen con la condición

In [11]:
df_sin_patrocinados_michelin.tail()  # Imprime el DataFrame resultante sin las filas que cumplen con la condición

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
340,296. Mad by Robleño,35 opinionesAbierto ahora,"Mediterránea, Española€€ - €€€",Para repetir.,¡Deliciosa cocina casera!,,,,,,
341,297. El Cunzato,31 opiniones,"Italiana, Mediterránea€",¡Gran descubrimiento!,Comida y personal TOP!,Hacer pedido online,,,,,
342,298. Crudo,13 opinionesAbierto ahora,"Mediterránea, Saludable€€ - €€€Carta",Muy recomendable,Excelente,Hacer pedido online,,,,,
343,299. La Lonja Restaurante,550 opinionesCierra en 4 minutos,"Marisco, Internacional€€ - €€€Carta",Agradable sitio en un lugar privilegiado,Excelente Experiencia,Reservar,,,,,
344,300. Federica By Chef Oswaldo Sanchez,72 opiniones,"Italiana, Latina€€ - €€€",BUENÍSIMO,Federica\Cachaoeichin,,,,,,


In [12]:
nuevo_df = df[filtro]
nuevo_df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,Patrocinado,Yakiniku Rikyu,267 opinionesAbierto ahora,"Japonesa, Barbacoa€€ - €€€Carta",Para repetir sin duda,Muy buen lugar tranquilo,Reservar,,,,
6,Patrocinado,La Cúpula - Salón Japonés,3 opinionesCerrado ahora,"Japonesa, Internacional€€ - €€€Carta",Gran trato y espectacular local,Beware,Reservar,,,,
12,Patrocinado,Punch Room - The Madrid Edition,6 opinionesCerrado hoy,"Bares y pubs, Bar",Speakeasy,BAR,,,,,
33,Patrocinado,Punch Room - The Madrid Edition,6 opinionesCerrado hoy,"Bares y pubs, Bar",Speakeasy,BAR,,,,,
35,MICHELIN,32. marmitón,89 opinionesAbierto ahora,"Mediterránea, Europea€€ - €€€Carta",Sorprendente,Excelente,Reservar,,,,


In [13]:
len(nuevo_df)

35

In [14]:
len(df_sin_patrocinados_michelin)

310

In [15]:
data_nuevo = nuevo_df.copy()

- Creo una columna temporaL de 'data', de la columna inicialmente filtrada (la que contiene filas con las palabras 'Patrocinado' y 'MICHELIN')
    - Hago esto para eliminar dicha columna y moverla a otro lugar del dataframe. 

In [16]:
columna_temporal = data_nuevo['0']
columna_temporal.head()

0     Patrocinado
6     Patrocinado
12    Patrocinado
33    Patrocinado
35       MICHELIN
Name: 0, dtype: object

In [17]:
data_nuevo = data_nuevo.drop(columns=['0'])

In [18]:
data_nuevo.insert(3, 'temporal', columna_temporal)

In [19]:
data_nuevo.head()

Unnamed: 0,1,2,3,temporal,4,5,6,7,8,9,10
0,Yakiniku Rikyu,267 opinionesAbierto ahora,"Japonesa, Barbacoa€€ - €€€Carta",Patrocinado,Para repetir sin duda,Muy buen lugar tranquilo,Reservar,,,,
6,La Cúpula - Salón Japonés,3 opinionesCerrado ahora,"Japonesa, Internacional€€ - €€€Carta",Patrocinado,Gran trato y espectacular local,Beware,Reservar,,,,
12,Punch Room - The Madrid Edition,6 opinionesCerrado hoy,"Bares y pubs, Bar",Patrocinado,Speakeasy,BAR,,,,,
33,Punch Room - The Madrid Edition,6 opinionesCerrado hoy,"Bares y pubs, Bar",Patrocinado,Speakeasy,BAR,,,,,
35,32. marmitón,89 opinionesAbierto ahora,"Mediterránea, Europea€€ - €€€Carta",MICHELIN,Sorprendente,Excelente,Reservar,,,,


In [20]:
df_sin_patrocinados_michelin.tail()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
340,296. Mad by Robleño,35 opinionesAbierto ahora,"Mediterránea, Española€€ - €€€",Para repetir.,¡Deliciosa cocina casera!,,,,,,
341,297. El Cunzato,31 opiniones,"Italiana, Mediterránea€",¡Gran descubrimiento!,Comida y personal TOP!,Hacer pedido online,,,,,
342,298. Crudo,13 opinionesAbierto ahora,"Mediterránea, Saludable€€ - €€€Carta",Muy recomendable,Excelente,Hacer pedido online,,,,,
343,299. La Lonja Restaurante,550 opinionesCierra en 4 minutos,"Marisco, Internacional€€ - €€€Carta",Agradable sitio en un lugar privilegiado,Excelente Experiencia,Reservar,,,,,
344,300. Federica By Chef Oswaldo Sanchez,72 opiniones,"Italiana, Latina€€ - €€€",BUENÍSIMO,Federica\Cachaoeichin,,,,,,


- Ahora ya puedo volver a unir los dataframes. 

In [21]:
data_nuevo.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10']

In [22]:
data_nuevo.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,Yakiniku Rikyu,267 opinionesAbierto ahora,"Japonesa, Barbacoa€€ - €€€Carta",Patrocinado,Para repetir sin duda,Muy buen lugar tranquilo,Reservar,,,,
6,La Cúpula - Salón Japonés,3 opinionesCerrado ahora,"Japonesa, Internacional€€ - €€€Carta",Patrocinado,Gran trato y espectacular local,Beware,Reservar,,,,
12,Punch Room - The Madrid Edition,6 opinionesCerrado hoy,"Bares y pubs, Bar",Patrocinado,Speakeasy,BAR,,,,,
33,Punch Room - The Madrid Edition,6 opinionesCerrado hoy,"Bares y pubs, Bar",Patrocinado,Speakeasy,BAR,,,,,
35,32. marmitón,89 opinionesAbierto ahora,"Mediterránea, Europea€€ - €€€Carta",MICHELIN,Sorprendente,Excelente,Reservar,,,,


In [23]:
# Concatenar los DataFrames y resetear el índice

data = pd.concat([data_nuevo, df_sin_patrocinados_michelin], ignore_index = True)

In [24]:
data.tail()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
340,296. Mad by Robleño,35 opinionesAbierto ahora,"Mediterránea, Española€€ - €€€",Para repetir.,¡Deliciosa cocina casera!,,,,,,
341,297. El Cunzato,31 opiniones,"Italiana, Mediterránea€",¡Gran descubrimiento!,Comida y personal TOP!,Hacer pedido online,,,,,
342,298. Crudo,13 opinionesAbierto ahora,"Mediterránea, Saludable€€ - €€€Carta",Muy recomendable,Excelente,Hacer pedido online,,,,,
343,299. La Lonja Restaurante,550 opinionesCierra en 4 minutos,"Marisco, Internacional€€ - €€€Carta",Agradable sitio en un lugar privilegiado,Excelente Experiencia,Reservar,,,,,
344,300. Federica By Chef Oswaldo Sanchez,72 opiniones,"Italiana, Latina€€ - €€€",BUENÍSIMO,Federica\Cachaoeichin,,,,,,


In [25]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 345 entries, 0 to 344
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       345 non-null    object
 1   1       345 non-null    object
 2   2       345 non-null    object
 3   3       345 non-null    object
 4   4       345 non-null    object
 5   5       150 non-null    object
 6   6       48 non-null     object
 7   7       17 non-null     object
 8   8       4 non-null      object
 9   9       3 non-null      object
 10  10      3 non-null      object
dtypes: object(11)
memory usage: 29.8+ KB


- Vemos que hay una cantidad muy elevada de nulos en las ultimas columnas. 
- Voy a eliminar las columnas de la 5 a la 10, ya que no me van a dar ningún tipo de información.

In [26]:
data = data.drop(data.columns[5:11], axis=1)

In [27]:
data.head()

Unnamed: 0,0,1,2,3,4
0,Yakiniku Rikyu,267 opinionesAbierto ahora,"Japonesa, Barbacoa€€ - €€€Carta",Patrocinado,Para repetir sin duda
1,La Cúpula - Salón Japonés,3 opinionesCerrado ahora,"Japonesa, Internacional€€ - €€€Carta",Patrocinado,Gran trato y espectacular local
2,Punch Room - The Madrid Edition,6 opinionesCerrado hoy,"Bares y pubs, Bar",Patrocinado,Speakeasy
3,Punch Room - The Madrid Edition,6 opinionesCerrado hoy,"Bares y pubs, Bar",Patrocinado,Speakeasy
4,32. marmitón,89 opinionesAbierto ahora,"Mediterránea, Europea€€ - €€€Carta",MICHELIN,Sorprendente


In [28]:
data.describe()

Unnamed: 0,0,1,2,3,4
count,345,345,345,345,345
unique,303,285,127,261,285
top,La Cúpula - Salón Japonés,3 opinionesCerrado ahora,"Italiana, Pizza€€ - €€€Carta",MICHELIN,Gran trato y espectacular local
freq,11,11,28,20,11


In [29]:
eliminar=['La Cúpula - Salón Japonés']   # quitamos las filas que se repiten y no nos interesan porque se han colado
data = data[~data['0'].isin(eliminar)]

In [30]:
data.head()

Unnamed: 0,0,1,2,3,4
0,Yakiniku Rikyu,267 opinionesAbierto ahora,"Japonesa, Barbacoa€€ - €€€Carta",Patrocinado,Para repetir sin duda
2,Punch Room - The Madrid Edition,6 opinionesCerrado hoy,"Bares y pubs, Bar",Patrocinado,Speakeasy
3,Punch Room - The Madrid Edition,6 opinionesCerrado hoy,"Bares y pubs, Bar",Patrocinado,Speakeasy
4,32. marmitón,89 opinionesAbierto ahora,"Mediterránea, Europea€€ - €€€Carta",MICHELIN,Sorprendente
5,34. Vinoteca Moratín,1221 opinionesCierra en 13 minutos,"Internacional, Mediterránea€€ - €€€Carta",MICHELIN,Simplemente extraordinario


In [31]:
len(data)

334

In [32]:
data['0'] = data['0'].str.replace(r'\d+\.\s', '', regex=True)   #eliminamos los numeros de nombre

In [33]:
data = data.reset_index(drop=True)

In [34]:
data.tail()

Unnamed: 0,0,1,2,3,4
329,Mad by Robleño,35 opinionesAbierto ahora,"Mediterránea, Española€€ - €€€",Para repetir.,¡Deliciosa cocina casera!
330,El Cunzato,31 opiniones,"Italiana, Mediterránea€",¡Gran descubrimiento!,Comida y personal TOP!
331,Crudo,13 opinionesAbierto ahora,"Mediterránea, Saludable€€ - €€€Carta",Muy recomendable,Excelente
332,La Lonja Restaurante,550 opinionesCierra en 4 minutos,"Marisco, Internacional€€ - €€€Carta",Agradable sitio en un lugar privilegiado,Excelente Experiencia
333,Federica By Chef Oswaldo Sanchez,72 opiniones,"Italiana, Latina€€ - €€€",BUENÍSIMO,Federica\Cachaoeichin


In [35]:
data['1'] = data['1'].str.replace('Cierra en 4 minutos', '')
data['1'] = data['1'].str.replace('Cerrado hoy', '')
data['1'] = data['1'].str.replace('Abierto ahora', '')
data['1'] = data['1'].str.replace('Cerrado ahora', '')
data['1'] = data['1'].str.replace('Cierra en 13 minutos', '')


- La columna '2' la transformamos en 2 columnas diferentes: 'precio' y 'gastronomia'

In [36]:
data['precio'] = data['2'].str.extract(r'(€+\s?-?\s?€*€*)')
data['precio'].head()

0    €€ - €€€
1         NaN
2         NaN
3    €€ - €€€
4    €€ - €€€
Name: precio, dtype: object

In [37]:
data['gastronomia'] = data['2'].str.extract(r'([^,0-9]+)?')
data['gastronomia'].head()

0         Japonesa
1     Bares y pubs
2     Bares y pubs
3     Mediterránea
4    Internacional
Name: gastronomia, dtype: object

In [38]:
data['precio'] = data['2'].str.extract(r'(€+\s?-?\s?€*€*)')
data['gastronomia'] = data['2'].str.extract(r'([^,0-9]+)?')

# Visualiza el resultado
data.head()

Unnamed: 0,0,1,2,3,4,precio,gastronomia
0,Yakiniku Rikyu,267 opiniones,"Japonesa, Barbacoa€€ - €€€Carta",Patrocinado,Para repetir sin duda,€€ - €€€,Japonesa
1,Punch Room - The Madrid Edition,6 opiniones,"Bares y pubs, Bar",Patrocinado,Speakeasy,,Bares y pubs
2,Punch Room - The Madrid Edition,6 opiniones,"Bares y pubs, Bar",Patrocinado,Speakeasy,,Bares y pubs
3,marmitón,89 opiniones,"Mediterránea, Europea€€ - €€€Carta",MICHELIN,Sorprendente,€€ - €€€,Mediterránea
4,Vinoteca Moratín,1221 opiniones,"Internacional, Mediterránea€€ - €€€Carta",MICHELIN,Simplemente extraordinario,€€ - €€€,Internacional


In [39]:
data = data.drop(['2'], axis=1)

In [40]:
data = data.drop(['4'], axis=1)

In [41]:
data.head()

Unnamed: 0,0,1,3,precio,gastronomia
0,Yakiniku Rikyu,267 opiniones,Patrocinado,€€ - €€€,Japonesa
1,Punch Room - The Madrid Edition,6 opiniones,Patrocinado,,Bares y pubs
2,Punch Room - The Madrid Edition,6 opiniones,Patrocinado,,Bares y pubs
3,marmitón,89 opiniones,MICHELIN,€€ - €€€,Mediterránea
4,Vinoteca Moratín,1221 opiniones,MICHELIN,€€ - €€€,Internacional


In [42]:
data.columns=['restaurante','opinion','reseña','precio','gastronomia'] # renombramos columnas

In [43]:
data.head()

Unnamed: 0,restaurante,opinion,reseña,precio,gastronomia
0,Yakiniku Rikyu,267 opiniones,Patrocinado,€€ - €€€,Japonesa
1,Punch Room - The Madrid Edition,6 opiniones,Patrocinado,,Bares y pubs
2,Punch Room - The Madrid Edition,6 opiniones,Patrocinado,,Bares y pubs
3,marmitón,89 opiniones,MICHELIN,€€ - €€€,Mediterránea
4,Vinoteca Moratín,1221 opiniones,MICHELIN,€€ - €€€,Internacional


In [46]:
data.precio.isnull().sum()

5

In [47]:
data = data.dropna(subset=['precio'])

In [54]:
# vemos si hay duplicados, y si es asi, los eliminaremos, ya que no nos interesa que haya datos dos veces. Solamente ocuparán espacio.

num_duplicates = data.duplicated().sum()
num_duplicates

29

In [55]:
data = data.drop_duplicates()

In [57]:
len(data)

300

In [58]:
from rest import precio
data['precio'] = data['precio'].apply(precio)

In [59]:
data.head()

Unnamed: 0,restaurante,opinion,reseña,precio,gastronomia
0,Yakiniku Rikyu,267 opiniones,Patrocinado,Medio,Japonesa
3,marmitón,89 opiniones,MICHELIN,Medio,Mediterránea
4,Vinoteca Moratín,1221 opiniones,MICHELIN,Medio,Internacional
6,Pilar Akaneya,276 opiniones,MICHELIN,Alto,Japonesa
7,Gioia,387 opiniones,MICHELIN,Medio,Italiana


In [61]:
data = data.reset_index(drop=True)

In [63]:
column_order = ['restaurante', 'gastronomia', 'precio', 'opinion', 'reseña']
data = data[column_order]

In [64]:
data.head()

Unnamed: 0,restaurante,gastronomia,precio,opinion,reseña
0,Yakiniku Rikyu,Japonesa,Medio,267 opiniones,Patrocinado
1,marmitón,Mediterránea,Medio,89 opiniones,MICHELIN
2,Vinoteca Moratín,Internacional,Medio,1221 opiniones,MICHELIN
3,Pilar Akaneya,Japonesa,Alto,276 opiniones,MICHELIN
4,Gioia,Italiana,Medio,387 opiniones,MICHELIN


In [66]:
data_rest = data.copy()

In [67]:
data_rest.to_csv('../restaurantes/datos/data_rest.csv', index=False, encoding='utf-8')