# Importaciones 

In [77]:
import pandas as pd
import funciones as fun

# Cargamos los datasets

Cargamos el dataset restaurates

In [78]:
restaurants = pd.read_csv('Data/restaurants.csv') 
restaurants.head(3)

Unnamed: 0,id,name,tag,x,y,district,IDDIST,direction,stars,n_reviews,min_price,max_price,platform
0,71036,Restaurante Statera,$$$$||Peruana||contemporánea||Opciones sin glu...,-12.115658,-77.04344,MIRAFLORES,150122,"Avenida Mariscal La Mar 463, Miraflores, Lima ...",50,130,80.0,280.0,tripadvisor
1,72471,Maras Restaurante,$$$$||Peruana||Latina||Internacional||,-12.092106,-77.02466,SAN ISIDRO,150131,Amador Merino Reyna 551 Esquina Calle Begonias...,45,675,158.0,237.0,tripadvisor
2,29667,Ventarrón Restaurante Chiclayano & Barra,$$ - $$$||Peruana||Mariscos||Gastropub||,-12.149373,-77.020706,BARRANCO,150104,"Avenida Grau 276 Frente al Parque Municipal, L...",45,304,12.0,72.0,tripadvisor


In [79]:
restaurants.columns

Index(['id', 'name', 'tag', 'x', 'y', 'district', 'IDDIST', 'direction',
       'stars', 'n_reviews', 'min_price', 'max_price', 'platform'],
      dtype='object')

In [80]:
restaurants['platform'].unique()

array(['tripadvisor', 'googleplaces'], dtype=object)

En este dataframe se puede ver los datos de restaurantes, tales como:
* id : Identificador del restaurante 
* name : nombre del restaurante
* tag : Tipos de comida que ofrece el restaurante 
* x : longitud
* y : latitud
* district : Nombre del distrito donde se ubica el restaurante 
* IDDIST : identificador del distrito 
* direction : Direccion del restaurante
* stars : numero de estrellas
* n_reviews : Numero de reseñas 
* min_price : precio minimo de la carta
* max_price : precio maximo de la carta 
* platform : plataforma de donde se obtuvo el dato 

# Modificación de los nombres de columnas 

In [81]:
nuevos_nombres = {
    'id': 'id_restaurant',
    'name': 'name_restaurat',
    'tag': 'food_type',
    'x': 'longitud',
    'y': 'latitud',
    'district': 'name_district',
    'stars': 'cant_stars',
    'n_reviews': 'cant_reviews'
}

# Utiliza el método rename() con el diccionario de nombres
restaurants.rename(columns=nuevos_nombres, inplace=True)

Eliminaremos las columnas `IDDIST` y `platform`, debido a que son irrelevantes. 

In [82]:
# Elimina las columnas "IDDIST" y "platform"
restaurants = restaurants.drop(["IDDIST", "platform"], axis=1)

# Ahora verificaremos los datos nulos, duplicados, etc.

Función para verificar tipo de datos, donde nos mostrará el numero de datos, el porcentaje de nulos y cantidad de nulos.

In [83]:
def verificar_tipo_datos(df):
    '''
    Realiza un análisis de los tipos de datos y la presencia de valores nulos en un DataFrame.

    Esta función toma un DataFrame como entrada y devuelve un resumen que incluye información sobre
    los tipos de datos en cada columna, el porcentaje de valores no nulos y nulos, así como la
    cantidad de valores nulos por columna.
    '''

    mi_dict = {"nombre_campo": [], "tipo_datos": [], "no_nulos_%": [], "nulos_%": [], "nulos": []}

    for columna in df.columns:
        porcentaje_no_nulos = (df[columna].count() / len(df)) * 100
        mi_dict["nombre_campo"].append(columna)
        mi_dict["tipo_datos"].append(df[columna].apply(type).unique())
        mi_dict["no_nulos_%"].append(round(porcentaje_no_nulos, 2))
        mi_dict["nulos_%"].append(round(100-porcentaje_no_nulos, 2))
        mi_dict["nulos"].append(df[columna].isnull().sum())

    df_info = pd.DataFrame(mi_dict)
        
    return df_info

In [84]:
verificar_tipo_datos(restaurants)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,id_restaurant,[<class 'int'>],100.0,0.0,0
1,name_restaurat,[<class 'str'>],100.0,0.0,0
2,food_type,[<class 'str'>],100.0,0.0,0
3,longitud,[<class 'float'>],100.0,0.0,0
4,latitud,[<class 'float'>],100.0,0.0,0
5,name_district,[<class 'str'>],100.0,0.0,0
6,direction,[<class 'str'>],100.0,0.0,0
7,cant_stars,[<class 'int'>],100.0,0.0,0
8,cant_reviews,[<class 'int'>],100.0,0.0,0
9,min_price,"[<class 'str'>, <class 'float'>]",99.99,0.01,1


In [85]:
restaurants['cant_stars'].unique()

array([50, 45, 40, 35, 30, 25, 20, 10, 15, 44, 42, 38, 41, 39, 46, 43, 47,
       48, 37, 36, 32, 28, 33, 49, 31, 23, 34, 27, 29, 17, 18, 13, 24, 26,
       21, 22], dtype=int64)

In [86]:
# Verificar duplicados
restaurants.duplicated().sum()

0

In [87]:
# Contar valores nulos en cada columna
restaurants.isnull().sum()


id_restaurant     0
name_restaurat    0
food_type         0
longitud          0
latitud           0
name_district     0
direction         0
cant_stars        0
cant_reviews      0
min_price         1
max_price         1
dtype: int64

In [88]:
restaurants[restaurants['min_price'].isnull()]

Unnamed: 0,id_restaurant,name_restaurat,food_type,longitud,latitud,name_district,direction,cant_stars,cant_reviews,min_price,max_price
1716,206521,Eco Resto Park,Restaurante,-12.216637,-76.863226,PACHACAMAC,Calle 5 urbanización Casa Blanca 154A MzE Pach...,44,611,,


In [89]:
restaurants[restaurants['max_price'].isnull()]

Unnamed: 0,id_restaurant,name_restaurat,food_type,longitud,latitud,name_district,direction,cant_stars,cant_reviews,min_price,max_price
1716,206521,Eco Resto Park,Restaurante,-12.216637,-76.863226,PACHACAMAC,Calle 5 urbanización Casa Blanca 154A MzE Pach...,44,611,,


Eliminamos la fila que contiene nulos en los precios. 

In [90]:
restaurants = restaurants.drop(1716)

Verificamos los nombres de los distritos de Lima, se puede ver que hay 44 distritos, esto incliuyendo Lima como tal. 

In [91]:
restaurants['name_district'].nunique()

44

In [92]:
restaurants['name_district'].unique()

array(['MIRAFLORES', 'SAN ISIDRO', 'BARRANCO', 'SAN BORJA', 'CHORRILLOS',
       'LIMA', 'LA VICTORIA', 'SURQUILLO', 'JESUS MARIA', ' ',
       'LA MOLINA', 'LURIN', 'VILLA MARIA DEL TRIUNFO', 'LINCE',
       'SANTIAGO DE SURCO', 'SAN MIGUEL', 'SAN MARTIN DE PORRES', 'ATE',
       'MAGDALENA DEL MAR', 'CHACLACAYO', 'PUNTA HERMOSA',
       'SAN JUAN DE MIRAFLORES', 'PUEBLO LIBRE', 'COMAS', 'SANTA ANITA',
       'CARABAYLLO', 'PACHACAMAC', 'CIENEGUILLA', 'SAN LUIS',
       'SAN JUAN DE LURIGANCHO', 'RIMAC', 'LOS OLIVOS', 'BREÑA',
       'PUENTE PIEDRA', 'LURIGANCHO', 'VILLA EL SALVADOR',
       'INDEPENDENCIA', 'EL AGUSTINO', 'SANTA ROSA', 'ANCON', 'PUCUSANA',
       'SANTA MARIA DEL MAR', 'SAN BARTOLO', 'PUNTA NEGRA'], dtype=object)

In [93]:
#revisamos los tipos de datos y nulos. 
verificar_tipo_datos(restaurants)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,id_restaurant,[<class 'int'>],100.0,0.0,0
1,name_restaurat,[<class 'str'>],100.0,0.0,0
2,food_type,[<class 'str'>],100.0,0.0,0
3,longitud,[<class 'float'>],100.0,0.0,0
4,latitud,[<class 'float'>],100.0,0.0,0
5,name_district,[<class 'str'>],100.0,0.0,0
6,direction,[<class 'str'>],100.0,0.0,0
7,cant_stars,[<class 'int'>],100.0,0.0,0
8,cant_reviews,[<class 'int'>],100.0,0.0,0
9,min_price,[<class 'str'>],100.0,0.0,0


In [94]:
#restaurants.to_csv('Data/restaurants_cleaned.csv')

In [95]:
reviews = pd.read_csv('Data/reviews.csv') 
reviews.head(3)

Unnamed: 0,id_review,review,title,score,likes,id_nick,service,date,platform
0,R1245,Muy buena presentación y servicio sin embargo ...,Muy buena presentación y servicio,3.0,0,uisahelenad2018,71036.0,1 years ago,tripadvisor
1,R1246,Desde la presentación de los platos a la calid...,Una experiencia,5.0,0,turrutia,71036.0,1 years ago,tripadvisor
2,R1247,El mejor lugar para reencontrame con mis amigo...,Felicitaciones a Statera!,5.0,0,orthStar25333985745,71036.0,1 years ago,tripadvisor


In [96]:
reviews['platform'].unique()

array(['tripadvisor', 'googleplaces'], dtype=object)

In [97]:
reviews.columns

Index(['id_review', 'review', 'title', 'score', 'likes', 'id_nick', 'service',
       'date', 'platform'],
      dtype='object')

Se puede ver las siguientes columnas: 
* id_review : Identificador de la reseña.
* review : El texto de la reseña o el comentario.
* title : Título de la reseña en pocas palbras o resumen.
* score : La calificación que esa en un rango de 1 - 5.
* likes: Cantidad de me gusta. 
* id_nick : Identificador del usuario.
* service : Identificador del restaurante a quien se le hace la reseña.
* date : Hace cuanto tiempo fue la reseña
* platform : Plataforma o fuente de donde se obtuvo la información. 

# Modificamos los nombres de las columnas 

In [98]:
nuevos_nombres = {
    'title': 'title_review',
    'likes': 'cant_likes',
    'service': 'id_restaurant'
}

# Utiliza el método rename() con el diccionario de nombres
reviews.rename(columns=nuevos_nombres, inplace=True)

Verificamos los tipos de datos y cantidad de nulos.

In [99]:
verificar_tipo_datos(reviews)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,id_review,[<class 'str'>],100.0,0.0,0
1,review,"[<class 'str'>, <class 'float'>]",60.0,40.0,503369
2,title_review,[<class 'str'>],100.0,0.0,0
3,score,[<class 'float'>],100.0,0.0,0
4,cant_likes,[<class 'int'>],100.0,0.0,0
5,id_nick,[<class 'str'>],100.0,0.0,0
6,id_restaurant,[<class 'float'>],100.0,0.0,0
7,date,[<class 'str'>],100.0,0.0,0
8,platform,[<class 'str'>],100.0,0.0,0


Modificamos el tipo de dato de la columna `review` a tipo string. 

In [106]:
reviews['review']=reviews['review'].astype(str)

Eliminamos las columnas date y platform, esto debido a que date esta como un año antes, dos años antes, no está en tipo de dato ´date´, por lo tanto se vuelte irrelevante, y la columna `platform` tampoco sumará para el sistema de recomendacion. 

In [108]:
reviews = reviews.drop(columns=['date', 'platform'])

Ahora verifiquemos y que todo este limpio, listo para procesar. 

In [109]:
verificar_tipo_datos(reviews)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,id_review,[<class 'str'>],100.0,0.0,0
1,review,[<class 'str'>],100.0,0.0,0
2,title_review,[<class 'str'>],100.0,0.0,0
3,score,[<class 'float'>],100.0,0.0,0
4,cant_likes,[<class 'int'>],100.0,0.0,0
5,id_nick,[<class 'str'>],100.0,0.0,0
6,id_restaurant,[<class 'float'>],100.0,0.0,0


In [110]:
reviews.to_csv('Data/reviews_cleaned.csv')