# **FEA_Eng_ML_Walgreens**

## 1. Importación de Librerías

In [1]:
import pandas as pd # Cargamos la libreria de "pandas" para la manipulación y el análisis de datos
import numpy as np # Cargamos la librería de "numpy" para realizar cálculos lógicos y matemáticos sobre cuadros y matrices en el caso que lo necesitemos
import pyarrow #Cargando la librería "json" nos permitira manipular archivos tipo parquet
import json #Cargando la librería "json" nos permitira manipular archivos tipo JSON
import re
import warnings
warnings.filterwarnings("ignore")
import re

## 2. ETL (Extract - Transform - Load)


### 2.1. Carga de DataSet

In [2]:
#Instanciamos la ruta del archivo de REVIEWS en PARQUET
reviews_ruta = r'Dataset_ML\google_reviews_sitios.parquet'

#Instanciamos la ruta del archivo de GEOCODIFICACION en EXCEL
geo_ruta = r'Dataset_ML\geo_cs.xlsx'

In [3]:
#Leemos el archivo REVIEWS en PARQUET y lo cargamos a nuestro script
df_reviews = pd.read_parquet(reviews_ruta)

#Leemos el archivo GEOCODIFICACION en EXCEL y lo cargamos a nuestro script
df_geo = pd.read_excel(geo_ruta, usecols=lambda x: x not in [0])

In [4]:
#Visualizamos los primeras 5 filas del archivo cargado en un DataFrame
df_reviews.head()

Unnamed: 0,name,gmap_id,user_id,time,rating,text,business_reply,business_name_x,business_name_y
0,Timothy Baldwin,0x887d579ef372c2f7:0x1f347e0e964cd5a4,1.03862e+20,2021-04-13 15:50:43.724,5.0,My sweet lady went in to get us a six pack of ...,No,Dollar General,Dollar General
1,Tiffany Dornink,0x887d579ef372c2f7:0x1f347e0e964cd5a4,1.127672e+20,2021-04-14 19:19:15.145,5.0,Very friendly and organized. Most organized I ...,No,Dollar General,Dollar General
2,Elvin HAtton,0x887d579ef372c2f7:0x1f347e0e964cd5a4,1.098453e+20,2021-02-26 11:58:58.123,3.0,They are out of milk just about every time I'm...,No,Dollar General,Dollar General
3,Chris Cox,0x887d579ef372c2f7:0x1f347e0e964cd5a4,1.021608e+20,2020-07-27 23:18:41.976,4.0,"If you don't have a mask, they have them at th...",No,Dollar General,Dollar General
4,Elisa Agee,0x887d579ef372c2f7:0x1f347e0e964cd5a4,1.130122e+20,2019-07-13 22:57:33.275,5.0,Brand new. Very spacious. Very well designed b...,No,Dollar General,Dollar General


In [5]:
#Visualizamos los primeras 5 filas del archivo cargado en un DataFrame
df_geo.head()

Unnamed: 0.1,Unnamed: 0,site_id,latitude,longitude,state,city,county,is_urban,county_name,state_name
0,0,0x8638869e6b4e3529:0xe8d257447fe41672,30.713368,-94.954344,TX,Livingston,1383972.0,False,Polk,Texas
1,1,0x87528bb7ab938cb3:0x5ee996e34cc50715,40.698585,-111.906406,UT,South Salt Lake,1448031.0,True,Salt Lake,Utah
2,2,0x881614cdcdd1f645:0xe524e597b7563b83,41.452031,-85.267893,IN,Kendallville,450377.0,True,Noble,Indiana
3,3,0x8665a07841a58faf:0xbd68d13ecd2835b0,26.18591,-98.169056,TX,Pharr,1383893.0,True,Hidalgo,Texas
4,4,0x89b865336dbfc08f:0x6762f78f2730a91f,38.874709,-75.824439,MD,Denton,595737.0,True,Caroline,Maryland


### 2.2. Analisís Descriptivo del Dataset

#### 2.2.1. Definición de las Funciones Descriptivas del Dataset

In [6]:
#Definimos algunas funciones para que nos facilita la descripcion de las principales caracteristicas del DataFrame
def caracteristicas_df(df):
    """
    Describe de forma general la base de datos .

    Esta función simplemente muestra el tamaño, información general y
    la cantidad de datos nulos.

    Parametros
    ----------
    df (pandas.DataFrame): El DataFrame que se va a analizar.

    Returns:
    ----------
        - 'df.shape': Numero de filas y columnas
        - 'df.info': Muestra información general del DataFrame

    """
    print('*'*10 + '|'*10 + 'FORMA DE BASE DE DATOS' + '|'*10 + '*'*10, end = '\n'*2)
    print(f'Tiene {df.shape[0]} filas y {df.shape[1]} columnas o variables')
    print(end = '\n'*2)

    print('*'*10 + '|'*10 + 'INFORMACION GENERAL DE LA BASE DE DATOS' + '|'*10 + '*'*10, end = '\n'*2)
    print(df.info(), end = '\n'*2)

def valores_nulos_df(df):
    """
    Revisa presencia de valores nulos en un DataFrame.
    Esta función toma un DataFrame como entrada y devuelve un resumen que incluye información sobre
    el porcentaje de valores no nulos y nulos, así como la ncantidad de valores nulos por columna.

    Parametros:
    ----------
    df (pandas.DataFrame): El DataFrame que se va a analizar.

    Returns:
    ----------
        pandas.DataFrame: Un DataFrame que contiene el resumen de cada columna, incluyendo:
        - 'nombre': Nombre de cada columna.
        - 'no_nulos_%': Porcentaje de valores no nulos en cada columna.
        - 'nulos_%': Porcentaje de valores nulos en cada columna.
        - 'nulos': Cantidad de valores nulos en cada columna.

    """
    mi_df = {"nombre": [], "tipo_datos": [], "nulos_%": [], "nulos": []}

    for columna in df.columns:
        porcentaje_no_nulos = (df[columna].count() / len(df)) * 100
        mi_df["nombre"].append(columna)
        mi_df["tipo_datos"].append(df[columna].apply(type).unique())
        mi_df["nulos_%"].append(round(100-porcentaje_no_nulos, 2))
        mi_df["nulos"].append(df[columna].isnull().sum())

    df_nulos = pd.DataFrame(mi_df)

    return df_nulos

#### 2.2.2. Descripcion del Dataset

In [7]:
#Llamamos a la función creada para visualizar las caracteristicas generales del Dataset
caracteristicas_df(df_reviews)

**********||||||||||FORMA DE BASE DE DATOS||||||||||**********

Tiene 635759 filas y 9 columnas o variables


**********||||||||||INFORMACION GENERAL DE LA BASE DE DATOS||||||||||**********

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 635759 entries, 0 to 635758
Data columns (total 9 columns):
 #   Column           Non-Null Count   Dtype         
---  ------           --------------   -----         
 0   name             635759 non-null  object        
 1   gmap_id          635759 non-null  object        
 2   user_id          635759 non-null  float64       
 3   time             635759 non-null  datetime64[ns]
 4   rating           635759 non-null  float64       
 5   text             351931 non-null  object        
 6   business_reply   635759 non-null  object        
 7   business_name_x  635759 non-null  object        
 8   business_name_y  635759 non-null  object        
dtypes: datetime64[ns](1), float64(2), object(6)
memory usage: 43.7+ MB
None



In [8]:
#Llamamos a la función creada para visualizar las caracteristicas generales del Dataset
caracteristicas_df(df_geo)

**********||||||||||FORMA DE BASE DE DATOS||||||||||**********

Tiene 45803 filas y 10 columnas o variables


**********||||||||||INFORMACION GENERAL DE LA BASE DE DATOS||||||||||**********

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45803 entries, 0 to 45802
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Unnamed: 0   45803 non-null  int64  
 1   site_id      45803 non-null  object 
 2   latitude     45803 non-null  float64
 3   longitude    45803 non-null  float64
 4   state        45803 non-null  object 
 5   city         45803 non-null  object 
 6   county       45802 non-null  float64
 7   is_urban     45803 non-null  bool   
 8   county_name  45802 non-null  object 
 9   state_name   45381 non-null  object 
dtypes: bool(1), float64(3), int64(1), object(5)
memory usage: 3.2+ MB
None



In [9]:
#Llamamos a la función creada para visualizar las caracteristicas generales del Dataset
valores_nulos_df(df_reviews)

Unnamed: 0,nombre,tipo_datos,nulos_%,nulos
0,name,[<class 'str'>],0.0,0
1,gmap_id,[<class 'str'>],0.0,0
2,user_id,[<class 'float'>],0.0,0
3,time,[<class 'pandas._libs.tslibs.timestamps.Timest...,0.0,0
4,rating,[<class 'float'>],0.0,0
5,text,"[<class 'str'>, <class 'NoneType'>]",44.64,283828
6,business_reply,[<class 'str'>],0.0,0
7,business_name_x,[<class 'str'>],0.0,0
8,business_name_y,[<class 'str'>],0.0,0


In [10]:
#Llamamos a la función creada para visualizar las caracteristicas generales del Dataset
valores_nulos_df(df_geo)

Unnamed: 0,nombre,tipo_datos,nulos_%,nulos
0,Unnamed: 0,[<class 'int'>],0.0,0
1,site_id,[<class 'str'>],0.0,0
2,latitude,[<class 'float'>],0.0,0
3,longitude,[<class 'float'>],0.0,0
4,state,"[<class 'str'>, <class 'int'>]",0.0,0
5,city,"[<class 'str'>, <class 'int'>]",0.0,0
6,county,[<class 'float'>],0.0,1
7,is_urban,[<class 'bool'>],0.0,0
8,county_name,"[<class 'str'>, <class 'float'>]",0.0,1
9,state_name,"[<class 'str'>, <class 'float'>]",0.92,422


### 2.3. Transformación de Datos

#### 2.3.1. Funciones de Transformación

In [11]:
def verifica_duplicados(df, columna):
    '''
    Verifica y muestra filas duplicadas en un DataFrame basado en una columna específica.

    Esta función toma como entrada un DataFrame y el nombre de una columna específica.
    Luego, identifica las filas duplicadas basadas en el contenido de la columna especificada,
    las filtra y las ordena para una comparación más sencilla.

    Parameters:
    ----------
        df (pandas.DataFrame): El DataFrame en el que se buscarán filas duplicadas.
        columna (str): El nombre de la columna basada en la cual se verificarán las duplicaciones.

    Returns:
    ----------
        pandas.DataFrame or str: Un DataFrame que contiene las filas duplicadas filtradas y ordenadas,
        listas para su inspección y comparación, o el mensaje "No hay duplicados" si no se encuentran duplicados.
    '''
    # Se filtran las filas duplicadas
    duplicated_rows = df[df.duplicated(subset=columna, keep=False)]
    if duplicated_rows.empty:
        return "No hay duplicados"

    # se ordenan las filas duplicadas para comparar entre sí
    duplicated_rows_sorted = duplicated_rows.sort_values(by=columna)
    return duplicated_rows_sorted

def filtrar_df_por_columna_sin_numeros(df, columna):
    """
    Función que filtra un DataFrame por una columna específica para encontrar filas que no contengan números y retorna el DataFrame filtrado.

    Parameters:
    ----------
        df (pandas.DataFrame): El DataFrame que se desea filtrar.
        columna (str): El nombre de la columna por la que se desea filtrar.

    Returns:
    ----------
        pandas.DataFrame: El DataFrame filtrado que contiene solo filas que no contienen números en la columna especificada.
    """
    # Expresión regular para buscar números
    patron_regex = r"\d+"
    # Compila la expresión regular
    regex = re.compile(patron_regex)

    # Filtra el DataFrame
    df_filtrado = df[df[columna].apply(lambda x: isinstance(x, str) and regex.search(x) is None)]

    return df_filtrado

#### 2.3.2. Transformación, manejo de datos nulos o vacíos y eliminación de todo el Dataframe

In [12]:
#Cambio el nombre de las siguientes columnas
df_geo.rename(columns={'site_id': 'gmap_id'}, inplace=True)

In [13]:
#Vamos eliminar las columnas que no tienen suficiente relevenacia para nuestro analisis posterior
columnas_eliminar = ['business_name_y']

#Eliminamos las columnas de nuestro Dataframe
df_reviews.drop(columnas_eliminar, axis=1 , inplace=True)

print('Se han eliminado la columna:', columnas_eliminar)

Se han eliminado la columna: ['business_name_y']


In [14]:
#Cambio el nombre de las siguientes columnas
df_reviews.rename(columns={'name': 'user_name', 'business_name_x': 'business_name'}, inplace=True)

In [15]:
#Procedemos a eliminar los valores nulos de la columna "county"
df_geo.dropna(subset=['county'], inplace=True)

In [16]:
#Verificamos si se han eliminado los valores nulos
valores_nulos_county = df_geo[df_geo['county'].isnull()]

if valores_nulos_county.empty:
    print("Se han eliminado todos los valores nulos de la columna 'county'.")
else:
    print("Aún hay valores nulos en la columna 'county'.")
    print(valores_nulos_county)

Se han eliminado todos los valores nulos de la columna 'county'.


In [17]:
#Procedemos a eliminar los valores nulos de la columna "county"
df_geo.dropna(subset=['state_name'], inplace=True)

In [18]:
#Verificamos si se han eliminado los valores nulos
valores_nulos_county = df_geo[df_geo['state_name'].isnull()]

if valores_nulos_county.empty:
    print("Se han eliminado todos los valores nulos de la columna 'state_name'.")
else:
    print("Aún hay valores nulos en la columna 'state_name'.")
    print(valores_nulos_county)

Se han eliminado todos los valores nulos de la columna 'state_name'.


#### 2.3.3. Transformación de el Dataset de GEOLOCALIZACION


In [19]:
#Aplicamos la función para filtrar por filas que contengan números en la columna "city"
df_city_sin_raros = filtrar_df_por_columna_sin_numeros(df_geo, 'city')
df_city_sin_raros.head()

Unnamed: 0.1,Unnamed: 0,gmap_id,latitude,longitude,state,city,county,is_urban,county_name,state_name
0,0,0x8638869e6b4e3529:0xe8d257447fe41672,30.713368,-94.954344,TX,Livingston,1383972.0,False,Polk,Texas
1,1,0x87528bb7ab938cb3:0x5ee996e34cc50715,40.698585,-111.906406,UT,South Salt Lake,1448031.0,True,Salt Lake,Utah
2,2,0x881614cdcdd1f645:0xe524e597b7563b83,41.452031,-85.267893,IN,Kendallville,450377.0,True,Noble,Indiana
3,3,0x8665a07841a58faf:0xbd68d13ecd2835b0,26.18591,-98.169056,TX,Pharr,1383893.0,True,Hidalgo,Texas
4,4,0x89b865336dbfc08f:0x6762f78f2730a91f,38.874709,-75.824439,MD,Denton,595737.0,True,Caroline,Maryland


In [20]:
#Procedemos a cargar el dataset donde se encuentran las poblaciones
ruta_pop = r'Dataset_ML\us_cities.xlsx'
df_pop = pd.read_excel(ruta_pop, usecols=lambda x: x not in [0])

In [21]:
#Visualizamos el Dataframe de población
df_pop.head()

Unnamed: 0,city,city_ascii,state_id,state_name,county_name,latitude,longitude,population,density
0,New York,New York,NY,New York,New York,40.6943,-73.9249,18713220,10715
1,Los Angeles,Los Angeles,CA,California,Los Angeles,34.1139,-118.4068,12750807,3276
2,Chicago,Chicago,IL,Illinois,Cook,41.8373,-87.6862,8604203,4574
3,Miami,Miami,FL,Florida,Miami-Dade,25.7839,-80.2102,6445545,5019
4,Dallas,Dallas,TX,Texas,Dallas,32.7936,-96.7662,5743938,1526


In [22]:
#Vamos eliminar las columnas que no tienen suficiente relevenacia para nuestro analisis posterior
columnas_eliminar = ['city_ascii']

#Eliminamos las columnas de nuestro Dataframe
df_pop.drop(columnas_eliminar, axis=1 , inplace=True)

print('Se han eliminado la columna:', columnas_eliminar)

Se han eliminado la columna: ['city_ascii']


In [23]:
#Verificamos si tiene algún valor nulo
valores_nulos_df(df_pop)

Unnamed: 0,nombre,tipo_datos,nulos_%,nulos
0,city,[<class 'str'>],0.0,0
1,state_id,[<class 'str'>],0.0,0
2,state_name,[<class 'str'>],0.0,0
3,county_name,[<class 'str'>],0.0,0
4,latitude,[<class 'float'>],0.0,0
5,longitude,[<class 'float'>],0.0,0
6,population,[<class 'int'>],0.0,0
7,density,[<class 'int'>],0.0,0


#### 2.3.4. Transformación la Dataconjunta de REVIEWS


In [24]:
#Procedemos a juntar los Dataframe de "df_reviews" con la de "df_geo"
unificado_reviews = pd.merge(df_reviews, df_geo, on=["gmap_id"], how="left")

In [25]:
#Procedemos a eliminar los valores nulos de la columna "county"
unificado_reviews.dropna(subset=['county'], inplace=True)

In [26]:
#Verificamos si se han eliminado los valores nulos
valores_nulos_county = unificado_reviews[unificado_reviews['county'].isnull()]

if valores_nulos_county.empty:
    print("Se han eliminado todos los valores nulos de la columna 'state_name'.")
else:
    print("Aún hay valores nulos en la columna 'state_name'.")
    print(valores_nulos_county)

Se han eliminado todos los valores nulos de la columna 'state_name'.


In [27]:
#Procedemos a imputar los valores nulos por "Sin comentario"
unificado_reviews.fillna("Sin comentario", inplace=True)

In [28]:
#Vamos eliminar las columnas que no tienen suficiente relevenacia para nuestro analisis posterior
columnas_eliminar = ['Unnamed: 0']

#Eliminamos las columnas de nuestro Dataframe
unificado_reviews.drop(columnas_eliminar, axis=1 , inplace=True)

print('Se han eliminado la columna:', columnas_eliminar)

Se han eliminado la columna: ['Unnamed: 0']


In [29]:
#Verificamos los valores nulos
valores_nulos_df(unificado_reviews)

Unnamed: 0,nombre,tipo_datos,nulos_%,nulos
0,user_name,[<class 'str'>],0.0,0
1,gmap_id,[<class 'str'>],0.0,0
2,user_id,[<class 'float'>],0.0,0
3,time,[<class 'pandas._libs.tslibs.timestamps.Timest...,0.0,0
4,rating,[<class 'float'>],0.0,0
5,text,[<class 'str'>],0.0,0
6,business_reply,[<class 'str'>],0.0,0
7,business_name,[<class 'str'>],0.0,0
8,latitude,[<class 'float'>],0.0,0
9,longitude,[<class 'float'>],0.0,0


In [30]:
#Visualizamos el Dataframe final
unificado_reviews.head()

Unnamed: 0,user_name,gmap_id,user_id,time,rating,text,business_reply,business_name,latitude,longitude,state,city,county,is_urban,county_name,state_name
0,Timothy Baldwin,0x887d579ef372c2f7:0x1f347e0e964cd5a4,1.03862e+20,2021-04-13 15:50:43.724,5.0,My sweet lady went in to get us a six pack of ...,No,Dollar General,34.5214,-87.6315,AL,Russellville,161555.0,False,Franklin,Alabama
1,Tiffany Dornink,0x887d579ef372c2f7:0x1f347e0e964cd5a4,1.127672e+20,2021-04-14 19:19:15.145,5.0,Very friendly and organized. Most organized I ...,No,Dollar General,34.5214,-87.6315,AL,Russellville,161555.0,False,Franklin,Alabama
2,Elvin HAtton,0x887d579ef372c2f7:0x1f347e0e964cd5a4,1.098453e+20,2021-02-26 11:58:58.123,3.0,They are out of milk just about every time I'm...,No,Dollar General,34.5214,-87.6315,AL,Russellville,161555.0,False,Franklin,Alabama
3,Chris Cox,0x887d579ef372c2f7:0x1f347e0e964cd5a4,1.021608e+20,2020-07-27 23:18:41.976,4.0,"If you don't have a mask, they have them at th...",No,Dollar General,34.5214,-87.6315,AL,Russellville,161555.0,False,Franklin,Alabama
4,Elisa Agee,0x887d579ef372c2f7:0x1f347e0e964cd5a4,1.130122e+20,2019-07-13 22:57:33.275,5.0,Brand new. Very spacious. Very well designed b...,No,Dollar General,34.5214,-87.6315,AL,Russellville,161555.0,False,Franklin,Alabama


In [31]:
#Visualizamos las columnas
unificado_reviews.columns

Index(['user_name', 'gmap_id', 'user_id', 'time', 'rating', 'text',
       'business_reply', 'business_name', 'latitude', 'longitude', 'state',
       'city', 'county', 'is_urban', 'county_name', 'state_name'],
      dtype='object')

#### 2.3.5. Transformación la Dataconjunta FINAL

### 2.4. Modelo de Recomendación

Proponemos los siguientes modelos de recomendación como una estrategia para mejorar el sistema actual de recomendación de **WALGREENS** utilizando datos:

**Recomendación de tiendas según ubicación y necesidades del cliente:**

Análisis de datos de ubicación:
- Identificamos zonas con alta densidad de población y baja presencia de tiendas Walgreens.
- Consideramos factores como accesibilidad (transporte público, tráfico), competencia y puntos de interés (centros comerciales, universidades).

Recomendaciones personalizadas:
- Recomendar la tienda Walgreens más cercana al cliente, considerando su ubicación actual.
- Ofrecer información adicional sobre las tiendas, como horarios, servicios disponibles, opiniones de clientes, etc.

In [32]:
#Importamos las librerias necesarias para nuestro modelo de recomendacion
import requests
from sklearn.neighbors import NearestNeighbors
from statistics import mean
import folium

In [33]:
def obtener_coordenadas(ciudad):
    """
    Obtiene las coordenadas (latitud y longitud) de una ciudad utilizando la API de geocodificación de Google Maps.

    Parameters:
    ciudad (str): El nombre de la ciudad de la cual se desean obtener las coordenadas.

    Returns:
    tuple: Una tupla conteniendo la latitud y longitud de la ciudad.

    Raises:
    ValueError: Si no se pueden obtener las coordenadas para la ciudad proporcionada.
    """

    #Construimos la URL para la solicitud a la API de geocodificación de Google Maps
    url = f"https://maps.googleapis.com/maps/api/geocode/json?address={ciudad}&key=AIzaSyDDVtR53zTwX5-T84wraYgZR9ud8L_usWA"

    #Realizamos la solicitud GET a la URL
    response = requests.get(url)

    #Convertimos la respuesta a formato JSON
    data = response.json()

    #Verificamos si la solicitud fue exitosa (estado 'OK' en la respuesta)
    if data['status'] == 'OK':
        #Extraemos la latitud y longitud de los resultados
        latitud = data['results'][0]['geometry']['location']['lat']
        longitud = data['results'][0]['geometry']['location']['lng']
        #Retornamos las coordenadas como una tupla (latitud, longitud)
        return latitud, longitud
    else:
        #Si la solicitud no fue exitosa, lanzamos un ValueError
        raise ValueError("No se pudieron obtener las coordenadas para la ciudad proporcionada.")

In [48]:
def recomendar_tiendas_walgreens(ciudad):
    """
    Recomienda las tiendas Walgreens con mejor rating en una ciudad específica, utilizando un modelo de KNN.

    Parameters:
    ciudad (str): El nombre de la ciudad para la cual se desea recomendar tiendas Walgreens.

    Returns:
    list: Una lista de diccionarios, donde cada diccionario contiene la información de una tienda recomendada.
          Cada diccionario tiene las siguientes claves: 'gmap_id', 'longitude', 'latitude', 'rating'.

    Raises:
    ValueError: Si no se encuentran tiendas Walgreens con rating entre 3 y 5 en la ciudad proporcionada.
    """

    #Paso 1: Obtenemos latitud y longitud de la ciudad
    latitud_referencia, longitud_referencia = obtener_coordenadas(ciudad)

    #Paso 2: Filtramos por ciudad de entrada y por tiendas Walgreens con rating entre 3 y 5
    df_ciudad = unificado_reviews[unificado_reviews['city'] == ciudad]
    df_walgreens = df_ciudad[(df_ciudad['business_name'] == 'Walgreens') &
                              (df_ciudad['rating'] >= 3) &
                              (df_ciudad['rating'] <= 5)]

    #Verificamos si hay tiendas Walgreens con el rating especificado en la ciudad
    if df_walgreens.empty:
        raise ValueError("No se encontraron tiendas Walgreens con rating entre 3 y 5 en la ciudad proporcionada.")

    #Paso 3: Eliminamos duplicados de gmap_id manteniendo la tienda con el rating más alto
    df_walgreens = df_walgreens.sort_values(by='rating', ascending=False)
    df_walgreens = df_walgreens.drop_duplicates(subset='gmap_id')

    #Paso 4: Creamos un conjunto de características para el modelo KNN
    X = df_walgreens[['latitude', 'longitude']]

    #Paso 5: Entrenamos el modelo KNN
    knn_model = NearestNeighbors(n_neighbors=5, algorithm='ball_tree')
    knn_model.fit(X)

    #Paso 6: Encontramos las 5 tiendas más cercanas a la ubicación de referencia
    distancias, indices = knn_model.kneighbors([[latitud_referencia, longitud_referencia]])

    #Paso 7: Obtenemos las tiendas recomendadas y sus información de gmap_id, longitud, latitud y rating
    tiendas_recomendadas = df_walgreens.iloc[indices[0]]
    tiendas_dict = []

    for _, tienda in tiendas_recomendadas.iterrows():
        tienda_info = {
            'gmap_id': tienda['gmap_id'],
            'longitude': tienda['longitude'],
            'latitude': tienda['latitude'],
            'rating': tienda['rating'],
            'review': tienda['text']
        }
        tiendas_dict.append(tienda_info)

    return tiendas_dict

In [49]:
# Usamos de la función para obtener las tiendas recomendadas
ciudad = "Los Angeles"  # Puedes cambiar la ciudad aquí
tiendas_recomendadas = recomendar_tiendas_walgreens(ciudad)
tiendas_recomendadas

[{'gmap_id': '0x80c2c7b43f15085b:0xc087f0d755542b95',
  'longitude': -118.2574212,
  'latitude': 34.0480004,
  'rating': 5.0,
  'review': 'They are very helpful and kind to customers who ask for help. Thank you. 😀'},
 {'gmap_id': '0x80c2c9016689e8af:0xffe74b15e43bf8b8',
  'longitude': -118.247423,
  'latitude': 33.9811906,
  'rating': 5.0,
  'review': 'Good track'},
 {'gmap_id': '0x80c2c166534eaa81:0x7f2604c777e3dd33',
  'longitude': -118.2152572,
  'latitude': 34.1383645999999,
  'rating': 5.0,
  'review': 'As an emergency executive, Walgreens met my qualifications and requirements'},
 {'gmap_id': '0x80c2b83a07804adf:0x5eea7ca1b3f81ebb',
  'longitude': -118.334502,
  'latitude': 34.0191765,
  'rating': 5.0,
  'review': 'Came here to fulfill a short list for the toddlers sniffles. I was lucky to find Brandon  who provided me with some of his time and I was able to get what I needed in a couple of minutes, I was lost without him. Thank you Brandon for an above and beyond attitude!'},
 {

In [44]:
def mostrar_mapa(tiendas_dict):
    """
    Muestra un mapa con marcadores para cada tienda en un diccionario de tiendas.

    Parameters:
    tiendas_dict (list): Una lista de diccionarios, donde cada diccionario contiene información de una tienda.
                         Cada diccionario debe tener las claves 'latitude', 'longitude', 'rating' y 'reviews'.

    Returns:
    folium.Map: Un objeto de mapa interactivo de Folium con marcadores para cada tienda.

    """
    # Paso 1: Calculamos el centroide de las ubicaciones de las tiendas
    latitudes = [tienda['latitude'] for tienda in tiendas_dict]
    longitudes = [tienda['longitude'] for tienda in tiendas_dict]
    centro_latitud = mean(latitudes)
    centro_longitud = mean(longitudes)

    # Paso 2: Creamos un mapa centrado en el centroide de las ubicaciones de las tiendas
    mapa = folium.Map(location=[centro_latitud, centro_longitud], zoom_start=12)

    # Paso 3: Agregamos un marcador para cada tienda en el diccionario
    for tienda in tiendas_dict:
        popup_text = f"Rating: {tienda['rating']}<br>Review: {tienda['review']}"
        folium.Marker(
            location=[tienda['latitude'], tienda['longitude']],
            popup=folium.Popup(popup_text, max_width=300),  # Aquí ajustamos el tamaño máximo del popup
        ).add_to(mapa)

    return mapa

In [45]:
# Usamos de la función para mostrar el mapa con las tiendas recomendadas
mapa = mostrar_mapa(tiendas_recomendadas)
mapa