In [None]:
import pandas as pd
from math import radians, sin, cos, sqrt, atan2
from sklearn.neighbors import NearestNeighbors
from sklearn.feature_extraction.text import TfidfVectorizer
import pickle
import numpy as np
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer
nltk.download('stopwords')


### Usando nltk para procesar las categorias, y 

In [None]:

def process_text(text):
    """
    Funcion que realiza tokeinizacion en base a un texto.

    Args:
        text (string): Palabra u oración para aplicar la tokeinizacin.

    Returns:
        str: Serie de strings.
    """
    # Aplico la teokeinizacion
    stop_words = set(stopwords.words('english'))
    ps = PorterStemmer()
    words = word_tokenize(text)
    words = [ps.stem(word.lower()) for word in words if word.isalnum() and word.lower() not in stop_words]
    return ' '.join(words)



def obtener_palabras_similares(palabra, modelo, topn=3):
    try:
        similares = modelo.similar_by_word(palabra, topn=topn)
        return [palabra for palabra, _ in similares]
    except KeyError:
        return []

def categories_nlp():  
    """
    Funcion que a partir de un dataframe con categorias de columna "name" aplica la funcion *process_text*

    Returns:
        TfidfVectorizer: Matriz TF-IDF represetando  la frecuencia de terminos ponderada por importancia.(necesaria para el modelo.)
    """
    
    
    
    #Genero un dataframe que contenga, las categorias y los negocios para yelp y google.

    # Cambiar por la lectura a la BD

    local_categories_google = pd.read_parquet('../../datasets/processed/bd/7_categories_google.parquet.gz')

    # Cambiar por la lectura a la BD
    local_categories_yelp = pd.read_parquet('../../datasets/processed/bd/8_categories_yelp.parquet.gz')

    #Si se lee de la base de datos business_id ya esta como nombre.
    local_categories_google.rename(columns={'gmap_id':'business_id'},inplace=True)
    local_categories = pd.concat([local_categories_google,local_categories_yelp])

    # Cambiar por la lectura a la BD
    categoires = pd.read_parquet('../../datasets/processed/bd/2_categories.parquet.gz')
    local_categories = pd.merge(local_categories,categoires,on='categories_id',how='inner')
    
    #### Se genera el dataframe local_categories.#####
    
    
    
    local_categories['procceced'] = local_categories['name'].apply(process_text)

    # Si hay mas clase ademas de restaur ej: pizza restaur borra restaur, si no deja igual
    local_categories['procceced'] = local_categories['procceced'].apply(lambda x:x.replace('restaur','') if x!= 'restaur' else x)
    local_categories['procceced'] = local_categories['procceced'].astype(str)
    # Crear una matriz TF-IDF para medir la similitud del contenido
    
    from gensim.models import KeyedVectors

    # Ruta al archivo GoogleNews-vectors-negative300.bin
    ruta_modelo = '../../datasets/extras/model/GoogleNews-vectors-negative300.bin/GoogleNews-vectors-negative300.bin'

    # Cargar el modelo
    modelo = KeyedVectors.load_word2vec_format(ruta_modelo, binary=True,limit=500000)
    
    
    local_categories['processed'] = local_categories['procceced'].apply(
    lambda text: ' '.join(
        [
            ' '.join(obtener_palabras_similares(palabra.strip(), modelo)) 
            if palabra in text 
            else palabra 
            for palabra in text.split()
        ]
    )
    )   
    
    local_categories = local_categories[['business_id','name','processed']]
    local_categories.to_parquet('./datasets/locales_categories.parquet') # Guardo el dataset util


    tfidf_vectorizer = TfidfVectorizer()
    tfidf_matrix = tfidf_vectorizer.fit_transform(local_categories['processed'])
    return tfidf_matrix

    #Proceso para normalizar las categorias

## Gnero las categorias para luego procesarlas y guardarlas

In [None]:
#Genero un dataframe que contenga, las categorias y los negocios para yelp y google.

# Cambiar por la lectura a la BD

local_categories_google = pd.read_parquet('../../datasets/processed/bd/7_categories_google.parquet.gz')

# Cambiar por la lectura a la BD
local_categories_yelp = pd.read_parquet('../../datasets/processed/bd/8_categories_yelp.parquet.gz')

#Si se lee de la base de datos business_id ya esta como nombre.
local_categories_google.rename(columns={'gmap_id':'business_id'},inplace=True)
local_categories = pd.concat([local_categories_google,local_categories_yelp])

# Cambiar por la lectura a la BD
categoires = pd.read_parquet('../../datasets/processed/bd/2_categories.parquet.gz')
local_categories = pd.merge(local_categories,categoires,on='categories_id',how='inner')





In [None]:
    
# Hago el procesamiento de las categorias con NLTK y los exporto en un pkl
categories_procceced = categories_nlp() 
with open('./tfidf_matrix.pkl', 'wb') as file:
        pickle.dump(categories_procceced, file)

In [None]:
#EVALUACION DEL MODELO


# Cargo la matriz generada del procesamiento
with open('./tfidf_matrix.pkl', 'rb') as file:
        tfidf_matrix = pickle.load(file)
        
from sklearn.model_selection import train_test_split

X_train, X_test = train_test_split(tfidf_matrix, test_size=0.2, random_state=42)

knn_model = NearestNeighbors(metric='cosine', algorithm='brute', n_neighbors=30)

knn_model.fit(tfidf_matrix)
local_categories = pd.read_parquet('./app/ml/datasets/locales_categories.parquet')
idx = local_categories[local_categories['business_id'] == business_id].index[0]

_, indices = knn_model.kneighbors(categories_procceced[idx])
recommendations = local_categories['business_id'].iloc[indices[0][1:]]


In [200]:
#Modelo de recomendacion usando similitudes con vecinos cercanos


# Cargo la matriz generada del procesamiento
with open('./tfidf_matrix.pkl', 'rb') as file:
        tfidf_matrix = pickle.load(file)

from sklearn.model_selection import train_test_split

#Defino y entreno al modelo.
knn_model = NearestNeighbors(metric='cosine', algorithm='brute', n_neighbors=30)
knn_model.fit(tfidf_matrix)

# Guardo el modelo en un pkl
with open('./modelo_knn.pkl', 'wb') as file:
    pickle.dump(knn_model, file)



FILTRO POR DISTANCIA

In [201]:
# Funcion que calcula la distancia entre dos punto en funcion de las coordenadas
def haversine(lat1, lon1, lat2, lon2):
    
    """
    Esta funcion aplica la distancia hervesine para encontrar la distancia entre dos puntos a partir de sus coordenaadas.
    
    Args:
        lat1 (float): Latitud del primer punto.
        lon1 (float): Longitud del primer punto
        lat2 (float: Latitud del segundo punto.
        lon2 (float): Longitud del segundo punto.
        
    Returns:
        float:Distancia en metros entre dos coordeandas.
    """
    
    # Radio de la Tierra en kilometros
    R = 6371.0

    # Convierte las coordenadas de grados a radianes
    lat1, lon1, lat2, lon2 = map(radians, [lat1, lon1, lat2, lon2])

    # Diferencia de latitud y longitud
    dlat = lat2 - lat1
    dlon = lon2 - lon1

    # Fórmula haversine
    a = sin(dlat / 2)**2 + cos(lat1) * cos(lat2) * sin(dlon / 2)**2
    c = 2 * atan2(sqrt(a), sqrt(1 - a))

    # Distancia en metros
    distance = R * c

    return distance

In [202]:
#Funcion que a partir de un id de negocio y una lista ids retorna la distancia entre ese negocio y cada uno de los demas
def distance(business_id,business_id_list,rang=None):
    
    """
    Esta funcion calcula a partir de un negocio y una lista de negocios, la distancia entre los puntos.

    Args:
        business_id(str): Id del negocio.
        business_id_list(list): Lista con id de negocios.
        rang(float,optional) : Maxima distancia(kilometros) sobre la cual se quiere devolver los negocios.

    Returns:
        pd.DataFrame: Data frame de los negocios tomando en cuenta las distnacias
    """
    
    if rang:
        filtro_distance = rang
    else:   
        filtro_distance = 300000000 #FIltro distancia en metros.
    #Genero un dataframe con los restaurantes de google y yelp
    
    # Cambiar por la lectura a la BD, si se lee de ahi business_id ya esta como nombre
    business_google=pd.read_parquet('../../datasets/processed/bd/5_business_google.parquet.gz') 
    business_google.rename(columns={'gmap_id':'business_id'},inplace=True) 
    
    # Cambiar por la lectura a la BD
    business_yelp=pd.read_parquet('../../datasets/processed/bd/6_business_yelp.parquet.gz') 
    
    # si se lee de la base de datos cambiar stars de business_yelp por avg_stars
    business = pd.concat([business_google[['business_id','name','avg_stars','latitude','longitude','state_id']],business_yelp[['business_id','name','avg_stars','latitude','longitude','state_id']]])
    #Genero las coordenadas del local al que le quiero encontrar recomendaciones.
    lat_origin,long_origin = business[business['business_id']==business_id]['latitude'].iloc[0],business[business['business_id']==business_id]['longitude'].iloc[0]
    #Filtro solo por los restaurantes que pertenecen a las recomendaciones.
    business = business[business['business_id'].isin(business_id_list)]
    #Calculo la distancia de cada restuarante recomendado al inicial
    business['distance'] = business.apply(lambda row: haversine(lat_origin, long_origin, row['latitude'], row['longitude']), axis=1)
    #Aplico el filtro de distancia.
    business = business[business['distance']<filtro_distance]
    return business
    
    

In [203]:
# Función para obtener recomendaciones
def get_recommendations(business_id,rang=None):
    
    """
    Funcion que a partir de un negocio, recomienda otros, en funcion de sus categorias usando el modelo KNN.
    
    Ags:
        business_id(str) : id del negocio al cual se le quieren calcular recomendaciones.
        rang(float,optional) :Rango de distancia para obtener las recomendaciones(kilometros).

    Returns:
        business_cat(pd.DataFrame):Data Frame con las recomendaciones junto no algunas caracteristicas del negocio.
    """
    
    # Cargo el modelo
    with open('./modelo_knn.pkl', 'rb') as file: 
        knn_model = pickle.load(file)
        
    with open('./tfidf_matrix.pkl', 'rb') as file:
        categories_procceced = pickle.load(file)
    
    ######### categories_procceced podria ser un df importado  con todos los pasos anteriores.#########
    local_categories = pd.read_parquet('./datasets/locales_categories.parquet')

    idx = local_categories[local_categories['business_id'] == business_id].index[0]
   
    
    
    #Genero las recomendaciones.
    _, indices = knn_model.kneighbors(categories_procceced[idx])
    recommendations = local_categories['business_id'].iloc[indices[0][0:]]  # Excluye el propio restaurante
    
    #Calcula las distancias entre las recomendaciones y el local.
    if rang:
        business = distance(business_id,recommendations,rang)
    else:
        business = distance(business_id,recommendations)
    business = business[business['distance']!=0.0] # Elimino al restaurante mismos.
    #Uno las caractereisticas de los locales, con las categorias.
    business_cat = pd.merge(local_categories,business,on='business_id')
    business_cat = business_cat.groupby('business_id').agg({
        'latitude':'first',
        'longitude':'first',
        'name_x':list,
        'name_y':'first',
        'distance':'first',
        'avg_stars':'mean',
        'state_id':'first'
        
    }).reset_index().rename(columns =({'name_x':'category','name_y':'name'}))
        
    
    return business_cat


## FILTRO POR USUARIOS

In [210]:
#Funcion que recibe un business id userid o categoria y recomienda locales, tambien puede agregarse el rango en metros de distancia.
def recommendation(business_ids=None,user_id=None,category=None,distance=None,state=None):
    """
    Esta funcion a partird e un negocio usuario o categoria recomienda otros negocios, teniendo en cuenta la distancia de ser requerida.
    Para esto la funcion toma un negocio, o selecciona una lista de ellos usando user_id, y categorias, y aplica la funcion *get_recommendations*

    Args:
        business_ids (str, optional): Id de un negocio.
        user_id (str, optional): Id de un usuario.
        category (str, optional): Categoria (nombre).
        distance (float, optional): Distancia en kilometros.

    Returns:
        pd.DataFrame: Data Frame con ñas recomendaciones y otras caracteristicas(analizar el uso de json)
    """
        
    if business_ids:
        business_ids = [business_ids]
    
    if user_id:
        
        # Cambiar por la lectura a la BD
        df_rg = pd.read_parquet('../../datasets/processed/bd/9_reviews_google.parquet.gz',columns=['user_id','gmap_id','sentiment'])
        df_ry = pd.read_parquet('../../datasets/processed/bd/10_reviews_yelp.parquet.gz',columns=['user_id','business_id','sentiment'])
        df = pd.concat([df_rg,df_ry])
        business_ids = df[df['user_id']==user_id].iloc[:10]['business_id'].tolist()
        distance = None
        if len(business_ids) == 0:
            return 'Usuario no encontrado.'
        
    if category:
        df_categories = pd.read_parquet('./datasets/locales_categories.parquet')
        business_ids = df_categories[df_categories['name'].str.lower().str.contains(category.lower())].sample(10).iloc[:10]['business_id'].tolist()
        distance = None
        if len(business_ids) == 0:
            return 'Categoria no encontrada.'
        
        
    business_cat = pd.DataFrame()
    
    for business_id in business_ids:
        business_cat = pd.concat([get_recommendations(business_id,rang=distance),business_cat])    
        
    if business_cat.shape[0] == 0:
        return 'Restaurante no encontrado.'
    
    states = pd.read_parquet('../../datasets/processed/bd/1_states.parquet.gz')
    business_cat = pd.merge(business_cat,states,on='state_id',how='inner')
    business_cat = business_cat[['business_id','name','category','state','latitude','longitude','avg_stars','distance']]
    if state:
        business_cat = business_cat[business_cat['state']==state]
        
    return business_cat.sort_values(by=['distance','avg_stars'],ascending=[True,False]).iloc[0:10]

In [211]:
recommendation(business_ids='0x808327b8d9e61667:0x93f965952fa718d',distance=100000.0)

Unnamed: 0,business_id,name,category,state,latitude,longitude,avg_stars,distance
0,0x8890a57efffc1ac9:0xa99c50dc34fa64a,Subway,"[Restaurant, Takeout Restaurant, Sandwich shop...",Florida,30.321625,-87.41827,4.1,3280.642253
2,0x88913f6a0071980f:0xcc4661e2eedca8b7,Smoothie King,"[Takeout Restaurant, Fast food restaurant, Jui...",Florida,30.416906,-86.65401,4.4,3340.492004
1,0x88913f3dfae31bfb:0xa026711017293fa2,Jimmy Johns,"[Takeout Restaurant, Sandwich shop, Caterer, F...",Florida,30.41436,-86.606196,3.5,3344.681856
3,0x88914478b08ccd31:0x445347276b61cf82,Subway,"[Restaurant, Takeout Restaurant, Sandwich shop...",Florida,30.386349,-86.464629,4.1,3358.148262
29,0x88eb6651c627358f:0xfec6f85a3af42823,Subway,"[Restaurant, Takeout Restaurant, Sandwich shop...",Florida,29.850918,-84.663809,3.8,3539.035606
22,0x88e5b3f8a7392ab3:0xed018b18ec0f306,Celinos Pizza,"[Restaurant, Takeout Restaurant, Sandwich shop...",Florida,30.349662,-81.597179,2.9,3774.535414
28,0x88e7d39efd1eda5f:0x665a7c05f2c0a8f0,Subway,"[Restaurant, Takeout Restaurant, Sandwich shop...",Florida,29.13566,-82.109038,3.8,3794.264442
21,0x88e449a0d4cc67ab:0x25e2491dba6f3c95,Subway,"[Restaurant, Takeout Restaurant, Sandwich shop...",Florida,30.288486,-81.400452,4.0,3794.439489
20,0x88e431780e20cded:0xd66c1e0dd66ae256,Jersey Mikes Subs,"[Takeout Restaurant, Sandwich shop, Caterer, F...",Florida,30.10975,-81.418015,4.3,3802.073065
6,0x88c2e554256420d1:0x38a72eb8df992b5a,Subway,"[Restaurant, Takeout Restaurant, Sandwich shop...",Florida,27.916835,-82.731034,4.2,3808.490097


# AHORA INTENTAMOS CON WORDVEC

In [None]:
from gensim.models import KeyedVectors

# Ruta al archivo GoogleNews-vectors-negative300.bin
ruta_modelo = '../../datasets/extras/model/GoogleNews-vectors-negative300.bin/GoogleNews-vectors-negative300.bin'

# Cargar el modelo
modelo = KeyedVectors.load_word2vec_format(ruta_modelo, binary=True,limit=500000)



In [None]:
def obtener_palabras_similares(palabra, modelo, topn=3):
    try:
        similares = modelo.similar_by_word(palabra, topn=topn)
        return [palabra for palabra, _ in similares]
    except KeyError:
        return []

In [None]:
print(obtener_palabras_similares('restaurant',modelo))

In [None]:
local_categories.sample(3)

In [None]:
local_categories['processed'] = local_categories['procceced'].apply(
    lambda text: ' '.join(
        [
            ' '.join(obtener_palabras_similares(palabra.strip(), modelo)) 
            if palabra in text 
            else palabra 
            for palabra in text.split()
        ]
    )
)

In [None]:
local_categories.loc[local_categories['processed'] == '', 'processed'] = 'restaur'

In [None]:
local_categories.sample(5)

In [None]:



tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(local_categories['processed'])



#Defino y entreno al modelo.
knn_model = NearestNeighbors(metric='cosine', algorithm='brute', n_neighbors=10)
knn_model.fit(tfidf_matrix)

# Guardo el modelo en un pkl
with open('./model/modelo_knn.pkl', 'wb') as file:
    pickle.dump(knn_model, file)

In [None]:
#Genero las recomendaciones.
_, indices = knn_model.kneighbors(tfidf_matrix[106106])
recommendations = local_categories['business_id'].iloc[indices[0][1:]]  # Excluye el propio restaurante

In [None]:
print(local_categories.iloc[106106])

In [None]:
print(recommendations)

In [None]:
local_categories[local_categories['business_id']=='0x88d905f9b0dccd0d:0x189d7a76056de69a']