## IMPORTACION Y PROCESAMIENTOS DATOS DE ENTRENAMIENTO (DEBE AJUSTAR LA RUTA SEGUN SU PC)

In [None]:
# Get test data
import numpy as np
import pandas as pd
import polars as pl

from pathlib import Path

data_path = Path('C:/Users/dan12/Downloads/archive')  # aqui USTED debe poner la ruta de la carpeta que contiene a otto-recsys-train.jsonl

train_sessions = pd.DataFrame()
chunks = pd.read_json(data_path / 'otto-recsys-train.jsonl', lines=True, chunksize=100_000)

for e, chunk in enumerate(chunks):
    event_dict = {
        'session': [],
        'aid': [],
        'ts': [],
        'type': [],
    }
    if e < 2:
        for session, events in zip(chunk['session'].tolist(), chunk['events'].tolist()):
            for event in events:
                event_dict['session'].append(session)
                event_dict['aid'].append(event['aid'])
                event_dict['ts'].append(event['ts'])
                event_dict['type'].append(event['type'])
        chunk_session = pd.DataFrame(event_dict)
        train_sessions = pd.concat([train_sessions, chunk_session])
    else:
        break
        

train_sessions = pl.from_pandas(train_sessions.reset_index(drop=True))
train_sessions

session,aid,ts,type
i64,i64,i64,str
0,1517085,1659304800025,"""clicks"""
0,1563459,1659304904511,"""clicks"""
0,1309446,1659367439426,"""clicks"""
0,16246,1659367719997,"""clicks"""
0,1781822,1659367871344,"""clicks"""
…,…,…,…
199999,928064,1659336408967,"""clicks"""
199999,849970,1659336449078,"""clicks"""
199999,1052480,1659336547035,"""clicks"""
199999,487255,1659336561116,"""clicks"""


In [2]:
#conversion a pandas
train = train_sessions.to_pandas()

# Crear una copia  con los nombres de columna necesarios
trainset = train[['session', 'aid', 'ts']].copy()
trainset.columns = ['user_id', 'item_id', 'timestamp']  


In [3]:
trainset

Unnamed: 0,user_id,item_id,timestamp
0,0,1517085,1659304800025
1,0,1563459,1659304904511
2,0,1309446,1659367439426
3,0,16246,1659367719997
4,0,1781822,1659367871344
...,...,...,...
10285556,199999,928064,1659336408967
10285557,199999,849970,1659336449078
10285558,199999,1052480,1659336547035
10285559,199999,487255,1659336561116


## PROCESAMIENTOS DATOS DE PRUEBA

In [4]:
# Get test data
import numpy as np
import pandas as pd
import polars as pl

from pathlib import Path

data_path = Path('C:/Users/dan12/Downloads/archive')

test_sessions = pd.DataFrame()
chunks = pd.read_json(data_path / 'otto-recsys-test.jsonl', lines=True, chunksize=100_000)

for e, chunk in enumerate(chunks):
    event_dict = {
        'session': [],
        'aid': [],
        'ts': [],
        'type': [],
    }
    if e < 2:
        for session, events in zip(chunk['session'].tolist(), chunk['events'].tolist()):
            for event in events:
                event_dict['session'].append(session)
                event_dict['aid'].append(event['aid'])
                event_dict['ts'].append(event['ts'])
                event_dict['type'].append(event['type'])
        chunk_session = pd.DataFrame(event_dict)
        test_sessions = pd.concat([test_sessions, chunk_session])
    else:
        break
        

test_sessions = pl.from_pandas(test_sessions.reset_index(drop=True))

test_sessions



session,aid,ts,type
i64,i64,i64,str
12899779,59625,1661724000278,"""clicks"""
12899779,875854,1661724026702,"""clicks"""
12899780,1142000,1661724000378,"""clicks"""
12899780,582732,1661724058352,"""clicks"""
12899780,973453,1661724109199,"""clicks"""
…,…,…,…
13099777,114286,1661796435514,"""carts"""
13099777,109488,1661796461429,"""carts"""
13099778,926609,1661795832939,"""clicks"""
13099778,1025490,1661795863820,"""clicks"""


In [5]:
test = test_sessions.to_pandas()

# Crear una copia  con los nombres de columna necesarios
testset = test[['session', 'aid', 'ts']].copy()
testset.columns = ['user_id', 'item_id', 'timestamp']
testset

Unnamed: 0,user_id,item_id,timestamp
0,12899779,59625,1661724000278
1,12899779,875854,1661724026702
2,12899780,1142000,1661724000378
3,12899780,582732,1661724058352
4,12899780,973453,1661724109199
...,...,...,...
1858834,13099777,114286,1661796435514
1858835,13099777,109488,1661796461429
1858836,13099778,926609,1661795832939
1858837,13099778,1025490,1661795863820


## Filtrado Colaborativo (con Surprise y SVD)

In [None]:
import pandas as pd
import surprise

from surprise import Reader, Dataset, SVD, KNNBasic
from surprise.model_selection import train_test_split
from surprise import accuracy
trainset['rating'] = 1.0 
testset['rating'] = 1.0 

reader = Reader(rating_scale=(1, 5))# Asumimos interacciones implícitas, escala de 1 a 5

datatrain = Dataset.load_from_df(trainset[['user_id', 'item_id', 'rating']], reader).build_full_trainset()
datatest = list(Dataset.load_from_df(testset[['user_id', 'item_id', 'rating']], reader).build_full_trainset().build_testset())

# Elegir un modelo de Filtrado Colaborativo 
model_svd = SVD(n_factors=50, random_state=42)

# Entrenar el modelo
print("Entrenando modelo SVD...")
model_svd.fit(datatrain)
print("Modelo SVD entrenado.")

# Hacer predicciones en el conjunto de prueba
predictions_svd = model_svd.test(datatest)

# Evaluar el modelo (usamos métricas como RMSE basadas en la presencia/ausencia de interacción)
print("Evaluación del modelo SVD:")
accuracy.rmse(predictions_svd)



Entrenando modelo SVD...
Modelo SVD entrenado.
Evaluación del modelo SVD:
RMSE: 0.0066


0.006634100154771087

## top 5 recomendaciones para un cliente

In [None]:
#obtener n = 5 recomendaciones para un usuario específico
def get_top_n_recommendations_surprise(model, user_id, n=5):
    """Obtiene las N mejores recomendaciones para un usuario usando Surprise."""
    items_interacted = trainset[trainset['user_id'] == user_id]['item_id'].unique()
    #ista de todos los ítems disponibles en el sistema.
    all_items = trainset['item_id'].unique()  
    #Crea una lista de ítems no vistos por el usuario — son candidatos para recomendación.
    items_to_predict = [item_id for item_id in all_items if item_id not in items_interacted]
    #Usa el modelo para predecir la calificación estimada (est) que el usuario daría a cada ítem.


    #Ordena las predicciones de mayor a menor según est (la calificación estimada).
    #Esto prioriza ítems que el modelo cree que le gustarán más.
    predictions = [model.predict(user_id, item_id) for item_id in items_to_predict]
    predictions.sort(key=lambda x: x.est, reverse=True)
    #Toma los primeros n ítems con mayor predicción y devuelve una lista de tuplas (item_id, score estimado).
    top_n = [(pred.iid, pred.est) for pred in predictions[:n]]
    return top_n

user_id_to_recommend = trainset['user_id'].unique()[0]  # Ejemplo de usuario , tomamos el primer usuario 
top_n_svd = get_top_n_recommendations_surprise(model_svd, user_id_to_recommend)  #usamos el modelo_svd entrenado.
print(f"\nTop 5 recomendaciones SVD para el usuario {user_id_to_recommend}: {top_n_svd}")

#para el primer usuario, el modelo predice que le gustaría el ítem 641435 con una puntuación estimada de 1.200476403144735”.


Top 5 recomendaciones SVD para el usuario 0: [(641435, 1.200476403144735), (1095403, 1.177048204269343), (1151035, 1.1680478762669986), (956486, 1.1609371453120452), (766628, 1.1598060751525237)]


### mensajes automatizados y personalizados con Azure OpenAI para sugerir acciones específicas a cada miembro.

In [None]:

from openai import AzureOpenAI
client = AzureOpenAI(

api_key="",
 api_version="2023-05-15",
 azure_endpoint=""
)



# Recorrer cada cliente unico
for user_id in trainset['user_id'].unique()[0:5]:  #establecimos para los primeros 5 cliente para ejemplo, si quiero 10 clientes poner [0:10]

    # crear prompt

    prompt_usuario = (
            f"el modelo a arroja estas 5 recomendaciones {get_top_n_recommendations_surprise(model_svd, user_id)} al Cliente {user_id}. "
            "Escribe un mensaje de una linea sugeriendole  estos productos."
        )

    # Llamar a Azure OpenAI
    respuesta = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": "Eres un experto en sugerir productos especificos a cada cliente."},
            {"role": "user", "content": prompt_usuario}
        ]
    )

    mensaje_personalizado = respuesta.choices[0].message.content
    print(f"\n🧑 Cliente {user_id}")
    print("📩 Mensaje sugerido:")
    print(mensaje_personalizado)


🧑 Cliente 0
📩 Mensaje sugerido:
Claro, aquí tienes un mensaje sugerido para el Cliente 0:  

"Estimado Cliente, le recomendamos los siguientes productos basados en sus preferencias: 641435, 1095403, 1151035, 956486 y 766628; ¡esperamos que los disfrute!"

🧑 Cliente 1
📩 Mensaje sugerido:
Hola Cliente 1, te recomendamos explorar estos productos ideales para ti: 1743377, 315774, 493600, 1056812 y 873594. ¡Esperamos te sean de gran interés!

🧑 Cliente 2
📩 Mensaje sugerido:
"Estimado Cliente 2, le recomendamos explorar los siguientes productos seleccionados especialmente para usted: 894248, 452446, 1212086, 1777295 y 321225."

🧑 Cliente 3
📩 Mensaje sugerido:
"Estimado Cliente 3, le recomendamos explorar los productos con ID: 141501, 1178500, 80589, 211124 y 51097, cuidadosamente seleccionados para usted."

🧑 Cliente 4
📩 Mensaje sugerido:
¡Hola Cliente 4! Basándonos en tus intereses, te sugerimos explorar los productos con ID: 569405, 14163, 820328, 1468119 y 1643654; ¡podrían encantarte!
