<h2 align=center>Modelo de recomendación con base en productos.</h2>

Este modelo tiene por objetivo recomendar un producto de similares características al adquirido por un cliente. Para ello, se tendra en cuenta el precio, volumen, peso, categoría y popularidad. La idea es que pueda servir como un sistema de "comienzo en frío", es decir, que permita brindar una recomendación adecuada a perfiles que no ceuntan con antecedentes o información suficiente en la base de dato. 

Es recomendable destacar que, teniendo en consideración el estado de los datos con los que contamos al momento de la realización del presente proyecto, en la mayoría de los casos no disponemos de información suficiente para aplicar un modelo de filtrado colaborativo que pueda brindar resultados eficientes.

**Importamos librerías.**

In [1]:
import sqlalchemy as sql
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import StandardScaler, OneHotEncoder, LabelEncoder, OrdinalEncoder
import pickle


**Modelo de recomendación**

Creamos el motor para conectarnos a la base de datos en mysql e importamos la información necesaria a nuestros dataframe de pandas.

In [2]:
engine = sql.create_engine(
    "mysql+pymysql://root:password@localhost:3307/data_warehouse_olist?charset=utf8mb4"
)

In [4]:
df_ml = pd.read_sql('SELECT p.product_id, p.category_name, p.weight_g, p.length_cm, p.height_cm, p.width_cm, oi.price FROM products  as p JOIN order_items as oi ON(p.product_id = oi.product_id)', con=engine) 

 


In [5]:
df_ml_productos = pd.read_sql('SELECT o.order_id,  oi.product_id FROM orders  as o JOIN order_items as oi ON(o.order_id = oi.order_id)', con=engine) 

In [6]:
df_ml_productos.head()

Unnamed: 0,order_id,product_id
0,5f79b5b0931d63f1a42989eb65b9da6e,64315bd8c0c47303179dd2e25b579d00
1,a44895d095d7e0702b6a162fa2dbeced,84183944dc7cddca87a5d384452c1d3c
2,316a104623542e4d75189bb372bc5f8d,9df2b21ec85378d71df4404712e17478
3,5825ce2e88d5346438686b0bba99e5ee,af3ec22cce878225aae6d9eb6c7a78eb
4,0ab7fb08086d4af9141453c91878ed7a,868b3136c5b206f91b8208fbfdf2cb7c


In [7]:
df_ml.head()

Unnamed: 0,product_id,category_name,weight_g,length_cm,height_cm,width_cm,price
0,00066f42aeeb9f3007548bb9d3f33c38,perfumaria,300,20,16,16,101.65
1,00088930e925c41fd95ebfe695fd2655,automotivo,1225,55,10,26,129.9
2,0009406fd7479715e4bef61dd91f2462,cama_mesa_banho,300,45,15,35,229.0
3,000b8f95fcb9e0096488278317764d19,utilidades_domesticas,550,19,24,12,58.9
4,000b8f95fcb9e0096488278317764d19,utilidades_domesticas,550,19,24,12,58.9


Creamos la columna volumen y eliminamos las que corresponden a las dimensiones del producto.

In [8]:
df_ml['volume']= df_ml['length_cm']*df_ml['height_cm']*df_ml['width_cm']
df_ml.drop(columns=['length_cm', 'height_cm','width_cm'], inplace= True)

Agrupamos por productos para saber la cantidad de ventas por productos.

In [9]:
df_ml3 = df_ml_productos.groupby(['product_id'])
df_ml2 = df_ml3.aggregate({'order_id':'count'})

Unimos al dataframe principal para que tenga los datos de cantidad de productos.

In [10]:

df_ml = df_ml.merge(df_ml2, left_on='product_id', right_on='product_id')


Renombramos columna.

In [11]:
df_ml.rename(columns={'order_id': "ventas_producto"}, inplace= True)


Se eliminan nulos y duplicados.

In [12]:
df_ml = df_ml.dropna(axis=0, how='any')


In [13]:
df_ml.drop_duplicates(inplace=True)

df_ml.drop_duplicates(inplace=True,subset='product_id')

Creamos grupos aplicando el algoritmo kmeans con base a las similitudes entre peso, precio y volumen de los productos y agregamos la columna al dataframe df_ml. Finalizado este paso, el dataframe ya esta listo.

In [14]:
kmeans = KMeans(n_clusters=1000)

kmeans.fit(df_ml[['weight_g', 'price','volume']])
df_ml['group'] = kmeans.labels_



In [15]:
df_ml.to_pickle( 'app/recomendacion_producto.pkl')

Guardamos en una variable el producto, que sirve de base para la recomendación.

In [16]:
product = '000d9be29b5207b54e86aa1b1ac54872'

Creamos una función para delvolver un listado de productos sugeridos en formato dataframe.

In [17]:
def recommend_products(product_id):
    df_ml= pd.read_pickle('app/recomendacion_producto.pkl')
    filtro_aux = df_ml['product_id'] == product
    categoria = df_ml[filtro_aux]['category_name']
    group = df_ml[filtro_aux]['group']
    filtro = (df_ml['group'] == group.values[0]) & (df_ml['category_name'] == categoria.values[0]) & (df_ml['product_id']!= product)
    df =df_ml[filtro].sort_values(by='ventas_producto', ascending=False)
    return df.head(3)
    

productos_sugeridos = recommend_products(product)

In [18]:
productos_sugeridos

Unnamed: 0,product_id,category_name,weight_g,price,volume,ventas_producto,group
54598,7a10781637204d8d10485c71a6108a2e,relogios_presentes,342,219.0,3510,143,892
20144,2ff17002562478fb03cd44f09e7ca51a,relogios_presentes,283,228.8,3528,10,892
63447,8f3a1c2358138bedfb98645db449110c,relogios_presentes,297,279.9,3564,10,892
