# **Desafio Tecnico: Mercado Libre**

**Consignas**:
- 1) Realizar un analisis exploratorio de las publicaciones con descuento del marketplace
- 2) Armar un dataset y un modelo que permita predecir con atributos de la publicacion el valor de `sold quantity`

**Aclaracion:**
En un primer momento opte armar un modelo general que permita predecir cualquier tipo de publicacion. El problema con este enfoque era que involucraba una complejidad de infraestructura que dada la escasez de tiempo, me enfrente pero decidi abandonar. 

Es por esta razon que opte por limitar el enfoque a predecir 5 tipo de productos cuyas caracteristicas estaban bien definidas y tenian muchas publicaciones: `computadoras`, `monitores`, `parlantes`, `notebooks` y `celulares`. Television fue una opcion pero el endpoint de search devolvia mas resultados de TV_STANDS que de TV.

In [None]:
import math
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split, KFold, cross_val_score, GridSearchCV
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn.compose import ColumnTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.impute import SimpleImputer
from lightgbm import LGBMRegressor

from utils import *

In [None]:
logger = logging.getLogger()
logger.setLevel(logging.INFO)
pd.set_option('display.float_format', lambda x: '%.3f' % x)

In [None]:
token = get_token(APP_INFO["app_id"], APP_INFO["secret_key"], AUTH["refresh_token"])

In [None]:
productos = ["notebook", "celular", "monitor", "parlante", "auriculares"]
final_df = get_dataset(productos, token)

## **EDA**

In [None]:
# Creamos las columnas con los descuentos
final_df['has_discount'] = final_df['original_price'].notnull()
final_df['discount'] = ((final_df['original_price'] - final_df['price'])/ final_df['original_price']).fillna(0)

Observemos la distribucion general de descuentos

In [None]:
sns.distplot(final_df.query('discount != 0')['discount'])

Podemos ver que el grueso esta entre 15% y 35%

Ahora, veamos la proporcion de productos que tienen descuentos agrupado por producto

In [None]:
props = final_df.groupby(["domain_id"])['has_discount'].value_counts(normalize=True)
props_df = props.to_frame()
props_df = props_df.rename(columns={'has_discount': 'prop'}).reset_index().sort_values('prop', ascending=False)
filter_props = props_df.query("has_discount == True")
sns.barplot(x="domain_id", y="prop", color="salmon", data=filter_props).set_title("Proporcion de publicaciones con descuento")
plt.xticks(rotation=60);

No pareceria haber muchas publicaciones con descuento, lo maximo es 5% para parlantes y ~4% para auriculares

Veamos de los productos con descuentos, cual es el descuento promedio

In [None]:
discounts = final_df.query('discount != 0')
discounts = discounts.groupby('domain_id').mean().reset_index().sort_values('discount', ascending=False)
g = sns.barplot(x="domain_id", y="discount", data=discounts, color="salmon").set_title("Descuento promedio")
plt.xticks(rotation=60);

De todas maneras, el descuento promedio es mayor al 20% para todos los productos

Dado que el grafico anterior era una estimacion puntual, tratemos de ver la distribucion de descuentos para cada producto

En histograma

In [None]:
final_df.query('discount != 0')['discount'].hist(by=final_df['domain_id'], figsize=(15,15), bins=10);

En densidad:

In [None]:
plt.figure(figsize=(15,10))
sns.set_style("darkgrid")
for main_category in final_df['domain_id'].unique():
    temp = final_df.query('discount != 0')
    temp = temp.loc[temp['domain_id'] == main_category]
    sns.distplot(temp[['discount']], hist=False, label=main_category)


Es llamativamente interesante como la mayoria de los descuentos para las notebboks se centra en 30% mientras que el resto se distribuye mas uniformemente entren el 10% y el 35%

Veamoslo en un boxplot:

In [None]:
final_df.query('discount != 0').boxplot(column=['discount'], by='domain_id', figsize=(15,10), rot=60, color=dict(medians='r'));

# **Data Wrangling**

Antes de procesar las columnas con formatos no convencionales, tratemos de limpiar un poco nuestro dataset. Se busca eliminar:
- Las features que tienen valores unicos para cada observacion
- Feature que tienen el mismo valor para todas las observaciones
- Observaciones con outliers en nuestras variables numericas

In [None]:
final_df.columns

Por simplicidad, eliminemos las variales espaciales latitud y longitud

In [None]:
final_df.drop(["seller_address.latitude", "seller_address.longitude", "geolocation.latitude", "geolocation.longitude"], axis=1, inplace=True)

Podemos ver que las variables price y base_price parecen ser iguales, veamoslo...

In [None]:
sum(final_df['price'] != final_df['base_price'])

In [None]:
final_df.drop("base_price", axis=1, inplace=True)

Entonces, nuestras variables numericas son:
- price
- original_price
- initial_quantity
- available_quantity
- sold_quantity
- discount

In [None]:
numeric_features = ["price", "discount", "available_quantity", "initial_quantity", "original_price", "sold_quantity"]
final_df[numeric_features].hist(figsize=(12,8));

In [None]:
final_df[numeric_features].describe()

Bueno, tenemos un problema de outliers en casi todas las categorias... arranquemos por analizar los precios

In [None]:
final_df.query("price > 1e05")[['title', 'price']].sort_values('price', ascending=False)[:20]

Podemos ver que estos precios son llamativos, sobretodo el precio de "La camperita termica para perro". Podriamos hacer un analisis para determinar cual deberia ser el precio que deberia corresponder a estos items, pero voy a optar por eliminarlos. Son las primeras 12 observaciones (hasta "celular") que parecen incorrectas, el resto parecerian estar relacionados al producto que venden

In [None]:
final_df = final_df[final_df['price'] < 9954695]

Ahora observemos las cantidades vendidas

In [None]:
final_df[['title', 'sold_quantity', "date_created"]].sort_values('sold_quantity', ascending=False)[:20]

Parecerian ser todos numeros plausibles dada la antiguedad de las publicaciones, sigamos.

Ahora observemos las cantidades en stock

In [None]:
final_df[["title", "seller_id", "available_quantity"]].sort_values("available_quantity", ascending=False)[:100]

Pareceria ser que son casi todas las publicaciones de valores extremos pertenencen al mismo vendedor. Me llama la atencion que dispongan de semejante volumen aunque no parecen valores descabellados, creo. Ante la duda voy a optar por dejarlos. 

Por las dudas, dada la distribucion asimetrica de las variables voy a crear variables que sean sus logaritmos, exceptuando a sold_quantity por ahora (aunque despues voy a fijarme si transformandola mejora la performance)

In [None]:
for col in ["price", "available_quantity", "initial_quantity", "original_price"]:
    final_df.loc[:, f"log_{col}"] = final_df[col].apply(lambda x: math.log(x+1))

Ahora analizemos la variabilidad de nuestras features categoricas

In [None]:
categorical_features = list(final_df.drop(numeric_features, axis=1).columns)

In [None]:
uniques ={}
for col in categorical_features:
    uniques[col] = final_df[col].apply(str).nunique() / len(final_df)

Empecemos viendo las que serian unicas por publicacion

In [None]:
sorted(uniques.items(), key=lambda x: x[1], reverse=True)[:15]

Aca aparecen muchas de las variables unicas (id, permalink, descriptions, pictures, thumbnail, secure_thumbnail) que considero hay que eliminar, pero tambien una de las variables que en mi opinion, mas importa para predecir la cantidad de articulos vendidos, date_created. Veamos si start_time, historical_start_time y date_created son iguales

In [None]:
final_df.drop(["id", "permalink", "thumbnail", "secure_thumbnail", "descriptions", "pictures"], axis=1, inplace=True)

In [None]:
final_df[final_df['start_time'] != final_df['date_created']][['start_time', "date_created", "historical_start_time"]]

Los casos en que no son iguales, que son pocos, tienen 1 segundo de diferencia, elimiemos start_time y historical_start_time

In [None]:
final_df.drop(['start_time', "historical_start_time"], axis=1, inplace=True)

Y ahora transformemos un poco las columnas que tienen fechas

In [None]:
final_df['days_old'] = (pd.Timestamp(datetime.utcnow(), tz="UTC") - pd.to_datetime(final_df['date_created'])).dt.days
final_df['days_remaining'] = pd.to_datetime(final_df['stop_time']).dt.days - pd.Timestamp(datetime.utcnow(), tz="UTC")
final_df['days_from_update'] = (pd.Timestamp(datetime.utcnow(), tz="UTC") - pd.to_datetime(final_df['last_updated'])).dt.days

final_df.drop(["date_created", "stop_time", "last_updated"], axis=1, inplace=True)

Ahora observemos si hay variables que tienen valores unicos

In [None]:
sorted(uniques.items(), key=lambda x: x[1])[:20]

Las variables cuyo valor es 2.79..e-05 tienen un solo valor. Eliminsemoslas dado que no aportan ningun tipo de informacion

In [None]:
keys = [key for key, value in sorted(uniques.items(), key=lambda x: x[1])[:17]]

In [None]:
final_df.drop(keys, axis=1, inplace = True)

Ahora, transformemos y adaptemos un poco las variables que tienen texto adentro como por ejemplo el titulo del la publicacion y la ciudad del vendedor

Para el titulo, quedemosnos pasemos todo a minusculas, eliminemos whitespaces y quedemosnos solo con las primeras dos palabras que usualmente tienen el nombre del producto y su marca

In [None]:
def transform_title(x):
    words = x.strip().lower().split(" ")[:2]
    parsed_words = " ".join(words)
    return parsed_words

final_df.loc[:, 'title'] = final_df["title"].apply(transform_title)

Me parece redundante tener 2 variables para decir lo mismo, asi que voy a optar por sacar o el id o el city name

In [None]:
final_df[[col for col in final_df if col.startswith("seller_address")]].head()

In [None]:
final_df[[col for col in final_df if col.startswith("seller_address")]].nunique()

Parece ser que: 
- Para la ciudad, el nombre tiene mas informacion
- Para la provincia, es indistinto
- Para el barrio del search location el id es mas representativo
- Para la ciudad del search location el id es mas representativo
- Para la provincia del seach location, es indistinto

In [None]:
unwanted_seller = ["seller_address.city.id", "seller_address.state.name", "seller_address.search_location.neighborhood.name", 
                   "seller_address.search_location.city.name", "seller_address.search_location.state.name"]
final_df.drop(unwanted_seller, axis=1, inplace = True)

La unica coumna con nombre que nos quedo es para la ciudad del vendedor, pasemosla toda a minuscula y eliminemos whitespaces

In [None]:
final_df.loc[:, 'seller_address.city.name'] = final_df['seller_address.city.name'].apply(lambda x: x.lower().strip())

Procesemos la informacion que esta adentro de tags

In [None]:
final_df["tags"] = final_df["tags"].apply(lambda x: " ".join(x)).apply(lambda x: x.replace("-", "_"))
cvect = CountVectorizer()
tags = cvect.fit_transform(final_df["tags"]).toarray()
for i, col in enumerate(cvect.get_feature_names()):
    final_df[col] = tags[:, i]
final_df.drop('tags', axis=1, inplace=True)

Obtengamos los atributos espeificos de la publicacion. Para esto, voy a extraer del diccionario el ID del atributo como su valor. Elijo el value_name y no el value_id por azar, me parecia mas intuitvo para entender y ver la importancia de la feature dado que los puedo asociar

In [None]:
attrs_df = pd.json_normalize(final_df["attributes"].apply(lambda lista: {d["id"]: d["value_name"] for d in lista}))

In [None]:
dataset = pd.concat([final_df, attrs_df], axis=1)
dataset.drop("attributes", axis=1, inplace=True)

Un **dato de color** que me hizo **perder unas cuantas horas.....**

In [None]:
final_df.shape

In [None]:
attrs_df.shape

In [None]:
dataset.shape

Por algun motivo que desconzco, el join genero 12 observaciones con todo NA a pesar de que deberia haber hecho el join por indice como corresponde, eliminemoslas

In [None]:
dataset = dataset[~dataset["sold_quantity"].isna()]

In [None]:
dataset.shape

In [None]:
dataset.to_csv("dataset.csv", index=None)
dataset = pd.read_csv("dataset.csv")

## **Estimador**

Separamos nuestras variables

In [None]:
y = dataset['sold_quantity']
y_log = dataset['sold_quantity'].apply(lambda x: math.log(x+1))
X = dataset.drop(['sold_quantity', "date_created", "last_updated", "stop_time"], axis=1)

Redefinimos nuestras features numericas y categoricas y transformamos el tipo para asegurarnos de no tener errores

In [None]:
numeric_features = ["price", "log_price", "discount", "available_quantity", 
                    "log_available_quantity", "initial_quantity", "log_initial_quantity", 
                    "original_price", "log_original_price", 
                    "days_old"]
X[numeric_features] = X[numeric_features].applymap(np.float)
categorical_features = list(X.drop(numeric_features, axis=1).columns)
X[categorical_features] = X[categorical_features].applymap(str)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [None]:
numeric_transformer = Pipeline(
    [('imputer', SimpleImputer(strategy='constant', missing_values=np.nan, fill_value=0))]
)
categorical_transformer = Pipeline([
    ('imputer', SimpleImputer(strategy='constant', missing_values="nan", fill_value='__')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))]
)
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)])

In [None]:
params = dict(n_estimators=[200, 500, 800], 
              learning_rate=[0.1, 0.25, 0.4],
              num_leaves=[30, 50, 80])
estimator = GridSearchCV(
        LGBMRegressor(n_jobs=-1),
        params,
        cv=5,
        n_jobs=-1,
        scoring="r2",
    )
pipe = Pipeline([('preprocessor', preprocessor), ('estimator', estimator)])
pipe.fit(X_train, y_train)

In [None]:
ohe_feature_names = pipe.steps[0][1].transformers_[1][1].steps[1][1].get_feature_names(categorical_features)
feature_importances = pipe.steps[1][1].feature_importances_

cols = list(numeric_features) + list(ohe_feature_names)
f_i = list(zip(cols, feature_importances))
pd.DataFrame(f_i, columns=["feature_names", "importance"]).sort_values('importance', ascending=False).reset_index(drop=True).query("importance > 0")

len(pipe.steps[1][1].feature_importances_)

In [None]:
cv = KFold(n_splits=4)
scores = cross_val_score(a, X_test[numeric_features], y_test, cv = cv, scoring='neg_mean_absolute_error')