# <img style="float: left; padding-right: 5px; width: 200px" src="https://assets.entrepreneur.com/images/misc/1584487204_LOGOCODOS_fondoblanco-01.png?width=300">
#Data Science & Machine Learning Engineer Interview

## Take Home: New or Used


### Julio 2023

<hr style="height:2pt">

## Descripción del Problema: Nuevo o Usado

El dataset otorgado tiene 100.000 registros de items extraidos del marketplace en MercadoLibre, caracterizados a través de 26 diferentes columnas.

En el contexto del Marketplace de MercadoLibre, se detecta la necesidad de un algoritmo que prediga si un item listado en el marketplace es nuevo o usado.  
La tarea consiste en diseñar un modelo de machine learning que prediga si un item es nuevo o usado, y evaluar el mismo sobre un conjunto de datos separado.  
(Se adjunta una celda con la cual realizar la consumicion del dataset)

Para ello sugerimos realizar en una primera instancia un Exploratory Data Analysis (EDA) de este dataset, para entender la información contenida y obtener insights relevantes para tareas analíticas.

A continuación, una descripción de las columnas:

| Variable | Descripción |
| :------------- | :----------- |
| id | ID de la publicación |
| title | Título de la publicación |
| date_created | Fecha de creación de la publicación |
| base_price | Precio del producto en la publicación, sin descuento |
| price | Precio del producto en la publicación, con descuento |
| category_id | ID de categoría del producto |
| tags | Tags de la publicación |
| attributes | Atributos del producto publicado |
| variations | Variaciones del producto publicado |
| pictures | Fotos del producto publicado |
| seller_id | ID del vendedor |
| seller_country | País de residencia del vendedor |
| seller_province | Provincia de residencia del vendedor |
| seller_city | Ciudad de residencia del vendedor |
| seller_loyalty | Loyalty o segmento del vendedor |
| buying_mode | Modo de compra especificado |
| shipping_mode | Modo de envío especificado |
| shipping_admits_pickup | Flag indicando si se puede retirar al domicilio del vendedor |
| shipping_is_free | Flag indicando si el envío es gratis |
| status | Estado de la publicación |
| sub_status | Sub-estado de la publicación |
| warranty | Garantía del producto |
| is_new | Flag indicando si el producto es nuevo |
| initial_quantity | Stock inicial del producto |
| sold_quantity | Stock vendido del producto |
| available_quantity | Stock disponible del producto |


In [31]:
import json


# You can safely assume that `build_dataset` is correctly implemented
def build_dataset():
    data = [json.loads(x) for x in open("MLA_100k.jsonlines")]
    target = lambda x: x.get("condition")
    N = -10000
    X_train = data[:N]
    X_test = data[N:]
    y_train = [target(x) for x in X_train]
    y_test = [target(x) for x in X_test]
    for x in X_test:
        del x["condition"]
    return X_train, y_train, X_test, y_test

In [32]:
import json

def build_whole_dataset():
    return [json.loads(x) for x in open("MLA_100k.jsonlines")]


In [33]:
import pandas as pd

In [50]:
X_train, y_train, X_test, y_test = build_dataset()
X_train_pd = pd.DataFrame(X_train)
X_train_pd.shape

(90000, 48)

In [34]:
new_or_used_dataset = build_whole_dataset()


In [35]:
new_or_used_dataset_pd = pd.DataFrame(new_or_used_dataset)

In [36]:
new_or_used_dataset_pd.shape

(100000, 48)

In [28]:
pd.set_option('display.max.columns', None)
new_or_used_dataset_pd.head()

Unnamed: 0,seller_address,warranty,sub_status,condition,seller_contact,deal_ids,base_price,shipping,non_mercado_pago_payment_methods,seller_id,variations,location,site_id,listing_type_id,price,attributes,buying_mode,tags,listing_source,parent_item_id,coverage_areas,category_id,descriptions,last_updated,international_delivery_mode,pictures,id,official_store_id,differential_pricing,accepts_mercadopago,original_price,currency_id,thumbnail,title,automatic_relist,date_created,secure_thumbnail,stop_time,status,video_id,catalog_product_id,subtitle,initial_quantity,start_time,permalink,geolocation,sold_quantity,available_quantity
0,"{'comment': '', 'longitude': -58.3986709, 'id'...",,[],new,,[],80.0,"{'local_pick_up': True, 'methods': [], 'tags':...","[{'description': 'Transferencia bancaria', 'id...",74952096,[],{},MLA,bronze,80.0,[],buy_it_now,[dragged_bids_and_visits],,MLA568261029,[],MLA126406,[{'id': 'MLA578052519-912855983'}],2015-09-05T20:42:58.000Z,none,"[{'size': '500x375', 'secure_url': 'https://a2...",MLA578052519,,,True,,ARS,http://mla-s1-p.mlstatic.com/5386-MLA435206787...,Auriculares Samsung Originales Manos Libres Ca...,False,2015-09-05T20:42:53.000Z,https://a248.e.akamai.net/mla-s1-p.mlstatic.co...,2015-11-04T20:42:53.000Z,active,,,,1,2015-09-05T20:42:53.000Z,http://articulo.mercadolibre.com.ar/MLA-578052...,"{'latitude': -34.6280698, 'longitude': -58.398...",0,1
1,"{'comment': '', 'longitude': -58.5059173, 'id'...",NUESTRA REPUTACION,[],used,,[],2650.0,"{'local_pick_up': True, 'methods': [], 'tags':...","[{'description': 'Transferencia bancaria', 'id...",42093335,[],{},MLA,silver,2650.0,[],buy_it_now,[],,MLA561574487,[],MLA10267,[{'id': 'MLA581565358-930764806'}],2015-09-26T18:08:34.000Z,none,"[{'size': '499x334', 'secure_url': 'https://a2...",MLA581565358,,,True,,ARS,http://mla-s1-p.mlstatic.com/23223-MLA20245018...,Cuchillo Daga Acero Carbón Casco Yelmo Solinge...,False,2015-09-26T18:08:30.000Z,https://a248.e.akamai.net/mla-s1-p.mlstatic.co...,2015-11-25T18:08:30.000Z,active,,,,1,2015-09-26T18:08:30.000Z,http://articulo.mercadolibre.com.ar/MLA-581565...,"{'latitude': -34.5935524, 'longitude': -58.505...",0,1
2,"{'comment': '', 'longitude': -58.4143948, 'id'...",,[],used,,[],60.0,"{'local_pick_up': True, 'methods': [], 'tags':...","[{'description': 'Transferencia bancaria', 'id...",133384258,[],{},MLA,bronze,60.0,[],buy_it_now,[dragged_bids_and_visits],,MLA568881256,[],MLA1227,[{'id': 'MLA578780872-916478256'}],2015-09-09T23:57:10.000Z,none,"[{'size': '375x500', 'secure_url': 'https://a2...",MLA578780872,,,True,,ARS,http://mla-s1-p.mlstatic.com/22076-MLA20223367...,"Antigua Revista Billiken, N° 1826, Año 1954",False,2015-09-09T23:57:07.000Z,https://a248.e.akamai.net/mla-s1-p.mlstatic.co...,2015-11-08T23:57:07.000Z,active,,,,1,2015-09-09T23:57:07.000Z,http://articulo.mercadolibre.com.ar/MLA-578780...,"{'latitude': -34.6233907, 'longitude': -58.414...",0,1
3,"{'comment': '', 'longitude': -58.4929208, 'id'...",,[],new,,[],580.0,"{'local_pick_up': True, 'methods': [], 'tags':...","[{'description': 'Transferencia bancaria', 'id...",143001605,[],{},MLA,silver,580.0,[],buy_it_now,[],,,[],MLA86345,[{'id': 'MLA581877385-932309698'}],2015-10-05T16:03:50.306Z,none,"[{'size': '441x423', 'secure_url': 'https://a2...",MLA581877385,,,True,,ARS,http://mla-s2-p.mlstatic.com/183901-MLA2043288...,Alarma Guardtex Gx412 Seguridad Para El Automo...,False,2015-09-28T18:47:56.000Z,https://a248.e.akamai.net/mla-s2-p.mlstatic.co...,2015-12-04T01:13:16.000Z,active,,,,1,2015-09-28T18:47:56.000Z,http://articulo.mercadolibre.com.ar/MLA-581877...,"{'latitude': -34.6281894, 'longitude': -58.492...",0,1
4,"{'comment': '', 'longitude': -58.5495042, 'id'...",MI REPUTACION.,[],used,,[],30.0,"{'local_pick_up': True, 'methods': [], 'tags':...","[{'description': 'Transferencia bancaria', 'id...",96873449,[],{},MLA,bronze,30.0,[],buy_it_now,[dragged_bids_and_visits],,MLA566354576,[],MLA41287,[{'id': 'MLA576112692-902981678'}],2015-08-28T13:37:41.000Z,none,"[{'size': '375x500', 'secure_url': 'https://a2...",MLA576112692,,,True,,ARS,http://mla-s2-p.mlstatic.com/13595-MLA13041807...,Serenata - Jennifer Blake,False,2015-08-24T22:07:20.000Z,https://a248.e.akamai.net/mla-s2-p.mlstatic.co...,2015-10-23T22:07:20.000Z,active,,,,1,2015-08-24T22:07:20.000Z,http://articulo.mercadolibre.com.ar/MLA-576112...,"{'latitude': -34.6346547, 'longitude': -58.549...",0,1


In [29]:
new_or_used_dataset_pd.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 48 columns):
 #   Column                            Non-Null Count   Dtype  
---  ------                            --------------   -----  
 0   seller_address                    100000 non-null  object 
 1   warranty                          39104 non-null   object 
 2   sub_status                        100000 non-null  object 
 3   condition                         100000 non-null  object 
 4   seller_contact                    2219 non-null    object 
 5   deal_ids                          100000 non-null  object 
 6   base_price                        100000 non-null  float64
 7   shipping                          100000 non-null  object 
 8   non_mercado_pago_payment_methods  100000 non-null  object 
 9   seller_id                         100000 non-null  int64  
 10  variations                        100000 non-null  object 
 11  location                          100000 non-null  ob

In [30]:
new_or_used_dataset_pd.describe()

Unnamed: 0,base_price,seller_id,price,official_store_id,original_price,catalog_product_id,initial_quantity,sold_quantity,available_quantity
count,100000.0,100000.0,100000.0,818.0,143.0,11.0,100000.0,100000.0,100000.0
mean,52524.23,84252690.0,52524.33,206.443765,1593.341958,3727643.0,35.09337,2.39699,34.84238
std,8623127.0,54972570.0,8623127.0,128.252953,2245.798072,1884698.0,421.076196,42.685077,420.808403
min,0.84,1304.0,0.84,1.0,120.0,94404.0,1.0,0.0,1.0
25%,90.0,39535910.0,90.0,84.0,449.0,3050702.0,1.0,0.0,1.0
50%,250.0,76310630.0,250.0,216.0,858.0,5093232.0,1.0,0.0,1.0
75%,800.0,132565900.0,800.0,312.75,1500.0,5103216.0,2.0,0.0,2.0
max,2222222000.0,194690600.0,2222222000.0,446.0,13999.0,5434513.0,9999.0,8676.0,9999.0


In [31]:
new_or_used_dataset_pd.isnull().sum()

seller_address                           0
warranty                             60896
sub_status                               0
condition                                0
seller_contact                       97781
deal_ids                                 0
base_price                               0
shipping                                 0
non_mercado_pago_payment_methods         0
seller_id                                0
variations                               0
location                                 0
site_id                                  0
listing_type_id                          0
price                                    0
attributes                               0
buying_mode                              0
tags                                     0
listing_source                           0
parent_item_id                       23011
coverage_areas                           0
category_id                              0
descriptions                             0
last_update

In [41]:
new_or_used_dataset_pd[["warranty",
                        "condition",
                        "listing_type_id",
                        "buying_mode",
                        "international_delivery_mode",
                        "official_store_id",
                        "differential_pricing",
                        "accepts_mercadopago",
                        "currency_id",
                        "automatic_relist",
                         "status"]].nunique()

warranty                       10264
condition                          2
listing_type_id                    7
buying_mode                        3
international_delivery_mode        1
official_store_id                202
differential_pricing               0
accepts_mercadopago                2
currency_id                        2
automatic_relist                   2
status                             4
dtype: int64

In [44]:
print(new_or_used_dataset_pd["condition"].value_counts())
print(new_or_used_dataset_pd["listing_type_id"].value_counts())
print(new_or_used_dataset_pd["currency_id"].value_counts())
print(new_or_used_dataset_pd["automatic_relist"].value_counts())
print(new_or_used_dataset_pd["status"].value_counts())

new     53758
used    46242
Name: condition, dtype: int64
bronze          63170
free            21388
silver           9114
gold_special     3023
gold             2445
gold_premium      842
gold_pro           18
Name: listing_type_id, dtype: int64
ARS    99433
USD      567
Name: currency_id, dtype: int64
False    95303
True      4697
Name: automatic_relist, dtype: int64
active            95675
paused             4304
closed               20
not_yet_active        1
Name: status, dtype: int64


In [46]:
new_or_used_dataset_pd[["base_price",
                        "price",
                        "original_price",
                        "initial_quantity",
                        "sold_quantity",
                        "available_quantity"
                        ]].corr()

Unnamed: 0,base_price,price,original_price,initial_quantity,sold_quantity,available_quantity
base_price,1.0,1.0,0.994437,-0.000362,-0.000337,-0.000359
price,1.0,1.0,0.994437,-0.000362,-0.000337,-0.000359
original_price,0.994437,0.994437,1.0,0.167619,0.133158,0.167294
initial_quantity,-0.000362,-0.000362,0.167619,1.0,0.057291,0.999948
sold_quantity,-0.000337,-0.000337,0.133158,0.057291,1.0,0.051786
available_quantity,-0.000359,-0.000359,0.167294,0.999948,0.051786,1.0


In [47]:
new_or_used_dataset_pd[["base_price",
                        "price",
                        "original_price",
                        "initial_quantity",
                        "sold_quantity",
                        "available_quantity"
                        ]].head(100)

Unnamed: 0,base_price,price,original_price,initial_quantity,sold_quantity,available_quantity
0,80.00,80.00,,1,0,1
1,2650.00,2650.00,,1,0,1
2,60.00,60.00,,1,0,1
3,580.00,580.00,,1,0,1
4,30.00,30.00,,1,0,1
...,...,...,...,...,...,...
95,2499.00,2499.00,,1,0,1
96,5239.00,5239.00,,2,0,2
97,3968.72,3968.72,,2,0,2
98,600.00,600.00,,1,0,1


In [48]:
new_or_used_dataset_pd[["base_price",
                        "price",
                        "original_price",
                        "initial_quantity",
                        "sold_quantity",
                        "available_quantity"
                        ]].describe()

Unnamed: 0,base_price,price,original_price,initial_quantity,sold_quantity,available_quantity
count,100000.0,100000.0,143.0,100000.0,100000.0,100000.0
mean,52524.23,52524.33,1593.341958,35.09337,2.39699,34.84238
std,8623127.0,8623127.0,2245.798072,421.076196,42.685077,420.808403
min,0.84,0.84,120.0,1.0,0.0,1.0
25%,90.0,90.0,449.0,1.0,0.0,1.0
50%,250.0,250.0,858.0,1.0,0.0,1.0
75%,800.0,800.0,1500.0,2.0,0.0,2.0
max,2222222000.0,2222222000.0,13999.0,9999.0,8676.0,9999.0


# Modelado

## Tareas

En este notebook se deberá cargar todas las librerías que se necesitan para explorar y procesar el dataset dado, y así realizar el modelo corresponendiente para resolver el objetivo propuesto. Se puede realizar cualquier análisis deseado, pero al final se espera encontrar realizadas las tareas del tipo "requerido". Además, hay algunos aspectos valorados del tipo "deseable" que podrían enriquecer el trabajo, y algunos "bonus" extra.

El código debe ser desarrollado en Python 3.x (NO 2.x). Los reportes pueden estar en español o inglés.

### Requerido

- **Data QA:** Se debe chequear la calidad del dataset para hacer una evaluación de qué tan apropiados son los datos para tareas de Data Science. Proponga un conjunto de correcciones en los datos de ser necesario.
- **Reporting:** Documente los resultados e insights obtenidos durante la exploración y describa conclusiones desde una perspectiva de negocio, soportado por gráficos / tablas / métricas.
- **Feature Engineering:** Indicar y calcular posibles candidatos de features que podrían utilizarse en un modelo predictivo para resolver la problematica indicada, tanto desde las columnas originales como desde transformaciones.
- **Machine Learning:** Realice un modelo predictivo capaz de solucionar el problema propuesto
- **Mostrar skills en Python:** Teniendo buenas practicas en la estructura del código y la documentación.
- **Métricas:** Definir y calcular las métricas que considere más relevantes para la problemática propuesta.

### Deseable

- **Versionado de código con Git** (incluso puede publicarse en tu cuenta personal de GitHub!).

### Bonus

- Manejo de environment de desarrollo mediante alguna tecnología (e.g. Docker, virtualenv, conda).


In [37]:
from joblib import dump
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix

X = new_or_used_dataset_pd[["base_price", "price", "initial_quantity", "sold_quantity"]]
y = new_or_used_dataset_pd[["condition"]]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)


(67000, 4)
(33000, 4)
(67000, 1)
(33000, 1)


In [38]:

clf_pipeline = [('scaling', MinMaxScaler()), ('clf', GradientBoostingClassifier())]
pipeline = Pipeline(clf_pipeline)

pipeline.fit(X_train, y_train)
predictions = pipeline.predict(X_test)

print("Confusion Matrix:")
print(confusion_matrix(y_test, predictions))

print("Classification Report")
print(classification_report(y_test, predictions))

dump(pipeline, './new_or_used_v1.joblib')


  y = column_or_1d(y, warn=True)


Confusion Matrix:
[[10802  6951]
 [  985 14262]]
Classification Report
              precision    recall  f1-score   support

         new       0.92      0.61      0.73     17753
        used       0.67      0.94      0.78     15247

    accuracy                           0.76     33000
   macro avg       0.79      0.77      0.76     33000
weighted avg       0.80      0.76      0.75     33000



['./new_or_used_v1.joblib']

In [39]:
from joblib import load
import classifier as clf
clf.model = load('new_or_used_v1.joblib')
# clf.predict([[0,0,0,0],[1000,1,2,3]])
prediction = clf.model.predict([[0,0,0,0],[1000,1,2,3]]).tolist()
prediction



['used', 'new']

# Productizacion

## Descripción 

Una vez que el modelo está entrenado, el despliegue (deployment) es una etapa fundamental para llevarlo al entorno productivo donde será expuesto para hacer predicciones en el mundo real. La forma más efectiva de disponibilizarlo es a través de una API la cual facilita la comunicación entre el modelo y los clientes u otras aplicaciones.

## Tareas

Diseñar un servicio que disponibilice el modelo mediante un REST framework, que reciba como dato de entrada un item y como salida retorne la predicción (si es nuevo o usado). Para ésto, se deberá proporcionar un endpoint /predict al cual se le envie el item como un query param o como parte de un body, cualquier solución es válida.

La modularidad es un aspecto importante a tener en cuenta para simplificar la gestión del proyecto. Si bien la implementación pedida es sencilla (al contar con un sólo endpoint por el momento), se espera que el servicio esté pensado para extenderse fácilmente, y que además sea robusto para garantizar su rendimiento y escalabilidad.

El código debe ser desarrollado en Python 3.x (NO 2.x). La documentación pueden estar en español o inglés.

### Requerido

- **Software Engineering:** Aplicar técnicas de desarrollo de software para lograr un enfoque estructurado.
- **Skills en Python:** Respetar la guía de estilo de código propuesto por PEP8.
- **Testing:** Escribir todos los casos de test que se consideren necesarios.
- **Documentación:** Entregar un README que indique como implementar y hacer uso de la aplicación.

### Deseable

- **Versionado de código con Git** (incluso puede publicarse en tu cuenta personal de GitHub!).

### Bonus

- Manejo de environment de desarrollo mediante alguna tecnología (e.g. Docker, virtualenv, conda).


Este ejercicio está diseñado para ser completado en 8 - 12 hs siguiendo sólo los aspectos del tipo "requerido" y "deseable", pero se contempla una semana para entregarlo con todos los aspectos que se deseen completar.

Una vez completado este ejercicio, por favor mandar un archivo ZIP de la carpeta con todos los recursos usados en este trabajo (e.g. Jupyter notebook, scripts, documentos, imágenes, etc), o bien el enlace al repositorio de GitHub, a santiago.feraud@mercadolibre.com.

**Que te diviertas!**

<img src="http://s3.amazonaws.com/melidata-external/data-science-interviews/2021/img/hunger_games_data_meme.jpeg" alt="drawing" style="width:200px;"/>