# <img style="float: left; padding-right: 5px; width: 200px" src="https://assets.entrepreneur.com/images/misc/1584487204_LOGOCODOS_fondoblanco-01.png?width=300">
#Data Science & Machine Learning Engineer Interview

## Take Home: New or Used


### Julio 2023

<hr style="height:2pt">

## Descripción del Problema: Nuevo o Usado

El dataset otorgado tiene 100.000 registros de items extraidos del marketplace en MercadoLibre, caracterizados a través de 26 diferentes columnas.

En el contexto del Marketplace de MercadoLibre, se detecta la necesidad de un algoritmo que prediga si un item listado en el marketplace es nuevo o usado.  
La tarea consiste en diseñar un modelo de machine learning que prediga si un item es nuevo o usado, y evaluar el mismo sobre un conjunto de datos separado.  
(Se adjunta una celda con la cual realizar la consumicion del dataset)

Para ello sugerimos realizar en una primera instancia un Exploratory Data Analysis (EDA) de este dataset, para entender la información contenida y obtener insights relevantes para tareas analíticas.

A continuación, una descripción de las columnas:

| Variable | Descripción |
| :------------- | :----------- |
| id | ID de la publicación |
| title | Título de la publicación |
| date_created | Fecha de creación de la publicación |
| base_price | Precio del producto en la publicación, sin descuento |
| price | Precio del producto en la publicación, con descuento |
| category_id | ID de categoría del producto |
| tags | Tags de la publicación |
| attributes | Atributos del producto publicado |
| variations | Variaciones del producto publicado |
| pictures | Fotos del producto publicado |
| seller_id | ID del vendedor |
| seller_country | País de residencia del vendedor |
| seller_province | Provincia de residencia del vendedor |
| seller_city | Ciudad de residencia del vendedor |
| seller_loyalty | Loyalty o segmento del vendedor |
| buying_mode | Modo de compra especificado |
| shipping_mode | Modo de envío especificado |
| shipping_admits_pickup | Flag indicando si se puede retirar al domicilio del vendedor |
| shipping_is_free | Flag indicando si el envío es gratis |
| status | Estado de la publicación |
| sub_status | Sub-estado de la publicación |
| warranty | Garantía del producto |
| is_new | Flag indicando si el producto es nuevo |
| initial_quantity | Stock inicial del producto |
| sold_quantity | Stock vendido del producto |
| available_quantity | Stock disponible del producto |


In [None]:
import json


# You can safely assume that `build_dataset` is correctly implemented
def build_dataset():
    data = [json.loads(x) for x in open("MLA_100k.jsonlines")]
    target = lambda x: x.get("condition")
    N = -10000
    X_train = data[:N]
    X_test = data[N:]
    y_train = [target(x) for x in X_train]
    y_test = [target(x) for x in X_test]
    for x in X_test:
        del x["condition"]
    return X_train, y_train, X_test, y_test

# Modelado

## Tareas

En este notebook se deberá cargar todas las librerías que se necesitan para explorar y procesar el dataset dado, y así realizar el modelo corresponendiente para resolver el objetivo propuesto. Se puede realizar cualquier análisis deseado, pero al final se espera encontrar realizadas las tareas del tipo "requerido". Además, hay algunos aspectos valorados del tipo "deseable" que podrían enriquecer el trabajo, y algunos "bonus" extra.

El código debe ser desarrollado en Python 3.x (NO 2.x). Los reportes pueden estar en español o inglés.

### Requerido

- **Data QA:** Se debe chequear la calidad del dataset para hacer una evaluación de qué tan apropiados son los datos para tareas de Data Science. Proponga un conjunto de correcciones en los datos de ser necesario.
- **Reporting:** Documente los resultados e insights obtenidos durante la exploración y describa conclusiones desde una perspectiva de negocio, soportado por gráficos / tablas / métricas.
- **Feature Engineering:** Indicar y calcular posibles candidatos de features que podrían utilizarse en un modelo predictivo para resolver la problematica indicada, tanto desde las columnas originales como desde transformaciones.
- **Machine Learning:** Realice un modelo predictivo capaz de solucionar el problema propuesto
- **Mostrar skills en Python:** Teniendo buenas practicas en la estructura del código y la documentación.
- **Métricas:** Definir y calcular las métricas que considere más relevantes para la problemática propuesta.

### Deseable

- **Versionado de código con Git** (incluso puede publicarse en tu cuenta personal de GitHub!).

### Bonus

- Manejo de environment de desarrollo mediante alguna tecnología (e.g. Docker, virtualenv, conda).


# Productizacion

## Descripción 

Una vez que el modelo está entrenado, el despliegue (deployment) es una etapa fundamental para llevarlo al entorno productivo donde será expuesto para hacer predicciones en el mundo real. La forma más efectiva de disponibilizarlo es a través de una API la cual facilita la comunicación entre el modelo y los clientes u otras aplicaciones.

## Tareas

Diseñar un servicio que disponibilice el modelo mediante un REST framework, que reciba como dato de entrada un item y como salida retorne la predicción (si es nuevo o usado). Para ésto, se deberá proporcionar un endpoint /predict al cual se le envie el item como un query param o como parte de un body, cualquier solución es válida.

La modularidad es un aspecto importante a tener en cuenta para simplificar la gestión del proyecto. Si bien la implementación pedida es sencilla (al contar con un sólo endpoint por el momento), se espera que el servicio esté pensado para extenderse fácilmente, y que además sea robusto para garantizar su rendimiento y escalabilidad.

El código debe ser desarrollado en Python 3.x (NO 2.x). La documentación pueden estar en español o inglés.

### Requerido

- **Software Engineering:** Aplicar técnicas de desarrollo de software para lograr un enfoque estructurado.
- **Skills en Python:** Respetar la guía de estilo de código propuesto por PEP8.
- **Testing:** Escribir todos los casos de test que se consideren necesarios.
- **Documentación:** Entregar un README que indique como implementar y hacer uso de la aplicación.

### Deseable

- **Versionado de código con Git** (incluso puede publicarse en tu cuenta personal de GitHub!).

### Bonus

- Manejo de environment de desarrollo mediante alguna tecnología (e.g. Docker, virtualenv, conda).


Este ejercicio está diseñado para ser completado en 8 - 12 hs siguiendo sólo los aspectos del tipo "requerido" y "deseable", pero se contempla una semana para entregarlo con todos los aspectos que se deseen completar.

Una vez completado este ejercicio, por favor mandar un archivo ZIP de la carpeta con todos los recursos usados en este trabajo (e.g. Jupyter notebook, scripts, documentos, imágenes, etc), o bien el enlace al repositorio de GitHub, a santiago.feraud@mercadolibre.com.

**Que te diviertas!**

<img src="http://s3.amazonaws.com/melidata-external/data-science-interviews/2021/img/hunger_games_data_meme.jpeg" alt="drawing" style="width:200px;"/>