# Logística de envíos: ¿Cuándo llega?

## Mentoría DiploDatos 2019 

### Integrantes:

- Alini, Walter
- Salina, Noelia

### Mentora:

- Dal Lago, Virginia

### Práctico: Introducción al Apendizaje Automático

## Motivación

En la actualidad, cada vez más productos se comercializan a través de una plataforma online. Una de las principales ventajas de este sistema es que el usuario puede recibir el producto en su domicilio en una fecha determinada. Pero, ¿cómo sabemos qué día va a llegar? ¿A partir de qué datos podemos predecir la demora del envío? En este práctico se trabajará con datos de envíos de MercadoLibre, el e-commerce más grande de Latinoamérica, analizando y modelando el problema de logística de envíos para poder responder ¿cuándo llega?

## Descripción del dataset

**Datos:**  El conjunto de datos seleccionado para realizar el práctico corresponde a un muestreo aleatorio no uniforme de 500.000 envíos de MercadoLibre. Estos envíos fueron realizados en Brasil en el período comprendido entre Octubre de 2018 y Abril de 2019 (las fechas originales han sido modificadas y adaptadas a un período de tiempo diferente, conservando el día de la semana y considerando los feriados correspondientes). Mientras que las fechas han sido modificadas, los horarios registrados en el dataset son los originales. Los datos comprenden variables tanto categóricas como numéricas. 

El dataset cuenta con las siguientes columnas:

- **Sender_state:** Estado de Brasil de donde sale el envío.
- **Sender_zipcode:** Código postal (de 5 dígitos) de donde sale el envío.
- **Receiver_state:** Estado de Brasil a donde llega el envío.
- **Receiver_zipcode:** Código postal (de 5 dígitos) a donde llega el envío.
- **Shipment_type:** Método de envío (normal, express, super).
- **Quantity:** Cantidad de productos en un envío.
- **Service:** Servicio del correo con el cual se realizó un envío.
- **Status:** Estado del envío (set: listo para ser enviado, sent: enviado, done: entregado, failed: no entregado, cancelled: cancelado).
- **Date_created:** Fecha de creación del envío.
- **Date_sent:** Fecha y hora en que se realizó el envío (salió del correo).
- **Date_visit:** Fecha y hora en que se entregó el envío al destinatario.
- **Shipment_days:** Días hábiles entre que el envío fue enviado (salió del correo) y que fue entregado.

## Objetivos generales

* Realizar de manera completa el proceso de desarrollo de un modelo de aprendizaje automático para determinar cuándo llega un envío. 
* Desarrollar el conocimiento práctico sobre dicho proceso, desde la definición de los datasets, la elección y análisis del modelo y las métricas propias para la problemática.
* Desarrollar habilidades de comunicación de la información obtenida a partir de los datos de manera clara y sencilla.


## Objetivos específicos

* `#ToDO`
* Conocer, compartir e incrementar la dinámica de trabajo grupal

## Metodología

A partir de lo estudiado en las clases teóricas y prácticas de la materia “Introducción al aprendizaje automático”, realizar un informe en formato de notebook o interactivo, en el cual se respondan, y justifiquen, las siguientes preguntas (además de cualquiera otra información extra que se considere de relevancia sobre la problemática): 

1. En el práctico anterior se respondió al siguiente enunciado: “A la hora de determinar la promesa de entrega de un envío (fecha estimada de llegada), ¿cuáles son los features que consideran pueden tener mayor relevancia? ¿Cuál es el valor a predecir?”. Recupere esa respuesta y presente un breve resumen de los features que consideraron de mayor relevancia y el target seleccionado para predecir.
2. El primer paso para desarrollar un modelo de aprendizaje automático es contar con datos limpios. ¿Qué pasos harían para limpiar el dataset?
3. Es necesario poder separar el dataset en un conjunto de entrenamiento y en uno de test. ¿Cómo realizaría esta separación? ¿Qué tamaño emplearía para cada uno considerando que partimos de 500.000 datos?
4. Dados los datos que disponemos y el target antes seleccionado, ¿qué tipo de modelo emplearían (regresión o clasificación)?
5. Definir el modelo a utilizar, entrenar y evaluar el mismo utilizando los valores por defecto propios de la librería scikit-learn. Analizar los resultados obtenidos en el contexto de la problemática (por ejemplo, ¿por qué creen que para ciertos valores del target tiene mejor performance que para otros?).
6. Modificar los hiperparámetros propios del modelo, y volver a entrenar y evaluar. ¿Por qué se eligió dicho valor para modificar? ¿Qué consecuencias tuvo? ¿Mejoró la performance del modelo? Analice los resultados obtenidos en el contexto de la problemática.
7. En los puntos anteriores se seleccionó un modelo de regresión o bien uno de clasificación. Realice una prueba con un modelo del otro tipo y comente sobre las métricas y los resultados obtenidos. ¿Por qué tuvo mejor o peor perfomance?

Esta comunicación debe estar dirigida para un público técnico pero que desconoce los aspectos propios del problema a resolver (por ejemplo, sus compañeros de clase). Se evaluará, principalmente, la claridad del mensaje presentado, el uso de las herramientas, los conceptos y los modelos desarrollados en las clases teóricas. 

## Estructura del informe


El informe debe contar con la estructura propia de un reporte de un experimento científico. Esto implica que debe tener un objetivo claro, una introducción a la problemática a resolver en dicho informe (no únicamente al problema general), una descripción de los datos a emplear, el desarrollo propiamente dicho del experimento y las conclusiones que se obtuvieron.

En el informe se deberá brindar una descripción del dataset suministrado (columnas, tipo de variables, valores extremos, etc.), las visualizaciones realizadas que sean pertinentes para la resolución del práctico, un análisis del modelo seleccionado, el análisis y las respuestas a las preguntas indicadas anteriormente, y las conclusiones.


## Entrega

* Muestra de avance: Viernes 19 de Julio
* Informe final: Viernes 26 de Julio

## Desarrollo

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

BLUE = '#35A7FF'
RED = '#FF5964'
GREEN = '#6BF178'
YELLOW = '#FFE74C'

RELATIVE_PATH = './'
DATA_FILE = 'data_sample_corrected_cleaned.csv'

# Establecemos una semilla por cuestiones de reproducibilidad
np.random.seed(0)

### Lectura y análisis inicial de los datos

In [2]:
ds = pd.read_csv(RELATIVE_PATH + DATA_FILE, 
                       dtype={'sender_zipcode':'int64',
                              'receiver_zipcode':'int64',
                              'quantity':'int64',
                              'service':'int64'},
                       parse_dates=['date_created','date_sent','date_visit'])

In [3]:
ds.columns

Index(['sender_state', 'sender_zipcode', 'receiver_state', 'receiver_zipcode',
       'shipment_type', 'quantity', 'service', 'status', 'date_created',
       'date_sent', 'date_visit', 'shipment_days'],
      dtype='object')

In [4]:
ds.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 496860 entries, 0 to 496859
Data columns (total 12 columns):
sender_state        496860 non-null object
sender_zipcode      496860 non-null int64
receiver_state      496860 non-null object
receiver_zipcode    496860 non-null int64
shipment_type       496860 non-null object
quantity            496860 non-null int64
service             496860 non-null int64
status              496860 non-null object
date_created        496860 non-null datetime64[ns]
date_sent           496860 non-null datetime64[ns]
date_visit          496860 non-null datetime64[ns]
shipment_days       496860 non-null float64
dtypes: datetime64[ns](3), float64(1), int64(4), object(4)
memory usage: 45.5+ MB


In [5]:
ds.sample(10)

Unnamed: 0,sender_state,sender_zipcode,receiver_state,receiver_zipcode,shipment_type,quantity,service,status,date_created,date_sent,date_visit,shipment_days
271424,SP,8740,RS,91060,standard,1,3,done,2019-03-13,2019-03-14 04:04:00,2019-03-19 14:55:00,3.0
282432,SP,15115,SP,15470,standard,1,1,done,2019-02-23,2019-02-25 17:23:00,2019-03-07 13:02:00,5.0
97104,SP,2611,DF,70675,express,1,0,done,2019-03-14,2019-03-15 23:41:55,2019-03-20 12:40:00,3.0
245664,SP,7411,MT,78053,standard,1,2,done,2019-03-07,2019-03-11 16:33:01,2019-03-27 08:44:00,12.0
299387,SP,13290,SP,18650,super,1,6,done,2019-03-13,2019-03-13 17:58:08,2019-03-14 08:54:55,1.0
55494,SP,3929,SP,13990,express,1,0,done,2019-03-02,2019-03-04 17:48:00,2019-03-12 15:30:00,3.0
432549,SP,14707,SP,6730,standard,2,1,done,2019-03-21,2019-03-21 15:43:00,2019-03-25 13:51:00,2.0
374224,SP,13160,SP,13455,express,2,0,done,2019-03-05,2019-03-06 13:47:00,2019-03-08 17:20:00,1.0
269291,SP,5175,SP,13287,express,1,0,done,2019-03-17,2019-03-18 14:34:00,2019-03-20 12:20:00,2.0
366115,SP,12216,SP,13284,express,1,0,done,2019-03-07,2019-03-08 10:43:00,2019-03-11 12:36:00,1.0
