# Logística de envíos: ¿Cuándo llega?

## Mentoría DiploDatos 2019 

### Integrantes:

- Alini, Walter
- Salina, Noelia

### Mentora:

- Dal Lago, Virginia

### Práctico: Introducción al Apendizaje Automático

## Motivación

En la actualidad, cada vez más productos se comercializan a través de una plataforma online. Una de las principales ventajas de este sistema es que el usuario puede recibir el producto en su domicilio en una fecha determinada. Pero, ¿cómo sabemos qué día va a llegar? ¿A partir de qué datos podemos predecir la demora del envío? En este práctico se trabajará con datos de envíos de MercadoLibre, el e-commerce más grande de Latinoamérica, analizando y modelando el problema de logística de envíos para poder responder ¿cuándo llega?

## Descripción del dataset

**Datos:**  El conjunto de datos seleccionado para realizar el práctico corresponde a un muestreo aleatorio no uniforme de 500.000 envíos de MercadoLibre. Estos envíos fueron realizados en Brasil en el período comprendido entre Octubre de 2018 y Abril de 2019 (las fechas originales han sido modificadas y adaptadas a un período de tiempo diferente, conservando el día de la semana y considerando los feriados correspondientes). Mientras que las fechas han sido modificadas, los horarios registrados en el dataset son los originales. Los datos comprenden variables tanto categóricas como numéricas. 

El dataset cuenta con las siguientes columnas:

- **Sender_state:** Estado de Brasil de donde sale el envío.
- **Sender_zipcode:** Código postal (de 5 dígitos) de donde sale el envío.
- **Receiver_state:** Estado de Brasil a donde llega el envío.
- **Receiver_zipcode:** Código postal (de 5 dígitos) a donde llega el envío.
- **Shipment_type:** Método de envío (normal, express, super).
- **Quantity:** Cantidad de productos en un envío.
- **Service:** Servicio del correo con el cual se realizó un envío.
- **Status:** Estado del envío (set: listo para ser enviado, sent: enviado, done: entregado, failed: no entregado, cancelled: cancelado).
- **Date_created:** Fecha de creación del envío.
- **Date_sent:** Fecha y hora en que se realizó el envío (salió del correo).
- **Date_visit:** Fecha y hora en que se entregó el envío al destinatario.
- **Shipment_days:** Días hábiles entre que el envío fue enviado (salió del correo) y que fue entregado.

## Objetivos generales

* Realizar de manera completa el proceso de desarrollo de un modelo de aprendizaje automático para determinar cuándo llega un envío. 
* Desarrollar el conocimiento práctico sobre dicho proceso, desde la definición de los datasets, la elección y análisis del modelo y las métricas propias para la problemática.
* Desarrollar habilidades de comunicación de la información obtenida a partir de los datos de manera clara y sencilla.


## Objetivos específicos

* Desafiar las decisiones e implementaciones realizadas en el práctico anterior, respecto a la transformación y selección de features.
* Aprender y aplicar técnicas de particionado de datasets para problemáticas de naturaleza temporal.
* Afianzar los conocimientos sobre los tipos de modelos aplicables a la problemática y ampliación de los criterios para la selección de los mismos.
* Ampliar la experiencia en la selección de hiperparámetros y la evaluación de modelos.
* Conocer, compartir e incrementar la dinámica de trabajo grupal.

## Metodología

A partir de lo estudiado en las clases teóricas y prácticas de la materia “Introducción al aprendizaje automático”, realizar un informe en formato de notebook o interactivo, en el cual se respondan, y justifiquen, las siguientes preguntas (además de cualquiera otra información extra que se considere de relevancia sobre la problemática): 

1. En el práctico anterior se respondió al siguiente enunciado: “A la hora de determinar la promesa de entrega de un envío (fecha estimada de llegada), ¿cuáles son los features que consideran pueden tener mayor relevancia? ¿Cuál es el valor a predecir?”. Recupere esa respuesta y presente un breve resumen de los features que consideraron de mayor relevancia y el target seleccionado para predecir.
2. El primer paso para desarrollar un modelo de aprendizaje automático es contar con datos limpios. ¿Qué pasos harían para limpiar el dataset?
3. Es necesario poder separar el dataset en un conjunto de entrenamiento y en uno de test. ¿Cómo realizaría esta separación? ¿Qué tamaño emplearía para cada uno considerando que partimos de 500.000 datos?
4. Dados los datos que disponemos y el target antes seleccionado, ¿qué tipo de modelo emplearían (regresión o clasificación)?
5. Definir el modelo a utilizar, entrenar y evaluar el mismo utilizando los valores por defecto propios de la librería scikit-learn. Analizar los resultados obtenidos en el contexto de la problemática (por ejemplo, ¿por qué creen que para ciertos valores del target tiene mejor performance que para otros?).
6. Modificar los hiperparámetros propios del modelo, y volver a entrenar y evaluar. ¿Por qué se eligió dicho valor para modificar? ¿Qué consecuencias tuvo? ¿Mejoró la performance del modelo? Analice los resultados obtenidos en el contexto de la problemática.
7. En los puntos anteriores se seleccionó un modelo de regresión o bien uno de clasificación. Realice una prueba con un modelo del otro tipo y comente sobre las métricas y los resultados obtenidos. ¿Por qué tuvo mejor o peor perfomance?

Esta comunicación debe estar dirigida para un público técnico pero que desconoce los aspectos propios del problema a resolver (por ejemplo, sus compañeros de clase). Se evaluará, principalmente, la claridad del mensaje presentado, el uso de las herramientas, los conceptos y los modelos desarrollados en las clases teóricas. 

## Estructura del informe


El informe debe contar con la estructura propia de un reporte de un experimento científico. Esto implica que debe tener un objetivo claro, una introducción a la problemática a resolver en dicho informe (no únicamente al problema general), una descripción de los datos a emplear, el desarrollo propiamente dicho del experimento y las conclusiones que se obtuvieron.

En el informe se deberá brindar una descripción del dataset suministrado (columnas, tipo de variables, valores extremos, etc.), las visualizaciones realizadas que sean pertinentes para la resolución del práctico, un análisis del modelo seleccionado, el análisis y las respuestas a las preguntas indicadas anteriormente, y las conclusiones.


## Entrega

* Muestra de avance: Viernes 19 de Julio
* Informe final: Viernes 26 de Julio

## Desarrollo

In [8]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import datetime

BLUE = '#35A7FF'
RED = '#FF5964'
GREEN = '#6BF178'
YELLOW = '#FFE74C'

RELATIVE_PATH = './'
DATA_FILE = 'data_sample_corrected_cleaned.csv'
DATA_FILE_FEATURES = 'data_sample_cleaned_features.csv'

# Establecemos una semilla por cuestiones de reproducibilidad
np.random.seed(0)

### Lectura y análisis inicial de los datos

In [2]:
ds = pd.read_csv(RELATIVE_PATH + DATA_FILE_FEATURES, 
                       dtype={'sender_zipcode':'int64',
                              'receiver_zipcode':'int64',
                              'quantity':'int64',
                              'service':'int64'},
                       parse_dates=['date_created','date_sent','date_visit'])

In [4]:
ds.columns

Index(['sender_state', 'sender_zipcode', 'receiver_state_0',
       'receiver_state_1', 'receiver_state_2', 'receiver_state_3',
       'receiver_state_4', 'receiver_state_5', 'receiver_zipcode',
       'shipment_type', 'quantity', 'service_0', 'service_1', 'service_2',
       'service_3', 'service_4', 'status', 'date_created', 'date_sent',
       'date_visit', 'shipment_days', 'receiver_state', 'receiver_frequency',
       'distance', 'tf_sender_zipcode', 'tf_receiver_zipcode', 'standard',
       'shipment_days_category'],
      dtype='object')

In [5]:
ds.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 490439 entries, 0 to 490438
Data columns (total 28 columns):
sender_state              490439 non-null object
sender_zipcode            490439 non-null int64
receiver_state_0          490439 non-null int64
receiver_state_1          490439 non-null int64
receiver_state_2          490439 non-null int64
receiver_state_3          490439 non-null int64
receiver_state_4          490439 non-null int64
receiver_state_5          490439 non-null int64
receiver_zipcode          490439 non-null int64
shipment_type             490439 non-null object
quantity                  490439 non-null int64
service_0                 490439 non-null int64
service_1                 490439 non-null int64
service_2                 490439 non-null int64
service_3                 490439 non-null int64
service_4                 490439 non-null int64
status                    490439 non-null object
date_created              490439 non-null datetime64[ns]
date_sent    

In [88]:
ds.sample(5)

Unnamed: 0,sender_state,sender_zipcode,receiver_state_0,receiver_state_1,receiver_state_2,receiver_state_3,receiver_state_4,receiver_state_5,receiver_zipcode,shipment_type,...,date_visit,shipment_days,receiver_state,receiver_frequency,distance,tf_sender_zipcode,tf_receiver_zipcode,standard,shipment_days_category,ds_train
68803,SP,6473,0,1,1,0,1,0,3805,express,...,2019-03-07 09:43:42,0.0,SP,185873,0,647,380,0,0,1.0
345125,SP,14050,0,0,1,1,0,1,78365,express,...,2019-03-19 15:42:00,5.0,MT,6390,1349,1405,7836,0,2,1.0
344795,SP,6519,0,1,1,0,1,0,18960,express,...,2019-03-14 10:11:00,2.0,SP,185873,0,651,1896,0,1,1.0
398226,SP,1032,0,0,1,0,1,1,35058,express,...,2019-03-21 14:22:00,3.0,MG,59996,664,103,3505,0,1,0.0
443041,SP,5863,0,1,1,0,1,0,15046,express,...,2019-03-21 14:39:00,1.0,SP,185873,0,586,1504,0,0,0.0


### 1. Resumen de features relevantes

> En el práctico anterior se respondió al siguiente enunciado: “A la hora de determinar la promesa de entrega de un envío (fecha estimada de llegada), ¿cuáles son los features que consideran pueden tener mayor relevancia? ¿Cuál es el valor a predecir?”. Recupere esa respuesta y presente un breve resumen de los features que consideraron de mayor relevancia y el target seleccionado para predecir

Del práctico número 2, se llegó a la conclusión de que los features que mayor valor aportaban eran:
* service
* receiver_zipcode

Por otro lado, el valor a predecir se decidió que sea un conjunto de categorías que representaban rangos de tiempos de entrega:
* shipment_days_category

In [9]:
selected_features = ['service_0', 'service_1', 'service_2', 'service_3', 'service_4', 'tf_receiver_zipcode']

### 2. Limpieza de datos

> El primer paso para desarrollar un modelo de aprendizaje automático es contar con datos limpios. ¿Qué pasos harían para limpiar el dataset?

En los prácticos anteriores se implementaron prácticas para lograr un dataset limpio, entre las cuales se encontraron:

* Limpieza de nulos
* Limpieza de duplicados
* Limpieza de valores inconsistentes (shipment_days negativos)

A continuación se muestra que lo anterior ya no se encuentra presente en el dataset con el que se llevará a cabo el siguiente trabajo.

In [22]:
check_null = ds[ds.notnull()].shape == ds.shape
check_duplicates = ds[ds.duplicated()].shape[0] == 0
check_inconsistent = ds[ds.shipment_days < 0].shape[0] == 0
print(f'Chequeo de nulos: {check_null}')
print(f'Chequeo de duplicados: {check_duplicates}')
print(f'Chequeo de inconsistentes: {check_inconsistent}')

Chequeo de nulos: True
Chequeo de duplicados: True
Chequeo de inconsistentes: True


### 3. Separación de dataset en Train y Test

> Es necesario poder separar el dataset en un conjunto de entrenamiento y en uno de test. ¿Cómo realizaría esta separación? ¿Qué tamaño emplearía para cada uno considerando que partimos de 500.000 datos?

En primera instancia se decide intentar una partición por porcentaje de datos, 80% para train y 20% para test, pero al tener el día 14-03-2019 compartido por ambos datasets, se decidió particionar por esa fecha. Por lo tanto, todos aquellos envíos creados hasta el día 14-03-2019 (inclusive) serán utilizados para entrenar (dataset de train) y los demás, para probar nuestros modelos (dataset de test).

El motivo por el cual se decidió tomar una partición aproximada a 80-20 se basó en lograr un equilibrio entre tener un gran porcentaje de datos para que nuestros modelos puedan aprender de ellos y un porcentaje inferior pero significativo (dada la gran cantidad de datos disponibles) para probar que nuestros modelos lograron generalizar bien el aprendizaje adquirido en el entrenamiento.

In [67]:
# se re-ordenan los envíos por fecha de creación en orden ascendente
ds = ds.sort_values('date_created',ascending=True).reset_index(drop=True)

In [86]:
# se define inicialmente un tamaño para el dataset de train equivalente al 80% del tamaño total del dataset
train_size = int(ds.shape[0]*0.80) - 1

In [69]:
# se muestra la cantidad de envíos que quedarían en el dataset de train si se particiona con el criterio del porcentaje
# se muestran también las fechas de los envíos que quedarían en el dataset de train
ds.loc[0:train_size,:].date_created.describe()

count                  392351
unique                     94
top       2019-03-05 00:00:00
freq                    19802
first     2018-10-21 00:00:00
last      2019-03-14 00:00:00
Name: date_created, dtype: object

In [70]:
# se muestra la cantidad de envíos que quedarían en el dataset de test si se particiona con el criterio del porcentaje
# se muestran también las fechas de los envíos que quedarían en el dataset de test
ds.loc[train_size + 1 :,:].date_created.describe()

count                   98088
unique                     15
top       2019-03-19 00:00:00
freq                    12439
first     2019-03-14 00:00:00
last      2019-03-28 00:00:00
Name: date_created, dtype: object

In [79]:
# se define una fecha que utilizaremos como thresold para realizar la partición de datasets train y test
threshold_date = '2019-03-14'
# se muestra la cantidad de envíos que quedarían en el dataset de train si se particiona con el criterio de la fecha
# se muestran también las fechas de los envíos que quedarían en el dataset de train
ds[ds.date_created <= threshold_date].date_created.describe()

count                  395577
unique                     94
top       2019-03-05 00:00:00
freq                    19802
first     2018-10-21 00:00:00
last      2019-03-14 00:00:00
Name: date_created, dtype: object

In [80]:
# se muestra la cantidad de envíos que quedarían en el dataset de test si se particiona con el criterio de la fecha
# se muestran también las fechas de los envíos que quedarían en el dataset de test
ds[ds.date_created > threshold_date].date_created.describe()

count                   94862
unique                     14
top       2019-03-19 00:00:00
freq                    12439
first     2019-03-15 00:00:00
last      2019-03-28 00:00:00
Name: date_created, dtype: object

In [87]:
# una vez adoptado un criterio, el de la fecha, se genera una nueva columna para contener el indicador de a cual
# dataset pertenece cada envío y se muestran los procentajes finales de cada dataset.
ds.loc[ds.date_created <= threshold_date, 'ds_train'] = 1
ds.loc[ds.date_created > threshold_date, 'ds_train'] = 0
ds['ds_train'].value_counts(normalize=True)

1.0    0.806577
0.0    0.193423
Name: ds_train, dtype: float64

### 4. Selección del tipo de modelo (Regresión/Clasificación)

> Dados los datos que disponemos y el target antes seleccionado, ¿qué tipo de modelo emplearían (regresión o clasificación)?


### 5. Entrenamiento y evaluación del modelo seleccionado

> Definir el modelo a utilizar, entrenar y evaluar el mismo utilizando los valores por defecto propios de la librería scikit-learn. Analizar los resultados obtenidos en el contexto de la problemática (por ejemplo, ¿por qué creen que para ciertos valores del target tiene mejor performance que para otros?).

### 6. Selección y evaluación de hiperparámetros

> Modificar los hiperparámetros propios del modelo, y volver a entrenar y evaluar. ¿Por qué se eligió dicho valor para modificar? ¿Qué consecuencias tuvo? ¿Mejoró la performance del modelo? Analice los resultados obtenidos en el contexto de la problemática.

### 7. Comparación entre el tipo de modelo seleccionado y el descartado

> En los puntos anteriores se seleccionó un modelo de regresión o bien uno de clasificación. Realice una prueba con un modelo del otro tipo y comente sobre las métricas y los resultados obtenidos. ¿Por qué tuvo mejor o peor perfomance?

## Conclusiones