# Título del Proyecto: Ciencia de Datos aplicada en la Industria Retail

## Breve descripción del proyecto (descripción del dataset, problemas interesantes asociados)
Se provee de un dataset que contiene datos históricos de ventas correspondientes a 45 tiendas anónimas localizadas en diferentes departamentos. Además el dataset cuenta con información de contexto (temperatura, precio del combustible, tasa de desempleo, información de rebajas, feriados) para las fechas correspondientes a las ventas (ventas registradas semanalmente desde febrero de 2010 hasta noviembre de 2012). Se provee también de una caracterización por tipo y tamaño para cada tienda y una lista de los usuarios que frecuentan cada una.
Uno de los desafíos de modelar datos de esta industria se presenta debido a la necesidad de tomar decisiones basadas en operaciones históricas limitadas. Se busca la definición de estrategias y toma de decisiones, en base al análisis y procesamiento de los datos históricos disponibles, para el cumplimiento de un cierto objetivo, como lo puede ser aumento de la rentabilidad del negocio/mejora del servicio prestado al cliente.
El objetivo de este proyecto es que el estudiante a lo largo de las materias a cursar en la diplomatura identifique y aplique diferentes técnicas de análisis/procesamiento de los datos que generen información valiosa para un negocio que se desarrolla en la industria en cuestión. Algunos de los puntos interesantes asociados son:
- Predicción de ventas futuras (detección de altas y bajas), análisis de estacionalidad de los datos.
- Segmentación de las ventas en base a las características de su contexto.
- Sistema de recomendación de tiendas para los usuarios.
- Análisis del efecto de las rebajas en las ventas para las distintas tiendas.
- Análisis del impacto de los feriados en las ventas.
- Análisis de correlación entre las diferentes variables provistas y las ventas semanales, análisis del impacto que las mismas causan.

## Análisis y Visualización
- Correlación entre variables/análisis de independencia. A través de este análisis se puede ver el impacto de cada variable sobre las ventas semanales y de esta manera determinar cuales son las variables importantes a considerar.
- Distribución de los ejemplos con respecto a las diferentes clases. 
- Análisis de outliers.
- Visualización de las ventas con respecto al tiempo para cada tienda en un determinado departamento.
- Visualización de las ventas totales de cada tienda.
- Porcentaje que representan las rebajas sobre las ventas totales para una tienda.

## Análisis y Curación
Para análisis y curación podrán aplicarse sobre el dataset (en su totalidad) los siguientes puntos:
- Importación de datos.
- Chequeo de claves únicas por sample/eliminar duplicados.
- Despersonalización de datos.
- Normalización de los nombres de las columnas en los dataframes.
- Tratamiento de valores faltantes.
- Codificación de variables categóricas.
- Análisis de valores atípicos.
- Persistencia de los resultados.
- Ordenamiento de las columnas.
- Eliminar columnas que no aporten información.
- Crear un dataset único de las 3 tablas provistas incluyendo toda la información útil en una misma tabla.

## Introducción al ML
Los dataset provistos contienen muchas variables sobre las cuales se puede aplicar análisis y procesamiento. En esta materia puntual lo importante es que el estudiante aprenda a hacer la division de los datos, la elección del modelo, evaluación de metricas, independientemente de la complejidad del dataset. Razón por la cual para este práctico se tomaran dos variables simples de analizar, por ejemplo la fecha de las ventas y la columna que nos dice si es feriado o no, y con esto hacer un sistema predictivo en donde se introduce una fecha y el modelo predice si en esa semana hay feriados o no. Con esto podrá aplicarse:
- Carga de datos.
- Una pequeña reestructuración de las columnas optimizandolo para el análisis que se desea hacer (por ejemplo considerar todas las fechas de la semana y no solo la provista por el dataset).
- Division en conjuntos de entrenamiento y evaluación.
- Elección de un modelo.
- Selección de hyperparámetros.
- Métricas sobre el conjunto de evaluación.
- Curvas ROC.

## Aprendizaje Supervisado
En este caso, en la materia se van aplicando diferentes técnicas correspondientes a aprendizaje supervisado evaluando los resultados obtenidos. Lo ideal es partir de un baseline e ir complejizando el modelo. Sería interesante implementar en este caso un sistema predictivo de ventas para un determinado año en base a la información histórica. Se cuenta con features como la fecha (de la que se puede derivar mes o epoca del año), precio del combustible, desempleo, temperatura las cuales se pueden utilizar como entrada de un modelo que prediga las sales que se tendrá en una determinada fecha. Esto podría hacerse como un modelo general, o seleccionar una determinada tienda para hacer el análisis. Se cuenta con el registro de 3 años, la idea sería entrenar el modelo con los dos primeros y testear el comportamiento del modelo con los datos del tercero. Es decir, se entrena con 2010 y 2011, y se corre el modelo con las features del 2012 comparando la salida del predictor con la real.

## Aprendizaje No Supervisado
Para la aplicación de aprendizaje no supervisado sería interesante hacer dos análisis:
- Segmentación de las ventas: clusterizar las ventas junto con las diferentes variables disponibles y hacer un análisis de los grupos obtenidos. Si aplica, evaluar en que caso tenemos las mejores ventas, ante que condiciones, con que combinación de variables. Podría utilizarse un algoritmo como K Means con algún método de optimización de número de clusters como elbow method.
- Sistema de recomendación de tiendas: se cuenta con el dato de los usuarios que frecuentan cada tienda, puede armarse un pequeño sistema de recomendación de tiendas a usuarios a través de métodos matriciales.

## Optativas Relacionadas
Análisis de series temporales, Introducción al data Warehousing, Ciencia de datos en las Finanzas, Introducción al aprendizaje profundo.

## Contenido del Dataset
Se provee de datos históricos de ventas de 45 tiendas localizadas en diferentes regiones, cada tienda contiene un número determinado de departamentos. Cada compañía además organiza eventos de rebajas a lo largo del año. Estas rebajas preceden a feriados destacados como lo son: el Super Bowl, el Día del Trabajo, Día de Acción de Gracias y Navidad. Las semanas que incluyen estos feriados tienen un peso 5 veces mayor que las que no.

El contenido de los cuatro archivos (Stores, Users, Features y Sales) se presenta a continuación:

### Stores
Información anónima de las 45 tiendas, incluye tipo y tamaño de las mismas.

### Users
Lista de usuarios y las tiendas que frecuentan.

### Features
Contiene información adicional relacionada a las tiendas, la localidad y actividad regional para las fechas dadas.
- Store: el número de tienda.
- Date: la semana correspondiente.
- Temperatura: temperatura promedio de la región.
- Fuel Price: costo del combustible en la región.
- Markdown 1-5: datos anónimos relacionados a rebajas promocionales. Esta información esta sólo disponible a partir de Noviembre del 2011 y no esta disponible para todas las tiendas todo el tiempo. Lo valores faltantes están marcados como NA.
- CPI: índice de precios al consumidor.
- Unemployment: tasa de desempleo.
- IsHoliday: si la semana contiene al menos un día feriado.

### Sales
Datos historicos de ventas, cubren desde el 05-02-2010 hasta el 01-11-2012. Incluye los siguientes campos:
- Store: el número de tienda.
- Dept: el número de departamento.
- Date: la fecha correspondiente a la transacción.
- Weekly_Sales: ventas para el departamento dado en la tienda correspondiente.
- IsHoliday: indica si corresponde a una semana con días feriados o no.

Link a la fuente: https://www.kaggle.com/manjeetsingh/retaildataset#Features%20data%20set.csv

# Consigna Práctico Aprendizaje Supervisado
En este trabajo, se utilizarán herramientas y conocimientos adquiridos en materias previas para la preparación de los datos y selección de parámetros pero se hará foco en la evaluación de diferentes modelos de apredizaje supervisado para la resolución de un problema más complejo.

La idea es que ambos grupos trabajen con variables diferentes para poder luego hacer una comparación entre ambos resultados:
### Grupo Alpha:
- Construir un modelo que prediga el valor de ventas (sales) en base a las features disponibles sin utilizar la fecha (usar numero de store, departamento, temperatura, tasa de desempleo, cpi, precio del combustible, columna is holiday y columna is markdown).

### Grupo Omega:
- Construir un modelo que prediga el valor de las ventas (sales), utilizando las variables anteriores, más el valor de la fecha (pre tratada correspondientemente).

Luego de estos dos análisis podremos analizar como afecta la variable fecha a nuestros resultados. Si bien se considera la variable fecha, no se está teniendo en cuenta la secuencia de los datos como lo haríamos en un análisis de series temporales. Simplemente tomamos el valor día, mes, año sin evaluar la secuencia de los datos que tenemos. Este modelo no es el ideal para este tipo de análisis, pero es el adecuado para aplicar en base a los conocimientos vistos en la materia.

## Actividades:
1. Cargar el dataset, quedarse con las columnas de interés, division de los datos en conjuntos de train, test.
2. Buscar la mejor representación para nuestras variables de entrada.
2. Armar un baseline para resolver inicialmente nuestro problema (un modelo simple, como una regresión lineal, el cual nos sirve para evaluar como van mejorando nuestros resultados).
3. ¿Cuáles son las mejores métricas para evaluar nuestros modelos predictivos?
4. Armar modelos más complejos (logistic regression, SVMs, decision trees), entrenarlos y evaluar el comportamiento de cada uno con la métrica definida en 3. Quedarse con el modelo que mejor ajuste.
5. Evaluar el mejor conjunto de hiperparámetros para el modelo elegido.
6. Correr las métricas de evaluación contra el modelo final. Analizar puntualmente los casos en los que la predicción difiere mucho del valor real, ¿Qué sucede en estos casos?

Bonus track (opcional): correr una LSTM con la columna fechas y sales como salidas. Las LSTM si tienen en cuenta secuencia de las fechas y probablemente mejoren significativamente los resultados.

Link útil para corrida de LSTM: https://towardsdatascience.com/playing-with-time-series-data-in-python-959e2485bff8

In [5]:
import os

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn import tree
from sklearn import linear_model
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn import svm
import graphviz
from ml.visualization import plot_confusion_matrix

%matplotlib inline

Comenzamos con la importación del dataset generado a partir del trabajo anterior

In [6]:
CURRENT_DIR = os.path.dirname('__file__')
DATASET_PATH = os.path.join(CURRENT_DIR, '../datasets')
sales_features = pd.read_csv(os.path.join(DATASET_PATH, 'sales_features.csv'), parse_dates=['Date'])

Visualizamos algunos valores para ver que la importación se haya realizado correctamente

In [7]:
sales_features.head(5)

Unnamed: 0.1,Unnamed: 0,Weekly_Sales,Date,Store,Temperature,Fuel_Price,CPI,Unemployment,IsHoliday,IsMarkdown
0,0,0.393782,2010-05-02,-1.658199,-0.963798,-1.720834,1.018774,0.078201,0,0
1,1,1.524538,2010-05-02,-1.658199,-0.963798,-1.720834,1.018774,0.078201,0,0
2,2,-0.09868,2010-05-02,-1.658199,-0.963798,-1.720834,1.018774,0.078201,0,0
3,3,1.055551,2010-05-02,-1.658199,-0.963798,-1.720834,1.018774,0.078201,0,0
4,4,0.715425,2010-05-02,-1.658199,-0.963798,-1.720834,1.018774,0.078201,0,0


Creamos las columnas Year y Week

In [8]:
def set_row_year_and_week(row):
    year, week, day = row.Date.isocalendar()
    row['Year'] = year
    row['Week'] = week
    return row

In [9]:
sales_features.drop_duplicates(subset=['Date', 'IsHoliday'], inplace=True)
sales_features = sales_features.apply(set_row_year_and_week, axis=1)

In [10]:
sales_features

Unnamed: 0.1,Unnamed: 0,Weekly_Sales,Date,Store,Temperature,Fuel_Price,CPI,Unemployment,IsHoliday,IsMarkdown,Year,Week
0,0,0.393782,2010-05-02,-1.658199,-0.963798,-1.720834,1.018774,0.078201,0,0,2010,17
73,73,1.323501,2010-12-02,-1.658199,-1.169783,-1.773177,1.022498,0.078201,1,0,2010,48
145,145,1.127829,2010-02-19,-1.658199,-1.092810,-1.847330,1.023697,0.078201,0,0,2010,7
218,218,0.150687,2010-02-26,-1.658199,-0.729625,-1.744825,1.024476,0.078201,0,0,2010,8
290,290,0.257435,2010-05-03,-1.658199,-0.736672,-1.605243,1.025255,0.078201,0,0,2010,18
363,363,0.222892,2010-12-03,-1.658199,-0.124679,-1.513643,1.026034,0.078201,0,0,2010,48
436,436,0.271029,2010-03-19,-1.658199,-0.298682,-1.398052,1.021820,0.078201,0,0,2010,11
508,508,0.451230,2010-03-26,-1.658199,-0.468349,-1.371881,1.016774,0.078201,0,0,2010,12
580,580,1.817484,2010-02-04,-1.658199,0.118167,-1.400233,1.011728,-0.081731,0,0,2010,5
652,652,1.187947,2010-09-04,-1.658199,0.312769,-1.289004,1.006682,-0.081731,0,0,2010,35


Seteamos el valor de la semilla

In [11]:
np.random.seed(10) 

Separamos en conjunto de entrenamiento y evaluación

In [12]:
# División entre instancias y etiquetas
X, y = sales_features.iloc[:, 1:], sales_features.IsHoliday

# división entre entrenamiento y evaluación
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# La feature del dataset a analizar será "Week" 
feature = 'Week'
X_train_feature = X_train[feature].values.reshape(-1, 1)
X_test_feature = X_test[feature].values.reshape(-1, 1)

Verificamos que train y test  tengan la sufiente cantidad de feriados

In [13]:
y_train.sum()

6

In [14]:
y_test.sum()

4