# Título del Proyecto: Ciencia de Datos aplicada en la Industria Retail

## Breve descripción del proyecto (descripción del dataset, problemas interesantes asociados)
Se provee de un dataset que contiene datos historicos de ventas correspondientes a 45 tiendas anónimas localizadas en diferentes departamentos. Además el dataset cuenta con informacion de contexto (temperatura, precio del combustible, tasa de desempleo, información de rebajas, feriados) para las fechas correspondientes a las ventas (ventas registradas semanalmente desde febrero de 2010 hasta noviembre de 2012). Se provee también de una caracterización por tipo y tamaño para cada tienda y una lista de los usuarios que frecuentan cada una.
Uno de los desafíos de modelar datos de esta industria se presenta debido a la necesidad de tomar decisiones basadas en operaciones históricas limitadas. Se busca la definición de estrategias y toma de decisiones, en base al análisis y procesamiento de los datos históricos disponibles, para el cumplimiento de un cierto objetivo, como lo puede ser aumento de la rentabilidad del negocio/mejora del servicio prestado al cliente.
El objetivo de este proyecto es que el estudiante a lo largo de las materias a cursar en la diplomatura identifique y aplique diferentes técnicas de análisis/procesamiento de los datos que generen información valiosa para un negocio que se desarrolla en la industria en cuestión. Algunos de los puntos interesantes asociados son:
- Predicción de ventas futuras (detección de altas y bajas), análisis de estacionalidad de los datos.
- Segmentación de las ventas en base a las características de su contexto.
- Sistema de recomendación de tiendas para los usuarios.
- Análisis del efecto de las rebajas en las ventas para las distintas tiendas.
- Análisis del impacto de los feriados en las ventas.
- Análisis de correlación entre las diferentes variables provistas y las ventas semanales, análisis del impacto que las mismas causan.

## Análisis y Visualización
- Correlación entre variables/Análisis de independencia. a través de este análisis se puede ver el impacto de cada variable sobre las ventas semanales y de esta manera determinar cuales son las variables importantes a considerar.
- Distribución de los ejemplos con respecto a las diferentes clases. 
- Análisis de outliers.
- Visualización de las ventas con respecto al tiempo para cada tienda en un determinado departamento.
- Visualización de las ventas totales de cada tienda.
- Porcentaje que representan las rebajas sobre las ventas totales para una tienda.

## Análisis y Curación
Para análisis y curación podrán aplicarse sobre el dataset (en su totalidad) los siguientes puntos:
- Importación de datos.
- Chequeo de claves únicas por sample/eliminar duplicados.
- Despersonalización de datos.
- Normalización de los nombres de las columnas en los dataframes.
- Tratamiento de valores faltantes.
- Codificación de variables categóricas.
- Análisis de valores atípicos.
- Persistencia de los resultados.
- Ordenamiento de las columnas.
- Eliminar columnas que no aporten información.
- Crear un dataset único de las 3 tablas provistas incluyendo toda la información útil en una misma tabla.

## Introducción al ML
Los dataset provistos contienen muchas variables sobre las cuales se puede aplicar análisis y procesamiento. En esta materia puntual entiendo que lo importante es que el estudiante aprenda a hacer la division de los datos, la elección del modelo, evaluación de metricas y que el foco no está puesto sobre la complejidad del dataset. Con lo cual creo que estaría bueno tomar dos variables simples de analizar, por ejemplo semana en cuestion de las ventas y la columna que nos dice si es feriado o no, y con esto hacer un sistema predictivo en donde se introduce una fecha y el modelo predice si en esa semana hay feriados o no. Con esto podrá aplicarse:
- Carga de datos.
- Una pequeña reestructuración de las columnas optimizandolo para el análisis que se desea hacer (por ejemplo considerar todas las fechas de la semana y no solo la provista por el dataset).
- Division en conjuntos de entrenamiento y evaluación.
- Elección de un modelo.
- Selección de hyperparámetros.
- Métricas sobre el conjunto de evaluación.
- Curvas ROC.

## Aprendizaje Supervisado
En este caso, en la materia se van aplicando diferentes técnicas correspondientes a aprendizaje supervisado evaluando los resultados obtenidos. Se parte desde un baseline y se va complejizando el modelo. Me parece interesante en este punto hacer el sistema predictivo de sales para un determinado año en base a la información histórica. Se cuenta con features como la fecha (de la que se puede derivar mes o epoca del año), precio del combustible, desempleo, temperatura las cuales se pueden utilizar como entrada de un modelo que prediga las sales que se tendrá en una determinada fecha. Esto podría hacerse como un modelo general, o seleccionar una determinada tienda para hacer el análisis. Se cuenta con el registro de 3 años, la idea sería entrenar el modelo con los dos primeros años y testear el comportamiento del modelo con los datos del tercero. Es decir, se entrena con 2010 y 2011, y se corre el modelo con las features del 2012 comparando la salida del predictor con la real.

## Aprendizaje No Supervisado
Para la aplicación de aprendizaje no supervisado sería interesante hacer dos análisis:
- Segmentación de las ventas: clusterizar las ventas junto con las diferentes variables disponibles y hacer un análisis de los grupos obtenidos. Si aplica, evaluar en que caso tenemos las mejores ventas, ante que condiciones, con que combinación de variables. Podría utilizarse un algoritmo como K Means con algún método de optimización de número de clusters como elbow method.
- Sistema de recomendación de tiendas: se cuenta con el dato de los usuarios que frecuentan cada tienda, puede armarse un pequeño sistema de recomendación de tiendas a usuarios a través de métodos matriciales.

## Optativas Relacionadas
Análisis de series temporales, Introducción al data Warehousing, Ciencia de datos en las Finanzas, Introducción al aprendizaje profundo.

## Posible Trabajo Final
En caso que el estudiante haga la materia Análisis de series temporales sería bueno aplicar los conceptos vistos en la misma al sistema predictivo realizado. Lo mismo para los conceptos que pueda adquirir en el resto de las optativas. Sería bueno que el trabajo final, independientemente del modelo que se aplique se acerque lo más posible a lo que sería a nivel industrial. Por ejemplo dockerizar el predictor de sales en base a las features, o el sistema de recomendación de tiendas y prestar el servicio a través de una API. Esto cubriría un path bastante completo desde lo que fue el análisis de los datos hasta el armado de una estructura para prestar el servicio. Es decir de trabajo final le prestaría más atención en como brindar como servicio algo de lo que se hizo (podría ayudar en este punto).

## Contenido
Se provee de datos históricos de ventas de 45 tiendas localizadas en diferentes regiones, cada tienda contiene un número determinado de departamentos. Cada compañía además organiza eventos de rebajas a lo largo del año. Estas rebajas preceden a feriados destacados como lo son: el Super Bowl, el Día del Trabajo, Día de Acción de Gracias y Navidad. Las semanas que incluyen estos feriados tienen un peso 5 veces mayor que las que no.

El contenido de los cuatro archivos (Stores, Users, Features y Sales) se presenta a continuación:

### Stores
Información anónima de las 45 tiendas, incluye tipo y tamaño de las mismas.

### Users
Lista de usuarios y las tiendas que frecuentan.

### Features
Contiene información adicional relacionada a las tiendas, la localidad y actividad regional para las fechas dadas.
- Store: el número de tienda.
- Date: la semana correspondiente.
- Temperatura: temperatura promedio de la región.
- Fuel Price: costo del combustible en la región.
- Markdown 1-5: datos anónimos relacionados a rebajas promocionales. Esta información esta sólo disponible a partir de Noviembre del 2011 y no esta disponible para todas las tiendas todo el tiempo. Lo valores faltantes están marcados como NA.
- CPI: índice de precios al consumidor.
- Unemployment: tasa de desempleo.
- IsHoliday: si la semana contiene al menos un día feriado.

### Sales
Datos historicos de ventas, cubren desde el 05-02-2010 hasta el 01-11-2012. Incluye los siguientes campos:
- Store: el número de tienda.
- Dept: el número de departamento.
- Date: la fecha correspondiente a la transacción.
- Weekly_Sales: ventas para el departamento dado en la tienda correspondiente.
- IsHoliday: indica si corresponde a una semana con días feriados o no.

Link a la fuente: https://www.kaggle.com/manjeetsingh/retaildataset#Features%20data%20set.csv

In [1]:
import pandas as pd
import random

In [6]:
features = pd.read_csv('features.csv')
sales = pd.read_csv('sales.csv')
stores = pd.read_csv('stores.csv')
users = pd.read_csv('users.csv')

In [3]:
features

Unnamed: 0.1,Unnamed: 0,Store,Date,Temperature,Fuel_Price,MarkDown1,MarkDown2,MarkDown3,MarkDown4,MarkDown5,CPI,Unemployment,IsHoliday
0,0,1,05/02/2010,42.31,2.572,,,,,,211.096358,8.106,False
1,1,1,12/02/2010,38.51,2.548,,,,,,211.242170,8.106,True
2,2,1,19/02/2010,39.93,2.514,,,,,,211.289143,8.106,False
3,3,1,26/02/2010,46.63,2.561,,,,,,211.319643,8.106,False
4,4,1,05/03/2010,46.50,2.625,,,,,,211.350143,8.106,False
5,5,1,12/03/2010,57.79,2.667,,,,,,211.380643,8.106,False
6,6,1,19/03/2010,54.58,2.720,,,,,,211.215635,8.106,False
7,7,1,26/03/2010,51.45,2.732,,,,,,211.018042,8.106,False
8,8,1,02/04/2010,62.27,2.719,,,,,,210.820450,7.808,False
9,9,1,09/04/2010,65.86,2.770,,,,,,210.622857,7.808,False


In [4]:
sales

Unnamed: 0.1,Unnamed: 0,Store,Dept,Date,Weekly_Sales,IsHoliday,Sale Id
0,0,1,1,05/02/2010,24924.50,False,0
1,1,1,1,12/02/2010,46039.49,True,1
2,2,1,1,19/02/2010,41595.55,False,2
3,3,1,1,26/02/2010,19403.54,False,3
4,4,1,1,05/03/2010,21827.90,False,4
5,5,1,1,12/03/2010,21043.39,False,5
6,6,1,1,19/03/2010,22136.64,False,6
7,7,1,1,26/03/2010,26229.21,False,7
8,8,1,1,02/04/2010,57258.43,False,8
9,9,1,1,09/04/2010,42960.91,False,9


In [5]:
stores

Unnamed: 0.1,Unnamed: 0,Store,Type,Size
0,0,1,A,151315.0
1,1,2,A,202307.0
2,2,3,B,37392.0
3,3,4,A,
4,4,5,B,34875.0
5,5,6,A,202505.0
6,6,7,B,70713.0
7,7,8,A,155078.0
8,8,9,B,125833.0
9,9,10,B,126512.0


In [7]:
users

Unnamed: 0.1,Unnamed: 0,users,stores
0,0,Sara Arriaga,16-32-7-44
1,1,Tomas Citelli,20-37-10-11
2,2,Sebastian Araujo,34-14-18-16-29
3,3,Horacio Villareal,22-14-39-25
4,4,Juan Mira,31-7-27-21-13
5,5,Gustavo Mora,45-7-19-18
6,6,Carlos Citelli,43-24-33-5-13
7,7,Franco Mira,44-12-20-8-45
8,8,Fede Villareal,19-45-32
9,9,Noelia Villareal,5-37-6-18-9
