# **GAP: ANALISIS Y VISUALIZACIÓN DE DATOS**

## **INTRODUCCIÓN**
Para alcanzar los objetivos propuestos en el proyecto, será necesario comprender el dataset, tomar sensibilidad y definir criterios del dominio para tomar decisiones sobre los procesos de curación, selección de modelos y realizar ingeniería de features si hiciera falta. En este práctico deberemos descubrir los patrones de manejo de inventarios y consumos por industria. Buscaremos una sugerencia de una solución básica para estimar inventarios de corto plazo. 


## **CONSIGNA**
### **1. General**
En esta sección del proyecto se pretende que el equipo de trabajo: 
* Analice la estructura del set de datos y sus features, tipos, rangos, cantidad y agrupaciones.
* Analice los datos de volumen de los centros operativos para tener obtener estadísticas sobre el manejo de inventarios y/o consumos.
* Segmente los centros operativos de acuerdo a sus estadísticas.
* Seleccione y agregue features para análisis de consumos en el tiempo.
* Obtenga conclusiones de las características de los inventarios por su descomposición de series temporales.
* Sugiera métodos naive de forecasting de muy corto tiempo (horas), sin conocimiento previo de modelos o librerías.

Con esta información el equipo podrá comenzar el camino de selección de un modelo generalista de forecasting que permita estimar los inventarios de un centro operativo, o bien, sus patrones de consumo.

### **2. Objetivos en el proyecto**

1. Visualizar patrones de manejo de inventarios por producto en centros operativos. Descubrir diferencias en los patrones de acuerdo al tipo de segmento.
1. Analizar patrones de consumo de acuerdo al segmento, infraestructura, producto, etc. 
1. Analizar la matriz de correlación cruzada entre las diferentes features del dataset. 
1. Identificar los descriptores mas adecuados de los patrones de manejo de inventarios.
1. Identificar los descriptores mas adecuados para describir el comportamiento de consumo, será necesario realizar un pequeño trabajo de feature engineering.
1. Seleccionar features del dataset para el objetivo general del proyecto.
1. Descubrir las características de los inventarios utilizando el análisis general series temporales.
1. Realizar test de hipótesis para validar las conclusiones de análisis.
1. **Hacer una primera sugerencia de forecasting naive, con un modelo que permita implementar GAP de corto plazo indicando sus falencias.**

### **3. Objetivos de Aprendizaje** 
* Comenzar a familiarizarse con las herramientas y los entornos de trabajo.
* Ver cómo trabajar en equipo y distribuir las tareas.
* Entender cómo funcionan las series temporales en dataframes.
* Realizar agrupaciones, resampling, rolling windows, smoothing.
* Tratamiento de tipos y outliers (aunque esta tarea tendrá mayor relevancia en el práctico de curación).
* Graficar series temporales agregadas por diferentes objetos de agrupación.
* Graficar descriptores.
* Entender conceptos de análisis de series temporales.

### **4. Requerimientos y Preguntas Obligatorias**
La principal información del dataset es el **volumen** medido en los tanques durante el paso del tiempo (**timestamp**). Sin embargo, features como **temperatura**, **codigo**, **producto**, **id_equipo**, **id_tanque**, **capacidad**, **industria**,  permiten realizar un tratamiento de los datos para agruparlos y caracterizarlos, lo cual es necesario para comprender el dataset y luego entrenar un modelo de estimación generalista con hiperparámetros o features adicionales. Justificar esta afirmación y proponer una metodología de análisis de los inventarios (ejemplo: trabajar sobre los inventarios del mismo producto por centro operativo).

*Un poco de curación:*
1. Buscar valores faltantes y definir un criterio para su tratamiento. Justificar gráficamente.
1. Revisar si hay outliers y definir un criterio para su tratamiento. Justificar gráficamente.
1. Los datos se encuentran en períodos uniformes de tiempo?. Justificar gráficamente. 
1. Hacer uniforme el período de tiempo de las muestras. Definir un criterio para rellenar valores faltantes y racionalizar la selección del período, justi gráficamente respecto de las muestras originales.
1. Agrupar los datos para analizar los inventarios y graficar algunos ejemplos.
1. Es necesario normalizar los valores?. Qué criterio utilizaría?. Aplicar.

*Análisis:*
1. Graficar inventarios de centros operativos seleccionados.
1. Buscar patrones de manejo de inventarios por industria. Describir.
1. Analizar estadísticamente el manejo de inventarios (descriptores).
1. Graficar boxplot de manejo de inventarios por industria. Analizar.
1. Cómo es la correlación entre las features del dataset?. Analizar.
1. Análizar estadísticamente los descriptores de manejo de inventarios.
1. Qué podrían significar la derivada primera y segunda del volumen en el tiempo?. Justificar.
1. Calcular el consumo por unidad de tiempo por centro operativo.
1. Graficar los patrones de consumo por industria.
1. Analizar estadísticamente el consumo en general y por industria.
1. Realizar calculos y gráficos de medias móviles sobre el manejo de inventarios de centro operativos seleccionados por segmento. Jugar con diferentes ventanas y analizar.
1. Realizar calculos y gráficos de medias móviles sobre los consumos de centro operativos seleccionados por segmento. Jugar con diferentes ventanas y analizar. 

*Conclusiones:* Cómo harían un cálculo simple para estimar inventarios en el corto plazo?.

### **5. Requerimientos y Preguntas Adicionales**
1. Realizar un análsis del manejo de inventarios por descomposición de series temporales (tendencia, temporalidad, estacionalidad). Graficar. Analizar el comportamiento. 
1. Realizar un análsis de los consumos por descomposición de series temporales (tendencia, temporalidad, estacionalidad). Graficar. Analizar el comportamiento. Qué relación hay respecto del análsis de manejos de inventarios.

*Conclusiones adicionales:* Qué diferencia podría haber en las estimaciones realizadas por métodos de análisis por descomposición respecto de estimaciones mas simples como la propuesta en el apartado anterior?. 

### **6. Entregable**

Se propone que el equipo realice un **informe técnico en formato de notebook tipo Jupyter o Colaboratory** con los resultados guardados, graficos, notas y conclusiones. 

El informe deberá tener una estructura que permita ir desde el enfoque general, hacia los detalles y permitir **concluir con una sugerencia naive para implementar un forecasting de muy corto plazo** pero que comience a tenerse en cuenta como solución del proyecto GAP (Gestión Automática de Pedidos).

**Fecha de entrega: 06/06/2021**

## **ENLACES IMPORTANTES**
1. [Carpeta General del Proyecto](https://drive.google.com/drive/folders/1l1xE93cNYK7F3qRYoxcNIJDnERw5nzGB?usp=sharing)
1. [Dataset en Google Drive](https://drive.google.com/drive/folders/11SDpN-6aDr90FCllVWB_cZ2zy8G9KZ_7?usp=sharing)
1. [Notebook con merge de datos crudos](https://drive.google.com/file/d/1tl70l6eM6RV1BZfcJzBGLL0Qj6ZOQamP/view?usp=sharing)
1. [Tutoriales y ejemplos](https://drive.google.com/drive/folders/16Kt7FaHKYOwd6OQL72_ccDfAnCkl-LIR?usp=sharing)


## **REFERENCIAS**
1. [Repo de Gabriel Miretti sobre series temporales](https://github.com/gmiretti/forecasting)
1. [Manejo de Series Temporales en Pandas](https://www.earthdatascience.org/courses/use-data-open-source-python/use-time-series-data-in-python/introduction-to-time-series-in-pandas-python/)
1. [Analisis General de Series Temporales 1](https://www.kaggle.com/jagangupta/time-series-basics-exploring-traditional-ts)
1. [Analisis General de Series Temporales 2](https://www.kaggle.com/andreshg/timeseries-analysis-a-complete-guide)
1. [Instalación de Anaconda](https://docs.continuum.io/anaconda/install/)

## **LIBRERIAS ADICIONALES**
* [Plotly](https://plotly.com/python/)
* [Scikit-Learn](https://scikit-learn.org/stable/)
* [Statsmodels](https://www.statsmodels.org/stable/index.html)


