<img src="res/viu_logo.png" width="200"><img src="res/datathonlogo.png" width="250"> <meta charset="utf-8">
    <small>©2023 VIU - Master Universitario en Big data y Data Science</small>
                                                     
<img src="res/banner.png" width="2000">
 
# Cómo afrontar un proyecto de competición de ciencia de datos: el caso del Datathon Cajamar 2022

<br>
 Arturo Martínez Perona, Data Analyst en VIU - Universidad Internacional de Valencia
<br>
 José Ramón Casero Fuentes, Data Scientist en Accenture
<br>
<img src="res/winners.jpeg" width="450">

# Inicializando el proyecto

A la hora de inicializar un proyecto de datos, existen múltiples pasos a tener en cuenta. Esto puede encararse en dos planos diferentes, uno de ellos podría ser considerado como el físico, es decir, todo aquel que se dedique al mantenimiento y desarrollo del código, y el otro podría llamarse como __no físico__, o aquel más orientado a la estrategia. Este último pertenecería más especialmente a lo que conocemos como metodologías de proyectos.

Por lo que respecta a ese plano __físico__, y especialmente si este proyecto incluye varias personas es buena idea, utilizar un sistema de control de versiones, como Git.
Un sistema de control de versiones (VCS) es un conjunto de herramientas que rastrean la historia de una serie de ficheros. Esto significa que el sistema es capaz de guardar el estado de los ficheros en un momento determinado, para después continuar con su edición y almacenar también ese estado. Almacenar el estado es similar a crear una copia de seguridad del directorio de trabajo. Cuando se usa Git, esto almacenamiento del estado se conoce como hacer un commit.

Cuando se hace un commit en Git, se añade un mensaje para ese commit que explique los cambios. Git puede mostrar la historia de todos los commits y sus mensajes asociados. Esto permite poder navegar con facilidad sobre los cambios realizados, así como informar a los compañeros acerca del historial, permitiendo encontrar más fácilmente errores, o solucionarlos volviendo a un estado anterior.


Para crear las bases del proyecto se puede construir una típica estructura de proyecto de python para git

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ bash
└── datathon
    ├── docs
    ├── README.md
    ├── .gitignore
    ├── data
    ├── models
    ├── res
    ├── results
    └── scripts
        ├── eda.ipynb
        ├── train.py
        └── test.py
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

El fichero *`eda.ipynb`* es un notebook de python donde se realiza un análisis exploratorio de datos, permitiendo ejecutar código y visualizar fácilmente, al ser una fase más de compresión y exploración, los notebooks son realmente útiles.

Los ficheros *`train.py`* y *`test.py`* son un ejemplo posible para lanzarse ya a la ejecución del entrenamiento de un modelo basándose en la información adquirida durante la fase de exploración. 

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ python linenumbers


## Entornos virtuales

Otra buena opción a la hora de trabajar en un proyecto es la utilización de un entorno virtual. Cuando se trabaja en un proyecto, especialmente si es grande, y participan diferentes actores, esto puede llevar a problemas de integridad de versiones de librerías o incluso de la misma versión de python. Pongámos un ejemplo:

En vuestro grupo sois 3 personas, y vais a utilizar la librería statsmodels, sin embargo, uno de vosotros está utilizando esa librería para un proyecto personal, o para un trabajo de una asignatura, y en concreto está utilizando la versión 2.0.1, porque necesita una funcionalidad específica de esa versión, de modo que la tiene instalada en su sistema. Ahora bien, los demás han estado investigando y han encontrado un método para el análisis de una serie temporal que utiliza esa librería, pero que necesita la última versión, esto podría generar incompatibilidad con vuestro compañero.

El objetivo principal de un entorno virtual es crear un entorno aislado para los proyectos de Python. Cada proyecto puede tener sus propias librerias y dependencias, sin importar las dependencias que tengan otros proyectos. No hay límite de entornos que se pueden tener, puesto que son simplemente directorios con unos cuantos scripts, y se gestionan fácilmente usando *virtualenv*.

Para instalar *virtualenv* hay que hacerlo a través del instalador de paquetes de Python *pip*, desde la línea de comandos.

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Bash
arturo@arturo-GS40-6QE-Phantom:/media/arturo/Baldr/seminario_big_data$ pip install virtualenv
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Se suele usar la convención de crear los entornos virtuales dentro de cada proyecto en el directorio raíz de los mismos, en una carpeta que se suele llamar `.venv`. De tal forma que dentro de cada proyecto ya van contenidos tanto la versión de Python requerida como los paquetes de los que se dependen.

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Bash
arturo@arturo-GS40-6QE-Phantom:/media/arturo/Baldr/seminario_big_data$ mkdir Project
arturo@arturo-GS40-6QE-Phantom:/media/arturo/Baldr/seminario_big_data$ cd Project
arturo@arturo-GS40-6QE-Phantom:/media/arturo/Baldr/seminario_big_data$ virtualenv --python=/usr/bin/python3.10 .venv


~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~


<img src="res/virtualenv_ex.png" width="800"> 
<br>
<small>Localización del entorno virtual y su contenido </small>




# Metodología

Por lo que respecta al plano estratégico del proyecto, existen diferentes modelos metodológicos que se pueden implementar a vuestro proyecto. Un ejemplo es *[CRISP-DM](https://www.ibm.com/docs/it/spss-modeler/saas?topic=dm-crisp-help-overview)*, el cual nosotros utilizamos de una manera más o menos flexible.

<img src="res/metodologia_ex.png" width="800"><img src="res/cripsdm.png" width="450">
<br>
<small>Ejemplo esquemático del proyecto para Water Consumption de la competición en 2022 adaptado de CRISP-DM(IBM)</small>



La razón principal para utilizar una metodología es precisamente planificar diferentes fases e hitos para el proyecto, esto permite dividir las tareas de forma eficiente e ir completando una serie de pasos, que en general van desde una fase de minería de datos hasta la puesta en marcha del modelo.

## Entendiendo el problema

En el caso del esquema anterior, puede verse que el primer paso es una fase de entendimiento de negocio o de los datos. Si bien se puede sentir la tentación de ponernos manos a la obra y explorar rápidamente los datos, buscar outliers, valores negativos o no procedentes, y empezar a aplicar todo tipo de algoritmos y funciones sobre los mismo. Realmente la parte más importante es precisamente entender que es lo que tenemos delante, ya que en el momento en que vayamos explorar los datos, solo así entenderemos cual es la necesidad.

Para el caso del Datathon Water footprint 2022, el objetivo era realizar una predicción de demanda de consumo de agua.
La estimación correcta de la demanda de agua potable representa una condición indispensable para
la planificación, diseño y operación eficiente y sostenible de todos los elementos que conforman los
sistemas de captación, transporte y suministro de agua potable. Esta demanda está sujeta a
variaciones interanuales, estacionales, semanales, diarias e incluso horarias, muy significativas y que
dependen de múltiples factores como son los ciclos de actividad económica, la meteorología, las
situaciones de crisis sanitaria, los cambios en los bloques tarifarios, etc.

Por tanto se establece como objetivo el crear un modelo de predicción de consumo de agua para
realizar estimaciones a futuro, a partir de un conjunto de datos histórico.

En principio, **es esperable que entre una gran cantidad de contadores estos no se comporten todos
igual**. Esto es debido a que algunos pueden ser industriales, otros de hogares partículares, otros de
casas de veraneo, etc..

<img src="res/clusters.png" width="800">
<br>
<small>Diferentes posibles naturalezas de los contadores de agua</small>



## Explorando los datos

Una vez planificado el trabajo, es hora de observar cuales son los datos de entrada que se tienen:

**Variables**
 

*   ID: Identificador del Contador que registra la medida de lectura.
*   SAMPLETIME: Fecha y hora del consumo en formato UTC. Momento en el que se
produce el mensaje o el contador ha emitido el registro.
*   READINGINTEGER: Medida registrada por el contador en litros. Parte entera.
*   READINGTHOUSANDTH: Medida registrada por el contador en litros. Parte decimal.
*   DELTAINTEGER: Consumo calculado en litros a partir de la medida registrada por el contador. Parte entera.
*   DELTATHOUSANDTH: Consumo calculado en litros a partir de la medida registrada por el contador. Parte decimal.


Los ID están ordenados de forma ascendente pero no son correlativos

**Formato y estructura**
Este dataset tiene extensión txt con la siguiente estructura y formato:
• Nombres de variables: incluidos en la cabecera
• Separador: "|"
• Codificación: UTF-8
Sin nombre de fila.

### Visualización

Uno de los primeros pasos para encarar el proyecto es probar a visualizar los datos, con esto podemos rapidamente ser conscientes del comportamiento general de los datos, ver patrones, posible estacionalidad, etc...

A la hora de realizar este paso existen múltiples caminos a seguir:
* Weka
* Jupyter
* R
* Tableau
* Power BI


Power BI es una herramienta muy interesante a la hora de construir rápidamente visualizaciones y explorar los datos. Ya que os permite poder realizar análisis y cálculos de manera bastante sencilla y es amigable a la hora de filtrar datos, hacer agregaciones, segmentarlos, etc...

Además, los informes de Power BI pueden ser embebidos más adelante incluso en un notebook de jupyter, tal y como os introduzco a continuación:


In [None]:
from powerbiclient import Report
from io import StringIO
from ipywidgets import interact

In [None]:
from powerbiclient.authentication import DeviceCodeLoginAuthentication

device_auth = DeviceCodeLoginAuthentication()

In [None]:
report_id = '69200dca-dd49-4f79-b610-13bc461575ea'
group_id = '42292854-eaf4-4c0f-8f72-b1c035cea3f2'
report = Report(group_id=group_id, report_id=report_id, auth=device_auth)

In [None]:
def loaded_callback(event_details):
    print('Report is loaded')

report.on('loaded', loaded_callback)
def rendered_callback(event_details):
    print('Report is rendered')

report.on('rendered', rendered_callback)

In [None]:
report.set_size(800, 1100)
report

## Trabajando los datos

En paralelo a esa visualización de datos, es posible que nos hayamos ya dado cuenta de que los datos requieren un pre-procesado para poder trabajar con ellos a mayor nivel. Esto puede suponer realizar agregaciones de datos, seleccionar un subset de los mismos, comprobar valores vacíos, etc...

Durante el proceso de exploración y visualizando los datos inicialmente determinamos que se tenían 2747 contadores de agua diferentes siendo la fecha mínima el 2019-02-01 y la fecha máxima el 2020-01-31. La gran mayoría de los contadores registraron medidas durante el periodo completo, en este caso más de 2000 IDs registraron los 365 días, por lo que se puede comprobar que la serie de datos está bastante completa, pero es destacable también algunos grupos de IDs que registrar incluso menos de 100 días de datos.

Con el objetivo de estudiar el comportamiento de la serie de la manera más sencilla, en primer lugar se decidió trabajar con un grupo de 100 IDs, reduciendo así el tamaño del conjunto. Puesto que el conjunto de datos no tiene muchas características, debemos centrarnos en los aspectos principales de una **serie temporal univariante**, tales como los ciclos, la tendencia y la estacionalidad.



In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

En nuestro caso previamente ya hemos hecho una agregación de los datos originales

In [2]:
water_consumptions = pd.read_csv('../src/data/water_consumption_complete.csv', sep=",")
water_consumptions.head(15)

Unnamed: 0,id,datetime,consumption
0,0,2019-02-01,243
1,0,2019-02-02,236
2,0,2019-02-03,335
3,0,2019-02-04,252
4,0,2019-02-05,220
5,0,2019-02-06,276
6,0,2019-02-07,277
7,0,2019-02-08,193
8,0,2019-02-09,262
9,0,2019-02-10,315


In [3]:
water_consumptions_100 = water_consumptions[water_consumptions['id'] <= 100]
water_consumptions_100.head()

Unnamed: 0,id,datetime,consumption
0,0,2019-02-01,243
1,0,2019-02-02,236
2,0,2019-02-03,335
3,0,2019-02-04,252
4,0,2019-02-05,220


In [4]:
water_consumptions_100.shape

(35594, 3)

In [8]:
print(set(water_consumptions_100['id']))

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100}


In [9]:
water_consumptions_100.plot()

ImportError: matplotlib is required for plotting when the default backend "matplotlib" is selected.

In [None]:
from statsmodels.tsa.seasonal import seasonal_decompose


water_consumptions_100.index = pd.to_datetime(water_consumptions_100.index)

result_mul = seasonal_decompose(water_consumptions_100['consumption'], model='multiplicative', extrapolate_trend='freq')
result_add = seasonal_decompose(water_consumptions_100['consumption'], model='additive', extrapolate_trend='freq')


# Plot
plt.rcParams.update({'figure.figsize': (10,10)})
result_mul.plot().suptitle('Multiplicative Decompose', fontsize=22)
result_add.plot().suptitle('Additive Decompose', fontsize=22)
plt.show()

In [None]:
from pandas.plotting import autocorrelation_plot

# Draw Plot
plt.rcParams.update({'figure.figsize':(9,5), 'figure.dpi':120})
autocorrelation_plot(water_consumptions_100.consumption.tolist())

In [None]:
from statsmodels.tsa.stattools import acf, pacf
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf

fig, axes = plt.subplots(1,2,figsize=(16,3), dpi= 100)
plot_acf(water_consumptions_100.consumption.tolist(), lags=10, ax=axes[0])
plot_pacf(water_consumptions_100.consumption.tolist(), lags=10, ax=axes[1])

## División Train - Test

Tal y como hemos ido comprobando, por las características de los datos, estamos hablando de una serie temporal. Y esto quiere decir que, en cierta manera los datos son continuos, y que a la hora de predecir, estamos haciendo un forecasting de los siguentes n valores.

Por ello, se debe tener cuidado al seleccionar una división entre train-test, ya que estas deben presentar una continuidad.

In [None]:
from datetime import datetime

first_test_date = datetime(2020, 1, 1)
train_general = water_consumptions_100[water_consumptions_100.index < first_test_date]
test_general = water_consumptions_100[water_consumptions_100.index >= first_test_date]
print(len(train_general))
print(len(test_general))