<img src="res/viu_logo.png" width="200"><img src="res/datathonlogo.png" width="250"> <meta charset="utf-8">
    <small>©2023 VIU - Master Universitario en Big data y Data Science</small>

 ![logoviu](res/viu_logo.png)                                                         
<img src="res/banner.png" width="2000">
 
# Cómo afrontar un proyecto de competición de ciencia de datos: el caso del Datathon Cajamar 2022

<br>
 Arturo Martínez Perona, Data Analyst en VIU - Universidad Internacional de Valencia
<br>
 José Ramón Casero Fuentes, Data Scientist en Accenture
<br>
<img src="res/winners.jpeg" width="450">

# Inicializando el proyecto

A la hora de inicializar un proyecto de datos, existen múltiples pasos a tener en cuenta. Esto puede encararse en dos planos diferentes, uno de ellos podría ser considerado como el físico, es decir, todo aquel que se dedique al mantenimiento y desarrollo del código, y el otro podría llamarse como __no físico__, o aquel más orientado a la estrategia. Este último pertenecería más especialmente a lo que conocemos como metodologías de proyectos.

Por lo que respecta a ese plano __físico__, y especialmente si este proyecto incluye varias personas es buena idea, utilizar un sistema de control de versiones, como Git.
Un sistema de control de versiones (VCS) es un conjunto de herramientas que rastrean la historia de una serie de ficheros. Esto significa que el sistema es capaz de guardar el estado de los ficheros en un momento determinado, para después continuar con su edición y almacenar también ese estado. Almacenar el estado es similar a crear una copia de seguridad del directorio de trabajo. Cuando se usa Git, esto almacenamiento del estado se conoce como hacer un commit.

Cuando se hace un commit en Git, se añade un mensaje para ese commit que explique los cambios. Git puede mostrar la historia de todos los commits y sus mensajes asociados. Esto permite poder navegar con facilidad sobre los cambios realizados, así como informar a los compañeros acerca del historial, permitiendo encontrar más fácilmente errores, o solucionarlos volviendo a un estado anterior.


Para crear las bases del proyecto se puede construir una típica estructura de proyecto de python para git

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ bash
└── datathon
    ├── docs
    ├── README.md
    ├── .gitignore
    ├── data
    ├── models
    ├── res
    ├── results
    └── scripts
        ├── eda.ipynb
        ├── train.py
        └── test.py
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

El fichero *`eda.ipynb`* es un notebook de python donde se realiza un análisis exploratorio de datos, permitiendo ejecutar código y visualizar fácilmente, al ser una fase más de compresión y exploración, los notebooks son realmente útiles.

Los ficheros *`train.py`* y *`test.py`* son un ejemplo posible para lanzarse ya a la ejecución del entrenamiento de un modelo basándose en la información adquirida durante la fase de exploración. 

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ python linenumbers


## Entornos virtuales

Otra buena opción a la hora de trabajar en un proyecto es la utilización de un entorno virtual. Cuando se trabaja en un proyecto, especialmente si es grande, y participan diferentes actores, esto puede llevar a problemas de integridad de versiones de librerías o incluso de la misma versión de python. Pongámos un ejemplo:

En vuestro grupo sois 3 personas, y vais a utilizar la librería statsmodels, sin embargo, uno de vosotros está utilizando esa librería para un proyecto personal, o para un trabajo de una asignatura, y en concreto está utilizando la versión 2.0.1, porque necesita una funcionalidad específica de esa versión, de modo que la tiene instalada en su sistema. Ahora bien, los demás han estado investigando y han encontrado un método para el análisis de una serie temporal que utiliza esa librería, pero que necesita la última versión, esto podría generar incompatibilidad con vuestro compañero.

El objetivo principal de un entorno virtual es crear un entorno aislado para los proyectos de Python. Cada proyecto puede tener sus propias librerias y dependencias, sin importar las dependencias que tengan otros proyectos. No hay límite de entornos que se pueden tener, puesto que son simplemente directorios con unos cuantos scripts, y se gestionan fácilmente usando *virtualenv*.

Para instalar *virtualenv* hay que hacerlo a través del instalador de paquetes de Python *pip*, desde la línea de comandos.

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Bash
arturo@arturo-GS40-6QE-Phantom:/media/arturo/Baldr/seminario_big_data$ pip install virtualenv
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Se suele usar la convención de crear los entornos virtuales dentro de cada proyecto en el directorio raíz de los mismos, en una carpeta que se suele llamar `.venv`. De tal forma que dentro de cada proyecto ya van contenidos tanto la versión de Python requerida como los paquetes de los que se dependen.

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Bash
arturo@arturo-GS40-6QE-Phantom:/media/arturo/Baldr/seminario_big_data$ mkdir Project
arturo@arturo-GS40-6QE-Phantom:/media/arturo/Baldr/seminario_big_data$ cd Project
arturo@arturo-GS40-6QE-Phantom:/media/arturo/Baldr/seminario_big_data$ virtualenv --python=/usr/bin/python3.10 .venv


~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~


<img src="res/virtualenv_ex.png" width="800"> 
<small>Localización del entorno virtual y su contenido </small>




# Metodología

Por lo que respecta al plano estratégico del proyecto, existen diferentes modelos metodológicos que se pueden implementar a vuestro proyecto. Un ejemplo es CRISP-DM (enlace.... y blabblab), el cual nosotros utilizamos de una manera más o menos flexible.

<img src="res/metodologia_ex.png" width="800">
<br>
<small>Ejemplo esquemático del proyecto para Water Consumption de la competición en 2022</small>



rghdh
dhf
dhd
hh
sdh

In [1]:
import pandas as pd
import numpy as np

In [2]:
water_consumptions = pd.read_csv('../src/data/water_consumption_complete.csv', sep=",")
water_consumptions.head(15)

Unnamed: 0,id,datetime,consumption
0,0,2019-02-01,243
1,0,2019-02-02,236
2,0,2019-02-03,335
3,0,2019-02-04,252
4,0,2019-02-05,220
5,0,2019-02-06,276
6,0,2019-02-07,277
7,0,2019-02-08,193
8,0,2019-02-09,262
9,0,2019-02-10,315


In [3]:
water_consumptions_100 = water_consumptions[water_consumptions['id'] <= 100]
water_consumptions_100.head()

Unnamed: 0,id,datetime,consumption
0,0,2019-02-01,243
1,0,2019-02-02,236
2,0,2019-02-03,335
3,0,2019-02-04,252
4,0,2019-02-05,220


In [4]:
water_consumptions_100.shape

(35594, 3)

In [5]:
water_consumptions_100.to_csv('./data/water_consumptions_100.csv', index=False)