# Producción

Hasta el momento, solo nos hemos preocupado de las fases de exploración y desarrollo. En ellas, prima la interactividad del entorno y el objetivo es que el equipo encargado de esta fase sea lo más productivo posible.

A la hora de pasar a producción, cambian las prioridades. Cobran importancia:

* Automatización: ya no queremos ni necesitamos interactividad, sino procesos que corran sin intervención humana
* Robustez: que los procesos controlen casos extremos para no fallar, y que las partes con probabilidad de fallo (p.e. escritura de fichero, peticiones por internet, scraping, ...) se gestionen correctamente
* Logging: generación de trazas del proceso (informativas, de error, ...) para que se puedan consultar como parte de una operativa normal o de error inesperado
* Alarmas: en el caso de que algo vaya mal sobre un proceso crítico, debemos tener un mecanismo de aviso
* Estabilidad: mientras que en desarrollo podemos actualizar a nuevas versiones del lenguaje o de sus dependencias, en producción el entorno debe ser estable, y ser actualizado únicamente bajo demanda y habiendo comprobado que todo funciona correctamente

## Estructura del proyecto

Los notebooks de jupyter nos permiten desarrollar en un entorno interactivo. Pero un proyecto final que pasa a producción, seguirá una estructura de módulos (carpetas) estructurada.

Una estructura de ejemplo para un proyecto de clasificación de vinos:

```
|-- wineclassifier/             # Raíz del proyecto (repositorio git)
    |-- wineclassifier/
        |-- __init__.py         # Requerido al ser un módulo, habitualmente vacío
        |-- config.[py|yml]     # Configuración (cadenas de conexión, parametrización del modelo, ...)
        |-- model/              # Código relacionado con la generación del modelo
            |-- __init__.py
            |-- preprocess.py
            |-- regression.py   
        |-- resources/          # Recursos como queries, ...
            |-- __init__py
            |-- queries.py
        |-- util/               # Útiles, bastante reutilizables entre proyectos: lógica de conexión a BD, ...
            |-- __init__py
            |-- bd.py
            |-- storage.py
    |-- requirements.txt        # Dependencias con sus versiones del proyecto
    |-- train.py                # Lanza el entrenamiento
    |-- predict.py              # Lanza la predicción (batch, levanta API, ...)
    |-- README.md               # Instrucciones para lanzar el proyecto y doc importante
```

## Entornos virtuales y gestión de dependencias

Tanto el lenguaje en sí, como las librerías son algo vivo, que evoluciona. Un proyecto puede funcionar correctamente bajo una versión de Python y de las librerías que utilice (p.e. `pandas`, `seaborn`) y fallar en otras versiones.

Por este motivo, necesitamos una herramienta que fije estas versiones y asegure unicidad en el equipo de desarrollo y los diferentes entornos.

Esto se puede gestionar mediante los entornos virtuales. Hasta ahora, los paquetes los instalábamos a nivel global, para nuestro usuario o todos los usuarios de la máquina. Con los entornos virtuales, podemos tener un conjunto de paquetes y sus versiones por cada proyecto.

Aunque estamos utilizando [`conda`](https://pypi.org/project/conda/) para la gestión de paquetes, en entornos más productivos se suele utilizar [`pip`](https://pypi.org/project/pip/).

### Creación del entorno virtual

Solo hace falta hacerlo una vez, normalmente cuando creamos o clonamos el proyecto:

```
python3 -m venv env
```

Nos crea una carpeta `env/` en nuestro proyecto donde se guardarán todas las librerías. Si estamos en un repositorio de `git`, hay que incluir esta carpeta en el `.gitignore`.

### Activar y desactivar el entorno virtual

Cuando nos pongamos a desarrollar, tendremos que activarlo. Esto implica una alteración de las rutas a `python` y las librerías del proyecto. Tendremos disponible lo instalado en `env/` en lugar de lo instalado de forma global.

```
source env/bin/activate
```

Para volver al entorno global del ordenador, desactivamos el entorno virtual:

```
deactivate
```

### Instalación y actualización de dependencias

_Nota_: estos pasos hay que hacerlos siempre con el entorno virtual activo.

Para instalar las dependencias necesarias (p.e. tras clonar el proyecto por primera vez, o tras traernos código nuevo que incorpora nuevas dependencias, ...):

```
pip install -r requirements.txt
```

Y cada vez que instalamos o actualizamos una dependencia en nuestro proyecto (con `pip install ...`), debemos actualizar el listado de dependencias, guardado en `requirements.txt`. Para hacerlo:

```
pip freeze > requirements.txt
```

El fichero de `requirements.txt` tiene esta pinta:

```
nltk==3.4
numpy==1.16.0
pandas==0.24.0
scikit-learn==0.20.2
scipy==1.2.0
```

Puedes ver más sobre el formato que puede tener este fichero [aquí](https://pip.pypa.io/en/stable/user_guide/#requirements-files).

## Referencias

Más información:

* [Gestión excepciones en Python](https://www.datacamp.com/community/tutorials/exception-handling-python)
* [Tutorial de logging básico](https://code-maven.com/simple-logging-in-python)
* [Tutorial de docker](https://djangostars.com/blog/what-is-docker-and-how-to-use-it-with-python/)
* [Tutorial de testing](https://semaphoreci.com/community/tutorials/testing-python-applications-with-pytest)
* [CI/CD con GitHub, Travis y más](https://github.com/ksator/continuous-integration-with-python)
* [Convertir un modelo de ML en una API](https://www.datacamp.com/community/tutorials/machine-learning-models-api-python)
* [Virtual envs con conda](https://uoa-eresearch.github.io/eresearch-cookbook/recipe/2014/11/20/conda/)

Ejemplos de proyectos:

* [Homemade machine learning](https://github.com/trekhleb/homemade-machine-learning)