# MA6202: Laboratorio de Ciencia de Datos
**Profesor: Nicolás Caro** 

**22/07/2020 - S15** 

# Puesta en Marcha: Introducción a Flask

La puesta en marcha o *despliegue* consiste en el flujo de trabajo necesario para hacer que una aplicación pasa de un estado de desarrollo experimental (prueba de concepto) a ser una versión de *producción* donde el usuario final tendrá acceso. 

Para poner en marcha nuestros proyectos de ciencia de datos, haremos uso de *aplicaciones web*. Estas consisten programas diseñados para ejecutarse desde un servidor web. Esta aproximación nos permitirá facilitar resultados y visualizaciones a una amplia variedad de sistemas. 

En Python existen conjuntos de herramientas para desarrollo, dentro de estas se utilizará Flask por su enfoque minimal. Antes de estudiar esta herramienta, estudiamos el manejo de entornos virtuales.

## Ambientes Virtuales

Cada aplicación de Python posee sus requerimientos en cuanto a las librerías sobre las cuales se basa. Esto hace que en algunas oportunidades se trabaje en aplicaciones que requieran distintas versiones de una misma librería o que trabajen sobre versiones distintas de Python. En este caso, una instalación global de Python no permitiría trabajar de manera fluida, pues se necesitaría reinstalar paquetes de distintas versiones cada vez que se cambie de aplicación.

Para solucionar el problema anterior aparecen los **entornos virtuales**, estos consisten en conjuntos de carpetas autocontenidos en cuanto a sus dependencias, para lograr esta independencia, cada entorno irtual presenta su propia instalación de Python, pudiendo elegir incluso que versión del lenguaje se desea instalar. 

En general se recomienda el uso de entornos virtuales para manejar dependencias de proyectos de software basados en Python, tanto en el desarrollo de estos como como en su puesta en marcha o producción.

Python 3 posee un módulo que permite crear entornos virtuales, este es `venv`, cabe destacar que esta librería no es la única forma de manejar entornos virtuales (ej: conda ofrece una herramienta similar) pero si es la estándar en el stack de Python. 

**Ejemplo**

Para crear un entorno virtual, nos localizamos en la carpeta raíz de nuestro proyecto, en este caso será `./ProjectLab`, sobre tal carpeta inicializamos un entorno virtual usando `venv`

In [None]:
!mkdir ProjectLab
!python -m venv entorno_virtual

#En windows la orden es
#py -m venv entorno_virtual

con lo anterior, se ha creado un a carpeta llamada `./ProjectLab/entorno_virtual` la cual contiene el código necesario para generar un entorno virtual independiente de la instalación global de Python. Para acceder a dicho entorno ejecutamos el archivo `activate` dentro de la carpeta `./entorno_virtual/bin` esto se hace por medio de:

In [None]:
!. entorno_virtual/bin/activate

# En Windows
# entorno_virtual\Scripts\activate 

una vez activado un entorno virtual, no encontramos localmente dentro una nueva instalción de Python, la cual maneja sus propias dependencias, en este caso, si buscamos importar un paquete de la instalación global (ej: Numpy o cualquier otra librería de terceros), no se podrá acceder, pues mientras el ambiente viertual este activado, se ignora la instalación global. 

Para trabajar en conjunción con notebooks de Jupyter podemos instalar la librería `ipykernel` en nuestro entorno virtual, esto lo hacemos por medio de las ordenes:

```
user@ruta/a/proyecto$ . entorno_virtual/bin/activate  
user@ruta/a/proyecto$ pip install ipykernel
```

Donde `user@ruta/a/proyecto$` hace referencia a que se debe ejecutar en la carpeta de nuestro proyecto `ProjectLab` desde una consola, no funcionará usando el comando `!` en una celda. 

**Obs:** En Windows equivale a activar el ambiente y luego instalar el paquete `ipykernel` usando pip. 

Una vez instalada la librería podemos registrar el kernel asociado a nuestro entorno virtual, para ello ejecutamos 

```
(entorno_virtual) user@ruta/a/proyecto$ python -m ipykernel install --user --name entorno_virtual --display-name "Python (entorno_virtual)"
```

Donde la linea `(entorno_virtual) user@ruta/a/proyecto$` indica que se ejecuta dentro de un entorno virtual activado. Esta linea instala un kernel llamado `entorno_virtual` asociado a nuestro entorno de ejecución actual (indicado en la consola) que corresponde en este caso al entorno virtual activado. El nombre con el cual aparece dicho kernel en un notebook de Jupyter será `"Python (entorno_virtual)"`. Finalmente, podemos cambiar de kernel usando la opción `kernel -> change kernel -> Python (entorno_virtual)` (puede ser necesario actualizar la página sociada al notebook actual). 


Con lo anterior, el notebook se reinicia pero se tiene conexión directa con el entorno virtual creado.

**Ejemplo**

Se cambia de kernel pasando al creado recientemente, como nos encontramos en una instalación nueva de Python no habrá disponibilidad a paquetes instalados en el entorno global. Intentaremos acceder a NumPy desde este nuevo kernel asociado al entorno virtual.

In [None]:
try:

    import numpy
    print('Numpy instalado en este entorno virtual')

except ModuleNotFoundError:
    
    print('Modulo NumPy no encontrado en este entorno virtual')

Con lo que confirmamos que nos encontramos accediendo al nuevo entorno virtual. Lamentablemente, el comando `!` está asociado al entorno en el cual se ejecuta Jupyter al iniciar y no al kernel con el que estamos trabajando, por tal motivo, si ejecutamos `!pip install numpy` desde una celda, no se instalará en el entorno virtual. Para instalar librerías, necesitamos por tanto instalarlas directamente desde la consola habiendo activado el entorno virtual previamente. 

Para salir de un entorno virtual basta con *desactivarlo*, esto se hace ejecutando la orden `deactivate` desde la consola en un entorno virtual previamente activado. Este comando se agrega a la consola / terminal cada vez que activamos un entorno virtual por lo que podemos ejecutarla desde cualquier carpeta.

## Introducción a Flask

`Flask` es un *micro web framework* escrito en Python. Es decir, corresponde a un conjunto de herramientas para desarrollo web (web framework) minimal (micro). En este sentido, el prefijo *micro* hacer referencia a que una aplicación debe ser sencilla en sus componentes, esto no afecta a la funcionalidad, pues se tiene acceso a multiples extensiones, así la minimalidad del framework hace referencia a mantener un núcleo simple pero a la vez extensible, logrando así que el programador tenga total control sobre que componentes integrar, evitando redundancia en el código y complejidades extra.

Para instalar Flask hacemos uso de la sintaxis usual. Esta vez se recomienda hacerlo dentro de un entorno virtual, de manera que se pueda desarrollar una aplicación web autocontenida.

**Ejercicio**

1. Instale flask `pip install flask` dentro del entorno virtual `entorno_virtual` creado anteriormente.

Flask permite crear aplicación que hace uso de la convención WSGI (**W**eb  **S**erver **G**ateway **I**nterface - *whiskey*), esta consiste en un protocolo de servidores web para el manejo de consultas por medio de aplicaciones o frameworks de Python. 

**Ejemplo**

Creamos una aplicación minimal usando Flask, para ello importamos la clase `Flask`, la cual corresponde a una aplicación WSGI. 

In [None]:
from flask import Flask 

Luego se crea un objeto como instancia de dicha clase. El primer argumento de este objeto en su constructor, será el nombre del módulo al cual dicha aplicación pertenece. Al usar solamente un módulo, se recomienda utilizar la variable de sistema `__name__`. Esta variable entrega el nombre del módulo sobre el cual se ejecuta. Observemos su comportamiento :

1. Se crea un módulo

In [None]:
%%file modulo_1.py

def func1():
    print('Valor de __name__ : ' + __name__)

2. Se importa dicho módulo 

In [None]:
import modulo_1

modulo_1.func1() 
print('Valor de __name__ fuera del modulo:' + __name__)

Se puede ver que dentro del módulo creado, la variable `__name__` cambia, esto permite asociar una aplicación de Flask al módulo sobre el cual se desea operar. 

In [None]:
app = Flask(__name__)

Con lo anterior, se iniciado una aplicación de Flask, la cual buscará dependendcias en el módulo `__name__` (`__main__` en este caso).

El siguiente paso es usar un *decorador de ruta*  `route(url)`, el cual le dice a Flask que acción tomar (que función ejecutar) cuando se accede a la dirección `url`. De esta manera, se define una función de bienvenida, la cual se activa cuando accedemos a la dirección raíz de la aplicación `/`.

In [None]:
@app.route('/') 
def bienvenida():
    return 'Bienvenida/o a la app minimal!'

el nombre de la función decorada se utiliza para generar urls de manera automática, la orden `return` de la función será el mensaje mostrado en el navegador.

Procedemos a crear un módulo con la aplicación generada

In [None]:
%%file app_minimal.py
from flask import Flask 

app = Flask(__name__)

@app.route('/') 
def bienvenida():
    return 'Bienvenida/o a la app minimal!'

Para ejecutar la aplicación generada se puede utilizar el comando `flask` desde la terminal (análogo a pip), sin embargo, antes de ejecutarla, es necesario indicarle a la terminal que aplicación se ejecutará con el comando `flask`. Esto corresponde a una variable del sistema llamada `FLASK_APP`, darle el valor que necesitamos utilizamos el comando `export`(linux - mac):

```
(entorno_virtual) user@ruta/a/ProjecLab$ export FLASK_APP=app_minimal.py
```

En windows se utiliza `C:\ruta\a\ProjecLab>set FLASK_APP=app_minimal.py`. Luego de exportar la aplicación desde la terminal, se procede a lanzar la aplcación usando el comando:

```
(entorno_virtual) user@ruta/a/ProjecLab$ flask run
```

El ejecutar dicha orden se indica una url con la cual se accede a la aplicación, por lo general es del tipo `http://127.0.0.1:5000/`. Con esto, hemos utilizado el servidor interno de flask en nuestro computador.

La aplicación anterior se mantiene funcionando como servidor de desarrollo pero requiere de un reinicio cada vez que se se haga un cambio al código. Para solucionar dicho problema existe el modo de depuración *debug mode*. Al activar este modo el servidor se recarga a si mismo al generar cambios en los módulos que lo componen. 

La activación del modo de depuración se hace por medio de la variable de sistema `FLASK_ENV` que se debe exportar como `development`.

**Ejemplo**

Se exporta el ambiente de depuración y se corre nuevamente la aplicación usando `flask run` todo desde la terminal.

```
(entorno_virtual) user@ruta/a/ProjecLab$ export FLASK_ENV=development
(entorno_virtual) user@ruta/a/ProjecLab$ flask run
```

Con lo anterior, se activa el depurador, la carga automática y activa el modo de depuración en la aplicación creada. 

Aunque el depurardor permite la ejecución de código arbitrario, lo que se traduce en riesgos de seguridad, por tal motivo no debe ser utilizado en entornos de producción. 

Se cambia el texto de la aplicación y se recarga en el navegador.

In [None]:
%%file app_minimal.py
from flask import Flask 

app = Flask(__name__)

@app.route('/') 
def bienvenida():
    return 'Bienvenida/o a la app minimal! con depuracion'

**Ejercicio**

1. Introduzca un error en la función anterior e identifiquelo a partir del depurador

**Ruteo de urls**

Una aplicación web utiliza urls para acceder a sus funcionalidades y contenidos, esto además ayuda a los usuarios a comprender la estructura del sitio que se les presenta. Para manejar el acceso a urls dentro de la aplicación hacemos uso del decorador `@app.route()`.


**Ejemplo**

Se construye una página de bienvenida una de saludo dentro de la aplicación `aplicación minimal`.

In [None]:
%%file app_minimal.py
from flask import Flask 

app = Flask(__name__)

@app.route('/') 
def bienvenida():
    return 'Bienvenida/o a la app minimal!'

@app.route('/hola') 
def funcion_saludo():
    return 'Has accedido a la pagina de saludo. Hola ...'

Accedemos a la nueva función usando la url `127.0.0.1:5000/hola`.

Como es posible observar, el decorador recibe un string indicando la url a la cual se asocia el procedimiento de una función. Este tipo de dato permite generar urls dinámicas utilizando **reglas variables**. 

Una regla variable permite aplicar funciones sobre urls dinámicas, para ello se utiliza la sintaxis `<variable>` entro de la url a la cual está asociada la función que deseamos operar. De tal manera, si creamos una función `func ` que recibe como argumento una la variable `id`  entonces se puede generar una regla variable con la url `/ruta/a/la/url/<id>` luego decoramos la función `func` con la url anterior.

**Ejemplo**

Se implementa el caso recientemente explorado

In [None]:
%%file app_minimal.py
from flask import Flask 

app = Flask(__name__)

@app.route('/') 
def bienvenida():
    return 'Bienvenida/o a la app minimal!'

@app.route('/hola/<user>') 
def funcion_saludo(user):
    return 'Has accedido a la pagina de saludo. Hola ...' + user

Al acceder a la aplicación anterior, si entramos a la url `127.0.0.1:5000/hola/estudiante` recibimos la ejecución de `funcion_saludo('estudiante')`.

**Ejercicio**

1. Se pueden indicar tipos de dato `string`,`int`,`float`,`path`,`uuid` mediante la notación `<dtype:varname>` donde `dtype` es el tipo de dato escogido para operar. Implemente una función que reciba un valor de punto flotante como input. ¿Qué diferencia hay entre `string` y `path`?

Flask opera sobre las urls entregadas de manera especial. Por ejemplo, al agregar las funciones `proyectos` y `acerca` estamos asociando las urls `'/proyectos/'` y `'/acerca'`. 

En el caso de`'/proyectos/'`, si accedemos a la url `127.0.0.1:5000/proyectos`, seremos redirigidos a `127.0.0.1:5000/proyectos/` es decir agregará el simbolo `/` al final de la url. 

Por el contrario, si accedemos a `127.0.0.1:5000/acerca/` no habrá redirección a la versión sin `/`. Es decir acceder a `127.0.0.1:5000/acerca/` lanza un error pero `127.0.0.1:5000/proyectos` no. Para entender este comportamiento, pensemos en las urls como rutas de acceso a carpetas (terminan con `/`) y archivos (terminan si `/`). Si intentamos a acceder a una carpeta con notación de archivo, seremos redirigidos a la carpeta, por otra parte, si intentamos acceder a un archivo con notación de carpeta habrá un error pues no existe una ruta con el nombre que buscamos. 

Se comprueba lo anterior

In [None]:
%%file app_minimal.py
from flask import Flask 

app = Flask(__name__)

@app.route('/') 
def bienvenida():
    return 'Bienvenida/o a la app minimal!'

@app.route('/hola/<user>') 
def funcion_saludo(user):
    return 'Has accedido a la pagina de saludo. Hola ...' + user

@app.route('/proyectos/')
def proyectos():
    return 'Pagina de proyectos.'

@app.route('/acerca')
def acerca():
    return 'Pagina de informacion sobre el autor'

Para construir urls a una función en especifico se puede utilizar la función `url_for()`, esta función toma como argumento el nombre de una función y un diccionario de argumentos pcional `**kwargs` asociado a la función. La utilidad de `url_for()` es permitir la construcción de urls dinámicas, en el sentido de que modificar múltiples rutas se hace más sencillo que cambiarlas manualmente una por una. 

La construcción de urls por medio de ese método hace un manejo automático de caracteres especiales, además las rutas generadas se construyen de manera absoluta, evitando comportamientos inesperados usuales con rutas relativas en navegadores. 

Si se tiene una aplicación ubicada fuera de la raiz de la url (ej: aplicación ubicada en `/aplicación` en vez de `/`),  `url_for` permite su manejo sencillo. 

**Ejemplo**

Se utiliza el context manager `text_request_context()` del módulo `app`. Este permite navegar por una aplicación de Flask desde Python, emulando accesos a funciones.  Se procede a obtener las urls para las funciones anteriores.

In [None]:
%%file app_minimal.py
from flask import Flask, url_for
app = Flask(__name__)


@app.route('/')
def bienvenida():
    return 'Bienvenida/o a la app minimal!'

@app.route('/hola/Fulano')
def funcion_saludo_0():
    return 'SI ...'

@app.route('/hola/<user>')
def funcion_saludo(user,va):
    return 'Has accedido a la pagina de saludo. Hola ...' + user + va

@app.route('/proyectos/')
def proyectos():
    return 'Pagina de proyectos.'


@app.route('/acerca')
def acerca():
    return 'Pagina de informacion sobre el autor'


with app.test_request_context():
    print('URL: Funcion bienvendia ->', url_for('bienvenida'))
    print('URL: Funcion funcion_saludo ->',url_for('funcion_saludo_0'))
    print('URL: Funcion funcion_saludo ->',url_for('funcion_saludo', user='Fulano'))
    print('URL: Funcion acerca ->',url_for('acerca'))
    print('URL: Funcion proyectos ->',url_for('proyectos'))

Las aplicaciones web utilizan distintos métodos HTTP (Hypertext Transfer Protocol) al momento de acceder a urls, estose se conocen tambien como verbos, dentro de los cuales se pueden reconocer `GET` consultar sobre un recurso especifico (solo reciben datos), `HEAD`, de la misma manera que `GET` solo recibe información pero acá se busca acceder al identificador de la información y no a su contenido total (cuerpo), `POST`, este método se utiliza para enviar recursos causando por lo genear un cambio de estado en el servidor y `PUT` que remplaza recursos objetivo.

**Ejercicio**

1. Investigue sobre los verbos HTTP existentes.

Por defecto, una ruta de Flask soo responde a consultas `GET`, sin embargo, el ecorador `app.route()` puede recibir el argumento `methods` con el cual se pueden especificar los tipos de métodos HTTP soportados por la función que decora.

**Ejemplo**

Para utilizar el parámetro `methods` en el enrutamiento, importamos el objeto `requests` con el cual se puede identificar que tipo de consulta. 

Generaremos una página de `login` desde la cual un usuario podrá registrarse, haremos uso de la función `url_for()` y de la capacidad de Flask para manejar ordenes HTML. 

En primer lugar, creamos la página en la cual se hará el registro, esta consiste en un archivo HTML con la siguiente estructura:

In [None]:
import os 
os.getcwd()

try:
    os.mkdir('templates')

except FileExistsError:
    print('Directorio ya existe')

Creamos un template de login

In [None]:
%%file templates/login.html 
<html>
   <body>
    
      <form action = "http://localhost:5000/login" method = "post">
         <p>Buenas, ingresa tu nombre:</p>
         <p><input type = "text" name = "nm" /></p>
         <p><input type = "submit" value = "submit" /></p>
      </form>
    
   </body>
</html>

El código anterior genera una página que consulta por la variable `name` generando una consulta `POST`. El texto ingresado en la página se almacena con el campo `nm` dentro de un diccionario asociado a la consulta `POST`. 

Añadiremos la función `exito` que recibe un nombre y le da la bienvenida, tambén implementamos la función de login, esta utiliza el objeto `request` para diferenciar que tipo de consulta se está realizando. Se decora dicha función utilizando el parámetro `methods`

In [None]:
%%file app_minimal.py
from flask import Flask, redirect, url_for, request, render_template
app = Flask(__name__)

@app.route('/') 
def bienvenida():
    return render_template('login.html')

@app.route('/hola/<user>') 
def funcion_saludo(user):
    return 'Has accedido a la pagina de saludo. Hola ...' + user

@app.route('/proyectos/')
def proyectos():
    return 'Pagina de proyectos.'

@app.route('/acerca')
def acerca():
    return 'Pagina de informacion sobre el autor'

#Exito
@app.route('/exito/<name>') 
def exito(name):
    return f'Bienvenido {name}'  

#Login
@app.route('/login', methods = ['POST', 'GET'])
def login():
    if request.method == 'POST':
        user = request.form['nm'] 
        return  redirect(url_for('exito',name = user))
    else:
        user = request.args.get('nm')
        return 'Login fallido'

En el ejemplo anterior utilizamos la función `render_template`. Con esta función es posible renderizar plantillas HTML directamente desde Flask. Para usar dicha funcionalidad  se requiere ubicar las plantillas a utilizar en una carpeta llamada `templates`, en este caso, si trabajamos con estructura de módulo, las carpetas deberían seguir el patrón:

```
|- /modulo.py
|- /templates
|-----/template_html_a_utilizar.html
```

En el caso de trabajar con librerías:

```
|- /libreria
|----/__init__.py
|----/templates
|---------/template_html_a_utilizar.html
```

Para generar plantillas (*templates*) se puede utilizr [Jinga2](jinja.pocoo.org/docs/templates/). Esta librería consiste en un lenguaje de diseño diámico sencillo y rápido. Veamos un ejemplo de template Jinga2 y observemos como interactua con el entorno de Python.


In [None]:
name = '--Test--'

```html
<!doctype html>
<title> En Flask esto se vería así: </title>

{% if name %}
    <h1> Variable inicializada {{name}} </h1>

{% else %}
    <h1> No hay variable inicializada!</h1>

{% endif %}
```

Observe que se tiene acceso a funcionalidades de Python mediante la sintaxis `{% %}`.

En general, podemos utilizar una estructura de herencia de plantillas

In [None]:
%%file templates/layout.html 

<!doctype html>
<html>
  <head>
    {% block head %}
    <link rel="stylesheet" href="{{ url_for('static', filename='style.css')}}">
    <title>{% block title %} {% endblock %} - App Minimal - </title>
    {% endblock %}
    
  </head>

  <body>
    
    <div id="content">
    {% block content %}
    
    {% endblock %}
    </div>
    
    <div id="footer">
      {% block footer %}
        Copyright 2020 by <a href="https://github.com/NicoCaro/DataScienceLab"> DaScLab </a>.
      {% endblock %}
    </div>
    
  </body>

</html>

El código anterior genera una plantilla HTML utilizando Jinga2. Esta se constituye por bloques, los bloques tienen un nombre asociado y se comportan como atributos de un objeto. En este caso el template se denomina `layout.html` y se ubica en la carpeta `template`. Los bloques definidos son `head`, `content` y `footer`. 

Finalmente, dentro del template utilizamos la función de Python (Flask) `url_for('static', filename='style.css')` la cual accede a la url del componente `static`. Este componente viene por defecto en las aplicaciones de flask (no fue definido en `app_minimal.py`) y permite acceder a archivos ubicados en la carpeta `\static`. Esta debe seguir la lógica de carpetas presentada en `templates`. En la carpeta `\static` ubicamos un código de estilo `CSS` llamada `style.css`. Esta  cambia el color de los párrafos (`<p>`), headers (`<h1>`) y del cuerpo (`body`).

Podemos pensar que `layout.html` se comporta como una clase, sobre la cual se puede hacer herencia simple. Para ello crearemos una reestructuración del template de `login` para que herede los atributos de `layout.html`. Observe que se puede hacer *overriding* de manera natural.

In [None]:
%%file templates/login.html
{% extends "layout.html" %}

{% block title %} Login {% endblock %}

{% block head %}
{{ super() }}
Buenas, ingresa tu nombre:
{% endblock %} 
                
{% block content %}   
{{ super() }}
 <form action = "{{ url_for('login', filename='style.css')}}", method = "post">
         <p><input type = "text" name = "nm" /></p>
         <p><input type = "submit" value = "submit" /></p>
      </form>             
{% endblock %}

La orden `super()` actua de la misma forma que en un esquema de herencia de objetos. 

Se construye un template para la página de redirección `extio.html`

In [None]:
%%file templates/exito.html
{% extends "layout.html" %}

{% block title %} Exito! {% endblock %}

{% block head %}
{{ super() }}

Login Exitoso

{% endblock %} 
                
{% block content %}  
    {{ super() }}
    Bienvenido {{name}}!
{% endblock %}

Finalmente cambiamos los parámetros que permiten ejecutar nuestra aplicación sobre los templates creados.

In [None]:
%%file app_minimal.py
from flask import Flask, redirect, url_for, request, render_template
app = Flask(__name__)

@app.route('/') 
def bienvenida():
    return render_template('login.html') 

@app.route('/hola/<user>') 
def funcion_saludo(user):
    return 'Has accedido a la pagina de saludo. Hola ...' + user

@app.route('/proyectos/')
def proyectos():
    return 'Pagina de proyectos.'

@app.route('/acerca')
def acerca():
    return 'Pagina de informacion sobre el autor'

#Exito
@app.route('/exito/<name>') 
def exito(name):
    return render_template('exito.html', name = name)   

#Login
@app.route('/login',methods = ['POST', 'GET'])
def login():
    if request.method == 'POST':
        user = request.form['nm'] 
        return  redirect(url_for('exito',name = user))
    else:
        user = request.args.get('nm')
        return redirect(url_for('exito',name = user))

## Interludio: Flujo de trabajo 

El flujo de trabajo de un proyecto de ciencia de datos puede dividirse según ciertos entornos que caracterizan las etapas de desarrollo. 

El primer paso es comenzar un *entorno de investigación* donde se hace el prototipado del proyecto de ciencia de datos. En este entorno se producen los bloques iniciales de carga de datos, analisis exploratorio y limpieza, ingenieria de características, entrenamiento, validación y finalmente evaluación del modelo final. 

Al entorno anterior le sigue una etapa de *desarrollo* o *entorno de desarrollo* en el cual se generan los modulos y librerías necesarias para poner en marcha el proyecto. 

Finalmente, se pasa al *entorno de producción* donde se tiene un proyecto accesible, robusto, controlable y reproducible al que tendrá acceso el usuario final. Sobre esta última etapa se busca construir actualizaciones que mejoren el funcionamiento, ya sea en cuanto a las dependiencias de software como tambien en relación a las dependencias con las fuentes de datos. 

**Ejemplo - Entorno de Investigación**

Se simula un entorno sencillo de investigación, haremos un seguimiento desde su formulación hasta su puesta en producción. 

El conjunto de datos a trabajar consiste en la base de datos del Titanic, esta base entrega información sobre los pasajeros a bordo del barco homónimo, indicando si estos sobrevivieron al accidente en el que se vieron envueltos. 

Procedemos a cargar los datos

In [None]:
import pandas as pd 
import seaborn as sns
import numpy as np 
import matplotlib.pyplot as plt 
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder, OneHotEncoder

In [None]:
np.random.seed(6202)

train = pd.read_csv('ProjectLab/data/train.csv') 
test = pd.read_csv('ProjectLab/data/test.csv')

data = pd.concat((train, test))

El siguiente paso es hacer una exploración inicial del conjunto de datos

In [None]:
data.info()

Se puede ver una variedad de tipos de datos, además de valores faltantes, las variables disponibles consisten en:

- PassengerId: Identificador por pasajero.
- Survived: Variable de respuesta booleana
- Pclass: Clase asociada al boleto.
- Name: Nombre del pasajero.
- Sex: Sexo de pasajero.
- Age: Edad.
- Sibsp: Número de hermanos o parejas viajando en compañia.
- Parch: Numero de padres o hijos viajando en compañia.
- Ticket: Identificador del boleto.
- Fare: Costo del boleto.
- Cabin: Numero de cabina asociada al pasajero.
- Embarked: Lugar de embarcación del pasajero.

In [None]:
data.describe()

Se puede ver que en promedio el $38\%$ de los pasajeros sobrevivieron el accidente. 

En cuanto a los valores faltantes se tiene:

In [None]:
data.isnull().sum()

El siguiente paso es una exploración visual del conjunto de datos, para ello, se comienza por estudiar las correlaciones.

In [None]:
fig, ax = plt.subplots(figsize=(10, 8))
corr = corr = train.corr()
sns.heatmap(corr, mask=np.zeros_like(corr, dtype=np.bool), cmap=sns.diverging_palette(220, 10, as_cmap=True),
            square=True, ax=ax)

Si bien es una exploración inicial, se aprecia una correlación entre `Pclass`, `Fare` y la variable de respuesta. Se estudia la distribución de la variable de respuesa.

In [None]:
fig = plt.figure(figsize = (10,5))

sns.countplot(x='Survived', data = train)
print(train['Survived'].value_counts())

Estudiamos la la variable de respuesta según `Pclass`. 

In [None]:
fig = plt.figure(figsize = (10,10))

ax1 = plt.subplot(2,1,1)
ax1 = sns.countplot(x = 'Pclass', hue = 'Survived', data = train)
ax1.set_title('Supervivencia según Clase', fontsize = 20)
ax1.set_xticklabels(['1 Alta','2 Media','3 Baja'], fontsize = 15)
ax1.set_ylim(0,400)
ax1.set_xlabel('Clase',fontsize = 15) 
ax1.set_ylabel('Conteo',fontsize = 15)
ax1.legend(['No','Si'])

# Pointplot Pclass type
ax2 = plt.subplot(2,1,2)
sns.pointplot(x='Pclass', y='Survived', data=train)
ax2.set_xlabel('Clase',fontsize = 15)
ax2.set_ylabel('% Sobrevive',fontsize = 15)
ax2.set_title('Porcentaje de supervivencia por Clase', fontsize = 20);

fig.tight_layout()

Lo anterior confirma la correlación observada, mientras mayor la clase del boleto, más probable es sobrevivir. 

En cuanto a la edad

In [None]:
survived = 'Sobrevive'
not_survived = 'No sobrevive'

fig, axes = plt.subplots(nrows=1, ncols=2,figsize=(12, 6))

women = train[train['Sex']=='female']
men = train[train['Sex']=='male']

ax = sns.distplot(women[women['Survived']==1].Age.dropna(), bins=20, label = survived, ax = axes[0], kde =False)
ax = sns.distplot(women[women['Survived']==0].Age.dropna(), bins=20, label = not_survived, ax = axes[0], kde =False)

ax.legend(fontsize=12) 

ax.set_title('Mujer', fontsize=20)
ax = sns.distplot(men[men['Survived']==1].Age.dropna(), bins=20, label = survived, ax = axes[1], kde = False)
ax = sns.distplot(men[men['Survived']==0].Age.dropna(), bins=20, label = not_survived, ax = axes[1], kde = False)

ax.legend(fontsize=12)
ax.set_title('Hombre', fontsize=20);

En este caso se tiende que en general las mujeres tuvieron un más alto porcentaje de supervivencia sin importar la edad. En ambos sexos, las probabilidaddes de sobrevivir tienden a acumularse en la juventud. 

Aunque es posible continuar analizando relaciones visuales en el conjunto de datos, pasaremos a la *ingeniería de características*. 

Se crea la variable **family survival** que busca encapsular relaciones de supervivencia de familias. De esta forma, se genera una relación de similitud basándose en la información contenida en el boleto de cada pasajero. Así, grupos similares tendrán una probabilidad similar de supervivencia.

In [None]:
# Se llena el valor Fare con la media total

def na_mean_fill(df, col='Fare'):
    '''Cambia los datos faltantes de la columna col por la media en df.'''

    data = df.copy()
    data[col].fillna(data[col].mean(), inplace = True)
    return data 

data = na_mean_fill(data) 

Se procede a trabajar con la variable `Family_Survival`

In [None]:
# Se extrae el apellido
def last_name_gen(df):
    '''Genera la columna Last_name a partir de Name en el DataFrame df.
    
    Retorna:
    --------
    data: Pandas.DataFrame
        Un conjunto de datos con la variable Last_Name agregada.
    '''
    
    data = df.copy()
    data['Last_Name'] = data['Name'].apply(lambda x: str.split(x, ",")[0])

    return data

data = last_name_gen(data)  

A continuación se genera una rutina para crear la variable`Family_Survival`.

In [None]:
def family_dict_gen(df, default_survival_chance=0.5):
    '''Genera un DataFrame con probabilidades de supervivencia por familia.
    
    El conjunto de datos debe tener las columnas: Survived, Name, Last_Name, 
    Fare, Ticket, PassengerId, SibSp, Parch, Age y Cabin. Se genera un  
    DataFrame con la relación familia -> fecuencia de supervivenca.

    
    Retorna:
    --------

    data: Pandas.DataFrame
        Un conjunto con la relacion familia - frecuencia de supervivencia
    '''

    data = df.copy()

    # Utiliza un valor prior para la probabilidad de sobrevivir
    data['Family_Survival'] = default_survival_chance

    # Se agrupa el conjunto de datos por apellido y fare
    for grp, grp_df in data[['Survived', 'Name', 'Last_Name', 'Fare', 'Ticket', 'PassengerId',
                             'SibSp', 'Parch', 'Age', 'Cabin']].groupby(['Last_Name', 'Fare']):

        # Si no es igual a 1, se encuentra una familia
        # en tal caso se calcula una probabilidad de supervivencia
        if (len(grp_df) != 1):
            for ind, row in grp_df.iterrows():
                smax = grp_df.drop(ind)['Survived'].max()
                smin = grp_df.drop(ind)['Survived'].min()
                passID = row['PassengerId']
                if (smax == 1.0):
                    data.loc[data['PassengerId'] ==
                             passID, 'Family_Survival'] = 1
                elif (smin == 0.0):
                    data.loc[data['PassengerId'] ==
                             passID, 'Family_Survival'] = 0

    # Luego se agrupa la informacion por tickets y se procede
    for _, grp_df in data.groupby('Ticket'):
        if (len(grp_df) != 1):
            for ind, row in grp_df.iterrows():
                if (row['Family_Survival'] == 0) | (row['Family_Survival'] == 0.5):
                    smax = grp_df.drop(ind)['Survived'].max()
                    smin = grp_df.drop(ind)['Survived'].min()
                    passID = row['PassengerId']
                    if (smax == 1.0):
                        data.loc[data['PassengerId'] ==
                                 passID, 'Family_Survival'] = 1
                    elif (smin == 0.0):
                        data.loc[data['PassengerId'] ==
                                 passID, 'Family_Survival'] = 0

    return data.groupby('Last_Name').mean()['Family_Survival']

In [None]:
family_dict = family_dict_gen(data) 
family_dict 

finalmente se crea la variable `Family_Survival`

In [None]:
def family_survival_gen(df, family_dict=family_dict, default_prob=0.5):
    '''Recibe observaciones y asigna probabilidad de supervivencia por familia.

    Permite generar una variable donde se asigna una proporcion de sobrevivencia
    por familia. Para ello toma un DataFrame con las relaciones por familia si 
    el apellido asociado a la observacion x en df esta en el conjunto  de 
    familias, le asigna el valor indicado en family_dict. En caso contrario 
    le asigna la probabilidad default_prob. 

    Retorna:
    --------
    data : Pandas.DataFrame 
        Conjunto de datos con la variable family_survival generada. 
    '''
    
    data = df.copy()
    data['Family_Survival'] = default_prob

    for x in data.itertuples():
        if x.Last_Name in family_dict:
            prob = family_dict.loc[x.Last_Name]
            data.loc[data['PassengerId'] == x.PassengerId,'Family_Survival'] = prob

    return data

In [None]:
data = family_survival_gen(data) 

In [None]:
print("Pasajeros con informacion de familia:",
      data.loc[data['Family_Survival'] != 0.5].shape[0])

Se reinicia el conjunto de índices para continuar trabajando

In [None]:
data = data.reset_index(drop=True)
data = data.drop('Survived', axis=1)
data.tail()

A continuación se trabaja la variable `Fare`


In [None]:
fig  = plt.plot(figsize = [12,12])  
plt.hist(data['Fare'], bins=40)

plt.xlabel('Fare', fontdict={'fontsize':15})
plt.ylabel('Conteo', fontdict={'fontsize':15})

plt.title('Distribucion de Precio',  fontdict={'fontsize':20})
plt.show()

La distribución presenta asimetria estadística, dentro de las opciones que se tienen para trabajar con este tipo de dato, se encuentran las transformaciones de potencia, o la categorización. En este caso, se procede a categorizar la variable en 4 niveles.



In [None]:
def col_to_cat(df,col = 'Fare' , cuts = 4):
    '''Toma un conjunto de datos df y transfroma la columna col en categorica.
    
    La cantidad de bins viene dada por el parametro cuts.
    
    Retorna:
    -------- 
    
    data: Pandas.DataFrame
        Un conjunto de datos con la variable col recategorizada. 
    '''
    lbl = LabelEncoder() 
    data = df.copy()
    
    data[col] = pd.qcut(data[col], cuts) 
    data[col] = lbl.fit_transform(data[col]) 
    
    return data 

In [None]:
data = col_to_cat(data) 

Se procede a observar el resultado de la categorización

In [None]:
fig  = plt.plot(figsize = [12,12])  

sns.countplot(data['Fare'])
plt.xlabel('Fare Bin',fontdict={'fontsize':15})
plt.ylabel('Conteo',fontdict={'fontsize':15})
plt.title('Fare Bins',fontdict={'fontsize':20});

Se procede trabajar la variable `Name`. En este caso, los nombres no como identificadores no entregan información, sin embargo, los nombres de esta base continen expresiones del tipo `Mr.` o `Mrs.` que pueden ayudar a categorizar entre hombres y mujeres. 

Se procede a extraer dicha información

In [None]:
data.Name

In [None]:
def get_title(name):
    '''Obtiene le titulo asociado a una persona.'''
    
    if '.' in name:
        return name.split(',')[1].split('.')[0].strip()
    else:
        return 'desconocido' 

def get_title_list(df): 
    '''Dado un conjunto de datos obtiene titulos a partir de la columna Name.
    
    Retorna:
    -------- 
    
    title_data: list 
        Lista con los titulos encontrados en df.
        
    '''
    data = df.copy() 
    titles_data = sorted(set([x for x in data['Name'].map(lambda x: get_title(x))]))
    
    return titles_data

Se observan los titulos obtenidos del conjunto de datos

In [None]:
titles_data = get_title_list(data)
titles_data

En este caso se observan 18 valores únicos, se procede a reducir la dimensionalidad de la categoría reduciendo solo a `Mr`,`Mrs`, `Miss` y `Master`:

In [None]:
def set_title(x):
    '''Reduce el titulo a Mr,Mrs o Miss segun corresponda.'''
    
    title = x['Title']
    if title in ['Capt', 'Col', 'Don', 'Jonkheer', 'Major', 'Rev', 'Sir']:
        return 'Mr'
    elif title in ['the Countess', 'Mme', 'Lady','Dona']:
        return 'Mrs'
    elif title in ['Mlle', 'Ms']:
        return 'Miss'
    elif title =='Dr':
        if x['Sex']=='male':
            return 'Mr'
        else:
            return 'Mrs'
    else:
        return title

Se aplica la transformación anterior

In [None]:
def title_gen(df):
    ''' Genera la columna Title a partir de Name en el DataFrame df.

    Retorna:
    --------
    data: Pandas.DataFrame
        Un conjunto de datos con la variable Title agregada.
    ''' 
    
    data = df.copy() 
    data['Title'] = data['Name'].map(lambda x: get_title(x))
    data['Title'] = data.apply(set_title, axis=1)
    
    return data

Se observa la distribución según nueva categoría, la categría `Master` no es transformada por la función anterior.

In [None]:
data = title_gen(data) 

In [None]:
print(data['Title'].value_counts())

En cuanto a la variable `Age` 


In [None]:
print('Informacion faltante: ', pd.isnull(data['Age']).sum())

se utiliza imputación de datos por grupo, el grupo corresponde al titulo asociado anteriormente 

In [None]:
def age_imputer(df): 
    ''' Llena la información faltante de la columna Age en df. 
    
    Utiliza una agrupacion por titulo y aplica un llenado por mediana de grupo.
    
    Retorna:
    -------- 
    
    data: Pandas.DataFrame 
        Conjunto de datos con la variable Age completada.
    '''
    data = df.copy()
    data['Age'] = data.groupby('Title')['Age'].apply(lambda x: x.fillna(x.median()))
    
    return data 

In [None]:
data = age_imputer(data) 

Con lo anterior, se llenan los datos faltantes por grupo utilizando la mediana.

In [None]:
fig = plt.figure(figsize = [7,7])

plt.hist(data['Age'], bins=40)
plt.xlabel('Age',fontdict={'fontsize':15})
plt.ylabel('Conteo',fontdict={'fontsize':15})
plt.title('Distribucion de Edades',fontdict={'fontsize':20})
plt.show()

Siguiendo la idea utilizada en `Fare` se usan 4 categorias para representar las edades

In [None]:
data = col_to_cat(data, col='Age')

Con lo que se obtiene

In [None]:
fig = plt.figure(figsize=[7,7])
plt.xticks(rotation='90')
sns.countplot(data['Age'])

plt.xlabel('Bins de Edad',fontdict={'fontsize':15})
plt.ylabel('Conteo',fontdict={'fontsize':15})
plt.title('Age Bins',fontdict={'fontsize':20})

Se procede a transformar los titulos a valores ordinales

In [None]:
odc = OrdinalEncoder() 
data['Title'] = odc.fit_transform(data['Title'].values.reshape([-1,1])) 

En cuanto a la variable `Sex`, simplemente se hace una codificación *one-hot*

In [None]:
ohe = OneHotEncoder(sparse=False)
data['Sex'] = ohe.fit_transform(data['Sex'].values.reshape([-1,1]))

Los datos de `Embarked` se imputan usando la moda y se codifican de manera ordinal

In [None]:
def mode_fill(df, col): 
    '''Llena los valores faltantes de col en df usando la moda global.
    
    Retorna: 
    -------- 
    
    data: Pandas.DataFrame 
        Conjunto de datos con la informacion de col completada. 
    ''' 
    
    data = df.copy() 
    data[col] = data[col].fillna(data[col].mode()[0])  
    
    return data 

In [None]:
data = mode_fill(data,col = 'Embarked' )

In [None]:
ode_embarked =  OrdinalEncoder() 
data['Embarked'] = ode_embarked.fit_transform(data['Embarked'].values.reshape([-1,1])) 

La variable `Cabin` está formateada según letras numeros que indican el piso del barco (letra) y número de cabina en tal piso (número). Es posible que exista alguna relación entre el piso de la cabina y la posibilidad de sobrevivir. Se trabajan los valores de esta columna.

In [None]:
train['Cabin'].head() 

En primer lugar, se cambian los valores perdidos por `desconocido`

In [None]:
def fill_desconocido(df, col):
    ''' Toma un conjunto de datos df y llena la columna col con el valor
    'desconocido'.
    
    Retorna:
    -------- 
    
    data : Pandas.DataFrame
        Conjunto de datos con la variable col completada. 

    '''
    data = df.copy()
    data[col].fillna('desconocido', inplace = True) 

    return data

In [None]:
data = fill_desconocido(data, 'Cabin') 

Se extrae la letra de cada cabina

In [None]:
data['Cabin'].map(lambda x: x[0]).value_counts()

Las cabinas con letra `d` asociada poseen información faltante y sobrepasan a las demás categorías, basándose en esto, se construyen 2 nuevos grupos, aquellos con información en su cabina y aquellos sin información.

In [None]:
def unknown_cabin(cabin):
    if cabin != 'd':
        return 1
    else:
        return 0

In [None]:
def cabin_cat(df):
    '''Genera dos categorias en df basandose en la columna Cabin.
    
    Retorna:
    -------
    
    data : Pandas.DataFrame 
        Conjunto de datos con la categorizacion creada. 
    '''
    
    data = df.copy() 
    data['Cabin'] = data['Cabin'].map(lambda x: x[0])
    data['Cabin'] = data['Cabin'].apply(lambda x: unknown_cabin(x))

    return data 

In [None]:
data = cabin_cat(data)

Las variables `SibSp` y `Parch` se combinan en `Family Size`

In [None]:
def family_size_gen(df): 
    '''Genera la columna Family_Size a partir de SibSp y Parch en df. 
    
    Retorna:
    ------- 
    data : Pandas.DataFrame 
        Conjunto de datos con la columna creada. 
    
    '''
    data = df.copy()
    data['Family_Size'] = data['SibSp'] + data['Parch']
    
    return data 

In [None]:
data = family_size_gen(data)

Las variables que no serán utilizadas son eliminadas

In [None]:
to_drop = ['Name', 'Parch', 'SibSp', 'Ticket', 'Last_Name', 'PassengerId']

In [None]:
data.drop(to_drop, axis = 1, inplace=True)

Una vez explorado el conjunto de datos, haciendo la ingeniería de características necesaria, se procede a implementar un conjunto de algoritmos de aprendizaje de máquinas. En este contexto, se procede a empaquetar los métodos de preprocesamiento para incluirlos en una pipeline de entrenamiento. 

A los métodos anteriores añadimos un preprocesador por estandarización, además se empaquetan los preprocesadores de codificación ordinal y one hot. Para finalizar se crea una función que encapsula la eliminación de columnas no deseadas y otra que permite estandarizar un DataFrame manteniendo la estructura de columnas. 

In [None]:
def oh_encoder_col(df, col='Sex'):
    '''Genera codificacion One hot en df basandose en la columna col.

    Retorna:
    -------

    data : Pandas.DataFrame
        Conjunto de datos con el encoding creado.
    '''
    data = df.copy()
    ohe = OneHotEncoder(sparse=False)
    data[col] = ohe.fit_transform(data[col].values.reshape([-1, 1]))

    return data


def ord_encoder_col(df, col='Title'):
    '''Genera codificacion Ordinal df basandose en la columna col.

    Retorna:
    -------

    data : Pandas.DataFrame 
        Conjunto de datos con el encoding creado. 
    '''

    data = df.copy()
    ode = OrdinalEncoder()
    data[col] = ode.fit_transform(data[col].values.reshape([-1, 1]))

    return data

to_drop = ['Name', 'Parch', 'SibSp', 'Ticket', 'Last_Name', 'PassengerId']
def drop_cols(df, cols = to_drop):
    '''Elimina las columans cols del DataFrame df.
    
    
    Retorna:
    --------
    data : Pandas.DataFrame 
        Conjunto de datos con las columnas borradas. 
    
    '''
    
    data = df.copy() 
    data.drop(cols, axis = 1, inplace=True)
    
    return data 

def std_scaler(df):
    '''Toma un DataFrame y lo estandariza, retorna un DataFrame.'''
    
    std_scaler = StandardScaler()
    
    data = df.copy()
    cols = data.columns
    
    return pd.DataFrame(std_scaler.fit_transform(data),columns = cols)

Se crea la Pipeline asociada al proceso de exploración y se preprocesa el conjunto de entrenamiento

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import FunctionTransformer as F
from sklearn.preprocessing import OrdinalEncoder, OneHotEncoder, StandardScaler

data = pd.read_csv('ProjectLab/data/train.csv')
test_data = data.sample(frac=0.1, random_state = 5)

train_idx = data.index.difference(test_data.index) 
family_dict = family_dict_gen(last_name_gen(data.loc[train_idx]))

y_train = data.loc[train_idx,'Survived'] 
x_train = data.drop('Survived', axis=1).loc[train_idx]

steps = [('Fare mean fill', F(na_mean_fill)),
         ('Last_Name gen', F(last_name_gen)),
         ('Family_Survival gen', F(lambda df: family_survival_gen(df,family_dict=family_dict))), 
         ('Fare to cat', F(col_to_cat)),
         ('Title var gen', F(title_gen)),
         ('Age imputer', F(age_imputer)),
         ('Age to cat', F(lambda df: col_to_cat(df, col='Age'))),
         ('Title to ordinal', F(ord_encoder_col)),
         ('Sex to One Hot Enc', F(oh_encoder_col)),
         ('Fill with the mean Embarked', F(lambda df: mode_fill(df, col='Embarked'))),
         ('Embarked to Ordinal', F(lambda df: ord_encoder_col(df, col='Embarked'))),
         ('Fill desconocido Cabin', F(lambda df: fill_desconocido(df, col='Cabin'))),
         ('Cabin to Cat', F(cabin_cat)),
         ('Family size gen', F(family_size_gen)),
         ('drop cols', F(drop_cols)),
         ('Scaler', F(std_scaler))
         ]


data_prep = Pipeline(steps=steps)
x_train = data_prep.fit_transform(x_train)

A continuación se procede a entrenar modelos de Aprendizaje automático sobre el conjunto de datos, los modelos seleccionados corresponden a:

In [None]:
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import VotingClassifier

ran = RandomForestClassifier(random_state=1)
knn = KNeighborsClassifier()
log = LogisticRegression()
xgb = XGBClassifier()
gbc = GradientBoostingClassifier()
svc = SVC(probability=True)
ext = ExtraTreesClassifier()
ada = AdaBoostClassifier()
gnb = GaussianNB()
gpc = GaussianProcessClassifier()
bag = BaggingClassifier()

Estos modelos son evaluados usando un esquema de validación cruzada, se procede a almacenar los resultados.

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_predict
from sklearn import model_selection

models = [ran, knn, log, xgb, gbc, svc, ext, ada, gnb, gpc, bag]         
scores = []

for mod in models:
    mod.fit(x_train, y_train)
    acc = cross_val_score(mod, x_train, y_train, scoring = "accuracy", cv = 10)
    scores.append(acc.mean())

Los resultados obtenidos corresponden a

In [None]:
results = pd.DataFrame({
    'Model': ['Random Forest', 'K Nearest Neighbour', 'Logistic Regression', 'XGBoost', 'Gradient Boosting', 'SVC', 'Extra Trees', 'AdaBoost', 'Gaussian Naive Bayes', 'Gaussian Process', 'Bagging Classifier'],
    'Score': scores})

result_df = results.sort_values(by='Score', ascending=False).reset_index(drop=True)
result_df

In [None]:
fig = plt.figure(figsize = [9,7])   

sns.barplot(x='Score', y = 'Model', data = result_df, color = 'c')

plt.title('Accuracy por modelo  \n', fontsize = 20)  
plt.xlabel('Accuracy  (%)', fontsize = 15)
plt.ylabel('Algoritmo', fontsize = 15)
plt.xlim(0.80, 0.87);

Se puede apreciar que el algoritmo con mejor rendimiento es el clasificador `SVC`. El modelo XGBoost permite obtener un indicador de las caracteristicas más importantes dentro del proceso de predicción, podemos acceder a estos puntajes por medio de 

In [None]:
def importance_plotting(data, x, y, palette, title):
    
    sns.set(style="whitegrid")
    ft = sns.PairGrid(data, y_vars=y, x_vars=x, height=5, aspect=1.5) 
    ft.map(sns.stripplot, orient='h', palette=palette,
           edgecolor="black", size=10)

    for ax, title in zip(ft.axes.flat, titles):
        ax.set_title(title, fontsize = 18)
        ax.xaxis.grid(False) 
        ax.yaxis.grid(True)
        
    plt.show()


fi = {'Features': x_train.columns.tolist(), 'Importance': xgb.feature_importances_}
importance = pd.DataFrame(fi, index=None).sort_values(
    'Importance', ascending=False)

titles = ['Importancia de Caracterísitcas en Prediccion según XGBoost'] 
importance_plotting(importance, 'Importance', 'Features', 'Reds_r', titles)

Como se puede observar, el sexo del pasajero es la característica más influyente bajo este modelo, de la misma forma, se encuentra una relación entre el parentezco dentro de los pasajeros por medio de `Family_Survival` y la cabina en la cual se viaja. 

En cuanto a las relaciones lineales se pueden observar los coeficientes de la regresión logistica

In [None]:
fi = {'Features':x_train.columns.tolist(), 'Importance':np.transpose(log.coef_[0])}
importance = pd.DataFrame(fi, index=None).sort_values('Importance', ascending=False)

titles = ['Importancia de Caracterísitcas en Prediccion según LogReg']
importance_plotting(importance, 'Importance', 'Features', 'Reds_r', titles)

Se observa cierta concordancia con las importancias anteriores, en este caso aparece `Cabin` y `Fare` Como indicadores lineales de supervivencia sumados a `Family_Survival` y a `Sex`. 

Basándonos en lo anterior se efectua un proceso de **selección de características**, para ello se construye una tabla con la información por modelo.

In [None]:
# Getting feature importances for the 5 models where we can
gbc_imp = pd.DataFrame({'Feature': x_train.columns,
                        'gbc importance': gbc.feature_importances_})
xgb_imp = pd.DataFrame(
    {'Feature': x_train.columns, 'xgb importance': xgb.feature_importances_})
ran_imp = pd.DataFrame(
    {'Feature': x_train.columns, 'ran importance': ran.feature_importances_})
ext_imp = pd.DataFrame(
    {'Feature': x_train.columns, 'ext importance': ext.feature_importances_})
ada_imp = pd.DataFrame(
    {'Feature': x_train.columns, 'ada importance': ada.feature_importances_})

# Merging results into a single dataframe
importances = gbc_imp.merge(xgb_imp, on='Feature').merge(
    ran_imp, on='Feature').merge(ext_imp, on='Feature').merge(ada_imp, on='Feature')

importances['Average'] = importances.mean(axis=1)


importances = importances.sort_values(
    by='Average', ascending=False).reset_index(drop=True)

importances

Utilizando esta información podemos tener una idea de como las carácteristicas influyen en el promedio de los modelos

In [None]:
fi = {'Features':importances['Feature'], 'Importance':importances['Average']}

importance = pd.DataFrame(fi, index=None).sort_values('Importance', ascending=False)
titles = ['Importancia de Features Promedio']

# Plotting graph
importance_plotting(importance, 'Importance', 'Features', 'Reds_r', titles)

Las columnas asociadas a `Embarked` y `Cabin` no aportan mucho en general por lo que se seleccionan como variables a eliminar

In [None]:
to_drop.extend(['Embarked', 'Cabin'])
to_drop

In [None]:
x_train = drop_cols(x_train, cols=['Embarked', 'Cabin'])

Realizada la selección de características, se reentrenan los modelos, se actualiza la Pipeline para generar datos sin las características que deseamos exlcuir

In [None]:
data = pd.read_csv('ProjectLab/data/train.csv')
test_data = data.sample(frac=0.1, random_state = 5)

train_idx = data.index.difference(test_data.index) 
family_dict = family_dict_gen(last_name_gen(data.loc[train_idx]))

y_train = data.loc[train_idx,'Survived'] 
x_train = data.drop('Survived', axis=1).loc[train_idx]

# Actualiza la pipeline eliminando las nuevas caracteristicas
steps = [('Fare mean fill', F(na_mean_fill)),
         ('Last_Name gen', F(last_name_gen)),
         ('Family_Survival gen', F(lambda df: family_survival_gen(df,family_dict=family_dict))), 
         ('Fare to cat', F(col_to_cat)),
         ('Title var gen', F(title_gen)),
         ('Age imputer', F(age_imputer)),
         ('Age to cat', F(lambda df: col_to_cat(df, col='Age'))),
         ('Title to ordinal', F(ord_encoder_col)),
         ('Sex to One Hot Enc', F(oh_encoder_col)),
         ('Fill with the mean Embarked', F(lambda df: mode_fill(df, col='Embarked'))),
         ('Embarked to Ordinal', F(lambda df: ord_encoder_col(df, col='Embarked'))),
         ('Fill desconocido Cabin', F(lambda df: fill_desconocido(df, col='Cabin'))),
         ('Cabin to Cat', F(cabin_cat)),
         ('Family size gen', F(family_size_gen)),
         ('drop cols', F(lambda df: drop_cols(df, cols=to_drop))),
         ('Scaler', F(std_scaler))
         ]

data_prep = Pipeline(steps=steps)

def make_mod_pipe(mod): return Pipeline(
    steps=[('preprocess', data_prep), ('clf', mod)])

Se procede a reentrenar

In [None]:
models = [ran, knn, log, xgb, gbc, svc, ext, ada, gnb, gpc, bag]         
scores_v2 = []

for mod in models:
    mod_pipe = make_mod_pipe(mod) 
    
    mod_pipe.fit(x_train, y_train)
    
    acc = cross_val_score(mod_pipe, x_train, y_train, scoring = "accuracy", cv = 10, n_jobs = -1)
    scores_v2.append(acc.mean())

Se obtienen los resultados

In [None]:
results = pd.DataFrame({
    'Model': ['Random Forest', 'K Nearest Neighbour', 'Logistic Regression', 'XGBoost', 'Gradient Boosting', 'SVC', 'Extra Trees', 'AdaBoost', 'Gaussian Naive Bayes', 'Gaussian Process', 'Bagging Classifier'],
    'Score original': scores,
    'Score seleccion': scores_v2})

result_df = results.sort_values(
    by='Score seleccion', ascending=False).reset_index(drop=True)
result_df['Diferencia'] = result_df['Score seleccion'] - \
    result_df['Score original']
result_df

In [None]:
plt.figure(figsize=[9, 7])

sns.barplot(x='Score seleccion', y='Model',
            data=result_df, color='c', label='seleccion')
sns.barplot(x='Score original', y='Model',
            data=result_df, color='r', label='original')

plt.legend()

plt.title('Accuracy por Modelo \n', fontsize=20)
plt.xlabel('Accuracy (%)')
plt.ylabel('Algoritmo')
plt.xlim(0.80, 0.87)

Se puede observar un aumento global al aplicar selección de características en los modelos. El siguiente paso es la **obtención de hiperparámetros**. 

En este caso generamos un conjunto de hipeparámetros sobre los cuales se hará una búsqueda por grilla según validación cruzada.

In [None]:
# Actualiza la pipeline eliminando fuga en family gen
def step_gen(model):
    '''Genera pasos para predicir usando model.'''

    steps = [('Fare mean fill', F(na_mean_fill)),
             ('Last_Name gen', F(last_name_gen)),
             ('Family_Survival gen', F(family_survival_gen)),
             ('Fare to cat', F(col_to_cat)),
             ('Title var gen', F(title_gen)),
             ('Age imputer', F(age_imputer)),
             ('Age to cat', F(lambda df: col_to_cat(df, col='Age'))),
             ('Title to ordinal', F(ord_encoder_col)),
             ('Sex to One Hot Enc', F(oh_encoder_col)),
             ('Fill with the mean Embarked', F(
                 lambda df: mode_fill(df, col='Embarked'))),
             ('Embarked to Ordinal', F(lambda df: ord_encoder_col(df, col='Embarked'))),
             ('Fill desconocido Cabin', F(
                 lambda df: fill_desconocido(df, col='Cabin'))),
             ('Cabin to Cat', F(cabin_cat)),
             ('Family size gen', F(family_size_gen)),
             ('drop cols', F(lambda df: drop_cols(df, cols=to_drop))),
             ('Scaler', F(std_scaler)),
             ('clf', model)
             ]

    return steps

Se preparan los datos para este paso

In [None]:
data = pd.read_csv('ProjectLab/data/train.csv')
test_data = data.sample(frac=0.1, random_state = 5)

train_idx = data.index.difference(test_data.index) 

y_train = data.loc[train_idx,'Survived'] 
x_train = data.drop('Survived', axis=1).loc[train_idx]

Se busca un esquema de Grid search, para implementarlo se empaquetan las funciones usuales. En este caso se debe tener en cuenta la **reproducibilidad** por lo que se asignará un valor de estado a la semilla aleatoria cuando sea posible. Por último se debe tener en cuanta la **persistencia** de los modelos, es decir, la capacidad de utilizarlos en entornos distintos al actual.

In [None]:
def grid_train(model, hyperparams, x_train=x_train, folds = 3):
    '''Recibe un modelo base y lo entrena usando GridSearchCV.
    
    Recibe un modelo y un conjunto de hiperparametros para realizar busqueda 
    por grilla. 
    
    Parametros:
    ---------- 
    
    model: sklearn.estimator
        Clasificador de sklearn.
    
    hyperams: dict 
        Diccionario de hiperparametros compatibles con model.
    
    x_train: pandas.DataFrame
        Conjunto de datos sobre el cual entrenar. 
    
    folds: int 
        numero de folds asociados al esquema de grilla por validacion cruzada.
        
    Retorna: 
    -------- 
    
    res: dict 
        Entrega un diccionaro con el mejor estimador encontrado (best_estimator)
        y el objeto grilla asociado (gs_object).
    '''

    h_pars = {'clf__'+k: val for k, val in hyperparams.items()}
    tuning_pipe = Pipeline(steps=step_gen(model))

    gs = GridSearchCV(estimator=tuning_pipe, param_grid=h_pars,
                      verbose=1, cv=folds, scoring="accuracy", n_jobs=-1)
    
    print('Entrenando ...')
    gs.fit(x_train, y_train)

    return {'best_model': gs.best_estimator_['clf'], 'gs_object': gs}

Para asegurar persistencia de los modelos utilizamos la librería `joblib`. Se procede a entrenar un modelo de clasificación basado en vectores de soporte SVC

In [None]:
import joblib
import os 

try:
    os.mkdir('ProjectLab/tuned_models')
    print('Se crea la carpeta exitosamente')
    
except FileExistsError as error:
    print('La carpeta ya existe:', error)
    
path = 'ProjectLab/tuned_models/'

In [None]:
Cs = [0.001, 0.01, 0.1, 1, 5, 10, 15, 20, 50, 100]
gammas = [0.001, 0.01, 0.1, 1]

hyperparams = dict()  # {'C': Cs, 'gamma': gammas}

try:
    svc = joblib.load(path + 'svc')

except FileNotFoundError:

    res = grid_train(model=SVC(probability = True, random_state = 0),
                     hyperparams=hyperparams)

    svc = res['best_model']
    joblib.dump(svc, path + 'svc')

    print('Mejor puntaje:', res['gs_object'].best_score_)

print('Mejor modelo:', svc)

El proceso de persistencia anterior se encapsula en la siguiente función


In [None]:
def get_model(base_model=None, hyperparams=None, model_name=None, path=path):
    ''' Busca un modelo en path + model_name o entrena uno nuevo.

    Busca un modelo usando path + model_name. Si tal modelo no se encuentra, 
    entrena un esquema de grilla con validacion cruzada sobre el modelo 
    base_model usando los hiperparametros hyperparams
    '''
    
    try:
        model = joblib.load(path+model_name)

    except FileNotFoundError:

        res = grid_train(model=base_model,
                         hyperparams=hyperparams)

        model = res['best_model']
        joblib.dump(model, path + model_name)

        print('Mejor puntaje:', res['gs_object'].best_score_)
        
    
    except Exception as error:
        print(error)
    
    print('Mejor modelo:', model)
    return model

Gridearch para Gradient Boosting

In [None]:
learning_rate = [0.0005, 0.001, 0.005, 0.01, 0.05, 0.1]
n_estimators = [100, 500, 750, 1000, 1250, 1400]

hyperparams = {'learning_rate': learning_rate,
               'n_estimators': n_estimators}

gbc = get_model(base_model=GradientBoostingClassifier(random_state=0),
                hyperparams=hyperparams, model_name='gbc')

Se procede con Regresión logística

In [None]:
penalty = ['l1', 'l2']
C = np.logspace(0, 4, 10)

hyperparams = {'penalty': penalty, 'C': C}

log = get_model(base_model=LogisticRegression(random_state=0),
                hyperparams=hyperparams, model_name='log')

En el caso de XGBoost se hace un búsqueda dividida en múltiples pasos debido a la gran cantidad de hiperparámetros:

In [None]:
learning_rate = [0.0001, 0.0005, 0.001, 0.005, 0.01]
n_estimators = [10, 25, 50, 75, 100, 250]


hyperparams = {'learning_rate': learning_rate, 'n_estimators': n_estimators}

xgb = get_model(base_model=XGBClassifier(random_state=0),
                hyperparams=hyperparams, model_name='xgb_0')

In [None]:
max_depth = [3, 4, 5, 6, 7]
min_child_weight = [1, 2, 3, 4]

hyperparams = {'max_depth': max_depth, 'min_child_weight': min_child_weight}

xgb = get_model(base_model=xgb, hyperparams=hyperparams, model_name='xgb_1')

In [None]:
gamma = [0.02,0.1,0.2]

hyperparams = {'gamma': gamma}

xgb = get_model(base_model=xgb, hyperparams=hyperparams, model_name='xgb_2')

In [None]:
subsample = [0.6, 0.65, 0.7, 0.75, 0.8, 0.85, 0.9]
colsample_bytree = [0.7, 0.75, 0.8, 0.85, 0.9, 0.95, 1]
    
hyperparams = {'subsample': subsample, 'colsample_bytree': colsample_bytree}

xgb = get_model(base_model=xgb, hyperparams=hyperparams, model_name='xgb_3')

In [None]:
reg_alpha = [1e-5, 1e-2, 0.1, 1, 100]
    
hyperparams = {'reg_alpha': reg_alpha}

xgb = get_model(base_model=xgb, hyperparams=hyperparams, model_name='xgb')

Una vez entrenado el modelo xgb se procede con el clasificador basado en procesos gaussianos

In [None]:
n_restarts_optimizer = [0, 1, 2, 3]
max_iter_predict = [1, 2, 5, 10, 20, 35, 50, 100]
warm_start = [True, False]


hyperparams = {'n_restarts_optimizer': n_restarts_optimizer,
               'max_iter_predict': max_iter_predict, 'warm_start': warm_start}

gpc = get_model(base_model=GaussianProcessClassifier(
    random_state=0), hyperparams=hyperparams, model_name='gpc')

Se continua con AdaBoost

In [None]:
n_estimators = [10, 25, 50, 75]
learning_rate = [0.001, 0.01, 0.1, 0.5, 1]


hyperparams = {'n_estimators': n_estimators, 'learning_rate': learning_rate}

ada = get_model(base_model=AdaBoostClassifier(random_state=0),
                hyperparams=hyperparams, model_name='ada')

Se procede con knn

In [None]:
n_neighbors = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 14, 16, 18, 20]
algorithm = ['auto']
weights = ['uniform', 'distance']
leaf_size = [1, 2, 3, 4, 5, 10, 15, 20, 25, 30]

hyperparams = {'algorithm': algorithm, 'weights': weights, 'leaf_size': leaf_size,
               'n_neighbors': n_neighbors}

knn = get_model(base_model=KNeighborsClassifier(),
                hyperparams=hyperparams, model_name='knn')

Se entrena el clasificador Random Forest

In [None]:
n_estimators = [10, 25, 50]
max_depth = [3, None]
max_features = [1, 3, 5]
min_samples_split =[4, 6, 8]
min_samples_leaf = [4, 6, 8, 10]

hyperparams = {'n_estimators': n_estimators, 'max_depth': max_depth, 'max_features': max_features,
               'min_samples_split': min_samples_split, 'min_samples_leaf': min_samples_leaf}

ran = get_model(base_model=RandomForestClassifier(random_state=0),
                hyperparams=hyperparams, model_name='ran')

Se pasa a Extra Trees

In [None]:
n_estimators = [10, 25, 50]
max_depth = [3, None]
max_features = [1, 3, 5]
min_samples_split = [4, 6, 8, 10]
min_samples_leaf = [2, 4, 6]

hyperparams = {'n_estimators': n_estimators, 'max_depth': max_depth, 'max_features': max_features,
               'min_samples_split': min_samples_split, 'min_samples_leaf': min_samples_leaf}

ext = get_model(base_model=ExtraTreesClassifier(random_state=0),
                hyperparams=hyperparams, model_name='ext')

Finalmente entrenamos el clasificador basado en bagging

In [None]:
n_estimators = [10, 15, 20, 50, 75, 100]
max_samples = [5, 10, 15, 20, 30, 50]
max_features = [5, 7]

hyperparams = {'n_estimators': n_estimators, 'max_samples': max_samples, 'max_features': max_features}

bag = get_model(base_model=BaggingClassifier(random_state=0),
                hyperparams=hyperparams, model_name='bag')

Gaussian Naive Bayes no posee hiperparámetros por lo que no se entrena usando este esquema. 

Se procede a estudiar el efecto global de los modelos entrenados sobre los hiperparámetros encontrados

In [None]:
final_vars = ['Pclass','Sex','Age', 'Fare',
              'Family_Survival', 'Title', 'Family_Size']

X = data_prep.transform(test_data.drop('Survived', axis=1))
X = X.reindex(columns=final_vars)
y = test_data['Survived']

train = data_prep.transform(x_train).reindex(columns = final_vars);

In [None]:
# Lists
models = [ran, knn, log, xgb, gbc, svc, ext, ada, gnb, gpc, bag]         
scores_v3 = []

train = data_prep.transform(x_train)

# Fit & cross-validate
for mod in models:
    mod.fit(train, y_train)
    acc = cross_val_score(mod, train, y_train, scoring = "accuracy", cv = 10)
    scores_v3.append(acc.mean())

# Creating a table of results, ranked highest to lowest
results = pd.DataFrame({
    'Model': ['Random Forest', 'K Nearest Neighbour', 'Logistic Regression', 'XGBoost', 'Gradient Boosting', 'SVC', 'Extra Trees', 'AdaBoost', 'Gaussian Naive Bayes', 'Gaussian Process', 'Bagging Classifier'],
    'original': scores,
    'feature selection': scores_v2,
    'tuned': scores_v3})

result_df = results.sort_values(by='tuned', ascending=False).reset_index(drop=True)

In [None]:
result_df

Lo anterior se visualiza de la siguiente manera

In [None]:
plt.figure(figsize=[9, 7])

sns.barplot(x='tuned', y='Model', data=result_df, color='r', label='Tuned',edgecolor = 'k')

sns.barplot(x='feature selection', y='Model', data=result_df,
            color='b', label='Selection', alpha=0.5, edgecolor = 'k') 

sns.barplot(x='original', y='Model', data=result_df,
            color='w', label='Original', alpha=.9, edgecolor = 'c')    

plt.legend()

plt.title('Accuracy por modelo', fontsize=20)
plt.xlabel('Accuracy (%)')
plt.ylabel('Algoritmo')
plt.xlim(0.82, 0.88);  

Se puede apreciar que salvo para la regresión logística, gaussian naive bayes y gradient boosting, los modelos con hiper parámetros ajustados superan tanto a las versiones originales como a la aplicación de selección simple de características. En general se ve un buen aumento en presición al comparar con los resultados iniciales. 

El paso final es combinar estos modelos por medio de un clasificador de voto por mayoria. Comenzamos entrenando un modelo con esquema de votación duro.

In [None]:
vote_hard_clf = VotingClassifier(estimators=[('Random Forest', ran),
                                             ('Logistic Regression', log),
                                             ('XGBoost', xgb),
                                             ('Gradient Boosting', gbc),
                                             ('Extra Trees', ext),
                                             ('AdaBoost', ada),
                                             ('Gaussian Process', gpc),
                                             ('SVC', svc),
                                             ('K Nearest Neighbour', knn),
                                             ('Bagging Classifier', bag)], voting='hard')

vote_hard = get_model(base_model=vote_hard_clf, hyperparams=dict(), model_name='vote_hard');

In [None]:
final_vars = ['Pclass','Sex','Age', 'Fare',
              'Family_Survival', 'Title', 'Family_Size']

X = data_prep.transform(test_data.drop('Survived', axis=1))
X = X.reindex(columns=final_vars)
y = test_data['Survived']

train = data_prep.transform(x_train).reindex(columns = final_vars);

In [None]:
print(f"Hard voting en train: {vote_hard.score(train,y_train)*100}") 
print(f"Hard voting en test : {vote_hard.score(X,y)*100}") 

Por último se compara con un esquema de votación suave

In [None]:
vote_soft_clf = VotingClassifier(estimators=[('Random Forest', ran),
                                         ('Logistic Regression', log),
                                         ('XGBoost', xgb),
                                         ('Gradient Boosting', gbc),
                                         ('Extra Trees', ext),
                                         ('AdaBoost', ada),
                                         ('Gaussian Process', gpc),
                                         ('SVC', svc),
                                         ('K Nearest Neighbour', knn),
                                         ('Bagging Classifier', bag)], voting='soft')

In [None]:
vote_soft = get_model(base_model=vote_soft_clf, hyperparams=dict(), model_name='vote_soft');

In [None]:
print(f"Soft voting en train: {vote_soft.score(train,y_train)*100}") 
print(f"Soft voting en test : {vote_soft.score(X,y)*100}") 

Ambos modelos concuerdan en sus resultados, se selecciona el sistema de votación suave como modelo final.

**Obs:** El flujo de trabajo implementado se basa en la siguiente [fuente](https://www.kaggle.com/josh24990/simple-end-to-end-ml-workflow-top-5-score).

**Continuación -- Entorno de desarrollo** 

Ya seleccionado el modelo a trabajar, se procede a traspasar el código a un entorno de desarrollo. La idea es generar una estructura de módulos que permita ejecutar los procesos de preprocesamiento, entrenamiento y predicción desde otras aplicaciones. En este caso la aplicación que hará uso de esta estructura modular será la  API que se desarrollará. 

Procedemos a modularizar el código generado en el entorno de investigación. Para esto se genera la siguiente estructura de módulos: 

```
config.py
preprocessors.py 
train.py 
predict.py
pipeline.py
```

**config.py**

Posee las configuraciones generales a utilizar en los procesos de nuestro módulo

In [None]:
%%file ProjectLab/config.py
TARGET = 'Survived'
MODELS_PATH  = 'tuned_models/'
LAST_MODEL_PATH = 'last_models/'
LAST_MODEL_NAME = 'last_model'


DATA_PATH_TRAIN = 'data/train.csv'

FAMILY_DICT ='meta_data/family_dict'
TO_DROP_PIPE = ['Name', 'Parch', 'SibSp', 'Ticket', 'Last_Name', 'PassengerId', 'Embarked', 'Cabin']


FINAL_VARS = ['Pclass','Sex','Age', 'Fare',
              'Family_Survival', 'Title', 'Family_Size']

FINAL_MODEL = 'vote_soft'


**preprocessors.py**

En este módulo procedemos a encapsular los preprocesadores utilizados en el entorno de investigación. Para ello, se hace uso de herencia múltiple según `BaseEstimator` y `TransformerMixin`. Se importan las librerías necesarias para que estos preprocesdores funcionen. Se traspasan las funciones utilizadas a objetos

In [None]:
%%file ProjectLab/preprocesssors.py
import numpy as np
import pandas as pd
from sklearn.base import BaseEstimator, TransformerMixin
import config
from sklearn.preprocessing import StandardScaler, KBinsDiscretizer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, OrdinalEncoder


class NaMeanFiller(BaseEstimator, TransformerMixin):
    '''Cambia los datos faltantes de la columna col por la media en df.'''

    def __init__(self, col='Fare', mean=None):
        self.col = col
        self.mean = mean

    def fit(self, X, y=None):
        if self.mean is None:
            data = X.copy()
            self.mean = data[self.col].mean()

        return self

    def transform(self, X):
        data = X.copy()

        if type(data[self.col]) is pd.core.series.Series:
            data[self.col].fillna(self.mean, inplace=True)
        else:
            data[self.col] = self.mean

        return data


class LastNameGen(BaseEstimator, TransformerMixin):
    '''Genera la columna Last_name a partir de Name en el DataFrame df.'''

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        data = X.copy()

        if type(data['Name']) is not pd.core.series.Series:
            data['Last_Name'] = data['Name'].split(",")[0]
        else:
            data['Last_Name'] = data['Name'].apply(
                lambda x: str.split(x, ",")[0])

        return data


class FamilySurvivalGen(BaseEstimator, TransformerMixin):

    '''Recibe observaciones y asigna probabilidad de supervivencia por familia.

    Permite generar una variable donde se asigna una proporcion de sobrevivencia
    por familia. Para ello toma un DataFrame con las relaciones por familia si
    el apellido asociado a la observacion x en df esta en el conjunto  de
    familias, le asigna el valor indicado en family_dict. En caso contrario
    le asigna la probabilidad default_prob.

    '''

    def __init__(self, default_prob=.5, family_dict=None):

        self.default_prob = default_prob
        self.family_dict = family_dict

    def fit(self, X, y=None):
        '''Genera un DataFrame con probabilidades de supervivencia por familia.

        El conjunto de datos debe tener las columnas: Survived, Name, Last_Name, 
        Fare, Ticket, PassengerId, SibSp, Parch, Age y Cabin. Se genera un  
        DataFrame con la relación familia -> fecuencia de supervivenca.

        Retorna:
        --------

        data: Pandas.DataFrame
            Un conjunto con la relacion familia - frecuencia de supervivencia
        '''

        if self.family_dict is None:

            data = X.copy()

            # Utiliza un valor prior para la probabilidad de sobrevivir
            data['Family_Survival'] = self.default_prob

            # Se agrupa el conjunto de datos por apellido y fare
            for grp, grp_df in data[['Survived', 'Name', 'Last_Name', 'Fare',
                                     'Ticket', 'PassengerId',
                                     'SibSp', 'Parch', 'Age',
                                     'Cabin']].groupby(['Last_Name', 'Fare']):

                # Si no es igual a 1, se encuentra una familia
                # en tal caso se calcula una probabilidad de supervivencia
                if (len(grp_df) != 1):
                    for ind, row in grp_df.iterrows():
                        smax = grp_df.drop(ind)['Survived'].max()
                        smin = grp_df.drop(ind)['Survived'].min()
                        passID = row['PassengerId']
                        if (smax == 1.0):
                            data.loc[data['PassengerId'] ==
                                     passID, 'Family_Survival'] = 1
                        elif (smin == 0.0):
                            data.loc[data['PassengerId'] ==
                                     passID, 'Family_Survival'] = 0

            # Luego se agrupa la informacion por tickets y se procede
            for _, grp_df in data.groupby('Ticket'):
                if (len(grp_df) != 1):
                    for ind, row in grp_df.iterrows():
                        if (row['Family_Survival'] == 0) | (row['Family_Survival'] == 0.5):
                            smax = grp_df.drop(ind)['Survived'].max()
                            smin = grp_df.drop(ind)['Survived'].min()
                            passID = row['PassengerId']
                            if (smax == 1.0):
                                data.loc[data['PassengerId'] ==
                                         passID, 'Family_Survival'] = 1
                            elif (smin == 0.0):
                                data.loc[data['PassengerId'] ==
                                         passID, 'Family_Survival'] = 0

            self.family_dict = data.groupby('Last_Name').mean()[
                'Family_Survival']
        else:
            return self

    def transform(self, X):

        data = X.copy()
        data['Family_Survival'] = self.default_prob

        if self.family_dict is not None:
            if type(data) is not pd.core.series.Series:

                for x in data.itertuples():
                    if x.Last_Name in self.family_dict:
                        prob = self.family_dict.loc[x.Last_Name]
                        data.loc[data['PassengerId'] ==
                                 x.PassengerId, 'Family_Survival'] = prob
                return data

            else:

                if data['Last_Name'] in self.family_dict:
                    prob = self.family_dict.loc[data['Last_Name']]
                    data['Family_Survival'] = prob

                return data

        else:
            print('Inicializar diccionario de familias antes de transformar!')


class ColToCat(BaseEstimator, TransformerMixin):
    '''Toma un conjunto de datos df y transfroma la columna col en categorica.

    La cantidad de bins viene dada por el parametro cuts.'''

    def __init__(self, col='Fare', cuts=4):
        self.col = col
        self.cutter = KBinsDiscretizer(
            n_bins=cuts, encode='ordinal', strategy='quantile')

    def fit(self, X, y=None):
        data = X.copy()
        self.cutter.fit(data[self.col].values.reshape([-1, 1]))

        return self

    def transform(self, X):
        data = X.copy()

        if type(data[self.col]) is pd.core.series.Series:
            data[self.col] = self.cutter.transform(
                data[self.col].values.reshape([-1, 1]))
        else:
            data[self.col] = self.cutter.transform(
                np.array(data[self.col]).reshape([-1, 1]))[0][0]

        return data


class TitleGen(BaseEstimator, TransformerMixin):

    def get_title(self, name):
        '''Obtiene le titulo asociado a una persona.'''

        if '.' in name:
            return name.split(',')[1].split('.')[0].strip()
        else:
            return 'desconocido'

    def set_title(self, x):
        '''Reduce el titulo a Mr,Mrs o Miss segun corresponda.'''

        title = x['Title']
        if title in ['Capt', 'Col', 'Don', 'Jonkheer', 'Major', 'Rev', 'Sir']:
            return 'Mr'
        elif title in ['the Countess', 'Mme', 'Lady', 'Dona']:
            return 'Mrs'
        elif title in ['Mlle', 'Ms']:
            return 'Miss'
        elif title == 'Dr':
            if x['Sex'] == 'male':
                return 'Mr'
            else:
                return 'Mrs'
        else:
            return title

    def fit(self, X, y=None):
        return self

    def transform(self, X):

        data = X.copy()

        if type(data['Name']) is not pd.core.series.Series:
            data['Title'] = self.get_title(data['Name'])
            data['Title'] = self.set_title(data)
        else:
            data['Title'] = data['Name'].map(lambda x: self.get_title(str(x)))
            data['Title'] = data.apply(self.set_title, axis=1)

        return data


class AgeImputer(BaseEstimator, TransformerMixin):

    def __init__(self, title_map=None):
        self.title_map = title_map

    def fit(self, X, y=None):

        if self.title_map is None:
            data = X.copy()
            self.title_map = data.groupby(
                'Title')['Age'].apply(lambda x: x.median())

        return self

    def transform(self, X):
        ''' Llena la información faltante de la columna Age en df. 

        Utiliza una agrupacion por titulo y aplica un llenado por mediana de grupo.

        Retorna:
        -------- 

        data: Pandas.DataFrame 
            Conjunto de datos con la variable Age completada.
        '''
        data = X.copy()
        if type(data['Age']) is not pd.core.series.Series:
            if data.isnull()['Age'].any():
                data['Age'] = self.title_map.loc[data['Title']]

        else:
            data.loc[data['Age'].isnull(), 'Age'] = data['Title'].map(
                self.title_map)

        return data


class ModeFill(BaseEstimator, TransformerMixin):

    def __init__(self, col, mode=None):

        self.col = col
        self.mode = mode

    def fit(self, X, y=None):

        if self.mode is None:
            data = X.copy()
            self.mode = data[self.col].mode()[0]
        return self

    def transform(self, X):
        '''Llena los valores faltantes de col en df usando la moda global.

        Retorna: 
        -------- 

        data: Pandas.DataFrame 
            Conjunto de datos con la informacion de col completada. 
        '''

        data = X.copy()
        if type(data[self.col]) is pd.core.series.Series:
            data[self.col] = data[self.col].fillna(self.mode)
        else:
            if data.isnull()[self.col].any():
                data[self.col] = self.mode

        return data


class FillDesconocido(BaseEstimator, TransformerMixin):
    def __init__(self, col):
        self.col = col

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        ''' Toma un conjunto de datos df y llena la columna col con el valor
        'desconocido'.

        Retorna:
        -------- 

        data : Pandas.DataFrame
            Conjunto de datos con la variable col completada. 

        '''
        data = X.copy()
        if type(data[self.col]) is pd.core.series.Series:
            data[self.col].fillna('desconocido', inplace=True)
        else:
            if data.isnull()[self.col].any():
                data[self.col] = 'desconocido'

        return data


class CabinCat(BaseEstimator, TransformerMixin):

    def unknown_cabin(self, cabin):
        if cabin != 'd':
            return 1
        else:
            return 0

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        '''Genera dos categorias en df basandose en la columna Cabin.

        Retorna:
        -------

        data : Pandas.DataFrame 
            Conjunto de datos con la categorizacion creada. 
        '''

        data = X.copy()
        if type(data['Cabin']) is pd.core.series.Series:
            data['Cabin'] = data['Cabin'].map(lambda x: x[0])
            data['Cabin'] = data['Cabin'].apply(
                lambda x: self.unknown_cabin(x))
        else:
            data['Cabin'] = data['Cabin'][0]
            data['Cabin'] = self.unknown_cabin(data['Cabin'])

        return data


class FamilySizeGen(BaseEstimator, TransformerMixin):

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        '''Genera la columna Family_Size a partir de SibSp y Parch en df. 

        Retorna:
        ------- 
        data : Pandas.DataFrame 
            Conjunto de datos con la columna creada. 

        '''
        data = X.copy()
        data['Family_Size'] = data['SibSp'] + data['Parch']

        return data


class OneHotEncoderCol(BaseEstimator, TransformerMixin):

    def __init__(self, col='Sex'):
        self.col = col
        self.ohe = OneHotEncoder(sparse=False)

    def fit(self, X, y=None):
        data = X.copy()
        self.ohe.fit(data[self.col].values.reshape([-1, 1]))
        return self

    def transform(self, X):
        '''Genera codificacion One hot en df basandose en la columna col.

        Retorna:
        -------

        data : Pandas.DataFrame
            Conjunto de datos con el encoding creado.
        '''
        data = X.copy()

        if type(data[self.col]) is pd.core.series.Series:
            data[self.col] = self.ohe.transform(
                data[self.col].values.reshape([-1, 1]))

        else:
            val = np.array(data[self.col]).reshape([-1, 1])
            data[self.col] = self.ohe.transform(val)[0][0]

        return data


class OrdinaltEncoderCol(BaseEstimator, TransformerMixin):

    def __init__(self, col='Title'):
        self.col = col
        self.ode = OrdinalEncoder()

    def fit(self, X, y=None):

        data = X.copy()
        self.ode.fit(data[self.col].values.reshape([-1, 1]))

        return self

    def transform(self, X):
        '''Genera codificacion Ordinal df basandose en la columna col.

        Retorna:
        -------

        data : Pandas.DataFrame 
            Conjunto de datos con el encoding creado. 
        '''

        data = X.copy()

        if type(data[self.col]) is pd.core.series.Series:
            data[self.col] = self.ode.transform(
                data[self.col].values.reshape([-1, 1]))

        else:
            val = np.array(data[self.col]).reshape([-1, 1])
            data[self.col] = self.ode.transform(val)[0][0]

        return data


class DropCols(BaseEstimator, TransformerMixin):

    def __init__(self, cols=config.TO_DROP_PIPE):
        self.cols = cols

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        '''Elimina las columans cols del DataFrame df.


        Retorna:
        --------
        data : Pandas.DataFrame 
            Conjunto de datos con las columnas borradas. 

        '''

        data = X.copy()
        if type(data) is pd.core.frame.DataFrame:
            data.drop(self.cols, axis=1, inplace=True)
        else:
            data.drop(self.cols, inplace=True)

        return data


class StdScaler(BaseEstimator, TransformerMixin):

    def __init__(self):
        self.std_scaler = StandardScaler()

    def fit(self, X, y=None):
        data = X.copy()
        self.std_scaler.fit(data)

        return self

    def transform(self, X):
        '''Toma un DataFrame y lo estandariza, retorna un DataFrame.'''

        data = X.copy()

        if type(data) is pd.core.frame.DataFrame:
            cols = data.columns
            res = self.std_scaler.transform(data)
            return pd.DataFrame(res, columns=cols)

        else:
            cols = data.index
            res = self.std_scaler.transform(data.values.reshape([1, -1]))
            return pd.Series(data=res[0], index=cols)

**pipeline.py** 

En este módulo generamos la pipeline de entrenamiento utilizando los preprocedadores construidos

In [None]:
%%file ProjectLab/pipeline.py 
import joblib

import config
import preprocesssors as pp 

from sklearn.pipeline import Pipeline

family_dict = joblib.load(config.FAMILY_DICT)
model = joblib.load(config.MODELS_PATH + config.FINAL_MODEL)

train_pipe = Pipeline([
    ('Fare mean fill',pp.NaMeanFiller()),
    ('Last_Name gen',pp.LastNameGen()),
    ('Family_Survival gen', pp.FamilySurvivalGen(family_dict=family_dict)),
    ('Fare to cat', pp.ColToCat()),
    ('Title var gen', pp.TitleGen()),
    ('Age imputer', pp.AgeImputer()),
    ('Age to cat', pp.ColToCat(col='Age')),
    ('Title to ordinal', pp.OrdinaltEncoderCol()),
    ('Sex to One Hot Enc', pp.OneHotEncoderCol()),
    ('Fill with the mode Embarked', pp.ModeFill(col='Embarked')),
    ('Embarked to Ordinal', pp.OrdinaltEncoderCol(col='Embarked')),
    ('Fill desconocido Cabin',pp.FillDesconocido(col='Cabin')),
    ('Cabin to Cat', pp.CabinCat()),
    ('Family size gen', pp.FamilySizeGen()),
    ('drop cols',pp.DropCols(cols = config.TO_DROP_PIPE)),
    ('Scaler', pp.StdScaler()),
    ('clf', model)
    ])

**train.py** 

Acá se genera un rutina de entrenamiento 

In [None]:
%%file ProjectLab/train.py
import numpy as np
import pandas as pd
import joblib

import pipeline
import config


def train(model_name = 'last_model'):
    # Lee los datos
    data = pd.read_csv(config.DATA_PATH_TRAIN)
    test_data = data.sample(frac=0.1, random_state=5)

    train_idx = data.index.difference(test_data.index)

    y_train = data.loc[train_idx, config.TARGET]
    x_train = data.drop(config.TARGET, axis=1).loc[train_idx]
    
    #Entrena el modelo
    pipeline.train_pipe.fit(x_train, y_train)
    
    #Guarda el modelo 
    joblib.dump(pipeline.train_pipe, config.LAST_MODEL_PATH + model_name)
    
if __name__ == '__main__':
    train()

La notación anterior nos permite ejecutar el proceso de entrenamiento por medio de la terminal:

```
(entorno_virtual) user@ruta/a/ProjectLab$ python train.py
```

Con esto se entrena un modelo de nombre `last_model` en la carpeta `last_models`.

**predict.py** 

Se genera un script que produce predicciones basadas en un modelo a elección

In [None]:
%%file ProjectLab/predict.py 
import pandas as pd 

import joblib
import config

def predict(X):
    
    model = joblib.load(config.LAST_MODEL_PATH + config.LAST_MODEL_NAME)
    
    return model.predict(X)
    

if __name__ == '__main__':

    from sklearn.metrics import classification_report
    
    # Se obtienen los datos
    data = pd.read_csv(config.DATA_PATH_TRAIN)

    test_data = data.sample(frac=0.1, random_state=5)
    train_idx = data.index.difference(test_data.index)
        
    # Datos de entrenamiento
    y_train = data.loc[train_idx, config.TARGET]
    x_train = data.drop(config.TARGET, axis=1).loc[train_idx]
    
    # Datos test
    X = test_data.drop(config.TARGET, axis=1)
    y = test_data[config.TARGET]
    
    # Resultados
    c_train = classification_report(predict(x_train),y_train)
    c_test = classification_report(predict(X),y)
    
    print('Score en Train:', c_train) 
    print('Score en Test:', c_test) 

## Generación de una Aplicación a partir de un Flujo de Aprendizaje Automático

Luego de generados los módulos es necesarios pasamos a crear una estructura de librería para ello generamos la carpeta `packages` dentro la carpeta de nuestro proyecto. 

In [None]:
!mkdir ProjectLab/packages

La idea consiste en estructurar nuestros módulos de manera tal que se tenga una estructura de librería, con la cual se generen resultados reproducibles y mantenibles. 

En este punto del desarrollo se recomienda crear un repositorio de control de versiones propio para el proyecto (asociado a la carpeta ProjectLab en este caso) de manera que tal repositorio se convierta en la herramienta de mantenibilidad del proyecto en producción.

La restructuración que haremos permite generar resultados reproducibiles, reducir el riesgo de errores, mejorar la capacidad de depurar el código, manejando de manera elegante los errores. Por último, la estructura modular nos permite extender y actualizar componentes de modelo de manera sencilla y robusta.

Comenzamos con la siguiente estructura de carpetas:

```
|ProjectLab/

--| packages/

----| clf_model/
------| requirements.txt

------| clf_model/

--------| config/
----------| __init__.py
----------| config.py

--------| data/
----------| __init__.py
----------| train.csv
----------| test.csv

--------| meta_data
----------| __init__.py
----------| family_dict

--------| processing/
----------| __init__.py
----------| preprocessors.py

--------| trained_models/
----------| __init__.py

--------| last_model/
----------| __init__.py
```

Observamos que la carpeta `clf_model` se encuentra dos veces en la estructura debido a la convención de creación de librerías de Python. Los archivos `__init__.py` están vacios por la misma convención. En `~/trained_models/` se encuentran los modelos entrenados en la fase de investigación. Por su parte `/last_model/` se deja vacía para reproducir los resultados obtenidos anteriormente.

Los siguientes comandos generan la estructura de carpetas y archivos `__init__.py` usando comandos de la terminal (linux - mac) desde una celda de Jupyter, el proceso puede hacerse de manera manual en windows y en general.

In [None]:
!mkdir ProjectLab/packages/clf_model

!mkdir ProjectLab/packages/clf_model/clf_model
!touch ProjectLab/packages/clf_model/clf_model/__init__.py

!mkdir ProjectLab/packages/clf_model/clf_model/config
!touch ProjectLab/packages/clf_model/clf_model/config/__init__.py

!mkdir ProjectLab/packages/clf_model/clf_model/data
!touch ProjectLab/packages/clf_model/clf_model/data/__init__.py

!mkdir ProjectLab/packages/clf_model/clf_model/meta_data
!touch ProjectLab/packages/clf_model/clf_model/meta_data/__init__.py

!mkdir ProjectLab/packages/clf_model/clf_model/processing
!touch ProjectLab/packages/clf_model/clf_model/processing/__init__.py

!mkdir ProjectLab/packages/clf_model/clf_model/trained_models
!touch ProjectLab/packages/clf_model/clf_model/trained_models/__init__.py

!mkdir ProjectLab/packages/clf_model/clf_model/last_model
!touch ProjectLab/packages/clf_model/clf_model/last_model/__init__.py

Los demás archivos se mueven de manera manual

Es necesario crear un archivo de texto llamado `requirements.txt` donde se especifican las dependencias asociadas a nuestra librerías. Para generar tal archivo accedemos a nuestro entorno virtual y ejecutamos:

```
(entorno_virtual) user@/ruta/a/ProjectLab$ pip freeze > requirements.txt
``` 

De esta manera almacenamos todas las librerías que utilizamos en la creación del código de desarrollo. En este caso se observa que los primeros 7 requerimientos utilizados corresponden a:
```
autopep8==1.5.3
backcall==0.2.0
click==7.1.2
cycler==0.10.0
decorator==4.4.2
Flask==1.1.2
ipykernel==5
```
Observe que los resultados pueden variar en función de los paquetes que haya instalado en su entorno virtual. Podemos cambiar los signos `==` por `>=` o `<=` si deseamos cambiar las versiones que nuestra librería requiere. También se puede usar la notación:

```
libr >= ver_0, < ver_1
```

donde lo que se hace es asegurar compatibilidad con la librería `libr` entre las versiones `ver_0` (incluida) y `ver_1` (excluida). Tambíen se pueden eliminar módulos no utilizados por nuestra librería como por ejemplo `autopep8` y `ipykernel` ambas instaladas en el entorno de Jupyter en la fase de investigación. En este caso se mantendrán las librerías capturadas por `pip freeze`. 

In [None]:
with open('ProjectLab/requirements.txt', 'r') as req_txt:
    print(req_txt.read()[:102])

**Ejercicios**

1. Cabmie los itnervalos de requerimientos para la aplicación, de manera tal que acepte versiones mayores o iguales a las obtenidas por `pip freeze` pero estrictamente menores a la siguiente versión. A modo de ejemplo, observe que para la librería `flask` se requiere como mínimo la versión `1.1.2`, se considerará como *siguiente versión* a `2.0.0`. 

2. Disminuya la cantidad de módulos requeridos al mínimo. 

movemos el archivo `ProjectLab/requirements.txt` a la carpeta `ProjectLab/packages/clf_model`

In [None]:
!mv ProjectLab/requirements.txt ProjectLab/packages/clf_model/

El siguiente paso es hacer un manejo de las dependencias utilizando entornos virtuales automatizados, para ello, se hará uso de la aplicación `Tox`.

### Manejo de dependencias con Tox

`tox` es un proyecto de automatizción con Python, su principal función es facilitar el uso de *tests* y de entornos virtuales. Para comprender su funcionamiento comenzaremos con el manejo de dependencias sobre nuestro paquete.

El primer paso es instalar tox de la manera usual, luego se genera un archivo llamado `tox.ini`, este corresponde a un archivo de configuración que debe ubicarse en la carpeta del módulo que se desea testear, en este caso `ProjectLab/packages/clf_model/`.

La idea de esta librería es la de generar entornos virtuales de manera automática. En estos entornos se instalan las dependencias indicadas por el usuario (en este caso dadas por requirements.txt), posteriormente se ejecutan scripts de módulo que se desea controlar. 

Los scripts que queremos ejecutar con tox son rutinas de *prueba* o *test*, es decir, corresponden a códigos con los cuales queremos asegurar que nuestra librería sea reproducible en cualquier máquina que cumpla con los requerimientos que solicitamos.

En este caso tenemos que el archivo `train.py` debe ser capaz de entrenar un modelo y guardarlo con el nombre `last_model`. Podemos indicar a `tox` que comando ejecutar por medio del campo `comands` este sigue la sintaxis:

```
commands =
    python codigo_a_ejecutar.py
```

Por otra parte, podemos indicar las dependencias por medio de `deps`. Para automatizar este proceso entregamos el documento `requierements.txt` que necesita nuestra implementación. En este caso, se sigue la sintaxis:
```
deps =
	-rrequirements.txt
```
Observe que se utiliza `-r` sin espacio y antes del nombre del archivo. Para indicar que se instalen las librerías necesarias usando `requirements.txt` se debe indicar el comando `install_command` con la orden `pip install {opts} {packages}`. Por último, fijamos la carpeta a la cual se asociará la ejecución de todo script de python, esta se configura con la opción `PYTHONPATH` dentro del comando `setenv`, para ello se utiliza la sintaxis
```
setenv =
    PYTHONPATH=.
```

Con esto se le indica a `tox` que la carpeta relativa a la cual se ubica el archivo `tox.ini` tendrá la información librerías y módulos que se debe utilizar. El conjunto de opciones detalladas recientemente corresponden al ambiente de *prueba* o *testing*, esto se indica utilizando la notación `[testenv]`. 

Por último, se entrega un ambiente de ejecución de `tox` utilizando la sintaxis `[tox]`. Al igual que con el ambiente de pruebas, este ambiente tiene opciones especificas, dentro de las cuales se utilizará `envlist` que corresponde al ambiente virtual donde se ejecutarán los comandos indicados en `[testenv]`. Acá se pueden proporcionar múltiples entornos virtuales, ĺos cuales serán creados por tox de manera automática.  Asociado a esto se encuentra la opción `[skipsdist]`con la cual se indica si tox debe empaquetar el conjunto de código sobre el cual se hacen pruebas (ej: se trabaja en una librería), en tox se recomienda indicar esta opción como `True` si se trabaja con una aplicación. 

A continuación crearemos un archivo de configuración de `tox` con el cual se creará un entorno virtual automático `clf_model`, instalará los requerimientos necesarios y ejecutará un script indicando si todo el proceso salió como se esperaba.


In [None]:
%%file ProjectLab/packages/clf_model/clf_model/test.py 

print('Prueba de Tox finalizada con Exito')

In [None]:
%%file ProjectLab/packages/clf_model/tox.ini 
[tox]
envlist = clf_model
skipsdist = True

[testenv]
install_command = pip install {opts} {packages}

deps =
    -rrequirements.txt

setenv =
    PYTHONPATH=.

commands =
    python clf_model/test.py  

Luego de generar el test a ejecutar y construir el archivo de configuración de `tox`, se pasa a ejecutar dicho test en un entorno de python independiente y generado de manera automática con `tox`. Para ello nos debemos ubicar en la carpeta `ProjectLab/packages/clf_model/` que es donde deberían estar los archivos `requirements.txt` y `tox.ini`, además de la carpeta `./clf_model/`.

En dicha carpeta ejecutamos:

```
user@ruta/a/packages/clf_model$ tox
```

cuyo resultado debería ser

```
clf_model: commands succeeded
  congratulations :)
```

Se procede a utilizar `tox` para probar la rutina de entrenamiento del modelo generado, para ello, se requiere modificar la estructura de los módulos generados para que sean compatibles con la estructura de librería que se utiliza actualmente. 

Primero se observa que en el archivo `config.py` es necesario cambiar algunas las rutas de acceso, esto pues las rutas proporcionadas se basan en la estructura de carpetas actual, la cual puede no necesariamente coincidir con la obtenida finalmente al empaquetar. Para garantizar flexibles utilizamos `pathlib`.

In [None]:
%%file ProjectLab/packages/clf_model/clf_model/config/config.py
import pathlib
import clf_model

PACKAGE_ROOT = pathlib.Path(clf_model.__file__).resolve().parent

TARGET = 'Survived'
LAST_MODEL_NAME = 'last_model'

MODELS_PATH  = PACKAGE_ROOT / 'trained_models/'
FINAL_MODEL = MODELS_PATH / 'vote_soft'

LAST_MODEL_PATH = PACKAGE_ROOT / 'last_model/'

DATA_PATH_TRAIN = PACKAGE_ROOT / 'data/train.csv'
DATA_PATH_TEST = PACKAGE_ROOT / 'data/test.csv' 
FAMILY_DICT =PACKAGE_ROOT / 'meta_data/family_dict'

TO_DROP_PIPE = ['Name', 'Parch', 'SibSp', 'Ticket', 'Last_Name', 'PassengerId', 'Embarked', 'Cabin']

FINAL_VARS = ['Pclass','Sex','Age', 'Fare',
              'Family_Survival', 'Title', 'Family_Size']

TEST_VARS = ['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch',
            'Ticket', 'Fare', 'Cabin', 'Embarked']

Dado que ahora se utiliza una estructura de librería, es necesario importar nuestras dependencias de otra manera por ejemplo si antes se importaban las configuraciones por medio de:

```
import config
```
ahora se importan utilizando

```
from clf_model.config import config
```
Es necesario hacer modificaciones de esta naturalelza a los archivos `train.py`, `pipeline.py`, `predict.py` y `processing/preprocessors.py` así por ejemplo, el script de entrenamiento pasa a ser:

```python
import numpy as np
import pandas as pd
import joblib

from clf_model import pipeline
from clf_model.config import config 


def train(model_name = config.LAST_MODEL_NAME):
    '''Entrena el modelo final.'''

    # Lee los datos
    data = pd.read_csv(config.DATA_PATH_TRAIN)
    test_data = data.sample(frac=0.1, random_state=5)

    train_idx = data.index.difference(test_data.index)

    y_train = data.loc[train_idx, config.TARGET]
    x_train = data.drop(config.TARGET, axis=1).loc[train_idx]
    
    #Entrena el modelo
    pipeline.train_pipe.fit(x_train, y_train)

    name =  model_name+'_'+str(_version) 
    file_name = config.LAST_MODEL_PATH / name 

    #Guarda el modelo 
    joblib.dump(pipeline.train_pipe, file_name) 


if __name__ == '__main__':
    train()

```

se procede a comprobar que el archivo train permite recuperar el modelo antes entrenado, para ello se modifica el archivo de configuraciones `tox.ini` indicando que se ejecute `train.py` y `predict.py`. Se borra además el archivo `test.py` pues ya no es de utilidad

In [None]:
!rm ProjectLab/packages/clf_model/clf_model/test.py

In [None]:
%%file ProjectLab/packages/clf_model/tox.ini 
[tox]
envlist = clf_model
skipsdist = True

[testenv]
install_command = pip install {opts} {packages}

deps =
    -rrequirements.txt

setenv =
    PYTHONPATH=.

commands =
    python clf_model/train.py  
    python clf_model/predict.py 

El resultado de esta operación debe ser un modelo llamado `last_model` en la carpeta `clf_model/last_model` además de una impresión en pantalla con los resultados de predicción. Estos últimos resultados deben ser identicos a los obtenidos anteriormente para asegurar reproducibilidad. 

## Testeo

Una vez estructurada nuestra aplicación se hace necesario construir *pruebas* o *test* con los cuales podamos asegurar la correctitud del código generado. Para esto se hace uso de la librería `pytest`. 

Se procede a instalar esta librería y a agregarla a las dependencias del nuestra aplicación, en este caso es necesario ejecutar `tox -r` para que se reconstruya el entorno virtual que añade la nueva dependencia.

Pytest es una herramienta que permite escribir pruebas de código de manera sencilla, presenta un manejo simple de excepciones por medio de comandos `assert` detallados. 

Pytest permite ejecutar todo un conjunto de códigos de prueba dentro de una carpeta a elección. Así, si por ejemplo se almacenan las pruebas de código en la capeta `~/pruebas/` entonces al utilizar la orden `pytest ~/pruebas` se ejecutarán todos los códigos de prueba ahí almacenados. El resultado de la ejecución de dichas pruebas se mostrará en pantalla entregando un mensaje si alguna de estas pruebas falla.

**Ejemplo**

Se construye la carpeta `~/tests/` en la cual se genera un código de prueba a ejecutar con `pytest` desde `tox`. Para ello se procede a crear tanto la carpeta como código de prueba necesario.

La carpeta tests se ubica en la siguiente ruta:
```
~/ProjectLab/packages/clf_model/tests
```

In [None]:
%mkdir ProjectLab/packages/clf_model/tests

A continuación se modifica la función de predicción `predict.py`. A partir de este archivo se genera el script `prediction_report.py` que mantiene los contenidos originales de `prediction.py` (respaldo). 

In [None]:
%cp ProjectLab/packages/clf_model/clf_model/predict.py ProjectLab/packages/clf_model/clf_model/prediction_report.py

Se procede a modificar el contenido original de `predict.py` de manera que este reciba un archivo `json` codificando los datos inputs y entregue un diccionario con las predicciones asociadas a tales inputs. Esto tiene sentido, pues se busca crear una aplicación web, de la cual se espera interactuar con archivos en formato `json`.

In [None]:
%%file  ProjectLab/packages/clf_model/clf_model/predict.py
import pandas as pd 
import joblib

from clf_model.config import config 

def predict(input_data):
    '''Predice utilizando el modelo entrenado.''' 
    name =  config.LAST_MODEL_NAME + '_' +str(_version)
    model = joblib.load(config.LAST_MODEL_PATH / name)
    
    data = pd.read_json(input_data, orient='index')
    
    if data.shape[1] == 1:

        output = model.predict(pd.DataFrame(data).T)
    else:
        output = model.predict(data)


    response = {"predictions": output}
    
    return response

A continuación se escribe un test sobre la función de predicción, para ello nos ubicamos en la carpeta `ProjectLab/packages/clf_model/tests` y generamos el archivo `test_predict.py`. 

En este apartado cargamos el dataset `test.csv` y comprobamos que la respuesta de predicción es consistente con la respuesta esperada. En este caso, sabemos que a la primera fila de `test.csv` le corresponde la predicción `0` mientras que a la última fila le corresponde `1`.

**Obs:** Se debe agregar la variable global `DATA_PATH_TEST = root +'data/test.csv'` en el modulo de configuraciones.

In [None]:
%%file  ProjectLab/packages/clf_model/tests/test_predict.py
import pandas as pd 
import numpy as np 

from clf_model.predict import predict
from clf_model.config import config 

def test_predict_tails():
    
    test_data = pd.read_csv(config.DATA_PATH_TEST)
    
    json_1 = test_data.iloc[0].to_json(orient='index')
    json_2 = test_data.iloc[-1].to_json(orient='index')

    subject_1 = predict(input_data=json_1)
    subject_2 = predict(input_data=json_2)

    
    assert any((subject_1,subject_2)) is not None 
    print(type(subject_1.get('predictions')[0]))
    
    assert isinstance(subject_1.get('predictions')[0], np.int64)
    assert isinstance(subject_2.get('predictions')[0], np.int64)
    
    assert subject_1.get('predictions')[0] == 0
    assert subject_2.get('predictions')[0] == 1

Finalmente se modifica el texto de configuración para testeo con pytest, para ejecutar todos los tests de la carpeta `tests/` agregamos el comando `pytest tests`.

In [None]:
%%file ProjectLab/packages/clf_model/tox.ini 
[tox]
envlist = clf_model
skipsdist = True

[testenv]
install_command = pip install {opts} {packages}

deps =
    -rrequirements.txt

setenv =
    PYTHONPATH=.

commands =
    python clf_model/train.py 
    pytest tests 

Al ejecutar tox, se ejecutará el test sobre los ouputs del primer y ultimo registro en el conjunto de test. Si el modelo es reproducible se deben pasar las pruebas programadas. Vale la pena observar que el test anterior puede ser modificado de manera que al entrenar un nuevo modelo se garantice que el tipo de output que este genera es consistente con nuestros datos. En tal caso, no sería necesario corroborar que las predicciones esperadas con precisamente `0` y `1`. 

Lo anterior muestra la importancia del diseño de tests, si estos son bien imeplementados permiten generar un sistema automático de confirmación antes de hacer cualquier cambio en nuestra aplicación / repositorio. Por otra parte, si se agregan pruebas mal diseñadas, pueden haber situaciones en las que se rechaze código que funciona bien. 

**Ejercicios**

1. Es una buena práctica validar los datos de entrada antes de hacer predicciones. Este proceso de validación consiste en entregar los datos sobre los que se busca predecir a una función que se asegura que tales datos tengan el formato necesario para predecir sobre ellos. Genere el módulo `validation.py` en cual existe la función `validate_input` que recibe un `DataFrame` de pandas y revisa si este posee las columnas necesarias y que no tenga valores nulos. Agregue finalmente un paso de validación antes de predecir en la función `predict.py`.

2. El principio de modularidad requiere separar los procesos según su naturaleza. Observe que en la sección de preprocesdores están mezclados los transformadores que en efecto preprocesan los datos junto con transformadores que efectúan ingenieria de características. Genere un módulo que permita separar estos dos procedimientos. 

## Versionamiento y Logging

El versionamiento de una aplicación consiste en asignar un identificador único a ciertos estados de la apliación. En el contexto de ciencia de datos, el versionamiento permite asegurar reproducibilidad, que es el concepto clave al momento de desplegar una prueba de concepto. 

Por otra parte, el concepto de *Logging* hace referencia al registro de eventos. Esto es de suma importancia pues permite tener un control de la aplicación implementada. 

Para asociar una versión a nuestra aplicación generamos el archivo `VERSION` según la ruta:

```
user@ruta/a/clf_model/clf_model/VERSION
```

En este caso, el archivo no posee ninguna extensión y contiene el número de versión asociado al estado actual de la aplicación. Acá seguiremos el *formato de versiones semantico* que consiste en:

```
version_mayor.version_menor.parche
```

Se procede a generar dicho archivo

In [None]:
%%file ProjectLab/packages/clf_model/clf_model/VERSION 
0.1.0 

El siguiente paso es indicarle a nuestra aplicación que versión posee, para ello se accede al archivo `__init__.py` asociado al paquete que estamos creando. Acá agregamos la ruta al archivo que hemos creado con la versión y asignamos su contenido a la veriable de entorno `__version__`.

In [None]:
%%file ProjectLab/packages/clf_model/clf_model/__init__.py 
from clf_model.config import config

VERSION_PATH = config.PACKAGE_ROOT / 'VERSION'

with open(VERSION_PATH,'r') as handler: 
    __version__ = handler.read().strip() 

A continuación generamos un esquema de persistencia de modelos usando la versión del paquete actual. Esto se refiere a modificar el proceso de guardado de modelos entrenados, cada modelo entrenado tendrá asociada una versión. Queremos además una relación *uno a uno* entre modelos y versiones del paquete, por este motivo se deben borrar los modelos correspondientes a versiones anteriores. 

Primero se modifica el archivo `train.py` que guarda el modelo entrenado


In [None]:
%%file ProjectLab/packages/clf_model/clf_model/train.py
import  warnings
warnings.filterwarnings("ignore", category=UserWarning)

import numpy as np
import pandas as pd
import joblib

from clf_model import pipeline
from clf_model.config import config 
from clf_model import __version__ as _version 

def clean_old_models(files_to_keep)  :
    '''Limpia los modelos generados en versiones anteriores.'''

    for model_file in config.LAST_MODEL_PATH.iterdir():
        if model_file.name not in [files_to_keep, "__init__.py"]:
            model_file.unlink()

def train(model_name = config.LAST_MODEL_NAME):
    '''Entrena el modelo final.'''

    # Lee los datos
    data = pd.read_csv(config.DATA_PATH_TRAIN)
    test_data = data.sample(frac=0.1, random_state=5)

    train_idx = data.index.difference(test_data.index)

    y_train = data.loc[train_idx, config.TARGET]
    x_train = data.drop(config.TARGET, axis=1).loc[train_idx]
    
    #Entrena el modelo
    pipeline.train_pipe.fit(x_train, y_train)

    name =  model_name+'_'+str(_version) 
    file_name = config.LAST_MODEL_PATH / name 

    #Guarda el modelo y limpia
    clean_old_models(files_to_keep = file_name)
    joblib.dump(pipeline.train_pipe, file_name) 

if __name__ == '__main__':
    train()

Luego se modifican los archivos que dependen del nombre del modelo, en este caso `predict.py` y `prediction_report.py`

In [None]:
%%file ProjectLab/packages/clf_model/clf_model/predict.py
import pandas as pd 
import joblib

from clf_model.config import config 
from clf_model import __version__ as _version 

def predict(input_data):
    '''Predice utilizando el modelo entrenado.''' 
    name =  config.LAST_MODEL_NAME + '_' +str(_version)
    model = joblib.load(config.LAST_MODEL_PATH / name)
    
    data = pd.read_json(input_data, orient='index')
    
    if data.shape[1] == 1:

        output = model.predict(pd.DataFrame(data).T)

    else:
        output = model.predict(data)


    response = {"predictions": output}
    
    return response

In [None]:
%%file ProjectLab/packages/clf_model/clf_model/prediction_report.py
import pandas as pd 

import joblib

from clf_model.config import config
from clf_model import __version__ as _version 

def predict(X):
    name = config.LAST_MODEL_NAME+'_'+str(_version)
    model = joblib.load(config.LAST_MODEL_PATH / name)
    return model.predict(X)
    

if __name__ == '__main__':

    from sklearn.metrics import classification_report
    
    # Se obtienen los datos
    data = pd.read_csv(config.DATA_PATH_TRAIN)

    test_data = data.sample(frac=0.1, random_state=5)
    train_idx = data.index.difference(test_data.index)
        
    # Datos de entrenamiento
    y_train = data.loc[train_idx, config.TARGET]
    x_train = data.drop(config.TARGET, axis=1).loc[train_idx]
    
    # Datos test
    X = test_data.drop(config.TARGET, axis=1)
    y = test_data[config.TARGET]
    
    # Resultados
    c_train = classification_report(predict(x_train),y_train)
    c_test = classification_report(predict(X),y)
    
    print('Score en Train:', c_train) 
    print('Score en Test:', c_test) 


**Obs**: Se deben ejecutar nuevamente los tests implementados para asegurar que todo funciona como es debido. Esto se hace de manea sencilla con el comando `tox` si todo esta configurado como indicado anteriormente. 

El siguiente paso es generar un sistema de registro de eventos o *logging*. Para ello, se importa la librería `logging` en archivo `__init__.py` asociado al paquete con el que se trabaja. 

El módulo `logging` permite generar registros con los cuales se facilita la compresión del flujo inherente a una aplicación. Esté módulo es nativo de Python.

Una vez importado el módulo, se requiere hacer uso de un "logger" para registrar mensajes de interés. Por defecto se tienen 5 niveles para indicar la importancia de los eventos a registrar. Estos corresponden a DEBUG, INFO, WARNING, ERROR y CRITICAL. 

**Ejercicio**

1. Importe el módulo `logging` acceda a los niveles de importacia del módulo utilizando la notación `logging.nivel(msj)` (ej: `loggin.debug(msj)`) donde `msj` representa un `string` a imprimir en pantalla. ¿Existe alguna diferencia en la impresión por pantalla según el nivel de importancia?

Para generar un *logger* utilizamos el método `.getLogger()` y le asociamos un nombre, en este caso, buscamos un logger con el nombre de nuestro paquete por lo que deberiamos agregar las siguientes lineas:

```python
import logging

logger = logging.getLogger(__name__)
logger.setLevel(logging.DEBUG)

```

Acá configuramos el nivel del logger como `DEBUG` pues utilizaremos esta herramienta en un entorno de desarrollo. 

Adicionalmente, crearemos un archivo de configuraciones asociado al módulo de logging. En esté archivo indicaremos que información buscamos almacenar al registrar eventos, para ello nos basamos en la siguiente [lista](https://docs.python.org/3/library/logging.html#logrecord-attributes).

In [None]:
%%file ProjectLab/packages/clf_model/clf_model/config/logging_config.py 
import logging
import sys

FORMATTER = logging.Formatter(
    "%(asctime)s — %(name)s — %(levelname)s —" "%(funcName)s:%(lineno)d — %(message)s"
)

Buscamos además mostrar los eventos en la terminal, para ello se hace uso de `handlers`, estos objetos permiten enviar registros a diferentes destinos por medio de mensajes (ej: HTTP, email, guardar en disco). Creamos un `handler` que permita imprimir en pantalla utilizando el módulo `sys`.

In [None]:
%%file ProjectLab/packages/clf_model/clf_model/config/logging_config.py 
import logging
import sys

FORMATTER = logging.Formatter(
    "%(asctime)s — %(name)s — %(levelname)s —" "%(funcName)s:%(lineno)d — %(message)s"
)

def get_console_handler():
    console_handler = logging.StreamHandler(sys.stdout)
    console_handler.setFormatter(FORMATTER)
    return console_handler

entregaremos dicho `handler` a nuestro logger definido en `__init__.py`. Este pasa a ser finalmente: 

In [None]:
%%file ProjectLab/packages/clf_model/clf_model/__init__.py
import logging

from clf_model.config import config
from clf_model.config import logging_config

VERSION_PATH = config.PACKAGE_ROOT / 'VERSION'

logger = logging.getLogger(__name__)
logger.setLevel(logging.DEBUG)
logger.addHandler(logging_config.get_console_handler())

logger.propagate = False

with open(VERSION_PATH, 'r') as version_file:
    __version__ = version_file.read().strip()

La opción `logger.propagate = False` evita que los mensajes generados por el logger asociado a nuestro paquete sean inputs de loggers de otros paquetes generando registros sobre nuestra implementación. Para más información sobre el módulo de logging se puede acceder a la [documentación oficial](https://docs.python.org/3/library/logging.html).

Con las configuraciones anteriores es posible utilizar loggers en los componentes de nuestro paquete.

Se procede a modificar el archivo `train.py` para generar registros de sus ejecuciones.


In [None]:
%%file ProjectLab/packages/clf_model/clf_model/train.py
import  warnings
warnings.filterwarnings("ignore", category=UserWarning)

import numpy as np
import pandas as pd
import joblib

from clf_model import pipeline
from clf_model.config import config 
from clf_model import __version__ as _version 

import logging
_logger = logging.getLogger(__name__)

def clean_old_models(files_to_keep)  :
    '''Limpia los modelos generados en versiones anteriores.'''

    for model_file in config.LAST_MODEL_PATH.iterdir():
        if model_file.name not in [files_to_keep, "__init__.py"]:
            model_file.unlink()


def train(model_name = config.LAST_MODEL_NAME):
    '''Entrena el modelo final.'''

    # Lee los datos
    data = pd.read_csv(config.DATA_PATH_TRAIN)
    test_data = data.sample(frac=0.1, random_state=5)

    train_idx = data.index.difference(test_data.index)

    y_train = data.loc[train_idx, config.TARGET]
    x_train = data.drop(config.TARGET, axis=1).loc[train_idx]
    
    #Entrena el modelo
    pipeline.train_pipe.fit(x_train, y_train)

    name =  model_name+'_'+str(_version) 
    file_name = config.LAST_MODEL_PATH / name 

    #Guarda el modelo y limpia
    _logger.info('Limpiando versiones anteriores')
    clean_old_models(files_to_keep = file_name)

    _logger.info(f"Guardando modelo version: {_version}")
    joblib.dump(pipeline.train_pipe, file_name) 


if __name__ == '__main__':
    train()

De la misma manera se modifica `predict.py`

In [None]:
%%file ProjectLab/packages/clf_model/clf_model/predict.py
import  warnings
warnings.filterwarnings("ignore", category=UserWarning)

import pandas as pd 
import joblib

from clf_model.config import config 
from clf_model import __version__ as _version 

import logging

_logger = logging.getLogger(__name__)

def predict(input_data):
    '''Predice utilizando el modelo entrenado.''' 
    name =  config.LAST_MODEL_NAME + '_' +str(_version)
    model = joblib.load(config.LAST_MODEL_PATH / name)
    
    data = pd.read_json(input_data, orient='index')
    
    if data.shape[1] == 1:

        output = model.predict(pd.DataFrame(data).T)
        _logger.info(
            f"Version del modelo: {_version} "
            f"Inputs para predecir: {data} "
            f"Predicciones: {output}"
        )

    else:
        output = model.predict(data)
        _logger.info(
            f"Version del modelo: {_version} "
            f"Inputs para predecir: {data} "
            f"Predicciones: {output}"
        )


    response = {"predictions": output, "version":_version}
    
    return response

Finalmente para que se muestren los mensajes de logging al momento de ejecutar tests con `tox` agregamos el parámetro `-s` a `tox.ini`

In [None]:
%%file ProjectLab/packages/clf_model/tox.ini
[tox]
envlist = clf_model
skipsdist = True

[testenv]
install_command = pip install {opts} {packages}

deps =
    -rrequirements.txt

setenv =
    PYTHONPATH=.

commands =
    python clf_model/train.py 
    pytest -s tests 

al ejecutar `tox` se observan los registros programados.

**Ejercicio**

1. Modifique el archivo `train.py` para que muestre los logs configurados en pantalla. *Hint*: ponga atención a la variable `__name__`. 
2. Agregue loggers a los demás módulos del paquete.

## Empaquetamiento 

Una vez generada la estructura de módulos, asegurada la reproducibilidad del modelo, generados los tests correspondientes, haber generado un versionamiento y un sistema de logs, se procede a empaquetar nuestra aplicación para ser distribuida.

Para este proceso es necesario generar un archivo `setup.py`, también se requiere modificar los requerimientos agregado `setuptools` y `wheel`. 

`setuptools` permite construir y distribuir paquetes de python de manera sencilla. Por su parte `wheel` es la librería estándar de empaquetamiento de Python, `wheel` proporciona una extensión para `setuptools` para generar *wheels*, donde *wheel* es un tipo de paquete basado en `.zip` con un sistema de archivos siguiendo una estructura especial. 

Se agregan las nuevas dependecias, en este caso basta añadir las lineas:

```
setuptools >= 49.2.1, < 50.0.0 
wheel >= 0.34.2, < 0.35.0
```

**Obs**: Esta parte depende de la versión actual y depende de cuando se generó este documento.

Se procede a generar un archivo `setup.py` con las especificaciones que requiere la aplicación. 

In [None]:
%%file ProjectLab/packages/clf_model/setup.py 
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import io
import os
from pathlib import Path

from setuptools import find_packages, setup

# metadatos
NAME = 'clf_model'
DESCRIPTION = 'Entrena y despliega un modelo de clasificacion.'
URL = 'https://github.com/NicoCaro'
EMAIL = 'ncaro@dim.uchile.cl'
AUTHOR = 'Nico Caro'
REQUIRES_PYTHON = '>=3.8.0'

# Se cicla por los requerimientos
def list_reqs(fname='requirements.txt'):
    with open(fname) as fd:
        return fd.read().splitlines()


#ubicacion de este archivo
here = os.path.abspath(os.path.dirname(__file__))

'''
Imorta un archivo README y lo usa como descriptor. 
Debe estar definido en un archivo MANIFEST.in
'''
try:
    with io.open(os.path.join(here, 'README.md'), encoding='utf-8') as f:
        long_description = '\n' + f.read()
except FileNotFoundError:
    long_description = DESCRIPTION

# Carga la version del paquete
ROOT_DIR = Path(__file__).resolve().parent
PACKAGE_DIR = ROOT_DIR / NAME
about = {}
with open(PACKAGE_DIR / 'VERSION') as f:
    _version = f.read().strip()
    about['__version__'] = _version


#Inicializa el objeto que produce la instalcion
# Obs: la lincencia se puede cambiar. En esta implementacion se utiliza MIT.
setup(
    name=NAME,
    version=about['__version__'],
    description=DESCRIPTION,
    long_description=long_description,
    long_description_content_type='text/markdown',
    author=AUTHOR,
    author_email=EMAIL,
    python_requires=REQUIRES_PYTHON,
    url=URL,
    packages=find_packages(exclude=('tests',)),
    package_data={'regression_model': ['VERSION']},
    install_requires=list_reqs(),
    extras_require={},
    include_package_data=True,
    license='MIT',
    classifiers=[
        # Trove classifiers
        # Full list: https://pypi.python.org/pypi?%3Aaction=list_classifiers
        'License :: OSI Approved :: MIT License',
        'Programming Language :: Python',
        'Programming Language :: Python :: 3',
        'Programming Language :: Python :: 3.6',
        'Programming Language :: Python :: 3.7',
        'Programming Language :: Python :: 3.8',
        'Programming Language :: Python :: Implementation :: CPython',
        'Programming Language :: Python :: Implementation :: PyPy'
    ],
)

El siguiente paso es crear un archivo `MANIFEST.in`. En este tipo de archivos se especifica que se incluirá en nuestro paquete al ser distribuido. Para más información se puede acceder a la siguiente [fuente](https://packaging.python.org/guides/using-manifest-in/).

In [None]:
%%file ProjectLab/packages/clf_model/MANIFEST.in 
include *.txt
include *.md
include *.cfg
include *.pkl
recursive-include ./clf_model/*

include clf_model/data/train.csv 
include clf_model/data/test.csv
include clf_model/trained_models/*
include clf_model/last_model/*
include clf_model/VERSION

include ./requirements.txt
exclude *.log

recursive-exclude * __pycache__
recursive-exclude * *.py[co]

Para utilizar el archivo `setup.py` en un entorno `tox` generamos un nuevo entorno denominado `instalcion_local`. Este nueo ambiente posee las mismas dependencias que `testenv`  pero ejecuta el comando de entrenamiento para generar el modelo de clasificación y luego instala el paquete utilizando `setup.py`. Esto se implementa de la siguiente manera.

In [None]:
%%file ProjectLab/packages/clf_model/tox.ini
[tox]
envlist = clf_model
skipsdist = True

[testenv]
install_command = pip install {opts} {packages}

deps =
    -rrequirements.txt

setenv =
    PYTHONPATH=.

commands =
    python clf_model/train.py 
    pytest -s tests 

[testenv:instalacion_local]
deps =
    {[testenv]deps}

setenv =
    PYTHONPATH=.

commands =
    python clf_model/train.py
    python setup.py sdist bdist_wheel

Al ejectuar `tox` se ejecturará el ambiente `testenv` por defecto, para ejecutar la instalación local debemos utilizar la opción `-e` según la sintaxis:

```
user@ruta/a/clf_model$ tox -e instalacion_local
```

El comando anterior genera un nuevo entorno local en el cual instala nuestro modelo de clasificación. 

**Obs**: para instalar el modelo en nuestro computador, debemos acceder `packages/clf_model` y ejecutar `pip install .`. Al instalar el paquete se podrá importar en cualquier instancia del interprete de Python por medio de `import clf_model`.

**Obs**: El estado de la aplicación hasta este punto se puede acceder en el archivo `app_freeze.zip`.

## Construcción de una REST  API 

Una vez empaquetado el modelo se puede utilizar para *servir* sus predicciones. Esto se hará utilizando una REST API, *REST* viene de *Representational State Trasnfer* y *API* (como ya lo sabiamos) de *Application Programming Interface*. Esto quiere decir, que se creará un sistema (servidor) que entregará (al cliente) una representación del estado de un recurso solicitado (predicción del modelo). 

Este tipo de soluciones permite realizar predicciones de manera inmediata a múltiples clientes, además de separar el desarrollo de modelos del *front-end* o capa frontal del cliente. También permite combinar múltiples modelos y escalar a más usuarios. 

A continuación se implementa una API minimal haciendo uso de flask. Para ello, se crea un nuevo paquete siguiendo la estructura:

```
|- ProjectLab/
|--- packages/
|----- clf_model/
|----- clf_api/
|------- api/
|------- requirements.txt
```

In [None]:
%mkdir ProjectLab/packages/clf_api  
%mkdir ProjectLab/packages/clf_api/api 

Se comienza por crear un archivo de requerimientos asociado a la API. Acá se necesita tanto flask como el paquete asociado al modelo `clf_model`, para instalar dicho paquete entregamos la ruta **local relativa**. Observe que el paquete debe haber sido previamente procesado utilizando *setup.py*. 

In [None]:
import flask 
ver = flask.__version__ 

print(f'Se requiere la versio de flask: {ver}')

In [None]:
%%file ProjectLab/packages/clf_api/requirements.txt 
flask >= 1.1.2, < 1.2.0 

#modelo local 
-e '../clf_model'

El siguiente paso corresponde a dar estructura a nuestra aplicación (API). Esto se lleva a cabo en la carpeta `clp_api/api/`. Acá creamos un archivo `__init__.py` 

In [None]:
%%file ProjectLab/packages/clf_api/api/__init__.py  
 

Luego creamos un módulo asociado a la aplicación `app.py` y uno asociado a una *blueprint* de flask. 

El concepto *blueprint* hace referencia a *proyecto* o *plantilla*. En flask esta abstraccioń permite generar componentes de aplicaciones, agregando a la vez soporte para patrones comunes transversales a la aplicación. El manejo de plantillas se hace por medio de la clase `Blueprint` que permite construir y extender una aplicación. Más información en el siguiente [recurso](https://flask.palletsprojects.com/en/1.1.x/blueprints/).

Creamos una blueprint sencilla en el script `controller.py`. Acá buscamos generar una primera prueba para lo que posteriormente se conformará como la ruta sobre la cual se harán predicciones. 

Se comienza importando los objetos necesarios para luego definir nuestra blueplrint (inicial) asociada al componente de predicción, este se denomina `prediction_app`, a esta le asociamos la ruta `/pred_test` y registramos la función correspondiente a aplicar cuando se reciban consultas tipo `GET`.

In [None]:
%%file ProjectLab/packages/clf_api/api/controller.py 
from flask import Blueprint, request

# se define la blueprint, actua como una app pero no lo es!
prediction_app = Blueprint('prediction_app', __name__)

#se define la ruta
@prediction_app.route('/pred_test', methods=['GET'])
def pred_test():
    if request.method == 'GET':
        return 'test aprobado'

Luego hacemos uso de la plantilla generada para crear el esqueleto de la API en el script `app.py`.

In [None]:
%%file ProjectLab/packages/clf_api/api/app.py 
from flask import Flask

def create_app(): 
    flask_app = Flask('clf_api') 
   
    # Se importa la plantilla y se registra
    from api.controller import prediction_app
    flask_app.register_blueprint(prediction_app)

    return flask_app

Posteriormente generamos el script `run.py` con el cual inicializaremos nuestra API. Este se ubica en `clf_api/` y tiene la siguiente estructura:

In [None]:
%%file ProjectLab/packages/clf_api/run.py 
from api.app import create_app

application = create_app()

if __name__ == '__main__':
    application.run()

para probar la configuración hasta acá generada, ingresamos a `packages/clf_api/` y declaramos la variable de entorno `FLASK_APP = run.py`  (ver introducción). 

Finalmente para comprobar el funcionamiento de la aplicación ejecutamos `python run.py` y accedemos a la ruta `pred_test`. Si todo funciona como es debido, se debería tener el mensaje `test aprobado` en pantalla. 

Al igual que con el modelo anterior, la API requiere de módulos de configuraciones, tests y logging.

Se procede a crear un módulo de configuración, en este se definen loggers para guardar registros en disco y mostrar en pantalla. 

Además se genera un sistema de clases con el cual se manejan opciones globales en función del ambiente en el que se ejecuta la API. 

In [None]:
%%file ProjectLab/packages/clf_api/api/config.py  
import logging
from logging.handlers import TimedRotatingFileHandler
import pathlib
import os
import sys

PACKAGE_ROOT = pathlib.Path(__file__).resolve().parent.parent


FORMATTER = logging.Formatter(
    "%(asctime)s — %(name)s — %(levelname)s —"
    "%(funcName)s:%(lineno)d — %(message)s")

LOG_DIR = PACKAGE_ROOT / 'logs'
LOG_DIR.mkdir(exist_ok=True)
LOG_FILE = LOG_DIR / 'clf_api.log'

#Logger en consola
def get_console_handler():
    console_handler = logging.StreamHandler(sys.stdout)
    console_handler.setFormatter(FORMATTER)
    return console_handler

#logger hacia archivos 
def get_file_handler():
    file_handler = TimedRotatingFileHandler(
        LOG_FILE, when='midnight')
    file_handler.setFormatter(FORMATTER)
    file_handler.setLevel(logging.WARNING)
    return file_handler

#permite seleccioanr un logger segun entorno
def get_logger(logger_name):
    """Selecciona el logger segun un nombre"""

    logger = logging.getLogger(logger_name)

    logger.setLevel(logging.DEBUG)

    logger.addHandler(get_console_handler())
    logger.addHandler(get_file_handler())
    logger.propagate = False

    return logger

# Clases de configuracion segun ambiente 

#General
class Config:
    DEBUG = False
    TESTING = False
    CSRF_ENABLED = True
    SECRET_KEY = 'ClaveSecreta123'
    SERVER_PORT = 5000

#Produccion
class ProductionConfig(Config):
    DEBUG = False
    SERVER_PORT = os.environ.get('PORT', 5000)

#Desarrollo
class DevelopmentConfig(Config):
    DEVELOPMENT = True
    DEBUG = True

#Testing
class TestingConfig(Config):
    TESTING = True

Conectamos el módulo de configuraciones con la aplicación ingresando a `app.py`

In [None]:
%%file ProjectLab/packages/clf_api/api/app.py 
from flask import Flask

#importa la configuracion
from api.config import get_logger

# se comporta igual que el logger del paquete clf_model.
_logger = get_logger(logger_name=__name__)


def create_app(config_object):
    
    flask_app = Flask('clf_api') 
    
    #conecta con la configuracion
    flask_app.config.from_object(config_object)

    #Blueprints 
    from api.controller import prediction_app
    flask_app.register_blueprint(prediction_app)
    _logger.debug('Instancia de App creada')

    return flask_app

De la misma manera modificamos el archivo de blueprints

In [None]:
%%file ProjectLab/packages/clf_api/api/controller.py 
from flask import Blueprint, request
from api.config import get_logger


_logger = get_logger(logger_name=__name__)

# se define la blueprint, actua como una app pero no lo es!
prediction_app = Blueprint('prediction_app', __name__)

#se define la ruta
@prediction_app.route('/pred_test', methods=['GET'])
def pred_test():
    if request.method == 'GET':
        _logger.info('Consulta ok')
        return 'test aprobado'

Se necesita agregar un modulo de tests para desarrollar de manera robusta sobre la API, para ello se crea la carpeta `tests` que será manejada por `pytests` al igual que con el módulo `clf_model`. 

Se crea la estructura de carpetas.

In [None]:
%mkdir ProjectLab/packages/clf_api/tests 

In [None]:
%%file ProjectLab/packages/clf_api/tests/__init__.py 
 

Acá haremos uso de un archivo de configuraciones que servirá para declarar variables a nivel global en nuestros tests

In [None]:
%%file ProjectLab/packages/clf_api/tests/conftest.py
import pytest

from api.app import create_app
from api.config import TestingConfig

#crea una instacia test de nuestra aplicacion
@pytest.fixture
def app():
    app = create_app(config_object=TestingConfig)

    with app.app_context():
        yield app

#
@pytest.fixture
def flask_test_client(app):
    with app.test_client() as test_client:
        yield test_client

el archivo`conftest.py` es reconocido por `pytest` de manera predeterminada (lo busca en cada directorio) acá se hace uso de `fixtures`. Las *fixtures* corresponden a funciones cuya utilidad es centralizar la entrega de un tipo de dato. Para comprender este concepto hay que visualizar cada test como un conjunto de operaciones *input*-*output* donde se aseguran las condiciones *input* para contrastar las salidas o *output* con ciertos patrones esperados a priori (sabemos que tipo de datos esperar como salida o incluso que resultado). Podemos definir tests que reciben como *input* una *fixture* y de manera centralizada definimos que resultado entrega dicha *fixture* a cada test que lo requiera. Esto mejora la mantenibilidad de los tests facilitando su manejo. Más información sobre *pytest* en esta [fuente](https://docs.pytest.org/en/stable/).

A continuación se procede a generar un módulo de test para el script `controller.py`.

In [None]:
%%file ProjectLab/packages/clf_api/tests/test_controller.py 
#Se crea el este utilizando la fixture flask_test_client.
def test_health_endpoint_returns_200(flask_test_client):
    #Aplica la consulta
    response = flask_test_client.get('/pred_test')

    #Verifica una correcta respuesta
    assert response.status_code == 200

se confirma el funcionamiento del código implementado por medio de:

```
user@ruta/a/clf_api$ pytest tests
```

**Obs**: no es necesario declarar previamente el valor de `flask_test_client` pues pytest lo carga al inicializar `conftest.py` antes de realizar cualquier test.

Finalmente se modifica el archivo `run.py`

In [None]:
%%file ProjectLab/packages/clf_api/run.py
from api.app import create_app
from api.config import DevelopmentConfig

# se agrega la configuracion de desarrollo
application = create_app(
    config_object=DevelopmentConfig)


if __name__ == '__main__':
    application.run()

### Predicción en la API

Generada la estructra base de tests, configuraciones y loggers, se procede a conectar nuestra API con el modelo de clasificación mediante un *endpoint* de predicción. En este contexto, el término *endopoint* hace referencia a *canal de comunicación* mediante el cual un cliente entrega una solicitud y la API *sirve* con un resultado.

La implementación se basa en el esquema de blueprints utilizado en el test anterior. Se procede a modificar por tanto el script `controller.py`

In [None]:
%%file ProjectLab/packages/clf_api/api/controller.py
from flask import Blueprint, request, jsonify
from api.config import get_logger

#Conectamos la API con el modelo de clasificacion
from clf_model.predict import predict

_logger = get_logger(logger_name=__name__)

prediction_app = Blueprint('prediction_app', __name__)

@prediction_app.route('/pred_test', methods=['GET'])
def pred_test():
    if request.method == 'GET':
        _logger.info('Consulta ok')
        return 'test aprobado'

#Se define el endpoint de prediccion
@prediction_app.route('/v1/predict/classify', methods=['POST'])
def predict_classify():
    if request.method == 'POST':
        json_data = request.get_json()
        _logger.info(f'Inputs: {json_data}')

        result = predict(input_data=json_data)
        _logger.info(f'Outputs: {result}')

        predictions = [int(x) for x in result.get('predictions')]
        version = result.get('version')
        
        print('VERSION:',version)
        return jsonify({'predictions': predictions,
                        'version': version})

Acá hay varios puntos que destacar. En primer lugar, la conexión API - modelo ocurre al importar el paquete `clf_model`. Esto garantiza modularidad pues toda la abstracción asociada al modelo de ciencia de datos queda apartado de API. En segundo lugar, se hace uso de la ruta `/v1/predict/classify` se utiliza `v1` como identificador de la API, (en vez de directamente `/predict/classify` que sería un identificador directo del modelo) esto permite nuevamente separar la API del modelo. Por último, la información es obtenida por medio de métodos `POST` en formato `json` y todo el procesamiento de la información ocurre en la función `predict`. 

El siguiente paso es generar un test asociado a esta nueva funcionalidad

In [None]:
%%file ProjectLab/packages/clf_api/tests/test_controller.py
from clf_model.config import config as model_config
from clf_model import __version__ as _version

import pandas as pd

import json
import math

def test_pred_endpoint_returns_200(flask_test_client):
    response = flask_test_client.get('/pred_test')
    assert response.status_code == 200

def test_prediction_endpoint_returns_prediction(flask_test_client):
    '''Carga los datos de clf_model y efectua un simil del test ahi defindo.'''
    
    test_data = pd.read_csv(model_config.DATA_PATH_TEST)
    post_json = test_data.iloc[[0,-1],:].to_json(orient='index') 

    # Realiza la consulta
    response = flask_test_client.post('/v1/predict/classify',
                                      json=post_json)

    # testea la respuesa
    
    # respuesta correcta
    assert response.status_code == 200
    response_json = json.loads(response.data)
    
    #recupera la prediccion
    prediction = response_json['predictions']
    response_version = response_json['version']
    
    # sanidad del modelo (respuestas conocidas)
    assert prediction[0] == 0
    assert prediction[1] == 1
    
    # recupara la version
    assert response_version == _version


Al ejecutar `pytest` deberían aparecer ambos tests como superados (es posible que existan advertencias del tipo `UserWarning` estas aparecen al cargar modelos guardados con `pickle`).

Con este hemos implementado el *endopoint* de predicción por lo que nuestro modelo puede comenzar a servir con predicciones. Hasta este punto ya podemos considerar la API construida como *funcional *.

El siguiente paso será crear un nuevo *endpoint* asociado a la versiones, tanto de la API como del modelo de clasificación. Para ello, versionamos la api.

In [None]:
%%file ProjectLab/packages/clf_api/VERSION
0.1.0

In [None]:
%%file ProjectLab/packages/clf_api/api/__init__.py
from api.config import PACKAGE_ROOT

with open(PACKAGE_ROOT / 'VERSION') as version_file:
    __version__ = version_file.read().strip()

Luego construimos un endpoint que recibe la versión tanto del modelo como de la API

In [None]:
%%file ProjectLab/packages/clf_api/api/controller.py
from flask import Blueprint, request, jsonify

from clf_model.predict import predict
from clf_model import __version__ as _version

from api import __version__ as api_version
from api.config import get_logger

_logger = get_logger(logger_name=__name__)

prediction_app = Blueprint('prediction_app', __name__)

@prediction_app.route('/pred_test', methods=['GET'])
def pred_test():
    if request.method == 'GET':
        _logger.info('Consulta ok')
        return 'test aprobado'

#Se define el endpoint de prediccion
@prediction_app.route('/v1/predict/classify', methods=['POST'])
def predict_classify():
    if request.method == 'POST':
        json_data = request.get_json()
        _logger.info(f'Inputs: {json_data}')

        result = predict(input_data=json_data)
        _logger.info(f'Outputs: {result}')

        predictions = [int(x) for x in result.get('predictions')]
        version = result.get('version')
        
        print('VERSION:',version)
        return jsonify({'predictions': predictions,
                        'version': version})
    
@prediction_app.route('/version', methods=['GET'])
def version():
    if request.method == 'GET':
        return jsonify({'model_version': _version,
                        'api_version': api_version})

Finalmente construimos un test asociado a esta última funcionalidad

In [None]:
%%file ProjectLab/packages/clf_api/tests/test_controller.py
from clf_model.config import config as model_config
from clf_model import __version__ as _version
from api import __version__ as api_version

import pandas as pd

import json
import math

def test_pred_endpoint_returns_200(flask_test_client):
    response = flask_test_client.get('/pred_test')
    assert response.status_code == 200

def test_prediction_endpoint_returns_prediction(flask_test_client):
    '''Carga los datos de clf_model y efectua un simil del test ahi defindo.'''
    
    test_data = pd.read_csv(model_config.DATA_PATH_TEST)
    post_json = test_data.iloc[[0,-1],:].to_json(orient='index') 

    response = flask_test_client.post('/v1/predict/classify',
                                      json=post_json)

    assert response.status_code == 200
    response_json = json.loads(response.data)

    prediction = response_json['predictions']
    response_version = response_json['version']

    assert prediction[0] == 0
    assert prediction[1] == 1
    assert response_version == _version


def test_version_endpoint_returns_version(flask_test_client):
     # Realiza la consulta
    response = flask_test_client.get('/version')

     # Testea
    assert response.status_code == 200
    response_json = json.loads(response.data)
    assert response_json['model_version'] == _version
    assert response_json['api_version'] == api_version

El resultado es una API que recibe un archivo `json` en un método post en la ruta `/v1/predict/classify`y retorna una predicción. Además, al acceder a la ruta `/version` entrega un archivo `json` con la versión tanto de la API como del modelo. 

Se puede acceder a la versión final de la API implementada por medio del archivo `packages_final.zip`.

El siguente paso corresponde a validar los campos de predicción y en general el *esquema* de la API. Sin embargo, las operaciones de ingenieria de ML conforman un campo de estudio como tal y se escapan al alcance del curso.