## Aprendizaje de máquina II
### Carrera de especialización en inteligencia artificial  

#### **CÓDIGO PARA PRODUCCIÓN**
En el siguiente notebook se presentan algunas prácticas sugeridas para incorporar en nuestro código cuando estamos pensando en pasarlo a producción.  

Para continuar mejorando nuestras habilidades en el desarrollo de software es importante incorporar algunas herramientas o prácticas que van a permitir que nuestro código esté más preparado de cara al pasaje a producción.

* Manejo de errores
* Escribir tests y logs
* Entender el concepto de model drift
* Re-entrenamiento automático vs. no automático

#### Manejo de errores

Cuando programamos en Python existen dos tipos de errores principales con los que nos podemos encontrar: errores de sintáxis y excepciones.  

En el caso de los errores de sintaxis, estos aparecen cuando cometemos algún error al escribir una línea de código. Por ejemplo:  
```
while True print('Hello world')
  File "<stdin>", line 1
    while True print('Hello world')
                   ^
SyntaxError: invalid syntax
```

En el ejemplo anterior podemos observar la falta de un `:` después de la prueba lógica.  

Cuando hablamos de excepciones, nos referimos a los errores que pueden aparecer incluso cuando no hay errores de sintáxis en el código. Por ejemplo si estamos intentando realizar una división por cero nos podemos encontrar con el siguiente mensaje de error:  

```
x = 4/0
---------------------------------------------------------------------------
ZeroDivisionError                         Traceback (most recent call last)
~\AppData\Local\Temp\ipykernel_25980\3839714395.py in ()
----> 1 x = 4/0

ZeroDivisionError: division by zero
```

Otros ejemplos posibles pueden ser `NameError`, `TypeError`, etc.  

Es posible desarrollar código que nos permita manejar o tratar estos tipos de errores. Para ello, veamos como utilizar las cláusulas `try` y `except`.  

El siguiente ejemplo solicita al usuario que ingrese un número mediante el teclado, en caso de que se detecte un valor incorrecto, por ingresar una letra por ejemplo, el programa muestra un mensaje personalizado en vez del error de Python que aparecería en caso de que no hayamos tratado este tipo de error.  

```
while True:
    try:
        x = int(input("Please enter a number: "))
        break
    except ValueError:
        print("Oops!  That was no valid number.  Try again...")
```

* Primero se ejecuta el código que se encuentra dentro de las cláusulas try y except.  
* Si no ocurre ninguna excepción, la cláusula except es pasada por alto y finaliza la ejecución del try.  
* Si durante la ejecución del try ocurre algún error, el resto de la cláusula es pasada por alto. Si el tipo de excepción coincide con el nombre después del `except`, entonces se ejecuta esa cláusula.
* Si durante la ejecución del try ocurre algún error, pero el típo de excepción no coincide con el nombre después del `except` y no se encuentra ningún segmento del código que maneje esta excepción, entonces la ejecución se detiene y aparece el mensaje del error por pantalla.  

Una misma excepción puede manejar varios tipós de errores:  

```
... except (RuntimeError, TypeError, NameError):
...     pass
```

También podemos incorporar varias excepciones para tratar de forma diferente los distintos tipos de errores:


```
... except (RuntimeError):
...     pass
... except (TypeError):
...     pass
... except (NameError):
...     pass
```

Para encontrar información más detallada sobre esto estas cláusulas visitar el siguiente [link](https://docs.python.org/3/tutorial/errors.html).


## Logging

Registrar mensajes de log puede ser muy útil para encontrar errores o mantener al usuario informado de cómo se está llevando a cabo la ejecución del algoritmo.  

Supongamos que nuestro proceso de entrenamiento/inferencia se ejecuta todos los días en horas de la madrugada. Si algún día el código falla o no se ejecuta de la forma correcta, tener un log de mensajes podría ayudar a encontrar más rápidamente el error.  

Al momento de escribir mensajes de log es importante cumplir con las siguientes recomendaciones:

* Escribir mensajes formales y claros
* Utilizar el nivel apropiado de mensaje: debug, error, info, etc.
* Proveer información útil que nos permita localizar el error: nombres de archivos, features, ids, etc.  

Cuando programamos en Python podemos utilizar el módulo `logging` para generar nuestros mensajes de logs:  

```
import logging

logging.basicConfig(
    filename='./logging_info.log',
    level=logging.INFO,
    filemode='w',
    format='%(name)s - %(levelname)s - %(message)s')
```

- **filename='./results.log'**: Este argumento especifica el nombre del archivo de registro donde se guardarán los eventos registrados. En este caso, el archivo se llama "results.log" y se guardará en el directorio actual ('./' indica el directorio actual).

- **level=logging.INFO**: Este argumento establece el nivel de registro para determinar qué eventos se guardarán en el archivo de registro. En este caso, se establece en INFO, lo que significa que se registrarán eventos con un nivel de gravedad de INFO o superior. Esto incluye eventos de nivel INFO, WARNING, ERROR y CRITICAL.

- **filemode='w'**: Este argumento establece el modo de apertura del archivo de registro. En este caso, se establece en 'w', lo que significa que el archivo se abrirá en modo de escritura. Si el archivo ya existe, se sobrescribirá; de lo contrario, se creará uno nuevo.

- **format='%(name)s - %(levelname)s - %(message)s'**: Este argumento especifica el formato en el que se registrarán los eventos en el archivo de registro. En este caso, se utiliza un formato que incluye el nombre del registrador (%(name)s), el nivel de gravedad del evento (%(levelname)s) y el mensaje del evento en sí (%(message)s).

In [None]:
import logging

logging.basicConfig(
    filename='./logging_info.log',
    level=logging.INFO,
    filemode='w',
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
    datefmt='%Y-%m-%d %H:%M:%S')


class model():
    def __init__(self) -> None:
        logging.info("SUCCESS: the model was created successfully")
        pass

    def fit(self):

        logging.info("SUCCESS: model.fit was executed successfully")
        return None
    
    def predict(self):

        logging.info("SUCCESS: model.predict was executed successfully")
        return None


In [2]:
new_model = model()

In [3]:
new_model.fit()
new_model.predict()

## Testing

Testear el código es muy importante para evitar que errores en él puedan llegar al usuario final. Cuando nuestro código pasa a producción es posible que decisiones del negocio se basen en el resultado obtenido por nuestros modelos, y si los mismos no son testeados adecuadamente podríamos generar pérdidas de tiempo, dinero, etc. a la empresa.

Dentro del mundo de ciencia de datos:
* Los problemas con los que nos podemos encontrar puede que no siempre sean detectables facilmente. Por ej.: problemas de codificación de las características, mala interpretación de las características, etc.

* Para tratar con este tipo de problemas es conveniente realizar verificaciones sobre la calidad de los datos, revisar métricas.

* Desarrollo orientado por pruebas (TDD).

* Pruebas unitarias: pruebas que evalúan una unidad de código independiente del resto, por ejemplo una función.

#### Pruebas unitarias

Una manera de probar alguna función de nuestro código podría ser ejecutar esa función con distintos argumentos de entrada, evaluar la salida y ver si es acorde con lo que se espera que haga esa pieza de código. Este testeo manual tiene el problema de ser poco escalable.  

Una herramienta para implementar pruebas unitarias en Python es [pytest](https://docs.pytest.org/en/7.3.x/).  

Para instalar la herramienta podemos ingresar el siguiente comando en la terminal:  

`pip install -U pytest`  

Para comenzar a generar pruebas, debemos crear un archivo `.py` cuyo nombre comience con "test_". Por ejemplo: `test_name_of_my_function.py`.  
Las funciones para ejecutar las pruebas cada una de las pruebas también deben comenzar con "test_". Esto se debe a que pytest buscará las funciones que comiencen con ese patrón para considerarlas como una prueba.

Para ejecutar las pruebas debemos ingresar mediante consola el comando `pytest` en el directorio de nuestro archivo de pruebas.  

Una vez que ejecutemos las pruebas, en la consola se mostrarán los resultados de la siguiente manera:  

`...FF.`  

En este caso cada "." representa un test aprobado y cada "F" un test fallido.

#### Asserts

#### Model drift: data drift y concept drift

Cuando pasamos un modelo a producción podemos utilizar las herramientas vistas anteriormente (logging, tests, manejo de errores, etc.) para intentar minimizar el impacto y la aparición de errores en nuestro desarrollo.  
Aún así nos podemos encontrar con que, a medida que transcurre el tiempo, el desempeño de nuestro modelo se va degradando. Este proceso de degradación de las métricas se conoce como **model drift**.  

Hay dos principales causas por las cuales nuestro modelo puede pasar por esta situación:  

- **data drift**: la distribución de los datos de entrada cambió.  
Ejemplo: modelo de scoring de crédito, luego de desarrollar el modelo sucede un evento externo que cambia el comportamiento de los clientes.

- **concept drift**: la relación entre los datos de entrada y de salida cambió.
Ejemplo: modelo de detección de spam, inicialmente performa bien buscando palabras claves relacionadas a productos farmacéuticos y ofertas de electrodomésticos. Con el paso del tiempo los remitentes del spam cambian el contenido de los mensajes y las palabras clave son otras. Entonces las suposiciones realizadas inicialmente ya no son válidas.



