**Tabla de contenido**

- [Technical requirements](#Technical-requirements)
- [Writing good Python](#Writing-good-Python)
    - [Resumiendo lo básico](#Resumiendo-lo-basico)
    - [Tips and tricks](#Tips-and-tricks)
    - [Cumpliendo con los estándares](#Cumpliendo-con-los-estandares)
    - [Escribir bien PySpark](#Escribir-bien-PySpark)
    - [Elegir un estilo](#Elegir-un-estilo)
        - [Object-oriented programming](#Object-oriented-programming)
        - [Functional programming](#Functional-programming)
    - [Empaquetando tu código](#Empaquetando-tu-codigo)
        - [¿Por qué empaquetar?](#Por-que-empaquetar)
        - [Seleccionando casos de uso para el empaquetado](#Seleccionando-casos-de-uso-para-el-empaquetado)
        - [Diseñando tu paquete](#Disenando-tu-paquete)
        - [Construyendo tu paquete](#Construyendo-tu-paquete)
            - [Makefiles](#Makefiles)
    - [Pruebas, registro y manejo de errores](#Pruebas,-registro-y-manejo-de-errores)
        - [Testing](#Testing)
        - [Logging](#Logging)
        - [Error handling](#Error-handling)
- [No reinventar la rueda](#No-reinventar-la-rueda)
- [Resumen](#Resumen)

En capítulos anteriores, introdujimos muchas de las herramientas y técnicas que necesitarás utilizar para construir con éxito productos de Machine Learning (ML). También presentamos muchos ejemplos de código que nos ayudaron a entender cómo implementar estas herramientas y técnicas. Hasta ahora, todo ha girado en torno a lo que necesitamos programar, pero este capítulo se centrará en cómo programar. En particular, introduciremos y trabajaremos con muchas de las técnicas, metodologías y estándares que son prevalentes en la comunidad más amplia de desarrollo de software en Python y los aplicaremos a casos de uso de ML.

La conversación estará centrada en el concepto de desarrollar bibliotecas y paquetes definidos por el usuario, piezas de código reutilizables que puedes usar para implementar tus soluciones de ML o para desarrollar nuevas. Es importante destacar que todo lo que discutamos aquí se puede aplicar a todas tus actividades de desarrollo en Python a lo largo de tu ciclo de vida del desarrollo de proyectos de ML. Si estás trabajando en algún análisis exploratorio de datos en un cuaderno o en algunos scripts de modelado para la parte de investigación de tu proyecto, tu trabajo aún se beneficiará inmensamente de los conceptos que estamos a punto de introducir.

En este capítulo, recapitularemos algunos de los puntos básicos de la programación en Python, antes de discutir el concepto de estándares de codificación y algunos consejos para escribir código Python de alta calidad. También tocaremos la diferencia entre la programación orientada a objetos y la programación funcional en Python, y dónde esto tiene fortalezas y puntos de sinergia con otras herramientas que podrías querer usar en tu solución. Discutiremos algunos buenos casos de uso para escribir tus propios paquetes de ML y revisaremos las opciones para empaquetar.

A continuación, se discutirá sobre pruebas, registro y manejo de errores en tu código, que son conceptos importantes para construir un código en el que se pueda confiar no solo para que funcione, sino también para que sea diagnosicable cuando no lo hace. Esto será seguido por un análisis profundo del flujo lógico de nuestro paquete. Finalmente, realizaremos una exploración de cómo nos aseguramos de no reinventar la rueda y utilizar funcionalidades que ya existen en otros lugares.

En este capítulo, cubriremos los siguientes temas:

- Escribir bien en Python
- Elegir un estilo
- Empaquetar tu código
- Construir tu paquete
- Pruebas, registro y manejo de errores
- No reinventar la rueda

`NOTA IMPORTANTE`: No hay una diferencia claramente definida entre un paquete y una biblioteca en Python. El consenso general parece ser que la biblioteca a menudo se refiere a cualquier colección de código que deseas reutilizar en otros proyectos, mientras que el paquete se refiere a una colección de módulos de Python (cubiertos en este capítulo). A menudo usaremos los dos intercambiablemente aquí con la comprensión de que cuando decimos biblioteca, generalmente nos referimos a un conjunto de código que está bien organizado y contiene al menos un paquete. Esto significa que no contaremos scripts individuales con algún código que reutilizas más tarde como una biblioteca para nuestros propósitos aquí.

¿Quién no quiere escribir código más robusto, limpio, legible, testeable y de alto rendimiento que pueda ser utilizado por nuestros colegas, la comunidad de ML o incluso nuestros clientes? ¡Empecemos!

# Technical requirements

Para poder ejecutar los ejemplos en este capítulo, necesitarás asegurarte de haber instalado: 

- Scikit-learn
- The Unix make(P-code) utility.

# Writing good Python

Como se discutió a lo largo de este libro, Python es un lenguaje de programación extremadamente popular y muy versátil. Algunos de los productos de software más utilizados en el mundo, y algunas de las soluciones de ingeniería de ML más utilizadas en el mundo, utilizan Python como lenguaje principal. Dada esta amplitud y escala, está claro que si vamos a escribir piezas de software impulsadas por ML igualmente asombrosas, deberíamos una vez más seguir las mejores prácticas y estándares ya adoptados por estas soluciones. En las siguientes secciones, exploraremos lo que significa empaquetar en la práctica y comenzaremos a elevar realmente nuestro código de ML en términos de calidad y consistencia.

## Resumiendo lo basico

Antes de adentrarnos en conceptos más avanzados, aseguremos que todos estemos en la misma sintonía y repasemos algo de la terminología básica del mundo de Python. Esto asegurará que apliquemos los procesos de pensamiento correctos a las cosas adecuadas y que podamos sentirnos seguros al escribir nuestro código. 

En Python, tenemos los siguientes objetos:

- `Variable`: Un objeto que almacena datos de uno de una variedad de tipos. En Python, las variables se pueden crear a través de la asignación sin especificar el tipo, por ejemplo:
    - numerical_variable = 10
    - string_variable = 'string goes here'
- `Function`: Unidad de código que es autosuficiente y realiza pasos lógicos sobre variables (u otro objeto). Definido por la palabra clave def en Python y puede devolver cualquier objeto de Python. Las funciones son ciudadanos de primera clase en Python, lo que significa que puedes hacer referencia a ellas usando su nombre de objeto (y reutilizarlas) y que las funciones pueden pasar y devolver funciones. Así que, por ejemplo, si creamos una función que calcula algunas estadísticas simples de un DataFrame de pandas, podemos hacer lo siguiente. Primero, defínela:
    - def calculate_statistics(df):

        return df.describe()
- `Module`: Este es un archivo que contiene definiciones y declaraciones de funciones, variables y otros objetos donde el contenido se puede importar en otro código de Python. Por ejemplo, si colocamos las funciones definidas en el ejemplo anterior en un archivo llamado module.py, luego podemos escribir lo siguiente en otro programa de Python (o en el intérprete de Python) para utilizar la funcionalidad contenida en él:
    - import module
    - module.calculate_statistics(df)
    - module.make_func_result_json(module.calcualate_statistics, df)
- `Class`: Discutiremos las clases en detalle en la sección de programación orientada a objetos, pero por ahora solo debes saber que estas son las unidades básicas de la programación orientada a objetos y actúan como una buena manera de contener funcionalidad lógicamente relacionada.
- `Package`: Esta es una colección de módulos que están acoplados a través de su estructura de directorios y está construido de tal manera que los módulos en el paquete se acceden a través de la sintaxis de punto. 

Ahora pasemos a discutir algunos consejos y trucos generales de Python.

## Tips and tricks

Ahora hablemos de algunos consejos y trucos para usar Python que a menudo se pasan por alto, incluso por aquellos que están bastante familiarizados con el lenguaje. Los siguientes conceptos pueden ayudarte a escribir un código más compacto y eficiente, así que es bueno tenerlos a mano. Ten en cuenta que esta lista definitivamente no es exhaustiva:

- `Generators`: Estas son funciones de conveniencia para ayudarnos a crear una sintaxis que itere en cierto sentido. Nos ahorran escribir mucho código repetitivo, son eficientes en memoria y tienen propiedades muy útiles, como la capacidad de pausar la ejecución y guardar el estado interno automáticamente. Luego, puedes reanudar la iteración con él más tarde en tu programa. Los generadores se crean en Python cada vez que definimos una función que usa la declaración yield. Por ejemplo, aquí podemos definir un generador que filtrará una lista dada de valores basada en un predicado llamado condición.

In [None]:
def filter_data(data, condition):
    for x in data:
        if condition(x):
            yield x

En acción, podríamos aplicar esto a una lista simple de los enteros del cero al noventa y nueve llamada data_vals y filtrar los valores por debajo de un cierto umbral:

In [None]:
data_vals = [10, 25, 50, 75, 100, 45, 60]

for x in filter_data(data_vals, lambda x: x > 50):
    print(x)

La otra forma de definir una expresión generadora es utilizando una declaración iterativa entre paréntesis. Por ejemplo, aquí podemos definir un generador que itera sobre los cuadrados del cero al nueve:

In [None]:
gen1 = (x**2 for x in range(10))
for i in gen1:
    print(i)

Ten en cuenta que solo puedes ejecutar tus generadores una vez; después de eso, están vacíos. Esto se debe a que solo almacenan lo que necesitan en memoria para cada paso de la iteración, así que una vez que se completa, ¡no se almacena nada!

Los generadores son formas realmente poderosas para crear pasos de manipulación de datos que son eficientes en memoria y se pueden utilizar para definir pipelines personalizadas en marcos como Apache Beam. No lo cubriremos aquí, pero definitivamente vale la pena echarle un vistazo. Como ejemplo, eche un vistazo al artículo en https://medium.com/analytics-vidhya/building-a-data-pipeline-with-python-generators-a80a4d19019e.

- `List comprehension`: Esta es una sintaxis que nos permite tomar cualquier iterable que tengamos a mano (un diccionario, una lista, una tupla y una cadena son todos ejemplos) y construir una lista a partir de él de una manera extremadamente compacta. Esto puede ahorrarte de escribir bucles largos y torpes y puede ayudar a crear un código más elegante. Las comprensiones de listas crean toda la lista en memoria, por lo que no son tan eficientes como los generadores. Así que úsalas con sabiduría y solo para crear listas pequeñas si puedes. Realizas la comprensión de listas escribiendo tu lógica de iteración entre corchetes cuadrados, en lugar de los corchetes redondos de los generadores. Como ejemplo, podemos crear los datos utilizados en el primer ejemplo de generador:

In [None]:
data_vals = [x for x in range(100)]

- `Containers and collections`: Python tiene un conjunto útil de tipos incorporados que se conocen como contenedores, siendo estos dict, set, list y tuple. Los principiantes en Python aprenden a usar estos desde la primera vez que juegan con el lenguaje, pero lo que a menudo podemos olvidar son sus contrapartes aumentadas: colecciones. Estas permiten un comportamiento adicional sobre los contenedores estándar que puede ser útil. La tabla mostrada en la Figura 4.1 resume algunos contenedores útiles mencionados en la documentación de Python 3 en python.org en https://docs.python.org/3/library/collections.html. Estos son útiles tener a mano cuando estás trabajando en algunas manipulaciones de datos y a menudo pueden ahorrarte un par de líneas de código.

| Container     | Descripción                                                                                     |
|---------------|-------------------------------------------------------------------------------------------------|
| deque         | Esta es una cola doblemente terminada que te permite agregar y eliminar elementos en cualquiera de los extremos del objeto de manera escalable. Es útil si deseas agregar al principio o al final de listas de datos grandes o si quieres buscar las últimas ocurrencias de X en tus datos. |
| Counter       | Contadores que actúan como iterables, como diccionarios o listas, y devuelven el conteo de cada uno de los elementos. Son realmente útiles para obtener resúmenes del contenido de esos objetos. |
| OrderedDict   | El objeto estándar dict no mantiene el orden, por lo que OrderedDict introduce esta funcionalidad. Esto puede ser realmente útil si necesitas volver a consultar un diccionario que has creado en el mismo orden en que fue creado para un nuevo procesamiento. |

- `*args and **kwargs`: Cuando queremos llamar a una función en Python, a menudo le proporcionamos argumentos. Ya hemos visto muchos ejemplos de esto en este libro. Pero, ¿qué sucede si defines una función a la que te gustaría aplicar un número variable de argumentos? Aquí es donde entran en juego los patrones *args y **kwargs. Por ejemplo, imagina que queremos inicializar una clase llamada Dirección que utiliza información recopilada de un formulario en línea para crear una sola cadena que dé una dirección. Es posible que no sepamos cuántos elementos habrá en cada cuadro de texto utilizado por el usuario para la dirección de antemano. Entonces podríamos usar el patrón *args (no tienes que llamarlo args, así que aquí lo hemos llamado dirección). Aquí está la clase:

In [None]:
class Address(object):
    def __init__(self, *address):
        if not address:
            self.address = None
            print('No address given')
        else:
            self.address = ' '.join(str(x) for x in address)

Entonces tu código funcionará absolutamente bien en ambos casos, aunque haya un número variable de argumentos para el constructor:


In [None]:
address1 = Address('62', 'Lochview', 'Crescent')
address2 = Address('The Palm', '1283', 'Royston', 'Road')

Entonces address1.address se dará como '62 Lochview Crescent' y address2.address se dará como 'The Palm 1283 Royston Road'.

**kwargs extiende esta idea para permitir un número variable de argumentos con nombre. Esto es particularmente útil si tienes funciones donde podrías querer definir un número variable de parámetros, pero necesitas nombres asociados a esos parámetros. Por ejemplo, podríamos querer definir una clase para contener los valores de hiperparámetros de un modelo de ML, cuyo número y nombres variarán según el algoritmo. Por lo tanto, podemos hacer algo como lo siguiente:

In [None]:
class ModelHyperparameters(object):
    def __init__(self, **hyperparams):
        if not hyperparams:
            self.hyperparams = None
        else:
            self.hyperparams = hyperparams

Entonces el código nos permitirá definir instancias como las siguientes:

In [None]:
hyp1 = ModelHyperparameters(eps=3, distance='euclidean')
hyp2 = ModelHyperparameters(n_clusters=4, max_iter=100)

Y luego hyp1.hyperparams se dará por {'eps': 3, 'distance': 'euclidean'} 

y hyp2.hyperparams por {'n_clusters': 4, 'max_iter': 100}.

Hay muchos más conceptos que son importantes de entender para una comprensión detallada de cómo funciona Python. Por ahora, estos puntos serán suficientes para que podamos desarrollar a lo largo del capítulo.

## Cumpliendo con los estandares

Cuando dices algo como adherirse a los estándares, en la mayoría de los contextos podrías perdonar a quien te escucha por esperar un suspiro y un gigantesco giro de ojos. Los estándares suenan aburridos y tediosos, pero de hecho son una parte extremadamente importante para asegurarte de que tu trabajo sea consistente y de alta calidad.

En Python, el estándar de facto para el estilo de codificación es la Propuesta de Mejora de Python 8 (PEP-8), escrita por Guido Van Rossum (el creador de Python), Barry Warsaw y Nick Coghlan (https://www.python.org/dev/peps/pep-0008/). Es esencialmente una colección de pautas, consejos, trucos y sugerencias para hacer código que sea consistente y legible. Algunos de los beneficios de adherirse a la guía de estilo PEP-8 en tus proyectos de Python son los siguientes:

- `Greater consistency`: Esto te ayudará a escribir código que sea menos propenso a fallar una vez que lo hayas desplegado, ya que es mucho más fácil seguir el flujo de tus programas e identificar errores y fallos. La consistencia también ayuda a simplificar el diseño de extensiones e interfaces para tu código.
- `Improved readability`: Esto da lugar a la eficiencia, ya que los colegas e incluso los usuarios de tus soluciones pueden entender qué se está haciendo y cómo usarlo de manera más efectiva.

Entonces, ¿qué hay en la guía de estilo PEP-8? ¿Y cómo deberías pensar en aplicarla a tu proyecto de ML? Para los detalles completos, te recomiendo que leas la documentación de PEP-8 mencionada anteriormente. Pero en los próximos párrafos, profundizaremos en algunos de los detalles que te darán la mayor mejora en tu código con el menor esfuerzo.

Primero, cubramos las convenciones de nomenclatura. Cuando escribes una pieza de código, tendrás que crear varias variables, archivos y otros objetos, como clases, y todos ellos deben tener un nombre. Asegurarte de que estos nombres sean legibles y consistentes es la primera parte para que tu código tenga un estándar muy alto.

Algunos de los puntos clave de PEP-8 son los siguientes:

- `Variables and function names`: Se recomienda que estos consistan en palabras en minúsculas, separadas por guiones bajos. También deberían ayudarnos a comprender para qué sirven. Como ejemplo, si estás construyendo un modelo de regresión y quieres poner algunos de tus pasos de ingeniería de características dentro de una función para simplificar la reutilización y la legibilidad en otras partes del código, puedes llamarlo algo así como Makemydata():


In [None]:
def Makemydata():
    # steps go here …
    return result

Llamar a tu función Makemydata() no es una buena idea, mientras que nombrarla algo como transform_features es mejor:

In [None]:
def transform_features():
    # steps go here …
    return result

Este nombre de función es conforme a PEP-8.

- `Modules and packages`: La recomendación es que estos tengan todos nombres cortos en minúsculas. Algunos grandes ejemplos son aquellos que ya conoces, como pandas, numpy y scipy. Scikit-learn puede parecer que rompe esta regla, pero en realidad no lo hace, ya que el nombre del paquete es sklearn. La guía de estilo menciona que los módulos pueden tener guiones bajos para mejorar la legibilidad, pero los paquetes no deberían. Si tuviéramos un módulo en un paquete llamado transform_helpers, eso sería aceptable, pero un paquete entero llamado marketing_outlier_detection sería terrible.

- `Classes`: Las clases deben tener nombres como OutlierDetector, Transformer o PipelineGenerator, que especifican claramente lo que hacen y también siguen el estilo de mayúsculas en CamelCase o PascalCase (ambos significan lo mismo).

Estas son algunas de las convenciones de nomenclatura más comúnmente utilizadas de las que debes estar al tanto. El documento PEP-8 también abarca muchos buenos puntos sobre el espacio en blanco y el formato de las líneas que no detallaremos aquí. Terminaríamos esta sección con una discusión sobre algunas de las sugerencias favoritas del autor de las recomendaciones de programación de PEP-8. A menudo se pasan por alto y, si se olvidan, pueden resultar en un código que es horrible de leer y propenso a romperse, ¡así que ten cuidado!

Un buen punto a recordar en toda esta conversación sobre estilo es que en la parte superior del documento PEP-8 se establece que la Consistencia Tonta es el Duende de las Mentes Pequeñas y que hay buenas razones para ignorar estas sugerencias de estilo en ciertas circunstancias. Nuevamente, lee el documento PEP-8 para el trabajo completo, pero si sigues estos puntos, entonces, en general, escribirás código limpio y legible.

A continuación, cubriremos cómo algunas de estas reglas no se aplican realmente cuando estamos utilizando la API de Python para Apache Spark.

## Escribir bien PySpark

En esta sección, llamamos la atención sobre un sabor particular de Python que es muy importante en el mundo de la ciencia de datos y el aprendizaje automático (ML). El código de PySpark ya se ha utilizado en ejemplos a lo largo de este libro, ya que es la herramienta preferida para distribuir las cargas de trabajo de datos, incluidos los modelos de ML. En el Capítulo 6, Escalando, aprenderemos más sobre PySpark, pero aquí solo mencionaremos brevemente algunos puntos sobre el estilo de codificación.

Como se menciona en la sección sobre los pipelines de Spark ML en el Capítulo 3, De Modelo a Fábrica de Modelos, dado que Spark está escrito en Scala, la sintaxis de PySpark (que es solo la API de Python para Spark) ha heredado mucho del estilo sintáctico de ese lenguaje subyacente. Esto significa en la práctica que muchos de los métodos que uses estarán escritos en CamelCase, lo que también tiene sentido para definir tus variables utilizando CamelCase en lugar de la convención de nomenclatura estándar de Python PEP-8 de palabras separadas por guiones bajos.

Este es un comportamiento que deberíamos fomentar, ya que ayuda a las personas que leen nuestro código a ver claramente qué secciones son código de PySpark y cuáles son (más) Python 'vanilla'. Para enfatizar esto, cuando usamos el objeto StringIndexer del paquete pyspark.ml antes, usamos StringIndexer en lugar del Python más idiomático, string_indexer:

In [None]:
from pyspark.ml.feature import StringIndexer
stringIndexer = StringIndexer(inputCol=categoricalCol,
                              outputCol=categoricalCol)

Otro punto importante sobre el código de PySpark es que, dado que Spark está escrito en un paradigma funcional, también tiene sentido que tu código siga este estilo. Entenderemos un poco más sobre lo que esto significa en la siguiente sección.


## Elegir un estilo

Esta sección proporcionará un resumen de dos estilos o paradigmas de codificación, que utilizan diferentes principios de organización y capacidades de Python. Si escribes tu código en un estilo orientado a objetos o funcional podría ser solo una elección estética. Sin embargo, esta elección también puede ofrecer otros beneficios, como un código que esté más alineado con los elementos lógicos de tu problema, un código que sea más fácil de entender o incluso un código más eficiente.


### Object-oriented programming

La Programación Orientada a Objetos (POO) es un estilo donde el código está organizado en torno, como adivinaste, a objetos abstractos con atributos y datos relevantes en lugar de en torno al flujo lógico de tu solución. El tema de la POO merece un libro (¡o varios libros!) por sí mismo, por lo que nos centraremos en los puntos clave que son relevantes para nuestro viaje en ingeniería de ML.

Primero, en OOP, tienes que definir tus objetos. Esto se hace en Python a través del principio central de OOP de clases, que son definiciones de estructuras en tu programa que agrupan datos y elementos lógicos relacionados. Una clase es una plantilla para definir los objetos en OOP. Como ejemplo, considera una clase muy simple que agrupa algunos métodos para calcular valores atípicos numéricos en un conjunto de datos.

Por ejemplo, si consideramos los pipelines que analizamos en el Capítulo 3, De Modelo a Fábrica de Modelos, podríamos querer tener algo que facilite aún más su aplicación en un entorno de producción. Por lo tanto, puede que deseemos agrupar parte de la funcionalidad proporcionada por herramientas como scikit-learn en una clase propia que contenga pasos específicos para nuestro problema. En el caso más simple, si quisiéramos una clase para envolver la estandarización de nuestros datos y luego aplicar un modelo genérico de detección de outliers, podría verse algo así:

In [None]:
class OutlierDetector(object):
    def __init__(self, model=None):
        if model is not None:
            self.model = model
        
        self.pipeline = make_pipeline(StandardScaler(), self.model)
    def detect(self, data):
        return self.pipeline.fit(data).predict(data)

Todo lo que hace este ejemplo es permitir a un usuario omitir escribir algunos de los pasos que de lo contrario tendría que escribir para completar la tarea. El código no desaparece, solo se coloca dentro de un objeto útil con una definición lógica clara. En este caso, la pipeline mostrada es extremadamente simple, pero podemos imaginar extender esto a algo muy complejo y que contenga lógica específica para nuestro caso de uso. Por lo tanto, si ya hemos definido un modelo de detección de valores atípicos (o recuperado de un almacén de modelos, como MLFlow, como se discutió en el Capítulo 3, De Modelo a Fábrica de Modelos) podemos luego introducir esto en esta clase y ejecutar pipelines bastante complejas con una sola línea de código, sin importar la complejidad contenida dentro de la clase:

In [None]:
model = IsolationForest(behaviour='new',
                        contamination=outliers_fraction,
                        random_state=42)
detector = OutlierDetector(model=model)
result = detector.detect(data)

Como puedes ver en el ejemplo, este patrón de implementación parece familiar, ¡y eso es porque debería serlo! Scikit-learn tiene mucho OOP en él, y utilizas este paradigma cada vez que creas un modelo. El acto de crear un modelo es un caso de que estés instanciando un objeto de clase, y el proceso de llamar a fit o predict en tus datos son ejemplos de llamar a métodos de clase. Así que, la razón por la que el código anterior puede no parecer alienígena es porque ¡no debería serlo! Ya hemos estado utilizando OOP si hemos hecho algún ML con scikit-learn.

A pesar de lo que acabamos de decir, usar objetos y entender cómo construirlos son, obviamente, dos desafíos diferentes. Así que, repasemos los conceptos fundamentales de construir nuestras propias clases. Esto nos preparará más adelante para crear más clases de relevancia para nuestras propias soluciones de ML.

Primero, puedes ver en el fragmento de código anterior que se define una clase con la palabra clave class y que la convención PEP-8 es utilizar CamelCase en mayúsculas para el nombre de la clase. También es una buena práctica hacer que los nombres de tus clases sean definiciones claras de cosas que hacen cosas. Por ejemplo, OutlierDetector, ModelWrapper y DataTransformer son buenos nombres de clase, pero Outliers o Calculation no lo son.

También notarás que tenemos algo entre corchetes después del nombre de la clase. Esto le indica a la clase de qué objeto heredar funcionalidad. En el ejemplo anterior, podemos ver que esta clase hereda de algo llamado object. Esta es en realidad la clase base incorporada en Python de la que heredan todos los demás objetos. Por lo tanto, dado que la clase que definimos no hereda de nada más complejo que el objeto, puedes pensar en esto como decir que la clase que estamos a punto de construir tendrá toda la funcionalidad que necesita definida dentro de ella; no necesitamos usar funcionalidad más compleja ya definida en otros objetos para esta clase. La sintaxis que muestra la herencia de objeto es en realidad superflua, ya que puedes simplemente omitir los corchetes y escribir OutlierDetector, pero puede ser una buena práctica hacer la herencia explícita.

A continuación, puedes ver que la funcionalidad que queremos agrupar está definida dentro de la clase. Las funciones que viven dentro de una clase se llaman métodos. Puedes ver que OutlierDetector tiene solo un método llamado detect, pero no estás limitado en cuántos métodos puede tener tu clase. Los métodos contienen las habilidades de tu clase para interactuar con datos y otros objetos, por lo que su definición es donde se concentra la mayor parte del trabajo de construir tu clase.

Podrías pensar que hemos pasado por alto un método, el llamado __init__(). De hecho, este no es un método (o puedes considerarlo como un método muy especial) y se llama constructor. El constructor hace lo que dice: ¡construye! Su trabajo es realizar todas las tareas de configuración relevantes (algunas de las cuales ocurren en segundo plano, como la asignación de memoria) para tu clase cuando se inicializa como un objeto. Cuando el ejemplo define detector, se llama al constructor. Como puedes ver, puedes pasar variables y luego estas variables pueden ser utilizadas dentro de la clase. Las clases en Python se pueden crear sin definir un constructor explícito, pero se creará uno en segundo plano. El último punto que haremos sobre los constructores es que no se les permite devolver nada diferente de None, por lo que es común dejar la declaración de retorno sin escribir.

También habrás visto en el ejemplo que hay variables dentro de la clase y hay una palabra clave un tanto misteriosa llamada self. Esto permite que los métodos y operaciones dentro de la clase se refieran a la instancia particular de la clase. Así que, si defines dos o cien instancias del objeto OutlierDetector, es posible que todas tengan diferentes valores para sus atributos internos, pero aún así tengan la misma funcionalidad.

Crearemos algunos estilos de OOP más elaborados para tu solución de ML más adelante, pero por ahora, discutamos el otro paradigma de programación que podríamos querer usar: la programación funcional.


### Functional programming

La programación funcional se basa en el concepto de, lo adivinaste, funciones. En su esencia, este paradigma de programación se trata de intentar escribir trozos de código que solo reciben datos y producen datos, haciéndolo sin crear ningún estado interno que pueda ser modificado. Uno de los objetivos de la programación funcional es escribir código que no tenga efectos secundarios no intencionados debido a una mala gestión del estado. También tiene la ventaja de asegurar que el flujo de datos en tus programas puede ser entendido completamente al observar las declaraciones de retorno de las funciones que has escrito.

Utiliza la idea de que los datos en tu programa no pueden cambiar en su lugar. Este concepto se conoce como inmutabilidad. Si tus datos (o cualquier objeto) son inmutables, significa que no hay un estado interno que modificar y, si quieres hacer algo con los datos, realmente debes crear nuevos datos. Por ejemplo, en la sección sobre programación orientada a objetos, volvimos a visitar el concepto de estandarizar datos. En un programa funcional, los datos estandarizados no pueden sobrescribir los datos no estandarizados; tendrías que almacenar estos nuevos datos en algún lugar, por ejemplo, en una nueva columna en la misma estructura de datos.

Algunos lenguajes de programación están diseñados con principios funcionales en su núcleo, como F# y Haskell, pero Python es un lenguaje de propósito general que puede acomodar ambos paradigmas de manera bastante adecuada.

Es probable que hayas visto algunos otros conceptos de programación funcional en otros códigos de Python. Por ejemplo, si alguna vez has utilizado una función lambda, entonces este puede ser un aspecto poderoso de un código programado funcionalmente, ya que es cómo defines funciones anónimas (aquellas sin un nombre específico). Así que, es posible que hayas visto un código que se parece a algo como esto:

In [None]:
df['data_squared'] = df['data'].apply(lambda x: x**2)

En el bloque de código anterior, df es un dataframe de pandas y data es solo una columna de números. Esta es una de las herramientas que ayuda a hacer que la programación funcional en Python sea más fácil. Otras herramientas similares son las funciones incorporadas map(), reduce() y filter().

Como ejemplo, imagina que tenemos algunos datos de direcciones similares a los de la sección Recapitulando lo básico, donde discutimos los conceptos de args y **kwargs:

In [None]:
data = [
['The', 'Business', 'Centre', '15', 'Stevenson', 'Lane'],
['6', 'Mossvale', 'Road'],
['Studio', '7', 'Tottenham', 'Court', 'Road']
]

Ahora, podríamos querer escribir un código que devuelva una lista de listas con la misma forma que estos datos, pero cada entrada ahora contiene el número de caracteres en cada cadena. Esto podría ser una etapa en un paso de preparación de datos en una de nuestras canalizaciones de ML. Si quisiéramos escribir algún código para hacer esto de manera funcional, podríamos definir una función que tome una lista y devuelva una nueva lista con las longitudes de las cadenas para las entradas así:

In [None]:
def len_strings_in_list(data_list):
    return list(map(lambda x: len(x), data_list))

Esto encarna la programación funcional porque los datos son inmutables (no hay cambio de estado interno) y la función es pura (solo utiliza datos dentro del alcance de la función). Luego podemos usar otro concepto de la programación funcional llamado funciones de orden superior, donde suministras funciones como argumentos de otras funciones. Por ejemplo, podemos querer definir una función que pueda aplicar cualquier función basada en listas, pero a una lista de listas:


In [None]:
def list_of_list_func_results(list_func, list_of_lists):
    return list(map(lambda x: list_func(x), list_of_lists))

Tenga en cuenta que esto es completamente genérico; siempre que list_func() se pueda aplicar a una lista, esto funcionará en una lista de listas. Por lo tanto, podemos obtener el resultado original que queríamos llamando a lo siguiente:

In [None]:
list_of_list_func_results(len_strings_in_list, data)

Spark, una herramienta que ya se ha utilizado múltiples veces en este libro, está escrita en el lenguaje Scala, que también es de propósito general y puede acomodar tanto programación orientada a objetos como programación funcional. Spark está predominantemente escrito en un estilo funcional; su objetivo de distribuir la computación se acomoda más fácilmente si se respetan principios como la inmutabilidad. Esto significa que cuando hemos estado escribiendo código PySpark a lo largo de este libro, hemos estado absorbiendo sutilmente algunas prácticas de programación funcional (¿te diste cuenta?).

De hecho, en el Capítulo 3, De modelo a fábrica de modelos, el ejemplo de pipeline de PySpark que construimos tenía código como este:

In [None]:
data = data.withColumn('label', f.when((f.col("y") == "yes"), 1).otherwise(0))

Esto es funcional ya que el objeto de datos que creamos es en realidad un nuevo dataframe con la nueva columna añadida; no podemos simplemente agregar una columna en el lugar. También había código que formaba parte de nuestros pipelines de la biblioteca Spark MLlib:

In [None]:
scaler = StandardScaler(inputCol='numerical_cols_imputed',
outputCol="numerical_cols_imputed_scaled")

Esto define cómo tomar una serie de columnas en un dataframe y realizar una transformación de escalado en ellas. Nota cómo defines las columnas de entrada y las columnas de salida, y estas no pueden ser las mismas. Eso es la inmutabilidad en acción: tienes que crear nuevos datos en lugar de transformarlos en su lugar.

Esperemos que esto te dé una idea de la programación funcional en Python. Este no es el paradigma principal que usaremos en este libro, pero se utilizará para algunas piezas de código y, en particular, recuerda que cuando usamos PySpark a menudo estamos usando programación funcional de forma implícita. Ahora discutiremos formas de empaquetar el código que has escrito.

## Empaquetando tu codigo

En algunos aspectos, es interesante que Python haya conquistado al mundo. Es un lenguaje de tipo dinámico y no compilado, por lo que puede ser bastante diferente trabajar con él en comparación con Java o C++. Esto se hace especialmente evidente cuando pensamos en empaquetar nuestras soluciones en Python. Para un lenguaje compilado, el objetivo principal es producir un artefacto compilado que pueda ejecutarse en el entorno elegido, como un archivo jar de Java. Python requiere que el entorno en el que se ejecute tenga un intérprete de Python apropiado y la capacidad de instalar las bibliotecas y paquetes que necesitas. Además, no se crea un único artefacto compilado, por lo que a menudo necesitas desplegar todo tu código tal como está.

A pesar de esto, Python ha tomado el mundo por sorpresa, especialmente en el aprendizaje automático. Como ingenieros de aprendizaje automático que pensamos en llevar modelos a producción, sería un descuido no entender cómo empaquetar y compartir código Python de una manera que ayude a otros a evitar la repetición, a confiar en la solución y a poder integrarlo fácilmente con otros proyectos.

En las siguientes secciones, primero vamos a discutir lo que queremos decir con una biblioteca definida por el usuario y algunas de las ventajas de empaquetar tu código de esta manera. Luego, vamos a definir las principales formas en que puedes hacer esto para que puedas ejecutar tu código de ML en producción.

## Por que empaquetar

Antes de discutir en detalle qué es exactamente un paquete o una biblioteca en Python, podemos articular las ventajas utilizando una definición funcional de una colección de código Python que se puede ejecutar sin un conocimiento detallado de su implementación.

Ya habrás recogido de esta definición la naturaleza de la primera razón para hacer esto: abstracción.

Reunir tu código en una biblioteca o paquete que pueda ser reutilizado por otros desarrolladores y científicos de datos en tu equipo, organización o la comunidad más amplia permite a estos grupos de usuarios resolver problemas más rápidamente. Dado que los detalles del trabajo están abstraídos, cualquier persona que use tu código puede enfocarse en implementar las capacidades de tu solución, en lugar de intentar entender y diseccionar cada línea. Esto conducirá a una reducción del tiempo de desarrollo y despliegue en los proyectos, así como a fomentar el uso de tu código en primer lugar!

La segunda ventaja es que al consolidar la funcionalidad que necesitas en una biblioteca o paquete; traes todos los detalles de implementación a un solo lugar y, por lo tanto, las mejoras son escalables. Lo que queremos decir con esto es que si 40 proyectos están utilizando tu biblioteca y alguien descubre un error menor, solo necesitas corregirlo una vez y luego volver a implementar o actualizar el paquete en esas 40 implementaciones. Esto es mucho más escalable que explicar el problema a los equipos relevantes y obtener 40 correcciones diferentes en el final de la implementación. Esta consolidación también significa que una vez que hayas probado a fondo todos los componentes, puedes asumir con más confianza que esta solución funcionará sin problemas en esos 40 proyectos diferentes, sin saber nada sobre los detalles internos.


## Seleccionando casos de uso para el empaquetado

Primero lo primero, no todas tus soluciones deberían ser bibliotecas. Si tienes un caso de uso extremadamente simple, puede que solo necesites un script sencillo que se ejecute en un horario para el núcleo de tu solución de ML. Aún puedes escribir un sistema bien diseñado y un código eficiente en este caso, pero no será una biblioteca. Del mismo modo, si tu problema se resuelve mejor con una aplicación web, entonces, aunque habrá muchos componentes, no será naturalmente una biblioteca.

Algunas buenas razones por las que podrías querer redactar tu solución como una biblioteca o paquete son las siguientes:

- El problema que resuelve tu código es uno común que muchos encuentran en múltiples proyectos o entornos.
- Quieres abstraer los detalles de implementación para que la ejecución y el desarrollo estén desacoplados, facilitando que otros utilicen tu código.
- Minimizar el número de lugares y la cantidad de veces que necesitas cambiar el código para implementar correcciones de errores.
- Para hacer que las pruebas sean más simples.
- Para simplificar tu pipeline de Integración Continua/Desarrollo Continuo (CI/CD).

Ahora nos sumergiremos en cómo podríamos diseñar nuestros paquetes.

## Disenando tu paquete

La estructura de tu base de código es mucho más que una consideración estilística. Es algo que determinará cómo se usa tu código en cada instancia del proyecto - ¡sin presión!

Esto significa que es importante reflexionar sobre cómo quieres organizar tu código y cómo esto influye en los patrones de uso. Debes asegurarte de que todos los componentes principales que necesitas estén presentes en la base de código y sean fáciles de encontrar.

Trabajemos esto con un ejemplo basado en el caso de detección de valores atípicos que analizamos en las secciones anteriores.

Primero, necesitamos decidir qué tipo de solución queremos crear. ¿Estamos construyendo algo que ejecute una aplicación web o un ejecutable independiente con muchas funcionalidades, o estamos construyendo una biblioteca para que otros la utilicen en sus proyectos de ML? De hecho, ¡podemos elegir hacer más de una cosa! Para este caso, vamos a construir un paquete que se pueda importar para su uso en otros proyectos, pero que también pueda ejecutarse en un modo de ejecución independiente.

Para establecer el contexto para el desarrollo de nuestro paquete, imagina que nos han pedido que comencemos a construir una solución que pueda ejecutar un conjunto de modelos de detección de outliers no supervisados seleccionados. Los científicos de datos han encontrado que, para el problema en cuestión, los modelos de Isolation Forest son los más eficientes, pero deben ser reentrenados en cada ejecución y los usuarios del paquete deberían poder editar la configuración de los modelos a través de un archivo de configuración. Hasta ahora, solo se han estudiado modelos de sklearn, pero el negocio y los usuarios del paquete desearían que esta funcionalidad fuera extensible a otras herramientas de modelado si es necesario. Los requisitos técnicos del proyecto significan que no podemos usar MLflow para este proyecto. No te preocupes; en capítulos posteriores, cuando construyamos más ejemplos, relajaremos esta restricción para mostrar cómo todo encaja.


Lo que vamos a construir es un paquete de Python (una carpeta con varios archivos .py) para detectar outliers.
La gracia de hacerlo así es:

Separar responsabilidades en clases y archivos.

Permitir que los modelos a usar se definan en un archivo JSON (fácil de cambiar sin tocar código).

Que el código principal solo “ensamble” todo y ejecute.

El proyecto quedaría más o menos así:

![carpetas](figures/carpetas.png)



1. Crea la carpeta principal del proyecto: outliers
2. Crear la subcarpeta configs, detectors y utils

Explicación de cada parte

1. pipelines.py

Aquí está la clase que construye un pipeline (escalar datos + modelo). Esta clase no sabe qué modelo usar. Solo recibe uno y lo mete en un pipeline junto con un StandardScaler. Esta es la que vamos a guardar con el nombre pipelines.py y se guardará en la carpeta detectors


In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
class OutlierDetector(object):
    def __init__(self, model=None):
        if model is not None:
            self.model = model
            self.pipeline = make_pipeline(StandardScaler(), self.model)
        def detect(self, data):
            return self.pipeline.fit(data).predict(data)

2. detection_models.py

Aquí está la clase que sabe qué modelos están permitidos y cómo crearlos a partir del JSON:

- Lee el archivo JSON con los modelos aprobados.

- Instancia cada modelo con sus parámetros.

- Devuelve una lista de modelos listos para usarse.

Guardar esta clase en la carpeta detectors con el nombre de detection_models.py

In [None]:
import json
from sklearn.ensemble import IsolationForest

class DetectionModels(object):
    def __init__(self, model_config_path=None):
        if model_config_path is not None:
            with open(model_config_path) as w:
                self.model_def = json.load(w)

    def create_model(self, model_name=None, params=None):
        if model_name is None and params is None:
            return None

        if model_name == "IsolationForest" and params is not None:
            return IsolationForest(**params)

    def get_models(self):
        models = []
        for model_definition in self.model_def:
            defined_model = self.create_model(
                model_name=model_definition["model"],
                params=model_definition["params"]
            )
            models.append(defined_model)
        return models


Puedes estar pensando por qué no simplemente leer el modelo apropiado y aplicarlo, sin importar cuál sea. Eso podría ser una solución viable, pero lo que hemos hecho aquí significa que solo los tipos de modelos y algoritmos que han sido aprobados por el equipo que trabaja en el proyecto pueden llegar a producción, además de permitir el uso de implementaciones de modelos heterogéneos.

Para ver cómo podría funcionar todo esto en la práctica, definamos un script llamado __main__.py en el nivel más alto del paquete que puede actuar como el punto de entrada principal para la ejecución de modelado.

Este scrip debemos guardarlo como __main__.py en la carpeta outliers


In [None]:
from outliers.utils.data import create_data
from outliers.detectors.detection_models import DetectionModels
from outliers.detectors.pipelines import OutlierDetector
from outliers.definitions import MODEL_CONFIG_PATH

if __name__ == "__main__":
    data = create_data()
    models = DetectionModels(MODEL_CONFIG_PATH).get_models()
    for model in models:
        detector = OutlierDetector(model=model)
        result = detector.detect(data)
        print(result)

3. model_config.json

Aquí defines los modelos permitidos y sus parámetros. Guardar este archivo en en la carpeta configs copn el nombre model_config.json

In [None]:
[
    {
        "model": "IsolationForest",
        "params": {
            "contamination": 0.15,
            "random_state": 42
        }
    }
]

El archivo definitions.py es un archivo que contiene rutas relevantes y otras variables que queremos hacer accesibles globalmente en el paquete sin contaminar el espacio de nombres. Debe guardarse en la carpeta outliers.

In [None]:
import os
ROOT_DIR = os.path.dirname(__file__)
MODEL_CONFIG_PATH = os.path.join(ROOT_DIR, "configs/model_config.json")

Podemos ver que realmente no hacemos nada con los resultados, solo los imprimimos para mostrar que se produce una salida, pero en realidad llevarás estos resultados a otro lugar o calcularás estadísticas sobre ellos. Este script se puede ejecutar escribiendo esto en tu terminal:

In [None]:
python -m outliers

Y así es como puedes empaquetar la funcionalidad en clases, módulos y paquetes. El ejemplo dado fue relativamente restringido, pero nos da una idea de cómo las diferentes piezas pueden ser unidas y ejecutadas.

NOTA IMPORTANTE: El ejemplo dado aquí se ha construido para mostrarte cómo unir tu código utilizando algunas de las técnicas discutidas en este capítulo. No es necesariamente la única manera de juntar todos estos elementos, pero sí es una buena ilustración de cómo crear tu propio paquete. Así que, solo recuerda que si ves una forma de mejorar esta implementación o adaptarla a tus propios propósitos, ¡genial!

En la siguiente sección, exploraremos cómo construir distribuciones de este código y cómo permitirnos a nosotros y a los usuarios instalar el paquete outliers como un paquete de Python normal que podamos usar en otros proyectos.


## Construyendo tu paquete

En nuestro ejemplo, podemos empaquetar nuestra solución utilizando la biblioteca setuptools. Para hacer esto, debes crear un archivo llamado setup.py que contenga los metadatos importantes para tu solución, incluyendo la ubicación de los paquetes relevantes que requiere. Un ejemplo de setup.py se muestra en el siguiente bloque de código. Esto muestra cómo hacerlo para un paquete simple que envuelve algunas de las funcionalidades de detección de valores atípicos que hemos mencionado en este capítulo:


In [None]:
from setuptools import setup

setup(name='outliers',version='0.1',
      description='A simple package to wrap some outlier detection functionality',
      author='Andrew McMahon',
      license='MIT',
      packages=['outliers'],
      zip_safe=False)

Podemos ver que setuptools te permite proporcionar metadatos como el nombre del paquete, el número de versión y la licencia del software. Una vez que tengas este archivo en el directorio raíz de tu proyecto, puedes hacer algunas cosas:

1. Primero, puedes instalar el paquete localmente como un ejecutable. Esto significará que puedes importar tu biblioteca como cualquier otra biblioteca de Python en el código que desees ejecutar:

2. Puedes crear una distribución de código fuente del paquete para que todo el código esté agrupado de manera eficiente. Por ejemplo, si ejecutas el siguiente comando en la raíz de tu proyecto, se crea un archivo tar comprimido en una carpeta llamada dist: `python setup.py sdist`

3. Puedes crear una distribución construida del paquete, que es un objeto que puede ser descomprimido y utilizado de inmediato por el usuario sin que tengan que ejecutar el script setup.py como en una distribución de fuente. La distribución construida más apropiada es lo que se conoce como una rueda de Python: `python setup.py bdist_wheel`

4. Si vas a distribuir tu código usando pip, entonces tiene sentido empaquetar tanto una distribución fuente como una wheel  y dejar que el usuario decida qué hacer. Así que, puedes construir ambas y luego usar un paquete llamado twine para subir ambas distribuciones a PyPI. Si deseas hacer esto, entonces necesitas registrarte para una cuenta de PyPI en https://pypi.org/account/register/. Simplemente ejecuta los dos comandos anteriores juntos en el directorio raíz de tu proyecto y utiliza el comando de subida de twine:

python setup.py sdist bdist_wheel

twine upload dist/*


### Makefiles

Si estamos en un sistema UNIX y tenemos instalada la utilidad make, entonces podemos automatizar aún más muchos de los pasos que queremos ejecutar para nuestra solución en diferentes escenarios utilizando Makefiles. Por ejemplo, en el siguiente bloque de código tenemos un Makefile que nos permite ejecutar el punto de entrada principal de nuestro módulo, ejecutar nuestra suite de pruebas o limpiar cualquier artefacto utilizando los objetivos run, test y clean:

MODULE := outliers

run:

@python -m $(MODULE)

test:

@pytest

.PHONY: clean test

clean:
rm -rf .pytest_cache .coverage .pytest_cache coverage.xml

Este es un Makefile muy simple, pero podemos hacerlo tan complejo como sea necesario añadiendo más y más comandos. Si queremos ejecutar un conjunto de comandos de un objetivo específico, simplemente llamamos a make y luego al nombre del objetivo:

make test

make run

Esta es una forma poderosa de abstraer una gran cantidad de comandos de terminal que, de otro modo, tendrías que ingresar manualmente en cada caso. También actúa como documentación para otros usuarios de la solución. A continuación, cubramos algunos de los pasos que podemos tomar para asegurar que nuestros paquetes sean robustos y puedan ser confiables para funcionar o fallar de manera graciosa y ser diagnosticables si hay un problema.


## Pruebas, registro y manejo de errores

El código de construcción que realiza una tarea de ML puede parecer el objetivo final, pero es solo una parte del rompecabezas. También queremos estar seguros de que este código funcionará y, si no lo hace, podremos solucionarlo. Aquí es donde entran en juego los conceptos de pruebas, registro y manejo de errores, que se cubrirán en las siguientes secciones a un nivel general.

## Testing

Una de las características más importantes que distingue tu código de ingeniería en ML de los scripts de investigación típicos es la presencia de pruebas robustas. Es fundamental que cualquier sistema que estés diseñando para su implementación se pueda confiar en que no fallará constantemente y que puedas detectar problemas durante el proceso de desarrollo.

Afortunadamente, dado que Python es un lenguaje de programación de propósito general, está repleto de herramientas para realizar pruebas en tu software. En este capítulo, usaremos PyTest, que es uno de los conjuntos de herramientas de pruebas más populares, potentes y fáciles de usar para el código Python disponible. PyTest es particularmente útil si eres nuevo en las pruebas porque se enfoca en construir pruebas como funciones independientes de Python que son bastante legibles, mientras que otros paquetes a veces pueden llevar a la creación de clases de pruebas torpes y declaraciones de afirmación complejas. Sumergámonos en un ejemplo.

Primero, comencemos escribiendo pruebas para algunos fragmentos de código definidos en el resto de este capítulo de nuestro paquete de outliers. Podemos definir una prueba simple para asegurarnos de que nuestra función de ayuda de datos realmente crea algunos datos numéricos que se pueden utilizar para modelar. Para ejecutar este tipo de prueba en PyTest, primero creamos un archivo con test_ o _test en el nombre en algún lugar del directorio de nuestras pruebas; PyTest encontrará automáticamente los archivos que tengan esto en su nombre. Así que, por ejemplo, podemos escribir un script de prueba llamado test_create_data.py que contenga la lógica que necesitamos para probar todas las funciones que se refieren a la creación de datos dentro de nuestra solución. Hagamos esto explícito con un ejemplo:

1. Dentro del proyecto outliers crear la carpeta tests.  Dentro de esta carpeta, crear el algoritmo test_data.py que contiene lo siguiente:

In [None]:
import numpy as np
import pytest
import outliers.utils.data

# Fixture: se ejecuta una sola vez y luego se comparte entre los tests
@pytest.fixture()
def dummy_data():
    data = outliers.utils.data.create_data()
    return data

# Test 1: verificar que el resultado sea un array de numpy
def test_data_is_numpy(dummy_data):
    assert isinstance(dummy_data, np.ndarray)

# Test 2: verificar que tenga más de 100 filas
def test_data_is_large(dummy_data):
    assert len(dummy_data) > 100


Podemos escribir tantos de estas pruebas y tantos de estos tipos de módulos de prueba como queramos. Esto nos permite crear un alto grado de cobertura de pruebas en nuestro paquete.

De manera similar al caso anterior, creamos un script para realizar nuestras pruebas en tests/test_detectors.py. El scrip contiene lo siguiente:


In [None]:
import pytest
from outliers.detectors.detection_models import DetectionModels
from outliers.detectors.pipelines import OutlierDetector
from outliers.definitions import MODEL_CONFIG_PATH
import outliers.utils.data
import numpy as np

# Fixture con datos de ejemplo
@pytest.fixture()
def dummy_data():
    return outliers.utils.data.create_data()

# Fixture con modelos
@pytest.fixture()
def example_models():
    models = DetectionModels(MODEL_CONFIG_PATH)
    return models

# Fixture con un detector basado en el primer modelo
@pytest.fixture()
def example_detector(example_models):
    model = example_models.get_models()[0]
    detector = OutlierDetector(model=model)
    return detector

# Test: comprobar que se crean modelos
def test_model_creation(example_models):
    assert example_models is not None

# Test: comprobar que se pueden recuperar modelos
def test_model_get_models(example_models):
    assert example_models.get_models() is not None

# Test: comprobar la evaluación del detector
def test_model_evaluation(dummy_data, example_detector):
    result = example_detector.detect(dummy_data)
    assert len(result[result == -1]) == 39
    assert len(result) == len(dummy_data)
    assert np.unique(result)[0] == -1
    assert np.unique(result)[1] == 1


6. Tendremos el mismo fixture para los datos de prueba creados como en el Paso 2, pero ahora también tenemos un fixture para crear algunos modelos de ejemplo que se usarán en las pruebas:

7. Nuestro fixture final crea una instancia de detector de ejemplos para que la usemos, basada en el fixture de los modelos anteriores:

8. Y ahora estamos listos para probar algunas de las funcionalidades de creación de modelos. Primero, podemos comprobar que los modelos que creamos no son objetos vacíos:

Ahora si, probemos los tests abriendo la terminal y ejecutando el siguiente comando: pytest --verbose

## Logging

A continuación, es importante asegurarse de que, mientras su código se está ejecutando, se informe el estado de las diferentes operaciones, así como cualquier error que ocurra. Esto ayuda a que su código sea más mantenible y le ayuda a depurar cuando hay un problema. Para esto, puede usar la biblioteca de registro de Python. Los registradores pueden ser instanciados en su código a través de una lógica como esta:


In [None]:
import logging
logging.basicConfig(filename='outliers.log',
                    level=logging.DEBUG,format='%(asctime)s | %(name)s | %(levelname)s | %(message)s')


Este código define nuestro formato para los mensajes de registro y especifica que los mensajes de registro de nivel DEBUG o superior se guardarán en el archivo outliers.log. Luego, podemos registrar la salida y la información relevante sobre el estado de ejecución de nuestro código utilizando la sintaxis muy fácil de usar que viene con la biblioteca de registro:

logging.debug('Message to help debug ...')

logging.info('General info about a process that is running ...')

logging.warning('Warn, but no need to error ...')

Con la configuración mostrada en el primer fragmento de registro, esto resultará en que los siguientes mensajes de registro se escriban en outliers.log:

2021-08-02 19:58:53,501 | root | DEBUG | Message to help debug ...

2021-08-02 19:58:53,501 | root | INFO | General info about a process that is running ...

2021-08-02 19:58:53,501 | root | WARNING | Warn, but no need to error ...

Esto solo rasca la superficie de lo que es posible cuando se trata de logging, pero esto te permitirá comenzar. Ahora, pasamos a lo que necesitamos hacer en nuestro código para manejar escenarios donde las cosas salen mal!

## Error handling

La última tarea administrativa que hay que cubrir en esta sección es el manejo de errores. Es importante recordar que cuando eres un ingeniero de ML, tu objetivo es construir productos y servicios que funcionen, pero una parte importante de esto es reconocer que las cosas no siempre funcionan. Por lo tanto, es crucial que construyas patrones que permitan la escalación de errores (inevitables) durante el tiempo de ejecución. En Python, esto se realiza típicamente a través del concepto de excepciones. Las excepciones pueden ser generadas por las funciones y métodos centrales de Python que estás utilizando. Por ejemplo, imagina que ejecutaste el siguiente código sin definir la variable x:

y = 10*x

Se levantaría la siguiente excepción:

NameError: name 'x' is not defined

El punto importante para nosotros como ingenieros es que debemos construir soluciones en las que podamos controlar con confianza el flujo de errores. Puede que no siempre queramos que nuestro código se rompa cuando ocurre un error, o puede que queramos asegurarnos de que se generen mensajes y registros muy específicos en ciertos casos esperados. La técnica más simple para hacer esto es a través de bloques try except, como se ve en el siguiente bloque de código:

In [None]:
try:
    do_something()
except:
    do_something_else()

En este caso, se ejecuta do_something_else() si do_something() encuentra un error. Ahora terminaremos con un comentario sobre cómo ser eficiente al construir tus soluciones.


# No reinventar la rueda

Ya habrás notado a lo largo de este capítulo (¡o espero que lo hayas hecho!) que mucha de la funcionalidad que necesitas para tu proyecto de ML y Python ya ha sido construida. Una de las cosas más importantes que puedes aprender como ingeniero de ML es que no se supone que debas construir todo desde cero. Puedes hacerlo de diversas maneras, la más obvia de las cuales es utilizar otros paquetes en tu propia solución y luego construir funcionalidades que enriquezcan lo que ya está ahí.

Como ejemplo, no necesitas construir capacidades básicas de modelado de regresión ya que existen en una variedad de paquetes, pero puede que tengas que agregar un nuevo tipo de regresor o usar algún conocimiento o truco específico del dominio que hayas desarrollado. En este caso, estarías justificado en escribir tu propio código sobre la solución existente.

El mensaje clave es que, aunque hay mucho trabajo que hacer al construir tus soluciones de ML, es importante que no sientas la necesidad de construir todo desde cero. Es mucho más eficiente centrarse en dónde puedes crear valor agregado y construir sobre lo que se ha hecho anteriormente.

# Resumen

Este capítulo ha tratado sobre las mejores prácticas para cuando escribes tus propios paquetes de Python para tus soluciones de ML. Repasamos algunos de los conceptos básicos de la programación en Python como un recordatorio antes de cubrir algunos consejos y trucos y buenas técnicas a tener en cuenta. Hablamos sobre la importancia de los estándares de codificación en Python y PySpark.

Luego realizamos una comparación entre los paradigmas de programación orientada a objetos y programación funcional para escribir su código. Pasamos a los detalles de cómo tomar el código de alta calidad que ha escrito y empaquetarlo en algo que pueda distribuir en múltiples plataformas y casos de uso. Para hacer esto, investigamos diferentes herramientas, diseños y configuraciones que podría utilizar para hacer esto una realidad. Esto incluyó una breve discusión sobre cómo encontrar buenos casos de uso para empaquetar. Continuamos con un resumen de algunos consejos de mantenimiento para su código, incluyendo cómo probar, registrar y monitorear en su solución. Terminamos con un breve punto filosófico sobre la importancia de no reinventar la rueda.

En el próximo capítulo, haremos un análisis profundo del mundo del despliegue. Se tratará de cómo tomas scripts, paquetes, bibliotecas y aplicaciones que has escrito y los ejecutas en la infraestructura y las herramientas adecuadas.