# Operaciones de Aprendizaje Automático I
## Carrera de especialización en inteligencia artificial  

## Buenas Prácticas de programación
En este notebook se presentan algunas prácticas sugeridas para mantener el código ordenado siguiendo estándares de programación comunmente utilizados.
El objetivo es desarrollar las habilidades necesarias para poder desarrollar código listo para producción.

Se tratan los siguientes temas:

* Código limpio y modular: Utilización de nombres declarativos, cuando utilizar funciones y cuando clases.  
* Refactorización y optimización del código para facilitar el uso a otros desarrolladores.
* Documentación: se revisarán in-line comments, document strings y la documentación del proyecto.
* Estándares PEP8 & Linting, como implementar estas mejores prácticas utilizando herramientas como AutoPEP8 y pylint

----------------------

Escribir código limpio se hace referencia a que el código sea fácil de leer y que sea lo más simple posible evitando redundancias. Esto es clave para facilitar el trabajo colaborativo dentro de un equipo de desarrollo.


Cuando se utilizan nombres poco descriptivos a veces es necesario utilizar muchos comentarios in-line para poder aclarar lo que estamos escribiendo, como en el siguiente ejemplo:

In [1]:
s = [84, 27, 42, 34] # Puntaje de los estudiantes en el examen
print(f"Media de los alumnos: {sum(s)/len(s)}") # Imprimir la media del puntaje de los estudiantes

s1 = [x**0.5 * 10 for x in s] # Se proyectan los puntajes sobre la raíz cuadrada y se almacena en una lista
print(f"Media (ajustada) de los alumnos: {sum(s1)/len(s1)}") # Imprimir la media de los puntajes afectados por la raíz cuadrada

Media de los alumnos: 46.75
Media (ajustada) de los alumnos: 66.68249101467867


Si optamos por utilizar nombres de variables y funciones más descriptivos, podemos obtener un código mucho más limpio y que es más facil de leer, sin la necesidad de agregar comentarios a cada línea de código. Podemos ver esto en el siguiente ejemplo:

In [2]:
import math
import numpy as np

scores_list = [84, 27, 42, 34]
print(f"Media de los alumnos: {np.mean(scores_list)}")

curved_test_scores = [math.sqrt(score) * 10 for score in scores_list]
print(f"Media (ajustada) de los alumnos: {np.mean(curved_test_scores)}")

Media de los alumnos: 46.75
Media (ajustada) de los alumnos: 66.68249101467867


Algunas recomendaciones para poder incorporar nombres significativos son:

#### Ser descriptivos y tratar de incorporar el tipo de lo que estamos definiendo

Por ejemplo si estamos definiendo una variable booleana podemos utilizar `is_` o `has_` para dejar en claro que es una condición. Si estamos trabajando con listas, un nombre como `clients_list` puede ser más intuitivo que `clients`.

Otra recomendación puede ser utilizar verbos para nombrar funciones y sustantivos para nombrar variables.

#### Evitar abreviaciones y nombres de una única letra

Hay que tener en consideración quién va a necesitar leer nuestro código más adelante. Si estamos trabajando con otros científicos de datos de nuestro mismo equipo es muy probable que entiendan las abreviaciones o nombres específicos que le damos a las variables. Si, en cambio, nuestro código va a ser leido por un ingeniero de software de otro país por ejemplo, tal vez no tenga el contexto necesario para poder entender los  nombres internos que utilizamos dentro del equipo.  

Pueden existir excepciones cuando utilizamos contadores o variables matemáticas como `x`, `y`, etc.

#### Nombres largos no siempre significan nombres significativos

Tenemos que ser descriptivos pero sin utilizar más caractéres de los necesarios.  
Por ejemplo, los nombres utilizados en la siguiente función pueden ser demasiado largos
```
def count_unique_values_of_names_list_with_set(names_list):
    return len(set(names_list))
```

En cambio si optamos por algo como lo siguiente, puede ser más compacto sin perder interpretabilidad: 
 
```
def count_unique_values(arr):
    return len(set(arr))
```

----
### Espacios en blanco e indentado

Utilizar los espacios en blanco de manera correcta ayuda a leer mejor el código y comprender cual es la lógica de su estructura. También son útiles para detectar errores de sintaxis y lógicos en el código.  

Algunas recomendaciones son:  
* Organizar el código siendo consistente con la indentación adoptada. Un estándar es utilizar cuatro espacios para indentar una línea.
* Separar secciones de código con líneas en blanco, sin espacios en blanco (sin ' ').
* Limitar la cantidad de caractéres a 79 es un estándar de la guía de estilo [PEP 8](https://peps.python.org/pep-0008/).  

El siguiente es un ejemplo en donde la indentación se podría mejorar:

In [3]:
def ejemplo_funcion(param1, param2, 
    param3, param4):
    if param1 > param2: print("param1 es mayor que param2")
    else: print("param2 es mayor que param1")
    return param3 + param4

En este caso, indentación fue utilizada de manera más correcta:

In [4]:
def ejemplo_funcion(param1, param2,
                    param3, param4):

    if param1 > param2:
        print("param1 es mayor que param2")
    else:
        print("param2 es mayor que param1")

    return param3 + param4

----
### Escribiendo código modular

Para lograr que el código sea lo más limpio posible, la programación modular nos puede ayudar. Esto quiere decir que el código está lógicamente dividido o separado en funciones y módulos más pequeños. Esta práctica facilita la organización, la eficiencia y la reutilización de ciertas partes del código.

* **Modularizar el código** nos permite reutilizar partes del desarrollo. Es una buena práctica consolidar las partes del código que repetimos, en una función o en bucles.  
* **Separar el código que contiene la lógica de nuestro programa en funciones** también facilita la lectura del mismo, ya que nos da la posibilidad de utilizar nombres descriptivos en las funciones.  

Es importante tener en cuenta que existe una relación de compromiso entre la cantidad de módulos y la interpretabilidad del código. Si modularizamos el código en exceso, también será contraproducente.  

* Las **funciones deben realizar una única tarea**. Si cada función realizar más de una tarea, se vuelve más dificil reutilizar el código.  
* Los **nombres de los argumentos en las funciones** pueden ser más arbitrarios o generales para permitir la reutilización con mayor facilidad.  

En lo posible **limitar el número de argumentos** a 3 o 4 en las funciones.

----
### Refactorizando el código

A medida que nos encontramos realizando el desarrollo de nuestra solución, es común que no prestemos el 100% de atención a la prolijidad del código. Estamos más atento a lograr el objetivo de responder a la pregunta del negocio/proyecto.  

Es esperable que en una primera instancia tal vez existan algunas variables que no están nombradas de forma descriptiva o que algunas partes del código sean un poco repetitivas. Esto se debe a que mientras estamos realizando el desarrollo, posiblemente no contemos con todo el conocimiento sobre nuestro código como para saber qué parte del código se podría reutilizar, qué partes nos conviene encapsular en una función, etc. Por esto, luego de lograr una primera solución que cumpla nuestras expectativas, es importante volver sobre el desarrollo realizado y revisar el cumplimiento de las buenas prácticas que se definieron previamente.  

Esta etapa de revisión se conoce como **refactorización** y hace referencia a **reestructurar el código para mejorar la estructura interna del desarrollo sin cambiar la funcionalidad externa**.

Ventajas de realizar refactorización:
* Reducción de la carga de trabajo para desarrollar nuevas features basadas en el código existente.
* Facilita los trabajos de mantenimiento sobre el código.
* Nos ayuda a mejorar nuestras habilidades como desarrolladores.

Veamos el siguiente ejemplo,

In [5]:
# Supongamos que tenemos este listado de nombres
features_list = [
        'cliente ID',
        'region retiro',
        'compra credito',
        'compra efectivo',
        ]

# Los voy a renombrar cambiando el espacio por '_'
new_labels_list = features_list.copy()

# OBS: Esto podemos mejorarlo refactorizando el código
new_labels_list[0] = features_list[0].replace(' ', '_')
new_labels_list[1] = features_list[1].replace(' ', '_')
new_labels_list[2] = features_list[2].replace(' ', '_')
new_labels_list[3] = features_list[3].replace(' ', '_')

print(new_labels_list)

['cliente_ID', 'region_retiro', 'compra_credito', 'compra_efectivo']


In [6]:
# Supongamos que tenemos este listado de nombres
features_list = [
        'cliente ID',
        'region retiro',
        'compra credito',
        'compra efectivo',
        ]

# Los voy a renombrar cambiando el espacio por '_'
new_labels_list = features_list.copy()

# Refactorizamos usando list comprehension
new_labels_list = [name.replace(' ', '_') for name in features_list]

print(new_labels_list)

['cliente_ID', 'region_retiro', 'compra_credito', 'compra_efectivo']


Veamos ahora un ejemplo, refactorizando usando funciones

In [7]:
import pandas as pd
from sklearn.datasets import load_wine
data = load_wine()
df_dataset = pd.DataFrame(data = data.data, 
                          columns = data.feature_names)

# Aca vemos que hay una repetición de la misma acción que 
# podriamos llevarlo a una función
median_alcohol = df_dataset.alcohol.median()
for i, alcohol in enumerate(df_dataset.alcohol):
    if alcohol >= median_alcohol:
        df_dataset.loc[i, 'alcohol_level'] = 'high'
    else:
        df_dataset.loc[i, 'alcohol_level'] = 'low'

median_acid = df_dataset.malic_acid.median()
for i, malic_acid in enumerate(df_dataset.malic_acid):
    if malic_acid >= median_acid:
        df_dataset.loc[i, 'malic_acid_level'] = 'high'
    else:
        df_dataset.loc[i, 'malic_acid_level'] = 'low'

In [8]:
import pandas as pd
from sklearn.datasets import load_wine
data = load_wine()
df_dataset = pd.DataFrame(data = data.data, 
                          columns = data.feature_names)

def categorize_column_by_median(data_set, column_name):
    median_value = data_set[column_name].median()

    # OBS: Refactorizamos tambien el ciclo FOR
    data_set[column_name + "_level"] = "low"

    data_set.loc[data_set[column_name] >= median_value, 
                 column_name + "_level"] = 'high'
    
    # No retornamos nada porque el dataframe ingresa por 
    # referencia.
    
# Llamamos a la función
categorize_column_by_median(df_dataset, 'alcohol')
categorize_column_by_median(df_dataset, 'malic_acid')

### Documentación

La documentación es texto adicional que se encuentra en el código.  
 
* Ayuda a clarificar partes del código que son complejas
* Nos permite leer y navegar más rapidamente por las distintas secciones del código
* Describe formas de uso y/o propósitos de componentes de código

Existen diferentes tipos de documentación para incorporar en distintos niveles del programa:

* Comentarios In-line
* [Docstrings](https://peps.python.org/pep-0257/). Existen muchos tipos de [Docstrings](http://daouzli.com/blog/docstring.html), pero el recomendado por PEP 257 es el llamado reStructuredText. Se puede usar cualquiera pero lo importante ser consistente.
* Readme y documentos extras en el proyecto

Si se requieren muchos comentarios para explicar el propósito del código, es posible que sea necesario una refactorización ya no es legible en si mismo.  
Los comentarios se suelen utilizar para explicar aspectos que el código no puede. Por ejemplo, la justificación para realizar alguna tarea en un cierto modo.  

El siguiente es un ejemplo de docstring para una función:

In [9]:
def generate_calibration_curve(performance_table: pd.DataFrame,
                               pth: str) -> None:
    """
    This function takes the performance table of the model and generates its calibration curve
    
    :param performance_table: performance table of the model calculated by the function generate_performance_table.
    :type performance_table: pd.DataFrame
    
    :param pth: path to save the calibration curve
    :type pth: str
    """
    
    # CODIGO
    
    return None

In [10]:
help(generate_calibration_curve)

Help on function generate_calibration_curve in module __main__:

generate_calibration_curve(performance_table: pandas.core.frame.DataFrame, pth: str) -> None
    This function takes the performance table of the model and generates its calibration curve
    
    :param performance_table: performance table of the model calculated by the function generate_performance_table.
    :type performance_table: pd.DataFrame
    
    :param pth: path to save the calibration curve
    :type pth: str



#### Function annotations

Las anotaciones de funciones son una característica que permite agregar información adicional a los argumentos y valores de retorno de una función.  
Hacen referencia al tipo de variable y hay que mencionar que en el caso de Python son algo opcional (pero altamente recomendado) que no va a afectar el funcionamiento del código.

En el caso de los argumentos de la función se agrega `: tipo_de_variable` luego del nombre. Y para el retorno de la función se agrega `-> tipo_de_variable`.

El uso de anotaciones en nuestro código le aporta facilidad a la lectura y también ayuda a encontrar errores cuando debuggeamos.

Si queremos forzar el control de tipo de variables durante runtime podemos usar la libreria [pydantic](https://docs.pydantic.dev/latest/). Esta libreria toma principal importancia en el desarrollo de APIs.

-----

### Herramientas para formatear código

Existen diversas herramientas para automatizar el formato del código. A continuación, veremos algunas que siguen el estándar PEP8.

#### [autopep8](https://pypi.org/project/autopep8/) & [pylint](https://pypi.org/project/pylint/)

De manera local, otra alternativa podría ser utilizar pylint y autopep8 para mantener nuestro código limpio.  

Una vez que tenemos las librerías instaladas, desde una terminal podemos ejecutar el siguiente comando:

`pylint script_name.py`  

Lo que nos devolverá una evaluación de nuestro código con un puntaje de 0 a 10 sobre que tan alineado está nuestro código al estándar pep8.  
También nos bridará el número de línea en donde debemos realizar una modificaicón y una breve descripción de qué es lo que debemos refactorizar.  

Una alternativa es realizar todos los cambios de forma manual o también podemos utilizar la herramienta autopep8 para ayudarnos. Desde una terminal podemos ejecutar el siguiente comando:

`autopep8 --in-place --aggressive --aggressive script_name.py`  

Lo que nos refactorizará de manera automática nuestro script. Tener en cuenta que sobreescribirá el archivo existente. También habrá cambios que el formateador no será capáz de realizar como un renombramiento de variables, eso debemos cambiarlo de forma manual, pero solucionará problemas como indentaciones incorrectas, saltos de línea, líneas demasiado largas, etc.

