# Contenido

1. Introducción a las buenas prácticas
3. Código limpio y modular - Teoría
4. Refactorización de código - Teoría
5. Escribiendo código limpio - Ejemplo
6. Quiz práctico de código limpio
7. Escribiendo código modular - Sugerencias y ejemplo
8. Quiz práctico de código modular
9. Eficiencia  y optimización de código - Teoría y ejemplo

# 1 - Introducción a las buenas prácticas
Cuando de
escribir códigos en producción se trata, es imprescindible adoptar las mejores prácticas de ingeniería de software que nos van a permitir escribir códigos:
* Limpios
* Modulares
* Eficientes

Al desarrollar estas habilidades esenciales, podremos crear y desplegar software de calidad (o soluciones) en ambientes productivos.

Ademas, debido a la colaboracion con otros equipos y diferentes perfiles ( como científicos de datos o ingenieros de software), es importante estar al tanto con las prácticas comunes, y estar disponible para colaborar correctamente con el código de otras personas.





# 2 - Codigo limpio y modular
Ya sea que seas un Machine Learning Engineer, Data Scientist, Software Engineer, etc, el código que escribas puede ser potencialmente ejecutado en un ambiente de producción.

* **Código en producción**:
Es el software que se ejecuta en servidores de producción para gestionar usuarios en vivo y datos de la audiencia prevista. Tenga en cuenta que esto es diferente del código de calidad de producción, que describe el código que cumple con las expectativas de producción en cuanto a confiabilidad, eficiencia y otros aspectos. Idealmente, todo el código en producción cumple con estas expectativas, pero no siempre es así.

* **Código limpio**:
  Se refiere al código legible, simple y conciso. El código de calidad de producción limpio es crucial para la colaboración y la capacidad de mantenimiento en el desarrollo de software.

* **Código modular**:
  Código que se descompone lógicamente en funciones y módulos. Código de calidad de producción modular que hace que su código sea más organizado, eficiente y reutilizable.

* **Módulo**:
  Es un archivo. Los módulos permiten reutilizar el código encapsulándolos en archivos que se pueden importar a otros archivos.


# 3 - Refactorización de código
Refactorizar significa cambiar la estructura del código reorganizando su representación interna sin modificar su comportamiento externo.

Por lo general, cuando refactorizamos nuestro código, queremos mejorar su estructura y hacerlo mejor, a veces más genérico, más legible o más flexible. El desafío es lograr estos objetivos y, al mismo tiempo, conservar exactamente la misma funcionalidad que tenía antes de las modificaciones que se realizaron.

La refactorización es una actividad crítica en el mantenimiento del software, pero es algo que no se puede hacer (al menos no correctamente) sin tener pruebas unitarias. Esto se debe a que, a medida que se realiza cada cambio, necesitamos saber que nuestro código sigue siendo correcto. En cierto sentido, puede pensar en nuestras pruebas unitarias como el "observador externo" de nuestro código, asegurándose de que el contrato no se rompa.

Dado que no es fácil escribir el mejor código mientras todavía está tratando de hacerlo funcionar, asignar tiempo para hacer esto es esencial para producir código de alta calidad. A pesar del tiempo y el esfuerzo iniciales requeridos, esto realmente vale la pena al acelerar el tiempo de desarrollo a largo plazo.

Te conviertes en un programador mucho más fuerte cuando buscas constantemente mejorar tu código. Cuanto más refactorice, más fácil será estructurar y escribir un buen código la primera vez.



# 4 - Escribiendo código limpio - Ejemplo


### 4.1 - Escribir código limpio: nombres significativos
* *Sea descriptivo e implique el tipo*: para valores booleanos, puede usar el prefijo `is_` o `has_` ​​para dejar en claro que es una condición. También puede usar partes del discurso para implicar tipos, como usar verbos para funciones y sustantivos para variables.

* *Sea consistente pero diferencie claramente*: `cats_list` y `cat` son más fáciles de diferenciar que solo `cats` y `cat`.

* *Evite las abreviaturas y las letras sueltas*: puede determinar cuándo hacer estas excepciones en función de la audiencia de su código. Si trabaja con otros científicos de datos, ciertas variables pueden ser de conocimiento común. Mientras que si trabaja con ingenieros full-stack, también podría ser necesario proporcionar nombres más descriptivos en estos casos. (Las excepciones incluyen contadores y variables matemáticas comunes).

* *Los nombres largos no son lo mismo que los nombres descriptivos*: debe ser descriptivo, pero solo con información relevante. Por ejemplo, los buenos nombres de funciones describen lo que hacen bien sin incluir detalles sobre la implementación o usos muy específicos.

Intente probar qué tan efectivos son sus nombres pidiéndole a un compañero programador que adivine el propósito de una función o variable en función de su nombre, sin mirar su código. Encontrar nombres significativos a menudo requiere esfuerzo para hacerlo bien.

### 4.2 - Escribir código limpio: espacios en blanco

Usa los espacios en blanco correctamente.

* *Organice su código con una sangría consistente*: el estándar es usar cuatro espacios para cada sangría. Puede hacer que esto sea predeterminado en su editor de texto.

* Separe las secciones con líneas en blanco para mantener su código bien organizado y legible.

* Trate de limitar sus líneas a alrededor de 79 caracteres, que es la pauta dada en la guía de estilo de PEP 8. En muchos buenos editores de texto, hay una configuración para mostrar una línea sutil que indica dónde está el límite de 79 caracteres.

Para conocer más, consulte la sección de diseño de código de PEP 8 en las siguientes notas.

[PEP 8 guidelines for code layout](https://peps.python.org/pep-0008/#code-lay-out)


# 5 - Quiz práctico de código limpio



### 5.1 Clasificando imagenes
Pensemos en un programa que realiza alguna operación, por ejemplo, clasificar una imagen. El código de abajo es una representación del código.

**¿Qué podría cambiar para hacer el código mas limpio?**

In [None]:
import time

i = "path_image"

t = end_time - start # calcula el tiempo de ejecucion
c = classify(i) # obtiene la clase de la imagen
print("La duracion fue de {} segundos. La clase es {}".format(t, c))

**Solucion**
(Escriba aquí su solución)

### 5.2 Compra de criptomonedas
Imagina que has creado un bot para comprar criptomonedas automaticamente. Este bot te ayuda a calcular el precio ideal, o precio limite en el cual tu decides comprar cada moneda. El funcionamiento de tu programa es sencillo: iteras cada una de las criptomonedas y el programa compra si el precio es menor o igual que el limite calculado. Si no cumple con la condicion, lo dejas en la lista de espera.

**¿Cuál de los siguiente pedazos de código es el mas limpio?**

In [None]:
# Opcion A
crypto_limit_prices = {'BTC': 44000, 'ETH': 31000, 'BNB': 410}
for crypto_ticker, crypto_limit_price in buy_prices.items():
    if crypto_limit_price <= get_current_crypto_price(ticker):
        buy_crypto(ticker)
    else:
        watchlist_crypto(ticker)

# Opcion B
prices = {'BTC': 44000, 'ETH': 31000, 'BNB': 410}
for ticker, price in prices.items():
    if price <= current_price(ticker):
        buy(ticker)
    else:
        watchlist(ticker)

# Opcion C
limit_prices = {'BTC': 44000, 'ETH': 31000, 'BNB': 410}
for ticker, limit in limit_prices.items():
    if limit <= get_current_price(ticker):
        buy(ticker)
    else:
        watchlist(ticker)

**Solución** (Escriba aquí su solución)



# 6 - Escribiendo código modular

### 6.1 DRY (Don't Repeat Yourself)

Las cosas en el código, el conocimiento, tienen que definirse una sola vez y en un solo lugar. Cuando tenga que realizar un cambio en el código, solo debe haber una ubicación legítima para modificar.


### 6.2 Sugerencia: abstraiga la lógica para mejorar la legibilidad

La abstracción consiste en aislar un elemento de su contexto o del resto de los elementos que lo acompañan.

Abstraer el código en una función no solo lo hace menos repetitivo, sino que también mejora la legibilidad con nombres de funciones descriptivos. Aunque el código puede volverse más legible cuando abstrae la lógica en funciones, es posible sobrediseñar esto y tener demasiados módulos, así que use su criterio.




### 6.3 Sugerencia: minimice la cantidad de entidades (funciones, clases, módulos, etc.)
Hay ventajas y desventajas de tener llamadas de función en lugar de lógica en línea. Si ha dividido su código en una cantidad innecesaria de funciones y módulos, tendrá que saltar de un lado a otro si desea ver los detalles de implementación de algo que puede ser demasiado pequeño para valer la pena. Crear más módulos no siempre resulta en una modularización efectiva.

### 6.4 Cohesion

Cohesión significa que los objetos deben tener un propósito pequeño y bien definido, y deben hacer lo menos posible. Sigue una filosofía similar a los comandos de Unix que hacen una sola cosa y la hacen bien. Cuanto más cohesivos son nuestros objetos, más útiles y reutilizables se vuelven, lo que hace que nuestro diseño sea mejor.


### 6.5 Sugerencia: trate de usar menos de tres argumentos por función

Trate de usar no más de tres argumentos cuando sea posible. Esta no es una regla estricta y hay momentos en los que es más apropiado usar muchos parámetros. Pero en muchos casos, es más efectivo usar menos argumentos. Recuerde que estamos modularizando para simplificar nuestro código y hacerlo más eficiente. Si su función tiene muchos parámetros, es posible que desee repensar cómo está dividiendo esto.

### 6.4 Ejemplo: Calculando y elevando numeros

In [None]:
# Spaguetti Code
d = [34, 45, 76, 54, 98]
print(sum(d)/len(d))

d1 = []
for x in d:
  d1.append(x ** 2)

print(sum(d1)/len(d1))

d2 = []
for x in d:
  d2.append(x ** 3)

print(sum(d2)/len(d2))

d3 = []
for x in d:
  d3.append(x ** 0.5)

print(sum(d3)/len(d3))

61.4
4295.4
333612.2
7.700983575877444


Mejorando el codigo con mejores nombres y uso de funciones bibliotecas.

In [None]:
import math
import numpy as np

data_train = [34, 45, 76, 54, 98]
print(np.mean(data_train))

powered_2 = [math.pow(number, 2) for number in data_train]
print(np.mean(powered_2))

powered_3 = [math.pow(number, 3) for number in data_train]
print(np.mean(powered_3))

data_sqrt = [math.sqrt(number) for number in data_train]
print(np.mean(data_sqrt))

61.4
4295.4
333612.2
7.700983575877444


Generalizando funciones y reduciendo lineas de codigo

In [None]:
import math
import numpy as np

def power_data(arr: list, n: int) -> list:
  return [math.pow(i,n) for i in arr]

def square_root(arr):
  return [math.sqrt(i) for i in arr]

data_train = [34, 45, 76, 54, 98]
powered_2 = power_data(data_train, 2)
powered_3 = power_data(data_train, 3)
data_sqrt = square_root(data_train)

for calculated_list in data_train, powered_2, powered_3, data_sqrt:
  print(np.mean(calculated_list))

61.4
4295.4
333612.2
7.700983575877444


### 6.5 Midiendo tiempos de ejecucion
**¿Qué es Python Timeit()?**

Python `timeit()` es un método en la biblioteca de Python para medir el tiempo de ejecución tomado por el fragmento de código dado. La biblioteca de Python ejecuta la declaración de código 1 millón de veces y proporciona el tiempo mínimo necesario para el conjunto dado de fragmentos de código. Python `timeit()` es un método útil que ayuda a comprobar el rendimiento del código.

**Uso**

1. Escribir el codigo dentro de una funcion
2. Usar el `python -m timeit -n 1000 -s 'importar codigo y funcion'`
  * -n 1000 : la cantidad de veces que desea que se repita la función timeit(), 1000 veces en este caso.
  * -s '...' : esto tendrá detalles de configuración que se ejecutarán antes de la ejecución del código.
3. Ejecutar el codigo y ver resultados.


In [None]:
%%writefile spaguetti_code.py
# Spaguetti Code
def process_data():
  d = [34, 45, 76, 54, 98]

  d1 = []
  for x in d:
    d1.append(x ** 2)
  d2 = []
  for x in d:
    d2.append(x ** 3)

  d3 = []
  for x in d:
    d3.append(x ** 0.5)

Writing spaguetti_code.py


In [None]:
!python -mtimeit -n 1000 -s'import spaguetti_code' 'spaguetti_code.process_data()'

1000 loops, best of 5: 4.06 usec per loop


In [None]:
%%writefile little_better.py
import math
import numpy as np

def process_data():
  data_train = [34, 45, 76, 54, 98]
  powered_2 = [math.pow(number, 2) for number in data_train]
  powered_3 = [math.pow(number, 3) for number in data_train]
  data_sqrt = [math.sqrt(number) for number in data_train]

Writing little_better.py


In [None]:
!python -mtimeit -n 1000 -s'import little_better' 'little_better.process_data()'

1000 loops, best of 5: 3.34 usec per loop


In [None]:
%%writefile better.py
import math
import numpy as np

def power_data(arr, n):
  return [math.pow(i,n) for i in arr]

def square_root(arr):
  return [math.sqrt(i) for i in arr]

def process_data():
  data_train = [34, 45, 76, 54, 98]
  powered_2 = power_data(data_train, 2)
  powered_3 = power_data(data_train, 3)
  data_sqrt = square_root(data_train)

Writing better.py


In [None]:
!python -mtimeit -n 1000 -s'import better' 'better.process_data()'

1000 loops, best of 5: 3.74 usec per loop


**¿Por que el codigo con funciones es mas lento?**

Las llamadas a funciones pueden ser extremadamente perjudiciales. Hay que ponerlas en los lugares correctos.

Pero al mismo tiempo, no tener llamadas a funciones puede hacer que el código no se pueda mantener. Eso tampoco vale la pena. Si se encuentra en una situación en la que debe tener una llamada de función para facilitar la lectura, pero realmente no puede pagar la sobrecarga de la llamada, entonces está buscando una función en línea.

**Nota**

Cuando define una función, Python crea un objeto de función y le asigna un nombre. Este funcionamiento está oculto detrás de la sentencia `def`, pero funciona igual que la instanciación de cualquier otro tipo. Lo que significa que en Python, las definiciones de funciones se ejecutan, a diferencia de otros lenguajes.

Entre otras cosas, esto significa que las funciones no existen hasta que el flujo de código las alcanza, por lo que no puede llamar a una función antes de que se haya definido.



# 7 - Quiz practico de codigo limpio y modular
En este ejercicio, se debe refactorizar el código que analiza un conjunto de datos de absentismo en el trabajo [aqui](https://archive.ics.uci.edu/ml/datasets/Absenteeism+at+work). Cada fila contiene datos sobre una muestra de absentismo.

El código de este cuaderno primero cambia el nombre de las columnas del conjunto de datos.

¿Puede refactorizar este código para hacerlo más limpio y modular?

In [None]:
import pandas as pd
df = pd.read_csv('/content/Absenteeism_at_work.csv', sep=';')
df.head()

Unnamed: 0,ID,Reason for absence,Month of absence,Day of the week,Seasons,Transportation expense,Distance from Residence to Work,Service time,Age,Work load Average/day,...,Disciplinary failure,Education,Son,Social drinker,Social smoker,Pet,Weight,Height,Body mass index,Absenteeism time in hours
0,11,26,7,3,1,289,36,13,33,239.554,...,0,1,2,1,0,1,90,172,30,4
1,36,0,7,3,1,118,13,18,50,239.554,...,1,1,1,1,0,0,98,178,31,0
2,3,23,7,4,1,179,51,18,38,239.554,...,0,1,0,1,0,0,89,170,31,2
3,7,7,7,5,1,279,5,14,39,239.554,...,0,1,2,1,1,0,68,168,24,4
4,11,23,7,5,1,289,36,13,33,239.554,...,0,1,2,1,0,1,90,172,30,2


## 7.1 - Renombrando columnas
El objetivo es convertir las columnas en minúsculas y reemplazar los espacios en blanco o caracteres extraños en las etiquetas de las columnas con guiones bajos.

In [None]:
new_df = df.rename(columns={'ID': 'id',
                            'Reason for absence': 'reason_for_absence',
                            'Month of absence': 'month_of_absence',
                            'Day of the week': 'day_of_the_week',
                            'Seasons': 'seasons',
                            'Transportation expense': 'transportation_expense',
                            'Distance from Residence to Work': 'distance_from_residence_to_work',
                            'Service time': 'service_time',
                            'Age': 'age',
                            'Work load Average/day ': 'work_load_average/day_',
                            'Hit target': 'hit_target',
                            'Disciplinary failure': 'disciplinary_failure',
                            'Education': 'education',
                            'Son': 'son',
                            'Social drinker': 'social_drinker',
                            'Social smoker': 'social_smoker',
                            'Pet': 'pet',
                            'Weight': 'weight',
                            'Height': 'height',
                            'Body mass index': 'body_mass_index',
                            'Absenteeism time in hours': 'absenteeism_time_in_hours'
                            })
new_df.head()

Unnamed: 0,id,reason_for_absence,month_of_absence,day_of_the_week,seasons,transportation_expense,distance_from_residence_to_work,service_time,age,work_load_average/day_,...,disciplinary_failure,education,son,social_drinker,social_smoker,pet,weight,height,body_mass_index,absenteeism_time_in_hours
0,11,26,7,3,1,289,36,13,33,239.554,...,0,1,2,1,0,1,90,172,30,4
1,36,0,7,3,1,118,13,18,50,239.554,...,1,1,1,1,0,0,98,178,31,0
2,3,23,7,4,1,179,51,18,38,239.554,...,0,1,0,1,0,0,89,170,31,2
3,7,7,7,5,1,279,5,14,39,239.554,...,0,1,2,1,1,0,68,168,24,4
4,11,23,7,5,1,289,36,13,33,239.554,...,0,1,2,1,0,1,90,172,30,2


Esta es otra forma un poco mejor que evita que se tengan problemas con letras o errores tipograficos.

In [None]:
labels = list(df.columns)
labels[0] = labels[0].replace(' ', '_').lower()
labels[1] = labels[1].replace(' ', '_').lower()
labels[2] = labels[2].replace(' ', '_').lower()
labels[3] = labels[3].replace(' ', '_').lower()
labels[5] = labels[5].replace(' ', '_').lower()
labels[6] = labels[6].replace(' ', '_').lower()
labels[7] = labels[7].replace(' ', '_').lower()
labels[8] = labels[8].replace(' ', '_').lower()
labels[9] = labels[9].replace(' ', '_').lower()
labels[10] = labels[10].replace(' ', '_').lower()
labels[11] = labels[11].replace(' ', '_').lower()
labels[12] = labels[12].replace(' ', '_').lower()
labels[13] = labels[13].replace(' ', '_').lower()
labels[14] = labels[14].replace(' ', '_').lower()
labels[15] = labels[15].replace(' ', '_').lower()
labels[16] = labels[16].replace(' ', '_').lower()
labels[17] = labels[17].replace(' ', '_').lower()
labels[18] = labels[18].replace(' ', '_').lower()
labels[19] = labels[19].replace(' ', '_').lower()
labels[20] = labels[20].replace(' ', '_').lower()

df.columns = labels

df.head()

Unnamed: 0,id,reason_for_absence,month_of_absence,day_of_the_week,Seasons,transportation_expense,distance_from_residence_to_work,service_time,age,work_load_average/day_,...,disciplinary_failure,education,son,social_drinker,social_smoker,pet,weight,height,body_mass_index,absenteeism_time_in_hours
0,11,26,7,3,1,289,36,13,33,239.554,...,0,1,2,1,0,1,90,172,30,4
1,36,0,7,3,1,118,13,18,50,239.554,...,1,1,1,1,0,0,98,178,31,0
2,3,23,7,4,1,179,51,18,38,239.554,...,0,1,0,1,0,0,89,170,31,2
3,7,7,7,5,1,279,5,14,39,239.554,...,0,1,2,1,1,0,68,168,24,4
4,11,23,7,5,1,289,36,13,33,239.554,...,0,1,2,1,0,1,90,172,30,2


# 8 - Codigo eficiente

## 8.1 ¿Que es?
Escribir código Python eficiente es una forma en que un programador principiante puede avanzar para convertirse en un programador intermedio y apreciar la legibilidad del código junto con la productividad de un desarrollador.

Son varios puntos a considear cuando de codigo eficiente se trata, entre ellos destacan dos:
* Que el codigo sea rapido
* Se consuma lo menos posible de memoria o almacenamiento.

Mucho depende del tipo de proyecto que se este llevando a cabo. En entrenamientos de modelos pequeños, quiza no afecte tanto no tener un codigo tan eficiente. Pero en entrenamientos de datos masivos, como el caso del [Autopilot de Tesla](https://www.tesla.com/AI) una compilación completa de redes neuronales de Autopilot involucra 48 redes que requieren 70,000 horas de GPU para entrenarse.



## 8.2 Ejemplo - List Comprehension VS Generator Expression

**¿Qué es List Comprehension?**

Es una forma elegante de definir y crear una lista. La comprensión de listas nos permite crear una lista usando for loop con menos código. Lo que normalmente requiere de 3 a 4 líneas de código, se puede comprimir en una sola línea.


In [None]:
# List Comprehension example

# initializing the list
list = []

for i in range(11):
    if i % 2 == 0:
        list.append(i)

# print elements
print(list)

In [None]:
list = [i for i in range(11) if i % 2 == 0]
print(list)

[0, 2, 4, 6, 8, 10]


**¿Qué es Generator Expression?**

Las Generator Expression son algo similares a las List Comprehension, pero las primeras no construyen objetos de lista. En lugar de crear una lista y mantener toda la secuencia en la memoria, el generador genera el siguiente elemento en demanda. Cuando se llama a una función normal con una declaración de retorno, termina cada vez que recibe una declaración de retorno.

List Comprehension usan `[]`
````
# List Comprehension
list_comprehension = [i for i in range(11) if i % 2 == 0]
  
print(list_comprehension)
````

Generator Expression usan `()`
````
# List Comprehension
list_comprehension = (i for i in range(11) if i % 2 == 0)
  
print(list_comprehension)
````





**Diferencias puntuales**

El generator produce un elemento a la vez y genera elementos solo cuando hay demanda. Mientras que, en una list comprehension, Python reserva memoria para toda la lista. Por lo tanto, podemos decir que las generator expresion son más eficientes en memoria que las listas.

In [None]:
# import getsizeof from sys module
from sys import getsizeof

comp = [i for i in range(1000000)]
gen = (i for i in range(1000000))

# gives size for list comprehension in bytes
x = getsizeof(comp)
print("x = ", x)

# gives size for generator expression in bytes
y = getsizeof(gen)
print("y = ", y)

x =  8697472
y =  128


## 8.3 Prueba de eficiencia

In [None]:
%%writefile efficient_code.py
import math
import numpy as np

def power_data(arr, n):
  return (math.pow(i,n) for i in arr) # Usando Expresion de Generator

def square_root(arr):
  return (math.sqrt(i) for i in arr) # Usando Expresion de Generator

def process_data():
  data_train = [34, 45, 76, 54, 98]
  powered_2 = power_data(data_train, 2)
  powered_3 = power_data(data_train, 3)
  data_sqrt = square_root(data_train)

Writing efficient_code.py


In [None]:
!python -mtimeit -n 100000 -s'import better' 'better.process_data()'

100000 loops, best of 5: 4.59 usec per loop


In [None]:
!python -mtimeit -n 100000 -s'import efficient_code' 'efficient_code.process_data()'

100000 loops, best of 5: 1.71 usec per loop


# Fuentes
* https://medium.com/techtofreedom/5-best-practices-of-destructuring-assignments-in-python-81bce95c5fda
* [Midiendo tiempo de ejecucion y uso de memoria](https://www.guru99.com/timeit-python-examples.html)
* [Doesn't making functions in our code make it slower?](https://www.quora.com/Doesnt-making-functions-in-our-code-make-it-slower)
* [How not to be slow using Python: Functions](https://pawroman.dev/how-not-to-be-slow-using-python-functions/)
* [How to write efficient Python code](https://www.section.io/engineering-education/how-to-write-efficient-python-code/)
* [Python refactoring tips](https://www.python-engineer.com/posts/python-refactoring-tips/)

Libros
* Anaya, M. (2018). Clean Code in Python: Refactor your legacy code base.
* Gorelick, M. (2020). High Performance Python: Practical Performant Programming for Humans.

Herramienta para refactorizar
* [Sourcery Refactorings](https://docs.sourcery.ai/refactorings/)

