## Programación eficiente en python

Profesor : [Daniel Jiménez](https://www.danieljimenezm.com/)

Institución : [Universidad Nacional de Colombia ](https://unal.edu.co/)

Objetivo : Presentar  al participante las buenas prácticas a la hora de programar en Python, por lo tanto en este modulo aprenderemos a :

* Omitir el uso de Loops cuando sea posible,
* Evaluar el uso de memoría y tiempos de ejecución de códigos
* Uso de funciones map y lambda


## ¿Qué es la programación eficiente?

Puntualmente se dice que un código está optimizado cuando su tiempo de ejecución es mínimo al igual que el uso de memoria. Esto es una practica en el mundo de desarrollo de software que se aplica al area de Machine Learning Operation 

![](https://miro.medium.com/max/1000/1*wr7uGBu9Kb918igOxhJVlA.jpeg)

*Imagen tomada de : https://towardsdatascience.com/what-is-mlops-everything-you-must-know-to-get-started-523f2d0b8bd8*



Dicho lo anterior, la eficiencia de código es una disciplina de la ciencia de datos llevada a sistemas de desarrollo (Devops) donde se estandarizan procesos, en donde se busca llevar modelos, reportes o análisis a producción

## Un poco de contexto sobre MLOps

El Machine Learning Ops nace del ciclo de vida de la analítica y de los modelos de Machine Learning  en donde se tiene en cuenta 

* El origen y el entendimiento del problema a resolver
* El proceso de ingenieria de datos (procesos)
* La capa tecnológica 

Dicho lo anterior las fases a tener presente son:

1. ¿Qué tipo de almacenamiento se va a tener sobre los datos?
2. ¿Cómo se evidencian los cambios con respecto a las reglas del proyecto?
3. ¿Cómo se comunica los hallazgos de este proyecto?
4. ¿Cómo se evalua los riesgos del proyecto?

## Arquitectura del proyecto y la necesidad de programación eficiente

Lo primero a tener en cuenta es una investigación de las siguientes herramientas (inputs en este caso)

1. Tener los dataset necesarios
2. Validar la integralidad de los datos
3. Las formas de acceder a los datos
4. Cómo generar los pipelines para el trabajo con datos
5. __Cómo se ejecuta un código de preparación de datos con eficiencia?__

## Preparación de datos

De antemano : __Este es el proceso que más tiempo toma a la hora de trabajar con datos__

El trababajo de preparación de datos involucra la limpieza, estandarización, normalización y creación de ingenieria de caracteristica en un set de datos.

Completar este trabajo requiere de buenas practicas en la creación de querys 


In [3]:
## Librerias requeridas
import pandas as pd
import numpy as np
import sys
# !pip install line_profiler
import line_profiler


## Formas de escribir una función 

In [15]:
## Notesé el timepo que toma esta función 
print('Este es un código algo lento e ineficiente')
nums = list(range(1,101))
double = []
%time 
for i in range(len(nums)):
    double.append(nums[i] * 2)
print(double)
print('Los tiempos que vemos acá son en microsegundos')

Este es un código algo lento e ineficiente
CPU times: user 2 µs, sys: 1 µs, total: 3 µs
Wall time: 4.77 µs
[2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62, 64, 66, 68, 70, 72, 74, 76, 78, 80, 82, 84, 86, 88, 90, 92, 94, 96, 98, 100, 102, 104, 106, 108, 110, 112, 114, 116, 118, 120, 122, 124, 126, 128, 130, 132, 134, 136, 138, 140, 142, 144, 146, 148, 150, 152, 154, 156, 158, 160, 162, 164, 166, 168, 170, 172, 174, 176, 178, 180, 182, 184, 186, 188, 190, 192, 194, 196, 198, 200]
Los tiempos que vemos acá son en microsegundos


In [16]:
## Notese la misma salida de manera eficiente print('Este es un código algo lento e ineficiente')
print('Este es un código super eficiente')
nums = list(range(1,101))
double = []
%time
double = [x * 2 for x in nums]
print(double)

Este es un código super eficiente
CPU times: user 2 µs, sys: 0 ns, total: 2 µs
Wall time: 4.05 µs
[2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62, 64, 66, 68, 70, 72, 74, 76, 78, 80, 82, 84, 86, 88, 90, 92, 94, 96, 98, 100, 102, 104, 106, 108, 110, 112, 114, 116, 118, 120, 122, 124, 126, 128, 130, 132, 134, 136, 138, 140, 142, 144, 146, 148, 150, 152, 154, 156, 158, 160, 162, 164, 166, 168, 170, 172, 174, 176, 178, 180, 182, 184, 186, 188, 190, 192, 194, 196, 198, 200]


In [None]:
## Goal: Solo quiero ver aquellos nombres que tengan al menos 5 letras
# Notese que este código es altamente lento porque recorre cada elemento o input dentro de nombres

nombres = ['Jorge', 'Karem está?', 'Claudia', 'Ian', 'Will','Carlos','Alicia','Emilia','Flor']
i = 0
nueva_lista =[]
%timeit
while i < len(nombres):
    if len(nombres[i]) >=5 :
        nueva_lista.append(nombres[i])
        i +=1
print(nueva_lista)

In [20]:
## Ahora un código más eficiente 
nombres = ['Jorge', 'Karem está?', 'Claudia', 'Ian', 'Will','Carlos','Alicia','Emilia','Flor']
una_lista_optima = []
%time
for nombre in nombres:
    if len(nombre) >= 5:
        una_lista_optima.append(nombre)
print(una_lista_optima)

CPU times: user 1e+03 ns, sys: 1 µs, total: 2 µs
Wall time: 4.05 µs
['Jorge', 'Karem está?', 'Claudia', 'Carlos', 'Alicia', 'Emilia']


In [23]:
# Ahora un código maestro 
nombres = ['Jorge', 'Karem está?', 'Claudia', 'Ian', 'Will','Carlos','Alicia','Emilia','Flor']
%time
una_lista_optima = [nombre for nombre in nombres if len(nombre) >= 6]
print(una_lista_optima)

CPU times: user 1e+03 ns, sys: 0 ns, total: 1e+03 ns
Wall time: 2.62 µs
['Karem está?', 'Claudia', 'Carlos', 'Alicia', 'Emilia']


Notesé que se reducen los tiempos de manera importante

## Introducción a la función MAP

Según reza la definición de geeks for geeks

> "map() function returns a map object(which is an iterator) of the results after applying the given function to each item of a given iterable (list, tuple etc.)"


In [38]:
## Implementando un map para mutiples funciones 
# suponga que quiere redondear los siguientes números 

lista = np.random.uniform(1,30,5)
print('Lista de números aleatorios decimales', lista)
print('Aplicando el map para redonderar los números')
print('='*32)
lista_nueva = map(round,lista)
print('Estos son los resultados redondeados', list(lista_nueva))


Lista de números aleatorios decimales [25.51055899 11.61377221 24.37842815  9.55904249 27.76606532]
Aplicando el map para redonderar los números
Estos son los resultados redondeados [26, 12, 24, 10, 28]


In [39]:
## Notese que cuando guardo la la nueva lista sin el list este es el resultado
lista_nueva = map(round,lista)
print(type(lista_nueva))

<class 'map'>


In [40]:
## Podemos usar list para desempaquetar los números pero hay una versión más eficiente que usted siempre usará
[*lista_nueva]

[26, 12, 24, 10, 28]

## Tarea #1

1. Haga una plana con un for loop que diga que siempre usará [*] para desempaquetar listas
2. haga 10 ejemplos entre palabras, números y operaciones matemáticas con las formas de óptimizar código mostrando los tiempos de ejecución con el comando %time o %timeit 

In [41]:
# Ahora usando funciones Lambda 
numeros = list(range(1,100))
cuadrados = list(map(lambda x: x**2, numeros))
print(cuadrados)

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100, 121, 144, 169, 196, 225, 256, 289, 324, 361, 400, 441, 484, 529, 576, 625, 676, 729, 784, 841, 900, 961, 1024, 1089, 1156, 1225, 1296, 1369, 1444, 1521, 1600, 1681, 1764, 1849, 1936, 2025, 2116, 2209, 2304, 2401, 2500, 2601, 2704, 2809, 2916, 3025, 3136, 3249, 3364, 3481, 3600, 3721, 3844, 3969, 4096, 4225, 4356, 4489, 4624, 4761, 4900, 5041, 5184, 5329, 5476, 5625, 5776, 5929, 6084, 6241, 6400, 6561, 6724, 6889, 7056, 7225, 7396, 7569, 7744, 7921, 8100, 8281, 8464, 8649, 8836, 9025, 9216, 9409, 9604, 9801]


## Agregando Index 


In [51]:
nombres = ['Jorge', 'Karem está?', 'Claudia', 'Ian', 'Will','Carlos','Alicia','Emilia','Flor']
indexando_nombres = []
%time
for i,nombre in enumerate(nombres):
    index_nombre = (i,nombre)
    indexando_nombres.append(index_nombre)

print(indexando_nombres)

CPU times: user 3 µs, sys: 1 µs, total: 4 µs
Wall time: 6.2 µs
[(0, 'Jorge'), (1, 'Karem está?'), (2, 'Claudia'), (3, 'Ian'), (4, 'Will'), (5, 'Carlos'), (6, 'Alicia'), (7, 'Emilia'), (8, 'Flor')]


In [52]:
## Haciendolo de manera eficiente 
%time 
indexando_como_gente_decente = [(i, nombre) for i, nombre in enumerate(nombres)]
print(indexando_como_gente_decente)

CPU times: user 2 µs, sys: 1 µs, total: 3 µs
Wall time: 4.05 µs
[(0, 'Jorge'), (1, 'Karem está?'), (2, 'Claudia'), (3, 'Ian'), (4, 'Will'), (5, 'Carlos'), (6, 'Alicia'), (7, 'Emilia'), (8, 'Flor')]


## Aprendiendo con funciones inteligentes

In [53]:
nombres_map = list(map(str.upper,nombres))
print(nombres_map)

['JORGE', 'KAREM ESTÁ?', 'CLAUDIA', 'IAN', 'WILL', 'CARLOS', 'ALICIA', 'EMILIA', 'FLOR']


In [60]:
## Filtrando datos de manera eficiente
%time
nums = [-2,-1,0,1,2]
nums_np = np.array(nums)
nums_np[nums_np>0]

CPU times: user 1e+03 ns, sys: 1e+03 ns, total: 2 µs
Wall time: 35 µs


array([1, 2])

In [59]:
%time
pos = [num for num in nums if num >0]
print(pos)

CPU times: user 1e+03 ns, sys: 0 ns, total: 1e+03 ns
Wall time: 3.1 µs
[1, 2]


## Explorando a fondo los tiempos de ejecución

In [66]:
%time
nums=[]
for x in range(100):
    nums.append(x)
print(nums)

CPU times: user 2 µs, sys: 0 ns, total: 2 µs
Wall time: 5.01 µs
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99]


In [67]:
%time
nums_list_comp = [num for num in range(100)]
print(nums_list_comp)

CPU times: user 2 µs, sys: 0 ns, total: 2 µs
Wall time: 4.29 µs
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99]


In [68]:
## Esto se carga para ver los tiempos de ejecución y memoria de los procesos
%load_ext line_profiler

In [81]:
## Suponga el siguiente ejercicio

personajes = ['El chapulin Colorado','Juan Diego Alvira','Tal cual']
alturas = np.array([158.0,181.0,113.0])
pesos = np.array([95,101,74])

## Ahora creo una función que convierta los datos anteriores

def convert_units(personajes,alturas,pesos):
    new_hts = [altura / 10 for altura in alturas]
    new_wts = [peso * 2.20 for peso in pesos]

    personaje_data = {}

    for i, personaje in enumerate(personajes):
        personaje_data[personaje] = (new_hts[i],new_wts[i])
    return personaje_data 

In [82]:
convert_units(personajes,alturas,pesos)

{'El chapulin Colorado': (15.8, 209.00000000000003),
 'Juan Diego Alvira': (18.1, 222.20000000000002),
 'Tal cual': (11.3, 162.8)}

In [83]:
%lprun -f convert_units convert_units(personajes,alturas,pesos)

Timer unit: 1e-06 s

Total time: 9.1e-05 s
File: <ipython-input-81-ba3a68fa2700>
Function: convert_units at line 9

Line #      Hits         Time  Per Hit   % Time  Line Contents
     9                                           def convert_units(personajes,alturas,pesos):
    10         1         29.0     29.0     31.9      new_hts = [altura / 10 for altura in alturas]
    11         1         49.0     49.0     53.8      new_wts = [peso * 2.20 for peso in pesos]
    12                                           
    13         1          2.0      2.0      2.2      personaje_data = {}
    14                                           
    15         4          7.0      1.8      7.7      for i, personaje in enumerate(personajes):
    16         3          4.0      1.3      4.4          personaje_data[personaje] = (new_hts[i],new_wts[i])
    17         1          0.0      0.0      0.0      return personaje_data

In [84]:
## Eficiencia de la memoria
import sys
nums_list = [*range(1000)]
sys.getsizeof(nums_list) ## Este tamaño lo da en byts

9104

In [85]:
numpy_np = np.array(range(1000))
sys.getsizeof(numpy_np)

8096

In [None]:
## Para validar que lo anterior es necesario grabar el ejercicio