# Proyecto Herramientas II - Grupo Optimización

Primeramente se presentan las librerías que se utilizaron y que son necesarias para ejecutar el código. Se deja como comentarios la instalación de las mismas por si alguien ocupara instalar alguna.

In [175]:
# !pip install numpy
# !pip install pandas
# !pip install numexpr
# !pip install numba
# !pip install matplotlib
# !pip install seaborn
# !pip install joblib
# !pip install IPython

In [178]:
# Se cargan las librerías más comúnes que se van a usar
import numpy as np
import pandas as pd
import timeit # La librería timeit no requiere ser instalada

Se usó la librería timeit para determinar el tiempo de ejecución de los ejercicios.

Referencias:

https://docs.python.org/es/3/library/timeit.html

https://www.geeksforgeeks.org/timeit-python-examples/

## Ejercicio 1: Operaciones matriciales

In [179]:
# Se crea la matriz con la que se va a trabajar
matriz = np.random.rand(10_000, 10_000)

In [180]:
# Ahora se realizará el ejercicio usando la librería NumExpr
import numexpr as ne

# Se crea un string con el código que se quiere ejecutar
codigo = """
resultado = ne.evaluate('(matriz ** 100) * 10 + 5')
"""

# Se ejecuta el código 10 veces usando timeit y se almacenan los tiempos en una lista
tiempo_total = timeit.timeit(stmt = codigo, number = 10, globals = globals())

# Se calcula el tiempo promedio
tiempo_promedio = tiempo_total / 10

tiempo_promedio

0.5810201600019355

In [181]:
# Seguidamente se hace lo mismo usando la librería Numba
import numba as nb

# Se crea una función que realice la operación que queramos, agregándole decoradores para que numba compile esta función de manera eficiente 
@nb.njit(parallel = True)
def operacion(matriz):
    
    matriz_resultado = np.empty_like(matriz)
    
    for i in nb.prange(matriz.shape[0]):
        
        for j in range(matriz.shape[1]):
            
            matriz_resultado[i, j] = (matriz[i, j] ** 100) * 10 + 5
            
    return matriz_resultado

codigo = """
resultado = operacion(matriz)
"""

tiempo_total = timeit.timeit(stmt = codigo, number = 10, globals = globals())

tiempo_promedio = tiempo_total / 10

tiempo_promedio

0.21831957999966106

In [183]:
# Por último, se crea un dataframe con el tiempo promedio (en segundos) obtenido por cada uno de los integrantes usando cada librería

data = {

    'integrante': ['Eyeri'],

    'numexpr': [0.581],

    'numba': [0.218]
    
}

tiempos_matrices = pd.DataFrame(data)

tiempos_matrices

Unnamed: 0,integrante,numexpr,numba
0,Eyeri,0.581,0.218


## Ejercicio 2: Gráficos en paralelo

In [128]:
# Se lee la base de datos, eliminando ciertas columnas
muertes_cr = pd.read_excel('data/muertes_en_costa_rica_2014_2021.xlsx',
                           engine = 'openpyxl')

muertes_cr = muertes_cr.drop(columns = ['pc', 'causamuer', 'des_causa', 'instmurio', 'pcocu', 'nacmadre', 'pcregis', 'gruposcb'])

In [129]:
# Se realiza la limpieza de la base de datos
muertes_cr = muertes_cr[muertes_cr['edads'] >= 15]

muertes_cr = muertes_cr[muertes_cr['anodef'] >= 2014]

muertes_cr = muertes_cr[muertes_cr['anotrab'] >= 2014]

muertes_cr = muertes_cr[muertes_cr['anodeclara'] >= 2014]

muertes_cr['estcivil'] = muertes_cr['estcivil'].str.replace("Ã³", "o")

muertes_cr['ocuparec'] = muertes_cr['ocuparec'].str.replace("Ã¡", "a")

muertes_cr['ocuparec'] = muertes_cr['ocuparec'].str.replace("Ã©", "e")

muertes_cr['ocuparec'] = muertes_cr['ocuparec'].str.replace("Ã", "i")

muertes_cr['regsalud'] = muertes_cr['regsalud'].str.replace("Ã\xad", "i")

muertes_cr['regsalud'] = muertes_cr['regsalud'].str.replace("Ã³", "o")

muertes_cr['provincia'] = muertes_cr['provincia'].str.replace("Ã©", "e")

muertes_cr['provincia'] = muertes_cr['provincia'].str.replace("Ã³", "o")

muertes_cr['provocu'] = muertes_cr['provocu'].str.replace("Ã©", "e")

muertes_cr['provocu'] = muertes_cr['provocu'].str.replace("Ã³", "o")

muertes_cr['provregis'] = muertes_cr['provregis'].str.replace("Ã©", "e")

muertes_cr['provregis'] = muertes_cr['provregis'].str.replace("Ã³", "o")

muertes_cr['reginec'] = muertes_cr['reginec'].str.replace("Ã\xad", "i")

muertes_cr['reginec'] = muertes_cr['reginec'].str.replace("Ã³", "o")

muertes_cr['edadsrec'] = muertes_cr['edadsrec'].str.replace("100 y mÃ¡s", "100 - 121")

muertes_cr['autopsia'] = muertes_cr['autopsia'].str.replace("Ã©", "e")

muertes_cr['autopsia'] = muertes_cr['autopsia'].str.replace("Ã\xad", "i")

muertes_cr['asistmed'] = muertes_cr['asistmed'].str.replace("Ã©", "e")

muertes_cr['asistmed'] = muertes_cr['asistmed'].str.replace("Ã\xad", "i")

muertes_cr['nacionalid'] = muertes_cr['nacionalid'].apply(lambda x: 'Extranjero' if x != 'Costa Rica' else x)

otros = ['Ignorado', 'Union libre', 'Separado', 'Menor']

muertes_cr['estcivil'] = muertes_cr['estcivil'].replace(otros, 'Otros')

trabajadores_activos = ['Profesionales cienti\xadficos e intelectuales', 'Agricultores y trabajadores calificados agropecuarios, forestales y pesqueros',
                        'Ocupaciones elementales', 'Trabajadores de los servicios y vendedores de comercios y mercados',
                        'Operadores de instalaciones y maquinas y ensambladores', 'Tecnicos y profesionales de nivel medio',
                        'Oficiales, operarios y artesanos de artes mecanicas y de otros oficios', 'Personal de apoyo administrativo',
                        'Directores y gerentes']

muertes_cr['ocuparec'] = muertes_cr['ocuparec'].replace(trabajadores_activos, 'Trabajadores activos')

otros = ['Pensionado', 'Persona con discapacidad', 'Estudiante', 'Mal especificadas', 'Privado de libertad']

muertes_cr['ocuparec'] = muertes_cr['ocuparec'].replace(otros, 'Otros')

rangos_etarios = ["15 - 19", "20 - 24", "25 - 29", "30 - 34", "35 - 39", "40 - 44", "45 - 49", 
                  "50 - 54", "55 - 59", "60 - 64", "65 - 69", "70 - 74", "75 - 79", "80 - 84", 
                  "85 - 89", "90 - 94", "95 - 99", "100 - 121"]

muertes_cr['edadsrec'] = pd.Categorical(muertes_cr['edadsrec'], categories = rangos_etarios, ordered = True)

muertes_cr.reset_index(drop = True, inplace = True)

Ahora se realizará el ejercicio en sí

Primeramente se usa joblib para paralelizar la generación de los histogramas y de los gráficos de barras, por medio de los componentes Parallel y delayed

Referencias:

https://joblib.readthedocs.io/en/latest/parallel.html

https://joblib.readthedocs.io/en/latest/generated/joblib.Parallel.html

También se hace uso de la función clear_output del módulo IPython, con el fin de limpiar la salida de la celda y no mostrar todos los gráficos
generados cada vez que se ejecuta la función de generar gráficos

Referencias:

https://stackoverflow.com/questions/24816237/ipython-notebook-clear-cell-output-in-code

https://notebook.community/CestDiego/emacs-ipython-notebook/tests/notebook/nbformat4/Animations%20Using%20clear_output

In [191]:
import matplotlib.pyplot as plt
import seaborn as sns
from joblib import Parallel, delayed
from IPython.display import clear_output

# Se define una función que realice los histogramas para las variables numéricas
def histograma(df, columna):
    
    plt.figure()
    
    sns.histplot(df[columna], bins = 'auto', color = 'blue', edgecolor = 'black')
    
    plt.xlabel('Valor')
    
    plt.ylabel('Frecuencia')
    
    return plt.gcf()

# Se define otra función que haga los gráficos de barras para las variables categóricas
def barras(df, columna):
    
    plt.figure()
    
    sns.countplot(x = columna, data = df, color = 'red')

    plt.xticks(rotation = 45)
    
    plt.xlabel('Categorías')
    
    plt.ylabel('Cantidad')
    
    return plt.gcf()

# Definimos una función que devuelve las columnas numéricas y categóricas en listas por aparte
def tipos_columnas(df):
    
    numericas = df.select_dtypes(include = ['number']).columns
        
    categoricas = df.select_dtypes(include = ['object', 'category']).columns

    return numericas, categoricas

# Obtenemos las variables numericas y categóricas
numericas, categoricas = tipos_columnas(muertes_cr)

# Definimos una función que genere los gráficos deseados
def generar_graficos(limpiar = True):

    # Generamos y guardamos los gráficos tanto de histogramas como de barras usando la paralelización de joblib
    histogramas = Parallel(n_jobs = -1)(
    
        delayed(histograma)(muertes_cr, col) for col in numericas
    
    )

    graficos_barras = Parallel(n_jobs = -1)(
    
        delayed(barras)(muertes_cr, col) for col in categoricas
    
    )

    # Mostramos los gráficos
    for grafico in histogramas + graficos_barras:

        plt.show()

    # Si el parámetro limpiar es True, no se mostrarán los gráficos
    if limpiar:

        clear_output()

# Así, se mide el tiempo que tarda la función al ejecutarla 10 veces
tiempo_ejecucion = timeit.timeit(generar_graficos, number = 10)

# Se obtiene el tiempo promedio de las 10 ejecuciones
tiempo_promedio = tiempo_ejecucion / 10
print(tiempo_promedio)

# Por último, se crea un dataframe con el tiempo promedio que tardó la función por cada integrante
data = {

    'integrante': ['Eyeri'],

    'tiempo_promedio': [8.82]
    
}

tiempos_graficos = pd.DataFrame(data)
tiempos_graficos

8.495974209997803


Unnamed: 0,integrante,tiempo_promedio
0,Eyeri,8.82
