In [9]:
import pandas as pd
import timeit
import time
import numpy as np
from numba import njit, prange
from scipy.stats import norm
import matplotlib.pyplot as plt
import seaborn as sns
from joblib import Parallel, delayed
from IPython.display import clear_output

Clase Madre pero solo dejamos lo necesario para los graficos en paralelo

In [14]:
class Madre:
    """
    Clase para heredar atributos y métodos a clases futuras

    Attributes
    ----------
    ruta : str
        una cadena de texto con una ruta de un archivo
    
    repeticiones : int
        numero de repeticiones para la ejecición de un módulo, por default es 10

    Methods
    -------
     
    leer_excel(self)
        Función que lee el contenido de un archivo de Excel y devuelve su 
        contendio en un Dataframe
    
    medir_tiempo(self, metodo_str)
        Función que mide el tiempo promedio por numero de repeticiones
        en la ejecución de un método de la clase
    
    transpuesta(self)
        Calcula la matriz transpuesta y devuelve el resultado
    """
    
    
    def __init__(self, ruta):
        ''' Constructor de la clase Madre
        
        Parameters
        ---------
        ruta : str
            Una cadena de texto con una ruta de un archivo
        
        Returns
        -----
        None
            Construye el objeto, pero no lo devuelve
        '''
        self.__ruta = ruta
        self.__repeticiones = 10

    
    @property
    def ruta(self):
        ''' Método get de la clase Madre
        
        Parameters
        ---------
        None
        
        Returns
        -----
        ruta : str
            Una cadena de texto con una ruta de un archivo
        '''
        return self.__ruta

    
    @ruta.setter
    def ruta(self, nueva_ruta):
        ''' Método set de la clase Madre
        
        Parameters
        ---------
        nueva_ruta : str
            Una cadena de texto con una ruta de un archivo
        
        Returns
        -----
        None
            Cambia el atributo ruta de un objeto de la clase Madre
        '''
        self.__ruta = nueva_ruta

    
    @property
    def repeticiones(self):
        ''' Método get de la clase Madre
        
        Parameters
        ---------
        None
        
        Returns
        -----
        repeticiones : int
            Numero de repeticiones para la ejecición de un módulo
        '''
        return self.__repeticiones

    
    @repeticiones.setter
    def repeticiones(self, nuevas_repeticiones):
        ''' Método set de la clase Madre
        
        Parameters
        ---------
        nuevas_repeticiones : int
            Numero de repeticiones para la ejecición de un módulo
        
        Returns
        -----
        None
            Cambia el atributo repeticiones de un objeto de la clase Madre
        '''
        self.__repeticiones = nuevas_repeticiones

    
    def __str__(self):
        ''' Texto explicando un resumen de la clase Madre
            
        Parameters
        ---------
        None
        
        Returns
        -----
        Cadena : str
            Texto explicativo que resume la clase Madre
        '''
        return f'Ruta:{self.__ruta} \nRepeticiones: {self.__repeticiones}'
    
    

    def leer_excel(self):
        '''
        Esta función utiliza pandas para abrir un archivo de Excel en modo de lectura, 
        y carga su contenido en un DataFrame.
        
        Parameters
        ---------
        None
        
        Returns:
        -------
        contenido: pandas.DataFrame
           DataFrame que contiene los datos del archivo Excel leído
        '''
        contenido = pd.read_excel(self.__ruta, engine = 'openpyxl')
        return contenido
        
    def medir_tiempo(self, metodo_str):
        '''
        Función que mide el tiempo de ejecución de un método de la clase.
        Esta función toma el nombre del método y sus argumentos como una cadena, 
        construye y ejecuta esa llamada varias veces, y mide el tiempo promedio 
        de ejecución utilizando la función timeit.
    
        Parameters
        ----------
        metodo_str: str
           Cadena que contiene el nombre del método y los argumentos. 
           Ejemplo: "sumar(1,2)"
    
        Returns:
        -------
        tiempo: float
           Tiempo promedio de ejecución del método en segundos
        '''
        # Obtener el nombre del método y los argumentos de la cadena
        metodo_nombre, args_str = metodo_str.split('(', 1)
        args_str = args_str.rstrip(')')
        # Construir la cadena de código para ejecutar el método con los argumentos
        codigo = f"self.{metodo_nombre}({args_str})"
        # Medir el tiempo de ejecución
        tiempo = timeit.timeit(stmt=f"resultado = {codigo}", number=self.repeticiones, globals={'self': self}) / self.repeticiones
        return tiempo


Clase TrabajoDataframe pero solo dejamos los ejercicios graficar en paralelo y el de limpieza de datos.
Este ultimo es necesario para limpiar la data para que los graficos funcionen

In [8]:
#from Madre import Madre

class TrabajoDataframes(Madre):
    """
    Clase para trabajar con dataframes heredando de la clase Madre.
    
    Attributes
    ----------
    ruta : str
        Una cadena de texto con una ruta de un archivo
        
    dataframe : pandas.DataFrame
        DataFrame leído desde el archivo especificado por la ruta
    
    Methods
    -------
    limpiar_datos(self)
        Realiza la limpieza del DataFrame eliminando y reemplazando valores según ciertas reglas.
    
    histograma(df, columna)
        Crea un histograma para una columna numérica específica de un DataFrame.
    
    barras(df, columna)
        Crea un gráfico de barras para una columna categórica específica de un DataFrame.
    
    tipos_columnas(df)
        Identifica y separa las columnas numéricas y categóricas en un DataFrame
    
    generar_graficos(self, limpiar=True)
        Genera gráficos de histogramas para variables numéricas y gráficos de barras para variables categóricas.

    """

    
    def __init__(self, ruta):
        """
        Constructor de la clase TrabajoDataframes
        
        Parameters
        ----------
        ruta : str
            Una cadena de texto con una ruta de un archivo
        
        Returns
        -------
        None
        """
        super().__init__(ruta)
        if (isinstance(ruta, str)): 
            self.__dataframe = self.leer_excel()
        else:
            self.__dataframe = None  

    
    @property
    def dataframe(self):
        """
        Método get de la clase TrabajoDataframes

        Parameters
        ----------
        None

        Returns
        -------
        dataframe : pandas.DataFrame
            El DataFrame actual
        """
        return self.__dataframe

    @dataframe.setter
    def dataframe(self, nuevo_dataframe):
        """
        Método set de la clase TrabajoDataframes

        Parameters
        ----------
        nuevo_dataframe : pandas.DataFrame
            El nuevo DataFrame que reemplazará el actual

        Returns
        -------
        None
        """
        self.__dataframe = nuevo_dataframe

    
    def __str__(self):
        """
        Una cadena de texto que resume la clase TrabajoDataframes.

        Parameters
        ----------
        None

        Returns
        -------
        cadena : str
            Texto explicativo que resume la clase TrabajoDataframes
        """
        return f'{super().__str__()}\nDataFrame: {self.__dataframe}'

#-------------------------------- Ejercicio 2---------------------------------------   
    
    def limpiar_datos(self):
        """
        Realiza la limpieza del DataFrame eliminando y reemplazando valores según ciertas reglas.
        
        Parameters
        ----------
        None
        
        Returns
        -------
        muertes_cr : pandas.DataFrame
            DataFrame limpio según las reglas especificadas
        """
        muertes_cr = self.__dataframe
    
        muertes_cr = muertes_cr.drop(columns = ['pc', 'causamuer', 'des_causa', 'instmurio', 'pcocu', 'nacmadre', 'pcregis', 'gruposcb'])
    
        # Se realiza la limpieza de la base de datos
        
        muertes_cr = muertes_cr[muertes_cr['edads'] >= 15]
        
        muertes_cr = muertes_cr[muertes_cr['anodef'] >= 2014]
        
        muertes_cr = muertes_cr[muertes_cr['anotrab'] >= 2014]
        
        muertes_cr = muertes_cr[muertes_cr['anodeclara'] >= 2014]
        
        muertes_cr['estcivil'] = muertes_cr['estcivil'].str.replace("Ã³", "o")
        
        muertes_cr['ocuparec'] = muertes_cr['ocuparec'].str.replace("Ã¡", "a")
        
        muertes_cr['ocuparec'] = muertes_cr['ocuparec'].str.replace("Ã©", "e")
        
        muertes_cr['ocuparec'] = muertes_cr['ocuparec'].str.replace("Ã", "i")
        
        muertes_cr['regsalud'] = muertes_cr['regsalud'].str.replace("Ã\xad", "i")
        
        muertes_cr['regsalud'] = muertes_cr['regsalud'].str.replace("Ã³", "o")
        
        muertes_cr['provincia'] = muertes_cr['provincia'].str.replace("Ã©", "e")
        
        muertes_cr['provincia'] = muertes_cr['provincia'].str.replace("Ã³", "o")
        
        muertes_cr['provocu'] = muertes_cr['provocu'].str.replace("Ã©", "e")
        
        muertes_cr['provocu'] = muertes_cr['provocu'].str.replace("Ã³", "o")
        
        muertes_cr['provregis'] = muertes_cr['provregis'].str.replace("Ã©", "e")
        
        muertes_cr['provregis'] = muertes_cr['provregis'].str.replace("Ã³", "o")
        
        muertes_cr['reginec'] = muertes_cr['reginec'].str.replace("Ã\xad", "i")
        
        muertes_cr['reginec'] = muertes_cr['reginec'].str.replace("Ã³", "o")
        
        muertes_cr['edadsrec'] = muertes_cr['edadsrec'].str.replace("100 y mÃ¡s", "100 - 121")
        
        muertes_cr['autopsia'] = muertes_cr['autopsia'].str.replace("Ã©", "e")
        
        muertes_cr['autopsia'] = muertes_cr['autopsia'].str.replace("Ã\xad", "i")
        
        muertes_cr['asistmed'] = muertes_cr['asistmed'].str.replace("Ã©", "e")
        
        muertes_cr['asistmed'] = muertes_cr['asistmed'].str.replace("Ã\xad", "i")
        
        muertes_cr['nacionalid'] = muertes_cr['nacionalid'].apply(lambda x: 'Extranjero' if x != 'Costa Rica' else x)
        
        otros = ['Ignorado', 'Union libre', 'Separado', 'Menor']
        
        muertes_cr['estcivil'] = muertes_cr['estcivil'].replace(otros, 'Otros')
        
        trabajadores_activos = ['Profesionales cienti\xadficos e intelectuales', 
                                'Agricultores y trabajadores calificados agropecuarios, forestales y pesqueros',
                                'Ocupaciones elementales', 'Trabajadores de los servicios y vendedores de comercios y mercados',
                                'Operadores de instalaciones y maquinas y ensambladores', 'Tecnicos y profesionales de nivel medio',
                                'Oficiales, operarios y artesanos de artes mecanicas y de otros oficios', 'Personal de apoyo administrativo',
                                'Directores y gerentes']
        
        muertes_cr['ocuparec'] = muertes_cr['ocuparec'].replace(trabajadores_activos, 'Trabajadores activos')
        
        otros = ['Pensionado', 'Persona con discapacidad', 'Estudiante', 'Mal especificadas', 'Privado de libertad']
        
        muertes_cr['ocuparec'] = muertes_cr['ocuparec'].replace(otros, 'Otros')
        
        rangos_etarios = ["15 - 19", "20 - 24", "25 - 29", "30 - 34", "35 - 39", "40 - 44", "45 - 49", 
                          "50 - 54", "55 - 59", "60 - 64", "65 - 69", "70 - 74", "75 - 79", "80 - 84", 
                          "85 - 89", "90 - 94", "95 - 99", "100 - 121"]
        
        muertes_cr['edadsrec'] = pd.Categorical(muertes_cr['edadsrec'], categories = rangos_etarios, ordered = True)
        
        muertes_cr.reset_index(drop = True, inplace = True)
        
        return muertes_cr
#-------------------------------------------------------------------------------------------------------

#--------------------------------------Ejercicio 3------------------------------------------------------
    # Se define una función que realice los histogramas para las variables numéricas
    @staticmethod
    def histograma(df, columna):
        '''
        Función que crea un histograma para una columna numérica específica de un DataFrame.

        Parameters:
        ----------
        df: pandas.DataFrame
           DataFrame que contiene los datos

        columna: str
           Nombre de la columna numérica para la cual se desea crear el histograma

        Returns:
        -------
        fig: matplotlib.figure.Figure
           Figura del histograma generado
        '''
        plt.figure()
        
        sns.histplot(df[columna], bins = 'auto', color = 'blue', edgecolor = 'black')
        
        plt.xlabel('Valor')
        
        plt.ylabel('Frecuencia')
        
        return plt.gcf()

    # Se define otra función que haga los gráficos de barras para las variables categóricas
    @staticmethod
    def barras(df, columna):
        '''
        Función que crea un gráfico de barras para una columna categórica específica de un DataFrame.

        Parameters:
        ----------
        df: pandas.DataFrame
           DataFrame que contiene los datos

        columna: str
           Nombre de la columna categórica para la cual se desea crear el gráfico de barras

        Returns:
        -------
        fig: matplotlib.figure.Figure
           Figura del gráfico de barras generado
        '''
        
        plt.figure()
        
        sns.countplot(x = columna, data = df, color = 'red')
    
        plt.xticks(rotation = 45)
        
        plt.xlabel('Categorías')
        
        plt.ylabel('Cantidad')
        
        return plt.gcf()

    # Definimos una función que devuelve las columnas numéricas y categóricas en listas por aparte
    @staticmethod
    def tipos_columnas(df):
        '''
        Función que identifica y separa las columnas numéricas y categóricas en un DataFrame.

        Parameters:
        ----------
        df: pandas.DataFrame
           DataFrame que contiene los datos

        Returns:
        -------
        numericas: pandas.Index
           Índice con los nombres de las columnas numéricas

        categoricas: pandas.Index
           Índice con los nombres de las columnas categóricas
        '''
        
        numericas = df.select_dtypes(include = ['number']).columns
            
        categoricas = df.select_dtypes(include = ['object', 'category']).columns
    
        return numericas, categoricas

    
    # Definimos una función que genere los gráficos deseados
    def generar_graficos(self, limpiar = True):
        '''
        Función que genera gráficos de histogramas para variables numéricas y gráficos de barras para variables categóricas.

        Parameters:
        ----------
        limpiar: bool
           Si es True, se limpiará la salida después de mostrar los gráficos (por defecto True)
        '''
        
        muertes_cr = self.__dataframe
        # Obtenemos las variables numericas y categóricas
        numericas, categoricas = self.tipos_columnas(muertes_cr)
        
        # Generamos y guardamos los gráficos tanto de histogramas como de barras usando la paralelización de joblib
        histogramas = Parallel(n_jobs = -1)(
        
            delayed(self.histograma)(muertes_cr, col) for col in numericas
        
        )
    
        graficos_barras = Parallel(n_jobs = -1)(
        
            delayed(self.barras)(muertes_cr, col) for col in categoricas
        
        )
    
        # Mostramos los gráficos
        for grafico in histogramas + graficos_barras:
    
            plt.show()
    
        # Si el parámetro limpiar es True, no se mostrarán los gráficos
        if limpiar:
    
            clear_output()

    
#-------------------------------------------------------------------------------------------------------


Main

In [12]:
#guardo un dataframe de la base limpia
muertes_limpias = TrabajoDataframes('data/Muertes_costa_rica.xlsx').limpiar_datos()
#creo un objeto de la clase TrabajoDataframes con un variable que no sea un string
obj_limpio = TrabajoDataframes(2)
#le meto con setter el dataframe con una base limpia
obj_limpio.dataframe = muertes_limpias
#finalmente mido el tiempo promedio por iteracion
tiempo = obj_limpio.medir_tiempo("generar_graficos()")

In [13]:
tiempo

17.55197610000032