librerias

In [156]:
import pandas as pd
import timeit
import time
import numpy as np
from numba import njit, prange
from scipy.stats import norm
import matplotlib.pyplot as plt
import seaborn as sns
from joblib import Parallel, delayed
from IPython.display import clear_output

In [163]:
class Madre:
    """
    Clase para heredar atributos y métodos a clases futuras

    Attributes
    ----------
    ruta : str
        una cadena de texto con una ruta de un archivo
    
    repeticiones : int
        numero de repeticiones para la ejecición de un módulo, por default es 10

    Methods
    -------
    leer_txt(self)
        Función que lee el contenido de un archivo de texto y 
        devuelve su contenido como un string
    
    leer_excel(self)
        Función que lee el contenido de un archivo de Excel y devuelve su 
        contendio en un Dataframe
    
    medir_tiempo(self, metodo_str)
        Función que mide el tiempo promedio por numero de repeticiones
        en la ejecución de un método de la clase
    
    transpuesta(self)
        Calcula la matriz transpuesta y devuelve el resultado
    """
    
    
    def __init__(self, ruta):
        ''' Constructor de la clase Madre
        
        Parameters
        ---------
        ruta : str
            Una cadena de texto con una ruta de un archivo
        
        Returns
        -----
        None
            Construye el objeto, pero no lo devuelve
        '''
        self.__ruta = ruta
        self.__repeticiones = 10

    
    @property
    def ruta(self):
        ''' Método get de la clase Madre
        
        Parameters
        ---------
        None
        
        Returns
        -----
        ruta : str
            Una cadena de texto con una ruta de un archivo
        '''
        return self.__ruta

    
    @ruta.setter
    def ruta(self, nueva_ruta):
        ''' Método set de la clase Madre
        
        Parameters
        ---------
        nueva_ruta : str
            Una cadena de texto con una ruta de un archivo
        
        Returns
        -----
        None
            Cambia el atributo ruta de un objeto de la clase Madre
        '''
        self.__ruta = nueva_ruta

    
    @property
    def repeticiones(self):
        ''' Método get de la clase Madre
        
        Parameters
        ---------
        None
        
        Returns
        -----
        repeticiones : int
            Numero de repeticiones para la ejecición de un módulo
        '''
        return self.__repeticiones

    
    @repeticiones.setter
    def repeticiones(self, nuevas_repeticiones):
        ''' Método set de la clase Madre
        
        Parameters
        ---------
        nuevas_repeticiones : int
            Numero de repeticiones para la ejecición de un módulo
        
        Returns
        -----
        None
            Cambia el atributo repeticiones de un objeto de la clase Madre
        '''
        self.__repeticiones = nuevas_repeticiones

    
    def __str__(self):
        ''' Texto explicando un resumen de la clase Madre
            
        Parameters
        ---------
        None
        
        Returns
        -----
        Cadena : str
            Texto explicativo que resume la clase Madre
        '''
        return f'Ruta:{self.__ruta} \nRepeticiones: {self.__repeticiones}'
    
    
    
    
    def leer_txt(self):
        '''
        Esta función abre un archivo de texto en modo de lectura, 
        lee todo su contenido y lo retorna como una cadena de texto.
        
        Parameters
        ---------
        None
        
        Returns:
        -------
        contenido: str
           Cadena de texto que contiene el contenido completo del archivo leído
        '''
        with open(self.__ruta, 'r') as archivo:
            contenido = archivo.read()
            return contenido

    def leer_excel(self):
        '''
        Esta función utiliza pandas para abrir un archivo de Excel en modo de lectura, 
        y carga su contenido en un DataFrame.
        
        Parameters
        ---------
        None
        
        Returns:
        -------
        contenido: pandas.DataFrame
           DataFrame que contiene los datos del archivo Excel leído
        '''
        contenido = pd.read_excel(self.__ruta, engine = 'openpyxl')
        return contenido
        
    def medir_tiempo(self, metodo_str):
        '''
        Función que mide el tiempo de ejecución de un método de la clase.
        Esta función toma el nombre del método y sus argumentos como una cadena, 
        construye y ejecuta esa llamada varias veces, y mide el tiempo promedio 
        de ejecución utilizando la función timeit.
    
        Parameters
        ----------
        metodo_str: str
           Cadena que contiene el nombre del método y los argumentos. 
           Ejemplo: "sumar(1,2)"
    
        Returns:
        -------
        tiempo: float
           Tiempo promedio de ejecución del método en segundos
        '''
        # Obtener el nombre del método y los argumentos de la cadena
        metodo_nombre, args_str = metodo_str.split('(', 1)
        args_str = args_str.rstrip(')')
        # Construir la cadena de código para ejecutar el método con los argumentos
        codigo = f"self.{metodo_nombre}({args_str})"
        # Medir el tiempo de ejecución
        tiempo = timeit.timeit(stmt=f"resultado = {codigo}", number=self.repeticiones, globals={'self': self}) / self.repeticiones
        return tiempo


In [170]:
class GenerarDataframes():
    """
    Clase para generar dataframes a partir de listas de tiempos y nombres de integrantes.

    Attributes
    ----------
    integrantes : list
        Lista de nombres de los integrantes.
    
    Methods
    -------
    tiempos_simples(self, tiempos)
        Genera un dataframe con los nombres de los integrantes y sus tiempos simples.

    tiempos_dobles(self, nombre1, tiempos1, nombre2, tiempos2)
        Genera un dataframe con los nombres de los integrantes y dos series de tiempos.
    """
    
    def __init__(self, integrantes):
        """
        Constructor de la clase GenerarDataframes
        
        Parameters
        ----------
        integrantes : list
            Lista de nombres de los integrantes
        
        Returns
        -------
        None
        """
        self.__integrantes = integrantes
        
    @property
    def integrantes(self):
        """
        Método get de la clase GenerarDataframes
        
        Parameters
        ----------
        None
        
        Returns
        -------
        integrantes : list
            Lista de nombres de los integrantes
        """
        return self.__integrantes

    @integrantes.setter
    def integrantes(self, nuevos_integrantes):
        """
        Método set de la clase GenerarDataframes
        
        Parameters
        ----------
        nuevos_integrantes : list
            Nueva lista de nombres de los integrantes
        
        Returns
        -------
        None
        """
        self.__integrantes = nuevos_integrantes

    def __str__(self):
        """
        Devuelve una cadena de texto que resume la clase GenerarDataframes.
        
        Parameters
        ----------
        None
        
        Returns
        -------
        cadena : str
            Texto explicativo que resume la clase GenerarDataframes
        """
        return f'Integrantes: {self.__integrantes}'




    def tiempos_simples(self, tiempos):
        """
        Genera un dataframe con los nombres de los integrantes y sus tiempos .
        
        Parameters
        ----------
        tiempos : list
            Lista de tiempos correspondientes a los integrantes
        
        Returns
        -------
        df : pandas.DataFrame
            DataFrame con los nombres de los integrantes y sus tiempos
        """
        
        dic = {
            'integrante' : self.__integrantes,
            'tiempo' : tiempos
        }
        df = pd.DataFrame(dic)
        return df

    def tiempos_dobles(self, nombre1, tiempos1, nombre2, tiempos2):
        """
        Genera un dataframe con los nombres de los integrantes y dos series de tiempos.
        
        Parameters
        ----------
        nombre1 : str
            Nombre de la primera serie de tiempos
        tiempos1 : list
            Lista de tiempos para la primera serie
        nombre2 : str
            Nombre de la segunda serie de tiempos
        tiempos2 : list
            Lista de tiempos para la segunda serie
        
        Returns
        -------
        df : pandas.DataFrame
            DataFrame con los nombres de los integrantes y dos series de tiempos
        """
        
        dic = {
            'integrante' : self.__integrantes,
            nombre1 : tiempos1,
            nombre2 : tiempos2
        }
        df = pd.DataFrame(dic)
        return df




In [117]:
df = GenerarDataframes(['alexia','aitana','mapi']).tiempos_dobles('numero',[11,14,4],'oro', [2,1,0])

Clase trabajo con dataframes, ejercicios: 2, 3, 4, 5 y 6

In [164]:
#from Madre import Madre

class TrabajoDataframes(Madre):
    """
    Clase para trabajar con dataframes heredando de la clase Madre.
    
    Attributes
    ----------
    ruta : str
        Una cadena de texto con una ruta de un archivo
        
    dataframe : pandas.DataFrame
        DataFrame leído desde el archivo especificado por la ruta

    banda : int
        Tamaño de la ventana a considerar alrededor de cada valor nulo para calcular el promedio de 
        imputación. La ventana se extiende `banda` posiciones a la izquierda y a la derecha del valor nulo.
    
    Methods
    -------
    limpiar_datos(self)
        Realiza la limpieza del DataFrame eliminando y reemplazando valores según ciertas reglas.
    
    histograma(df, columna)
        Crea un histograma para una columna numérica específica de un DataFrame.
    
    barras(df, columna)
        Crea un gráfico de barras para una columna categórica específica de un DataFrame.
    
    tipos_columnas(df)
        Identifica y separa las columnas numéricas y categóricas en un DataFrame.
    
    generar_graficos(self, limpiar=True)
        Genera gráficos de histogramas para variables numéricas y gráficos de barras para variables categóricas.
    
    imputar_por_prom_movil(self, columna)
        Imputa valores nulos en una columna específica de un DataFrame utilizando un promedio móvil.
    
    eliminar_columnas_por_nulos(self, porcentaje)
        Elimina columnas con un porcentaje alto de valores nulos.
    
    imputar_por_agrupacion(self)
        Imputa valores faltantes en la columna 'Salario base' por agrupación.
    """

    
    def __init__(self, ruta):
        """
        Constructor de la clase TrabajoDataframes
        
        Parameters
        ----------
        ruta : str
            Una cadena de texto con una ruta de un archivo
        
        Returns
        -------
        None
        """
        super().__init__(ruta)
        if (isinstance(ruta, str)): 
            self.__dataframe = self.leer_excel()
        else:
            self.__dataframe = None  
        self.__banda = 4


    @property
    def banda(self):
        """
        Método get de la clase TrabajoDataframes

        Parameters
        ----------
        None

        Returns
        -------
        banda : int
            Tamaño de la ventana para el promedio móvil
        """
        return self.__banda

    @banda.setter
    def banda(self, nueva_banda):
        """
        Método set de la clase TrabajoDataframes

        Parameters
        ----------
        nueva_banda : int
            Nuevo tamaño de la ventana para el promedio móvil

        Returns
        -------
        None
        """
        self.__banda = nueva_banda

    @property
    def dataframe(self):
        """
        Método get de la clase TrabajoDataframes

        Parameters
        ----------
        None

        Returns
        -------
        dataframe : pandas.DataFrame
            El DataFrame actual
        """
        return self.__dataframe

    @dataframe.setter
    def dataframe(self, nuevo_dataframe):
        """
        Método set de la clase TrabajoDataframes

        Parameters
        ----------
        nuevo_dataframe : pandas.DataFrame
            El nuevo DataFrame que reemplazará el actual

        Returns
        -------
        None
        """
        self.__dataframe = nuevo_dataframe

    
    def __str__(self):
        """
        Una cadena de texto que resume la clase TrabajoDataframes.

        Parameters
        ----------
        None

        Returns
        -------
        cadena : str
            Texto explicativo que resume la clase TrabajoDataframes
        """
        return f'{super().__str__()}\nBanda: {self.__banda}\nDataFrame: {self.__dataframe}'

#-------------------------------- Ejercicio 2---------------------------------------   
    
    def limpiar_datos(self):
        """
        Realiza la limpieza del DataFrame eliminando y reemplazando valores según ciertas reglas.
        
        Parameters
        ----------
        None
        
        Returns
        -------
        muertes_cr : pandas.DataFrame
            DataFrame limpio según las reglas especificadas
        """
        muertes_cr = self.__dataframe
    
        muertes_cr = muertes_cr.drop(columns = ['pc', 'causamuer', 'des_causa', 'instmurio', 'pcocu', 'nacmadre', 'pcregis', 'gruposcb'])
    
        # Se realiza la limpieza de la base de datos
        
        muertes_cr = muertes_cr[muertes_cr['edads'] >= 15]
        
        muertes_cr = muertes_cr[muertes_cr['anodef'] >= 2014]
        
        muertes_cr = muertes_cr[muertes_cr['anotrab'] >= 2014]
        
        muertes_cr = muertes_cr[muertes_cr['anodeclara'] >= 2014]
        
        muertes_cr['estcivil'] = muertes_cr['estcivil'].str.replace("Ã³", "o")
        
        muertes_cr['ocuparec'] = muertes_cr['ocuparec'].str.replace("Ã¡", "a")
        
        muertes_cr['ocuparec'] = muertes_cr['ocuparec'].str.replace("Ã©", "e")
        
        muertes_cr['ocuparec'] = muertes_cr['ocuparec'].str.replace("Ã", "i")
        
        muertes_cr['regsalud'] = muertes_cr['regsalud'].str.replace("Ã\xad", "i")
        
        muertes_cr['regsalud'] = muertes_cr['regsalud'].str.replace("Ã³", "o")
        
        muertes_cr['provincia'] = muertes_cr['provincia'].str.replace("Ã©", "e")
        
        muertes_cr['provincia'] = muertes_cr['provincia'].str.replace("Ã³", "o")
        
        muertes_cr['provocu'] = muertes_cr['provocu'].str.replace("Ã©", "e")
        
        muertes_cr['provocu'] = muertes_cr['provocu'].str.replace("Ã³", "o")
        
        muertes_cr['provregis'] = muertes_cr['provregis'].str.replace("Ã©", "e")
        
        muertes_cr['provregis'] = muertes_cr['provregis'].str.replace("Ã³", "o")
        
        muertes_cr['reginec'] = muertes_cr['reginec'].str.replace("Ã\xad", "i")
        
        muertes_cr['reginec'] = muertes_cr['reginec'].str.replace("Ã³", "o")
        
        muertes_cr['edadsrec'] = muertes_cr['edadsrec'].str.replace("100 y mÃ¡s", "100 - 121")
        
        muertes_cr['autopsia'] = muertes_cr['autopsia'].str.replace("Ã©", "e")
        
        muertes_cr['autopsia'] = muertes_cr['autopsia'].str.replace("Ã\xad", "i")
        
        muertes_cr['asistmed'] = muertes_cr['asistmed'].str.replace("Ã©", "e")
        
        muertes_cr['asistmed'] = muertes_cr['asistmed'].str.replace("Ã\xad", "i")
        
        muertes_cr['nacionalid'] = muertes_cr['nacionalid'].apply(lambda x: 'Extranjero' if x != 'Costa Rica' else x)
        
        otros = ['Ignorado', 'Union libre', 'Separado', 'Menor']
        
        muertes_cr['estcivil'] = muertes_cr['estcivil'].replace(otros, 'Otros')
        
        trabajadores_activos = ['Profesionales cienti\xadficos e intelectuales', 
                                'Agricultores y trabajadores calificados agropecuarios, forestales y pesqueros',
                                'Ocupaciones elementales', 'Trabajadores de los servicios y vendedores de comercios y mercados',
                                'Operadores de instalaciones y maquinas y ensambladores', 'Tecnicos y profesionales de nivel medio',
                                'Oficiales, operarios y artesanos de artes mecanicas y de otros oficios', 'Personal de apoyo administrativo',
                                'Directores y gerentes']
        
        muertes_cr['ocuparec'] = muertes_cr['ocuparec'].replace(trabajadores_activos, 'Trabajadores activos')
        
        otros = ['Pensionado', 'Persona con discapacidad', 'Estudiante', 'Mal especificadas', 'Privado de libertad']
        
        muertes_cr['ocuparec'] = muertes_cr['ocuparec'].replace(otros, 'Otros')
        
        rangos_etarios = ["15 - 19", "20 - 24", "25 - 29", "30 - 34", "35 - 39", "40 - 44", "45 - 49", 
                          "50 - 54", "55 - 59", "60 - 64", "65 - 69", "70 - 74", "75 - 79", "80 - 84", 
                          "85 - 89", "90 - 94", "95 - 99", "100 - 121"]
        
        muertes_cr['edadsrec'] = pd.Categorical(muertes_cr['edadsrec'], categories = rangos_etarios, ordered = True)
        
        muertes_cr.reset_index(drop = True, inplace = True)
        
        return muertes_cr
#-------------------------------------------------------------------------------------------------------

#--------------------------------------Ejercicio 3------------------------------------------------------
    # Se define una función que realice los histogramas para las variables numéricas
    @staticmethod
    def histograma(df, columna):
        '''
        Función que crea un histograma para una columna numérica específica de un DataFrame.

        Parameters:
        ----------
        df: pandas.DataFrame
           DataFrame que contiene los datos

        columna: str
           Nombre de la columna numérica para la cual se desea crear el histograma

        Returns:
        -------
        fig: matplotlib.figure.Figure
           Figura del histograma generado
        '''
        plt.figure()
        
        sns.histplot(df[columna], bins = 'auto', color = 'blue', edgecolor = 'black')
        
        plt.xlabel('Valor')
        
        plt.ylabel('Frecuencia')
        
        return plt.gcf()

    # Se define otra función que haga los gráficos de barras para las variables categóricas
    @staticmethod
    def barras(df, columna):
        '''
        Función que crea un gráfico de barras para una columna categórica específica de un DataFrame.

        Parameters:
        ----------
        df: pandas.DataFrame
           DataFrame que contiene los datos

        columna: str
           Nombre de la columna categórica para la cual se desea crear el gráfico de barras

        Returns:
        -------
        fig: matplotlib.figure.Figure
           Figura del gráfico de barras generado
        '''
        
        plt.figure()
        
        sns.countplot(x = columna, data = df, color = 'red')
    
        plt.xticks(rotation = 45)
        
        plt.xlabel('Categorías')
        
        plt.ylabel('Cantidad')
        
        return plt.gcf()

    # Definimos una función que devuelve las columnas numéricas y categóricas en listas por aparte
    @staticmethod
    def tipos_columnas(df):
        '''
        Función que identifica y separa las columnas numéricas y categóricas en un DataFrame.

        Parameters:
        ----------
        df: pandas.DataFrame
           DataFrame que contiene los datos

        Returns:
        -------
        numericas: pandas.Index
           Índice con los nombres de las columnas numéricas

        categoricas: pandas.Index
           Índice con los nombres de las columnas categóricas
        '''
        
        numericas = df.select_dtypes(include = ['number']).columns
            
        categoricas = df.select_dtypes(include = ['object', 'category']).columns
    
        return numericas, categoricas

    
    # Definimos una función que genere los gráficos deseados
    def generar_graficos(self, limpiar = True):
        '''
        Función que genera gráficos de histogramas para variables numéricas y gráficos de barras para variables categóricas.

        Parameters:
        ----------
        limpiar: bool
           Si es True, se limpiará la salida después de mostrar los gráficos (por defecto True)
        '''
        
        muertes_cr = self.__dataframe
        # Obtenemos las variables numericas y categóricas
        numericas, categoricas = self.tipos_columnas(muertes_cr)
        
        # Generamos y guardamos los gráficos tanto de histogramas como de barras usando la paralelización de joblib
        histogramas = Parallel(n_jobs = -1)(
        
            delayed(self.histograma)(muertes_cr, col) for col in numericas
        
        )
    
        graficos_barras = Parallel(n_jobs = -1)(
        
            delayed(self.barras)(muertes_cr, col) for col in categoricas
        
        )
    
        # Mostramos los gráficos
        for grafico in histogramas + graficos_barras:
    
            plt.show()
    
        # Si el parámetro limpiar es True, no se mostrarán los gráficos
        if limpiar:
    
            clear_output()

    
#-------------------------------------------------------------------------------------------------------hola

#--------------------------------------Ejercicio 4------------------------------------------------------
    
   # @njit(parallel = True)
   # def imputar_valores_nulos(self, data):
        '''
        Función que imputa valores nulos en un array de datos.
        Esta función utiliza Numba para acelerar el proceso de imputación de valores nulos en un array,
        reemplazando cada valor nulo por el promedio de los valores no nulos dentro de una ventana definida 
        por el parámetro self.__banda. La imputación se realiza de manera paralela para mejorar el rendimiento.
    
        Parameters:
        ----------
        data: numpy.ndarray
            Array de datos que contiene los valores a imputar. Puede contener valores nulos (np.nan).
    
        Returns:
        -------
        resultado: numpy.ndarray
            Array de datos con los valores nulos imputados. Los valores nulos originales se reemplazan por el 
            promedio de los valores no nulos dentro de la ventana definida por `banda`.
        
        n = len(data)
        banda = self.__banda
        resultado = data.copy()
        
        for i in prange(n):
            
            if np.isnan(data[i]):
                
                principio = max(0, i - banda)
                
                final = min(n, i + banda + 1)
                
                suma, cuenta = 0.0, 0
                
                for j in range(principio, final):
                    
                    if not np.isnan(data[j]):
                        
                        suma += data[j]
                        
                        cuenta += 1
                        
                if cuenta > 0:
                    
                    resultado[i] = suma / cuenta
                    
        return resultado
        '''
   
    def imputar_por_prom_movil(self, columna):
        '''
        Función que imputa valores nulos en una columna específica de un DataFrame utilizando un promedio móvil.
        Esta función lee un archivo de Excel, imputa los valores nulos en la columna especificada utilizando
        el método `imputar_valores_nulos` y retorna el DataFrame con los valores imputados.
    
        Parameters:
        ----------    
        columna: str
            Nombre de la columna en la cual se desean imputar los valores nulos.
    
    
        Returns:
        -------
        dataframe: pandas.DataFrame
            DataFrame que contiene los datos del archivo Excel leído, con los valores nulos en la columna 
            especificada imputados utilizando un promedio móvil.
        '''

        #Numba tiene limitaciones en cuanto a la compatibilidad con ciertos tipos de datos y estructuras de 
        #objetos complejas, como instancias de clases. Por lo tanto esta función tuvo que estar dentro del
        #método y no puede ser un método por si misma.
        @njit(parallel=True)
        def imputar_valores_nulos(data, banda):
            '''
            Función que imputa valores nulos en un array de datos utilizando un promedio móvil.
            
            Esta función utiliza Numba para acelerar el proceso de imputación de valores nulos en un array,
            reemplazando cada valor nulo por el promedio de los valores no nulos dentro de una ventana definida 
            por el parámetro `banda`. La imputación se realiza de manera paralela para mejorar el rendimiento.
        
            Parameters
            ----------
            data : numpy.ndarray
                Array de datos que contiene los valores a imputar. Puede contener valores nulos (np.nan).
            
            banda : int
                Tamaño de la ventana a considerar alrededor de cada valor nulo para calcular el promedio de 
                imputación. La ventana se extiende `banda` posiciones a la izquierda y a la derecha del valor nulo.
        
            Returns
            -------
            resultado : numpy.ndarray
                Array de datos con los valores nulos imputados. Los valores nulos originales se reemplazan por el 
                promedio de los valores no nulos dentro de la ventana definida por `banda`.
            '''
            n = len(data)
            resultado = data.copy()
            
            for i in prange(n):
                if np.isnan(data[i]):
                    principio = max(0, i - banda)
                    final = min(n, i + banda + 1)
                    suma, cuenta = 0.0, 0
                    
                    for j in range(principio, final):
                        if not np.isnan(data[j]):
                            suma += data[j]
                            cuenta += 1
                            
                    if cuenta > 0:
                        resultado[i] = suma / cuenta
                        
            return resultado

        dataframe = self.__dataframe
        data = dataframe[columna].values
        data_imputado = imputar_valores_nulos(data, self.__banda)
        dataframe[columna] = data_imputado
        return dataframe


#------------------------------------------------------------------------------------------------------- 
    
#--------------------------------------Ejercicio 5------------------------------------------------------    
    
    def eliminar_columnas_por_nulos(self, porcentaje):
        '''
        Función que elimina columnas con un porcentaje alto de valores nulos.
        Esta función lee un archivo de Excel, calcula el número máximo de valores nulos 
        permitidos por columna basado en el porcentaje especificado, y elimina las columnas 
        que exceden este umbral.
    
        Parameters:
        ----------
        porcentaje: float
           Porcentaje máximo de valores nulos permitidos en una columna para que no sea eliminada.
           Debe ser un valor entre 0 y 1.
    
        Returns:
        -------
        df_filtrado: pandas.DataFrame
           DataFrame que contiene los datos del archivo Excel leído, con las columnas 
           que exceden el porcentaje de valores nulos eliminadas
        '''
        # Llamo al método heredado para leer la base de datos
        df = self.__dataframe    
        # Calculamos el número máximo de valores nulos permitidos
        max_nulos = len(df) * porcentaje
        
        # Filtramos las columnas que tienen menos de max_nulos valores nulos
        df_filtrado = df.dropna(axis=1, thresh=len(df) - max_nulos)
        
        return df_filtrado
#------------------------------------------------------------------------------------------------------- 

#--------------------------------------Ejercicio 6------------------------------------------------------ 
    
    def imputar_por_agrupacion(self):
        '''
        Función que imputa valores faltantes en la columna 'Salario base' por agrupación.
        Esta función lee un archivo de Excel, y luego imputa los valores faltantes en la columna 
        'Salario base' utilizando el promedio de los valores agrupados por 'Género' y 'Grado de estudio'.
    
        Parameters:
        ----------
        None
    
        Returns:
        -------
        base_salarios: pandas.DataFrame
           DataFrame que contiene los datos del archivo Excel leído, con los valores 
           faltantes en la columna 'Salario base' imputados por el promedio de los grupos 
           de 'Género' y 'Grado de estudio'
        '''
        # Llamo al método heredado para leer la base de datos
        base_salarios = self.__dataframe
        # Imputación utilizando pandas
        base_salarios['Salario base'] = base_salarios.groupby(['Género', 'Grado de estudio'])['Salario base'] \
                               .transform(lambda x: x.fillna(x.mean()))
        
        return base_salarios

#------------------------------------------------------------------------------------------------------- 



    

In [172]:
x = TrabajoDataframes('Base_salarios.xlsx')
x.ruta = 'Muertes_costa_rica.xlsx'
x.dataframe.head()

Unnamed: 0,Grupo,Departamento,División,Género,Salario base,Pago de tiempo extra,Grado de estudio
0,ABS,Alcohol Beverage Services,ABS 85 Administration,M,175873.0,0.0,M2
1,ABS,Alcohol Beverage Services,ABS 85 Administration,M,145613.36,0.0,M3
2,ABS,Alcohol Beverage Services,ABS 85 Administration,,136970.0,0.0,M3
3,ABS,Alcohol Beverage Services,ABS 85 Administrative Services,F,89432.694,0.0,21
4,ABS,Alcohol Beverage Services,ABS 85 Administrative Services,F,78947.0,456.68,16


In [165]:
TrabajoDataframes('Base_salarios.xlsx').leer_excel()

Unnamed: 0,Grupo,Departamento,División,Género,Salario base,Pago de tiempo extra,Grado de estudio
0,ABS,Alcohol Beverage Services,ABS 85 Administration,M,175873.0,0.0,M2
1,ABS,Alcohol Beverage Services,ABS 85 Administration,M,145613.36,0.0,M3
2,ABS,Alcohol Beverage Services,ABS 85 Administration,,136970.0,0.0,M3
3,ABS,Alcohol Beverage Services,ABS 85 Administrative Services,F,89432.694,0.0,21
4,ABS,Alcohol Beverage Services,ABS 85 Administrative Services,F,78947.0,456.68,16


In [166]:
TrabajoDataframes('Base_salarios.xlsx').eliminar_columnas_por_nulos( 0.01).head()

Unnamed: 0,Grupo,Departamento,Grado de estudio
0,ABS,Alcohol Beverage Services,M2
1,ABS,Alcohol Beverage Services,M3
2,ABS,Alcohol Beverage Services,M3
3,ABS,Alcohol Beverage Services,21
4,ABS,Alcohol Beverage Services,16


In [142]:
#2
TrabajoDataframes('Muertes_costa_rica.xlsx').medir_tiempo("limpiar_datos()")


2.0326676900003804

In [None]:
#3
muertes_limpias = TrabajoDataframes('Muertes_costa_rica.xlsx').limpiar_datos()
x = TrabajoDataframes(2)
x.dataframe = muertes_limpias
x.medir_tiempo("generar_graficos()")

In [167]:
#4
TrabajoDataframes('Base_salarios.xlsx').medir_tiempo("imputar_por_prom_movil('Salario base')")

0.5812910199994803

In [168]:
#Tomar el tiempo: .medir_tiempo("metodo(x)")
#5
TrabajoDataframes('Base_salarios.xlsx').medir_tiempo("eliminar_columnas_por_nulos( 0.01)")

0.003321150000556372

In [169]:
#6
TrabajoDataframes('Base_salarios.xlsx').medir_tiempo("imputar_por_agrupacion()")

0.05913677999924403

Clase de modelo estocastico

In [159]:
class ModeloEstocastico(Madre):
    """
    Clase para modelar y calcular primas estocásticas basadas en tablas de mortalidad y sobrevivencia.

    Attributes
    ----------
    qx_hombres : pandas.DataFrame
        Tabla de mortalidad de hombres.
    px_hombres : numpy.ndarray
        Tabla de sobrevivencia de hombres.
    
    Methods
    -------
    fila_muerte(fila)
        Modifica una fila de probabilidades de sobrevivencia para reflejar la muerte.
    calcular_primas()
        Calcula las primas estocásticas basadas en la tabla de sobrevivencia.
    calcular_tiempo_promedio()
        Calcula el tiempo promedio en segundos que tarda en ejecutarse el modelo.
    """
    
    def __init__(self, ruta, hoja):
        super().__init__(ruta)
        self.__qx_hombres = pd.read_excel(self.ruta, sheet_name=hoja)
        self.__px_hombres = 1 - self.__qx_hombres.values
    
    @property
    def qx_hombres(self):
        """
        Método get de la clase ModeloEstocastico
        
        Parameters
        ----------
        None
        
        Returns
        -------
        qx_hombres : pandas.DataFrame
            Tabla de mortalidad de hombres
        """
        return self.__qx_hombres

    @qx_hombres.setter
    def qx_hombres(self, nuevo_qx_hombres):
        """
        Método set de la clase ModeloEstocastico
        
        Parameters
        ----------
        nuevo_qx_hombres : pandas.DataFrame
            Nueva tabla de mortalidad de hombres
        
        Returns
        -------
        None
        """
        self.__qx_hombres = nuevo_qx_hombres
        self.__px_hombres = 1 - self.__qx_hombres.values  

    @property
    def px_hombres(self):
        """
        Método get de la clase ModeloEstocastico
        
        Parameters
        ----------
        None
        
        Returns
        -------
        px_hombres : numpy.ndarray
            Tabla de sobrevivencia de hombres
        """
        return self.__px_hombres

    def __str__(self):
        """
        Devuelve una cadena de texto que resume la clase ModeloEstocastico.
        
        Parameters
        ----------
        None
        
        Returns
        -------
        cadena : str
            Texto explicativo que resume la clase ModeloEstocastico
        """
        return f"ModeloEstocastico con {self.__qx_hombres.shape[0]} filas y {self.__qx_hombres.shape[1]} columnas en qx_hombres"
    
    
    def fila_muerte(self, fila):
        """
        Modifica una fila de probabilidades de sobrevivencia para reflejar la muerte.
        
        Parameters
        ----------
        fila : numpy.ndarray
            Fila de probabilidades de sobrevivencia
        
        Returns
        -------
        fila : numpy.ndarray
            Fila modificada con falsos después del primer falso
        """
        fila[np.argmax(fila == False):] = False
        return fila
    
    def calcular_primas(self):
        """
        Calcula las primas estocásticas basadas en la tabla de sobrevivencia.
        
        Parameters
        ----------
        None
        
        Returns
        -------
        lista_primas : list
            Lista de primas estocásticas calculadas
        """
        j = ((1.04) * (1.03)) - 1

        matriz_prob = np.zeros((45, 96))

        for i in range(0, 45):
            for k in range(0, 96):
                matriz_prob[i, k] = self.__px_hombres[min(20 + i + k, 115), 25 + k]

        filmat, colmat = matriz_prob.shape

        matriz_rnd = norm.cdf(np.random.normal(loc=0, scale=1, size=(filmat, colmat)))
        matriz_rnd = matriz_rnd < matriz_prob
        matriz_rnd = np.apply_along_axis(self.fila_muerte, 1, matriz_rnd)
        id = np.sum(matriz_rnd, axis=1)

        edades_pensiones = [np.arange(0, max(entrada + 1, 1)) for entrada in (np.minimum(65 - 19 - np.arange(1, 46), id) - 1)]
        an = [np.sum(np.power(1/(1+j), np.maximum(edad, 0))) for edad in edades_pensiones]
        annos_65 = [np.arange(65 - np.arange(20, 65)[entrada], id[entrada] + 1) for entrada in range(0, 45)]

        ben = [np.where((id[i] + np.arange(20, 65)[i]) < 65, 
                        5_000_000 * np.power(1/(1+j), id[i]), 
                        np.sum(300_000 * 13 * np.power(1/(1+j), annos_65[i])) + 1_000_000 * np.power(1/(1+j), id[i])) for i in range(0, 45)]

        lista_primas = [np.array(ben)/np.array(an)]
        prom_primas = 0

        while abs(prom_primas - np.mean(np.array(lista_primas))) > 0.001:
            matriz_rnd = norm.cdf(np.random.normal(loc=0, scale=1, size=(filmat, colmat)))
            matriz_rnd = matriz_rnd < matriz_prob
            matriz_rnd = np.apply_along_axis(self.fila_muerte, 1, matriz_rnd)
            id = np.sum(matriz_rnd, axis=1)
            edades_pensiones = [np.arange(0, max(entrada + 1, 1)) for entrada in (np.minimum(65 - 19 - np.arange(1, 46), id) - 1)]
            an = [np.sum(np.power(1/(1+j), np.maximum(edad, 0))) for edad in edades_pensiones]
            annos_65 = [np.arange(65 - np.arange(20, 65)[entrada], id[entrada] + 1) for entrada in range(0, 45)]
            ben = [np.where((id[i] + np.arange(20, 65)[i]) < 65, 
                            5_000_000 * np.power(1/(1+j), id[i]), 
                            np.sum(300_000 * 13 * np.power(1/(1+j), annos_65[i])) + 1_000_000 * np.power(1/(1+j), id[i])) for i in range(0, 45)]

            prom_primas = np.mean(np.array(lista_primas))
            lista_primas.append(np.array(ben)/np.array(an))

        return lista_primas

    def calcular_tiempo_promedio(self):
        """
        Calcula el tiempo promedio en segundos que tarda en ejecutarse el modelo.
        
        Parameters
        ----------
        None
        
        Returns
        -------
        tiempo_promedio : float
            Tiempo promedio en segundos por iteración
        """
        inicio = time.time()
        prueba = self.calcular_primas()
        fin = time.time()
        tiempo_promedio = (fin - inicio) / len(prueba)
        return tiempo_promedio

In [161]:
ModeloEstocastico('data/Mortalidad_supen.xlsx', 'Sexo_1_limpio').calcular_tiempo_promedio()


0.01969593730163999