librerias

In [48]:
import pandas as pd
import timeit
import numpy as np
from numba import njit, prange

Cada chunk es un módulo. La clase Madre le hereda a sus hijas: leer archivos txt y excel y medir
el tiempo de un método de la clase. Este último no funciona en la clase AplicacionesPracticas porque 
va a tener un método propio para medir su tiempo.

In [59]:
class Madre:
    
    @staticmethod
    def leer_txt(ruta):
        '''
        Función que lee el contenido de un archivo de texto.
        Esta función abre un archivo de texto en modo de lectura, 
        lee todo su contenido y lo retorna como una cadena de texto.
    
        Parámetros:
        ----------
        ruta: str
           Ruta y nombre del archivo de texto que se desea leer
    
        Retorna:
        -------
        contenido: str
           Cadena de texto que contiene el contenido completo del archivo leído
        '''
        with open(ruta, 'r') as archivo:
            contenido = archivo.read()
            return contenido

    @staticmethod
    def leer_excel(ruta):
        '''
        Función que lee el contenido de un archivo de Excel.
        Esta función utiliza pandas para abrir un archivo de Excel en modo de lectura, 
        y carga su contenido en un DataFrame.
    
        Parámetros:
        ----------
        ruta: str
           Ruta y nombre del archivo de Excel que se desea leer
    
        Retorna:
        -------
        contenido: pandas.DataFrame
           DataFrame que contiene los datos del archivo Excel leído
        '''
        contenido = pd.read_excel(ruta, engine = 'openpyxl')
        return contenido
        
    def medir_tiempo(self, metodo_str, repeticiones):
        '''
        Función que mide el tiempo de ejecución de un método de la clase.
        Esta función toma el nombre del método y sus argumentos como una cadena, 
        construye y ejecuta esa llamada varias veces, y mide el tiempo promedio 
        de ejecución utilizando la función timeit.
    
        Parámetros:
        ----------
        metodo_str: str
           Cadena que contiene el nombre del método y los argumentos. 
           Ejemplo: "sumar(1,2)"
        
        repeticiones: int
           Número de veces que se ejecutará el método para medir el tiempo de ejecución
    
        Retorna:
        -------
        tiempo: float
           Tiempo promedio de ejecución del método en segundos
        '''
        # Obtener el nombre del método y los argumentos de la cadena
        metodo_nombre, args_str = metodo_str.split('(', 1)
        args_str = args_str.rstrip(')')
        # Construir la cadena de código para ejecutar el método con los argumentos
        codigo = f"self.{metodo_nombre}({args_str})"
        # Medir el tiempo de ejecución
        tiempo = timeit.timeit(stmt=f"resultado = {codigo}", number=repeticiones, globals={'self': self}) / repeticiones
        return tiempo
    

Clase trabajo con dataframes, ejercicios: 2, 3, 4, 5 y 6

In [63]:
class TrabajoDataframes(Madre):
    
    @staticmethod
    def limpiar_datos(ruta):
        '''
        Función que limpia los datos de un archivo de Excel.
        Esta función lee un archivo de Excel, realiza varias operaciones de limpieza y transformación
        en los datos, y retorna el DataFrame resultante.
    
        Parámetros:
        ----------
        ruta: str
           Ruta y nombre del archivo de Excel que se desea limpiar
    
        Retorna:
        -------
        muertes_cr: pandas.DataFrame
           DataFrame que contiene los datos limpios y transformados del archivo Excel leído
        '''
        # Llamo al método heredado para leer la base de datos
        muertes_cr = TrabajoDataframes().leer_excel(ruta)
    
        muertes_cr = muertes_cr.drop(columns = ['pc', 'causamuer', 'des_causa', 'instmurio', 'pcocu', 'nacmadre', 'pcregis', 'gruposcb'])
    
        # Se realiza la limpieza de la base de datos
        
        muertes_cr = muertes_cr[muertes_cr['edads'] >= 15]
        
        muertes_cr = muertes_cr[muertes_cr['anodef'] >= 2014]
        
        muertes_cr = muertes_cr[muertes_cr['anotrab'] >= 2014]
        
        muertes_cr = muertes_cr[muertes_cr['anodeclara'] >= 2014]
        
        muertes_cr['estcivil'] = muertes_cr['estcivil'].str.replace("Ã³", "o")
        
        muertes_cr['ocuparec'] = muertes_cr['ocuparec'].str.replace("Ã¡", "a")
        
        muertes_cr['ocuparec'] = muertes_cr['ocuparec'].str.replace("Ã©", "e")
        
        muertes_cr['ocuparec'] = muertes_cr['ocuparec'].str.replace("Ã", "i")
        
        muertes_cr['regsalud'] = muertes_cr['regsalud'].str.replace("Ã\xad", "i")
        
        muertes_cr['regsalud'] = muertes_cr['regsalud'].str.replace("Ã³", "o")
        
        muertes_cr['provincia'] = muertes_cr['provincia'].str.replace("Ã©", "e")
        
        muertes_cr['provincia'] = muertes_cr['provincia'].str.replace("Ã³", "o")
        
        muertes_cr['provocu'] = muertes_cr['provocu'].str.replace("Ã©", "e")
        
        muertes_cr['provocu'] = muertes_cr['provocu'].str.replace("Ã³", "o")
        
        muertes_cr['provregis'] = muertes_cr['provregis'].str.replace("Ã©", "e")
        
        muertes_cr['provregis'] = muertes_cr['provregis'].str.replace("Ã³", "o")
        
        muertes_cr['reginec'] = muertes_cr['reginec'].str.replace("Ã\xad", "i")
        
        muertes_cr['reginec'] = muertes_cr['reginec'].str.replace("Ã³", "o")
        
        muertes_cr['edadsrec'] = muertes_cr['edadsrec'].str.replace("100 y mÃ¡s", "100 - 121")
        
        muertes_cr['autopsia'] = muertes_cr['autopsia'].str.replace("Ã©", "e")
        
        muertes_cr['autopsia'] = muertes_cr['autopsia'].str.replace("Ã\xad", "i")
        
        muertes_cr['asistmed'] = muertes_cr['asistmed'].str.replace("Ã©", "e")
        
        muertes_cr['asistmed'] = muertes_cr['asistmed'].str.replace("Ã\xad", "i")
        
        muertes_cr['nacionalid'] = muertes_cr['nacionalid'].apply(lambda x: 'Extranjero' if x != 'Costa Rica' else x)
        
        otros = ['Ignorado', 'Union libre', 'Separado', 'Menor']
        
        muertes_cr['estcivil'] = muertes_cr['estcivil'].replace(otros, 'Otros')
        
        trabajadores_activos = ['Profesionales cienti\xadficos e intelectuales', 
                                'Agricultores y trabajadores calificados agropecuarios, forestales y pesqueros',
                                'Ocupaciones elementales', 'Trabajadores de los servicios y vendedores de comercios y mercados',
                                'Operadores de instalaciones y maquinas y ensambladores', 'Tecnicos y profesionales de nivel medio',
                                'Oficiales, operarios y artesanos de artes mecanicas y de otros oficios', 'Personal de apoyo administrativo',
                                'Directores y gerentes']
        
        muertes_cr['ocuparec'] = muertes_cr['ocuparec'].replace(trabajadores_activos, 'Trabajadores activos')
        
        otros = ['Pensionado', 'Persona con discapacidad', 'Estudiante', 'Mal especificadas', 'Privado de libertad']
        
        muertes_cr['ocuparec'] = muertes_cr['ocuparec'].replace(otros, 'Otros')
        
        rangos_etarios = ["15 - 19", "20 - 24", "25 - 29", "30 - 34", "35 - 39", "40 - 44", "45 - 49", 
                          "50 - 54", "55 - 59", "60 - 64", "65 - 69", "70 - 74", "75 - 79", "80 - 84", 
                          "85 - 89", "90 - 94", "95 - 99", "100 - 121"]
        
        muertes_cr['edadsrec'] = pd.Categorical(muertes_cr['edadsrec'], categories = rangos_etarios, ordered = True)
        
        muertes_cr.reset_index(drop = True, inplace = True)
        
        return muertes_cr


    @staticmethod
    def eliminar_columnas_por_nulos(ruta, porcentaje):
        '''
        Función que elimina columnas con un porcentaje alto de valores nulos.
        Esta función lee un archivo de Excel, calcula el número máximo de valores nulos 
        permitidos por columna basado en el porcentaje especificado, y elimina las columnas 
        que exceden este umbral.
    
        Parámetros:
        ----------
        ruta: str
           Ruta y nombre del archivo de Excel que se desea procesar
    
        porcentaje: float
           Porcentaje máximo de valores nulos permitidos en una columna para que no sea eliminada.
           Debe ser un valor entre 0 y 1.
    
        Retorna:
        -------
        df_filtrado: pandas.DataFrame
           DataFrame que contiene los datos del archivo Excel leído, con las columnas 
           que exceden el porcentaje de valores nulos eliminadas
        '''
        # Llamo al método heredado para leer la base de datos
        df = TrabajoDataframes().leer_excel(ruta)    
        # Calculamos el número máximo de valores nulos permitidos
        max_nulos = len(df) * porcentaje
        
        # Filtramos las columnas que tienen menos de max_nulos valores nulos
        df_filtrado = df.dropna(axis=1, thresh=len(df) - max_nulos)
        
        return df_filtrado



    @staticmethod
    def imputar_por_agrupacion(ruta):
        '''
        Función que imputa valores faltantes en la columna 'Salario base' por agrupación.
        Esta función lee un archivo de Excel, y luego imputa los valores faltantes en la columna 
        'Salario base' utilizando el promedio de los valores agrupados por 'Género' y 'Grado de estudio'.
    
        Parámetros:
        ----------
        ruta: str
           Ruta y nombre del archivo de Excel que se desea procesar
    
        Retorna:
        -------
        base_salarios: pandas.DataFrame
           DataFrame que contiene los datos del archivo Excel leído, con los valores 
           faltantes en la columna 'Salario base' imputados por el promedio de los grupos 
           de 'Género' y 'Grado de estudio'
        '''
        # Llamo al método heredado para leer la base de datos
        base_salarios = TrabajoDataframes().leer_excel(ruta)
        # Imputación utilizando pandas
        base_salarios['Salario base'] = base_salarios.groupby(['Género', 'Grado de estudio'])['Salario base'] \
                               .transform(lambda x: x.fillna(x.mean()))
        
        return base_salarios





    

Clase operaciones simples, ejercicios: 1, 7 y 8

Clase aplicaciones prácticas, ejercicios: 9 y 8