In [8]:
# Importar y configurar librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de visualización para gráficos
sns.set(style="whitegrid")
pd.set_option('display.max_columns', None)

# Verificar las versiones de las librerías
print(f"Matplotlib version: {plt.matplotlib.__version__}")
print(f"Pandas version: {pd.__version__}")
print(f"Numpy version: {np.__version__}")


Matplotlib version: 3.9.0
Pandas version: 2.2.2
Numpy version: 2.0.0


In [3]:
import os
import pandas as pd

# Ruta relativa del archivo Excel
ruta_excel = 'c:\\Users\\bourd\\source\\repos\\IncomeInference\\data\\raw\\MOPC-FEBRERO-2024.xlsx'

# Verificar si el archivo existe
if os.path.exists(ruta_excel):
    print(f"El archivo {ruta_excel} existe en la ruta: {ruta_excel}")
    # Leer el archivo Excel, saltando las primeras filas innecesarias
    df = pd.read_excel(ruta_excel, skiprows=5)
    # Mostrar las primeras filas del DataFrame
    print("Primeras filas del DataFrame:\n", df.head())
    # Mostrar la cantidad de columnas
    print("Número de columnas:", len(df.columns))
    # Mostrar los nombres de las columnas
    print("Nombres de las columnas:\n", df.columns)
else:
    print(f"El archivo {ruta_excel} no se encontró en la ruta: {ruta_excel}")


El archivo c:\Users\bourd\source\repos\IncomeInference\data\raw\MOPC-FEBRERO-2024.xlsx existe en la ruta: c:\Users\bourd\source\repos\IncomeInference\data\raw\MOPC-FEBRERO-2024.xlsx
Primeras filas del DataFrame:
           FRANKLIN ALEXIS DIAZ LORENZO             ANALISTA  \
0                    JUAN MINIER TURBI  ANALISTA FINANCIERO   
1           NESTOR DAVID PADILLA ROJAS         CONTADOR (A)   
2           WILLIAM RENE NUÑEZ POLANCO  ANALISTA FINANCIERO   
3       AGUEDA ESPERANZA ROSARIO MUÑOZ  ANALISTA FINANCIERO   
4  HERIBERTO ANTONIO SANABIA MALDONADO  ANALISTA FINANCIERO   

  DIRECCION DE ACCESO A LA INFORMACION PUBLICA  Unnamed: 3  \
0                 DIRECCION DE CONTROL INTERNO         NaN   
1                 DIRECCION DE CONTROL INTERNO         NaN   
2                 DIRECCION DE CONTROL INTERNO         NaN   
3                 DIRECCION DE CONTROL INTERNO         NaN   
4                 DIRECCION DE CONTROL INTERNO         NaN   

   PERIODO PROBATORIO INGRESO CARRE

In [5]:
import os
import pandas as pd

# Ruta del archivo Excel
ruta_excel = 'c:\\Users\\bourd\\source\\repos\\IncomeInference\\data\\raw\\MOPC-FEBRERO-2024.xlsx'

# Verificar si el archivo existe
if os.path.exists(ruta_excel):
    print(f"El archivo {ruta_excel} existe en la ruta: {ruta_excel}")
    
    # Leer el archivo Excel, saltando las primeras filas innecesarias
    df = pd.read_excel(ruta_excel, skiprows=2)
    
    # Renombrar columnas de acuerdo a la estructura identificada
    df.columns = [
        'Nombre', 'Cargo', 'Departamento', 'Extra1', 'Estatus', 
        'Sueldo_Bruto', 'AFP', 'ISR', 'SFS', 'Otros_Descuentos', 
        'Total_Descuentos', 'Extra2', 'Fecha_Entrada', 'Genero'
    ]
    
    # Eliminar columnas innecesarias
    df = df.drop(columns=['Extra1', 'Extra2'])
    
    # Convertir la columna 'Fecha_Entrada' a tipo datetime
    df['Fecha_Entrada'] = pd.to_datetime(df['Fecha_Entrada'], errors='coerce')

    # Crear nueva característica: antigüedad en años
    df['Antigüedad_Años'] = (pd.Timestamp('now') - df['Fecha_Entrada']).dt.days / 365.25

    # Convertir columnas numéricas a tipo float
    cols_to_convert = ['Sueldo_Bruto', 'AFP', 'ISR', 'SFS', 'Otros_Descuentos', 'Total_Descuentos']
    df[cols_to_convert] = df[cols_to_convert].apply(pd.to_numeric, errors='coerce')
    
    # Eliminar filas con valores no numéricos
    df = df.dropna(subset=cols_to_convert)

    # Obtener el directorio actual
    current_dir = os.getcwd()
    
    # Guardar en un archivo Excel limpio para revisión
    output_path = os.path.abspath(os.path.join(current_dir, '../../data/clean/MOPC/MOPC-FEBRERO-2024_clean.xlsx'))
    os.makedirs(os.path.dirname(output_path), exist_ok=True)
    df.to_excel(output_path, index=False)
    print(f"Datos guardados en {output_path}")
else:
    print(f"El archivo {ruta_excel} no se encontró en la ruta: {ruta_excel}")


El archivo c:\Users\bourd\source\repos\IncomeInference\data\raw\MOPC-FEBRERO-2024.xlsx existe en la ruta: c:\Users\bourd\source\repos\IncomeInference\data\raw\MOPC-FEBRERO-2024.xlsx
Primeras filas del DataFrame con columnas renombradas:
                                 Nombre                Cargo  \
0                    JUAN MINIER TURBI  ANALISTA FINANCIERO   
1           NESTOR DAVID PADILLA ROJAS         CONTADOR (A)   
2           WILLIAM RENE NUÑEZ POLANCO  ANALISTA FINANCIERO   
3       AGUEDA ESPERANZA ROSARIO MUÑOZ  ANALISTA FINANCIERO   
4  HERIBERTO ANTONIO SANABIA MALDONADO  ANALISTA FINANCIERO   

                   Departamento                             Estatus  \
0  DIRECCION DE CONTROL INTERNO  PERIODO PROBATORIO INGRESO CARRERA   
1  DIRECCION DE CONTROL INTERNO  PERIODO PROBATORIO INGRESO CARRERA   
2  DIRECCION DE CONTROL INTERNO  PERIODO PROBATORIO INGRESO CARRERA   
3  DIRECCION DE CONTROL INTERNO  PERIODO PROBATORIO INGRESO CARRERA   
4  DIRECCION DE CONTROL INTE