In [25]:
# Importar y configurar librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de visualización para gráficos
sns.set(style="whitegrid")
pd.set_option('display.max_columns', None)

# Verificar las versiones de las librerías
print(f"Matplotlib version: {plt.matplotlib.__version__}")
print(f"Pandas version: {pd.__version__}")
print(f"Numpy version: {np.__version__}")


Matplotlib version: 3.9.0
Pandas version: 2.2.2
Numpy version: 2.0.0


In [36]:
import os
import pandas as pd

# Ruta relativa del archivo Excel
relative_path = 'c:\\Users\\bourd\\source\\repos\\IncomeInference\\data\\raw\\MOPC-FEBRERO-2024.xlsx'

# Obtener la ruta absoluta del archivo Excel
ruta_excel = os.path.abspath(relative_path)

# Verificar si el archivo existe
if os.path.exists(ruta_excel):
    print(f"El archivo {ruta_excel} existe en la ruta: {ruta_excel}")
    
    # Leer el archivo Excel
    df = pd.read_excel(ruta_excel)
    
    # Eliminar la columna sin nombre que no contiene datos
    if 'Unnamed: 3' in df.columns:
        df = df.drop(columns=['Unnamed: 3'])
    
    # Renombrar columnas
    nuevos_nombres = [
        'Empleado', 'Cargo', 'Departamento', 'Tipo_Empleado', 'Ingreso_Bruto', 
        'Descuento_AFP', 'Descuento_ISR', 'Descuento_SFS', 'Otros_Descuentos', 
        'Carrera_Adm', 'Tipo_Empleado_Cargo', 'Fecha_Inicio', 'Genero'
    ]
    
    if len(df.columns) == len(nuevos_nombres):
        df.columns = nuevos_nombres
    else:
        print(f"Error: El DataFrame tiene {len(df.columns)} columnas, pero se proporcionaron {len(nuevos_nombres)} nombres.")
    
    # Convertir la columna 'Fecha_Inicio' a tipo datetime
    df['Fecha_Inicio'] = pd.to_datetime(df['Fecha_Inicio'], errors='coerce')
    
    # Crear nueva característica: antigüedad en años
    df['Antiguedad_Anios'] = (pd.Timestamp('now') - df['Fecha_Inicio']).dt.days / 365.25
    
    # Convertir columnas numéricas a tipo float
    cols_to_convert = ['Ingreso_Bruto', 'Descuento_AFP', 'Descuento_ISR', 'Descuento_SFS', 'Otros_Descuentos']
    df[cols_to_convert] = df[cols_to_convert].apply(pd.to_numeric, errors='coerce')
    
    # Eliminar filas con valores no numéricos
    df = df.dropna(subset=cols_to_convert)
    
    # Guardar en un archivo Excel limpio para revisión
    output_path = os.path.abspath(os.path.join('c:\\Users\\bourd\\source\\repos\\IncomeInference\\data\\clean\\MOPC\\MOPC-FEBRERO-2024_clean.xlsx'))
    os.makedirs(os.path.dirname(output_path), exist_ok=True)
    df.to_excel(output_path, index=False)
    print(f"Datos guardados en {output_path}")
else:
    print(f"El archivo {ruta_excel} no se encontró en la ruta: {ruta_excel}")


El archivo c:\mnt\data\MOPC-FEBRERO-2024.xlsx no se encontró en la ruta: c:\mnt\data\MOPC-FEBRERO-2024.xlsx
