In [8]:
# Importar y configurar librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de visualización para gráficos
sns.set(style="whitegrid")
pd.set_option('display.max_columns', None)

# Verificar las versiones de las librerías
print(f"Matplotlib version: {plt.matplotlib.__version__}")
print(f"Pandas version: {pd.__version__}")
print(f"Numpy version: {np.__version__}")


Matplotlib version: 3.9.0
Pandas version: 2.2.2
Numpy version: 2.0.0


In [2]:
import os
import pandas as pd

# Ruta relativa del archivo Excel
ruta_excel = 'c:\\Users\\bourd\\source\\repos\\IncomeInference\\data\\raw\\CODEPESCA-NOVIEMBRE-2022.xlsx'

# Verificar si el archivo existe
if os.path.exists(ruta_excel):
    print(f"El archivo {ruta_excel} existe en la ruta: {ruta_excel}")
    # Leer el archivo Excel, saltando las primeras filas innecesarias
    df = pd.read_excel(ruta_excel, skiprows=5)
    # Eliminar la columna sin nombre que no contiene datos
    df = df.drop(columns=['Unnamed: 0'])
    # Mostrar las primeras filas del DataFrame
    print(df.head())
    # Mostrar la cantidad de columnas
    print("Número de columnas después de eliminar 'Unnamed: 0':", len(df.columns))
else:
    print(f"El archivo {ruta_excel} no se encontró en la ruta: {ruta_excel}")


El archivo c:\Users\bourd\source\repos\IncomeInference\data\raw\CODEPESCA-NOVIEMBRE-2022.xlsx existe en la ruta: c:\Users\bourd\source\repos\IncomeInference\data\raw\CODEPESCA-NOVIEMBRE-2022.xlsx
                           Nombre Genero                      Cargo  \
0         CARLOS JOSE THEN CONTIN      M         DIRECTOR EJECUTIVO   
1  JUAN FRANCISCO VASQUEZ CAMBERO      M    SUBDIRECTOR (A) GENERAL   
2         GREEMBERG MATA MARTINEZ      M    SUBDIRECTOR (A) GENERAL   
3         FABIO LUIS ARZENO NUÑEZ      M  ASISTENTE DE LA DIRECCION   
4         ROSYVETTE POU CANAHUATE      F  ASISTENTE DE LA DIRECCION   

             Departamento             Statuto Fecha de Desingnación  \
0     DIRECCION EJECUTIVA             DECRETO   2020-08-01 00:00:00   
1  SUBDIRECCION EJECUTIVA             DECRETO   2020-08-01 00:00:00   
2  SUBDIRECCION EJECUTIVA             DECRETO   2020-09-01 00:00:00   
3     DIRECCION EJECUTIVA  CARGO DE CONFIANZA   2020-09-01 00:00:00   
4     DIRECCION EJECUT

In [3]:
import os
import pandas as pd

# Ruta relativa del archivo Excel
ruta_excel = 'c:\\Users\\bourd\\source\\repos\\IncomeInference\\data\\raw\\CODEPESCA-NOVIEMBRE-2022.xlsx'

# Verificar si el archivo existe
if os.path.exists(ruta_excel):
    print(f"El archivo {ruta_excel} existe en la ruta: {ruta_excel}")
    # Leer el archivo Excel, saltando las primeras filas innecesarias
    df = pd.read_excel(ruta_excel, skiprows=5)
    # Eliminar la columna sin nombre que no contiene datos
    df = df.drop(columns=['Unnamed: 0'])
    # Renombrar columnas basadas en el número de columnas actual
    df.columns = [
        'Nombre', 'Genero', 'Cargo', 'Departamento', 'Statuto', 'Fecha_Ingreso', 
        'Ingreso_Bruto', 'Otros_Ing', 'Total_Ingresos', 'AFP', 'ISR', 'SFS', 
        'Otros_Desc', 'Total_Desc', 'Ingreso_Neto'
    ]
    # Mostrar las primeras filas del DataFrame con las columnas renombradas
    print("Primeras filas del DataFrame con columnas renombradas:\n", df.head())
else:
    print(f"El archivo {ruta_excel} no se encontró en la ruta: {ruta_excel}")

# Convertir la columna 'Fecha_Ingreso' a tipo datetime
df['Fecha_Ingreso'] = pd.to_datetime(df['Fecha_Ingreso'], errors='coerce')

# Crear nueva característica: antigüedad en años
df['Antiguedad_Anios'] = (pd.Timestamp('now') - df['Fecha_Ingreso']).dt.days / 365.25

# Convertir columnas numéricas a tipo float
cols_to_convert = ['Ingreso_Bruto', 'Otros_Ing', 'Total_Ingresos', 'AFP', 'ISR', 'SFS', 'Otros_Desc', 'Total_Desc', 'Ingreso_Neto']
df[cols_to_convert] = df[cols_to_convert].apply(pd.to_numeric, errors='coerce')

# Eliminar filas con valores no numéricos
df = df.dropna(subset=cols_to_convert)

# Guardar en un archivo Excel limpio para revisión
output_path = 'c:\\Users\\bourd\\source\\repos\\IncomeInference\\data\\clean\\CODEPESCA\\CODEPESCA-NOVIEMBRE-2022_clean.xlsx'
os.makedirs(os.path.dirname(output_path), exist_ok=True)
df.to_excel(output_path, index=False)
print(f"Datos guardados en {output_path}")


El archivo c:\Users\bourd\source\repos\IncomeInference\data\raw\CODEPESCA-NOVIEMBRE-2022.xlsx existe en la ruta: c:\Users\bourd\source\repos\IncomeInference\data\raw\CODEPESCA-NOVIEMBRE-2022.xlsx
Primeras filas del DataFrame con columnas renombradas:
                            Nombre Genero                      Cargo  \
0         CARLOS JOSE THEN CONTIN      M         DIRECTOR EJECUTIVO   
1  JUAN FRANCISCO VASQUEZ CAMBERO      M    SUBDIRECTOR (A) GENERAL   
2         GREEMBERG MATA MARTINEZ      M    SUBDIRECTOR (A) GENERAL   
3         FABIO LUIS ARZENO NUÑEZ      M  ASISTENTE DE LA DIRECCION   
4         ROSYVETTE POU CANAHUATE      F  ASISTENTE DE LA DIRECCION   

             Departamento             Statuto   Fecha_Desingnacion  \
0     DIRECCION EJECUTIVA             DECRETO  2020-08-01 00:00:00   
1  SUBDIRECCION EJECUTIVA             DECRETO  2020-08-01 00:00:00   
2  SUBDIRECCION EJECUTIVA             DECRETO  2020-09-01 00:00:00   
3     DIRECCION EJECUTIVA  CARGO DE CONFI