In [1]:
import pymysql
import pandas as pd

# Configuraci√≥n BD (misma que tienes en tu c√≥digo original)
DB_HOST = "10.254.33.138"
DB_USER = "compensaciones_rrhh"
DB_PASSWORD = "_Cramercomp2025_"
DB_NAME = "rrhh_app"

In [2]:
def conectar_y_extraer_datos():
    """
    Conecta a la base de datos y extrae las columnas espec√≠ficas en un DataFrame
    """
    try:
        print("üöÄ Conectando a MySQL...")
        
        # Establecer conexi√≥n
        conexion = pymysql.connect(
            host=DB_HOST,
            user=DB_USER,
            password=DB_PASSWORD,
            database=DB_NAME,
            charset='utf8mb4'
        )
        
        print(f"‚úÖ Conectado a MySQL y usando la base: {DB_NAME}")
        
        # Query para extraer solo las columnas que necesitas
        query = """
        SELECT 
            full_name,
            rut,
            base_wage,
            name_role,
            birthday,
            status,
            active_since
            
        FROM employees
        WHERE full_name IS NOT NULL 
        AND rut IS NOT NULL
        ORDER BY birthday
        """
        
        # Crear DataFrame directamente desde la query
        df = pd.read_sql(query, conexion)
        
        #print(f"‚úÖ DataFrame creado exitosamente con {len(df)} registros")
        print(f"üìã Columnas disponibles: {list(df.columns)}")
        
        # Cerrar conexi√≥n
        conexion.close()
        print("‚úÖ Conexi√≥n cerrada correctamente.")
        
        return df
        
    except Exception as e:
        print(f"‚ùå Error al conectar o extraer datos: {e}")
        return None

In [3]:
def calcular_edad_y_antiguedad(df):
    """
    Calcula la edad actual y los a√±os de servicio en la empresa
    """
    if df is None or df.empty:
        return df
    
    print("Calculando edad y a√±os de servicio...")
    fecha_actual = pd.Timestamp.now()
    
    # Calcular edad en a√±os
    if 'birthday' in df.columns:
        df['edad_a√±os'] = ((fecha_actual - df['birthday']).dt.days / 365.25).round(1)
        print("‚úÖ Columna 'edad_a√±os' creada")
       
    else:
        print("‚ö†Ô∏è Columna 'birthday' no encontrada - no se puede calcular edad")
    
    # Calcular a√±os de servicio
    if 'active_since' in df.columns:
        df['a√±os_servicio'] = ((fecha_actual - df['active_since']).dt.days / 365.25).round(1)
        print("‚úÖ Columna 'a√±os_servicio' creada")
        
        # Crear columna de antig√ºedad en categor√≠as
        df['categoria_antiguedad'] = pd.cut(
            df['a√±os_servicio'], 
            bins=[-float('inf'), 1, 3, 5, 10, float('inf')],
            labels=['Menos de 1 a√±o', '1-3 a√±os', '3-5 a√±os', '5-10 a√±os', 'M√°s de 10 a√±os']
        )
        print("‚úÖ Columna 'categoria_antiguedad' creada")
    else:
        print("‚ö†Ô∏è Columna 'active_since' no encontrada - no se puede calcular a√±os de servicio")
    
    return df

In [4]:
# Ejecutar la extracci√≥n
if __name__ == "__main__":
    # Extraer los datos
    df_empleados = conectar_y_extraer_datos()

    # Para fechas
    df_empleados['birthday'] = pd.to_datetime(df_empleados['birthday'], errors='coerce')
    df_empleados['active_since'] = pd.to_datetime(df_empleados['active_since'], errors='coerce')

    # Para salarios (Int64 permite valores nulos)
    df_empleados['base_wage'] = df_empleados['base_wage'].astype('Int64')
    
    # ¬°AQU√ç FALTABA ESTA L√çNEA IMPORTANTE!
    df_empleados = calcular_edad_y_antiguedad(df_empleados)
    
    # El DataFrame ya est√° listo para trabajar
    print("\nüéâ DataFrame 'df_empleados' listo con todas las columnas calculadas!")


üöÄ Conectando a MySQL...
‚úÖ Conectado a MySQL y usando la base: rrhh_app
üìã Columnas disponibles: ['full_name', 'rut', 'base_wage', 'name_role', 'birthday', 'status', 'active_since']
‚úÖ Conexi√≥n cerrada correctamente.
Calculando edad y a√±os de servicio...
‚úÖ Columna 'edad_a√±os' creada
‚úÖ Columna 'a√±os_servicio' creada
‚úÖ Columna 'categoria_antiguedad' creada

üéâ DataFrame 'df_empleados' listo con todas las columnas calculadas!


  df = pd.read_sql(query, conexion)


In [5]:
# Limpiar duplicados
print(f"üìä Registros antes de limpiar duplicados: {len(df_empleados)}")

# Ver duplicados por RUT (que deber√≠a ser √∫nico)
duplicados_rut = df_empleados[df_empleados.duplicated(subset=['rut'], keep=False)]
print(f"üîç Registros con RUT duplicado: {len(duplicados_rut)}")

# Eliminar duplicados completos (todas las columnas iguales)
df_empleados = df_empleados.drop_duplicates()
print(f"‚úÖ Registros despu√©s de eliminar duplicados completos: {len(df_empleados)}")

# Si a√∫n hay duplicados por RUT, mantener solo el primero
df_empleados = df_empleados.drop_duplicates(subset=['rut'], keep='first')
print(f"‚úÖ Registros despu√©s de eliminar duplicados por RUT: {len(df_empleados)}")

# Resetear el √≠ndice
df_empleados = df_empleados.reset_index(drop=True)
print("‚úÖ √çndice reseteado")

üìä Registros antes de limpiar duplicados: 3288
üîç Registros con RUT duplicado: 3285
‚úÖ Registros despu√©s de eliminar duplicados completos: 1098
‚úÖ Registros despu√©s de eliminar duplicados por RUT: 1072
‚úÖ √çndice reseteado


In [6]:
df_empleados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1072 entries, 0 to 1071
Data columns (total 10 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   full_name             1072 non-null   object        
 1   rut                   1072 non-null   object        
 2   base_wage             1071 non-null   Int64         
 3   name_role             1071 non-null   object        
 4   birthday              1072 non-null   datetime64[ns]
 5   status                1072 non-null   object        
 6   active_since          1072 non-null   datetime64[ns]
 7   edad_a√±os             1072 non-null   float64       
 8   a√±os_servicio         1072 non-null   float64       
 9   categoria_antiguedad  1072 non-null   category      
dtypes: Int64(1), category(1), datetime64[ns](2), float64(2), object(4)
memory usage: 77.8+ KB


In [7]:
def filtrar_empleados(df, a√±os_min=None, cargo_texto=None, salario_min=None, salario_max=None):
    """
    Filtro m√∫ltiple para empleados
    """
    df_resultado = df.copy()
    filtros_aplicados = []
    
    # Filtro por antig√ºedad
    if a√±os_min is not None:
        df_resultado = df_resultado[df_resultado['a√±os_servicio'] >= a√±os_min]
        filtros_aplicados.append(f"antig√ºedad >= {a√±os_min} a√±os")
    
    # Filtro por cargo
    if cargo_texto is not None:
        df_resultado = df_resultado[df_resultado['name_role'].str.contains(cargo_texto, case=False, na=False)]
        filtros_aplicados.append(f"cargo contiene '{cargo_texto}'")
    
    # Filtro por salario m√≠nimo
    if salario_min is not None:
        df_resultado = df_resultado[df_resultado['base_wage'] >= salario_min]
        filtros_aplicados.append(f"salario >= ${salario_min:,}")
    
    # Filtro por salario m√°ximo
    if salario_max is not None:
        df_resultado = df_resultado[df_resultado['base_wage'] <= salario_max]
        filtros_aplicados.append(f"salario <= ${salario_max:,}")
    
    print(f"üîç Filtros aplicados: {', '.join(filtros_aplicados)}")
    print(f"üìä Resultados: {len(df_resultado)} empleados de {len(df)} total")
    
    return df_resultado