In [5]:
import pandas as pd
import numpy as np

# 1. Leer el archivo CSV de empleados
ruta_archivo_empleados = 'empleados.csv'
df_empleados = pd.read_csv(ruta_archivo_empleados)  # Cambié el nombre de df_empleados_leido a df_empleados

# 2. Leer el archivo CSV de bonificaciones
ruta_archivo_bonificaciones = 'bonificaciones.csv'
df_bonificaciones = pd.read_csv(ruta_archivo_bonificaciones)

# Mostrar los DataFrames leídos
print("\nDataset de empleados leído desde el archivo CSV:")
print(df_empleados)

print("\nDataset de bonificaciones leído desde el archivo CSV:")
print(df_bonificaciones)


Dataset de empleados leído desde el archivo CSV:
   ID_Empleado  Nombre Departamento  Salario Fecha_Ingreso
0            1     Ana       Ventas    50000    2015-06-01
1            2    Luis           TI    70000    2017-03-15
2            3   Pedro    Marketing    60000    2018-11-01
3            4   Marta           TI    75000    2020-01-10
4            5  Carlos       Ventas    52000    2016-05-01
5            6   Laura    Marketing    59000    2019-07-23
6            7    José       Ventas    48000    2021-01-01

Dataset de bonificaciones leído desde el archivo CSV:
   ID_Empleado  Bonificacion
0            1          5000
1            2          8000
2            3          3000
3            4         10000
4            5          2500
5            6          4000
6            7          1500


In [6]:
# ---------------------------------------------
# 3. Aplicación de funciones personalizadas
# ---------------------------------------------

# Definir una función personalizada para calcular el salario anualizado
def salario_anual(salario):
    return salario * 12

# Aplicar la función personalizada a la columna 'Salario' de df_empleados
df_empleados['Salario_Anual'] = df_empleados['Salario'].apply(salario_anual)

print("\nDataset de empleados con salario anualizado:")
print(df_empleados)


Dataset de empleados con salario anualizado:
   ID_Empleado  Nombre Departamento  Salario Fecha_Ingreso  Salario_Anual
0            1     Ana       Ventas    50000    2015-06-01         600000
1            2    Luis           TI    70000    2017-03-15         840000
2            3   Pedro    Marketing    60000    2018-11-01         720000
3            4   Marta           TI    75000    2020-01-10         900000
4            5  Carlos       Ventas    52000    2016-05-01         624000
5            6   Laura    Marketing    59000    2019-07-23         708000
6            7    José       Ventas    48000    2021-01-01         576000


In [7]:
# ---------------------------------------------
# 4. Uso de apply() para aplicar funciones más complejas
# ---------------------------------------------

# Crear una función que calcule si un empleado tiene más de 5 años de antigüedad
def antiguedad_5_anos(fecha_ingreso):
    today = pd.to_datetime('today')
    antiguedad = today - pd.to_datetime(fecha_ingreso)
    return antiguedad.days / 365 > 5

# Aplicar la función a la columna 'Fecha_Ingreso' para crear una nueva columna 'Antiguedad_5_anos'
df_empleados['Antiguedad_Mayor_5'] = df_empleados['Fecha_Ingreso'].apply(antiguedad_5_anos)

print("\nDataset de empleados con la antigüedad mayor a 5 años:")
print(df_empleados)


Dataset de empleados con la antigüedad mayor a 5 años:
   ID_Empleado  Nombre Departamento  Salario Fecha_Ingreso  Salario_Anual  \
0            1     Ana       Ventas    50000    2015-06-01         600000   
1            2    Luis           TI    70000    2017-03-15         840000   
2            3   Pedro    Marketing    60000    2018-11-01         720000   
3            4   Marta           TI    75000    2020-01-10         900000   
4            5  Carlos       Ventas    52000    2016-05-01         624000   
5            6   Laura    Marketing    59000    2019-07-23         708000   
6            7    José       Ventas    48000    2021-01-01         576000   

   Antiguedad_Mayor_5  
0                True  
1                True  
2                True  
3                True  
4                True  
5                True  
6               False  


In [8]:
# ---------------------------------------------
# 5. Crear tablas pivote (Pivot Tables)
# ---------------------------------------------

# Crear una tabla pivote que muestre el salario promedio por departamento
pivot_departamento = df_empleados.pivot_table(values='Salario', index='Departamento', aggfunc='mean')

print("\nTabla pivote del salario promedio por departamento:")
print(pivot_departamento)


Tabla pivote del salario promedio por departamento:
              Salario
Departamento         
Marketing     59500.0
TI            72500.0
Ventas        50000.0


In [9]:
# ---------------------------------------------
# 6. Merge y Join para combinar DataFrames
# ---------------------------------------------

# Realizar un merge entre los dos DataFrames usando la columna 'ID_Empleado'
df_completo = pd.merge(df_empleados, df_bonificaciones, on='ID_Empleado', how='left')

print("\nDataset combinado con las bonificaciones de los empleados (Merge):")
print(df_completo)

# Ahora, vamos a realizar un 'join' con un DataFrame diferente (usando el índice)
# Creamos un DataFrame adicional de departamentos con la información de ubicación
data_departamentos = {
    'Departamento': ['Ventas', 'TI', 'Marketing'],
    'Ubicacion': ['Madrid', 'Barcelona', 'Valencia']
}

df_departamentos = pd.DataFrame(data_departamentos)

# Establecer 'Departamento' como índice del DataFrame de departamentos
df_departamentos.set_index('Departamento', inplace=True)

# Realizar un join entre el DataFrame de empleados y el de departamentos usando la columna 'Departamento'
df_join = df_empleados.set_index('Departamento').join(df_departamentos)

print("\nDataset combinado usando join entre empleados y departamentos:")
print(df_join)


Dataset combinado con las bonificaciones de los empleados (Merge):
   ID_Empleado  Nombre Departamento  Salario Fecha_Ingreso  Salario_Anual  \
0            1     Ana       Ventas    50000    2015-06-01         600000   
1            2    Luis           TI    70000    2017-03-15         840000   
2            3   Pedro    Marketing    60000    2018-11-01         720000   
3            4   Marta           TI    75000    2020-01-10         900000   
4            5  Carlos       Ventas    52000    2016-05-01         624000   
5            6   Laura    Marketing    59000    2019-07-23         708000   
6            7    José       Ventas    48000    2021-01-01         576000   

   Antiguedad_Mayor_5  Bonificacion  
0                True          5000  
1                True          8000  
2                True          3000  
3                True         10000  
4                True          2500  
5                True          4000  
6               False          1500  

Dataset co