In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("empleados_extendido.csv")

In [3]:
print (df.head())

   id_empleado        nombre  edad      departamento  salario  \
0         5463     Ana Pérez    29                IT     3200   
1         7821    Luis Gómez    45          Finanzas     4100   
2         6345   María López    34         Marketing     2800   
3         8920   Carlos Ruiz    25                IT     2900   
4         1287  Lucía Torres    38  Recursos Humanos     3000   

   años_experiencia     ciudad    estado fecha_ingreso  
0                 5     Madrid    activo    2019-03-15  
1                20  Barcelona    activo    2005-07-01  
2                 8   Valencia  inactivo    2012-09-23  
3                 3     Madrid    activo    2021-01-10  
4                12    Sevilla    activo    2010-11-05  


In [4]:
print (df)

   id_empleado         nombre  edad      departamento  salario  \
0         5463      Ana Pérez    29                IT     3200   
1         7821     Luis Gómez    45          Finanzas     4100   
2         6345    María López    34         Marketing     2800   
3         8920    Carlos Ruiz    25                IT     2900   
4         1287   Lucía Torres    38  Recursos Humanos     3000   
5         4532  Pedro Sánchez    50          Finanzas     4600   
6         9753   Laura Martín    41         Marketing     3100   
7         2648   Javier Ramos    28                IT     2700   
8         8364     Sofía Díaz    33  Recursos Humanos     2950   
9         1029  Andrés Molina    36          Finanzas     3800   

   años_experiencia     ciudad    estado fecha_ingreso  
0                 5     Madrid    activo    2019-03-15  
1                20  Barcelona    activo    2005-07-01  
2                 8   Valencia  inactivo    2012-09-23  
3                 3     Madrid    activo    2

In [6]:
print (df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   id_empleado       10 non-null     int64 
 1   nombre            10 non-null     object
 2   edad              10 non-null     int64 
 3   departamento      10 non-null     object
 4   salario           10 non-null     int64 
 5   años_experiencia  10 non-null     int64 
 6   ciudad            10 non-null     object
 7   estado            10 non-null     object
 8   fecha_ingreso     10 non-null     object
dtypes: int64(4), object(5)
memory usage: 852.0+ bytes
None


In [7]:
df["fecha_ingreso"] = pd.to_datetime(df["fecha_ingreso"])

In [8]:
print (df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   id_empleado       10 non-null     int64         
 1   nombre            10 non-null     object        
 2   edad              10 non-null     int64         
 3   departamento      10 non-null     object        
 4   salario           10 non-null     int64         
 5   años_experiencia  10 non-null     int64         
 6   ciudad            10 non-null     object        
 7   estado            10 non-null     object        
 8   fecha_ingreso     10 non-null     datetime64[ns]
dtypes: datetime64[ns](1), int64(4), object(4)
memory usage: 852.0+ bytes
None


In [9]:
df["año_ingreso"] = df["fecha_ingreso"].dt.year

In [10]:
hoy = pd.Timestamp.today()

In [11]:
df["antiguedad"] = (hoy - df["fecha_ingreso"]).dt.days // 365

In [12]:
df["nivel_salarial"] = pd.cut(
    df["salario"],
    bins=[0, 3000, 4000, 5000],
    labels=["Bajo", "Medio", "Alto"]
)

In [13]:
print(df[["nombre", "salario", "nivel_salarial", "año_ingreso", "antiguedad"]])

          nombre  salario nivel_salarial  año_ingreso  antiguedad
0      Ana Pérez     3200          Medio         2019           6
1     Luis Gómez     4100           Alto         2005          20
2    María López     2800           Bajo         2012          12
3    Carlos Ruiz     2900           Bajo         2021           4
4   Lucía Torres     3000           Bajo         2010          14
5  Pedro Sánchez     4600           Alto         1999          26
6   Laura Martín     3100          Medio         2008          17
7   Javier Ramos     2700           Bajo         2020           5
8     Sofía Díaz     2950           Bajo         2013          11
9  Andrés Molina     3800          Medio         2011          14


In [14]:
df_ordenado = df.sort_values(by="salario", ascending=False)

In [15]:
print(df_ordenado[["nombre", "salario"]])

          nombre  salario
5  Pedro Sánchez     4600
1     Luis Gómez     4100
9  Andrés Molina     3800
0      Ana Pérez     3200
6   Laura Martín     3100
4   Lucía Torres     3000
8     Sofía Díaz     2950
3    Carlos Ruiz     2900
2    María López     2800
7   Javier Ramos     2700


In [16]:
df_altos = df[df["salario"] > 3000]

In [17]:
print(df_altos[["nombre", "salario"]])

          nombre  salario
0      Ana Pérez     3200
1     Luis Gómez     4100
5  Pedro Sánchez     4600
6   Laura Martín     3100
9  Andrés Molina     3800


In [18]:
df_filtrado = df[(df["departamento"] == "Finanzas") & (df["salario"] > 3500)]

In [19]:
print(df_filtrado)

   id_empleado         nombre  edad departamento  salario  años_experiencia  \
1         7821     Luis Gómez    45     Finanzas     4100                20   
5         4532  Pedro Sánchez    50     Finanzas     4600                25   
9         1029  Andrés Molina    36     Finanzas     3800                14   

      ciudad    estado fecha_ingreso  año_ingreso  antiguedad nivel_salarial  
1  Barcelona    activo    2005-07-01         2005          20           Alto  
5     Bilbao  inactivo    1999-05-18         1999          26           Alto  
9  Barcelona    activo    2011-04-07         2011          14          Medio  


In [20]:
promedio_salario = df.groupby("departamento")["salario"].mean()

In [21]:
print(promedio_salario)

departamento
Finanzas            4166.666667
IT                  2933.333333
Marketing           2950.000000
Recursos Humanos    2975.000000
Name: salario, dtype: float64


In [22]:
df = pd.read_csv("empleados_limpieza.csv")

In [23]:
print (df)

                                                                         cat > empleados_limpieza.csv <<EOF
id_empleado nombre        edad departamento     salario años_experiencia                             ciudad
1001        Ana Pérez     30   Finanzas         3200    5                                            Madrid
1002        Luis Gómez    NaN  IT               4100    7                                         Barcelona
1003        María López   28   Recursos Humanos NaN     3                                          Valencia
1004        Carlos Ruiz   35   NaN              2900    10                                          Sevilla
1005        Lucía Torres  40   Finanzas         3000    12                                           Bilbao
1006        Pedro Sánchez 45   IT               4600    20                                           Madrid
                                                        20                                           Madrid
1007        Laura Martín  29

In [24]:
print (df.info())

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 13 entries, ('id_empleado', 'nombre', 'edad', 'departamento', 'salario', 'años_experiencia') to ('EOF', nan, nan, nan, nan, nan)
Data columns (total 1 columns):
 #   Column                              Non-Null Count  Dtype 
---  ------                              --------------  ----- 
 0   cat > empleados_limpieza.csv <<EOF  12 non-null     object
dtypes: object(1)
memory usage: 2.3+ KB
None


In [25]:
df = pd.read_csv("empleados_limpieza.csv")

In [26]:
print (df)

    id_empleado         nombre  edad      departamento  salario  \
0          1001      Ana Pérez  30.0          Finanzas   3200.0   
1          1002     Luis Gómez   NaN                IT   4100.0   
2          1003    María López  28.0  Recursos Humanos      NaN   
3          1004    Carlos Ruiz  35.0               NaN   2900.0   
4          1005   Lucía Torres  40.0          Finanzas   3000.0   
5          1006  Pedro Sánchez  45.0                IT   4600.0   
6          1006  Pedro Sánchez  45.0                IT   4600.0   
7          1007   Laura Martín  29.0         Marketing   3100.0   
8          1008     Sofía Díaz   NaN          Finanzas   2950.0   
9          1009  Andrés Molina  50.0                IT   3800.0   
10         1009  Andrés Molina  50.0                IT   3800.0   

    años_experiencia     ciudad  
0                  5     Madrid  
1                  7  Barcelona  
2                  3   Valencia  
3                 10    Sevilla  
4                 12     

In [27]:
print (df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11 entries, 0 to 10
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   id_empleado       11 non-null     int64  
 1   nombre            11 non-null     object 
 2   edad              9 non-null      float64
 3   departamento      10 non-null     object 
 4   salario           10 non-null     float64
 5   años_experiencia  11 non-null     int64  
 6   ciudad            11 non-null     object 
dtypes: float64(2), int64(2), object(3)
memory usage: 748.0+ bytes
None


In [28]:
print(df.isnull().sum())

id_empleado         0
nombre              0
edad                2
departamento        1
salario             1
años_experiencia    0
ciudad              0
dtype: int64


In [29]:
print(df.duplicated())

0     False
1     False
2     False
3     False
4     False
5     False
6      True
7     False
8     False
9     False
10     True
dtype: bool


In [30]:
print(df.duplicated().sum())

2


In [31]:
df_nulos = df[df["salario"].isnull() | df["edad"].isnull()]

In [32]:
print(df_nulos)

   id_empleado       nombre  edad      departamento  salario  \
1         1002   Luis Gómez   NaN                IT   4100.0   
2         1003  María López  28.0  Recursos Humanos      NaN   
8         1008   Sofía Díaz   NaN          Finanzas   2950.0   

   años_experiencia     ciudad  
1                 7  Barcelona  
2                 3   Valencia  
8                 4     Málaga  


In [33]:
df["edad"] = df["edad"].fillna(df["edad"].mean())

In [34]:
df["salario"] = df["salario"].fillna(df["salario"].median())

In [35]:
df_duplicados = df[df.duplicated()]

In [36]:
print(df_duplicados)

    id_empleado         nombre  edad departamento  salario  años_experiencia  \
6          1006  Pedro Sánchez  45.0           IT   4600.0                20   
10         1009  Andrés Molina  50.0           IT   3800.0                25   

      ciudad  
6     Madrid  
10  Valencia  


In [37]:
df_sin_duplicados = df.drop_duplicates()

In [38]:
print("Filas después de limpiar:", len(df_sin_duplicados))

Filas después de limpiar: 9


In [39]:
print(df_sin_duplicados)

   id_empleado         nombre       edad      departamento  salario  \
0         1001      Ana Pérez  30.000000          Finanzas   3200.0   
1         1002     Luis Gómez  39.111111                IT   4100.0   
2         1003    María López  28.000000  Recursos Humanos   3500.0   
3         1004    Carlos Ruiz  35.000000               NaN   2900.0   
4         1005   Lucía Torres  40.000000          Finanzas   3000.0   
5         1006  Pedro Sánchez  45.000000                IT   4600.0   
7         1007   Laura Martín  29.000000         Marketing   3100.0   
8         1008     Sofía Díaz  39.111111          Finanzas   2950.0   
9         1009  Andrés Molina  50.000000                IT   3800.0   

   años_experiencia     ciudad  
0                 5     Madrid  
1                 7  Barcelona  
2                 3   Valencia  
3                10    Sevilla  
4                12     Bilbao  
5                20     Madrid  
7                 6   Zaragoza  
8                 4     M

In [40]:
print(df_sin_duplicados.isnull().sum())

id_empleado         0
nombre              0
edad                0
departamento        1
salario             0
años_experiencia    0
ciudad              0
dtype: int64


In [41]:
print(df_sin_duplicados.duplicated().sum())

0


In [43]:
df_sin_duplicados.loc[:, "departamento"] = df_sin_duplicados["departamento"].fillna("Sin Asignar")

In [44]:
print(df_sin_duplicados)

   id_empleado         nombre       edad      departamento  salario  \
0         1001      Ana Pérez  30.000000          Finanzas   3200.0   
1         1002     Luis Gómez  39.111111                IT   4100.0   
2         1003    María López  28.000000  Recursos Humanos   3500.0   
3         1004    Carlos Ruiz  35.000000       Sin Asignar   2900.0   
4         1005   Lucía Torres  40.000000          Finanzas   3000.0   
5         1006  Pedro Sánchez  45.000000                IT   4600.0   
7         1007   Laura Martín  29.000000         Marketing   3100.0   
8         1008     Sofía Díaz  39.111111          Finanzas   2950.0   
9         1009  Andrés Molina  50.000000                IT   3800.0   

   años_experiencia     ciudad  
0                 5     Madrid  
1                 7  Barcelona  
2                 3   Valencia  
3                10    Sevilla  
4                12     Bilbao  
5                20     Madrid  
7                 6   Zaragoza  
8                 4     M

In [45]:
print(df_sin_duplicados.info())

<class 'pandas.core.frame.DataFrame'>
Index: 9 entries, 0 to 9
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   id_empleado       9 non-null      int64  
 1   nombre            9 non-null      object 
 2   edad              9 non-null      float64
 3   departamento      9 non-null      object 
 4   salario           9 non-null      float64
 5   años_experiencia  9 non-null      int64  
 6   ciudad            9 non-null      object 
dtypes: float64(2), int64(2), object(3)
memory usage: 576.0+ bytes
None


In [46]:
df_sin_duplicados.to_csv("empleados_limpios.csv", index=False)

In [47]:
df = pd.read_csv("empleados_limpios.csv")

In [48]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   id_empleado       9 non-null      int64  
 1   nombre            9 non-null      object 
 2   edad              9 non-null      float64
 3   departamento      9 non-null      object 
 4   salario           9 non-null      float64
 5   años_experiencia  9 non-null      int64  
 6   ciudad            9 non-null      object 
dtypes: float64(2), int64(2), object(3)
memory usage: 636.0+ bytes
None


In [49]:
df = pd.read_csv("empleados_fechas.csv")

In [50]:
print(df["fecha_ingreso"].head())

0    2020-05-10
1    2018/03/15
2    15-07-2019
3    01/09/2021
4    2017.11.23
Name: fecha_ingreso, dtype: object


In [51]:
print(df["fecha_ingreso"].dtype)

object


In [53]:
df["fecha_ingreso"] = pd.to_datetime(df["fecha_ingreso"], errors="coerce", dayfirst=True)

In [54]:
print(df["fecha_ingreso"].head())

0   2020-10-05
1          NaT
2          NaT
3          NaT
4          NaT
Name: fecha_ingreso, dtype: datetime64[ns]


In [55]:
print(df["fecha_ingreso"].dtype)

datetime64[ns]


In [56]:
print(df["fecha_ingreso"].isna().sum())

8


In [57]:
df[df["fecha_ingreso"].isna()][["id_empleado", "fecha_ingreso"]]

Unnamed: 0,id_empleado,fecha_ingreso
1,2002,NaT
2,2003,NaT
3,2004,NaT
4,2005,NaT
5,2006,NaT
6,2007,NaT
7,2008,NaT
8,2009,NaT


In [58]:
mask = df["fecha_ingreso"].isna()
df.loc[mask, "fecha_ingreso"] = pd.to_datetime(
    df.loc[mask, "id_empleado"], format="%Y", errors="coerce"
)


In [59]:
print(df.loc[mask, ["id_empleado", "fecha_ingreso"]])

   id_empleado fecha_ingreso
1         2002    2002-01-01
2         2003    2003-01-01
3         2004    2004-01-01
4         2005    2005-01-01
5         2006    2006-01-01
6         2007    2007-01-01
7         2008    2008-01-01
8         2009    2009-01-01


In [60]:
print("Fecha mínima:", df["fecha_ingreso"].min())

Fecha mínima: 2002-01-01 00:00:00


In [61]:
print("Fecha máxima:", df["fecha_ingreso"].max())

Fecha máxima: 2021-05-10 00:00:00


In [62]:
df["año_ingreso"] = df["fecha_ingreso"].dt.year

In [63]:
df["mes_ingreso"] = df["fecha_ingreso"].dt.month

In [64]:
df["dia_ingreso"] = df["fecha_ingreso"].dt.day

In [66]:
df["dia_semana"] = df["fecha_ingreso"].dt.day_name()

In [67]:
dias_map = {
    "Monday": "Lunes",
    "Tuesday": "Martes",
    "Wednesday": "Miércoles",
    "Thursday": "Jueves",
    "Friday": "Viernes",
    "Saturday": "Sábado",
    "Sunday": "Domingo"
}

In [68]:
df["dia_semana"] = df["fecha_ingreso"].dt.day_name().map(dias_map)

In [69]:
df["dia_semana"] = df["fecha_ingreso"].dt.strftime("%A")

In [70]:
hoy = pd.Timestamp.today()

In [71]:
df["antiguedad_años"] = (hoy - df["fecha_ingreso"]).dt.days // 365

In [72]:
df.to_csv("empleados_fechas_limpio.csv", index=False)

In [73]:
df = pd.read_csv("empleados_fechas_limpio.csv")

In [74]:
print (df)

   id_empleado         nombre  edad      departamento  salario  \
0         2001      Ana Pérez    30          Finanzas     3200   
1         2002     Luis Gómez    39                IT     4100   
2         2003    María López    28  Recursos Humanos     3500   
3         2004    Carlos Ruiz    35         Marketing     2900   
4         2005   Lucía Torres    40          Finanzas     3000   
5         2006  Pedro Sánchez    45                IT     4600   
6         2007   Laura Martín    29         Marketing     3100   
7         2008     Sofía Díaz    39          Finanzas     2950   
8         2009  Andrés Molina    50                IT     3800   
9         2010   Javier Ramos    33  Recursos Humanos     2700   

   años_experiencia     ciudad fecha_ingreso  año_ingreso  mes_ingreso  \
0                 5     Madrid    2020-10-05         2020           10   
1                 7  Barcelona    2002-01-01         2002            1   
2                 3   Valencia    2003-01-01       