**(1) Importación de paquetes**

In [3]:
import pandas as pd
from sklearn.linear_model import LinearRegression

**(2) Descarga de información**

In [4]:
df = pd.read_csv('C:\\Users\\Usuario\\Desktop\\ciencia_de_datos\\reto_python_2025\\empleados.csv', delimiter=';')
df.head()

Unnamed: 0,Nombre,Apellido,Sexo,Estado_Civil,Edad,Experiencia,Salario,Gerencia,Departamento
0,Alexandro,,Masculino,Soltero(a),22.0,3.0,2423.0,No,Publicidad
1,Carlos,,Masculino,Casado(a),38.0,10.0,3132.0,Sí,
2,Felipa,,Femenino,Soltero(a),26.0,5.0,2639.0,No,Comercial
3,Daniel,,Masculino,Casado(a),35.0,10.0,3122.0,No,Comercial
4,John,,Masculino,Casado(a),35.0,13.0,3431.0,Sí,Servicios al cliente


**(3) Información sobre el dataframe**

In [5]:
# Cantidad de filas y columnas

print(f'Cantidad de filas: {df.shape[0]}')
print(f'Cantidad de columnas: {df.shape[1]}')

Cantidad de filas: 251
Cantidad de columnas: 9


In [6]:
# Verificar la cantidad de registros nulos:

print('Cantidad de valores nulos: ')
print(df.isnull().sum())

Cantidad de valores nulos: 
Nombre            6
Apellido        251
Sexo             37
Estado_Civil      4
Edad             61
Experiencia       4
Salario           6
Gerencia         21
Departamento     12
dtype: int64


**(4) Eliminar columnas con valores nulos**

In [7]:
# La columna "Apellido" no contiene ningún registro (todos son nulos), por lo tanto, vamos a eliminarlo:

# Nota importante: se crea el dataframe "df_1"

df_1 = df.drop(columns=['Apellido'])
df_1.head()

Unnamed: 0,Nombre,Sexo,Estado_Civil,Edad,Experiencia,Salario,Gerencia,Departamento
0,Alexandro,Masculino,Soltero(a),22.0,3.0,2423.0,No,Publicidad
1,Carlos,Masculino,Casado(a),38.0,10.0,3132.0,Sí,
2,Felipa,Femenino,Soltero(a),26.0,5.0,2639.0,No,Comercial
3,Daniel,Masculino,Casado(a),35.0,10.0,3122.0,No,Comercial
4,John,Masculino,Casado(a),35.0,13.0,3431.0,Sí,Servicios al cliente


**(5) Eliminar registros con valores nulos**

In [8]:
df_1 = df_1.dropna(axis=0)
df_1.head()

Unnamed: 0,Nombre,Sexo,Estado_Civil,Edad,Experiencia,Salario,Gerencia,Departamento
0,Alexandro,Masculino,Soltero(a),22.0,3.0,2423.0,No,Publicidad
2,Felipa,Femenino,Soltero(a),26.0,5.0,2639.0,No,Comercial
3,Daniel,Masculino,Casado(a),35.0,10.0,3122.0,No,Comercial
4,John,Masculino,Casado(a),35.0,13.0,3431.0,Sí,Servicios al cliente
6,Ruperta,Femenino,Casado(a),54.0,18.0,3962.0,No,Producto


In [9]:
# Verifar cuántas filas x columnas han quedado en el dataframe:

print(f'Cantidad de filas: {df_1.shape[0]}')
print(f'Cantidad de columnas: {df_1.shape[1]}')

Cantidad de filas: 145
Cantidad de columnas: 8


In [10]:
# ¿Cómo podríamos eliminar un registro que no tenga al menos 5 valores validos (campos)?

# Nota importante: se crea el dataframe "df_2" (solo se trabajará este apartado con dicho dataframe)

df_2 = df.dropna(axis=0, thresh=5)
df_2.head()

Unnamed: 0,Nombre,Apellido,Sexo,Estado_Civil,Edad,Experiencia,Salario,Gerencia,Departamento
0,Alexandro,,Masculino,Soltero(a),22.0,3.0,2423.0,No,Publicidad
1,Carlos,,Masculino,Casado(a),38.0,10.0,3132.0,Sí,
2,Felipa,,Femenino,Soltero(a),26.0,5.0,2639.0,No,Comercial
3,Daniel,,Masculino,Casado(a),35.0,10.0,3122.0,No,Comercial
4,John,,Masculino,Casado(a),35.0,13.0,3431.0,Sí,Servicios al cliente


In [11]:
print(f'Cantidad de filas: {df_2.shape[0]}')
print(f'Cantidad de columnas: {df_2.shape[1]}')

Cantidad de filas: 246
Cantidad de columnas: 9


**(6) Verificar registros duplicados**

In [12]:
duplicados = df_1.duplicated()
df_1[duplicados]

Unnamed: 0,Nombre,Sexo,Estado_Civil,Edad,Experiencia,Salario,Gerencia,Departamento
14,Selena,Femenino,Casado(a),24.0,6.0,2709.0,Sí,Contabilidad
65,Lucio,Masculino,Soltero(a),54.0,12.0,3317.0,No,Recursos Humanos


**(7) Eliminar registros duplicados**

In [13]:
df_1 = df_1.drop_duplicates()
print(f'Cantidad de filas: {df_1.shape[0]}')
print(f'Cantidad de columnas: {df_1.shape[1]}')

Cantidad de filas: 143
Cantidad de columnas: 8


**(8) Completar datos faltantes con imputación**

In [14]:
df_imp = df.copy()

# Nota importante: se crea el dataframe "df_imp" (solamente se trabajará este apartado con dicho dataframa)

df_imp['Edad'] = df_imp['Edad'].fillna(df_imp['Edad'].mean())
print(df_imp.isnull().sum())

Nombre            6
Apellido        251
Sexo             37
Estado_Civil      4
Edad              0
Experiencia       4
Salario           6
Gerencia         21
Departamento     12
dtype: int64


**(9) Completar datos faltantes con Regresión Lineal**

Para este ejercicio, vamos a considerar un dataframe con únicamente las siguientes columnas:

*   Edad
*   Experiencia
*   Salario

In [15]:
df_3 = df.copy()
df_3 = df_3.drop(columns=['Nombre', 'Apellido', 'Sexo', 'Estado_Civil', 'Gerencia', 'Departamento'])
print(f'Cantidad de filas: {df_3.shape[0]}')
print(f'Cantidad de columnas: {df_3.shape[1]}')
print(df_3.isnull().sum())

# Nota importante: se ha creado el dataframe "df_3" (el mismo solo se utilizará para este apartado)

Cantidad de filas: 251
Cantidad de columnas: 3
Edad           61
Experiencia     4
Salario         6
dtype: int64


In [16]:
# Quitamos los valores nulos para los campos "Experiencia" y "Salario", los cuales serán nuestra variable X

# Lo anterior debido a que nuestro modelo lineal no permite valores nulos

df_3 = df_3.dropna(subset=['Experiencia', 'Salario'])
print(f'Cantidad de filas: {df_3.shape[0]}')
print(f'Cantidad de columnas: {df_3.shape[1]}')
print(df_3.isnull().sum())

Cantidad de filas: 244
Cantidad de columnas: 3
Edad           56
Experiencia     0
Salario         0
dtype: int64


In [17]:
# Creamos datos de prueba del campo "Edad" (con los datos nulos para dicha variable):

datos_prueba = df_3[df_3['Edad'].isnull() == True]
datos_prueba.head()

Unnamed: 0,Edad,Experiencia,Salario
18,,10.0,3194.0
20,,15.0,3635.0
27,,24.0,4529.0
29,,18.0,3907.0
30,,5.0,2656.0


In [18]:
# Generamos datos de entrenamiento para el campo "Edad" (descartando los datos nulos):

datos_entrenamiento = df_3[df_3['Edad'].isnull() == False]
datos_entrenamiento.head()

Unnamed: 0,Edad,Experiencia,Salario
0,22.0,3.0,2423.0
1,38.0,10.0,3132.0
2,26.0,5.0,2639.0
3,35.0,10.0,3122.0
4,35.0,13.0,3431.0


In [19]:
# Creamos las variables de entrenamiento X, Y:

Y_entrenamiento = datos_entrenamiento['Edad']
Y_entrenamiento.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Edad, dtype: float64

In [20]:
X_entrenamiento = datos_entrenamiento.drop('Edad', axis=1)
X_entrenamiento.head()

Unnamed: 0,Experiencia,Salario
0,3.0,2423.0
1,10.0,3132.0
2,5.0,2639.0
3,10.0,3122.0
4,13.0,3431.0


In [21]:
# Construimos el modelo de regresión lineal:

regresion_lineal = LinearRegression()
regresion_lineal.fit(X_entrenamiento, Y_entrenamiento)

In [22]:
# Eliminamos el campo "Edad" de nuestros datos de prueba:

datos_prueba = datos_prueba.drop(['Edad'], axis=1)
datos_prueba.head()

Unnamed: 0,Experiencia,Salario
18,10.0,3194.0
20,15.0,3635.0
27,24.0,4529.0
29,18.0,3907.0
30,5.0,2656.0


In [23]:
# Generamos las predicciones:

pred = regresion_lineal.predict(datos_prueba)
pred

array([38.2596252 , 44.28744772, 56.04221397, 47.97095435, 31.35600914,
       33.79061302, 31.53658513, 32.2437599 , 36.3425913 , 37.66372444,
       44.09784294, 57.19179991, 44.47705251, 63.05710404, 24.65395508,
       26.209837  , 56.18667476, 39.56270074, 60.52025494, 23.15517437,
       34.95825657, 32.83063186, 50.69447982, 31.62687312, 57.56198069,
       55.37115439, 37.54635005, 51.97046896, 63.7974656 , 64.24890557,
       29.73692562, 47.91678156, 58.54904825, 38.80428159, 41.64518145,
       29.05683724, 47.02000199, 66.80088385, 36.63151289, 63.10834842,
       26.09246261, 57.3272319 , 39.62590234, 27.50388374, 46.9477716 ,
       64.45656796, 46.15933763, 55.92483957, 42.722537  , 56.17764596,
       35.56318613, 25.73131063, 45.90653124, 70.33992969, 51.12786219,
       55.87066678])

In [24]:
print(f'Cantidad de predicciones: {len(pred)}')

# Las predicciones corresponden a la cantidad de valores nulos que se tienen para el campo "Edad"

Cantidad de predicciones: 56


In [25]:
# Se asigan las predicciones a los datos de prueba:

datos_prueba['Edad'] = pred
datos_prueba.head()

Unnamed: 0,Experiencia,Salario,Edad
18,10.0,3194.0,38.259625
20,15.0,3635.0,44.287448
27,24.0,4529.0,56.042214
29,18.0,3907.0,47.970954
30,5.0,2656.0,31.356009


In [26]:
df_3['Edad'] = df_3['Edad'].fillna(datos_prueba['Edad'])
print(f'Cantidad de filas: {df_3.shape[0]}')
print(f'Cantidad de columnas: {df_3.shape[1]}')
print(df_3.isnull().sum())

Cantidad de filas: 244
Cantidad de columnas: 3
Edad           0
Experiencia    0
Salario        0
dtype: int64
