## Limpieza de datos
En esta primera parte lo que vamos a hacer es cargar los datos y determinar el número de valores faltantes de cada columna

### 1.1 ¿Cuántos datos faltantes tenemos?

In [33]:
import pandas as pd
df = pd.read_csv('empleados.csv', delimiter=';')
print(df.head(20))

       Nombre  Apellido       Sexo   Estado_Civil  Edad  Experiencia  Salario  \
0   Alexandro       NaN  Masculino     Soltero(a)  22.0          3.0   2423.0   
1      Carlos       NaN  Masculino      Casado(a)  38.0         10.0   3132.0   
2      Felipa       NaN   Femenino     Soltero(a)  26.0          5.0   2639.0   
3      Daniel       NaN  Masculino      Casado(a)  35.0         10.0   3122.0   
4        John       NaN  Masculino      Casado(a)  35.0         13.0   3431.0   
5      Edward       NaN  Masculino     Soltero(a)   NaN          NaN   4500.0   
6     Ruperta       NaN   Femenino      Casado(a)  54.0         18.0   3962.0   
7       Amaya       NaN   Femenino  Divorciado(a)  22.0          3.0   2450.0   
8   Francisca       NaN   Femenino     Soltero(a)  27.0          4.0   2564.0   
9      Selena       NaN   Femenino      Casado(a)  24.0          6.0   2709.0   
10       Febe       NaN   Femenino      Casado(a)  44.0         22.0   4359.0   
11     Ximena       NaN   Fe

In [34]:
print(df.shape)

(251, 9)


In [35]:
# determinamos el total de valores nulos del dataset
print(df.isnull().sum())

Nombre            6
Apellido        251
Sexo             37
Estado_Civil      4
Edad             61
Experiencia       4
Salario           6
Gerencia         21
Departamento     12
dtype: int64


In [36]:
# determinamos el total de valores no nulos del dataset
print(df.notnull().sum())

Nombre          245
Apellido          0
Sexo            214
Estado_Civil    247
Edad            190
Experiencia     247
Salario         245
Gerencia        230
Departamento    239
dtype: int64


### 1.2 Eliminar la columna con datos faltantes
Como se puede observar en el conjunto de datos la columna con los apellidos no tiene datos, por tanto, se debe eliminar. Esto es un caso atípico y la decisión de eliminar una columna o no dependerá del caso de que estemos tratando.

In [37]:
# eliminamos la columna Apellido
df.drop('Apellido', axis=1, inplace=True)

In [38]:
# mostramos el dataset sin la columna Apellido
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 251 entries, 0 to 250
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Nombre        245 non-null    object 
 1   Sexo          214 non-null    object 
 2   Estado_Civil  247 non-null    object 
 3   Edad          190 non-null    float64
 4   Experiencia   247 non-null    float64
 5   Salario       245 non-null    float64
 6   Gerencia      230 non-null    object 
 7   Departamento  239 non-null    object 
dtypes: float64(3), object(5)
memory usage: 15.8+ KB
None


### 1.3 Eliminar las filas con datos faltantes
En algunos métodos de aprendizaje automático no se pueden tener datos faltantes. Para esto vamos a analizar el conjunto de datos y procederemos a eliminar las filas que tengan datos faltantes.

In [39]:
# nos indica cuantas filas tienen datos faltantes
print(df[df.isnull().any(axis=1)])

     Nombre       Sexo   Estado_Civil  Edad  Experiencia  Salario Gerencia  \
1    Carlos  Masculino      Casado(a)  38.0         10.0   3132.0       Sí   
5    Edward  Masculino     Soltero(a)   NaN          NaN   4500.0       No   
7     Amaya   Femenino  Divorciado(a)  22.0          3.0   2450.0      NaN   
10     Febe   Femenino      Casado(a)  44.0         22.0   4359.0       No   
15      NaN   Femenino            NaN  44.0         22.0      NaN      NaN   
..      ...        ...            ...   ...          ...      ...      ...   
241  Robert        NaN     Soltero(a)  33.0         11.0   3267.0       No   
242   Kevin        NaN  Divorciado(a)   NaN         20.0   4166.0       No   
243   Amaro  Masculino      Casado(a)   NaN         24.0   4510.0       No   
248    Eric        NaN      Casado(a)  25.0          7.0   2880.0       Sí   
249    Marc        NaN      Casado(a)  24.0          2.0   2172.0       No   

         Departamento  
1                 NaN  
5              

In [40]:
# para eliminar todas las filas que tengan al menos un dato faltante ejecutamos
df = df.dropna(axis=0)

In [41]:
# mostramos el dataset actualizado
print(df.shape)

(145, 8)


In [42]:
# para eliminar todas las columnas que tengan al menos 5 datos válidos ejecutamos
# df_actualizado = df.dropna(axis=1, thresh=5)

In [43]:
# mostramos el dataset actualizado
#print(df_actualizado)

### 1.4 Verificar cuantos registros existen

In [44]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 145 entries, 0 to 250
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Nombre        145 non-null    object 
 1   Sexo          145 non-null    object 
 2   Estado_Civil  145 non-null    object 
 3   Edad          145 non-null    float64
 4   Experiencia   145 non-null    float64
 5   Salario       145 non-null    float64
 6   Gerencia      145 non-null    object 
 7   Departamento  145 non-null    object 
dtypes: float64(3), object(5)
memory usage: 10.2+ KB
None


In [45]:
# muestra valores duplicados
duplicados = df.duplicated()
print(df[duplicados])

    Nombre       Sexo Estado_Civil  Edad  Experiencia  Salario Gerencia  \
14  Selena   Femenino    Casado(a)  24.0          6.0   2709.0       Sí   
65   Lucio  Masculino   Soltero(a)  54.0         12.0   3317.0       No   

        Departamento  
14      Contabilidad  
65  Recursos Humanos  


### 1.5 Eliminar registros duplicados

In [46]:
# borra valores duplicados
df = df.drop_duplicates()
df.shape # se eliminaron 2 filas duplicadas

(143, 8)

### 1.6 Rellenar los datos faltantes con un valor de imputación

In [47]:
# cargamos nuevamente el dataset empleados con la columna Apellido
df = pd.read_csv('empleados.csv', delimiter=';')
print(df.isnull().sum())

Nombre            6
Apellido        251
Sexo             37
Estado_Civil      4
Edad             61
Experiencia       4
Salario           6
Gerencia         21
Departamento     12
dtype: int64


In [48]:
# eliminamos la columna Apellido
df.drop('Apellido', axis=1, inplace=True)

In [49]:
# eliminamos todas las columnas que tengan al menos 5 datos válidos ejecutamos
df = df.dropna(axis=1, thresh=5)

In [50]:
print(df.isnull().sum())

Nombre           6
Sexo            37
Estado_Civil     4
Edad            61
Experiencia      4
Salario          6
Gerencia        21
Departamento    12
dtype: int64


In [51]:
# rellenamos los valores faltantes de la edad con la media
df['Edad'].fillna(df['Edad'].mean(), inplace=True)
print(df.isnull().sum())

Nombre           6
Sexo            37
Estado_Civil     4
Edad             0
Experiencia      4
Salario          6
Gerencia        21
Departamento    12
dtype: int64


### 1.7 Rellenar los datos faltantes con un modelo de regresión lineal

In [52]:
# cargamos las librerías
import pandas as pd
from sklearn.linear_model import LinearRegression

In [53]:
# cargamos el dataset
df = pd.read_csv('empleados_1_7.csv', delimiter=';')

In [54]:
# imprimimos las primeras 20 filas
print(df.head(20))

    Edad  Experiencia  Salario
0   22.0            3     2423
1   26.0            5     2639
2   35.0           10     3122
3   35.0           13     3431
4   54.0           18     3962
5   27.0            4     2564
6   24.0            6     2709
7   58.0           24     4532
8   20.0            1     1977
9   39.0            8     2953
10  24.0            6     2709
11  55.0           12     3306
12  22.0            4     2518
13   NaN           10     3194
14  31.0           11     3267
15   NaN           15     3635
16  34.0           11     3257
17  23.0            5     2695
18   NaN           24     4529
19   NaN           18     3907


In [55]:
# revisamos los valores nulos por columna  
print(df.isnull().sum())

Edad           46
Experiencia     0
Salario         0
dtype: int64


In [56]:
# separamos los valores nulos del dataset y creamos una nueva variable
datos_test = df[df['Edad'].isnull()==True]

In [57]:
print(datos_test.head(5))

    Edad  Experiencia  Salario
13   NaN           10     3194
15   NaN           15     3635
18   NaN           24     4529
19   NaN           18     3907
20   NaN            5     2656


In [58]:
# creamos una variable con los valores no nulos de la edad
datos_entrenamiento = df[df['Edad'].isnull()==False]
print(datos_entrenamiento.head(5))

   Edad  Experiencia  Salario
0  22.0            3     2423
1  26.0            5     2639
2  35.0           10     3122
3  35.0           13     3431
4  54.0           18     3962


In [59]:
# creamos los datasets de entrenamiento
y_entrenamiento = datos_entrenamiento['Edad']
# considera las otras columnas menos la edad
x_entrenamiento = datos_entrenamiento.drop(['Edad'], axis=1)

In [60]:
# construimos el modelo de regresión lineal
regresion_lineal = LinearRegression()
regresion_lineal.fit(x_entrenamiento, y_entrenamiento)

In [61]:
# eliminamos de los datos de test la columna de la edad
datos_test = datos_test.drop(['Edad'], axis=1)

In [62]:
prediccciones = regresion_lineal.predict(datos_test)
print(prediccciones)

[38.75882405 45.11533205 57.24087808 48.97973939 31.74032335 31.87681669
 32.77139668 36.94973869 38.30839603 44.97201404 58.46986675 45.25865006
 64.70353075 25.2342213  26.77031997 57.35007275 61.70585611 24.10132659
 35.54330869 33.21500003 58.74967809 56.37359676 38.21967536 53.08301007
 65.26315343 39.53056003 42.39801738 29.28234602 47.90089339 68.25345479
 37.16812803 64.38222278 26.6815993  40.15160472 28.10850331 47.84629606
 65.76135412 46.89029407 57.15215741 43.57240871 57.34324809 36.00056137
 26.40861263 46.6992034  72.00866745 57.11120941]


In [63]:
datos_test['Edad'] = prediccciones

In [64]:
print(datos_test)

     Experiencia  Salario       Edad
13            10     3194  38.758824
15            15     3635  45.115332
18            24     4529  57.240878
19            18     3907  48.979739
20             5     2656  31.740323
25             5     2676  31.876817
29             6     2709  32.771397
32             9     3027  36.949739
33            10     3128  38.308396
34            15     3614  44.972014
35            25     4611  58.469867
39            15     3656  45.258650
47            30     5034  64.703531
56             1     2095  25.234221
57             2     2222  26.770320
61            24     4545  57.350073
65            27     4889  61.705856
70             1     1929  24.101327
75             8     2919  35.543309
81             6     2774  33.215000
96            25     4652  58.749678
98            23     4500  56.373597
109           10     3115  38.219675
117           21     4214  53.083010
120           30     5116  65.263153
126           11     3209  39.530560
1