# Reto: Deserción de empleados


# Descripción

**Objetivo**

A través de este reto vas a lograr:

* Evaluar las características de un conjunto de datos con el fin de ver si son suficientes para la actividad en la que serán usados.
* Crear nuevas características a partir de las existentes, que logren proporcionar una mayor información para la actividad en la que se usarán.
* Eliminar las características que sean irrelevantes para el uso que se le dará al conjunto de datos.

**Introducción**

Una empresa de productos médicos está interesada en atraer y mantener al mejor talento porque sabe que es la clave del éxito para cualquier organización. También toma en cuenta que, si un empleado abandona la empresa, se está provocando una pérdida de tiempo y dinero debido, entre otras cosas, a la inversión en capacitación y a la experiencia acumulada del empleado. Desde luego que hay algunas formas de deserción que son inevitables, como cuando un empleado se retira o cambia de ciudad de residencia. Sin embargo, existen algunos factores que se pueden controlar por parte de la empresa con el objetivo de minimizar la deserción al mejorar las condiciones de trabajo. A la empresa le interesa saber cuáles son los factores que hacen que un empleado siga con ellos y cuáles son los que se deben cambiar debido a que provocan que los empleados se vayan.

Aunque la empresa sabe que este estudio tiene muchas aristas desea empezar con algo muy simple: determinando si un empleado abandonará la empresa Attrition o no en un momento dado. Como se trata de un problema de clasificación binaria, lo más probable es que utilicen un modelo de machine learning. La empresa ha logrado recolectar 30 datos de 400 de sus empleados, pero no está segura si ese conjunto de datos sean los correctos para lo que pretende hacer, por lo que decidió contratarte como científico de datos para generar un set de datos adecuado para esta actividad.

# Programa

**Instrucciones**

Después de una revisión completa de los datos con los que se cuentan, has decidido escribir un programa en Python Jupyter Notebook llamado RetoEmpleados.ipynb bajo el siguiente plan:

1. Importa las librerías requeridas.

In [1]:
import pandas as pd

2. Lee el archivo CSV llamado empleadosRETO.csv y coloca los datos en un frame de Pandas llamado EmpleadosAttrition.

In [2]:
EmpleadosAttrition = pd.read_csv('https://raw.githubusercontent.com/cindylozano/DataScienceTLG/IngCaracteristicas/empleadosRETO.csv')

EmpleadosAttrition.head(5)

Unnamed: 0,Age,BusinessTravel,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeNumber,EnvironmentSatisfaction,Gender,...,PercentSalaryHike,PerformanceRating,RelationshipSatisfaction,StandardHours,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsInCurrentRole,YearsSinceLastPromotion,Attrition
0,50,Travel_Rarely,Research & Development,1 km,2,Medical,1,997,4,Male,...,22,4,3,80,32,1,2,4,1,No
1,36,Travel_Rarely,Research & Development,6 km,2,Medical,1,178,2,Male,...,20,4,4,80,7,0,3,2,0,No
2,21,Travel_Rarely,Sales,7 km,1,Marketing,1,1780,2,Male,...,13,3,2,80,1,3,3,0,1,Yes
3,52,Travel_Rarely,Research & Development,7 km,4,Life Sciences,1,1118,2,Male,...,19,3,4,80,18,4,3,6,4,No
4,33,Travel_Rarely,Research & Development,15 km,1,Medical,1,582,2,Male,...,12,3,4,80,15,2,4,6,7,Yes


In [3]:
EmpleadosAttrition.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 30 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   Age                       400 non-null    int64 
 1   BusinessTravel            396 non-null    object
 2   Department                400 non-null    object
 3   DistanceFromHome          400 non-null    object
 4   Education                 400 non-null    int64 
 5   EducationField            400 non-null    object
 6   EmployeeCount             400 non-null    int64 
 7   EmployeeNumber            400 non-null    int64 
 8   EnvironmentSatisfaction   400 non-null    int64 
 9   Gender                    400 non-null    object
 10  JobInvolvement            400 non-null    int64 
 11  JobLevel                  400 non-null    int64 
 12  JobRole                   400 non-null    object
 13  JobSatisfaction           400 non-null    int64 
 14  MaritalStatus             

In [4]:
EmpleadosAttrition.columns

Index(['Age', 'BusinessTravel', 'Department', 'DistanceFromHome', 'Education',
       'EducationField', 'EmployeeCount', 'EmployeeNumber',
       'EnvironmentSatisfaction', 'Gender', 'JobInvolvement', 'JobLevel',
       'JobRole', 'JobSatisfaction', 'MaritalStatus', 'MonthlyIncome',
       'NumCompaniesWorked', 'HiringDate', 'Over18', 'OverTime',
       'PercentSalaryHike', 'PerformanceRating', 'RelationshipSatisfaction',
       'StandardHours', 'TotalWorkingYears', 'TrainingTimesLastYear',
       'WorkLifeBalance', 'YearsInCurrentRole', 'YearsSinceLastPromotion',
       'Attrition'],
      dtype='object')

3. Elimina las columnas que, con alta probabilidad (estimada por ti), no tienen relación alguna con la salida. Hay algunas columnas que contienen información que no ayuda a definir el desgaste de un empleado, tal es caso de las siguientes:
* EmployeeCount: número de empleados, todos tienen un 1
* EmployeeNumber: ID del empleado, el cual es único para cada empleado
* Over18: mayores de edad, todos dicen “Y”
* StandardHours: horas de trabajo, todos tienen “80”

In [5]:
EmpleadosAttrition.drop(columns=['EmployeeCount','EmployeeNumber','Over18','StandardHours'], inplace=True)

4.	Analizando la información proporcionada, detectaste que no se cuenta con los años que el empelado lleva en la compañía y parece ser un buen dato. Dicha cantidad se puede calcular con la fecha de contratación ‘HiringDate’:
* Crea una columna llamada Year y obtén el año de contratación del empleado a partir de su fecha ‘HiringDate’. No se te olvide que debe ser un entero.
* Crea una columna llamada YearsAtCompany que contenga los años que el empleado lleva en la compañía hasta el año 2018. Para su cálculo, usa la variable Year que acabas de crear.


In [6]:
EmpleadosAttrition['Year'] = EmpleadosAttrition['HiringDate'].str.split(pat='/').str[2].astype(int)

In [7]:
EmpleadosAttrition['YearsAtCompany'] = 2018 - EmpleadosAttrition['Year']

5.	La DistanceFromHome está dada en kilómetros, pero tiene las letras “km” al final y así no puede ser entera:
* Renombra la variable DistanceFromHome a DistanceFromHome_km.
* Crea una nueva variable DistanceFromHome que sea entera, es decir, solo con números.


In [8]:
EmpleadosAttrition.rename(columns={'DistanceFromHome':'DistanceFromHome_km'}, inplace=True)

In [9]:
EmpleadosAttrition['DistanceFromHome'] = EmpleadosAttrition['DistanceFromHome_km'].str.split(pat=' ').str[0].astype(int)

6.	Borra las columnas Year, HiringDate y DistanceFromHome_km debido a que ya no son útiles.

In [10]:
EmpleadosAttrition.drop(columns=['Year','HiringDate','DistanceFromHome_km'], inplace=True)

7.	Aprovechando los ajustes que se están haciendo, la empresa desea saber si todos los departamentos tienen un ingreso promedio similar. Genera una nuevo frame llamado SueldoPromedioDepto que contenga el MonthlyIncome promedio por departamento de los empleados y colócalo en una variable llamada SueldoPromedio. Esta tabla solo es informativa, no la vas a utilizar en el set de datos que estás construyendo.

In [11]:
SueldoPromedioDepto = EmpleadosAttrition.groupby(['Department'], as_index=False)[['MonthlyIncome']].mean()
SueldoPromedioDepto.rename(columns={'MonthlyIncome':'SueldoPromedio'}, inplace=True)
print(SueldoPromedioDepto)

               Department  SueldoPromedio
0         Human Resources     6239.888889
1  Research & Development     6804.149813
2                   Sales     7188.250000


8.	La variable MonthlyIncome tiene un valor numérico muy grande comparada con las otras variables. Escala dicha variable para que tenga un valor entre 0 y 1.

In [12]:
EmpleadosAttrition['MonthlyIncome'] = (EmpleadosAttrition['MonthlyIncome'] - EmpleadosAttrition['MonthlyIncome'].min()) / (EmpleadosAttrition['MonthlyIncome'].max() - EmpleadosAttrition['MonthlyIncome'].min())

9.	Todo parece indicar que las variables categóricas que quedan sí son importantes para obtener la variable de salida. Convierte todas las variables categóricas que quedan a numéricas:
* BusinessTravel
*	Department
*	EducationField
*	Gender
*	JobRole
*	MaritalStatus
*	Attrition

In [13]:
var_cat = ['BusinessTravel', 'Department', 'EducationField', 'Gender', 'JobRole', 'MaritalStatus', 'OverTime', 'Attrition'] # lista variables categóricas
frame_dummies = pd.get_dummies(EmpleadosAttrition[var_cat], drop_first=True) # generación de dummies
EmpleadosAttrition = pd.concat([EmpleadosAttrition, frame_dummies], axis=1) # concatenar frames
EmpleadosAttrition.drop(columns=var_cat, inplace=True) # eliminar originales categóricas

10.	Ahora debes hacer la evaluación de las variables para quedarte con las mejores. Calcula la correlación lineal de cada una de las variables con respecto al Attrition.

In [14]:
matriz_corr = EmpleadosAttrition.corr()
matriz_corr[['Attrition_Yes']]

Unnamed: 0,Attrition_Yes
Age,-0.212121
Education,-0.055531
EnvironmentSatisfaction,-0.124327
JobInvolvement,-0.166785
JobLevel,-0.214266
JobSatisfaction,-0.164957
MonthlyIncome,-0.194936
NumCompaniesWorked,-0.009082
PercentSalaryHike,-0.06088
PerformanceRating,-0.006471


11.	Selecciona solo aquellas variables que tengan una correlación mayor o igual a 0.1, dejándolas en otro frame llamado EmpleadosAttritionFinal. No olvides mantener la variable de salida Attrition; esto es equivalente a borrar las que no cumplen con el límite.

In [15]:
# Identificar variables con correlación >= 0.10
corr_aceptable = matriz_corr[['Attrition_Yes']]
corr_aceptable = corr_aceptable.where(corr_aceptable['Attrition_Yes'].abs() >= 0.10)
corr_aceptable = corr_aceptable.dropna()
corr_aceptable

Unnamed: 0,Attrition_Yes
Age,-0.212121
EnvironmentSatisfaction,-0.124327
JobInvolvement,-0.166785
JobLevel,-0.214266
JobSatisfaction,-0.164957
MonthlyIncome,-0.194936
TotalWorkingYears,-0.213329
YearsInCurrentRole,-0.203918
YearsAtCompany,-0.176001
EducationField_Technical Degree,0.129104


In [16]:
corr_aceptable.index

Index(['Age', 'EnvironmentSatisfaction', 'JobInvolvement', 'JobLevel',
       'JobSatisfaction', 'MonthlyIncome', 'TotalWorkingYears',
       'YearsInCurrentRole', 'YearsAtCompany',
       'EducationField_Technical Degree', 'JobRole_Laboratory Technician',
       'JobRole_Research Director', 'JobRole_Sales Representative',
       'MaritalStatus_Single', 'OverTime_Yes', 'Attrition_Yes'],
      dtype='object')

In [17]:
# Generar nuevo dataframe con las variables filtradas
EmpleadosAttritionFinal = EmpleadosAttrition[['Age', 'EnvironmentSatisfaction', 'JobInvolvement', 'JobLevel',
       'JobSatisfaction', 'MonthlyIncome', 'TotalWorkingYears',
       'YearsInCurrentRole', 'YearsAtCompany',
       'EducationField_Technical Degree', 'JobRole_Laboratory Technician',
       'JobRole_Research Director', 'JobRole_Sales Representative',
       'MaritalStatus_Single', 'OverTime_Yes', 'Attrition_Yes']]

EmpleadosAttritionFinal.head(5)

Unnamed: 0,Age,EnvironmentSatisfaction,JobInvolvement,JobLevel,JobSatisfaction,MonthlyIncome,TotalWorkingYears,YearsInCurrentRole,YearsAtCompany,EducationField_Technical Degree,JobRole_Laboratory Technician,JobRole_Research Director,JobRole_Sales Representative,MaritalStatus_Single,OverTime_Yes,Attrition_Yes
0,50,4,3,4,4,0.864269,32,4,5,False,False,True,False,False,False,False
1,36,2,3,2,2,0.20734,7,2,3,False,False,False,False,False,False,False
2,21,2,3,1,2,0.088062,1,0,1,False,False,False,True,True,False,True
3,52,2,3,3,2,0.497574,18,6,8,False,False,False,False,True,False,False
4,33,2,3,3,3,0.66447,15,6,7,False,False,False,False,False,True,True


12.	Crea una nueva variable llamada EmpleadosAttritionPCA formada por los componentes principales del frame EmpleadosAttritionFinal. Recuerda que el resultado del proceso PCA es un numpy array, por lo que, para hacer referencia a una columna, por ejemplo, la 0, puedes usar la instrucción EmpleadosAttritionPCA[:,0]).

In [18]:
var_num = EmpleadosAttritionFinal[['Age', 'EnvironmentSatisfaction', 'JobInvolvement', 'JobLevel', 'JobSatisfaction', 'MonthlyIncome', 'TotalWorkingYears', 'YearsInCurrentRole', 'YearsAtCompany']] # frame variables numericas

# Importación plataforma
from sklearn.decomposition import PCA

# Creación de instancia de PCA y aplicación
pca = PCA()
pca.fit(var_num)

# Componentes
EmpleadosAttritionPCA  = pca.components_
print(EmpleadosAttritionPCA)

[[ 6.86338516e-01 -2.22098192e-03  3.04445648e-04  7.10740214e-02
   7.84517305e-04  1.58575440e-02  6.38213475e-01  1.53869757e-01
   3.04365701e-01]
 [ 5.95722458e-01  2.45785676e-03  5.32670172e-03 -3.81569203e-02
  -5.50806278e-03 -8.51166873e-03 -2.25313518e-01 -3.82925181e-01
  -6.67924939e-01]
 [-4.16676139e-01 -9.93312660e-03 -1.25864194e-02  6.18503809e-02
  -1.76719730e-02  1.52735196e-02  7.25934957e-01 -3.30434397e-01
  -4.30795090e-01]
 [ 1.79564889e-02  3.43463360e-03  1.50346987e-02  6.36060043e-03
  -3.45271064e-02  2.46086360e-03 -6.56441303e-02 -8.47934744e-01
   5.24307742e-01]
 [ 6.14814412e-05  6.46290152e-01  3.59077206e-02 -5.62988023e-02
  -7.59509840e-01 -7.85704850e-03  5.53845019e-03  2.93527895e-02
  -6.39732413e-03]
 [ 5.66914498e-03 -7.60800244e-01  8.05793463e-03  2.19856294e-02
  -6.47887715e-01  6.87467205e-03 -1.52788994e-02  2.36437007e-02
  -2.08079854e-03]
 [ 3.71169835e-03 -4.49032037e-02 -3.74452276e-01 -9.01567678e-01
   1.31127142e-02 -1.8970298

13.	Agrega el mínimo número de Componentes Principales en columnas del frame EmpleadosAttritionPCA que logren explicar el 80% de la varianza, al frame EmpleadosAttritionFinal. Puedes usar la instrucción assign, columna por columna, llamando a cada una C0, C1, etc., hasta las que vayas a agregar.

In [19]:
# Evaluación de los componentes obtenidos en porcentaje
print(pca.explained_variance_ratio_)

[6.37978639e-01 2.42931896e-01 7.92900479e-02 2.11329530e-02
 6.53984730e-03 6.44201711e-03 2.86385753e-03 2.79005461e-03
 3.06877748e-05]


In [20]:
# Aplicación de los componentes a las variables numéricas originales
EmpleadosAttritionPCA_transformed = pca.transform(var_num)
EmpleadosAttritionPCA_transformed

array([[ 2.02430256e+01,  4.21315927e+00,  1.07253607e+01, ...,
        -1.49320453e-01, -4.47571434e-01, -1.32700372e-01],
       [-6.38721379e+00,  3.69558885e+00, -1.45612492e-01, ...,
        -4.94324517e-01, -1.06737034e-01,  6.23538195e-02],
       [-2.15010088e+01, -1.74749449e+00,  3.20770664e+00, ...,
        -2.06843232e-01, -2.93307471e-01, -3.05278981e-02],
       ...,
       [-6.53755967e-01, -3.41007929e+00, -3.35031506e+00, ...,
        -1.01341249e+00,  1.58859218e-02, -1.13593125e-01],
       [-6.31147201e+00,  7.69495736e+00,  8.73583867e-01, ...,
         2.84553458e-01, -4.07763266e-01, -6.28989219e-02],
       [-5.59418164e+00, -3.52708931e+00, -2.05927298e+00, ...,
         5.25662682e-01, -5.17867743e-01, -3.24285689e-02]])

In [21]:
# Agregar componentes que explican +80% de la varianza
EmpleadosAttritionFinal['Age_PCA'] = EmpleadosAttritionPCA_transformed[:,0]
EmpleadosAttritionFinal['EnvironmentSatisfaction_PCA'] = EmpleadosAttritionPCA_transformed[:,1]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  EmpleadosAttritionFinal['Age_PCA'] = EmpleadosAttritionPCA_transformed[:,0]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  EmpleadosAttritionFinal['EnvironmentSatisfaction_PCA'] = EmpleadosAttritionPCA_transformed[:,1]


In [22]:
# Eliminar columnas numéricas originales no seleccionadas
EmpleadosAttritionFinal.drop(columns=['Age', 'EnvironmentSatisfaction', 'JobInvolvement', 'JobLevel', 'JobSatisfaction', 'MonthlyIncome', 'TotalWorkingYears', 'YearsInCurrentRole', 'YearsAtCompany'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  EmpleadosAttritionFinal.drop(columns=['Age', 'EnvironmentSatisfaction', 'JobInvolvement', 'JobLevel', 'JobSatisfaction', 'MonthlyIncome', 'TotalWorkingYears', 'YearsInCurrentRole', 'YearsAtCompany'], inplace=True)


14.	Guarda el set de datos que has formado y que tienes en EmpleadosAttritionFinal en un archivo CSV llamado EmpleadosAttritionFinal.csv. Las últimas columnas que colocaste quedarán después de la variable Attrition, lo cual no importa, pero si gustas lo puedes arreglar antes de escribir el archivo.

In [23]:
# Reordenar columnas
EmpleadosAttritionFinal = EmpleadosAttritionFinal[['EducationField_Technical Degree', 'JobRole_Laboratory Technician',
       'JobRole_Research Director', 'JobRole_Sales Representative', 'MaritalStatus_Single', 'OverTime_Yes', 'Age_PCA',
       'EnvironmentSatisfaction_PCA', 'Attrition_Yes']]

EmpleadosAttritionFinal.head(5)

Unnamed: 0,EducationField_Technical Degree,JobRole_Laboratory Technician,JobRole_Research Director,JobRole_Sales Representative,MaritalStatus_Single,OverTime_Yes,Age_PCA,EnvironmentSatisfaction_PCA,Attrition_Yes
0,False,False,True,False,False,False,20.243026,4.213159,False
1,False,False,False,False,False,False,-6.387214,3.695589,False
2,False,False,False,True,True,False,-21.501009,-1.747494,True
3,False,False,False,False,True,False,13.827535,5.836747,False
4,False,False,False,False,False,True,-1.428472,-4.145043,True


In [25]:
# Generación del set de datos final en csv
EmpleadosAttritionFinal.to_csv('EmpleadosAttritionFinal.csv', index=False)