<a href="https://colab.research.google.com/github/eTrovamala/Diplomado-Data-Science/blob/main/RetoEmpleados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Reto: Deserción de empleados

## **Objetivo:**

A través de este reto vas a lograr:

* Evaluar las caracteristicas de un conjunto de datos con el fin de ver si son suficientes para la actividad en la que serán usados.
* Crear nuevas características a partir de las existentes, que logren propoorcionar una mayor información para la actividad en la que se usarán.
* Eliminar las características que sean irrelevantes para el uso que se le dará al conjunto de datos.

## **Introducción:**

Una empresa de productos médicos está interesada en atraer y mantener al mejor talento porque sabe que es la clave del éxito para cualquier organización. También toma en cuenta que, si un empleado abandona la empresa, se está provocando una pérdida de tiempo y dinero debido, entre otras cosas, a la inversión en capacitación y a la experiencia acumulada del empleado. Desde luego hay algunas formas de deserción que son inevitables, como cuando un empleado se retira o cambia de ciudad de residencia. Sin embargo, existen algunos factores que se pueden controlar por parte de la empresa con el objetivo de minimizar la deserción al mejorar las condiciones de trabajo. A la empresa le interesa saber cuáles son los factores que hacen que un empleado siga con ellos y cuáles son los que se deben cambiar debido a que provocan que los empleados se vayan.

Aunque la empres sabe que este estudio tiene muchas aristas desea empezar con algo muy simple: determinando si un empleadi abandonará la empresa Attrition o no en un momento dado. Como se trata de un problema de clasificación binaria, lo más probable es que utilicen un modelo de machine learning. La empresa ha logrado recolectar 30 datos de 400 de sus empleados, pero no está segura si ese conjunto de datos sean los correctos para lo que pretende hacer, por lo que decidió contratarte como científico de datos para generar un set de datos adecuado para esta actividad.

## **Instrucciones:**

Después de una revision completa de los datos con los que se cuentan, has decidido escribir un programa en Python Jupyter Notebook llamado RetoEmpleado,ipynb el siguiente plan:

1. Importa las librerias requeridas


In [137]:
from google.colab import drive
drive.mount('/content/gdrive')

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, LabelEncoder, StandardScaler
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest, chi2

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).





---


2. Lee el archivo CSV llamado empleadosRETO.csv y coloa los datos en un frame de Pandas llamado EmpleadosAttrition.

In [138]:
EmpleadosAttrition = pd.read_csv('/content/gdrive/MyDrive/Diplomado Data Science/Machine Learning/Ingeniería de las características/empleadosRETO.csv')

EmpleadosAttrition.shape
EmpleadosAttrition.head()

Unnamed: 0,Age,BusinessTravel,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeNumber,EnvironmentSatisfaction,Gender,...,PercentSalaryHike,PerformanceRating,RelationshipSatisfaction,StandardHours,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsInCurrentRole,YearsSinceLastPromotion,Attrition
0,50,Travel_Rarely,Research & Development,1 km,2,Medical,1,997,4,Male,...,22,4,3,80,32,1,2,4,1,No
1,36,Travel_Rarely,Research & Development,6 km,2,Medical,1,178,2,Male,...,20,4,4,80,7,0,3,2,0,No
2,21,Travel_Rarely,Sales,7 km,1,Marketing,1,1780,2,Male,...,13,3,2,80,1,3,3,0,1,Yes
3,52,Travel_Rarely,Research & Development,7 km,4,Life Sciences,1,1118,2,Male,...,19,3,4,80,18,4,3,6,4,No
4,33,Travel_Rarely,Research & Development,15 km,1,Medical,1,582,2,Male,...,12,3,4,80,15,2,4,6,7,Yes




---


3. Elimina las columnas que, con alta probabilidad (estimada por ti), no tienen relación alguna con la salida. Hay algunas columnas que contienen información que no ayuda a definir el desgaste de un empleado, tal es el caso de las siguiente:

      a. EmployeeCount: número de empleados, todos tienen una 1.

      b. EmployeeNumber: ID del empleado, el cual es único para cada empleado.

      c. Over18: Mayores de edad, todos dices 'y'

      d. StandardHours: horas de trabajo, todos tienen '80'

In [139]:
EmpleadosAttrition = EmpleadosAttrition.drop(columns=['EmployeeCount', 'EmployeeNumber', 'Over18', 'StandardHours'])

EmpleadosAttrition.head()

Unnamed: 0,Age,BusinessTravel,Department,DistanceFromHome,Education,EducationField,EnvironmentSatisfaction,Gender,JobInvolvement,JobLevel,...,OverTime,PercentSalaryHike,PerformanceRating,RelationshipSatisfaction,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsInCurrentRole,YearsSinceLastPromotion,Attrition
0,50,Travel_Rarely,Research & Development,1 km,2,Medical,4,Male,3,4,...,No,22,4,3,32,1,2,4,1,No
1,36,Travel_Rarely,Research & Development,6 km,2,Medical,2,Male,3,2,...,No,20,4,4,7,0,3,2,0,No
2,21,Travel_Rarely,Sales,7 km,1,Marketing,2,Male,3,1,...,No,13,3,2,1,3,3,0,1,Yes
3,52,Travel_Rarely,Research & Development,7 km,4,Life Sciences,2,Male,3,3,...,No,19,3,4,18,4,3,6,4,No
4,33,Travel_Rarely,Research & Development,15 km,1,Medical,2,Male,3,3,...,Yes,12,3,4,15,2,4,6,7,Yes


1. Variables que podrian tener una correlacion **BAJA** pero no nula.

Estas variables pueden tener una relacion no obvia pero posible:

* DistanceFromHome: Trabajadores que viven lejos podrian cansarse y renunciar, indicando que podria haber correlación.

* Education: Nivel educativo podría afectar a la renuncia, no es muy fuerte esta corrrelación pero puede suceder.

* BusinessTravel: Muchos viajes = más desgaste laboral, puede existir correlación.

* Department: Algunos departamentos tienen mayor rotación natural o más estres lo cual puede significar mayores renuncias.

* Gender: Suele tener correlación muy baja pero no cero, mantenerla solo para evaluar.

* MaritalStatus: Los solteros pueden renunciar más que los casado que buscan estabilidad laboral a largo plazo.

2. Variables muy probablemente correlacionadas con Attration

Estas pueden tener un impacto directo en la decisión de quedarse o renunciar:

* JobSatisfaction: la lógica directa nos dice que a menor satisfacción habra una mayor probabilidad de renuncia.

* EnviromentStaisfaction: Si hay un descontento con el ambiente laboral, existira una posible renuncia.

* WorkLifeBalance: Baja conciliación balance entre la vida privada y su trabajo, posible renuncia.

* PercentSalaryHike: Un incremento salarial bajo podría motivar a una renuncia.

* MonthlyIncome: Sueldos muy bajos influencianfuertemente a una renuncia.

* JobInvolvement: Quienes están menos involucrados renuncian más.

* TotalWorkingYears: Mucha o poca experiencia puede influir en la desición si cambiar de trabajo o mantenerse en el puesto.

* YearsInCurrentRole: Relación fuerte ya que se puede sentir una falta de crecimiento si se lleva mucho tiempo en el puesto.

* YearsSinceLastPromotio: Sin promociones mas renuncias

* OverTime: Trabajar muchas horas puede estar relacionado a un mayor desgaste.



---

4. Analiza la infromación proporcionada, si detectaste que no se cuenta con los años que el empleado lleva en la compañia y parece ser un buen dato. Dicha cantidad se puede calcular con la fecha de contratación 'HiringDate'.

---

5. Crea una columna llamada Year y obtén el año de contratación del empleado a partir de su fecha 'HiringDate'. No se te olvide que debe ser un entero

In [140]:
# Ya que las fechas de HiringDate no poseen un mismo formato de fecha, se extraerá simplemente las ultimas cuatro cifras de cada fila (año)

EmpleadosAttrition['Year'] = EmpleadosAttrition['HiringDate'].str[-4:].astype(int)
EmpleadosAttrition['Year']

Unnamed: 0,Year
0,2013
1,2015
2,2017
3,2010
4,2011
...,...
395,2013
396,2016
397,2008
398,2018




---

6. Crea una columna llamada YearsAtCompany que contenga los años que el emleado lleva en la compañia hasta el año 2018. Para su calculo, usa las variables Year que se acaba de crear.

In [141]:
EmpleadosAttrition['YearsAtCompany'] = 2018 - EmpleadosAttrition['Year']
EmpleadosAttrition['YearsAtCompany']

Unnamed: 0,YearsAtCompany
0,5
1,3
2,1
3,8
4,7
...,...
395,5
396,2
397,10
398,0




---

7. La DistanceFromHome esá dada en kilómetros, pero tiene las letras 'km' al final y asíno puede ser la entrada.

In [142]:
# Se convierte toda la columna a texto antes de hacer la limpieza
EmpleadosAttrition['DistanceFromHome'] = EmpleadosAttrition['DistanceFromHome'].astype(str)

# Busca en cada valor de la columna cualquier número, incluyendo decimales, ignora texto de cualquier tipo y solo devuelve el numero encontrado
EmpleadosAttrition['DistanceFromHome'] = EmpleadosAttrition['DistanceFromHome'].str.extract(r'(\d+\.?\d*)')

# Convertir el número encontrado de texto (string) a tipo numérico (float)
EmpleadosAttrition['DistanceFromHome'] = EmpleadosAttrition['DistanceFromHome'].astype(float)

EmpleadosAttrition['DistanceFromHome']

Unnamed: 0,DistanceFromHome
0,1.0
1,6.0
2,7.0
3,7.0
4,15.0
...,...
395,14.0
396,20.0
397,11.0
398,4.0




---

8. Renombra la variable DistanceFromHome a DsitanceFromHome_km

Para convertir las columnas ctagóricas a valores boolenaos se debe de hacer lo siguiente.

In [143]:
EmpleadosAttrition.rename(columns={'DistanceFromHome':'DistanceFromHome_km'}, inplace=True)
EmpleadosAttrition['DistanceFromHome_km']

Unnamed: 0,DistanceFromHome_km
0,1.0
1,6.0
2,7.0
3,7.0
4,15.0
...,...
395,14.0
396,20.0
397,11.0
398,4.0




---

9. Crea una nueva variable DistanceFromHome que sea entera, es decir, solo con número.



In [144]:
# Convertir el número encontrado de tipo numérico (float) a entero (int)
EmpleadosAttrition['DistanceFromHome'] = EmpleadosAttrition['DistanceFromHome_km'].astype(int)

EmpleadosAttrition['DistanceFromHome']

Unnamed: 0,DistanceFromHome
0,1
1,6
2,7
3,7
4,15
...,...
395,14
396,20
397,11
398,4




---

10. Borra las columnas Year, HiringDate y DistanceFromHome_km

In [145]:
EmpleadosAttrition.drop(columns=['Year', 'HiringDate'], inplace=True)



---

11. Aprovechando los ajustes que se están haciendo, la empresa desea saber si todos los departamentos tienen un ingreso promedio similar. Genera un nuevo Frame llamado SueldoPromedioDept que contenga en MonthlyIncome promedio por departameto de los empleados y colócalo en una variable llamada SueldoPromedio. Esta tabla solo es informativa, no la vas a utilizar en el set de datos que estás construyendo.

In [146]:
# Se vuelve a cargar el DataFrame para trabajar con los datos solicitados y crudos extrayendo solamente las columnas que nos interesan
SueldoPromedioDept = pd.read_csv('/content/gdrive/MyDrive/Diplomado Data Science/Machine Learning/Ingeniería de las características/empleadosRETO.csv', usecols=['Department', 'MonthlyIncome'])

SueldoPromedioDept = SueldoPromedioDept.groupby('Department')[['MonthlyIncome']].mean()
SueldoPromedioDept.rename(columns={'MonthlyIncome':'SueldoPromedio'}, inplace=True)

SueldoPromedioDept

Unnamed: 0_level_0,SueldoPromedio
Department,Unnamed: 1_level_1
Human Resources,6239.888889
Research & Development,6804.149813
Sales,7188.25




---

12. La variable MonthlyIncome tiene un valor numérico muy grande comparada con las otras variables. Escala dicha variable para que tenga un valor entre 0 y 1.

In [147]:
# Para escalamiento que vaya de 0 a 1 debemos de emplear el escalamiento por Min-Max

EmpleadosAttrition['MonthlyIncome'] = (EmpleadosAttrition['MonthlyIncome'] - EmpleadosAttrition['MonthlyIncome'].min()) / (EmpleadosAttrition['MonthlyIncome'].max() - EmpleadosAttrition['MonthlyIncome'].min())

EmpleadosAttrition['MonthlyIncome']

Unnamed: 0,MonthlyIncome
0,0.864269
1,0.207340
2,0.088062
3,0.497574
4,0.664470
...,...
395,0.075248
396,0.187197
397,0.589327
398,0.121124


13. Todo parece indicar que las variables categóricas que quedan sí son importantes para obtener la variable de salida. Convierte todas las variables categóricas que quedan a numéricas: BusineesTravel, Department, EducationField, Gender, JobRole, MaritalStatus, Attrition

In [148]:
# Convertir unicamente Attrition a 0/1, manteniendola como variable de respuesta.
EmpleadosAttrition['Attrition'] = EmpleadosAttrition['Attrition'].astype(str).str.strip().map({'Yes': 1, 'No': 0})

# Las demas columnas categóricas obtenerlas con get_dummies
categoricas_entrada = ['BusinessTravel', 'Department', 'EducationField', 'Gender', 'JobRole', 'MaritalStatus', 'OverTime']
EmpleadosAttrition = pd.get_dummies(EmpleadosAttrition, columns=categoricas_entrada, drop_first=False)

EmpleadosAttrition

Unnamed: 0,Age,DistanceFromHome_km,Education,EnvironmentSatisfaction,JobInvolvement,JobLevel,JobSatisfaction,MonthlyIncome,NumCompaniesWorked,PercentSalaryHike,...,JobRole_Manufacturing Director,JobRole_Research Director,JobRole_Research Scientist,JobRole_Sales Executive,JobRole_Sales Representative,MaritalStatus_Divorced,MaritalStatus_Married,MaritalStatus_Single,OverTime_No,OverTime_Yes
0,50,1.0,2,4,3,4,4,0.864269,9,22,...,False,True,False,False,False,True,False,False,True,False
1,36,6.0,2,2,3,2,2,0.207340,6,20,...,True,False,False,False,False,True,False,False,True,False
2,21,7.0,1,2,3,1,2,0.088062,1,13,...,False,False,False,False,True,False,False,True,True,False
3,52,7.0,4,2,3,3,2,0.497574,7,19,...,False,False,False,False,False,False,False,True,True,False
4,33,15.0,1,2,3,3,3,0.664470,7,12,...,False,False,False,False,False,False,True,False,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,33,14.0,3,3,3,1,4,0.075248,5,13,...,False,False,False,False,False,False,True,False,False,True
396,31,20.0,3,2,1,2,3,0.187197,3,11,...,False,False,False,True,False,False,True,False,False,True
397,37,11.0,3,2,3,3,4,0.589327,1,14,...,False,True,False,False,False,True,False,False,False,True
398,38,4.0,2,4,3,1,3,0.121124,7,19,...,False,False,False,False,False,False,True,False,True,False


14. Ahora debes hacer la evaluación de las variables para quedarte con las mejores. Calcula la correlación lineal de cada una de las variables con respecto al Attrition.

In [149]:
# Para especificar e indicar que solo nos muestre la correlación de la variable de salida con las de entrada se realiza el siguiente código.
EmpleadosAttrition.corr()['Attrition'].sort_values(ascending=False)

Unnamed: 0,Attrition
Attrition,1.0
OverTime_Yes,0.324777
MaritalStatus_Single,0.205849
JobRole_Sales Representative,0.191294
EducationField_Technical Degree,0.129104
JobRole_Laboratory Technician,0.125264
Department_Sales,0.066116
DistanceFromHome,0.052732
DistanceFromHome_km,0.052732
EducationField_Human Resources,0.043404


15. Selecciona solo aquellas variables que tengan una correlación mayor o igual a 0.1, dejandolas en otro frame llamado EmpleadosAttritionFinal. No olvides mantener la variable de salida Attrition, esto es equivalente a borrar las que no cumplen con el límite.

In [150]:
# Volvemos a calcular la correlación con respecto a la variable de salida pero los dejamos en valores absolutos
cor = EmpleadosAttrition.corr()['Attrition'].abs()

# Identificar las columnas que deben de eliminarse segun el limite marcado
col_baja_corr = cor[cor <= 0.1].index.tolist()

# Eliminar las columnas con baja correlación
EmpleadosAttritionFinal = EmpleadosAttrition.drop(columns=col_baja_corr)

EmpleadosAttritionFinal

Unnamed: 0,Age,EnvironmentSatisfaction,JobInvolvement,JobLevel,JobSatisfaction,MonthlyIncome,TotalWorkingYears,YearsInCurrentRole,Attrition,YearsAtCompany,BusinessTravel_Non-Travel,EducationField_Technical Degree,JobRole_Healthcare Representative,JobRole_Laboratory Technician,JobRole_Research Director,JobRole_Sales Representative,MaritalStatus_Divorced,MaritalStatus_Single,OverTime_No,OverTime_Yes
0,50,4,3,4,4,0.864269,32,4,0,5,False,False,False,False,True,False,True,False,True,False
1,36,2,3,2,2,0.207340,7,2,0,3,False,False,False,False,False,False,True,False,True,False
2,21,2,3,1,2,0.088062,1,0,1,1,False,False,False,False,False,True,False,True,True,False
3,52,2,3,3,2,0.497574,18,6,0,8,False,False,True,False,False,False,False,True,True,False
4,33,2,3,3,3,0.664470,15,6,1,7,False,False,False,False,False,False,False,False,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,33,3,3,1,4,0.075248,8,4,1,5,False,False,False,True,False,False,False,False,False,True
396,31,2,1,2,3,0.187197,4,2,1,2,False,False,False,False,False,False,False,False,False,True
397,37,2,3,3,4,0.589327,10,8,0,10,False,False,False,False,True,False,True,False,False,True
398,38,4,3,1,3,0.121124,7,0,0,0,False,False,False,True,False,False,False,False,True,False


16. Crea una nueva variable llamada EmpleadosAttritionPCA formada por los componentes principales del frame EmpleadosAttritionFinal. Recuerda que el resultado del proceso PCA es un numpy array, por lo que, para hacer referencia a instrucción EmpleadosAttritionPCA[:,0].

In [151]:
pca = PCA()
EmpleadosAttritionPCA = pca.fit_transform(EmpleadosAttritionFinal.drop(columns=['Attrition']))

EmpleadosAttritionPCA[:,0]

array([ 20.25263074,  -6.38341375, -21.50701746,  13.82691306,
        -1.42887529,  21.80377034, -18.21341374,  -7.07293616,
         5.66560771, -11.01724984,  -3.99309996,  16.93714412,
       -10.10337451,   3.95664277,  15.56643247,  -0.345523  ,
        -6.76506212,   3.90832149,  11.91772729,  20.9578247 ,
        -4.93013407,   4.73534765,  -7.03755353, -20.44160871,
         4.9093397 ,  -1.17589312, -22.19597583, -10.98535909,
        17.99434782,   1.33698928,  -6.29687113,  -0.84819927,
        20.93586473,  -4.16301834,  -5.67510582,  12.66165458,
         1.62458601,  25.06853622,  -5.26582446,  -0.68585746,
        12.0055761 ,  -5.01180152,   5.81602128,  -7.70803149,
        -4.63989853,  19.48683932,  -3.3998381 ,   6.0721711 ,
         3.53785746,  -7.38310391,  -4.28126166,  10.70259787,
        13.07759095,  -9.45668368,   0.55885009, -12.10860431,
        -4.07994316,  -7.76735621,  12.33108428,   2.28557016,
         2.7190855 ,  -4.11791815,   4.87789554, -13.53

17. Agrega el mínimo número de Componentes Principales en columnas del frame EmpleadosAttritioPCA que logren explicar el 80% de la varianza, al frame EmpleadosAttritionFinal. Puedes usar la instrucción assign, columna por clumna, llamando a cada una C0, C1, etc., hasta las que vayas a agregar.

In [152]:
# Para obtener la varianza explicada de cada componente se realiza el codigo
pca.explained_variance_ratio_

array([6.33843291e-01, 2.41330822e-01, 7.87947422e-02, 2.09999910e-02,
       6.51862472e-03, 6.41086631e-03, 2.98272700e-03, 2.79298894e-03,
       2.02323657e-03, 1.31235697e-03, 6.67525642e-04, 6.37421467e-04,
       4.65897115e-04, 4.17066796e-04, 2.83538673e-04, 2.74313755e-04,
       2.18781694e-04, 2.58088649e-05, 0.00000000e+00])

In [153]:
# Para identificar cuántos componentes se requieren para llegar al 80%
varianza_acumulada = np.cumsum(pca.explained_variance_ratio_)
print("Varianza Acumulada por Componente:\n", varianza_acumulada)

# Para obtener automáticamente el mínimo número de CPs que llegue al 80%
n_componentes = np.argmax(varianza_acumulada >= 0.80) + 1
print('Número de comonentes necesarios:', n_componentes)

Varianza Acumulada por Componente:
 [0.63384329 0.87517411 0.95396885 0.97496885 0.98148747 0.98789834
 0.99088106 0.99367405 0.99569729 0.99700965 0.99767717 0.99831459
 0.99878049 0.99919756 0.9994811  0.99975541 0.99997419 1.
 1.        ]
Número de comonentes necesarios: 2


In [154]:
# Para ejecutar el PCA usando solo ese número de componentes

pca_final = PCA(n_components=n_componentes)
pca_data = pca_final.fit_transform(EmpleadosAttritionFinal.drop(columns=['Attrition']))

In [155]:
# Ahora se cera un dataframe llamado EmpleadosAttrionPCA

columnas_pca = [f'C{i}' for i in range(n_componentes)]

EmpleadosAttritionPCA = pd.DataFrame(pca_data, columns=columnas_pca, index=EmpleadosAttritionFinal.index)

In [156]:
# Agregar los componentes principales al frame EmpleadosAttritionFinal

EmpleadosAttritionFinal = pd.concat([EmpleadosAttritionFinal, EmpleadosAttritionPCA], axis=1)

EmpleadosAttritionFinal

Unnamed: 0,Age,EnvironmentSatisfaction,JobInvolvement,JobLevel,JobSatisfaction,MonthlyIncome,TotalWorkingYears,YearsInCurrentRole,Attrition,YearsAtCompany,...,JobRole_Healthcare Representative,JobRole_Laboratory Technician,JobRole_Research Director,JobRole_Sales Representative,MaritalStatus_Divorced,MaritalStatus_Single,OverTime_No,OverTime_Yes,C0,C1
0,50,4,3,4,4,0.864269,32,4,0,5,...,False,False,True,False,True,False,True,False,20.252631,-4.207105
1,36,2,3,2,2,0.207340,7,2,0,3,...,False,False,False,False,True,False,True,False,-6.383414,-3.691986
2,21,2,3,1,2,0.088062,1,0,1,1,...,False,False,False,True,False,True,True,False,-21.507017,1.745627
3,52,2,3,3,2,0.497574,18,6,0,8,...,True,False,False,False,False,True,True,False,13.826913,-5.844031
4,33,2,3,3,3,0.664470,15,6,1,7,...,False,False,False,False,False,False,False,True,-1.428875,4.147262
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,33,3,3,1,4,0.075248,8,4,1,5,...,False,True,False,False,False,False,False,True,-6.971985,0.387091
396,31,2,1,2,3,0.187197,4,2,1,2,...,False,False,False,False,False,False,False,True,-12.037727,-2.041256
397,37,2,3,3,4,0.589327,10,8,0,10,...,False,False,True,False,True,False,False,True,-0.645601,3.420973
398,38,4,3,1,3,0.121124,7,0,0,0,...,False,True,False,False,False,False,True,False,-6.314809,-7.698468


18. Guarda el set de datos que has formado y que tienes en empleadosAttritionFinal en un archivo CSV llamado EmpleadosAttritionFinal.csv. Las últimas columnas que colocaste quedarán después de la variable Attrition, lo cual no importa, pero si gustas lo puedes arreglar antes de escribir el archivo.

In [158]:
cols = [c for c in EmpleadosAttritionFinal.columns if c != "Attrition"] + ["Attrition"]
EmpleadosAttritionFinal = EmpleadosAttritionFinal[cols]

EmpleadosAttritionFinal.to_csv('EmpleadosAttrationFinal.csv', index=False)

In [160]:
from google.colab import files
# Correcting the filename to match the one saved in the previous cell
files.download("EmpleadosAttrationFinal.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>