# TFM1 Carga y Tratamiento del Dataset


**Introducción**

En este primer NoteBook cargaremos un Dataset base para adaptarlo a las necesidades y objetivos del proyecto. 
Este Dataset (WA_Fn-UseC_-HR-Employee-Attrition.csv) fué obtenido de la página https://www.kaggle.com/. 
Se trata de un Dataset de datos ficticios creado por científicos de datos de IBM.
Sobre este Dataset realizaremos una serie de modificaciones para que se adapte a las casuística de una empresa española del sector TIC, dado que el Dataset original esta muy enfocado a las características de una empresa Norteamericana.

**Entorno de trabajo**

El entorno de trabajo para el desarrollo del código y elaboración del proyecto ha sido la plataforma google colaboratory.

Tras la finalización de todos los desarrollos, el código y su correcto funcionamiento, se ha validado en el entorno de la maquina virtual facilitado por la escuela Kschool (Jupyter-Notebook).

Por este motivo, el código reflejado en este proyecto, por defecto, será el utilizado en la máquina virtual. Aún así, se dejará comentado el código utilizado en la fase de desarrollo desde la plataforma google colaboratory.

In [1]:
# Librerias utilizadas
import pandas as pd


In [2]:
# Carga del Fichero desde GoogleDrive
  #  DataSetRH.csv = pd.read_csv("https://drive.google.com/open?id=18Q1WHOedeeJa0I4cyQFh2XEdD5Kk-ZOH")
  #  data1.head()

# # Carga del Data Set google colaboratory
  # import io
  #from google.colab import files
  #uploaded = files.upload()

  #datasetRH = pd.read_csv(io.StringIO(uploaded['DataSetRH.csv'].decode('utf-8')))
  #datasetRH.head()

In [3]:
# Carga del Dataset base desde la maquina virtual
datasetRH = pd.read_csv("./Data/DataSetRH.csv")

# Obtenemos una muestra de 5 registros
datasetRH.head()

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeNumber,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,...,1,80,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,...,4,80,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,...,2,80,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,1,5,...,3,80,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,1,7,...,4,80,1,6,3,3,2,2,2,2


In [4]:
# Comprobamos el número de filas y columnas
datasetRH.shape

(1470, 35)

In [5]:
# Comprobamos la estructura del Data Set y que no hay ningún valor nulo o 
# NaN dentro del Dataset
datasetRH.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 35 columns):
Age                         1470 non-null int64
Attrition                   1470 non-null object
BusinessTravel              1470 non-null object
DailyRate                   1470 non-null int64
Department                  1470 non-null object
DistanceFromHome            1470 non-null int64
Education                   1470 non-null int64
EducationField              1470 non-null object
EmployeeCount               1470 non-null int64
EmployeeNumber              1470 non-null int64
EnvironmentSatisfaction     1470 non-null int64
Gender                      1470 non-null object
HourlyRate                  1470 non-null int64
JobInvolvement              1470 non-null int64
JobLevel                    1470 non-null int64
JobRole                     1470 non-null object
JobSatisfaction             1470 non-null int64
MaritalStatus               1470 non-null object
MonthlyIncome         

In [6]:
# Obtenemos la descripción de los campos de las columnas
datasetRH.columns

Index(['Age', 'Attrition', 'BusinessTravel', 'DailyRate', 'Department',
       'DistanceFromHome', 'Education', 'EducationField', 'EmployeeCount',
       'EmployeeNumber', 'EnvironmentSatisfaction', 'Gender', 'HourlyRate',
       'JobInvolvement', 'JobLevel', 'JobRole', 'JobSatisfaction',
       'MaritalStatus', 'MonthlyIncome', 'MonthlyRate', 'NumCompaniesWorked',
       'Over18', 'OverTime', 'PercentSalaryHike', 'PerformanceRating',
       'RelationshipSatisfaction', 'StandardHours', 'StockOptionLevel',
       'TotalWorkingYears', 'TrainingTimesLastYear', 'WorkLifeBalance',
       'YearsAtCompany', 'YearsInCurrentRole', 'YearsSinceLastPromotion',
       'YearsWithCurrManager'],
      dtype='object')

**Comentario:** En total, tenemos 34 características que incluyen tanto las características categóricas como las numéricas. La variable objetivo es el 'Attrition' (Abandono) del empleado, que puede ser Yes o No. 


**Comentario:**  Con el fin de poder realizar una mejor comprensión en la fase de análisis, se modificarán los nombres de las columnas para adaptarlas a la terminología española.

In [7]:
# Renombramos los nombres de las  columnas para adaptarlas 
# a los términos del entorno laboral español

datasetRH.rename(columns=
 {'Age':'Edad','Attrition':'Abandono', 
  'BusinessTravel':'Frecuencia_Viajes','DailyRate':'Tarifa_Diaria',
  'Department':'Departamento','DistanceFromHome':'Distancia_Casa',
  'Education':'Titulacion','EducationField':'Especializacion',
  'EmployeeNumber':'Id_empleado',
  'EnvironmentSatisfaction':'Satisfaccion_General','Gender':'Genero',
  'HourlyRate':'Tarifa_hora','MonthlyRate':'Tarifa_mes',
  'JobInvolvement':'ParticipacionLaboral','JobLevel':'Puesto',
  'JobRole':'Rol_laboral','JobSatisfaction':'Satisfaccion_Laboral','MaritalStatus':'Estado','MonthlyIncome':'Ingresos_mensuales',                      
  'NumCompaniesWorked':'Empleos_anteriores','OverTime':'Horas-extras',
  'PercentSalaryHike':'Porcentaje_aumento_salario',
  'PerformanceRating':'Calificacion_Desempeño',
  'RelationshipSatisfaction':'Satisfaccion_Personal',
  'StockOptionLevel':'N_Reparto_acciones',
  'TotalWorkingYears':'Años_trabajados', 
  'TrainingTimesLastYear':'Formacion_año_anterior',
  'WorkLifeBalance':'Conciliacion-Laboral-Personal',
  'YearsAtCompany':'Antiguedad_empresa',
  'YearsInCurrentRole':'Antiguedad_puesto',
  'YearsSinceLastPromotion':'Años_sin_promocion', 
  'YearsWithCurrManager':'Años_Jefe_actual'}, inplace=True)


In [8]:
# Comprobamos los cambios realizados
datasetRH.head()

Unnamed: 0,Edad,Abandono,Frecuencia_Viajes,Tarifa_Diaria,Departamento,Distancia_Casa,Titulacion,Especializacion,EmployeeCount,Id_empleado,...,Satisfaccion_Personal,StandardHours,N_Reparto_acciones,Años_trabajados,Formacion_año_anterior,Conciliacion-Laboral-Personal,Antiguedad_empresa,Antiguedad_puesto,Años_sin_promocion,Años_Jefe_actual
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,...,1,80,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,...,4,80,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,...,2,80,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,1,5,...,3,80,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,1,7,...,4,80,1,6,3,3,2,2,2,2


In [9]:
# Eliminados las 3 columnas que no son interesantes para el estudio

datasetRH = datasetRH.drop('EmployeeCount', 1) # Siempre tiene el valor 1
datasetRH = datasetRH.drop('StandardHours', 1) # Siempre tiene el valor 80
datasetRH = datasetRH.drop('Over18', 1) # Todos son mayores de 18 años 

# Comporbamos los resultados
datasetRH.head()

Unnamed: 0,Edad,Abandono,Frecuencia_Viajes,Tarifa_Diaria,Departamento,Distancia_Casa,Titulacion,Especializacion,Id_empleado,Satisfaccion_General,...,Calificacion_Desempeño,Satisfaccion_Personal,N_Reparto_acciones,Años_trabajados,Formacion_año_anterior,Conciliacion-Laboral-Personal,Antiguedad_empresa,Antiguedad_puesto,Años_sin_promocion,Años_Jefe_actual
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,2,...,3,1,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,2,3,...,4,4,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,4,4,...,3,2,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,5,4,...,3,3,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,7,1,...,3,4,1,6,3,3,2,2,2,2


In [10]:
# Ordenamos las columnas por grupos Datos Personales, Laborales 
# y encuestas/resultados
# Aprovechamos a pasar los valores del dataset datasetRH a datasetRH2 
# y diferenciarlo del original

datasetRH2 = pd.DataFrame(datasetRH,columns=[
    'Edad','Distancia_Casa','Genero','Estado',
    'Id_empleado','Titulacion','Especializacion',
    'Puesto','Departamento','Rol_laboral','Antiguedad_empresa',
    'Antiguedad_puesto','Frecuencia_Viajes','Ingresos_mensuales',
    'Tarifa_hora','Tarifa_Mes','Tarifa_Diaria','Horas-extras',
    'Porcentaje_aumento_salario','N_Reparto_acciones','Años_trabajados',
    'Empleos_anteriores','Formacion_año_anterior','Años_sin_promocion',
    'Años_Jefe_actual','ParticipacionLaboral',
    'Conciliacion-Laboral-Personal','Calificacion_Desempeño',
    'Satisfaccion_General','Satisfaccion_Personal','Satisfaccion_Laboral',
    'Abandono'])

# Comprobamos los resultados
datasetRH2.head()

Unnamed: 0,Edad,Distancia_Casa,Genero,Estado,Id_empleado,Titulacion,Especializacion,Puesto,Departamento,Rol_laboral,...,Formacion_año_anterior,Años_sin_promocion,Años_Jefe_actual,ParticipacionLaboral,Conciliacion-Laboral-Personal,Calificacion_Desempeño,Satisfaccion_General,Satisfaccion_Personal,Satisfaccion_Laboral,Abandono
0,41,1,Female,Single,1,2,Life Sciences,2,Sales,Sales Executive,...,0,0,5,3,1,3,2,1,4,Yes
1,49,8,Male,Married,2,1,Life Sciences,2,Research & Development,Research Scientist,...,3,1,7,2,3,4,3,4,2,No
2,37,2,Male,Single,4,2,Other,1,Research & Development,Laboratory Technician,...,3,0,0,2,3,3,4,2,3,Yes
3,33,3,Female,Married,5,4,Life Sciences,1,Research & Development,Research Scientist,...,3,3,0,3,3,3,4,3,3,No
4,27,2,Male,Married,7,1,Medical,1,Research & Development,Laboratory Technician,...,3,2,2,3,3,3,1,4,2,No


In [11]:
# Actualizamos los valores de las columnas con el fin de adaptarlos 
# a las necesidades del proyecto

datasetRH2.replace({'Abandono' : "Yes"}, "Si", inplace=True)
datasetRH2.replace({'Genero': {'Female': "Mujer", 'Male': "Hombre"}},  inplace = True)
datasetRH2.replace({'Titulacion': {1: "FP", 2: "Tecnico",3: "Superior", 4: "Master",5: "Doctor"}},  inplace = True)
datasetRH2.replace({'Estado': {'Single': "Soltero", 'Married': "Casado", 'Divorced': "Divorciado"}},  inplace = True)
datasetRH2.replace({'Especializacion': {'Life Sciences': "Fisicas", 'Other': "Otros", 'Technical Degree': "Ingeniero", 'Human Resources': "Recursos Humanos",'Medical': "Informatica"}},  inplace = True)
datasetRH2.replace({'Departamento': {'Sales': "Ventas", 'Research & Development': "Operaciones & Desarrollo",'Human Resources': "Recursos Humanos"}},  inplace = True)
datasetRH2.replace({'Frecuencia_Viajes': {'Travel_Rarely': "Muy poco", 'Non-Travel': "No viaja",'Travel_Frequently': "Frecuentemente"}},  inplace = True)
datasetRH2.replace({'Rol_laboral': {'Human Resources': "Tecnico RRHH", 'Healthcare Representative': "Consultor",'Laboratory Technician': "Comercial",'Manager': "Desarrollador", 'Manufacturing Director': "Ingeniero",
                                    'Research Director': "Otros", 'Research Scientist': "Consultor",'Sales Executive': "Comercial",'Sales Representative': "Comercial"}},  inplace = True)
datasetRH2.replace({'ParticipacionLaboral': {1: "Baja", 2: "Media",3: "Alta", 4: "Muy Alta"}},  inplace = True)
datasetRH2.replace({'Conciliacion-Laboral-Personal': {1: "Mala", 2: "Buena",3: "Muy Buena", 4: "Optima"}},  inplace = True)
datasetRH2.replace({'Calificacion_Desempeño': {1: "Baja", 2: "Buena",3: "Excelente", 4: "Sobresaliente"}},  inplace = True)
datasetRH2.replace({'Satisfaccion_General': {1: "Baja", 2: "Media",3: "Alta", 4: "Muy Alta"}},  inplace = True)
datasetRH2.replace({'Satisfaccion_Personal': {1: "Bajo", 2: "Media",3: "Alta", 4: "Muy Alta"}},  inplace = True)
datasetRH2.replace({'Satisfaccion_Laboral': {1: "Baja", 2: "Media",3: "Alta", 4: "Muy Alta"}},  inplace = True)

#Comporbamos los resultados
datasetRH2.head()

Unnamed: 0,Edad,Distancia_Casa,Genero,Estado,Id_empleado,Titulacion,Especializacion,Puesto,Departamento,Rol_laboral,...,Formacion_año_anterior,Años_sin_promocion,Años_Jefe_actual,ParticipacionLaboral,Conciliacion-Laboral-Personal,Calificacion_Desempeño,Satisfaccion_General,Satisfaccion_Personal,Satisfaccion_Laboral,Abandono
0,41,1,Mujer,Soltero,1,Tecnico,Fisicas,2,Ventas,Comercial,...,0,0,5,Alta,Mala,Excelente,Media,Bajo,Muy Alta,Si
1,49,8,Hombre,Casado,2,FP,Fisicas,2,Operaciones & Desarrollo,Consultor,...,3,1,7,Media,Muy Buena,Sobresaliente,Alta,Muy Alta,Media,No
2,37,2,Hombre,Soltero,4,Tecnico,Otros,1,Operaciones & Desarrollo,Comercial,...,3,0,0,Media,Muy Buena,Excelente,Muy Alta,Media,Alta,Si
3,33,3,Mujer,Casado,5,Master,Fisicas,1,Operaciones & Desarrollo,Consultor,...,3,3,0,Alta,Muy Buena,Excelente,Muy Alta,Alta,Alta,No
4,27,2,Hombre,Casado,7,FP,Informatica,1,Operaciones & Desarrollo,Comercial,...,3,2,2,Alta,Muy Buena,Excelente,Baja,Muy Alta,Media,No


In [12]:
# Descargamos el fichero tratado en este notebook, 
# con el fin de seguir el tratamiento en otros notebook. 
# Se guarda el fichero datasetRH2.csv en el directorio TFM/Data

datasetRH2.to_csv('./Data/DatasetRH2.csv')

**Comentario** Tras obtener el fichero DatasetRH2.csv, analizamos el Dataset y detectamos que ciertos valores de dicho Dataset están muy enfocados a una empresa americana muy orientada al area comercial. 
Nuestro propósito es obtener un Dataset con datos de los empleados de una empresa TIC española. Por este motivo se han modificado manualmente ciertos valores del fichero DatasetRH2.csv, para que se ajusten mas a la realidad de una empresa TIC española.
Volvemos a cargar el nuevo Dataset tratado "DataSetRH3_tm.csv" para comprobar que la estructura y formato de los datos es la correcta. 
A partir de este momento, el Dataset que utilizaremos para el analisis será el DataSetRH3_tm.csv.

In [13]:
# Carga del Dataset definitivo
datasetRH3 = pd.read_csv("./Data/DataSetRH3_tm.csv", delimiter=";")
# Obtenemos una muestra de 5 registros
datasetRH3.head()

Unnamed: 0,Edad,Distancia_Casa,Genero,Estado,Id_empleado,Titulacion,Especializacion,Puesto,Departamento,Rol_laboral,...,Formacion_año_anterior,Años_sin_promocion,Años_Jefe_actual,ParticipacionLaboral,Conciliacion-Laboral-Personal,Calificacion_Desempeño,Satisfaccion_General,Satisfaccion_Personal,Satisfaccion_Laboral,Abandono
0,41,1,Mujer,Soltero,1,Tecnico,Fisicas,Tecnico,Operaciones & Desarrollo,Tecnico,...,0,0,5,Alta,Mala,Excelente,Media,Bajo,Muy Alta,Si
1,49,8,Hombre,Casado,2,FP,Mod. Informatica,Tecnico,Operaciones & Desarrollo,Consultor,...,3,1,7,Media,Muy Buena,Sobresaliente,Alta,Muy Alta,Media,No
2,37,2,Hombre,Soltero,4,Tecnico,Otros,Tecnico,Operaciones & Desarrollo,Analista-Prog,...,3,0,0,Media,Muy Buena,Excelente,Muy Alta,Media,Alta,Si
3,33,3,Mujer,Casado,5,Master,Fisicas,Tecnico,Operaciones & Desarrollo,Tecnico,...,3,3,0,Alta,Muy Buena,Excelente,Muy Alta,Alta,Alta,No
4,27,2,Hombre,Casado,7,FP,Mod. Informatica,Tecnico,Operaciones & Desarrollo,Tecnico,...,3,2,2,Alta,Muy Buena,Excelente,Baja,Muy Alta,Media,No


In [14]:
# Comprobamos que la estructura de los datos del Dataset es correcta y 
# que no existan valores nulos

datasetRH3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 32 columns):
Edad                             1470 non-null int64
Distancia_Casa                   1470 non-null int64
Genero                           1470 non-null object
Estado                           1470 non-null object
Id_empleado                      1470 non-null int64
Titulacion                       1470 non-null object
Especializacion                  1470 non-null object
Puesto                           1470 non-null object
Departamento                     1470 non-null object
Rol_laboral                      1470 non-null object
Antiguedad_empresa               1470 non-null int64
Antiguedad_puesto                1470 non-null int64
Frecuencia_Viajes                1470 non-null object
Ingresos_mensuales               1470 non-null int64
Tarifa_hora                      1470 non-null int64
Tarifa_Mes                       1470 non-null int64
Tarifa_Diaria                    1470

**Comentario** 

El Dataset definitivo que se utilizará en el resto de tratamientos del proyecto será el "DataSetRH3_tm.csv".