# Práctica de modelado de decisiones
España Tzec Jesús Manuel

Tenemo el siguiente conjunto de datos sobre los atributos de empleados de aun compañía y buscamos analizar la rotación de empleados. Primero cargamos el conjunto de datos y observamos los primeros datos.

In [1]:
dat <- read.csv('HR.csv')
head(dat)

S,LPE,NP,ANH,TIC,Newborn,left
0.38,0.53,2,157,3,0,1
0.8,0.86,5,262,6,0,1
0.11,0.88,7,272,4,0,1
0.72,0.87,5,223,5,0,1
0.37,0.52,2,159,3,0,1
0.41,0.5,2,153,3,0,1


Utilizamos la regresión logística que nos ayuda para crear un modelo para predecir este fenómeno. Para eo utilizaremos la variables S (satisfación), LPE (evaluación del último proyecto), NP (número de proyectos realizados por el empleado en el último año), ANH (promedo de horas trabajadas semanalmente en el último año), TIC (el empleado ha sido padre/madre en el último año) como variables predictoras.

In [2]:
reg <- glm(left ~ S+LPE+NP+ANH+TIC+Newborn, data=dat, family="binomial")
summary(reg)


Call:
glm(formula = left ~ S + LPE + NP + ANH + TIC + Newborn, family = "binomial", 
    data = dat)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.1727  -0.5410  -0.3535  -0.1994   3.0949  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.2412448  0.1601334  -7.751 9.09e-15 ***
S           -3.8163201  0.1207448 -31.607  < 2e-16 ***
LPE          0.5044011  0.1809102   2.788   0.0053 ** 
NP          -0.3591952  0.0264709 -13.569  < 2e-16 ***
ANH          0.0037840  0.0006237   6.067 1.30e-09 ***
TIC          0.6187913  0.0271161  22.820  < 2e-16 ***
Newborn     -1.4851023  0.1128772 -13.157  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 10813.5  on 11999  degrees of freedom
Residual deviance:  8508.9  on 11993  degrees of freedom
AIC: 8522.9

Number of Fisher Scoring iterations: 6


In [3]:
coef(summary(reg))

Unnamed: 0,Estimate,Std. Error,z value,Pr(>|z|)
(Intercept),-1.241244789,0.1601334304,-7.751316,9.09452e-15
S,-3.816320087,0.1207447652,-31.606506,3.0053290000000005e-219
LPE,0.504401128,0.1809101977,2.78813,0.005301328
NP,-0.359195194,0.0264708926,-13.56944,6.078448e-42
ANH,0.003783999,0.0006236833,6.06718,1.301754e-09
TIC,0.61879132,0.0271160536,22.82011,2.8957229999999997e-115
Newborn,-1.485102289,0.112877243,-13.156791,1.555535e-39


Obervamos que todas las variables son significativas para el modelo de la rotación de empleados, ya que todos los p-valores no sobrepasan 0.05. Además todos los coeficientes son positivos por lo que, si culaquiera de las variables llega a aumentar, se vería un aumento en la probabilidad de abandonar la empresa.

In [4]:
df_coeff <- as.data.frame(coef(summary(reg)))
df_coeff$factor_momios <- exp(df_coeff$Estimate)
df_coeff

Unnamed: 0,Estimate,Std. Error,z value,Pr(>|z|),factor_momios
(Intercept),-1.241244789,0.1601334304,-7.751316,9.09452e-15,0.28902422
S,-3.816320087,0.1207447652,-31.606506,3.0053290000000005e-219,0.02200864
LPE,0.504401128,0.1809101977,2.78813,0.005301328,1.6559935
NP,-0.359195194,0.0264708926,-13.56944,6.078448e-42,0.69823805
ANH,0.003783999,0.0006236833,6.06718,1.301754e-09,1.00379117
TIC,0.61879132,0.0271160536,22.82011,2.8957229999999997e-115,1.85668255
Newborn,-1.485102289,0.112877243,-13.156791,1.555535e-39,0.22647917


Una vez que tenemos las predicciones de la rotación de empleados, podemo ordenar a los empleados de acuerdo a su probabilidad de dejar la empresa, así los empleados que tengan una probabilidad muy alta, se le puede dar un seguimiento y evitar que se vaya de la empresa.

In [5]:
dat$prob_compra <- predict(reg, dat, type="response")
dat[order(-dat$prob_compra),]

Unnamed: 0,S,LPE,NP,ANH,TIC,Newborn,left,prob_compra
5656,0.17,0.86,3,286,6,0,0,0.9056081
9417,0.13,0.62,3,264,6,0,0,0.9010994
9418,0.14,0.89,3,212,6,0,0,0.8919444
4087,0.16,0.84,3,238,6,0,0,0.8916392
8364,0.12,0.59,3,229,6,0,0,0.8909121
4052,0.15,0.89,3,219,6,0,0,0.8908140
9867,0.12,0.81,4,287,6,0,0,0.8880859
11411,0.17,0.78,3,239,6,0,0,0.8852335
4224,0.16,0.51,3,262,6,0,0,0.8841119
2575,0.26,0.67,2,242,6,0,0,0.8823159


Dividimos el conjunto de datos en dos subconjuntos, un subconjunto de entrenamiento que tendrá el 70% de los datos y el segundo subconjunto que tendrá al resto de los datos, con estos dos conjunto podremos evaluar de manera correcta la calidad del modelo ya creado.

In [6]:
n <- nrow(dat)
n_train <- as.integer(0.7*n)
indx <- sample(1:n,n_train)
train <- dat[indx,]
test <- dat[-indx,]

Para validadr la calidad del modelo utilizamos la técnica de validación cruzada. Creamos el primer modelo, que será un modelo nulo. Este es independiente de todos los predictores y utilizamos el conjunto de entrenamiento para ajustar al modelo logístico y también guardamos los valores predichos por el modelo en los datos de prueba y midiendo el error sobre el conjunto de prueba. Luego seguimos aplicando el mismo método pero agregando predictores en cada modelo, utilizando los predictores que nos generan la mayor disminución del error respecto al modelo nulo.

In [7]:
err <- c()
m0 <- glm(left ~ 1, data = train) 
pred <- predict(m0,test) 
err0 <- sum(abs(test$left-pred))/nrow(test)
err <- c(err,err0)
err

In [8]:
m1 <- glm(left ~ S, data = train) 
pred <- predict(m1,test) 
err1 <- sum(abs(test$left-pred))/nrow(test)
err <- c(err,err1)
err

In [9]:
m2 <- glm(left ~ S + LPE, data = train) 
pred <- predict(m2,test) 
err2 <- sum(abs(test$left-pred))/nrow(test)
err <- c(err,err2)
err

In [10]:
m3 <- glm(left ~ S+LPE+NP, data = train) 
pred <- predict(m3,test) 
err3 <- sum(abs(test$left-pred))/nrow(test)
err <- c(err,err3)
err

In [11]:
m4<- glm(left ~ S+LPE+NP+ANH, data = train) 
pred <- predict(m4,test) 
err4 <- sum(abs(test$left-pred))/nrow(test)
err <- c(err,err4)
err

In [12]:
m5<- glm(left ~ S+LPE+NP+ANH+TIC, data = train) 
pred <- predict(m5,test) 
err5 <- sum(abs(test$left-pred))/nrow(test)
err <- c(err,err5)
err

In [13]:
m6<- glm(left ~ S+LPE+NP+ANH+TIC+Newborn, data = train) 
pred <- predict(m6,test) 
err6 <- sum(abs(test$left-pred))/nrow(test)
err <- c(err,err6)
err

Como podemos observar, en el modelo número dos es el que más presenta una disminución del error respecto al modelo anterior, por lo que el modelo número dos sería el mejor modelo, con los predictores S y LPE. Y finalmente evaluamos el error de generalización, y nos da como resultado 2.35 el cual se puede considerar un valor bajo.

In [14]:
p <- predict(reg, test)
err <- sum(abs(test$left-p))/nrow(test)
err