#### Loading packages and database

In [None]:
library(caret) #Caret is a complete machine learning solution
library(here)
source(here("modules","bib.r"))
source(here("modules","data_cleaning.r"))
source(here("modules","estimadistribuicao.R"))

Regressões lineares e ridget 

Todos os modelos de regresão são GLM / LM ( glm e lm são usados para ajustar modelos lineares generalizados, ambos iram produzir exatamente os mesmos resultados). A família  estatística usada para ajustar o modelo:  gaussiana, mas outras opções incluem binomial, Gamma e poisson, entre outras.

Foram selecionados 5 campos com dados para treinar o modelo para prever um resultado esperado pelo modelo de parendizado de máquina 

* Modelo 1- LM-H-PDNC

In [None]:
# treinamento do modelo - fit modelo de regressão linear generalizado
fitglm<-glm("HorasUnit ~ Poder.Lin + Depart + Prod.Nome + Item.Cod",data=trainSample) # Adjusted R-squared:  0.235 
sumfitln<-summary(fitglm) #  resumo estatístico
sumfitln
#sumfitln$adj.r.squared
sumfitln$aic

A função cbind() cria matrizes com objetivo em unir linhas e colunas. Antes de executar essa função é necessário criar vetores para poder juntar. 

predict.glm(): obtém previsões e estima erros padrão dessas previsões de um objeto de modelo linear generalizado ajustado.

se.fit: interruptor lógico indicando se os erros padrão são necessários.

postResample(): calcula o desempenho entre reamostras

In [95]:
#teste do modelo
# predict.glm() - Método de previsão para ajustes GLM 
predglm<-predict.glm(fitglm, newdata = testSample, se.fit = TRUE) # se.fit = TRUE, lista com componentes de erros padrão estimados.
#obtenho estatisticas
res <- predglm$fit-testSample$HorasUnit
rmse <- sqrt(mean(res^2)) # média das diferenças entre as predições e observações reais ao quadrado
pred <- tibble(pred=predglm$fit) # tibble é releitura do data.frame
#colnames(pred) <- c('pred')
resultTest<- cbind(testSample,pred) # Conecta vetores formando colunas de uma matriz com cada vetor (c = column)
resultTest<-resultTest %>% ungroup()
resultTest<-resultTest[order(resultTest$Poder.Z, -resultTest$pred),]

Métricas de regressão usadas em todos os modelos

RMSE - Root Mean Squared Error: média das diferenças entre as predições e observações reais ao quadrado

R2 -  uma métrica de erro de regressão que justifica o desempenho do modelo

MAE - Mean Absolute Error: calcula o residual de cada ponto, onde valores residuais negativos e positivos não se anulam

In [None]:
fit <- lm(HorasUnit ~ Poder.Lin, data = resultTest)
fig <- plot_ly(resultTest, x = ~Poder.Lin, y = ~pmax(pred,0), type = 'scatter', alpha = 0.65, mode = 'markers', name = 'Pred')
fig <- fig %>% add_trace(data = resultTest, x = ~Poder.Lin, y = fitted(fit), name = 'Regression Fit', mode = 'lines', alpha = 1)
fig
metricas<-postResample(pred = pmax(predglm$fit,0), obs = testSample$HorasUnit) # pred e obs são vetores de dados numéricos (pode ser um fator)
metricas
resumo<-tibble(Num=c(1),Nome=c("LM-H-PLDNC"),
               Log=c(0),Poder.Lin=c(1),Depart=c(1),Prod.Nome=c(1),Item.Cod=c(1),
               RMSE=c(metricas[1]),R2=c(metricas[2]),MAE=c(metricas[3]))
previsoes<-tibble(pred = pmax(predglm$fit,0), obs = testSample$HorasUnit, model=1) 

* Modelo 2 - LM-H-PZDNC

In [97]:
# treinamento do modelo - fit modelo de regressão linear generalizado
fitglm<-glm("HorasUnit ~ Poder.Z + Depart + Prod.Nome + Item.Cod",data=trainSample) # Adjusted R-squared:  0.235 
sumfitln<-summary(fitglm) # resumo estatístico

Assim como a função cbind(), rbind() cria matrizes com objetivo em unir linhas (row) e colunas (column). Antes de executar essa função é necessário criar vetores para poder juntar. 

In [None]:
#teste do modelo
# predict.glm() - Método de previsão para ajustes GLM 
predglm<-predict.glm(fitglm, newdata = testSample, se.fit = TRUE) # se.fit = TRUE, lista com componentes de erros padrão estimados
metricas<-postResample(pred = pmax(predglm$fit,0), obs = testSample$HorasUnit) # pred e obs são vetores de dados numéricos (pode ser um fator)
metricas

# criando matrizes
# rbind() - Conecta vetores formando linhas de uma matriz com cada vetor (r = row) 
resumo<-rbind(resumo,tibble(Num=c(2),Nome=c("LM-H-PZDNC"),
                            Log=c(0),Poder.Lin=c(0),Depart=c(1),Prod.Nome=c(1),Item.Cod=c(1),
                            RMSE=c(metricas[1]),R2=c(metricas[2]),MAE=c(metricas[3])))
previsoes<-rbind(previsoes,tibble(pred = pmax(predglm$fit,0), obs = testSample$HorasUnit, model=2))

* Modelo 3 - LM-H-PZDN

In [100]:
# treinamento do modelo - fit modelo de regressão linear generalizado
fitglm<-glm("HorasUnit ~ Poder.Z + Depart + Prod.Nome",data=trainSample) # Adjusted R-squared:  0.235 
sumfitln<-summary(fitglm) # resumo estatístico

In [None]:
#teste do modelo
# predict.glm() - Método de previsão para ajustes GLM 
numeroMod = 3
predglm<-predict.glm(fitglm, newdata = testSample, se.fit = TRUE) # se.fit = TRUE, lista com componentes de erros padrão estimados
metricas<-postResample(pred = pmax(predglm$fit,0), obs = testSample$HorasUnit) # pred e obs são vetores de dados numéricos (pode ser um fator)
metricas
resumo<-rbind(resumo,tibble(Num=c(numeroMod),Nome=c("LM-H-PZDN"),
                            Log=c(0),Poder.Lin=c(0),Depart=c(1),Prod.Nome=c(1),Item.Cod=c(0),
                            RMSE=c(metricas[1]),R2=c(metricas[2]),MAE=c(metricas[3])))
previsoes<-rbind(previsoes,tibble(pred = pmax(predglm$fit,0), obs = testSample$HorasUnit, model=numeroMod))

* Modelo 4 - LM-H-PZDC

In [102]:
# treinamento do modelo - fit modelo de regressão linear generalizado
fitglm<-glm("HorasUnit ~ Poder.Z + Depart + Item.Cod",data=trainSample) # Adjusted R-squared:  0.235 
sumfitln<-summary(fitglm) # resumo estatístico

In [None]:
#teste do modelo
# predict.glm() - Método de previsão para ajustes GLM 
numeroMod = 4
predglm<-predict.glm(fitglm, newdata = testSample, se.fit = TRUE) # se.fit = TRUE, lista com componentes de erros padrão estimados.
metricas<-postResample(pred = pmax(predglm$fit,0), obs = testSample$HorasUnit) # pred e obs são vetores de dados numéricos (pode ser um fator)
metricas
resumo<-rbind(resumo,tibble(Num=c(numeroMod),Nome=c("LM-H-PZDC"),
                            Log=c(0),Poder.Lin=c(0),Depart=c(1),Prod.Nome=c(0),Item.Cod=c(1),
                            RMSE=c(metricas[1]),R2=c(metricas[2]),MAE=c(metricas[3])))
previsoes<-rbind(previsoes,tibble(pred = pmax(predglm$fit,0), obs = testSample$HorasUnit, model=numeroMod))

In [104]:
# converts an integer to the double class
sapply(mais_frequentes$HorasUnit_sca, as.double)

* Modelo 5 - LM-LH-PLDNC

In [60]:
library('tidyverse') # manipulation, exploration and visualization of data

In [105]:
trainSample<-trainSample[trainSample$HorasUnit>0,]

função summary(): apresenta a distribuição das variáveis no conjunto de dados

In [None]:
summary(trainSample$HorasUnit[trainSample$HorasUnit>0])

In [None]:
summary(trainSample)

In [None]:
# function used to return the number of rows of the specified matrix.
nrow(trainSample)

In [None]:
summary(trainSample$HorasUnit_log)

In [29]:
# sapply - recebe uma lista, vetor ou quadro de dados como argumento e retorna um vetor ou matriz.
#mais_frequentes$HorasUnit_sca = sapply(mais_frequentes$HorasUnit_sca, as.double) #  Convertendo HorasUnit_sca  para a classe double 
#mais_frequentes

In [30]:
#filter(mais_frequentes,Poder.Lin<=0)

Tinham colunas NA, NaN e -Inf que estavm gerando erros e já foram retiradas, de 513 restaram 505 na tabela

In [35]:
#mais_frequentes = filter(mais_frequentes,HorasUnit_log != -Inf) # eliminando o - Inf

In [31]:
#mais_frequentes[mais_frequentes$Poder.Lin<0]

In [110]:
# treinamento do modelo - fit modelo de regressão linear generalizado
fitglm<-glm("HorasUnit_log ~ Poder.Lin + Depart + Prod.Nome + Item.Cod",data=trainSample) # Adjusted R-squared:  0.235 
sumfitln<-summary(fitglm) # resumo estatístico

In [None]:
#teste do modelo
predglm<-predict.glm(fitglm, newdata = testSample, se.fit = TRUE) # se.fit = TRUE, lista com componentes de erros padrão estimados.
metricas<-postResample(pred = pmax(exp(predglm$fit),0), obs = testSample$HorasUnit) # pred e obs são vetores de dados numéricos (pode ser um fator)
metricas2<-postResample(pred = predglm$fit, obs = log(testSample$HorasUnit))
metricas
resumo<-rbind(resumo,tibble(Num=c(numeroMod),Nome=c("LM-LH-PLDNC"),
                            Log=c(1),Poder.Lin=c(1),Depart=c(1),Prod.Nome=c(1),Item.Cod=c(1),
                            RMSE=c(metricas[1]),R2=c(metricas2[2]),MAE=c(metricas[3])))
previsoes<-rbind(previsoes,tibble(pred = pmax(exp(predglm$fit),0), obs = testSample$HorasUnit, model=numeroMod))

* Modelo 6 - LM-LH-PZDNC

Treina o modelo com o log das horas unitárias

In [112]:
# treinamento do modelo - fit modelo de regressão linear generalizado
fitglm<-glm("HorasUnit_log ~ Poder.Z + Depart + Prod.Nome + Item.Cod",data=trainSample) # Adjusted R-squared:  0.235 
sumfitln<-summary(fitglm) # resumo estatístico

In [None]:
#teste do modelo
predglm<-predict.glm(fitglm, newdata = testSample, se.fit = TRUE) # se.fit = TRUE, lista com componentes de erros padrão estimados.
metricas<-postResample(pred = pmax(exp(predglm$fit),0), obs = testSample$HorasUnit) # pred e obs são vetores de dados numéricos (pode ser um fator)
metricas2<-postResample(pred = predglm$fit, obs = log(testSample$HorasUnit))
metricas
resumo<-rbind(resumo,tibble(Num=c(numeroMod),Nome=c("LM-LH-PZDNC"),
                            Log=c(1),Poder.Lin=c(0),Depart=c(1),Prod.Nome=c(1),Item.Cod=c(1),
                            RMSE=c(metricas[1]),R2=c(metricas2[2]),MAE=c(metricas[3])))
previsoes<-rbind(previsoes,tibble(pred = pmax(exp(predglm$fit),0), obs = testSample$HorasUnit, model=numeroMod))

* Modelo  7 - GLM-H-PZDNC

In [None]:
fitglm<-glm("HorasUnit ~ Poder.Lin + Depart + Prod.Nome + Item.Cod",data=trainSample,
            family = "poisson")  #  usada para encontrar a probabilidade de eventos que ocorrerem dentro de um determinado intervalo de tempo
sumfitln<-summary(fitglm) # resumo estatístico

In [None]:
#teste do modelo
predglm<-predict.glm(fitglm, newdata = testSample, se.fit = TRUE) # se.fit = TRUE, lista com componentes de erros padrão estimados.
metricas<-postResample(pred = pmax(exp(predglm$fit),0), obs = testSample$HorasUnit) # pred e obs são vetores de dados numéricos (pode ser um fator)
metricas2<-postResample(pred = predglm$fit, obs = log(testSample$HorasUnit))
metricas
resumo<-rbind(resumo,tibble(Num=c(numeroMod),Nome=c("GLM-H-PZDNC"),
                            Log=c(0),Poder.Lin=c(1),Depart=c(1),Prod.Nome=c(1),Item.Cod=c(1),
                            RMSE=c(metricas[1]),R2=c(metricas2[2]),MAE=c(metricas[3])))
previsoes<-rbind(previsoes,tibble(pred = pmax(exp(predglm$fit),0), obs = testSample$HorasUnit, model=numeroMod))

* Modelo 8 - GLM-GH-PZDNC

In [None]:
fitglm<-glm("HorasUnit ~ Poder.Lin + Depart + Prod.Nome + Item.Cod",data=trainSample,
            family = Gamma(link="log")) # Adjusted R-squared:  0.235 
sumfitln<-summary(fitglm) # resumo estatístico

In [None]:
#teste do modelo
predglm<-predict.glm(fitglm, newdata = testSample, se.fit = TRUE) # se.fit = TRUE, lista com componentes de erros padrão estimados.
metricas<-postResample(pred = pmax(exp(predglm$fit),0), obs = testSample$HorasUnit) # pred e obs são vetores de dados numéricos (pode ser um fator)
metricas2<-postResample(pred = predglm$fit, obs = log(testSample$HorasUnit))
metricas
resumo<-rbind(resumo,tibble(Num=c(numeroMod),Nome=c("GLM-GH-PZDNC"),
                            Log=c(0),Poder.Lin=c(1),Depart=c(1),Prod.Nome=c(1),Item.Cod=c(1),
                            RMSE=c(metricas[1]),R2=c(metricas2[2]),MAE=c(metricas[3])))
previsoes<-rbind(previsoes,tibble(pred = pmax(exp(predglm$fit),0), obs = testSample$HorasUnit, model=numeroMod))

Ridge Regression - é uma extensão da regressão linear onde a função de perda é modificada para minimizar a complexidade do modelo. Essa modificação é feita adicionando um parâmetro de penalidade equivalente ao quadrado dos coeficientes.

SSE - Sum of Squares Error

SST - Sum of Squares Total 

In [119]:
# testar ridge
sampleDummies<- dummy_cols(mais_frequentes, remove_selected_columns = TRUE, remove_first_dummy = TRUE) #dummy_cols: cria variáveis ​​fictícias com base nos parâmetros fornecidos na função
sampleTudo<- mais_frequentes %>% select(-HorasUnit,-HorasUnit_log,-HorasUnit_sca,-linha)

traindummies <- sampleDummies[sampleDummies$linha %in% trainSample$linha,] #dummy_cols(trainSample, remove_selected_columns = TRUE, remove_first_dummy = TRUE)
testdummies <- sampleDummies[sampleDummies$linha %in% testSample$linha,] #dummy_cols(testSample, remove_selected_columns = TRUE, remove_first_dummy = TRUE)

library(glmnet) # ajusta a modelos lineares generalizados e similares via máxima verossimilhança penalizada
eval_results <- function(true, predicted, df) {
  SSE <- sum((predicted - true)^2) # A soma das diferenças quadradas entre os pontos de dados previstos e os pontos de dados observados
  SST <- sum((true - mean(true))^2) # A soma dos quadrados das diferenças entre os pontos de dados individuais e a média da variável de resposta
  R_square <- 1 - SSE / SST
  RMSE = sqrt(SSE/nrow(df))
  
  
  # Model performance metrics
  data.frame(
    RMSE = RMSE,
    Rsquare = R_square
  )
  
}

* Modelo 9 - RIDGET-H-PLDNC

model.matrix(): cria uma matriz de projeto (ou modelo)

In [120]:
# preparo modelo
x = model.matrix(as.formula('~ Poder.Lin + Depart + Prod.Nome + Item.Cod'),data=sampleTudo) # extrair fórmulas que foram incluídas em outros objetos
x <- x[,-1]
xTrain <- x[trainSample$linha,]
y_train = trainSample$HorasUnit

cv.glmnet(): Cross-validation for glmnet - Faz validação cruzada k-fold para glmnet, produz um gráfico e retorna um valor para lambda

In [None]:
lambdas <- 10^seq(2, -3, by = -.1)
ridge_reg = cv.glmnet(xTrain, y_train, alpha = 0, lambda = lambdas) # treinamento

summary(ridge_reg) # resumo estatístico
optimal_lambda <- ridge_reg$lambda.min # melhor lambda
optimal_lambda

In [None]:
xTest <- x[testSample$linha,]
y_test = testSample$HorasUnit
predictions_test <- predict(ridge_reg, s = optimal_lambda, newx = xTest) # previsao
metricas<-postResample(pred = pmax(predictions_test,0), obs = y_test) # metricas e output
metricas

In [123]:
resumo<-rbind(resumo,tibble(Num=c(numeroMod),Nome=c("RIDGET-H-PLDNC"),
                            Log=c(0),Poder.Lin=c(1),Depart=c(1),Prod.Nome=c(1),Item.Cod=c(1),
                            RMSE=c(metricas[1]),R2=c(metricas[2]),MAE=c(metricas[3])))
previsoes<-rbind(previsoes,tibble(pred = pmax(predictions_test,0), obs = testSample$HorasUnit, model=numeroMod))

previsto9<-tibble(pred = pmax(predictions_test,0))
previsto9<-cbind(previsto9,testSample)

previsto9$Item.Cod<-as.factor(paste(previsto9$Item.Cod))
previsto9$Prod.Nome<-as.factor(paste(previsto9$Prod.Nome))
previsto9$Depart<-as.factor(paste(previsto9$Depart))


ggp9<-previsto9 %>%
  ggplot(aes(x = HorasUnit,y = pred, colour= Depart,#shape=Prod.Nome)) +
             text =      paste(#"Depart:", Depart,
                               "Prod.Nome:", Prod.Nome,
                               "\nItem.Cod:", Item.Cod)))+
  geom_point()#+#geom_count()+
  #geom_smooth(method=lm,se=FALSE)

#ggplotly(ggp9)

* Modelo 10 - RIDGET-LH-PLDNC

In [124]:
# preparo do modelo
x = model.matrix(as.formula('~ Poder.Lin + Depart + Prod.Nome + Item.Cod'),data=sampleTudo)
x <- x[,-1]
xTrain <- x[trainSample$linha,]
y_train = trainSample$HorasUnit_log

In [None]:
lambdas <- 10^seq(2, -3, by = -.1)
ridge_reg = cv.glmnet(xTrain, y_train, alpha = 0, lambda = lambdas) # treinamento

summary(ridge_reg) # resumo estatístico
optimal_lambda <- ridge_reg$lambda.min # melhor lambda
optimal_lambda

In [None]:
xTest <- x[testSample$linha,]
y_test = testSample$HorasUnit_log
predictions_test <- predict(ridge_reg, s = optimal_lambda, newx = xTest) # previsão
eval_results(y_test, predictions_test, trainSample) # metricas e output


In [None]:
metricas<-postResample(pred = pmax(exp(predictions_test),0), obs = testSample$HorasUnit)
metricas2<-postResample(pred = predictions_test, obs = testSample$HorasUnit_log)
metricas
resumo<-rbind(resumo,tibble(Num=c(numeroMod),Nome=c("RIDGET-LH-PLDNC"),
                            Log=c(1),Poder.Lin=c(1),Depart=c(1),Prod.Nome=c(1),Item.Cod=c(1),
                            RMSE=c(metricas[1]),R2=c(metricas2[2]),MAE=c(metricas[3])))
previsoes<-rbind(previsoes,tibble(pred = pmax(exp(predictions_test),0), obs = testSample$HorasUnit, model=numeroMod))

* Modelo 11 - RIDGETPoisson-H-PLDNC

In [127]:
# preparo do modelo
x = model.matrix(as.formula('~ Poder.Lin + Depart + Prod.Nome + Item.Cod'),data=sampleTudo)
x <- x[,-1]
xTrain <- x[trainSample$linha,]
y_train = trainSample$HorasUnit

In [None]:
lambdas <- 10^seq(2, -3, by = -.1)
ridge_reg = cv.glmnet(xTrain, y_train, alpha = 0, lambda = lambdas, family = "poisson") # treinamento

summary(ridge_reg) # resumo estatístico 
optimal_lambda <- ridge_reg$lambda.min # melhor lambda
optimal_lambda

xTest <- x[testSample$linha,]
y_test = testSample$HorasUnit

In [None]:
predictions_test <- predict(ridge_reg, s = optimal_lambda, newx = xTest)

metricas<-postResample(pred = pmax(exp(predictions_test),0), obs = y_test)
metricas2<-postResample(pred = predictions_test, obs = testSample$HorasUnit_log)
metricas


In [None]:
resumo<-rbind(resumo,tibble(Num=c(numeroMod),Nome=c("RIDGETPoisson-H-PLDNC"),
                            Log=c(0),Poder.Lin=c(1),Depart=c(1),Prod.Nome=c(1),Item.Cod=c(1),
                            RMSE=c(metricas[1]),R2=c(metricas2[2]),MAE=c(metricas[3])))
previsoes<-rbind(previsoes,tibble(pred = pmax(exp(predictions_test),0), obs = testSample$HorasUnit, model=numeroMod))
previsoes

Final results

In [131]:
#exportacao dos resultados para csv
write.csv(resumo,"Resumo-regressoes.csv")

In [None]:
previsoes$model<-as.factor(previsoes$model)
ggplot(previsoes,aes(x = obs,y = pred, colour= model)) +
  geom_count()+geom_smooth(method=lm,se=FALSE) # contar pontos sobrepostos + adicionar linhas de regressão ao diagrama de dispersão


In [91]:
ggp1<-previsoes %>% filter(model==9) %>%
  ggplot(aes(x = obs,y = pred, colour= model)) +
  geom_count()+geom_smooth(method=lm,se=FALSE)

#ggplotly(ggp1)

In [92]:
ggp<-previsoes %>% filter(model!=8) %>% ggplot(aes(x = obs,y = pred, colour= model)) +
  geom_count()+geom_smooth(method=lm,se=FALSE)
#ggplotly(ggp)