.Rhistory

n=c(1, 3, 5, 10, 15, 20))
results
results
names(results)
results[["user-based CF"]]
plot(results, annotate=c(1,3), legend="bottomright")
plot(results, "prec/rec", annotate=3, legend="topleft")
plot(results, annotate=c(1,3), legend="bottomright")
plot(results, "prec/rec", annotate=3, legend="topleft")
algorithms <- list("random items" = list(name="RANDOM", param=NULL),
"popular items" = list(name="POPULAR", param=NULL),
"user-based CF" = list(name="UBCF", param=list(nn=50)),
"item-based CF" = list(name="IBCF", param=list(k=20)))
## run algorithms
results <- evaluate(scheme, algorithms, type = "topNList",
n=c(1, 3, 5, 10, 15, 20))
results
names(results)
results[["user-based CF"]]
plot(results, annotate=c(1,3), legend="bottomright")
plot(results, "prec/rec", annotate=3, legend="topleft")
data(MovieLense) # Get data
scheme <- evaluationScheme(MovieLense, method = "split", train = .9,
k = 1, given = 10, goodRating = 4)
scheme
# Some algorithms to test against
algorithms <- list(
#"random items" = list(name="RANDOM", param=list(normalize = "Z-score")),
"popular items" = list(name="POPULAR", param=list(normalize = "Z-score")),
"user-based CF" = list(name="UBCF", param=list(normalize = "Z-score", method="Cosine", nn=50, minRating=3)),
"item-based CF" = list(name="IBCF", param=list(normalize = "Z-score", method="Cosine", nn=50, minRating=3)),
"Matrix Factorization" = list(name="RSVD", param=list(categories = 10, lambda = 10, maxit = 100))
)
# Some algorithms to test against
algorithms <- list(
#"random items" = list(name="RANDOM", param=list(normalize = "Z-score")),
"popular items" = list(name="POPULAR", param=list(normalize = "Z-score")),
"user-based CF" = list(name="UBCF", param=list(normalize = "Z-score", method="Cosine", nn=50, minRating=3)),
"item-based CF" = list(name="IBCF", param=list(normalize = "Z-score", method="Cosine", nn=50, minRating=3)))
# run algorithms, predict next n movies
results <- evaluate(scheme, algorithms, n=c(1, 3, 5, 10, 15, 20))
# Draw ROC curve
plot(results, annotate = 1:4, legend="topleft")
# See precision / recall
plot(results, "prec/rec", annotate=3)
set.seed(2016)
scheme <- evaluationScheme(Jester5k[1:1000], method="split", train = .9,k=1, given=-5, goodRating=5)
algorithms <- list("random items" = list(name="RANDOM", param=NULL),
"popular items" = list(name="POPULAR", param=NULL),
"user-based CF" = list(name="UBCF", param=list(nn=50)),
"item-based CF" = list(name="IBCF", param=list(k=50)),
"SVD approximation" = list(name="SVD", param=list(k = 50)))
## run algorithms
results <- evaluate(scheme, algorithms, type = "topNList",
n=c(1, 3, 5, 10, 15, 20))
results
names(results)
results[["user-based CF"]]
plot(results, annotate=c(1,3), legend="bottomright")
plot(results, "prec/rec", annotate=3, legend="topleft")
set.seed(2016)
scheme <- evaluationScheme(MovieLense, method="split", train = .9,k=1, given=-5, goodRating=5)
algorithms <- list("random items" = list(name="RANDOM", param=NULL),
"popular items" = list(name="POPULAR", param=NULL),
"user-based CF" = list(name="UBCF", param=list(nn=50)),
"item-based CF" = list(name="IBCF", param=list(k=20)))
## run algorithms
results <- evaluate(scheme, algorithms, type = "topNList",
n=c(1, 3, 5, 10, 15, 20))
results
names(results)
results[["user-based CF"]]
plot(results, annotate=c(1,3), legend="bottomright")
## run algorithms
results <- evaluate(scheme, algorithms, type = "topNList",
n=c(1, 3, 5, 10, 15, 20,100))
results
names(results)
results[["user-based CF"]]
plot(results, annotate=c(1,3), legend="bottomright")
plot(results, "prec/rec", annotate=3, legend="topleft")
set.seed(2016)
scheme <- evaluationScheme(MovieLense, method="split", train = .9,k=1, given=-5, goodRating=5)
algorithms <- list("random items" = list(name="RANDOM", param=NULL),
"popular items" = list(name="POPULAR", param=NULL),
"user-based CF" = list(name="UBCF", param=list(nn=50)),
"item-based CF" = list(name="IBCF", param=list(k=20)))
## run algorithms
results <- evaluate(scheme, algorithms, type = "topNList",
n=c(1, 3, 5, 10, 15, 20))
results
names(results)
results[["user-based CF"]]
plot(results, annotate=c(1,3), legend="bottomright")
plot(results, "prec/rec", annotate=3, legend="topleft")
library(recommenderlab)
install.packages("faraway")
library(faraway)
data(meatspec)
library(faraway)
data("meatspec")
meatspec
library(faraway)
meatspec
data("meatspec")
meatspec
View(meatspec)
train <- meatspec[1:172,]
test <- meatspec[173:215,]
fit.lm <-lm(fat ~ ., data = train)
fit.lm
library(MLmetrics)
MSE(preds, train[,"fat"])
preds <- predict(fit.lm, train)
library(MLmetrics)
MSE(preds, train[,"fat"])
mse_train <- mean((train$fat - fitted(fit.lm))^2)
mse_train
pred_test <- predict(fit.lm, test[,-c("fat")])
pred_test <- predict(fit.lm, test[,-c(101)])
test[,-c(101)]
mse_test <- mean((test$fat - pred_test)^2)
mse_test
trainx <- train[, 1:100]
pca <-prcomp(trainx)
View(pca)
pca[[1]]
plot(pca[[1]],pca[[2]])
k <- 4
fit.pcr <-lm(train[, "fat"] ~ pca$x[, 1:k])
mse_train <- mean((train$fat - fitted(fit.pcr))^2)
mse_train
pred_test <- predict(fit.pcr, test[,-c(101)])
mse_test <- mean((test$fat - pred_test)^2)
mse_test
pred_test <- predict(fit.lm, test[,-c(101)])
testx <- test[, 1:100]
pcaTest <-prcomp(test)
pred_test <- predict(fit.pcr, pcaTest$x[, 1:k])
pred_test <- predict(fit.pcr, as.data.frame(pcaTest$x[, 1:k]))
pcaTest$x[, 1:k]
mse_test <- mean((test$fat - pred_test)^2)
mse_test
View(fit.pcr)
fit.pcr[["model"]][["pca$x[, 1:k]"]]
as.data.frame(pcaTest$x[, 1:k])
pred_test <- predict(fit.pcr, as.data.frame(pcaTest$x[, 1:k]))
mse_test <- mean((test$fat - pred_test)^2)
mse_test
k <- 30
fit.pcr <-lm(train[, "fat"] ~ pca$x[, 1:k])
mse_train <- mean((train$fat - fitted(fit.pcr))^2)
mse_train
testx <- test[, 1:100]
pcaTest <-prcomp(test)
pred_test <- predict(fit.pcr, as.data.frame(pcaTest$x[, 1:k]))
mse_test <- mean((test$fat - pred_test)^2)
mse_test
View(pca)
View(pcaTest)
testx <- test[, 1:100]
pcaTest <-prcomp(testx)
pred_test <- predict(fit.pcr, as.data.frame(pcaTest$x[, 1:k]))
mse_test <- mean((test$fat - pred_test)^2)
mse_test
View(pcaTest)
trainx <- train[, 1:100]
pca <-prcomp(trainx)
k <- 30
fit.pcr <-lm(train[, "fat"] ~ pca$x[, 1:k])
mse_train <- mean((train$fat - fitted(fit.pcr))^2)
mse_train
trainx <- train[, 1:100]
pca <-prcomp(trainx)
k <- 20
fit.pcr <-lm(train[, "fat"] ~ pca$x[, 1:k])
mse_train <- mean((train$fat - fitted(fit.pcr))^2)
mse_train
testx <- test[, 1:100]
pcaTest <- predict(pca, newdata=testx)
pred_test <- predict(fit.pcr, apcaTest$x[, 1:k])
pred_test <- predict(fit.pcr, pcaTest$x[, 1:k])
pred_test <- predict(fit.pcr, pcaTest[, 1:k])
pred_test <- predict(fit.pcr, as.data.frame(pcaTest[, 1:k]))
mse_test <- mean((test$fat - pred_test)^2)
mse_test
fit.pcr$model
colnames(fit.pcr$model$`pca$x[, 1:k]`)
colnames(as.data.frame(pcaTest[, 1:k]))
pred_test <- predict(fit.pcr, as.data.frame(pcaTest[, 1:k]))
library(MASS)
data("Pima.tr")
Pima.tr
dara("Pima.te")
Pima.t2
Pima.te
Pima.te
data("Pima.te")
Pima.te
lda.fit <-lda(type ~ ., data = Pima.tr)
lda.pred <-predict(lda.fit, Pima.te)
modeloLDA <-lda(type ~ ., data = Pima.tr)
predLDA <-predict(modeloLDA, Pima.te)
predLDA
Pima.te
Pima.te[,-c(8)]
predLDA <-predict(modeloLDA, Pima.te[,-c(8)])
predLDA
confusionMatrix(data = predLDA, reference = Pima.te$type)
library(caret)
confusionMatrix(data = predLDA, reference = Pima.te$type)
confusionMatrix(data = as.factor(predLDA), reference = Pima.te$type)
confusionMatrix(data = as.factor(predLDA), reference = as.factor(Pima.te$type))
confusionMatrix(data = (predLDA), reference = as.factor(Pima.te$type))
knitr::opts_chunk$set(echo = TRUE)
library(ISLR)
auto_train <- Auto[1:300,]
auto_test <- Auto[-(1:300),]
auto_train
z <-lm(mpg~cylinders+displacement+horsepower+weight, data = auto_train)
summary(z)
mse_train <- mean((auto_train$mpg - fitted(z))^2)
mse_train
fitted_test <- predict(z, auto_test[,c(2,3,4,5)])
fitted_test
View(predLDA)
table(predLDA$posterior, Pima.te$type)
predLDA[["posterior"]]
table(predLDA$class, Pima.te$type)
setwd("~/Escritorio/GitHub/ML-R/R")
devtools::document()
install.packages("devtools")
library(devtools)
devtools::document()
library(caret)
install.packages("caret")
install.packages("dplyr")
devtools::document()
# SEPARACIÓN EN TRAIN Y TEST
credit.trainIdx<-readRDS("credit.trainIdx.rds")
help(readrds)
help(readRDS)
setwd("~/Escritorio/GitHub/ML-R/R")
a <- readRDS("credit.trainIdx.rds")
update.packages()
a <- readRDS("credit.trainIdx.rds")
# Cargamos la base de datos
credit <- read.table(
"http://archive.ics.uci.edu/ml/machine-learning-databases/credit-screening/crx.data", header=F,
sep=",", col.names=c('Genero','Edad','Deuda','EstadoCivil','Banco','NivelEducacion','Etnia','AniosTrabajo','IncumplimientoAnterior',
'Empleado','PuntajeCredito','LicenciaConductor','Ciudadano','CodigoPostal','Salario', 'Clase'),
na.strings = "?")
View(credit)
# SEPARACIÓN EN TRAIN Y TEST
credit.trainIdx<- createDataPartition(credit[[Clase]],p=0.8,list = FALSE,times = 1)
# SEPARACIÓN EN TRAIN Y TEST
credit.trainIdx<- createDataPartition(credit["Clase"],p=0.8,list = FALSE,times = 1)
# SEPARACIÓN EN TRAIN Y TEST
credit.trainIdx<- createDataPartition(credit[,"Clase"],p=0.8,list = FALSE,times = 1)
credit.Datos.Train<-credit[credit.trainIdx,]
credit.Datos.Test<-credit[-credit.trainIdx,]
nrow(credit.Datos.Train)
nrow(credit.Datos.Test)
# Aplicamos el logaritmo al salario
credit.Datos.Train.logSal <- credit.Datos.Train
credit.Datos.Train.logSal$Salario <- log(credit.Datos.Train.logSal$Salario + 1)
# Eliminamos la variable CodigoPostal
credit.Datos.Train.logSal <-credit.Datos.Train.logSal[setdiff(names(credit.Datos.Train.logSal),"CodigoPostal")]
# VALORES ATÍPICOS
# Los observamos haciendo uso de bwplot, se puede observar que Salario ya no tiene outliers
library(reshape2)
bwplot(~value | variable, data = melt(credit.Datos.Train.logSal, id.vars = 15, measure.vars = c("Edad")))
bwplot(~value | variable, data = melt(credit.Datos.Train.logSal, id.vars = 15, measure.vars = c("Deuda")))
bwplot(~value | variable, data = melt(credit.Datos.Train.logSal, id.vars = 15, measure.vars = c("AniosTrabajo")))
bwplot(~value | variable, data = melt(credit.Datos.Train.logSal, id.vars = 15, measure.vars = c("Salario")))
bwplot(~value | variable, data = melt(credit.Datos.Train.logSal, id.vars = 15, measure.vars = c("PuntajeCredito")))
extremos.edad<-boxplot(credit.Datos.Train.logSal$Edad,boxwex=0.15,ylab="Edad")$out
extremos.deuda<-boxplot(credit.Datos.Train.logSal$Deuda,boxwex=0.15,ylab="Deuda")$out
extremos.aniosTrabajo<-boxplot(credit.Datos.Train.logSal$AniosTrabajo,boxwex=0.15,ylab="aniosTrabajo")$out
extremos.PuntajeCredito<-boxplot(credit.Datos.Train.logSal$PuntajeCredito,boxwex=0.15,ylab="PuntajeCredito")$out
# Calculamos el valor a partir del cual las muestras se consideran outliers para cada una de las cuatro variables
porArriba.edad<-min(extremos.edad[extremos.edad > median(na.omit(credit.Datos.Train.logSal$Edad))])
porArriba.deuda<-min(extremos.deuda[extremos.deuda > median(na.omit(credit.Datos.Train.logSal$Deuda))])
porArriba.aniosTrabajo<-min(extremos.aniosTrabajo[extremos.aniosTrabajo > median(na.omit(credit.Datos.Train.logSal$AniosTrabajo))])
porArriba.puntajeCredito<-min(extremos.PuntajeCredito[extremos.PuntajeCredito > median(na.omit(credit.Datos.Train.logSal$PuntajeCredito))])
# Visualizamos cuáles son las variables correspondientes a los valores
# que consideramos atípicos, basándonos en los gráficos de bwplot anteriores
na.omit(credit.Datos.Train.logSal[credit.Datos.Train.logSal$Edad >= porArriba.edad,])
na.omit(credit.Datos.Train.logSal[credit.Datos.Train.logSal$Deuda >= porArriba.deuda,])
na.omit(credit.Datos.Train.logSal[credit.Datos.Train.logSal$AniosTrabajo >= porArriba.aniosTrabajo,])
na.omit(credit.Datos.Train.logSal[credit.Datos.Train.logSal$PuntajeCredito > porArriba.puntajeCredito,])
# Decidimos eliminar solamente los outliers de la variable Edad
# Se crean dos nuevos conjuntos de datos
credit.Datos.Train.logSal.Out <- credit.Datos.Train.logSal
credit.Datos.Train.logSal.Nout <- credit.Datos.Train.logSal
credit.Datos.Train.logSal.Nout <- credit.Datos.Train.logSal.Nout[-which(credit.Datos.Train.logSal.Nout$Edad %in% extremos.edad),]
# ESTUDIO DE LOS NA's
# Vemos el número de NA's y cuántos corresponden a cada variable
sum(!complete.cases(credit.Datos.Train.logSal.Out))
map_dbl(credit.Datos.Train.logSal.Out, .f = function(x){sum(is.na(x))})
sum(!complete.cases(credit.Datos.Train.logSal.Nout))
map_dbl(credit.Datos.Train.logSal.Nout, .f = function(x){sum(is.na(x))})
# Creamos los nuevos subconjuntos
credit.Datos.Train.logSal.Out.TrNA <- credit.Datos.Train.logSal.Out
credit.Datos.Train.logSal.Nout.TrNA <- credit.Datos.Train.logSal.Nout
# Como la edad tiene una distribución skewed, sustituimos los NA's por el valor de la mediana
credit.Datos.Train.logSal.Out.TrNA[is.na(credit.Datos.Train.logSal.Out.TrNA$Edad),"Edad"] <-
median(credit.Datos.Train.logSal.Out.TrNA$Edad,na.rm=T)
credit.Datos.Train.logSal.Nout.TrNA[is.na(credit.Datos.Train.logSal.Nout.TrNA$Edad),"Edad"] <-
median(credit.Datos.Train.logSal.Nout.TrNA$Edad,na.rm=T)
sum(!complete.cases(credit.Datos.Train.logSal.Out.TrNA))
map_dbl(credit.Datos.Train.logSal.Out.TrNA, .f = function(x){sum(is.na(x))})
sum(!complete.cases(credit.Datos.Train.logSal.Nout.TrNA))
map_dbl(credit.Datos.Train.logSal.Nout.TrNA, .f = function(x){sum(is.na(x))})
#' Obtención de la moda de un vector
#'
#' @param x Vector del que se quiere extraer la moda
#'
#' @return el valor de la moda
#' @export
#'
#' @examples Mode(c(1,2,3,2,2,2,1))
Mode <- function(x) {
ux <- unique(x)
ux[which.max(tabulate(match(x, ux)))]
}
credit.Datos.Train.logSal.Out.TrNA[is.na(credit.Datos.Train.logSal.Out.TrNA$Genero),"Genero"] <-
Mode(credit.Datos.Train.logSal.Out.TrNA$Genero)
credit.Datos.Train.logSal.Out.TrNA[is.na(credit.Datos.Train.logSal.Out.TrNA$EstadoCivil),"EstadoCivil"] <-
Mode(credit.Datos.Train.logSal.Out.TrNA$EstadoCivil)
credit.Datos.Train.logSal.Out.TrNA[is.na(credit.Datos.Train.logSal.Out.TrNA$Banco),"Banco"] <-
Mode(credit.Datos.Train.logSal.Out.TrNA$Banco)
credit.Datos.Train.logSal.Out.TrNA[is.na(credit.Datos.Train.logSal.Out.TrNA$NivelEducacion),"NivelEducacion"] <-
Mode(credit.Datos.Train.logSal.Out.TrNA$NivelEducacion)
credit.Datos.Train.logSal.Out.TrNA[is.na(credit.Datos.Train.logSal.Out.TrNA$Etnia),"Etnia"] <-
Mode(credit.Datos.Train.logSal.Out.TrNA$Etnia)
credit.Datos.Train.logSal.Nout.TrNA[is.na(credit.Datos.Train.logSal.Nout.TrNA$Genero),"Genero"] <-
Mode(credit.Datos.Train.logSal.Nout.TrNA$Genero)
credit.Datos.Train.logSal.Nout.TrNA[is.na(credit.Datos.Train.logSal.Nout.TrNA$EstadoCivil),"EstadoCivil"] <-
Mode(credit.Datos.Train.logSal.Nout.TrNA$EstadoCivil)
credit.Datos.Train.logSal.Nout.TrNA[is.na(credit.Datos.Train.logSal.Nout.TrNA$Banco),"Banco"] <-
Mode(credit.Datos.Train.logSal.Nout.TrNA$Banco)
credit.Datos.Train.logSal.Nout.TrNA[is.na(credit.Datos.Train.logSal.Nout.TrNA$NivelEducacion),"NivelEducacion"] <-
Mode(credit.Datos.Train.logSal.Nout.TrNA$NivelEducacion)
credit.Datos.Train.logSal.Nout.TrNA[is.na(credit.Datos.Train.logSal.Nout.TrNA$Etnia),"Etnia"] <-
Mode(credit.Datos.Train.logSal.Nout.TrNA$Etnia)
ppknn.Out <- preProcess(credit.Datos.Train.logSal.Out, method = c("knnImpute"), na.remove = TRUE,
k = 5, knnSummary = mean, outcome = NULL, fudge = .2, numUnique = 3)
credit.Datos.Train.logSal.Out.knn <- predict(ppknn.Out, credit.Datos.Train.logSal.Out)
ppknn.Nout <- preProcess(credit.Datos.Train.logSal.Nout, method = c("knnImpute"), na.remove = TRUE,
k = 5, knnSummary = mean, outcome = NULL, fudge = .2, numUnique = 3)
install.packages("RANN")
library(RANN)
# SEPARACIÓN EN TRAIN Y TEST
credit.trainIdx<- createDataPartition(credit[,"Clase"],p=0.8,list = FALSE,times = 1)
credit.Datos.Train<-credit[credit.trainIdx,]
credit.Datos.Test<-credit[-credit.trainIdx,]
# Aplicamos el logaritmo al salario
credit.Datos.Train.logSal <- credit.Datos.Train
credit.Datos.Train.logSal$Salario <- log(credit.Datos.Train.logSal$Salario + 1)
# Eliminamos la variable CodigoPostal
credit.Datos.Train.logSal <-credit.Datos.Train.logSal[setdiff(names(credit.Datos.Train.logSal),"CodigoPostal")]
# VALORES ATÍPICOS
# Los observamos haciendo uso de bwplot, se puede observar que Salario ya no tiene outliers
library(reshape2)
bwplot(~value | variable, data = melt(credit.Datos.Train.logSal, id.vars = 15, measure.vars = c("Edad")))
bwplot(~value | variable, data = melt(credit.Datos.Train.logSal, id.vars = 15, measure.vars = c("Deuda")))
bwplot(~value | variable, data = melt(credit.Datos.Train.logSal, id.vars = 15, measure.vars = c("AniosTrabajo")))
bwplot(~value | variable, data = melt(credit.Datos.Train.logSal, id.vars = 15, measure.vars = c("Salario")))
bwplot(~value | variable, data = melt(credit.Datos.Train.logSal, id.vars = 15, measure.vars = c("PuntajeCredito")))
extremos.edad<-boxplot(credit.Datos.Train.logSal$Edad,boxwex=0.15,ylab="Edad")$out
extremos.deuda<-boxplot(credit.Datos.Train.logSal$Deuda,boxwex=0.15,ylab="Deuda")$out
extremos.aniosTrabajo<-boxplot(credit.Datos.Train.logSal$AniosTrabajo,boxwex=0.15,ylab="aniosTrabajo")$out
extremos.PuntajeCredito<-boxplot(credit.Datos.Train.logSal$PuntajeCredito,boxwex=0.15,ylab="PuntajeCredito")$out
# Calculamos el valor a partir del cual las muestras se consideran outliers para cada una de las cuatro variables
porArriba.edad<-min(extremos.edad[extremos.edad > median(na.omit(credit.Datos.Train.logSal$Edad))])
porArriba.deuda<-min(extremos.deuda[extremos.deuda > median(na.omit(credit.Datos.Train.logSal$Deuda))])
porArriba.aniosTrabajo<-min(extremos.aniosTrabajo[extremos.aniosTrabajo > median(na.omit(credit.Datos.Train.logSal$AniosTrabajo))])
porArriba.puntajeCredito<-min(extremos.PuntajeCredito[extremos.PuntajeCredito > median(na.omit(credit.Datos.Train.logSal$PuntajeCredito))])
# Visualizamos cuáles son las variables correspondientes a los valores
# que consideramos atípicos, basándonos en los gráficos de bwplot anteriores
na.omit(credit.Datos.Train.logSal[credit.Datos.Train.logSal$Edad >= porArriba.edad,])
na.omit(credit.Datos.Train.logSal[credit.Datos.Train.logSal$Deuda >= porArriba.deuda,])
na.omit(credit.Datos.Train.logSal[credit.Datos.Train.logSal$AniosTrabajo >= porArriba.aniosTrabajo,])
na.omit(credit.Datos.Train.logSal[credit.Datos.Train.logSal$PuntajeCredito > porArriba.puntajeCredito,])
# Decidimos eliminar solamente los outliers de la variable Edad
# Se crean dos nuevos conjuntos de datos
credit.Datos.Train.logSal.Out <- credit.Datos.Train.logSal
credit.Datos.Train.logSal.Nout <- credit.Datos.Train.logSal
credit.Datos.Train.logSal.Nout <- credit.Datos.Train.logSal.Nout[-which(credit.Datos.Train.logSal.Nout$Edad %in% extremos.edad),]
# ESTUDIO DE LOS NA's
# Vemos el número de NA's y cuántos corresponden a cada variable
sum(!complete.cases(credit.Datos.Train.logSal.Out))
map_dbl(credit.Datos.Train.logSal.Out, .f = function(x){sum(is.na(x))})
sum(!complete.cases(credit.Datos.Train.logSal.Nout))
map_dbl(credit.Datos.Train.logSal.Nout, .f = function(x){sum(is.na(x))})
# Creamos los nuevos subconjuntos
credit.Datos.Train.logSal.Out.TrNA <- credit.Datos.Train.logSal.Out
credit.Datos.Train.logSal.Nout.TrNA <- credit.Datos.Train.logSal.Nout
# Como la edad tiene una distribución skewed, sustituimos los NA's por el valor de la mediana
credit.Datos.Train.logSal.Out.TrNA[is.na(credit.Datos.Train.logSal.Out.TrNA$Edad),"Edad"] <-
median(credit.Datos.Train.logSal.Out.TrNA$Edad,na.rm=T)
credit.Datos.Train.logSal.Nout.TrNA[is.na(credit.Datos.Train.logSal.Nout.TrNA$Edad),"Edad"] <-
median(credit.Datos.Train.logSal.Nout.TrNA$Edad,na.rm=T)
sum(!complete.cases(credit.Datos.Train.logSal.Out.TrNA))
map_dbl(credit.Datos.Train.logSal.Out.TrNA, .f = function(x){sum(is.na(x))})
sum(!complete.cases(credit.Datos.Train.logSal.Nout.TrNA))
map_dbl(credit.Datos.Train.logSal.Nout.TrNA, .f = function(x){sum(is.na(x))})
#' Obtención de la moda de un vector
#'
#' @param x Vector del que se quiere extraer la moda
#'
#' @return el valor de la moda
#' @export
#'
#' @examples Mode(c(1,2,3,2,2,2,1))
Mode <- function(x) {
ux <- unique(x)
ux[which.max(tabulate(match(x, ux)))]
}
credit.Datos.Train.logSal.Out.TrNA[is.na(credit.Datos.Train.logSal.Out.TrNA$Genero),"Genero"] <-
Mode(credit.Datos.Train.logSal.Out.TrNA$Genero)
credit.Datos.Train.logSal.Out.TrNA[is.na(credit.Datos.Train.logSal.Out.TrNA$EstadoCivil),"EstadoCivil"] <-
Mode(credit.Datos.Train.logSal.Out.TrNA$EstadoCivil)
credit.Datos.Train.logSal.Out.TrNA[is.na(credit.Datos.Train.logSal.Out.TrNA$Banco),"Banco"] <-
Mode(credit.Datos.Train.logSal.Out.TrNA$Banco)
credit.Datos.Train.logSal.Out.TrNA[is.na(credit.Datos.Train.logSal.Out.TrNA$NivelEducacion),"NivelEducacion"] <-
Mode(credit.Datos.Train.logSal.Out.TrNA$NivelEducacion)
credit.Datos.Train.logSal.Out.TrNA[is.na(credit.Datos.Train.logSal.Out.TrNA$Etnia),"Etnia"] <-
Mode(credit.Datos.Train.logSal.Out.TrNA$Etnia)
credit.Datos.Train.logSal.Nout.TrNA[is.na(credit.Datos.Train.logSal.Nout.TrNA$Genero),"Genero"] <-
Mode(credit.Datos.Train.logSal.Nout.TrNA$Genero)
credit.Datos.Train.logSal.Nout.TrNA[is.na(credit.Datos.Train.logSal.Nout.TrNA$EstadoCivil),"EstadoCivil"] <-
Mode(credit.Datos.Train.logSal.Nout.TrNA$EstadoCivil)
credit.Datos.Train.logSal.Nout.TrNA[is.na(credit.Datos.Train.logSal.Nout.TrNA$Banco),"Banco"] <-
Mode(credit.Datos.Train.logSal.Nout.TrNA$Banco)
credit.Datos.Train.logSal.Nout.TrNA[is.na(credit.Datos.Train.logSal.Nout.TrNA$NivelEducacion),"NivelEducacion"] <-
Mode(credit.Datos.Train.logSal.Nout.TrNA$NivelEducacion)
credit.Datos.Train.logSal.Nout.TrNA[is.na(credit.Datos.Train.logSal.Nout.TrNA$Etnia),"Etnia"] <-
Mode(credit.Datos.Train.logSal.Nout.TrNA$Etnia)
library(RANN)
ppknn.Out <- preProcess(credit.Datos.Train.logSal.Out, method = c("knnImpute"), na.remove = TRUE,
k = 5, knnSummary = mean, outcome = NULL, fudge = .2, numUnique = 3)
credit.Datos.Train.logSal.Out.knn <- predict(ppknn.Out, credit.Datos.Train.logSal.Out)
ppknn.Nout <- preProcess(credit.Datos.Train.logSal.Nout, method = c("knnImpute"), na.remove = TRUE,
k = 5, knnSummary = mean, outcome = NULL, fudge = .2, numUnique = 3)
credit.Datos.Train.logSal.Nout.knn <- predict(ppknn.Nout, credit.Datos.Train.logSal.Nout)
credit.Datos.Train.logSal.Out.knn[is.na(credit.Datos.Train.logSal.Out.knn$Genero),"Genero"] <-
Mode(credit.Datos.Train.logSal.Out.knn$Genero)
credit.Datos.Train.logSal.Out.knn[is.na(credit.Datos.Train.logSal.Out.knn$EstadoCivil),"EstadoCivil"] <-
Mode(credit.Datos.Train.logSal.Out.knn$EstadoCivil)
credit.Datos.Train.logSal.Out.knn[is.na(credit.Datos.Train.logSal.Out.knn$Banco),"Banco"] <-
Mode(credit.Datos.Train.logSal.Out.knn$Banco)
credit.Datos.Train.logSal.Out.knn[is.na(credit.Datos.Train.logSal.Out.knn$NivelEducacion),"NivelEducacion"] <-
Mode(credit.Datos.Train.logSal.Out.knn$NivelEducacion)
credit.Datos.Train.logSal.Out.knn[is.na(credit.Datos.Train.logSal.Out.knn$Etnia),"Etnia"] <-
Mode(credit.Datos.Train.logSal.Out.knn$Etnia)
credit.Datos.Train.logSal.Nout.knn[is.na(credit.Datos.Train.logSal.Nout.knn$Genero),"Genero"] <-
Mode(credit.Datos.Train.logSal.Nout.knn$Genero)
credit.Datos.Train.logSal.Nout.knn[is.na(credit.Datos.Train.logSal.Nout.knn$EstadoCivil),"EstadoCivil"] <-
Mode(credit.Datos.Train.logSal.Nout.knn$EstadoCivil)
credit.Datos.Train.logSal.Nout.knn[is.na(credit.Datos.Train.logSal.Nout.knn$Banco),"Banco"] <-
Mode(credit.Datos.Train.logSal.Nout.knn$Banco)
credit.Datos.Train.logSal.Nout.knn[is.na(credit.Datos.Train.logSal.Nout.knn$NivelEducacion),"NivelEducacion"] <-
Mode(credit.Datos.Train.logSal.Nout.knn$NivelEducacion)
credit.Datos.Train.logSal.Nout.knn[is.na(credit.Datos.Train.logSal.Nout.knn$Etnia),"Etnia"] <-
Mode(credit.Datos.Train.logSal.Nout.knn$Etnia)
corrNum.Out.TrNA <- sapply(credit.Datos.Train.logSal.Out.TrNA,FUN=as.numeric)
symnum(cor(corrNum.Out.TrNA[,1:14],use="complete.obs"))
corrNum.Out.knn <- sapply(credit.Datos.Train.logSal.Out.knn,FUN=as.numeric)
symnum(cor(corrNum.Out.knn[,1:14],use="complete.obs"))
corrNum.Nout.TrNA <- sapply(credit.Datos.Train.logSal.Nout.TrNA,FUN=as.numeric)
symnum(cor(corrNum.Nout.TrNA[,1:14],use="complete.obs"))
corrNum.Nout.knn <- sapply(credit.Datos.Train.logSal.Nout.knn,FUN=as.numeric)
symnum(cor(corrNum.Nout.knn[,1:14],use="complete.obs"))
# Como EstadoCivil y Banco tienen una correlación de 1, eliminamos una de ellas: EstadoCivil
credit.Datos.Train.logSal.Out.TrNA.Corr<-credit.Datos.Train.logSal.Out.TrNA[setdiff(names(credit.Datos.Train.logSal.Out.TrNA),"EstadoCivil")]
credit.Datos.Train.logSal.Out.knn.Corr<-credit.Datos.Train.logSal.Out.knn[setdiff(names(credit.Datos.Train.logSal.Out.knn),"EstadoCivil")]
credit.Datos.Train.logSal.Nout.TrNA.Corr<-credit.Datos.Train.logSal.Nout.TrNA[setdiff(names(credit.Datos.Train.logSal.Nout.TrNA),"EstadoCivil")]
credit.Datos.Train.logSal.Nout.knn.Corr<-credit.Datos.Train.logSal.Nout.knn[setdiff(names(credit.Datos.Train.logSal.Nout.knn),"EstadoCivil")]
ppPCAcont.Nout.TrNA <- preProcess(credit.Datos.Train.logSal.Nout.TrNA.Corr[,1:14],method=c("pca"),thresh = 0.8)
credit.Datos.Train.logSal.Nout.TrNA.Corr.PCA <- predict(ppPCAcont.Nout.TrNA,credit.Datos.Train.logSal.Nout.TrNA.Corr)
ppPCAcont.Nout.knn <- preProcess(credit.Datos.Train.logSal.Nout.knn.Corr[,1:14],method=c("pca"),thresh = 0.8)
credit.Datos.Train.logSal.Nout.knn.Corr.PCA <- predict(ppPCAcont.Nout.knn,credit.Datos.Train.logSal.Nout.knn.Corr)
ppNorm.Out<-preProcess(credit.Datos.Train.logSal.Out.TrNA.Corr[,sapply(credit.Datos.Train.logSal.Out.TrNA.Corr,FUN=is.numeric)],method=c("center","scale"))
credit.Datos.Train.logSal.Out.TrNA.Corr.Norm <- predict(ppNorm.Out,credit.Datos.Train.logSal.Out.TrNA.Corr)
ppNorm.Nout<-preProcess(credit.Datos.Train.logSal.Nout.TrNA.Corr[,sapply(credit.Datos.Train.logSal.Nout.TrNA.Corr,FUN=is.numeric)],method=c("center","scale"))
credit.Datos.Train.logSal.Nout.TrNA.Corr.Norm <- predict(ppNorm.Nout,credit.Datos.Train.logSal.Nout.TrNA.Corr)
var.Salida <- c("Clase")
train.Vars.Entrada.NoPCA<-setdiff(names(credit.Datos.Train.logSal.Out.TrNA.Corr.Norm),var.Salida)
credit.TrainCtrl.3cv10.resampAll <- trainControl(
method = "repeatedcv",
number = 10,
repeats = 3,
returnResamp = "all" )
roxygen2::roxygenise()
setwd("~/Escritorio/GitHub/ML-R")
roxygen2::roxygenise()
roxygen2::roxygenise()
install.packages("gbm")
library(rf)
roxygen2::roxygenise()
install.packages("e1071")
roxygen2::roxygenise()
roxygen2::roxygenise()
help("train")
roxygen2::roxygenise()
roxygen2::roxygenise()
install.packages("randomForest")
install.packages("rpart")
devtools::document()
devtools::document()