## Disciplina: Aprendizado Estatístico

### Estudo Dirigido 4

#### Introdução
Neste estudo dirigido, exploraremos o processo de seleção de modelos em estatística usando o conjunto de dados `Hitters` e `R`. Vamos abordar técnicas como Best Subset Regression, Forward Stepwise Selection, Model Selection Using a Validation Set, Model Selection by Cross Validation, Ridge Regression e Lasso Regression.

#### Análise Inicial
- Carregue o pacote `ISLR`.
- Resuma as estatísticas descritivas do conjunto de dados `Hitters` com `summary(Hitters)`.
- Remova os valores ausentes do conjunto de dados com `Hitters=na.omit(Hitters)`.

In [1]:
library(ISLR)
summary(Hitters)
# Removendo dados faltantes:
Hitters=na.omit(Hitters)
with(Hitters,sum(is.na(Salary)))

NameError: name 'require' is not defined

#### Best Subset Regression
- Use o pacote `leaps` para realizar a seleção de modelos de `Best Subset` com diferentes tamanhos.
- Plote o critério Cp em função do número de variáveis.
- Identifique o modelo com o menor Cp.

In [None]:
library(leaps)
regfit.full=regsubsets(Salary~.,data=Hitters)
summary(regfit.full)
regfit.full=regsubsets(Salary~.,data=Hitters, nvmax=19)
reg.summary=summary(regfit.full)
names(reg.summary)
plot(reg.summary$cp,xlab="Number of Variables",ylab="Cp")
which.min(reg.summary$cp)
points(10,reg.summary$cp[10],pch=20,col="red")

#### Forward Stepwise Selection
- Realize a seleção de modelos usando o método `Forward Stepwise Selection`.
- Plote o critério Cp em função do número de variáveis.

In [None]:
plot(regfit.full,scale="Cp")
coef(regfit.full,10)
regfit.fwd=regsubsets(Salary~.,data=Hitters,nvmax=19,method="forward")
summary(regfit.fwd)
plot(regfit.fwd,scale="Cp")

#### Model Selection Using a Validation Set
- Divida o conjunto de dados em treinamento e validação.
- Realize a seleção de modelos no conjunto de treinamento.
- Faça previsões no conjunto de validação e calcule os erros.
- Plote os erros de treinamento e validação em função do número de variáveis.

In [None]:
dim(Hitters)
train=sample(seq(263),180,replace=FALSE)
train
regfit.fwd=regsubsets(Salary~.,data=Hitters[train,],nvmax=19,method="forward")
val.errors=rep(NA,19)
x.test=model.matrix(Salary~.,data=Hitters[-train,])# notice the -index!
for(i in 1:19){
    coefi=coef(regfit.fwd,id=i)
    pred=x.test[,names(coefi)]%*%coefi
    val.errors[i]=mean((Hitters$Salary[-train]-pred)^2)
}
plot(sqrt(val.errors),ylab="Root MSE",ylim=c(300,400),pch=19,type="b")
points(sqrt(regfit.fwd$rss[-1]/180),col="blue",pch=19,type="b")
legend("topright",legend=c("Training","Validation"),col=c("blue","black"),pch=19)
predict.regsubsets=function(object,newdata,id,...){
    form=as.formula(object$call[[2]])
    mat=model.matrix(form,newdata)
    coefi=coef(object,id=id)
    mat[,names(coefi)]%*%coefi
}

#### Model Selection by Cross-Validation
- Realize a seleção de modelos usando a validação cruzada de 10-fold.
- Plote os erros médios quadráticos em função do número de variáveis.

In [None]:
folds=sample(rep(1:10,length=nrow(Hitters)))
folds
table(folds)
cv.errors=matrix(NA,10,19)
for(k in 1:10){
best.fit=regsubsets(Salary~.,data=Hitters[folds!=k,],nvmax=19,method="forward")
for(i in 1:19){
pred=predict(best.fit,Hitters[folds==k,],id=i)
cv.errors[k,i]=mean( (Hitters$Salary[folds==k]-pred)^2)
}
}
rmse.cv=sqrt(apply(cv.errors,2,mean))
plot(rmse.cv,pch=19,type="b")

#### Ridge Regression and the Lasso
- Ajuste modelos de regressão Ridge e Lasso usando o pacote `glmnet`.
- Plote os resultados da regressão Ridge e a validação cruzada.
- Identifique o valor ótimo de lambda para a regressão Lasso.

In [None]:
library(glmnet)
x=model.matrix(Salary~.-1,data=Hitters)
y=Hitters$Salary
fit.ridge=glmnet(x,y,alpha=0)
plot(fit.ridge,xvar="lambda",label=TRUE)
cv.ridge=cv.glmnet(x,y,alpha=0)
plot(cv.ridge)
fit.lasso=glmnet(x,y)
plot(fit.lasso,xvar="lambda",label=TRUE)
cv.lasso=cv.glmnet(x,y)
plot(cv.lasso)
coef(cv.lasso)
lasso.tr=glmnet(x[train,],y[train])
lasso.tr
pred=predict(lasso.tr,x[-train,])
dim(pred)
rmse= sqrt(apply((y[-train]-pred)^2,2,mean))
plot(log(lasso.tr$lambda),rmse,type="b",xlab="Log(lambda)")
lam.best=lasso.tr$lambda[order(rmse)[1]]
lam.best
coef(lasso.tr,s=lam.best)