# Serão realizados vários procedimentos de estimação de dados faltantes levando em conta a natureza do dado faltante e em seguida será realizado uma previsão de um tipo de alga marinha pelo algoritmo de Árvore de Regressão.

In [None]:
require(rpart)
require(rpart.plot)
require(DMwR2)
require("TeachingSampling")
require(ggplot2)
require(nortest)
require(e1071)
require(mice)

In [None]:
data(algae, package="DMwR2")

In [None]:
algae[c(62,199),]

In [None]:
dados=algae[-c(62,199),]
head(dados)

In [None]:
#Proporção de dados faltantes
nrow(dados[!complete.cases(dados),])/nrow(dados)

### Valores faltantes nas linhas

In [None]:

apply(dados,1,function(x) sum(is.na(x)))

### Valores faltantes nas colunas

In [None]:

dados=algae[-c(62,199),]
apply(dados,2,function(x) sum(is.na(x)))

## Pré-Processamento de dados com alguns métodos de estimação de dados faltantes.

### Estimação dos valores faltantes tirando as linhas com valores faltantes

In [None]:
dados=dados[complete.cases(dados),]

In [None]:
##Valores faltantes nas colunas
apply(dados,2,function(x) sum(is.na(x)))

# Estimação dos valores faltantes pela média, mediana.

In [None]:
#dados=AjeitaDados(dados)
dados=algae[-c(62,199),]
##Variáveis que tem valores faltantes
apply(dados,2,function(x) sum(is.na(x)))

#### Variável mxPH

In [None]:
(ggplot(dados)+aes(mxPH)+geom_histogram(aes(y=..density..),color="black",fill="#00AFBB")
+geom_rug()+geom_density()+theme_test())

In [None]:
skewness(dados$mxPH,na.rm=T)
kurtosis(dados$mxPH,na.rm=T)

In [None]:
(ggplot(dados)+aes(1,mxPH)+geom_boxplot(fill="#00AFBB",color="black")
  +geom_rug()+geom_hline(aes(yintercept=mean(dados$mxPH,na.rm=T),color="red"))+theme_test())

In [None]:
##Proporção dos outliers
6/198

In [None]:
qqnorm(dados$mxPH)
qqline(dados$mxPH,col="red")

In [None]:
shapiro.test(dados$mxPH)
lillie.test(dados$mxPH)

#### A variável mxPH pode ser considerada com distribuição normal com evidências do histograma e sua densidade estimada, assimetria e curtose, box-plot e a proporção de outlier chega perto de 5%, e um dos dois testes de hipóteses realizados não-rejeitam normalidade a nível de 1%, com isso o valor a ser imputado será a média.

In [None]:
dados$mxPH[which(is.na(dados$mxPH))]=mean(dados$mxPH,na.rm=T)

In [None]:
apply(dados,2,function(x) sum(is.na(x)))

### Variável mnO2

In [None]:
(ggplot(dados)+aes(mnO2)+geom_histogram(aes(y=..density..),color="black",fill="#00AFBB")
  +geom_rug()+geom_density()+theme_test())

In [None]:
skewness(dados$mnO2,na.rm=T)
kurtosis(dados$mnO2,na.rm=T)

In [None]:
(ggplot(dados)+aes(1,mnO2)+geom_boxplot(fill="#00AFBB",color="black")
  +geom_rug()+geom_hline(aes(yintercept=mean(dados$mnO2,na.rm=T),color="red")+theme_test()))

In [None]:
qqnorm(dados$mnO2)
qqline(dados$mnO2,col="red")

In [None]:
shapiro.test(dados$mnO2)
lillie.test(dados$mnO2)

#### A variável mnO2 não pode ser considerada com distribuição normal pelas evidências do histograma e sua densidade estimada, assimetria e curtose, box-plot e os dois testes de hipóteses realizados rejeitaram normalidade, com isso o valor a ser imputado será a mediana.

In [None]:
x=which(is.na(dados$mnO2))
dados$mnO2[x]=median(dados$mnO2,na.rm=T)

In [None]:
apply(dados,2,function(x) sum(is.na(x)))

### Variável Cl

In [None]:
(ggplot(dados)+aes(Cl)+geom_histogram(aes(y=..density..),color="black",fill="#00AFBB")
  +geom_rug()+geom_density()+theme_test())

In [None]:
skewness(dados$Cl,na.rm=T)
kurtosis(dados$Cl,na.rm=T)

In [None]:
(ggplot(dados)+aes(1,Cl)+geom_boxplot(fill="#00AFBB",color="black")
  +geom_rug()+geom_hline(aes(yintercept=mean(dados$Cl,na.rm=T),color="red"))+theme_test())

In [None]:
qqnorm(dados$Cl)
qqline(dados$Cl,col="red")

In [None]:
shapiro.test(dados$Cl)
lillie.test(dados$Cl)

####  A variável Cl não pode ser considerada com distribuição normal pelas evidências do histograma e sua densidade estimada, assimetria e calda bem mais pesado que a normal, box-plot e os dois testes de hipóteses realizados rejeitaram normalidade, com isso o valor a ser imputado será a mediana por ser mais robusta nessa situação.

In [None]:
dados$Cl[which(is.na(dados$Cl))]=median(dados$Cl,na.rm=T)

In [None]:
apply(dados,2,function(x) sum(is.na(x)))

# Variável PO4

In [None]:
(ggplot(dados)+aes(PO4)+geom_histogram(aes(y=..density..),color="black",fill="#00AFBB")
  +geom_rug()+geom_density()+theme_test())

In [None]:
skewness(dados$PO4,na.rm=T)
kurtosis(dados$PO4,na.rm=T)

In [None]:
(ggplot(dados)+aes(1,PO4)+geom_boxplot(fill="#00AFBB",color="black")
  +geom_rug()+geom_hline(aes(yintercept=mean(dados$PO4,na.rm=T),color="red"))+theme_test())

In [None]:
qqnorm(dados$PO4)
qqline(dados$PO4,col="red")

In [None]:
shapiro.test(dados$PO4)
lillie.test(dados$PO4)

In [None]:
dados$PO4[which(is.na(dados$PO4))]=median(dados$PO4,na.rm=T)

In [None]:
apply(dados,2,function(x) sum(is.na(x)))

#### A variável PO4 não pode ser considerada com distribuição normal pelas evidências do histograma e sua densidade estimada, assimetria e calda bem mais pesado que a normal, box-plot e os dois testes de hipóteses realizados rejeitaram normalidade, com isso o valor a ser imputado será a mediana por ser mais robusta nessa situação.¶

### Variável Chla

In [None]:
(ggplot(dados)+aes(Chla)+geom_histogram(aes(y=..density..),color="black",fill="#00AFBB")
  +geom_rug()+geom_density())

In [None]:
skewness(dados$Chla,na.rm=T)
kurtosis(dados$Chla,na.rm=T)

In [None]:
(ggplot(dados)+aes(1,Chla)+geom_boxplot(fill="#00AFBB",color="black")
  +geom_rug()+geom_hline(aes(yintercept=mean(dados$Chla,na.rm=T),color="red")))

In [None]:
qqnorm(dados$Chla)
qqline(dados$Chla,col="red")

In [None]:
shapiro.test(dados$Chla)
lillie.test(dados$Chla)

#### A variável Chla não pode ser considerada com distribuição normal pelas evidências do histograma e sua densidade estimada, assimetria e calda bem mais pesado que a normal, box-plot e os dois testes de hipóteses realizados rejeitaram normalidade, com isso o valor a ser imputado será a mediana por ser mais robusta nessa situação.

In [None]:
dados$Chla[which(is.na(dados$Chla))]=median(dados$Chla,na.rm=T)

In [None]:
apply(dados,2,function(x) sum(is.na(x)))

# Estimando pela correlação entre as variáveis

In [None]:
dados=algae[-c(62,199),]
apply(dados,2,function(x) sum(is.na(x)))

# Matriz de correlações

In [None]:
symnum(cor(dados[,4:18],use="complete.obs"))

### Variável PO4

In [None]:
cor(dados$PO4, dados$oPO4, use = "complete.obs")

In [None]:
ggplot(dados)+aes(oPO4,PO4)+geom_point()+geom_smooth(method="lm",se=F)+theme_test()

In [None]:
model=lm(dados$PO4 ~ dados$oPO4, data=dados)
summary(model)

In [None]:
pos=which(is.na(dados$PO4))
dados$PO4[pos]=model$coefficients%*%t(t(c(1,dados$oPO4[pos])))

In [None]:
apply(dados,2,function(x) sum(is.na(x)))

### Variável Chla

In [None]:
cor(dados$mxPH, dados$Chla, use = "complete.obs")

In [None]:
ggplot(dados)+aes(mxPH,Chla)+geom_point()+geom_smooth(method="lm",se=F)+theme_test()

In [None]:
model=lm(dados$Chla ~ dados$mxPH, data=dados)
summary(model)

In [None]:
pos=which(is.na(dados$Chla))
dados$Chla[pos]=cbind(rep(1,length(pos)),dados$mxPH[pos])%*%t(t(model$coefficients))

In [None]:
apply(dados,2,function(x) sum(is.na(x)))

# Variável mxPH

In [None]:
cor(dados$mxPH, dados$Chla, use = "complete.obs")

In [None]:
ggplot(dados)+aes(Chla,mxPH)+geom_point()+geom_smooth(method="lm",se=F)+theme_test()

In [None]:
model=lm(dados$mxPH ~ dados$Chla, data=dados)
summary(model)

In [None]:
pos=which(is.na(dados$mxPH))
dados$mxPH[pos]=cbind(rep(1,length(pos)),dados$Chla[pos])%*%t(t(model$coefficients))

In [None]:
apply(dados,2,function(x) sum(is.na(x)))

# Variável Cl

In [None]:
cor(dados$Cl, dados$PO4, use = "complete.obs")

In [None]:
ggplot(dados)+aes(PO4,Cl)+geom_point()+geom_smooth(method="lm",se=F)+theme_test()

In [None]:
model=lm(dados$Cl ~ dados$PO4, data=dados)
summary(model)

In [None]:
pos=which(is.na(dados$Cl))
dados$Cl[pos]=cbind(rep(1,length(pos)),dados$PO4[pos])%*%t(t(model$coefficients))

In [None]:
apply(dados,2,function(x) sum(is.na(x)))

# Variável mnO2

In [None]:
cor(dados$mnO2, dados$PO4, use = "complete.obs")

In [None]:
ggplot(dados)+aes(PO4,mnO2)+geom_point()+geom_smooth(method="lm",se=F)+theme_test()

In [None]:
model=lm(dados$mnO2 ~ dados$PO4, data=dados)
summary(model)

In [None]:
pos=which(is.na(dados$mnO2))
dados$mnO2[pos]=cbind(rep(1,length(pos)),dados$PO4[pos])%*%t(t(model$coefficients))

In [None]:
apply(dados,2,function(x) sum(is.na(x)))

# Imputação KNN

In [None]:
dados=algae[-c(62,199),]
apply(dados,2,function(x) sum(is.na(x)))

### 1 Vizinho mais próximo

In [None]:
dados=knnImputation(dados,1,scale=T,meth="median")
apply(dados,2,function(x) sum(is.na(x)))

### 10 Vizinhos mais próximos

In [None]:
dados=algae[-c(62,199),]
apply(dados,2,function(x) sum(is.na(x)))

In [None]:
dados=knnImputation(dados,10,scale=T,meth="weighAvg")
apply(dados,2,function(x) sum(is.na(x)))

### Imputaçao multipla

In [None]:
dados=algae[-c(62,199),]
apply(dados,2,function(x) sum(is.na(x)))

In [None]:
#dados=AjeitaDados(dados)
nrow(dados)

In [None]:
md.pattern(dados)

In [None]:
imputacao=mice(dados,m=5,method="pmm",maxit=50)

In [None]:
summary(imputacao)

In [None]:
imputacao$imp[c(4,5,6,10,11)]

In [None]:
# Banco de dados específico
head(complete(imputacao,4))