# Exemplos de regressão linear simples

### Exemplo 1:

Os dados a seguir apresentam as respectivas alturas (em polegadas) de uma amostra de 12 pais e seus filhos mais velhos.

In [None]:
pai = c(65,63,67,64,68,62,70,66,68,67,69,71)
filho = c(68,66,68,65,69,66,68,65,71,67,68,70)

Convertendo os dados de polegadas para metros (**opcional**):

In [None]:
pai = pai*0.0254
filho = filho*0.0254

Obtendo o gráfico de dispersão:

In [None]:
plot(pai, filho)

Avaliando a associação (correlação) linear entre as variáveis:

In [None]:
cor.test(pai, filho)

Como o p-valor (p-value) é de aproximadamente 1%, rejeitamos a hipótese nula de que o verdadeiro coeficiente de correlação linear é zero. O mesmo pode ser concluído pelo intervalo de confiança de 95%, uma vez que o valor zero não está contido neste (rejeita-se a hipótese nula ao nível de significância de 5%). Por fim, temos que o coeficiente de correlação linear de Person é aproximadamente igual a 0,7, ou seja, a correlação entre a altura do pai e a altura do filho mais velho é forte.

Ajustando o modelo de regressão linear simples aos dados:

In [None]:
fit = lm(filho ~ pai)

Exibindo os parâmetros $\beta_0$ e $\beta_1$ estimados:

In [None]:
fit

Logo, temos que $\beta_0 = 0,9100$ e $\beta_1 = 0,4764$ e o modelo fica dado por:

$$\hat{y}=0,9100+0,4764x$$

O gráfico do ajuste pode ser feito da seguinte maneira:

In [None]:
plot(pai,filho)
abline(fit)

Para um pai com 1,75m de altura, o modelo prediz a altura do filho por:

In [None]:
predict(fit, data.frame(pai = 1.75))

**Observação:** Para pais com 1,75m de altura, o modelo prediz o mesmo valor para a altura média dos filhos desses pais.

Para vários pais com 1,75m de altura, podemos obter um **intervalo de predição** para a futura altura de seus respectivos filhos mais velhos.

In [None]:
predict(fit, data.frame(pai = 1.75), interval = 'prediction', level = 0.95)

Logo, não sabemos dizer qual será a altura exata de filhos de pais com 1,75m de altura mas, seguindo o modelo linear ajustado, temos 95% de confiança de que as alturas de seus filhos mais velhos estarão no intervalo (1,66m; 1,83m).

Por outro lado, temos que a altura média do filhos mais velhos cujos pais possuem 1,75m de altura é dado pelo seguinte **intervalo de confiança**:

In [None]:
predict(fit, data.frame(pai = 1.75), interval = 'confidence')

Assim, não sabemos qual é a altura média dos filhos mais velhos de pais com 1,75m de altura, mas temos 95% de confiança de que tal altura média está no intervalo (1,71m; 1,77m).

Vamos agora conduzir um diagnóstico do ajuste. **Observação:** Lembre-se que esta etapa deve vir antes de qualquer procedimento inferencial.

A função ```residuals()``` retorna os resíduos estimados $\hat{e}_i$, enquanto que a função ```rstandard()``` retorna os resíduos padronizados. A função ```fitted()``` retorna os valores $\hat{y}_i$ preditos pelo modelo ajustado.

In [None]:
residuals(fit)

In [None]:
rstandard(fit)

In [None]:
fitted(fit)

Assim, podemos fazer um gráfico de dispersão dos valores ajustados contra seus resíduos estimados (usualmente utiliza-se os resíduos padronizados).

In [None]:
ajustados <- fitted(fit)
p_resid <- rstandard(fit)

plot(ajustados, p_resid)

Nota-se neste gráfico que os pontos ficam dispersos sem nenhum tipo de padrão. Além disso, não se nota a presença de outiliers (valores dos resíduos padronizados acima de 3 ou abaixo de -3). Vamos analisar como os resíduos estão distribuídos.

In [None]:
qqnorm(p_resid)
qqline(p_resid)

Nota-se pelo gráfico de quantís normais que os pontos estão bem concentrados próximos à reta diagonal, um indicativo de normalidade dos resíduos. O teste de normalidade a seguir retorna um p-valor de 0,9354, ou seja, uma evidência muito forte em favor da hipótese nula de que os resíduos possuem distribuição normal.

In [None]:
shapiro.test(p_resid)

Em seguida, vamos verificar se existem pontos de alavanca e/ou influentes. Para isso, utilizaremos o gráfico alavanca versus resíduos.

In [None]:
plot(fit, 5)

O tamanho da amostra é igual a 12, logo, pontos de alavanca são aqueles bem maiores que 4/12 = 0,333..., o que não parece ser o caso aqui. Além disso, não há pontos que ultrapassam o limite definido pela distância de Cook, isto é, não foram detectados pontos influentes.

### Exemplo 2:

Os dados a seguir foram extraídos do Instituto Brasileiro de Geografia e Estatística (IBGE) e fornecem características socioeconômicas do Brasil entre os anos de 1990 e 2006. As caractériscas são as seguintes:

- **PIBCC:** Produto interno bruto da construção civil (em milhões de reais);

- **Populacao:** População residente no país;

- **PIBBR:** Produto interno bruto brasileiro (em milhões de reais).

Lembrando que o produto interno bruto representa a soma de todos os bens e serviços finais produzidos numa determinada região, durante um período determinado. O PIB é um dos indicadores mais utilizados na macroeconomia com o objetivo de quantificar a atividade econômica de uma região (**fonte:** Wikipédia).

In [None]:
pib = read.table("pib.csv", header = TRUE, dec = ",", sep = ";")
attach(pib) # para acessar as variáveis pelos seus respectivos rótulos
pib

### Exemplo 3 (Transformação de variáveis):

In [None]:
set.seed(123)
x = runif(100,0,20)
z = 0.6+0.35*x
z = z + rnorm(length(x),0,0.5)
y = 0.4*(3^z)

In [None]:
plot(x,y)

# Exemplo de regressão linear múltipla

Dados de investimento em propaganda e retorno em vendas (https://www.kaggle.com/ashydv/advertising-dataset).

In [None]:
dados = read.csv("advertising.csv", header = TRUE, sep = ",", dec = ".") # leitura dos dados
colnames(dados) = c("TV","Rádio","Impresso","Vendas")                    # mudando os nomes das colunas
attach(dados)
dados

In [None]:
# Dimensão dos dados
dim(dados)

In [None]:
ajuste1 = lm(Vendas ~ TV + Rádio + Impresso)
ajuste1

In [None]:
plot(Vendas, predict(ajuste1))
abline(0,1)

In [None]:
shapiro.test(residuals(ajuste1))

In [None]:
qqnorm(residuals(ajuste1))
qqline(residuals(ajuste1))

In [None]:
summary(ajuste1)

In [None]:
ajuste2 = lm(Vendas ~ TV + Rádio)

In [None]:
summary(ajuste2)

# Exemplo de regressão polinomial

In [None]:
# geração dos dados
f <- function(x)
{
    45*tanh((x/1.9)-7)+57
}

n <- 30
set.seed(1)
x <- runif(n,8,18)
y <- f(x)+rnorm(n,0,4)

plot(x,y, pch = 16, las = 1, cex.axis = 1.3, cex.lab = 1.3, col = 'purple', xlim=c(8,18),
xlab = 'Anos de Educação', ylab = 'Renda Anual')
curve(f, lwd = 2, add = TRUE)

In [None]:
fit1 = lm(y ~ x)                                  # regressão linear simples
fit2 = lm(y ~ poly(x, degree = 2, raw = TRUE))    # regressão polinomial (grau 2)
fit3 = lm(y ~ poly(x, degree = 3, raw = TRUE))    # regressão polinomial (grau 3)

In [None]:
# gráfico do ajuste linear
plot(x,y)
abline(fit1)

In [None]:
# gráfico valores ajustados versus resíduos (variar para fit1, fit2 e fit3)
plot(fitted(fit1), rstandard(fit1))

In [None]:
# visualisando os coeficientes do ajuste polinomial de grau 3
fit3

In [None]:
# função polinomial do ajuste
pol = function(x){741.8826 - 190.1372*x + 15.6314*(x^2) - 0.3915*(x^3)}

In [None]:
# gráfico do ajuste
plot(x,y)
curve(pol, add = TRUE, col = 'red')