# Correlação Linear e Regressão Linear Simples

##Correlação Linear

A correlação é uma técnica utilizada para estimar uma relação que possa existir na população, enquanto as que as medidas de tendência central e de dispersão, servem para estimar um único parâmetro populacional.

Duas variáveis estão relacionadas se a mudança de uma provoca a mudança na outra.
A correlação mede a força ou o grau de relacionamento entre duas variáveis.

Logo, correlação entre duas variáveis é quando a alteração no valor de uma varíavel (neste caso independente) provoca alterações no valor da outra variável (dependente).

Exemplo: processamento x consumo de energia


##Diagramas de Dispersão

Um diagrama de dispersão mostra a relação entre duas variáveis quantitativas.

Os valores de uma variável aparecem no eixo horizontal, e os da outra, no eixo vertical.
Os pontos do gráfico são definidos pelos valores de ambas as variáveis para aquele ponto.

Exemplos:

*   Número de peças produzidas e número de peças defeituosas
*   Velocidade e consumo de combustível
*   Processamento x consumo de energia

##Regressão Linear Simples

A regressão também é uma técnica para estimar uma relação entre variáveis.

Neste caso, fornece uma equação que descreve o relacionamento em termos matemáticos, pressupondo
alguma relação de causa e efeito entre as variáveis. Por exemplo: a idade e a altura de cada indivíduo.

A regressão linear simples constitui uma tentativa de estabelecer uma equação matemática
linear (reta) com apenas uma variável dependente que descreva o relacionamento
entre duas variáveis.

A equação linear (reta de regressão) apresenta como principais características:


*   O coeficiente angular da reta é dado pela tangente da reta e se denomina “a”;
*   A cota da reta em determinado ponto é o coeficiente linear denominado “b” que é o valor de y quando x for igual a zero.

Possui a seguinte fórmula:

$y = ax + b + \epsilon $

onde:
* x (inclinação ou coeficiente angular) é a variável explicativa, independente ou preditora. Para cada aumento de uma unidade em $x$, temos um aumento médio de $a$ unidades em $y$;
* y (intercepto) é a variável explicada, dependente ou resposta;
* *e* é chamado de erro que corresponde ao desvio entre o valor real e o aproximado
(pela reta) de y. Isso porque sempre teremos observações amostrais que não são
pontos da reta.

Nem todas as situações são bem aproximadas por uma equação linear.
Quando os dados não podem ser aproximados por um modelo linear, as alternativas são
procurar um modelo não-linear. Alguns exemplos de modelos não-lineares:


*   Modelo de Mitscherlich
*   Modelo Logístico
*   Modelo de Gompertz
*   Modelo de Michaelis-Mentel

Para avaliarmos uma correlação e verificarmos se é linear, podemos utilizar da análise gráfica das variáveis através do gráfico de dispersão.

Exemplo em R:

In [0]:
data(Orange) #importanto dataset
x <- Orange$age
y <- Orange$circumference
plot(x,y)

##A Equação Linear

Para obtermos os parâmetros ($a$ e $b$) da equação de primeiro grau da equação linear devemos estabelecer um critério. 
Neste caso será utilizado o método dos mínimos quadrados de forma a encontrar os valores de $a e $b$ da reta de regressão que minimizem a soma dos quadrados dos desvios individuais.
Os desvios individuais correspondem à diferença entre a medida real (do fenômeno estudado) e a medida aproximada pela reta de regressão. O somatório dos quadrados dos desvios é mostrado abaixo:

$ \sum_{i=1}^n d_i^2 = \sum_{i=1}^n (y_i - y_c)^2 $

onde:
* $y_i$ é o valor observado de y;
* $y_c$ é o valor calculado de y na função linear.


Com este método, é possível deduzir a reta que **melhor explica** a relação entre a variável independente e a variável dependente.


Os valore de $a$ e $b$ são calculados como:


$ a = \frac {n\sum_{i=1}^n x_iy_i - \sum_{i=1}^n x_i\sum_{i=1}^ny_i } {n\sum_{i=1}^n x_i^2 - (\sum_{i=1}^n x_i)^2 } $

$ b = \frac {\sum_{i=1}^n y_i - a\sum_{i=1}^n x_i } {n} $

Para obtermos a equação linear, podemos usar a função:


```
lm(y~x,data)
```

Sendo lm, a abreviação de "linear model", e os parâmetros podem ser lidos: "y~x" como sendo y depende de x.
o argumento “data” recebe o conjunto de dados como uma estrutura chamada *data.frame* a serem analisado e as variáveis y e x são as colunas em análise.

Exemplo:


In [0]:
#plot(dados$x,dados$y)
dados = data.frame(x,y) #criando um data.frame à partir de x e y
regr = lm(y~x,data=dados) #ou apenas "regressão=lm(y~x)"

In [0]:
regr

In [0]:
regr$coefficients #ou coef(regr)
v = coef(regr)["(Intercept)"]

Neste caso, temos a seguinte equação:

$ a = 0.106770325068761 $

$ b = 17.3996502401635 $

Vamos testar um exemplo. Supondo que um determinado x seja 1500, qual seria o valor de y esperado?

Da equação temos:

$y = ax + b = 0.106770325068761x + 17.3996502401635 = 0.106770325068761 \cdot 1500 + 17.3996502401635 $

$y = 177.555137843$



In [0]:
z = plot(x,y)
grid(z) #aplicando grid ao gráfico
abline(regr,col="red")

nx = 1500
ny = regr$coefficients['x'] * 1500 + regr$coefficients['(Intercept)'] #usando a equação linear

#plotando o ponto esperado
points(nx,ny,lw=2,col="green")

Para verificarmos os resultados da função lm(), inclusive os coeficientes da regressão
linear, devemos utilizar o função **summary()**:

In [0]:
summary(regr)

In [0]:
#avaliando os nomes contidos nos objetos:
names(regr)

Os comandos mais importantes listados são os seguintes:

* **regr$fitted.values** ou predict(): faz uma previsão, ou seja, calcula os valores preditos da variável resposta para cada elemento da amostra;

* **regr$residuals**: calcula o erro ou os resíduos (valor observado - valor predito) para cada ponto da amostra;

* **regr$coefficients**: obtém uma estimativa dos coeficientes da regressão.

Outros componentes do ajuste são úteis para propósito de diagnóstico. Por exemplo, pode-se examinar o gráfico de valores ajustados contra resíduos. Este gráfico pode nos mostrar os desvios dos dados em relação ao modelo linear estimado.

In [0]:
plot(regr$fitted.values,regr$residuals)
#ini <- min(regr$fitted.values)
#end <- max(regr$fitted.values)
#lines(c(ini, end),c(0,0),lw=2,col="red")

Podemos identificar valores outliers, através do histograma dos resíduos:

In [0]:
hist(regr$residuals)

Vamos inserir um outlier e ver o histograma:

In [0]:
dados_o <- rbind(dados,data.frame(x=1, y=175)) #dataframe com outlier
regr_o = lm(y~x,data=dados_o) #ou apenas "regressão=lm(y~x)"
hist(regr_o$residuals)

Você também pode plotar uma série de gráficos para o ajuste de um modelo linear através da plotagem do resultado da função **lm()**

```
plot(regr)
```

##Coeficiente de Correlação

Conforme avaliamos no exemplo anterior, através do gráfico de dispersão pode-se indicar se a correlação linear é positiva, negativa ou a inexistência de correlação.
No entanto, nem sempre poderemos analisar o gráfico e tirar conclusões.
Para ter uma medida numérica mais adequada, podemos utilizar o coeficiente de correlação $r$.
Este coeficiente é uma medida que avalia o quanto a “nuvem de pontos” no diagrama de dispersão aproxima-se de uma reta.

Podemos identificar este coeficiente, conforme a descrição abaixo. Seja $|r|$:

* 0: indica correlação Nula
* 0 a 0,3: indica correlação Fraca
* 0,3 a 0,7: indica correlação Regular
* 0,7 a 0,99: indica correlação Forte
* 1: indica correlação Perfeita

E ainda, se $r = 1$ a correlação é linear positiva e perfeita, se $r = -1$, a correlação é linear negativa e perfeita.

Este coeficiente mede o grau de associação entre duas variáveis:

* **Correlação nula**: y não cresce, indicando que a correlação não é linear (constante);
* **Correlação fraca**: indica que y cresce mais lentamente que x;
* **Correlação forte**: indica que y cresce mais rapidamente que x;
* **Correlação perfeita**: indica que y cresce na mesma velocidade que x.

O coeficiente de correlação pode ser obtido na linguagem R por:


In [0]:
cor(dados$x, dados$y)

In [0]:
cor(dados_o$x, dados_o$y) #veja que a correlação aqui é menor, devido à presença do outlier, daí a importância de encontrar e eliminar outliers

##Coeficiente de Determinação

Explica o grau de ajuste do modelo, ou o percentual de variação de y que é explicada pela variabilidade de x. Seu valor varia de 0 a 1.
Seu valor é obtivo elevando o coeficiente de correlação ao quadrado $r^2$:

In [0]:
cor(dados$x, dados$y)^2

In [0]:
cor(dados_o$x, dados_o$y)^2

O valor obtido, significa que, no exemplo dos dados sem outliers, $r^2 = 0.84 $, que aproximadamente 84% da variação da váriavel dependente é explicada pela variável independente. Os outros 16% possuem
causas aleatórias desconhecidas (independentes de x).

##Matriz de correlação
A matriz de correlação, apresenta as correlações entre múltiplas variáveis.
Para avaliarmos, seja o exemplo padrão do R, **data(mtcars)** que contém diversos modelos de carros:

In [0]:
data(mtcars)
head(mtcars)

Vamos avaliar as correlações, comparando todas as colunas deste dataframe:

In [0]:
cc <- cor(mtcars)
cc

Podemos utilizar outras bibliotecas para visualizar a matriz de correlação:



```
install.packages('corrplot')
library(corrplot)
```

Observação: procure o help do **corrplot**


In [0]:
install.packages('corrplot')
library(corrplot)

In [0]:
No exemplo abaixo, o padrão da função corrplot, apresenta um círculo em cada célula, em que o tamanho do círculo indica o grau de correlação. 
As cores de cada círculo, representam se as variáveis são positivamente ou negativamente correlacionados.

In [0]:
corrplot(cc)

Também é possível alterar o método padrão de visualização:


```
corrplot(cc, method="??")
```
Alguns exemplos de métodos:

*   ellipse
*   color
*   shade


In [0]:
corrplot(cc, method="number") #neste exemplo avaliamos os valores

Outras bibliotecas:

[Hmisc](https://www.rdocumentation.org/packages/Hmisc/versions/4.2-0), [PerformanceAnalytics](https://www.rdocumentation.org/packages/PerformanceAnalytics/versions/1.5.3)

