In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
#Executar no Colab, para acessar arquivos no Drive
# from google.colab import drive
# drive.mount('/drive')

# Correlação

O **coeficiente de correlação** é uma métrica de avaliação de **quanto** uma variável influencia em outra.

**Exemplo**  

Considere os dados apresentados no dataframe abaixo. A tabela possui informações de uma turma de alunos, com o tempo de dedicação ao estudo da disciplina (em horas) e a nota obtida em determinada disciplina (expresso em valores de 0 a 100).

**Atividade**  

- Gere e observe o dataframe com informações sobre tempo de estudo e nota obtida.

```python
#Dataframe
dfTempoEstudo = pd.DataFrame(
    {'Tempo': 
     {0: 9.9, 1: 2.8, 2: 0.1, 3: 9.9, 4: 2.8, 5: 3.6, 6: 6.4, 7: 8.0, 8: 0.0, 9: 7.0, 10: 8.1, 11: 3.2, 12: 3.4, 13: 3.0, 14: 2.6, 15: 8.0, 16: 5.8, 17: 4.8, 18: 6.4, 19: 5.2, 20: 5.3, 21: 5.0, 22: 7.2, 23: 3.9, 24: 3.6, 25: 10.0, 26: 0.6, 27: 2.5, 28: 3.0, 29: 1.8}, 
     'Nota': 
     {0: 85, 1: 23, 2: 0, 3: 96, 4: 10, 5: 31, 6: 51, 7: 85, 8: 23, 9: 89, 10: 86, 11: 43, 12: 46, 13: 34, 14: 20, 15: 86, 16: 70, 17: 48, 18: 87, 19: 22, 20: 67, 21: 65, 22: 58, 23: 47, 24: 46, 25: 100, 26: 18, 27: 16, 28: 42, 29: 25}}
)
dfTempoEstudo
```

**Atividade**  

- Gere um *gráfico de dispersão* com as variáveis `Tempo` e `Nota`.
```python
#Gráfico de dispersão
dfTempoEstudo.plot.scatter('Tempo','Nota')
```

**Observação**  

Um *gráfico de dispersão* consiste em apresentar pontos em um eixo cartesiano. No exemplo, o eixo X é composto pelo tempo de estudo e o eixo Y pela nota obtida.

**Atividade**  

Observando os dados com as variádeis do tempo de estudo e a nota da prova, e responda:
- existe relação entre essas variáveis?
- qual dela é a causa e qual é o resultado?
- a influência de uma variável na outra é baixa ou alta?

## Coeficiente de correlação

O coeficiente de **correlação** consiste em um valor que expressa **quanto** uma variável influencia em outra.

Para que o coeficiente possa ser calculado, é necessário que ambas as variáveis sejam **quantitativas** (devem ser numéricas e expressarem quantidade).

A fórmula matemática para cálculo do coeficiente de correlação é:
$$
r = \frac
{n \sum{xy} - (\sum{x})(\sum{y}) }
{\sqrt{n\sum(x^2)-(\sum{x})^2}\sqrt{n\sum{y^2}-(\sum{y})^2}}
$$
onde:
- $r$: coeficiente de correlação
- $n$: número de pares de dados
- $x$: e $y$: valores em cada par de dados

A biblioteca Pandas possui métodos para o cálculo do coeficiente de correlação. Para tal, podemos utilizar o método `.corr()` presentes nas estruturas do tipo `Series`.

**Exemplo**  

```python
tempo = dfTempoEstudo['Tempo'] #Seleciona coluna Tempo, que é uma Series
nota  = dfTempoEstudo['Nota'] #Seleciona coluna Nota, que é uma Series
r = tempo.corr(nota) #Calcula a correlação entre tempo e nota
print('Correlação:', r)

```

Com isto, dizemos que a *correlação* entre as variáveis `Tempo` e `Nota` é de $0.9$.

### Interpretação

O valor do coeficiente de correlação $r$ sempre estará entre $-1$ e $+1$, sendo que para valores de $r$:
- $r = 0$ indica que não há correlação.
- $r > 0$ indica que a correlação é **positiva**, e as variáveis são *diretamente proporcionais*.
- $r < 0$ indica que a correlação é **negativa**, e as variáveis ão *inversamente proporcionais*.


Para valores próximos a $0$, dizemos há **baixa** correlação, enquanto para valores próximos de $1$ ou $-1$ dizemos que há **alta** correlação.


### Matriz de correlação

Uma **matriz de correlação** é uma matriz que apresenta as correlações entre diversas variáveis. Os `DataFrames` Pandas possuem o método `.corr()` que calcula a matriz, retornando um dataframe.

**Atividade**  

Carregue o dataframe `dfAlunos` e observe quais são as suas variáveis (colunas).
```python
#Colab
dfAlunos = pd.read_csv('/drive/Shared drives/BasesPublicas/Exemplos/alunos.csv', sep=',', encoding='latin1')
#Jupyter
# dfAlunos = pd.read_csv('alunos.csv')
dfAlunos.info()
```

**Exemplo**  

- Apresente a matriz de correlação das variáveis presentes no dataframe `dfAlunos`.
```python
dfAlunos.corr()
```

**Atividade**  

- Qual é o coeficiente de correlação $r$ entre as variáveis `Altura` e `Faltas`? Elas têm relação?
    - Há correlação? se sim, ela é positiva ou negativa?
    - Apresente o gráfico de dispersão das variáveis.
    ```python
        dfAlunos.plot.scatter('Altura','Faltas')
    ```
    - É possível traçar uma reta que represente o conjunto de dados, de maneira aproximada?

**Atividade**  

- Qual é o coeficiente de correlação $r$ entre as variáveis `Tempo` e `Nota`? Elas têm relação?
    - Existe correlação? se sim, ela é positiva ou negativa?
    - Apresente o gráfico de dispersão das variáveis.
    - É possível traçar uma reta que represente o conjunto de dados, de maneira aproximada?

**Atividade**  

- Qual é o coeficiente de correlação $r$ entre as variáveis `Faltas` e `Nota`? Elas têm relação?
    - Há correlação? se sim, ela é positiva ou negativa?
    - Apresente o gráfico de dispersão das variáveis.
    - É possível traçar uma reta que represente o conjunto de dados, de maneira aproximada?

**Exercícios**  

- Ao observar a diagonal principal da matriz de correlação, quais são os valores?
    - Por que esses valores aparecem?
    - Faça o gráfico de dispersão das variáveis na diagonal principal.
- Apresente e discuta a correlação entre as variáveis `Faltas` e `Tempo`
    - Mostre o gráfico de dispersão.
- Qual variável que possui maior influência na nota?

**Observações**  


- Variáveis devem ser quantitativas
-  **Correlação não implica causalidade**
    - Exemplos: [*Spurious Correlations*](https://www.tylervigen.com/spurious-correlations)

## Referências
[Larson, R. Farber, B. Estatística Aplicada. 4.ed. São Paulo: Pearson, 2010.](https://plataforma.bvirtual.com.br/Leitor/Publicacao/1242/pdf/17?code=uf41RbVY0KRUTqVSy8ZkDfrIynwKU/7WlWkTiuzQ80rimcX0BPrl4YlRFDwfh/CAJap2mr8WYHpuFbtdynL4mQ==) (Link para a biblioteca virtual)  
Morettin  
[VIGEN, T. Spurious Correlations.](https://www.tylervigen.com/spurious-correlations)  
