# `correlação`.

### A correlação é uma medida que tenta identificar o grau de relacionamento entre duas variáveis. Ela é muito útil para entender se uma variável exerce influência em outra. Por exemplo, a altura é correlacionada com a idade de uma criança?



![alt_text](https://dataunirio.github.io/AulaCorrelacao/img/correlacao.png)

<br>

<br>

### A correlação varia entre -1 e 1: se assumir o valor -1, as variáveis são totalmente correlacionadas uma com a outra, sendo que enquanto uma cresce, a outra diminui. Quando a correlação assume valor 1, vice e versa. Quando for 0, indica que as variáveis não são relacionadas.

![alt_text](https://d33wubrfki0l68.cloudfront.net/e3b158e0207e1a80248bc0d7283f6eee638d5e72/4f6f0/blog/correlacao_files/figure-html/unnamed-chunk-4-1.png)

<br>

<br>

<br>

## Existem várias formas de se calcular a correlação entre duas variáveis. Podemos dividi-las em 2 tipos de correlação, as lineares e as não lineares.

![alt_text](https://miro.medium.com/max/812/1*O2WOYcjo70vBDQHtvyiJzA.png)

### Correlação de Pearson

O Coeficiente de Correlação de Pearson é uma técnica para medir se duas variáveis estão relacionadas de maneira linear. Essa é a correlação mais conhecida e mais utilizada.

In [2]:
from scipy.stats import pearsonr
import numpy as np

#### Vamos ver um exemplo da correlação de pearson

In [13]:
a = np.array([1, 2, 3, 4, 5])

b = a * 3 + 2
b

array([ 5,  8, 11, 14, 17])

#### Perceba que b é uma combinação linear de a. Isso porque b = a * constante1 + constante2. Portanto, b é completamente dependente de a, e a relação deles é linear. Vamos ver qual será o resultado da correlação de pearson.

In [14]:
pearsonr(a, b)

(1.0, 0.0)

#### Agora, vamos mudar a e b um pouquinho

In [15]:
a = np.array([1, 2, 3, 4, 5])

b = a ** 3 + 2
b

array([  3,  10,  29,  66, 127])

#### Apesar de b ainda ser completamente dependente de a, b já não é uma combinação linear de a. Vamos ver o resultado da correlação de pearson nesse caso.

In [16]:
pearsonr(a, b)

(0.9431175138077005, 0.01614585528863041)

#### Mesmo b sendo totalmente dependente de a, a correlação nao foi 1! Isso porque a relação entre eles não é linear.

<br>

### Vamos continuar usando os dados do preço do Big Mac de Julho de 2022.

<br>

https://www.kaggle.com/datasets/vittoriogiatti/bigmacprice

#### Importando a biblioteca pandas (https://pandas.pydata.org)

In [18]:
import pandas

#### Lendo os dados, que estão em csv

In [19]:
df = pandas.read_csv('BigmacPriceJuly2022.csv')

In [20]:
df.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
0,2022-07-01,ARS,Argentina,590.0,129,4.57
1,2022-07-01,AUD,Australia,6.7,1,6.7
2,2022-07-01,EUR,Austria,4.35,1,4.35
3,2022-07-01,AZN,Azerbaijan,4.7,1,4.7
4,2022-07-01,BHD,Bahrain,1.6,1,1.6


### Descrição das colunas

* **`date`** - Data do registro
* **`currency_code`** - Código ISO 4217 internacional da moeda do país
* **`name`** - Nome do país
* **`local_price`** - Preço do Big Mac na moeda local
* **`dollar_ex`** - Taxa de Conversão do dólar americano para a moeda local
* **`local_price`** - Preço do Big Mac em dólares americanos


### O cálculo da correlação de pearson no pandas é bem simples

In [22]:
df.corr()

Unnamed: 0,local_price,dollar_ex,dollar_price
local_price,1.0,0.954986,-0.00298
dollar_ex,0.954986,1.0,-0.063468
dollar_price,-0.00298,-0.063468,1.0


#### Por padrão, o pandas calcula a correlação de Pearson

### Correlação de Spearman

A correlação de Spearman, de maneira simplificada, analisa se quando o valor de uma variável aumenta ou diminui, o valor da outra variável aumenta ou diminui.

Uma vez que a correlação de Spearman segue essa lógica e não tem pressupostos lineares como na correlação de Pearson, é possível utilizá-la para relações não lineares.

In [23]:
from scipy.stats import spearmanr

#### Vamos repetir os exemplos e ver como a correlação de Spearman se comporta

In [26]:
a = np.array([1, 2, 3, 4, 5])

b = a * 3 + 2
b

array([ 5,  8, 11, 14, 17])

#### Aqui, b é uma combinação linear de a

In [27]:
spearmanr(a, b)

SpearmanrResult(correlation=0.9999999999999999, pvalue=1.4042654220543672e-24)

#### Agora, com uma relação não linear entre a e b

In [28]:
a = np.array([1, 2, 3, 4, 5])

b = a ** 3 + 2
b

array([  3,  10,  29,  66, 127])

In [29]:
spearmanr(a, b)

SpearmanrResult(correlation=0.9999999999999999, pvalue=1.4042654220543672e-24)

#### Mesmo que a relação entre a e b não seja linear, a correlação foi 1! 

<br>

### Mesmo que a correlação de Pearson não seja alta, a de Spearman pode ser

![alt_text](https://upload.wikimedia.org/wikipedia/commons/thumb/4/4e/Spearman_fig1.svg/300px-Spearman_fig1.svg.png)

### O cálculo da correlação de spearman no pandas é bem simples

In [30]:
df.corr(method = 'spearman')

Unnamed: 0,local_price,dollar_ex,dollar_price
local_price,1.0,0.958868,-0.073513
dollar_ex,0.958868,1.0,-0.313316
dollar_price,-0.073513,-0.313316,1.0


### Em geral, usamos a correlação de Spearman quando:

* a relação entre as variáveis pode ser não linear
* uma das variáveis é um ranking 
* quando existem muitos valores extremos nos dados, causando uma variância muito grande