### `Correlação`

<br>

### A correlação é uma medida que tenta identificar o grau de relacionamento entre duas variáveis. Ela é muito útil para entender se uma variável exerce influência em outra.

<br>

### Por exemplo, a altura é correlacionada com a idade de uma criança?


![alt_text](https://dataunirio.github.io/AulaCorrelacao/img/correlacao.png)

<br>

### A correlação varia entre -1 e 1: se assumir o valor -1, as variáveis são totalmente correlacionadas uma com a outra, sendo que enquanto uma cresce, a outra diminui. Quando a correlação assume valor 1, vice e versa. Quando for 0, indica que as variáveis não são relacionadas.

![alt_text](https://d33wubrfki0l68.cloudfront.net/e3b158e0207e1a80248bc0d7283f6eee638d5e72/4f6f0/blog/correlacao_files/figure-html/unnamed-chunk-4-1.png)



### `Correlaçâo linear e não linear`

<br>

### Existem várias formas de se calcular a correlação entre duas variáveis. Podemos dividi-las em 2 tipos de correlação, as lineares e as não lineares.

![alt_text](https://miro.medium.com/max/812/1*O2WOYcjo70vBDQHtvyiJzA.png)

### Correlação de Pearson

O Coeficiente de Correlação de Pearson é uma técnica para medir se duas variáveis **estão relacionadas de maneira linear**. Essa é a correlação mais conhecida e mais utilizada.

In [1]:
from scipy.stats import pearsonr
import numpy as np

Vamos ver um exemplo da correlação de pearson

In [2]:
a = np.array([1, 2, 3, 4, 5])

b = a * 3 + 2
b

array([ 5,  8, 11, 14, 17])

Perceba que b é uma combinação linear de a. Isso porque b = a * **constante1 + constante2**. Portanto, b é completamente dependente de a, e a relação deles é **linear**. Vamos ver qual será o resultado da correlação de pearson.

In [5]:
pearsonr(a, b)


PearsonRResult(statistic=1.0, pvalue=0.0)

Agora, vamos mudar a e b um pouquinho

In [6]:
a = np.array([1, 2, 3, 4, 5])

b = a ** 3 + 2
b

array([  3,  10,  29,  66, 127])

Apesar de b ainda ser completamente dependente de a, b já não é uma combinação linear de a. Vamos ver o resultado da correlação de pearson nesse caso.

In [7]:
pearsonr(a, b)

PearsonRResult(statistic=0.9431175138077006, pvalue=0.016145855288630363)

Mesmo b sendo totalmente dependente de a, a correlação nao foi 1! Isso porque a relação entre eles não é linear.

### Vamos continuar usando os dados do preço do Big Mac de Julho de 2022.

<br>

https://www.kaggle.com/datasets/vittoriogiatti/bigmacprice

In [9]:
import pandas as pd
df = pd.read_csv('BigmacPrice.csv')
df_filtered = df[df['date'] == '2022-07-01']
df_filtered.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
1876,2022-07-01,ARS,Argentina,590.0,129,4.57
1877,2022-07-01,AUD,Australia,6.7,1,6.7
1878,2022-07-01,EUR,Austria,4.35,1,4.35
1879,2022-07-01,AZN,Azerbaijan,4.7,1,4.7
1880,2022-07-01,BHD,Bahrain,1.6,1,1.6


In [10]:
df_filtered.count()

date             70
currency_code    70
name             70
local_price      70
dollar_ex        70
dollar_price     70
dtype: int64

### O cálculo da correlação de pearson no pandas, devemos ajustar o data frame tirando as colunas strings.

In [32]:
numeric_columns = df_filtered.select_dtypes(include=[np.number]).columns
df_numeric = df_filtered[numeric_columns]
correlation_matrix_Pearson = df_numeric.corr()

correlation_matrix_Pearson

Unnamed: 0,local_price,dollar_ex,dollar_price
local_price,1.0,0.954986,-0.00298
dollar_ex,0.954986,1.0,-0.063468
dollar_price,-0.00298,-0.063468,1.0


#### Por padrão, o pandas calcula a correlação de Pearson

O código linha por linha:

```python
numeric_columns = df_filtered.select_dtypes(include=[np.number]).columns
```

1. **`df_filtered.select_dtypes(include=[np.number])`**: Esta parte do código utiliza o método `select_dtypes` do Pandas para selecionar colunas do DataFrame `df_filtered` com tipos de dados numéricos. O argumento `include=[np.number]` especifica que queremos incluir todas as colunas que contenham tipos numéricos, como inteiros (`int64`, `int32`), números de ponto flutuante (`float64`, `float32`), entre outros. Isso exclui automaticamente colunas com tipos não numéricos, como strings ou datas.

2. **`.columns`**: Após selecionar as colunas numéricas, `columns` é usado para obter apenas os nomes das colunas numéricas como uma lista.

```python
df_numeric = df_filtered[numeric_columns]
```

3. **`df_filtered[numeric_columns]`**: Aqui, estamos criando um novo DataFrame chamado `df_numeric` que contém apenas as colunas numéricas do DataFrame original `df_filtered`. Isso é feito atribuindo a `numeric_columns`, que contém os nomes das colunas numéricas, ao DataFrame `df_filtered`. Assim, `df_numeric` agora contém apenas as colunas numéricas de `df_filtered`.

```python
correlation_matrix_Pearson = df_numeric.corr()
```

4. **`df_numeric.corr()`**: Finalmente, estamos calculando a matriz de correlação usando o método `corr()` do Pandas aplicado ao DataFrame `df_numeric`. Esse método calcula a correlação de Pearson por padrão entre todas as colunas numéricas de `df_numeric`. A matriz de correlação resultante (`correlation_matrix_Pearson`) será uma tabela que mostra as correlações entre pares de variáveis numéricas no DataFrame `df_numeric`.

Resumindo, esse trecho de código é útil quando você deseja calcular a correlação entre variáveis numéricas em um DataFrame, excluindo automaticamente colunas não numéricas. Isso é particularmente útil em análises estatísticas e exploratórias de dados onde você quer entender como diferentes variáveis numéricas estão relacionadas umas com as outras.

### Correlação de Spearman

A correlação de Spearman, de maneira simplificada, analisa se quando o valor de uma variável aumenta ou diminui, o valor da outra variável aumenta ou diminui.

Uma vez que a correlação de Spearman segue essa lógica e não tem pressupostos lineares como na correlação de Pearson, é possível utilizá-la para relações não lineares.

In [26]:
from scipy.stats import spearmanr

#### Vamos repetir os exemplos e ver como a correlação de Spearman se comporta

In [27]:
a = np.array([1, 2, 3, 4, 5])

b = a * 3 + 2
b

array([ 5,  8, 11, 14, 17])

#### Aqui, b é uma combinação linear de a

In [28]:
spearmanr(a, b)

SignificanceResult(statistic=0.9999999999999999, pvalue=1.4042654220543672e-24)

#### Agora, com uma relação não linear entre a e b

In [29]:
a = np.array([1, 2, 3, 4, 5])

b = a ** 3 + 2
b

array([  3,  10,  29,  66, 127])

In [30]:
spearmanr(a, b)

SignificanceResult(statistic=0.9999999999999999, pvalue=1.4042654220543672e-24)

#### Mesmo que a relação entre a e b não seja linear, a correlação foi 1!

### Mesmo que a correlação de Pearson não seja alta, a de Spearman pode ser

![alt_text](https://upload.wikimedia.org/wikipedia/commons/thumb/4/4e/Spearman_fig1.svg/300px-Spearman_fig1.svg.png)

In [34]:
numeric_columns = df_filtered.select_dtypes(include=[np.number]).columns
df_numeric = df_filtered[numeric_columns]
correlation_matrix_Spearman = df_numeric.corr('spearman')

correlation_matrix_Spearman

Unnamed: 0,local_price,dollar_ex,dollar_price
local_price,1.0,0.958868,-0.073513
dollar_ex,0.958868,1.0,-0.313316
dollar_price,-0.073513,-0.313316,1.0


### Em geral, usamos a correlação de Spearman quando:

* A relação entre as variáveis pode ser não linear
* Uma das variáveis é um ranking
* Quando existem muitos valores extremos nos dados, causando uma variância muito grande