### Correlação

#### A correlação é uam medida que tenta identificar o grau de relacionamento entre duas variáveis. Ela é muito útil para entender se uma variável exerce influência em outra. Por exemplo, a altura é correlacionada com a idade de uma criança?

![correlacao.png](attachment:correlacao.png)

#### A correlação vai variar entre -1 e 1: se assumir o valor de -1, as variáveis saõ totalmente correlacionadas uma com a outra, sendo que enquanto uma cresce, a outra diminui. Quando a correlação assume valor 1, vice e versa. Quando for 0, indica que as variáveis não são linearmente relacionadas.

![unnamed-chunk-4-1.png](attachment:unnamed-chunk-4-1.png)

#### Existem várias formas de se calcular a correlação entre duas variáveis. Podemos dividi-las em 2 tipos de correlação, as lineares e as não lineares.

![correlatiob_types.png](attachment:correlatiob_types.png)

### Correlação de Pearson

*O coeficiente de correlação de Pearson é uma técnica para medir se duas variáveis estão relacionadas de maneira linear. Essa é a correlação mais conhecida e mais utilizada*

In [2]:
from scipy.stats import pearsonr

In [3]:
import numpy as np

#### Vamos ver um exemplo da correlação de pearson

In [4]:
a = np.array([1,2,3,4,5])

In [5]:
b = a * 3 + 2
b

array([ 5,  8, 11, 14, 17])

#### Perceba que b é uma combinação linear de a. Isso por que b=a * constante1 + constante2. Portanto, b é completamente dependente de a, e a relação deles é linear. Vamos ver qual será o resultado da correlação de pearson

In [6]:
pearsonr(a, b)

(1.0, 0.0)

#### Vamos mudar a e b

In [7]:
a = np.array([1,2,3,4,5])
b = a ** 3 + 2
b

array([  3,  10,  29,  66, 127])

#### Apesar de b ainda ser completamente dpeendente de a, b já não é uma combinação linear de a. Vamos ver o resultado da correlação de pearson nesse caso.

In [9]:
pearsonr(a, b)

(0.9431175138077005, 0.01614585528863041)

#### Mesmo b sendo totalmente dependente de a, a correlação não foi 1! isso por que a relação entre elas não é linear.

### Vamos continuar usando os dados do preço do Big Mac de julho de 2022.

https://www.kaggle.com/datasets/vittoriogiatti/bigmacprice

#### Importando a biblioteca pandas (https://pandas.pydata.org)

In [10]:
import pandas as pd

#### Lendo os dados, que estão em csv

In [11]:
df = pd.read_csv('BigmacPriceJuly2022.csv')

In [12]:
df.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
0,2022-07-01,ARS,Argentina,590.0,129,4.57
1,2022-07-01,AUD,Australia,6.7,1,6.7
2,2022-07-01,EUR,Austria,4.35,1,4.35
3,2022-07-01,AZN,Azerbaijan,4.7,1,4.7
4,2022-07-01,BHD,Bahrain,1.6,1,1.6



#### **Descrição das colunas**

    • date - Data do registro

    • currency_code - Código ISO 4217 internacional do país

    • name - Nome do país

    • local_price - Preço do Big Mac na moeda local

    • dollar_ex - Taxa de Conversão do dólar amerciano para a moeda local

    • dollar_price - Preço do Big Mac em dólares americanos

#### O cálculo da correlação de pearson no pandas é bem simples

In [13]:
df.corr()

Unnamed: 0,local_price,dollar_ex,dollar_price
local_price,1.0,0.954986,-0.00298
dollar_ex,0.954986,1.0,-0.063468
dollar_price,-0.00298,-0.063468,1.0


*Por padrão a correlação em pandas é de pearson*

### Correlação de Spearman

*A correlação de Spearman, de maneira simplificada, analisa o valor de uam variável aumenta ou diminui, o valor da outra variável aumenta ou diminui.* 

*Uma vez que a correlação de Spearman segue essa lógica e não tem pressupostos lineares como na correlação de Pearson, é possível utilizá-la para relações não lineares.*

In [14]:
from scipy.stats import spearmanr

#### Vamos repetir os exemplos e ver como a correlação de Spearman se comporta

In [15]:
a = np.array([1,2,3,4,5])

b = a * 3 + 2
b

array([ 5,  8, 11, 14, 17])

#### Aqui, b é uma combinação linear de a

In [16]:
spearmanr(a, b)

SpearmanrResult(correlation=0.9999999999999999, pvalue=1.4042654220543672e-24)

#### Agora, com uma relação não linear entre a e b

In [18]:
a = np.array([1,2,3,4,5])
b = a ** 3 + 2
b

array([  3,  10,  29,  66, 127])

In [20]:
spearmanr(a, b)

SpearmanrResult(correlation=0.9999999999999999, pvalue=1.4042654220543672e-24)

#### Mesmo que a relação entre a e b não seja linear, a correlação foi 1

### Mesmo que a correlação de Pearson não seja alta, a de Spearman pode ser

![300px-Spearman_fig1.svg.png](attachment:300px-Spearman_fig1.svg.png)

#### O cálculo da correlação de spearman no pandas é bem simples

In [21]:
df.corr(method = 'spearman')

Unnamed: 0,local_price,dollar_ex,dollar_price
local_price,1.0,0.958868,-0.073513
dollar_ex,0.958868,1.0,-0.313316
dollar_price,-0.073513,-0.313316,1.0


#### Em geral, usamos a correlação de Spearman quando:

*• A relação entre as variáveis pode ser não linear*

*• Uma das variáveis é uma ranking*

*• Quando existem muitos valores extremos nos dados, causando uma variância muito grande*