Correlação:
    A correlação é uma medida que tenta identificar o grau de relacionamento entre duas variáveis. Ela é muito útil para entender se uma variável exerce influência em outra. Por exemplo, a altura é correlacionada com a idade de uma criança?
    - Sem correlação;
    - Correlação positiva forte;
    - Correlação positiva fraca;
    - Correlação negativa forte;
    - Correlação negativa fraca;

A correlação varia entre -1 e 1: 
    Se assumir o valor -1, as variáveis são totalmente correlacionadas uma com a outra, sendo que, enquanto uma cresce, a outra diminui.
    Quando a correlação assume valor 1, vice e versa.
    Quando for 0, indica que as variáveis não são linearmente relacionadas.


Existem várias formas de se calcular a correlação entre duas variáveis. Podemos dividi-la em 2 tipos de correlação: as lineares e as não lineares.

Correlação de Pearson:
O coeficiente de Correlação de Pearson é uma técnica para medir se duas variáveis estão relacionadas de maneira linear. Essa é a correlação mais conhecida e mais utilizada.    

In [15]:
from scipy.stats import pearsonr
import numpy as np

Exemplo da Correlação de Pearson:

In [16]:
a = np.array([1, 2, 3, 4, 5])
b = a * 3 + 2
b

array([ 5,  8, 11, 14, 17])

Perceba que b é uma combinação linear de a. Isso porque b = a * constante1 + constante2. Portante, b é completamente dependente de a, e a relação deles é linear. Vamos ver qual será o resultado da correlação de Pearson.

In [17]:
pearsonr(a, b)

PearsonRResult(statistic=1.0, pvalue=0.0)

Vamos mudar a e b um pouco:

In [18]:
a = np.array([1, 2, 3, 4, 5])
b = a ** 3 + 2
b

array([  3,  10,  29,  66, 127])

In [19]:
pearsonr(a, b)

PearsonRResult(statistic=0.9431175138077006, pvalue=0.016145855288630363)

Apesar de b ainda ser completamente dependente de a, b já não é uma combinação linear de a, então a correlação não foi 1.  

Vamos continuar usando os dados do preço do BiMac em Julho de 2022:

In [20]:
import pandas

In [21]:
df = pandas.read_csv('BigMacPriceJuly2022.csv')
df.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
0,2022-07-01,ARS,Argentina,590.0,129,4.57
1,2022-07-01,AUD,Australia,6.7,1,6.7
2,2022-07-01,EUR,Austria,4.35,1,4.35
3,2022-07-01,AZN,Azerbaijan,4.7,1,4.7
4,2022-07-01,BHD,Bahrain,1.6,1,1.6


In [23]:
df.corr(numeric_only = True)

Unnamed: 0,local_price,dollar_ex,dollar_price
local_price,1.0,0.954986,-0.00298
dollar_ex,0.954986,1.0,-0.063468
dollar_price,-0.00298,-0.063468,1.0


Correlação de Spearman:
    A correlação de Spearman, de maneira simplificada, analisa se, quando o valor de uma variável aumenta ou diminui, o valor da outra variável aumenta ou diminui.
    Uma vez que a correlação de Spearman segue uma lógica e não tem pressupostos lineares como na correlação de Pearson, é possível utiliza-la para relações não lineares.

In [24]:
from scipy.stats import spearmanr

Vamos repetir os exemplos para ver como a Correlação de Spearman se comporta:

In [26]:
a = np.array([1, 2, 3, 4, 5])
b = a * 3 + 2
b

array([ 5,  8, 11, 14, 17])

Aqui, b é uma combinação linear de a.

In [27]:
spearmanr(a, b)

SignificanceResult(statistic=0.9999999999999999, pvalue=1.4042654220543672e-24)

Agora, com uma relação não linear entre a e b:

In [28]:
a = np.array([1, 2, 3, 4, 5])
b = a ** 3 + 2
b

array([  3,  10,  29,  66, 127])

In [29]:
spearmanr(a, b)

SignificanceResult(statistic=0.9999999999999999, pvalue=1.4042654220543672e-24)

Mesmo que a relação entre a e b não seja linear, a correlação foi 1.

In [31]:
df.corr(numeric_only = True, method = 'spearman')

Unnamed: 0,local_price,dollar_ex,dollar_price
local_price,1.0,0.958868,-0.073513
dollar_ex,0.958868,1.0,-0.313316
dollar_price,-0.073513,-0.313316,1.0


Em geral, usamos a Relação de Spearman quando:
* A relação entre as variáveis não pode ser não linear;
* Uma das variáveis é um ranking;
* Quando existem muitos valores extremos nos dados, causando uma variância muito grande;