# Correlação

É uma medida que tenta identificar o grau de relação entre duas variáveis. A correlação varia entre 1 e -1, o que classifica uma correlação como:

- fraca: próxima de zero
- positiva forte: próxima de um
- positiva fraca: próxima de um
- negativa forte: próxima de menos um
- negativa fraca: próxima de menos um
- sem correlação: próxima de zero

As correlações positivas ocorrem quando as duas varíaveis crescem juntas e as negativa ocorrem quando uma das variáveis decresce en quanto a outra cresce.

## Correlação linear e não-linear

**Correlação linear** é quando graficamente uma reta consegue descrever a relação entre duas variáveis, do contrário um gráfico de correlação em que não se pode traçar uma reta é chamado de **correlação não-linear**

## Correlação de Pearson

Essa correlação permite entender se a uma linearidade na relação entre as duas variáveis. Vejamos um exemplo simples para ilustrar o uso do Coeficiente de Pearson:

In [24]:
from scipy.stats import pearsonr, spearmanr
import numpy as np

In [9]:
# realizando os cálculos de uma correlação linear
listaValores = np.array([1,2,3,4,5])
calculoComValoresDaLista = listaValores * 3 + 2
calculoComValoresDaLista

array([ 5,  8, 11, 14, 17])

In [10]:
# calculando a correlação de pearson entre a lista de valores e o array com o resultado do cálculo com os valores da lista
pearsonr(listaValores, calculoComValoresDaLista)

PearsonRResult(statistic=1.0, pvalue=0.0)

o resultado do coeficiente de pearson neste exemplo nos diz que há uma correlação linear entre os valores, ou seja, há uma forte dependência entre os valores calculados e os valores da lista. A reta é será sempre um valor vezes uma constante somado a outra constante.

In [11]:
# realizando os cálculos de uma correlação não-linear
listaValores = np.array([1,2,3,4,5])
calculoComValoresDaLista = listaValores ** 3 + 2
calculoComValoresDaLista

array([  3,  10,  29,  66, 127])

In [12]:
pearsonr(listaValores, calculoComValoresDaLista)

PearsonRResult(statistic=0.9431175138077006, pvalue=0.016145855288630363)

Ainda há uma forte dependência dos valores calculados com a lista de valores, mas desta vez a correlação não é linear. Quanto menor for a relação entre duas variáveis, menor será o coeficiente de pearson.

## Praticando correlação com os dados sobre o preço do Big Mac no mês de Julho de 2022:

In [13]:
import pandas as pd

In [14]:
df = pd.read_csv('BigmacPriceJuly2022.csv')

In [15]:
df.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
0,2022-07-01,ARS,Argentina,590.0,129,4.57
1,2022-07-01,AUD,Australia,6.7,1,6.7
2,2022-07-01,EUR,Austria,4.35,1,4.35
3,2022-07-01,AZN,Azerbaijan,4.7,1,4.7
4,2022-07-01,BHD,Bahrain,1.6,1,1.6


Para calcular a correlação entre as colunas numéricas do dataframe, primeiro irei selecionar as colunas numéricas usando o método "select_dtypes" e posteriormente usarei o método corr() para calcular a correlação e abaixo temos uma matriz de correlação.

In [29]:
selecionaColunasNumericas = df.select_dtypes(include=['float64', 'int64'])
selecionaColunasNumericas.corr()
# o método corr() do pandas calcula o coeficiente de pearson

Unnamed: 0,local_price,dollar_ex,dollar_price
local_price,1.0,0.954986,-0.00298
dollar_ex,0.954986,1.0,-0.063468
dollar_price,-0.00298,-0.063468,1.0


## Interpretando as correlações entre as variáveis:

- **local_price e dollar_ex:** tem uma correlação positiva forte o que indica que quando a taxa de conversão do dólar aumenta o preço local do big mac também aumenta;
- **dollar_price e dollar_ex:** tem uma correlação negativa forte o que indica que quando a taxa de conversão do dólar ao aumenta o preço do dólar diminui.
- **local_price e dollar_price:** tem pouca correlação entre elas porque o resultado do coeficiente de pearson está muito próximo do zero.

## Correlação de Spearman

Essa correlação analisa se quano o valor  de uma variável aumenta ou diminui, o valor da outra variável aumenta ou diminui. A correlação de Spearman pode ser usada para calcular relações não-lineares. Nessa correlação temos como resultado:

- uma variável aumenta e a outra aumenta: 1
- uma variável diminui e a outra diminui: 1
- uma variável aumenta e a outra diminui: -1

In [26]:
# calculando uma correlação não-linear usando a correlação de Spearman
listaValores = np.array([1,2,3,4,5])
calculoComValoresDaLista = listaValores ** 3 + 2
calculoComValoresDaLista

array([  3,  10,  29,  66, 127])

In [25]:
spearmanr(listaValores,calculoComValoresDaLista)

SignificanceResult(statistic=0.9999999999999999, pvalue=1.4042654220543672e-24)

Como resultado nós temos  uma correlação igual a 1, isso ocorre porque mesmo não havendo linearidade entre elas, o coeficiente de Spearman entende que essas variáveis dependem uma da outra. Abaixo faremos uso da correlação de Spearman com os dados do dataframe sobre o preço do Big Mac:

In [27]:
selecionaColunasNumericas.corr(method='spearman')

Unnamed: 0,local_price,dollar_ex,dollar_price
local_price,1.0,0.958868,-0.073513
dollar_ex,0.958868,1.0,-0.313316
dollar_price,-0.073513,-0.313316,1.0
