In [1]:
#Correlação.
#A correlação é uma medida que tenta identificar o grau de relacionamento entre duas variáveis. Ela é muito útil para entender se uma variável exerce influência em outra. Por exemplo, a altura é correlacionada com a idade de uma criança?
#A correlação varia entre -1 e 1: se assumir o valor -1, as variáveis são totalmente correlacionadas uma com a outra, sendo que enquanto uma cresce, a outra diminui. Quando a correlação assume valor 1, vice e versa. Quando for 0, indica que as variáveis não são relacionadas.
#Existem várias formas de se calcular a correlação entre duas variáveis. Podemos dividi-las em 2 tipos de correlação, as lineares e as não lineares.

In [9]:
#Correlação de Pearson
#O Coeficiente de Correlação de Pearson é uma técnica para medir se duas variáveis estão relacionadas de maneira linear. Essa é a correlação mais conhecida e mais utilizada.
from scipy.stats import pearsonr
import numpy as np
import pandas as pd

In [10]:
#Exemplo da correlação de pearson.
a = np.array([1, 2, 3, 4, 5])

b = a * 3 + 2
b

array([ 5,  8, 11, 14, 17])

In [11]:
#Perceba que b é uma combinação linear de a. Isso porque b = a * constante1 + constante2. Portanto, b é completamente dependente de a, e a relação deles é linear. Vamos ver qual será o resultado da correlação de pearson.

pearsonr(a, b)

PearsonRResult(statistic=1.0, pvalue=0.0)

In [12]:
#Mundando a e b um pouquinho
a = np.array([1, 2, 3, 4, 5])

b = a ** 3 + 2
b

array([  3,  10,  29,  66, 127])

In [13]:
#Apesar de b ainda ser completamente dependente de a, b já não é uma combinação linear de a. Vamos ver o resultado da correlação de pearson nesse caso.
pearsonr(a, b)

PearsonRResult(statistic=0.9431175138077006, pvalue=0.01614585528863036)

In [14]:
#Mesmo b sendo totalmente dependente de a, a correlação nao foi 1! Isso porque a relação entre eles não é linear.
#Vamos continuar usando os dados do preço do Big Mac de Julho de 2022.
df = pd.read_csv('BigmacPriceJuly2022.csv')
df.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
0,2022-07-01,ARS,Argentina,590.0,129,4.57
1,2022-07-01,AUD,Australia,6.7,1,6.7
2,2022-07-01,EUR,Austria,4.35,1,4.35
3,2022-07-01,AZN,Azerbaijan,4.7,1,4.7
4,2022-07-01,BHD,Bahrain,1.6,1,1.6


In [15]:
df.dtypes

date              object
currency_code     object
name              object
local_price      float64
dollar_ex          int64
dollar_price     float64
dtype: object

In [16]:
df['date'] = pd.to_datetime(df['date'])

In [18]:
df.dtypes

date             datetime64[ns]
currency_code            object
name                     object
local_price             float64
dollar_ex                 int64
dollar_price            float64
dtype: object

In [24]:
#O cálculo da correlação de pearson no pandas é bem simples.

# # Selecionar apenas colunas numéricas.
numeric_df = df.select_dtypes(include=['number'])

In [25]:

# Calcular a correlação de Pearson
correlation_matrix = numeric_df.corr()

# Exibir a matriz de correlação
print("Matriz de correlação:")
print(correlation_matrix)


Matriz de correlação:
              local_price  dollar_ex  dollar_price
local_price      1.000000   0.954986     -0.002980
dollar_ex        0.954986   1.000000     -0.063468
dollar_price    -0.002980  -0.063468      1.000000


In [26]:
#Correlação de Spearman
#A correlação de Spearman, de maneira simplificada, analisa se quando o valor de uma variável aumenta ou diminui, o valor da outra variável aumenta ou diminui.
# Uma vez que a correlação de Spearman segue essa lógica e não tem pressupostos lineares como na correlação de Pearson, é possível utilizá-la para relações não lineares.
from scipy.stats import spearmanr

In [27]:
#Vamos repetir os exemplos e ver como a correlação de Spearman se comporta.

a = np.array([1, 2, 3, 4, 5])

b = a * 3 + 2
b

array([ 5,  8, 11, 14, 17])

In [28]:
#Aqui, b é uma combinação linear de a.
spearmanr(a, b)

SignificanceResult(statistic=0.9999999999999999, pvalue=1.4042654220543672e-24)

In [30]:
#O cálculo da correlação de spearman no pandas é bem simples.
# Calcular a correlação de Spearman
correlation_matrix = numeric_df.corr(method='spearman')

# Exibir a matriz de correlação
print("Matriz de correlação (Spearman):")
print(correlation_matrix)

Matriz de correlação (Spearman):
              local_price  dollar_ex  dollar_price
local_price      1.000000   0.958868     -0.073513
dollar_ex        0.958868   1.000000     -0.313316
dollar_price    -0.073513  -0.313316      1.000000


In [None]:
#Em geral, usamos a correlação de Spearman quando:
#A relação entre as variáveis pode ser não linear
#Uma das variáveis é um ranking
#Quando existem muitos valores extremos nos dados, causando uma variância muito grande