# Exercise 02 - Correlação de Pearson

## Carregamento dos dados

Continuaremos utilizando o dataset **tips_clean**, que será carregado a partir do diretório `datasets/processed/`.  
Essa pasta contém uma versão limpa do dataset original **tips**, preparada previamente para análise.


In [7]:
import pandas as pd

df = pd.read_csv("../datasets/processed/tips_clean.csv")

A seguir, fazemos uma verificação inicial do conteúdo do dataset.

In [3]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


## Introdução: intensidade e direção da relação entre variáveis quantitativas

Neste exercício, o foco está em entender a **intensidade da relação entre duas variáveis quantitativas** e a **direção dessa relação** (positiva ou negativa), introduzindo o conceito de **correlação** como uma métrica descritiva.

A correlação indica o quanto duas variáveis tendem a variar juntas de forma consistente, assumindo valores entre **-1 e +1**, onde valores mais próximos dos extremos representam relações mais fortes, e valores próximos de zero indicam relações mais fracas.

## Contexto dos dados

O dataset utilizado descreve contas em um restaurante, onde cada linha representa uma observação independente.

As principais variáveis numéricas relevantes para este exercício são:

- **total_bill**: valor total da conta
- **tip**: valor da gorjeta
- **size**: número de pessoas na mesa

Essas variáveis permitem observar situações intuitivas de variação conjunta, como:

- contas maiores tendendo a estar associadas a gorjetas maiores
- mesas maiores tendendo a gerar contas mais altas

Essas relações serão exploradas **apenas de forma descritiva**, sem qualquer tipo de inferência causal.

## O que a correlação mede

A correlação é uma métrica que **descreve a intensidade e a direção da relação linear entre duas variáveis quantitativas**.

De forma conceitual:

- Uma correlação **positiva** indica que as variáveis tendem a aumentar juntas.
- Uma correlação **negativa** indica que uma variável tende a aumentar enquanto a outra diminui.
- Uma correlação **próxima de zero** indica uma relação linear fraca ou inexistente entre as variáveis observadas.

Neste exercício, a correlação será utilizada apenas como uma **métrica descritiva**, sem verificação formal de pressupostos estatísticos.


## Seleção dos pares de variáveis

Para esta análise, continuaremos utilizando as variáveis numéricas exploradas no **Exercise 01**:

- **total_bill** e **tip**
- **total_bill** e **size**
- **tip** e **size**

Esses pares foram escolhidos por fazerem sentido dentro do contexto do restaurante e por permitirem diferentes leituras sobre como as variáveis podem variar em conjunto.

O cálculo da correlação será realizado diretamente a partir dos dados, sem qualquer tipo de modelagem.

In [4]:
numeric_columns = ["total_bill", "tip", "size"]
df[numeric_columns].head()

Unnamed: 0,total_bill,tip,size
0,16.99,1.01,2
1,10.34,1.66,3
2,21.01,3.5,3
3,23.68,3.31,2
4,24.59,3.61,4


## Interpretação inicial dos resultados

Ao observar os valores de **correlação** calculados, é importante focar em:

- O **sinal** da correlação (positivo ou negativo)
- A coerência desse sinal com o contexto dos dados
- A presença ou ausência de um padrão consistente de variação conjunta entre as variáveis

In [5]:
corr_matrix = df[numeric_columns].corr()
corr_matrix

Unnamed: 0,total_bill,tip,size
total_bill,1.0,0.674998,0.597589
tip,0.674998,1.0,0.4884
size,0.597589,0.4884,1.0


## Extração explícita dos pares

Embora a matriz de correlação permita uma visão geral das relações, a extração explícita dos valores facilita a leitura individual de cada par de variáveis.

In [6]:
corr_total_bill_tip = corr_matrix.loc["total_bill", "tip"]
corr_total_bill_size = corr_matrix.loc["total_bill", "size"]
corr_tip_size = corr_matrix.loc["tip", "size"]

corr_total_bill_tip, corr_total_bill_size, corr_tip_size

(np.float64(0.6749978565456077),
 np.float64(0.5975889310657213),
 np.float64(0.4884003946748844))

## Limitações da correlação de Pearson

Apesar de útil para medir a relação linear entre duas variáveis quantitativas, a correlação de Pearson possui algumas limitações:

- **Linearidade exclusiva**: identifica apenas relações lineares, podendo não capturar padrões não lineares entre as variáveis.
- **Sensível a outliers**: um único valor extremo pode aumentar ou diminuir significativamente o coeficiente, distorcendo a percepção da força da relação.
- **Pressupostos estatísticos**: funciona melhor quando as variáveis apresentam uma distribuição aproximadamente normal e são quantitativas contínuas.
- **Correlação não implica causalidade**: uma correlação forte (próxima de 1 ou -1) não significa que uma variável causa a outra; ambas podem estar sendo influenciadas por uma terceira variável não observada.
- **Significado do zero**: um valor próximo de zero indica apenas ausência de correlação **linear**, não a inexistência de qualquer tipo de relação entre as variáveis.

Em situações com relações não lineares, presença de outliers ou variáveis ordinais, métricas alternativas como a **correlação de Spearman** podem ser mais adequadas.

## Conclusão do exercício

Neste exercício, a correlação foi utilizada como uma primeira ferramenta para descrever a **relação linear entre duas variáveis**.

O principal aprendizado é que:
- A correlação de Pearson mede a intensidade e a direção da relação linear entre duas variáveis, mas não implica causalidade.
- Seu uso é essencialmente descritivo, sendo adequada como etapa inicial de análise exploratória.
- Por ser uma versão padronizada da covariância, ela facilita a comparação entre diferentes conjuntos de dados, embora ainda possua limitações importantes que motivam o uso de métricas alternativas em certos contextos.