# Exercise 01 — Covariância e variação conjunta

## Carregamento dos dados

Os dados utilizados neste exercício são carregados a partir do diretório
`datasets/processed/`, que contém uma versão limpa e padronizada do dataset **Tips**.

A separação entre dados brutos (`raw`) e dados processados (`processed`) faz parte
da organização do projeto e tem como objetivo:

- Garantir reprodutibilidade
- Evitar dependência direta de fontes externas
- Manter os notebooks analíticos focados exclusivamente na análise

Nenhuma etapa de limpeza ou transformação estrutural será realizada neste notebook.

In [5]:
import pandas as pd

df = pd.read_csv("../datasets/processed/tips_clean.csv")

Antes de iniciar a análise, realizamos uma verificação rápida da estrutura do dataset
para confirmar que os dados foram carregados corretamente.

In [6]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


## Introdução: variáveis que variam juntas

Em análises exploratórias, é comum observar variáveis individualmente — distribuições, médias, dispersões.
No entanto, muitos fenômenos só se tornam claros quando observamos **como duas variáveis se comportam em conjunto**.

Neste exercício, o foco está em entender **como variáveis numéricas variam juntas**, introduzindo o conceito de **covariância** como uma métrica descritiva.

A covariância não busca explicar relações de causa e efeito, mas sim **descrever se aumentos ou reduções em uma variável tendem a ocorrer simultaneamente com aumentos ou reduções em outra**.

## Contexto dos dados

O dataset utilizado descreve contas em um restaurante, onde cada linha representa uma observação independente.

Algumas variáveis numéricas relevantes para este exercício são:

- **total_bill**: valor total da conta
- **tip**: valor da gorjeta
- **size**: número de pessoas na mesa

Essas variáveis permitem observar situações intuitivas de variação conjunta, como:

- contas maiores tendendo a estar associadas a gorjetas maiores
- mesas maiores tendendo a gerar contas mais altas

Essas relações serão exploradas **apenas de forma descritiva**.

## O que a covariância mede

A covariância é uma métrica que descreve **como duas variáveis variam juntas em relação às suas médias**.

De forma conceitual:

- Covariância **positiva** indica que valores acima da média em uma variável tendem a ocorrer junto com valores acima da média na outra
- Covariância **negativa** indica que valores acima da média em uma variável tendem a ocorrer junto com valores abaixo da média na outra
- Covariância próxima de zero sugere ausência de variação conjunta linear evidente

Neste ponto, o interesse não está no valor exato da covariância, mas **no seu sinal e no que ele representa**.

## Seleção dos pares de variáveis

Para a análise, serão observados os seguintes pares de variáveis numéricas:

- **total_bill** e **tip**
- **total_bill** e **size**
- **tip** e **size**

Esses pares foram escolhidos por fazerem sentido dentro do contexto do restaurante e por permitirem diferentes interpretações de variação conjunta.

O cálculo da covariância será realizado diretamente a partir dos dados, sem qualquer tipo de modelagem.

In [7]:
numeric_columns = ["total_bill", "tip", "size"]
df[numeric_columns].head()

Unnamed: 0,total_bill,tip,size
0,16.99,1.01,2
1,10.34,1.66,3
2,21.01,3.5,3
3,23.68,3.31,2
4,24.59,3.61,4


## Interpretação inicial dos resultados

Ao observar os valores de covariância calculados, é importante focar em:

- O **sinal** da covariância (positivo ou negativo)
- A coerência do sinal com o contexto dos dados
- A presença ou ausência de variação conjunta aparente

Neste estágio, **não é apropriado comparar magnitudes de covariância entre diferentes pares de variáveis**, pois a métrica é fortemente influenciada pela escala dos dados.

In [8]:
cov_matrix = df[numeric_columns].cov()
cov_matrix

Unnamed: 0,total_bill,tip,size
total_bill,79.389362,8.329788,5.070877
tip,8.329788,1.918231,0.644208
size,5.070877,0.644208,0.906982


## Extração explícita dos pares

In [9]:
cov_total_bill_tip = cov_matrix.loc["total_bill", "tip"]
cov_total_bill_size = cov_matrix.loc["total_bill", "size"]
cov_tip_size = cov_matrix.loc["tip", "size"]

cov_total_bill_tip, cov_total_bill_size, cov_tip_size

(np.float64(8.329788249498348),
 np.float64(5.070877291432847),
 np.float64(0.6442075638540283))

## Limitações da covariância

Apesar de útil para identificar a direção da variação conjunta, a covariância possui limitações importantes:

- Seu valor depende das unidades de medida das variáveis
- Magnitudes maiores não indicam necessariamente relações mais fortes
- Não permite comparações diretas entre diferentes pares de variáveis

Essas limitações tornam a covariância uma métrica adequada para **introdução conceitual**, mas insuficiente como medida comparável de associação.

## Conclusão do exercício

Neste exercício, a covariância foi utilizada como uma primeira ferramenta para descrever **como variáveis numéricas variam juntas**.

O principal aprendizado não está nos valores numéricos em si, mas na compreensão de que:
- A covariância indica **direção da variação conjunta**
- Seu uso é essencialmente descritivo
- Suas limitações motivam o uso de métricas padronizadas

Esses pontos servem como base conceitual para o próximo exercício, no qual a **correlação** será introduzida como uma evolução natural dessa análise.