# Covariance and Correlation

Este notebook descreve dois conceitos fundamentais da estatística:

- **Covariância**
- **Correlação**

Eles são usados para entender relações entre variáveis quantitativas.

## 1. Covariância

A covariância mede a **tendência conjunta** de variação de duas variáveis.

### Fórmula populacional:
$$
\text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu_X)(y_i - \mu_Y)
$$

### Fórmula amostral:
$$
\text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})
$$

🔹 Valores positivos indicam que as variáveis tendem a crescer juntas.  
🔹 Valores negativos indicam que uma tende a crescer quando a outra diminui.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Exemplo simples
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 6, 8, 10])

cov = np.cov(x, y, ddof=1)[0, 1]
print(f"Covariância entre x e y: {cov:.2f}")

In [None]:
# Visualizando a relação entre x e y
plt.scatter(x, y)
plt.title("Relação linear entre x e y")
plt.xlabel("x")
plt.ylabel("y")
plt.grid(True)
plt.show()

## 2. Correlação

A **correlação de Pearson** é uma padronização da covariância, limitada ao intervalo de -1 a 1.

### Fórmula:
$$
r_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \cdot \sigma_Y}
$$

- $r \approx 1$: correlação positiva forte  
- $r \approx -1$: correlação negativa forte  
- $r \approx 0$: sem correlação linear

In [None]:
# Correlação de Pearson
corr = np.corrcoef(x, y)[0, 1]
print(f"Correlação entre x e y: {corr:.2f}")

## 3. Exercício com Dados Reais
Vamos usar um dataset fictício de estudantes:

In [None]:
data = {
    "Horas de Estudo": [1, 2, 3, 4, 5, 6, 7, 8],
    "Nota na Prova":   [52, 55, 60, 63, 68, 71, 75, 80]
}
df = pd.DataFrame(data)
df

In [None]:
# Calculando covariância e correlação
cov = np.cov(df["Horas de Estudo"], df["Nota na Prova"], ddof=1)[0, 1]
corr = np.corrcoef(df["Horas de Estudo"], df["Nota na Prova"])[0, 1]

print(f"Covariância: {cov:.2f}")
print(f"Correlação: {corr:.2f}")

In [None]:
# Gráfico de dispersão
plt.scatter(df["Horas de Estudo"], df["Nota na Prova"])
plt.title("Nota vs Horas de Estudo")
plt.xlabel("Horas de Estudo")
plt.ylabel("Nota na Prova")
plt.grid(True)
plt.show()

## 4. Interpretação

- A covariância indica direção da relação, mas **não** sua força padronizada.
- A correlação indica **força e direção** da relação **linear**.
- Correlação não implica causalidade!

## 5. Exercício Proposto

Utilize os dados abaixo:

```python
altura = [1.60, 1.65, 1.70, 1.75, 1.80]
peso =   [55,   60,   66,   72,   77]
```

1. Calcule a covariância entre altura e peso.  
2. Calcule a correlação entre altura e peso.  
3. Faça um gráfico de dispersão e interprete os resultados.

In [None]:
# Espaço reservado para a resposta do aluno