# Covariance and Correlation

Este notebook descreve dois conceitos fundamentais da estat칤stica:

- **Covari칙ncia**
- **Correla칞칚o**

Eles s칚o usados para entender rela칞칫es entre vari치veis quantitativas.

## 1. Covari칙ncia

A covari칙ncia mede a **tend칡ncia conjunta** de varia칞칚o de duas vari치veis.

### F칩rmula populacional:
$$
\text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu_X)(y_i - \mu_Y)
$$

### F칩rmula amostral:
$$
\text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})
$$

游댳 Valores positivos indicam que as vari치veis tendem a crescer juntas.  
游댳 Valores negativos indicam que uma tende a crescer quando a outra diminui.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Exemplo simples
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 6, 8, 10])

cov = np.cov(x, y, ddof=1)[0, 1]
print(f"Covari칙ncia entre x e y: {cov:.2f}")

In [None]:
# Visualizando a rela칞칚o entre x e y
plt.scatter(x, y)
plt.title("Rela칞칚o linear entre x e y")
plt.xlabel("x")
plt.ylabel("y")
plt.grid(True)
plt.show()

## 2. Correla칞칚o

A **correla칞칚o de Pearson** 칠 uma padroniza칞칚o da covari칙ncia, limitada ao intervalo de -1 a 1.

### F칩rmula:
$$
r_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \cdot \sigma_Y}
$$

- $r \approx 1$: correla칞칚o positiva forte  
- $r \approx -1$: correla칞칚o negativa forte  
- $r \approx 0$: sem correla칞칚o linear

In [None]:
# Correla칞칚o de Pearson
corr = np.corrcoef(x, y)[0, 1]
print(f"Correla칞칚o entre x e y: {corr:.2f}")

## 3. Exerc칤cio com Dados Reais
Vamos usar um dataset fict칤cio de estudantes:

In [None]:
data = {
    "Horas de Estudo": [1, 2, 3, 4, 5, 6, 7, 8],
    "Nota na Prova":   [52, 55, 60, 63, 68, 71, 75, 80]
}
df = pd.DataFrame(data)
df

In [None]:
# Calculando covari칙ncia e correla칞칚o
cov = np.cov(df["Horas de Estudo"], df["Nota na Prova"], ddof=1)[0, 1]
corr = np.corrcoef(df["Horas de Estudo"], df["Nota na Prova"])[0, 1]

print(f"Covari칙ncia: {cov:.2f}")
print(f"Correla칞칚o: {corr:.2f}")

In [None]:
# Gr치fico de dispers칚o
plt.scatter(df["Horas de Estudo"], df["Nota na Prova"])
plt.title("Nota vs Horas de Estudo")
plt.xlabel("Horas de Estudo")
plt.ylabel("Nota na Prova")
plt.grid(True)
plt.show()

## 4. Interpreta칞칚o

- A covari칙ncia indica dire칞칚o da rela칞칚o, mas **n칚o** sua for칞a padronizada.
- A correla칞칚o indica **for칞a e dire칞칚o** da rela칞칚o **linear**.
- Correla칞칚o n칚o implica causalidade!

## 5. Exerc칤cio Proposto

Utilize os dados abaixo:

```python
altura = [1.60, 1.65, 1.70, 1.75, 1.80]
peso =   [55,   60,   66,   72,   77]
```

1. Calcule a covari칙ncia entre altura e peso.  
2. Calcule a correla칞칚o entre altura e peso.  
3. Fa칞a um gr치fico de dispers칚o e interprete os resultados.

In [None]:
# Espa칞o reservado para a resposta do aluno