# Educação e Esperança de Vida: Explorando Relações com Regressão Linear

Neste notebook vamos estudar a ligação entre **anos médios de escolaridade** e **esperança de vida** em alguns países.

A ideia é mostrar como podemos usar gráficos e uma linha de regressão linear para identificar **tendências** e fazer **previsões**, lembrando sempre que **correlação não implica causalidade**.

## Parte 1 – Poucos dados (3 países)

Primeiro, vamos observar os dados de **apenas 3 países**:

- País A: 10 anos de escolaridade, 57 anos de esperança de vida
- País B: 13 anos de escolaridade, 53 anos de esperança de vida
- País C: 20 anos de escolaridade, 80 anos de esperança de vida

Com tão poucos pontos, é difícil ter certeza sobre a tendência, mas podemos tentar ajustar uma linha que represente esses dados.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Dados de 3 países
x = np.array([10, 13, 20])  # anos de escolaridade
y = np.array([57, 53, 80])  # esperança de vida

# Gráfico de dispersão
plt.scatter(x, y, color="deepskyblue", s=80)
plt.xlabel("Anos de escolaridade")
plt.ylabel("Esperança de vida (anos)")
plt.title("Esperança de vida e escolaridade – 3 países")
plt.show()

Agora, podemos usar uma regressão linear simples para traçar uma linha de tendência.

In [None]:
from sklearn.linear_model import LinearRegression

modelo = LinearRegression()
modelo.fit(x.reshape(-1,1), y)

# Linha de regressão
x_linha = np.linspace(8, 22, 100)
y_linha = modelo.predict(x_linha.reshape(-1,1))

plt.scatter(x, y, color="deepskyblue", s=80, label="Países")
plt.plot(x_linha, y_linha, color="magenta", linewidth=2, label="Linha de tendência")
plt.xlabel("Anos de escolaridade")
plt.ylabel("Esperança de vida (anos)")
plt.title("Linha ajustada – poucos dados")
plt.legend()
plt.show()

# Previsão para 15 anos de escolaridade
pred_15 = modelo.predict([[15]])[0]
pred_15

👉 A previsão para **15 anos de escolaridade** é exibida acima. 

Mas atenção: com **apenas 3 pontos**, essa previsão é bastante incerta. Vamos melhorar isso com mais dados!

## Parte 2 – Mais dados (14 países)

Agora temos um conjunto maior de dados (14 países). Isso nos permite ver melhor a **tendência geral**.

In [None]:
# Novo conjunto de dados (14 países fictícios)
x2 = np.array([6, 9, 9, 10, 10, 11, 12, 12, 13, 14, 14, 15, 16, 20])
y2 = np.array([51, 43, 57, 57, 63, 72, 46, 53, 74, 71, 64, 77, 80, 81])

# Ajustar modelo
modelo2 = LinearRegression()
modelo2.fit(x2.reshape(-1,1), y2)

x_linha2 = np.linspace(5, 22, 100)
y_linha2 = modelo2.predict(x_linha2.reshape(-1,1))

plt.scatter(x2, y2, color="deepskyblue", s=60, label="Países")
plt.plot(x_linha2, y_linha2, color="magenta", linewidth=2, label="Linha de tendência")
plt.xlabel("Anos de escolaridade")
plt.ylabel("Esperança de vida (anos)")
plt.title("Esperança de vida e escolaridade – 14 países")
plt.legend()
plt.show()

# Previsão para 15 anos de escolaridade
pred_15_more = modelo2.predict([[15]])[0]
pred_15_more

👉 Agora a previsão para **15 anos de escolaridade** é exibida acima. 

Com mais dados, a linha fica mais confiável e nossa previsão é mais robusta.

## Parte 3 – Reflexão crítica

É importante destacar que:
- Este tipo de estudo mostra **associações** e não prova **causalidade**.
- Países com mais escolaridade também podem ter melhor saúde pública, nutrição e segurança, fatores que aumentam a esperança de vida.
- A regressão linear é útil para **previsões**, mas não responde ao “porquê”.

📌 Conclusão: Mais escolaridade está associada a maior esperança de vida nos dados analisados, mas não podemos afirmar que uma coisa **causa** a outra.