# Análise de Regressão Linear - Duração e Intervalo de Erupções

Este notebook realiza uma análise de regressão linear sobre dados de duração de erupções e seus respectivos intervalos até a próxima erupção.

## Objetivos:
1. **Leitura da tabela de dados**
2. **Cálculo da reta de regressão linear**
3. **Plotagem de gráfico de dispersão com a reta sobreposta**
4. **Cálculo e exibição do coeficiente de determinação (R²)**

---

## 1. Importação das Bibliotecas Necessárias

Importaremos as bibliotecas essenciais para análise de dados, cálculos matemáticos e visualização.

In [7]:
# Importação das bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import seaborn as sns

# Configuração para melhor visualização dos gráficos
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

print("Bibliotecas importadas com sucesso!")

ModuleNotFoundError: No module named 'pandas'

## 2. Leitura e Preparação dos Dados

Vamos criar um DataFrame com os dados fornecidos de duração das erupções (variável independente x) e intervalo até a próxima erupção (variável dependente y).

In [None]:
# Dados fornecidos no problema
# Duração (x) e Intervalo (y)
dados_duracao = [1.80, 1.82, 1.90, 1.93, 1.98, 2.05, 2.13, 2.30, 2.37,
                 2.82, 3.13, 3.27, 3.65, 3.78, 3.83, 3.88, 4.10, 4.27,
                 4.30, 4.43, 4.47, 4.53, 4.55, 4.60, 4.63]

dados_intervalo = [56, 58, 62, 56, 57, 57, 60, 57, 61,
                   73, 76, 77, 77, 79, 85, 80, 89, 90,
                   89, 89, 86, 89, 86, 92, 91]

# Criando o DataFrame
df = pd.DataFrame({
    'Duração (x)': dados_duracao,
    'Intervalo (y)': dados_intervalo
})

# Exibindo informações básicas sobre os dados
print("Dataset - Duração e Intervalo de Erupções")
print("="*45)
print(f"Número de observações: {len(df)}")
print(f"Duração mínima: {df['Duração (x)'].min():.2f} minutos")
print(f"Duração máxima: {df['Duração (x)'].max():.2f} minutos")
print(f"Intervalo mínimo: {df['Intervalo (y)'].min()} minutos")
print(f"Intervalo máximo: {df['Intervalo (y)'].max()} minutos")
print("\nPrimeiras 10 observações:")
print(df.head(10))

## 3. Cálculo da Reta de Regressão Linear

Utilizaremos o método dos mínimos quadrados para calcular a reta de regressão que melhor se ajusta aos dados. A equação da reta será: **y = ax + b**

In [None]:
# Preparando os dados para o modelo de regressão
X = df['Duração (x)'].values.reshape(-1, 1)  # Variável independente (duração)
y = df['Intervalo (y)'].values                # Variável dependente (intervalo)

# Criando e treinando o modelo de regressão linear
modelo_regressao = LinearRegression()
modelo_regressao.fit(X, y)

# Obtendo os coeficientes da reta de regressão
coeficiente_angular = modelo_regressao.coef_[0]      # Slope (a)
coeficiente_linear = modelo_regressao.intercept_     # Intercept (b)

# Calculando as predições
y_pred = modelo_regressao.predict(X)

# Exibindo os resultados
print("Parâmetros da Reta de Regressão Linear")
print("="*42)
print(f"Coeficiente Angular (a): {coeficiente_angular:.4f}")
print(f"Coeficiente Linear (b): {coeficiente_linear:.4f}")
print(f"\nEquação da reta: y = {coeficiente_angular:.4f}x + {coeficiente_linear:.4f}")
print(f"\nInterpretação:")
print(f"- Para cada minuto adicional de duração da erupção,")
print(f"  o intervalo até a próxima erupção aumenta em {coeficiente_angular:.2f} minutos.")

## 4. Gráfico de Dispersão com Reta de Regressão

Vamos plotar os dados originais e sobrepor a reta de regressão calculada para visualizar o ajuste do modelo.

In [None]:
# Criando o gráfico de dispersão com a reta de regressão
plt.figure(figsize=(14, 9))

# Plotando os pontos originais
plt.scatter(df['Duração (x)'], df['Intervalo (y)'], 
           color='steelblue', alpha=0.8, s=120, 
           label='Dados Observados', edgecolors='darkblue', linewidth=1.2, zorder=3)

# Plotando a reta de regressão
plt.plot(df['Duração (x)'], y_pred, 
         color='crimson', linewidth=3.5, 
         label=f'Reta de Regressão: y = {coeficiente_angular:.2f}x + {coeficiente_linear:.2f}',
         zorder=2)

# Configurações do gráfico
plt.title('Análise de Regressão Linear: Duração vs Intervalo de Erupções', 
          fontsize=18, fontweight='bold', pad=25)
plt.xlabel('Duração da Erupção (minutos)', fontsize=15, fontweight='bold', labelpad=10)
plt.ylabel('Intervalo até Próxima Erupção (minutos)', fontsize=15, fontweight='bold', labelpad=10)

# Configurando os eixos
plt.xlim(1.5, 5.0)
plt.ylim(50, 95)

# Adicionando grade melhorada
plt.grid(True, alpha=0.4, linestyle='-', linewidth=0.8, zorder=1)
plt.gca().set_axisbelow(True)

# Configurando a legenda
plt.legend(fontsize=13, loc='upper left', frameon=True, fancybox=True, 
          shadow=True, framealpha=0.9)

# Melhorando a aparência dos ticks
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)

# Adicionando informações estatísticas
info_text = f'R² = {r2:.4f}\nn = {len(df)} observações\nCorrelação = {correlacao:.4f}'
props = dict(boxstyle='round,pad=0.5', facecolor='lightgray', alpha=0.8)
plt.text(0.02, 0.98, info_text, transform=plt.gca().transAxes, fontsize=11,
         verticalalignment='top', bbox=props)

# Configurando bordas do gráfico
plt.gca().spines['top'].set_linewidth(1.2)
plt.gca().spines['right'].set_linewidth(1.2)
plt.gca().spines['bottom'].set_linewidth(1.2)
plt.gca().spines['left'].set_linewidth(1.2)

plt.tight_layout()
plt.show()

print("Gráfico de dispersão com reta de regressão plotado com sucesso!")

## 5. Cálculo e Análise do Coeficiente de Determinação (R²)

O coeficiente de determinação (R²) mede a proporção da variabilidade total dos dados que é explicada pelo modelo de regressão. Valores próximos a 1 indicam um bom ajuste.

In [None]:
# Calculando o coeficiente de determinação R²
r2 = r2_score(y, y_pred)

# Também podemos calcular usando o método score do modelo
r2_modelo = modelo_regressao.score(X, y)

# Calculando outras métricas estatísticas
correlacao = np.corrcoef(df['Duração (x)'], df['Intervalo (y)'])[0, 1]
erro_medio_quadratico = np.mean((y - y_pred) ** 2)
erro_medio_absoluto = np.mean(np.abs(y - y_pred))

# Exibindo os resultados
print("Coeficiente de Determinação e Métricas de Avaliação")
print("="*55)
print(f"R² (Coeficiente de Determinação): {r2:.4f}")
print(f"R² (verificação pelo modelo): {r2_modelo:.4f}")
print(f"Correlação de Pearson (r): {correlacao:.4f}")
print(f"Erro Médio Quadrático (MSE): {erro_medio_quadratico:.4f}")
print(f"Erro Médio Absoluto (MAE): {erro_medio_absoluto:.4f}")

print(f"\nInterpretação do R²:")
print(f"- O modelo explica {r2*100:.2f}% da variabilidade dos dados.")

if r2 >= 0.8:
    print("- EXCELENTE ajuste do modelo aos dados!")
elif r2 >= 0.6:
    print("- BOM ajuste do modelo aos dados.")
elif r2 >= 0.4:
    print("- MODERADO ajuste do modelo aos dados.")
else:
    print("- FRACO ajuste do modelo aos dados.")
    
print(f"- A correlação entre duração e intervalo é {correlacao:.4f}")
if abs(correlacao) >= 0.8:
    print("  (correlação FORTE)")
elif abs(correlacao) >= 0.5:
    print("  (correlação MODERADA)")
else:
    print("  (correlação FRACA)")

## 6. Análise de Resíduos

Uma análise complementar importante é verificar os resíduos (diferenças entre valores observados e preditos) para validar a qualidade do modelo.

In [None]:
# Calculando os resíduos
residuos = y - y_pred

# Criando gráficos de análise de resíduos
fig, axes = plt.subplots(1, 2, figsize=(16, 7))

# Gráfico 1: Resíduos vs Valores Preditos
axes[0].scatter(y_pred, residuos, alpha=0.8, color='steelblue', 
               edgecolors='darkblue', linewidth=1.2, s=100)
axes[0].axhline(y=0, color='crimson', linestyle='--', linewidth=2.5)
axes[0].set_xlabel('Valores Preditos', fontweight='bold', fontsize=13)
axes[0].set_ylabel('Resíduos', fontweight='bold', fontsize=13)
axes[0].set_title('Resíduos vs Valores Preditos', fontweight='bold', fontsize=14)
axes[0].grid(True, alpha=0.4, linestyle='-', linewidth=0.8)
axes[0].tick_params(axis='both', which='major', labelsize=11)

# Gráfico 2: Distribuição dos Resíduos (Histograma)
axes[1].hist(residuos, bins=8, alpha=0.7, color='lightcoral', 
            edgecolor='darkred', linewidth=1.2)
axes[1].set_xlabel('Resíduos', fontweight='bold', fontsize=13)
axes[1].set_ylabel('Frequência', fontweight='bold', fontsize=13)
axes[1].set_title('Distribuição dos Resíduos', fontweight='bold', fontsize=14)
axes[1].grid(True, alpha=0.4, linestyle='-', linewidth=0.8)
axes[1].tick_params(axis='both', which='major', labelsize=11)

# Melhorando a aparência dos subplots
for ax in axes:
    ax.spines['top'].set_linewidth(1.2)
    ax.spines['right'].set_linewidth(1.2)
    ax.spines['bottom'].set_linewidth(1.2)
    ax.spines['left'].set_linewidth(1.2)

plt.tight_layout()
plt.show()

# Estatísticas dos resíduos
print("Análise dos Resíduos")
print("="*20)
print(f"Média dos resíduos: {np.mean(residuos):.6f}")
print(f"Desvio padrão dos resíduos: {np.std(residuos):.4f}")
print(f"Resíduo mínimo: {np.min(residuos):.4f}")
print(f"Resíduo máximo: {np.max(residuos):.4f}")

print("\nObs: Se os resíduos estiverem distribuídos aleatoriamente em torno de zero,")
print("     isso indica que o modelo linear é apropriado para os dados.")

## 7. Resumo e Conclusões

Vamos consolidar todos os resultados obtidos na análise de regressão linear.

In [None]:
# Resumo final da análise
print("RESUMO DA ANÁLISE DE REGRESSÃO LINEAR")
print("="*45)
print(f"\nDADOS:")
print(f"   • Número de observações: {len(df)}")
print(f"   • Variável independente (x): Duração da erupção (minutos)")
print(f"   • Variável dependente (y): Intervalo até próxima erupção (minutos)")

print(f"\nEQUAÇÃO DA RETA DE REGRESSÃO:")
print(f"   • y = {coeficiente_angular:.4f}x + {coeficiente_linear:.4f}")
print(f"   • Coeficiente Angular: {coeficiente_angular:.4f}")
print(f"   • Coeficiente Linear: {coeficiente_linear:.4f}")

print(f"\nQUALIDADE DO AJUSTE:")
print(f"   • R² (Coeficiente de Determinação): {r2:.4f}")
print(f"   • Correlação (r): {correlacao:.4f}")
print(f"   • O modelo explica {r2*100:.2f}% da variabilidade dos dados")

print(f"\nINTERPRETAÇÃO:")
print(f"   • Para cada minuto adicional de duração da erupção,")
print(f"     o intervalo até a próxima erupção aumenta em {coeficiente_angular:.2f} minutos")
print(f"   • Existe uma correlação {'forte' if abs(correlacao) >= 0.8 else 'moderada' if abs(correlacao) >= 0.5 else 'fraca'} e positiva")
print(f"     entre duração e intervalo das erupções")

print(f"\nVALIDAÇÃO:")
print(f"   • Erro Médio Quadrático: {erro_medio_quadratico:.4f}")
print(f"   • Erro Médio Absoluto: {erro_medio_absoluto:.4f}")
print(f"   • Média dos resíduos: {np.mean(residuos):.6f} (próximo de zero)")

# Exemplo de predição
duracao_exemplo = 3.5
intervalo_predito = modelo_regressao.predict([[duracao_exemplo]])[0]
print(f"\nEXEMPLO DE PREDIÇÃO:")
print(f"   • Para uma erupção de {duracao_exemplo} minutos,")
print(f"     o modelo prediz um intervalo de {intervalo_predito:.1f} minutos até a próxima erupção")

print(f"\n" + "="*45)
print("ANÁLISE CONCLUÍDA COM SUCESSO!")