### **Célula para inicializar as importações que vão ser utilizadas ao decorrer das próximas células**

In [17]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error


### **Célula para carregar os dados**

In [18]:
def load_data(file_path: str = "../data/aerogerador.dat") -> pd.DataFrame:
    """
    Carrega o conjunto de dados do aerogerador a partir de um arquivo.

    Args:
        file_path (str): Caminho para o arquivo de dados.

    Returns:
        pd.DataFrame: Conjunto de dados com as colunas ["velocidade", "potencia"].
    """
    df = pd.read_csv(file_path, sep=r"\s+", header=None, names=["velocidade", "potencia"])
    return df

# Carregar os dados
data = load_data()


### **Célula para inicializar o X e y**

In [19]:
X = data[["velocidade"]].values
y = data["potencia"].values

### **Célula responsável em treinar o modelo de regressão linear e calcular MSE e MAE**

In [20]:
def train_evaluate(X: np.ndarray, y: np.ndarray, n_iterations: int = 500, test_size: float = 0.2):
    """
    Treina o modelo de regressão linear múltiplas vezes e calcula MSE e MAE.

    Args:
        X (np.ndarray): Array de features.
        y (np.ndarray): Array de valores alvo.
        n_iterations (int): Número de divisões aleatórias treino/teste.
        test_size (float): Fração do conjunto de teste.

    Returns:
        dict: Dicionário com listas 'mse' e 'mae'.
    """
    model = LinearRegression()
    mse_list, mae_list = [], []

    for i in range(n_iterations):
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=i, shuffle=True)
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)

        mse_list.append(mean_squared_error(y_test, y_pred))
        mae_list.append(mean_absolute_error(y_test, y_pred))

    return {"mse": mse_list, "mae": mae_list}

metrics = train_evaluate(X, y)


### **Célula para mostrar o resumo estatístico formatado**


In [21]:
def summarize_metrics(metrics_list: list):
    """
    Calcula média, desvio padrão, máximo e mínimo de uma lista de métricas.
    """
    return {
        "Média": np.mean(metrics_list),
        "Desvio-padrão": np.std(metrics_list, ddof=1),
        "Maior valor": np.max(metrics_list),
        "Menor valor": np.min(metrics_list)
    }

summary = {"MSE": summarize_metrics(metrics["mse"]),
           "MAE": summarize_metrics(metrics["mae"])}

pd.DataFrame(summary).T


Unnamed: 0,Média,Desvio-padrão,Maior valor,Menor valor
MSE,798.302141,165.195013,1371.823766,456.26091
MAE,18.40239,0.755098,20.420843,16.266246
