In [13]:
import numpy as np
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression

# Criando um conjunto de dados fictício para regressão
# X são as variáveis independentes (features) e y é a variável dependente (target)
X, y = make_regression(n_samples=1000, n_features=2, noise=0.1, random_state=42)

# Definindo o modelo (regressão linear neste caso)
model = LinearRegression()

# Aplicando validação cruzada (K-Fold)
# A validação cruzada é uma técnica onde o conjunto de dados é dividido em 'K' partes (folds). 
# O modelo é treinado em K-1 folds e testado no fold restante. 
# Isso é repetido K vezes, com o modelo sendo treinado e testado em diferentes folds a cada vez. 
# A validação cruzada ajuda a garantir que o modelo seja avaliado de forma robusta e minimize o risco de overfitting.
# Aqui, usamos 5 folds (cv=5) e o erro quadrático médio negativo (scoring='neg_mean_squared_error') como métrica.
# O valor negativo do MSE é retornado, pois o scikit-learn maximiza a pontuação, então multiplicamos por -1 para obter o valor positivo.
cv_scores = cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error')


# Exibindo os resultados
# A variável 'cv_scores' contém o MSE de cada fold. O valor médio de MSE é calculado para avaliar a performance geral do modelo.
print(f'Pontuações de MSE em cada fold: {cv_scores}')
print(f'Média do MSE: {cv_scores.mean()}')


Pontuações de MSE em cada fold: [-0.01110605 -0.00848978 -0.00826153 -0.01234418 -0.00848657]
Média do MSE: -0.009737621010911654
