In [1]:
import numpy as np
import pandas as pd
from xgboost import XGBRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt

# 1. Gerando os dados sintéticos
np.random.seed(42)

n_samples = 1000

# Features com impacto no target
X1 = np.random.normal(0, 1, n_samples)
X2 = np.random.normal(0, 1, n_samples)

# Feature como combinação linear de X1 e X2
X3 = 2 * X1 + 3 * X2 + np.random.normal(0, 0.1, n_samples)

# Features que não impactam o target (ruído)
X4 = np.random.normal(0, 1, n_samples)
X5 = np.random.normal(0, 1, n_samples)

# Target (y) é uma combinação linear de X1 e X2
y = 5 * X1 - 2 * X2 + np.random.normal(0, 1, n_samples)

# Criando um DataFrame para visualizar os dados
df = pd.DataFrame({
    'X1': X1,
    'X2': X2,
    'X3': X3,
    'X4': X4,
    'X5': X5,
    'y': y
})

# 2. Dividindo os dados em treino e teste
X = df[['X1', 'X2', 'X3', 'X4', 'X5']]
y = df['y']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 3. Aplicando o XGBoost
xgb_model = XGBRegressor(objective='reg:squarederror', n_estimators=100, random_state=42)
xgb_model.fit(X_train, y_train)

# 4. Avaliando o modelo
y_pred = xgb_model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")

# 5. Importância das Features
importances = xgb_model.feature_importances_
feature_importance_df = pd.DataFrame({
    'Feature': X.columns,
    'Importance': importances
}).sort_values(by='Importance', ascending=False)

print("Importância das Features:")
print(feature_importance_df)

# 6. Plotando a importância das features
plt.figure(figsize=(10, 6))
plt.barh(feature_importance_df['Feature'], feature_importance_df['Importance'])
plt.xlabel('Importância')
plt.ylabel('Feature')
plt.title('Importância das Features no XGBoost')
plt.show()


ModuleNotFoundError: No module named 'xgboost'