## XGBoost

 _Prática da aula sobre  **XGBoost** aplicada ao banco de dados de iris do sklearn, com base no que foi visto em aula, onde, como prática, o modelo foi otimizado_

In [1]:
from sklearn.datasets import load_iris

iris = load_iris() # Carregando o conjunto de dados Iris

numSamples, numFeatures = iris.data.shape # Extraindo o número de amostras e o número de características (150 amostras e 4 características)
print(numSamples) 
print(numFeatures)
print(list(iris.target_names)) # Imprimindo os nomes das classes (setosa, versicolor, virginica)

150
4
[np.str_('setosa'), np.str_('versicolor'), np.str_('virginica')]


Aplicando o Train/Test split, separando 20% para testes e 80% para treino

In [2]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=0) # Dividindo o conjunto de dados em conjuntos de treinamento e teste (80% para treinamento e 20% para teste)
print(X_train.shape) # Imprimindo a forma do conjunto de treinamento (80 amostras e 4 características)

(120, 4)



Carregando o XGBoost e convertendo os dados para o formarto DMatrix, o esperado pelo modelo. Isso é feito para os dados de treinamento e para os de teste

In [3]:
import xgboost as xgb

train = xgb.DMatrix(X_train, label=y_train)
test = xgb.DMatrix(X_test, label=y_test)

Definindo os parâmetros do XGBoost

In [4]:
param = {
    'max_depth': 4,
    'eta': 0.3,
    'objective': 'multi:softmax',
    'num_class': 3} 
epochs = 10 

Treinando o modelo com os parâmetros

In [5]:
model = xgb.train(param, train, epochs)

Utilizando o modelo para predição nos dados de teste. Cada número de classificação obtido corresponde a uma espécie específica de Iris.

In [6]:
predictions = model.predict(test)

In [7]:
print(predictions)

[2. 1. 0. 2. 0. 2. 0. 1. 1. 1. 2. 1. 1. 1. 1. 0. 1. 1. 0. 0. 2. 1. 0. 0.
 2. 0. 0. 1. 1. 0.]


Medindo a Precisão

In [8]:
from sklearn.metrics import accuracy_score

accuracy_score(y_test, predictions)

1.0

Dado a alta precisão do modelo, Irei fazer como prática, a otimização do modelo, para que ele se torne mais leve e simples

In [9]:
param = {
    'max_depth': 4,
    'eta': 0.1,
    'objective': 'multi:softmax',
    'num_class': 3} 
epochs = 2 

In [10]:
model = xgb.train(param, train, epochs)

In [11]:
predictions = model.predict(test)

In [12]:
print(predictions)

[2. 1. 0. 2. 0. 2. 0. 1. 1. 1. 2. 1. 1. 1. 1. 0. 1. 1. 0. 0. 2. 1. 0. 0.
 2. 0. 0. 1. 1. 0.]


Medindo a Precisão

In [13]:
accuracy_score(y_test, predictions)

1.0

Continuou alta, e o programa está melhor otimizado, com apenas 2 epocas

Utilizando GridSearch, combina vetores de parâmetros para buscar a melhor opção, do sklearn como otimizador:

In [14]:
from sklearn.model_selection import GridSearchCV
import xgboost as xgb

# Definindo os parâmetros para busca em grade
param_grid = {
    'max_depth': [3, 4, 5],
    'eta': [0.1, 0.2, 0.3],
}

# Criando o modelo base
xgb_model = xgb.XGBClassifier(objective='multi:softmax', num_class=3)

# Configurando o GridSearchCV
grid_search = GridSearchCV(estimator=xgb_model, param_grid=param_grid, scoring='accuracy', cv=3, verbose=1)

# Executando a busca
grid_search.fit(X_train, y_train)

# Melhor combinação de parâmetros
print("Melhores parâmetros:", grid_search.best_params_)
print("Melhor precisão:", grid_search.best_score_)

Fitting 3 folds for each of 9 candidates, totalling 27 fits
Melhores parâmetros: {'eta': 0.1, 'max_depth': 3}
Melhor precisão: 0.9416666666666668


In [15]:
param = {
    'max_depth': 3,
    'eta': 0.1,
    'objective': 'multi:softmax',
    'num_class': 3} 
epochs = 2 

In [16]:
model = xgb.train(param, train, epochs)

In [17]:
predictions = model.predict(test)

In [18]:
print(predictions)

[2. 1. 0. 2. 0. 2. 0. 1. 1. 1. 2. 1. 1. 1. 1. 0. 1. 1. 0. 0. 2. 1. 0. 0.
 2. 0. 0. 1. 1. 0.]


In [19]:
accuracy_score(y_test, predictions)

1.0

Dessa Forma, o Nosso modelo está com alta precisão e bem otimizado