# Ejercicio complementario 1: Clasificación XGBoost

Este ejercicio ilustrativo utiliza un modelo XGBoost, de la familia de los Gradient Boosting, para realizar una clasificación de tipos de flores, utilizando el dataset de flores **Iris** https://www.kaggle.com/datasets/vikrishnan/iris-dataset

El objetivo de este ejercicio es simplemente conocer la forma de ejecutar un modelo XGBoost, incluyendo la preparación de los dataset para entrenamiento y evaluación.

**INSTRUCCIONES**

Todos los alumnos pueden utilizar las preguntas que se indican en las secciones de "Preguntas", más adelante, como ejercicio de comprensión de este modelo de clasificación. Se puede recurrir a ejercicios de otras fuentes, así como al material de clases.

Ejercicio complementario: sin nota.

## Paso 1: Instalar las librerías de modelos de clasificación

Esto se ejecuta sólo una vez al comienzo de la sesión de cada persona. No se necesita volver a ejecutar con cada nueva prueba del resto de los scripts.

In [None]:
# Esto toma cerca de 15 minutos. Paciencia
install.packages('xgboost')
install.packages('caret')
install.packages('e1071')


## Paso 2: Preparación de los datasets

Tomando como base el dataset Iris, se conforman conjuntos para entrenamiento y evaluación. En particular esta versión del modelo XGBoost requiere datasets en un formato de matriz, lo que requiere la conversión del dataset original, a las matrices correspondientes. Nótese que se separan los atributos (primeras columnas, excepto la final) y la etiqueta, en este caso, la especie de flor (columna final).

In [None]:
library(caret)
library(e1071)
library(xgboost)

# Primero se obtiene el dataset original y se muestran sus características
data <- iris
head(data)
summary(data)
dim(data)

# Segundo, se hace una partición para armar conjunto de entrenamiento y de evaluación
# createDataPartition() es una función del paquete caret
# Ejercicio 1: probar diferentes distribuciones (0.6, 0.7, 0.8, 0.9) para ver cuál logra mejor desempeño.
parts = createDataPartition(data$Species, p = 0.7, list = F)
train = data[parts, ]
test = data[-parts, ]

# Tercero, conversión de los conjuntos a formato matriz
X_train = data.matrix(train[,-5])
y_train = train[,5]

X_test = data.matrix(test[,-5])
y_test = test[,5]

xgboost_train = xgb.DMatrix(data=X_train, label=y_train)
xgboost_test = xgb.DMatrix(data=X_test, label=y_test)

## Paso 3: Ejecución de la clasificación

Contando ya con los datasets de entrenamiento y evaluación, se entrena un modelo XGBoost.  

In [None]:
library(xgboost)

# Ejercicio 2: probar diferentes valores de max.depth y nrounds
# para ver si se mejora (o empeora) el desempeño del modelo.
model <- xgboost(data = xgboost_train,                    # el dataset de entrenamiento
                 max.depth=3, ,                           # profundidad máxima de los árboles
                 nrounds=50)                              # máxima cantidad de iteraciones de entrenamiento
summary(model)

pred_test = predict(model, xgboost_test)
pred_test

pred_test[(pred_test>3)] = 3
pred_y = as.factor((levels(y_test))[round(pred_test)])
print(pred_y)

conf_mat = confusionMatrix(y_test, pred_y)
print(conf_mat)