<img src="https://www.uss.cl/wp-content/themes/uss/img/logo.svg" width="400">

# Universidad San Sebastián - Magister Data Science

## Machine Learning 
### Métodos de Clasificación II
### Marco Cedeño

En este Notebook se va a realizar la aplicación de los algoritmos de clasificación:

* Boosting y Random Forest

* Redes Neuronales

* XGBOOST 

Cada algoritmo tiene una implementación simple en base a un conjunto de datos pequeño.

## 2. Métodos de Clasificación II 

### 2.2 Boosting Random Forest

#### 2.2.1 Carga de librerías necesarias

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_digits
from sklearn.metrics import accuracy_score


#### 2.2.2 Carga del conjunto de datos

In [None]:
data = load_digits()
X = data.data
y = data.target

#### 2.2.3 Preprocesamiento de datos

Separación de datos para conjunto de entrenamiento y prueba de manera aleatoria 80-20 %)


In [None]:
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escalado (estandarización) para asegurar importancia similar 
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)  # Datos de entrenamiento estandarizados
X_test = sc.transform(X_test)        # Datos de prueba estandarizados con los parámetros anteriores


#### 2.2.4 Definición del modelo

In [None]:
# Creación de una instancia del clasificador Random Forest
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)

# Entrenamiento el clasificador con los datos de entrenamiento
rf_classifier.fit(X_train, y_train)


#### 2.2.5 Predicciones y evaluación del modelo

In [None]:
# Predicciones a partir del conjunto de prueba
y_pred = rf_classifier.predict(X_test)

# Evaluación del modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión: {:.2f}%".format(accuracy * 100))

Precisión: 97.22%


#### 2.2.6 Muestra Gráfica

### 2.3 Redes Neuronales

#### 2.3.1 Carga de librerías necesarias

In [None]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

#### 2.3.2 Carga del conjunto de datos

In [None]:
# Carga del conjunto de datos de Wine
wine = load_wine()

#### 2.3.3 Preprocesamiento de datos

Separación de datos para conjunto de entrenamiento y prueba de manera aleatoria 80-20 %)


In [None]:
# Divición del conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.2, random_state=42)

# Escalado (estandarización) para asegurar importancia similar 
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)  # Datos de entrenamiento estandarizados
X_test = sc.transform(X_test)        # Datos de prueba estandarizados con los parámetros anteriores


#### 2.3.4 Definición del modelo

In [None]:
model = MLPClassifier(hidden_layer_sizes=(100, 100), max_iter=1000, random_state=42)
model.fit(X_train, y_train)


#### 2.3.5 Predicciones y evaluación del modelo

In [None]:
# Predicciones a partir del conjunto de prueba
y_pred = model.predict(X_test)

# Evaluación del modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión: {:.2f}%".format(accuracy * 100))

Precisión: 100.00%


#### 2.3.6 Muestra Gráfica

### 2.4 XGBOOST

#### 2.4.1 Carga de librerías necesarias

In [None]:
import xgboost as xgb
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score


#### 2.4.2 Carga del conjunto de datos

In [None]:
# Cargar el conjunto de datos de Breast Cancer
data = load_breast_cancer()
X, y = data.data, data.target

#### 2.4.3 Preprocesamiento de datos

Separación de datos para conjunto de entrenamiento y prueba de manera aleatoria 80-20 %)


In [None]:
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


# Escalado (estandarización) para asegurar importancia similar 
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)  # Datos de entrenamiento estandarizados
X_test = sc.transform(X_test)        # Datos de prueba estandarizados con los parámetros anteriores


# Creación un objeto DMatrix para los datos de entrenamiento y prueba
dtrain = xgb.DMatrix(X_train, label=y_train)
dtest = xgb.DMatrix(X_test, label=y_test)


#### 2.4.4 Definición del modelo

In [None]:
# Definir los parámetros del modelo XGBoost para clasificación
params = {
    'objective': 'binary:logistic',  # Función de pérdida para clasificación binaria
    'max_depth': 3,                   # Profundidad máxima del árbol
    'eta': 0.1,                       # Tasa de aprendizaje
    'subsample': 0.7,                 # Muestra aleatoria de filas para construir árboles
    'colsample_bytree': 0.7,          # Muestra aleatoria de columnas para construir árboles
    'seed': 42                        # Semilla aleatoria para reproducibilidad
}

# Entrenar el modelo XGBoost
num_rounds = 100
model = xgb.train(params, dtrain, num_rounds)


#### 2.4.5 Predicciones y evaluación del modelo

In [None]:
# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(dtest)
y_pred_binary = [1 if pred >= 0.5 else 0 for pred in y_pred]  # Convertir probabilidades en clases binarias (0 o 1)

# Calcular las métricas de clasificación
accuracy = accuracy_score(y_test, y_pred_binary)
precision = precision_score(y_test, y_pred_binary)
recall = recall_score(y_test, y_pred_binary)
f1 = f1_score(y_test, y_pred_binary)

print(f"Accuracy: {accuracy*100}")
print(f"Precision: {precision*100}")
print(f"Recall: {recall*100}")
print(f"F1-score: {f1*100}")

Accuracy: 96.49122807017544
Precision: 95.8904109589041
Recall: 98.59154929577466
F1-score: 97.22222222222221


#### 2.4.6 Muestra Gráfica