# Actividad 2.2: Aprendizaje supervisado
Oskar Villa

Cruz Pérez

Rogelio Hernández

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

## Investigación documental: Random Forest

### Descripción General

El clasificador **Random Forest** es un algoritmo de aprendizaje supervisado que pertenece a la categoría de métodos de *ensamble*. Su funcionamiento se basa en la construcción de múltiples árboles de decisión durante el entrenamiento, cuya salida se combina para producir una predicción final más precisa y robusta. Para tareas de clasificación, el resultado se determina por votación mayoritaria entre los árboles individuales.

### Funcionamiento

Random Forest emplea la técnica de *bootstrap aggregating* (también conocida como *bagging*), que consiste en:

1. Generar subconjuntos aleatorios del conjunto de datos original, con reemplazo.
2. Entrenar un árbol de decisión independiente en cada subconjunto.
3. En cada división del árbol, se selecciona aleatoriamente un subconjunto de características para elegir la mejor partición.
4. La predicción final se realiza mediante votación entre los árboles (en clasificación) o promedio (en regresión).

Este enfoque permite reducir la varianza del modelo y mejora su capacidad de generalización.

### Tipos de Datos que Maneja

El clasificador Random Forest puede manejar:

- Datos estructurados en formato tabular.
- Variables tanto numéricas como categóricas.
- Conjuntos de datos con valores faltantes o ruidosos.
- Variables no escaladas (no requiere normalización o estandarización).

### Principales Parámetros

| Parámetro            | Descripción                                                                 |
|----------------------|-----------------------------------------------------------------------------|
| `n_estimators`       | Número de árboles que compondrán el bosque.                                |
| `max_depth`          | Profundidad máxima permitida de los árboles.                               |
| `min_samples_split`  | Número mínimo de muestras requeridas para dividir un nodo.                 |
| `max_features`       | Número máximo de características consideradas para dividir en cada nodo.   |
| `bootstrap`          | Indica si se utiliza muestreo con reemplazo al generar los subconjuntos.  |
| `criterion`          | Función empleada para medir la calidad de una división (`gini`, `entropy`).|


### Referencias

- Breiman, L. (2001). *Random Forests*. *Machine Learning*, 45(1), 5–32.  
  [https://link.springer.com/article/10.1023/A:1010933404324](https://link.springer.com/article/10.1023/A:1010933404324)
- Scikit-learn documentation. *Random Forest Classifier*.  
  [https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)
- Géron, A. (2019). *Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow*

## Datos y objetivo de clasificación

> Los datos se componen de dos archivos con distintos tipos de vinos (red y white). Estos datos se procesarán de la siguiente manera:  
> • Seleccionar un tipo de vino  
> • Seleccionar solo dos clases a analizar, y determinar cuál será la clase objetivo (por ejemplo: Trabajaremos con la clase 5 y 7, pero nuestra clase objetivo es la 5. **IMPORTANTE**: Recuerda que, aunque los tipos de vino se determinan mediante un entero, son atributos ordinales).  
> • Determinar qué métrica de evaluación utilizarán para estos experimentos  
> • De acuerdo con la selección de los puntos anteriores, generar un conjunto de entrenamiento y uno de evaluación con el 70% y 30% de las instancias respectivamente. Cuidar que se conserve la proporción de las dos clases en cada conjunto.  
> • Determinar si necesitan o no transformación de datos, en caso de necesitarla, generar los archivos correspondientes, en caso de que no, justificar su elección.  

In [5]:

# Load the white wine and red wine datasets
white_wine_data = pd.read_csv('data/winequality-white.csv')
red_wine_data = pd.read_csv('data/winequality-red.csv')

# Count the number of appearances of each class in the 'quality' column for each dataset
white_wine_quality_counts = white_wine_data['quality'].value_counts()
red_wine_quality_counts = red_wine_data['quality'].value_counts()

print("White Wine Quality Counts:")
print(white_wine_quality_counts)

print("\nRed Wine Quality Counts:")
print(red_wine_quality_counts)


White Wine Quality Counts:
quality
6    2198
5    1457
7     880
8     175
4     163
3      20
9       5
Name: count, dtype: int64

Red Wine Quality Counts:
quality
5    681
6    638
7    199
4     53
8     18
3     10
Name: count, dtype: int64


### Objetivo de clasificación

Para mantener un balance de clases, se seleccionaron los siguientes datos:
* Se utilizará vino blanco (white)
* Se usarán las clases 4 y 8. La clase objetivo es 4.
* Las métricas de evaluación serán accuracy y F1 score, ya que F1 es una métrica que combina Recall y Precision.

### Entrenamiento y evaluación

In [7]:
# Filter the white wine dataset to include only quality 4 and 8
filtered_white_wine = white_wine_data[white_wine_data['quality'].isin([4, 8])]

# Separate features and target
X = filtered_white_wine.drop(columns=['quality'])
y = filtered_white_wine['quality']

# Perform train-test split with stratification to maintain label balance
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Verify the balance of labels in both splits
print("Training set label distribution:")
print(y_train.value_counts())

print("\nTest set label distribution:")
print(y_test.value_counts())

Training set label distribution:
quality
8    122
4    114
Name: count, dtype: int64

Test set label distribution:
quality
8    53
4    49
Name: count, dtype: int64


### Transformación

In [9]:
X_train.describe()


Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol
count,236.0,236.0,236.0,236.0,236.0,236.0,236.0,236.0,236.0,236.0,236.0
mean,6.91822,0.326059,0.317288,5.039831,0.045237,30.065678,126.542373,0.99333,3.210763,0.488051,10.877966
std,1.004059,0.148333,0.128789,4.278606,0.02365,20.253577,45.314085,0.002831,0.159046,0.129205,1.343963
min,4.4,0.12,0.0,0.7,0.013,3.0,10.0,0.98713,2.83,0.25,8.4
25%,6.4,0.2275,0.26,1.5875,0.034,15.0,96.0,0.991038,3.09,0.3875,9.8
50%,6.9,0.29,0.31,3.6,0.041,29.0,122.0,0.99302,3.2,0.47,10.9
75%,7.4,0.38,0.37,7.25,0.05025,39.0,155.0,0.995138,3.32,0.57,12.0
max,10.2,1.005,0.88,15.4,0.29,138.5,272.0,1.0006,3.72,0.95,14.0


No hay datos nulos y parecen no contener outliers significativos a simple vista. Solo se realizará normalización.

In [None]:
# Initialize the scaler
scaler = MinMaxScaler()

# Normalize the training and test data
X_train_normalized = pd.DataFrame(scaler.fit_transform(X_train), columns=X_train.columns, index=X_train.index)
X_test_normalized = pd.DataFrame(scaler.transform(X_test), columns=X_test.columns, index=X_test.index)

# Display the normalized data
print("Normalized Training Data:")
print(X_train_normalized.head())

print("\nNormalized Test Data:")
print(X_test_normalized.head())

## Implementación de algoritmos

> Implementa los siguientes algoritmos de clasificación (puede ser código propio o con librerías especializadas):
> 1. Knn  
> 2. Árbol de decisión  
> 3. Algoritmo investigado en el punto 1 (puede ser con la ayuda de una librería o con código propio)  

> Recuerda agregar el código para evaluar los modelos con accuracy y la métrica seleccionada en los puntos anteriores, puede ser `classification_report` de Scikit-learn o programar tus propias métricas.


## Experimentación y evaluación

> Para cada algoritmo, generen al menos 8 experimentos variando los parámetros.  
> * Para cada modelo, clasifica el conjunto de entrenamiento y evaluación, recuerda obtener las métricas para cada uno.  
> * Muestren la exactitud en gráficas, de tal modo que se puede apreciar si existe overfitting y/o underfitting. Describe las gráficas obtenidas por modelo.  
> * Muestra los resultados de la métrica seleccionada por medio de tablas y/o gráficas. Redacta los hallazgos que consideren importantes.  

## Conclusiones

> Redacta las conclusiones del experimento, toma en cuenta los siguientes puntos:  
> • ¿Qué algoritmo tuvo un mejor desempeño? ¿Con qué parámetros se logró esto?  
> • ¿Hay diferencia significativa entre los diferentes algoritmos?  
> • ¿Los resultados obtenidos permiten usar estos modelos en sector vitivinícola? ¿Por qué?  