 # Hackaton Clasification

Resuelva este laboratorio y rellene la [ficha](https://docs.google.com/spreadsheets/d/1JopiqKvH4S3HX6FRvpLRI4LHxmXvRTYYCxmRwgOl95Y/edit?usp=sharing) reportando sus hallazgos.

La data la pueden encontrar en este [drive](https://drive.google.com/drive/folders/1I0IDa5PuG9HkgbROP6gU-H0uIB6kiLvO?usp=sharing)

1.  Decídase por un modelo, el que mejor le funcione. Si usa los 3 (SVM, RL o DT), indíquelo en su  ficha de google drive.
2.  Coloque el máximo accuracy alcanzado por su modelo o por sus modelos.
3.  Importante: Use una semilla para replicar su código.
4.  Sólo aquellos códigos en colab que generen exactamente el mismo resultado que los reportados en esta ficha serán tomados en cuenta.

## DATA: Hojas de saludables y no saludables de plantas

In [3]:
import os
import random
import numpy as np
import zipfile
from PIL import Image
from sklearn.metrics import classification_report
from tqdm import tqdm

# Reproducibilidad
seed = 42
random.seed(seed)
np.random.seed(seed)


In [4]:
# Rutas de los archivos ZIP
zip_train = "train-20250505T191631Z-001.zip"
zip_test = "test-20250505T191630Z-001.zip"
extract_path = "Data_plantas"

# Descomprimir train
with zipfile.ZipFile(zip_train, 'r') as zip_ref:
    zip_ref.extractall(os.path.join(extract_path, 'train'))

# Descomprimir test
with zipfile.ZipFile(zip_test, 'r') as zip_ref:
    zip_ref.extractall(os.path.join(extract_path, 'test'))

print("✅ Archivos descomprimidos correctamente.")


✅ Archivos descomprimidos correctamente.


In [None]:
def encode(path, data_type='train', img_size=(64, 64)):
    data = []

    label_map = {
        "Healthy": -1,
        "Unhealthy": 1
    }

    base_path = os.path.join(path, data_type)

    for label_name, label_value in label_map.items():
        folder_path = os.path.join(base_path, label_name)
        if not os.path.exists(folder_path):
            print(f"Advertencia: carpeta no encontrada {folder_path}")
            continue
        for file in os.listdir(folder_path):
            if file.lower().endswith(('.jpg', '.jpeg', '.png')):
                img_path = os.path.join(folder_path, file)
                try:
                    img = Image.open(img_path).resize(img_size).convert('RGB')
                    img_array = np.array(img).flatten()
                    data.append([label_value, *img_array])
                except Exception as e:
                    print(f"Error cargando {file}: {e}")

    data = np.array(data)
    np.random.shuffle(data)
    y = data[:, 0]
    x = data[:, 1:]
    return x, y


In [7]:
dataset_path = "Data_plantas"

x_train, y_train = encode(dataset_path, data_type='train')
x_test, y_test = encode(dataset_path, data_type='test')

print("Train:", x_train.shape, y_train.shape)
print("Test:", x_test.shape, y_test.shape)

Train: (5703, 12288) (5703,)
Test: (1105, 12288) (1105,)


# Model

Apply the following classification models: SVM, Decision Trees, and Logistic Regression. Evaluate their performance using the metrics Accuracy, Precision, Recall, and F1 Score. Compare the results and present the model with the best performance.


----

### Módelos de clasificación


| **Modelo**                  | **Descripción**                                                 | **Enlace a la documentación y ejemplos**                       |
|-----------------------------|-----------------------------------------------------------------|---------------------------------------------------------------|
| **Support Vector Machine (SVM)** | Encuentra el hiperplano óptimo para separar clases.           | [SVM - scikit-learn](https://scikit-learn.org/stable/modules/svm.html) |
| **Árbol de Decisión**       | Clasificador que utiliza un árbol jerárquico basado en reglas.   | [Decision Tree - scikit-learn](https://scikit-learn.org/stable/modules/tree.html#classification) |
| **Regresión Logística**     | Clasificador lineal basado en probabilidades.                   | [Logistic Regression - scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) |

-----

### LOGISTIC REGRESSION


**0. Inicialización de parámetros**

Se inicializan los pesos `w` y el bias `b` en cero.

La predicción se define como:

$$
\hat{y}^{(i)} = \sigma(\mathbf{w}^T \mathbf{x}^{(i)} + b)
$$

donde $\sigma(z)$ es la función sigmoide:

$$
\sigma(z) = \frac{1}{1 + e^{-z}}
$$


In [None]:
import numpy as np

def inicializar_parametros(n_features):
    w = np.zeros((n_features, 1))
    b = 0.0
    return w, b

**1. Predicción de la probabilidad**

Modelamos la probabilidad de que la clase sea 1 con una función sigmoide:

$$
P(y=1 \mid \mathbf{x}) = \sigma(z), \quad \text{donde} \quad z = \mathbf{w}^T \mathbf{x} + b
$$


In [None]:
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

**2. Función de pérdida (Log-loss)**

Se utiliza la pérdida logarítmica como función de costo:

$$
J(\mathbf{w}, b) = -\frac{1}{m} \sum_{i=1}^m \left[ y^{(i)} \log \hat{y}^{(i)} + (1 - y^{(i)}) \log (1 - \hat{y}^{(i)}) \right]
$$


In [None]:
def compute_loss(y, y_hat):
  #TO DO
  return

**3. Gradientes**

Los gradientes respecto a los parámetros son:

$$
\frac{\partial J}{\partial w_j} = \frac{1}{m} \sum_{i=1}^m (\hat{y}^{(i)} - y^{(i)}) x_j^{(i)}
$$

$$
\frac{\partial J}{\partial b} = \frac{1}{m} \sum_{i=1}^m (\hat{y}^{(i)} - y^{(i)})
$$


In [None]:
def compute_gradients(X, y, y_hat):
    dw = 0 #TO DO
    db = 0 # TO DO
    #TO DO
    return dw, db

**4. Entrenamiento del modelo**

Se entrena usando descenso de gradiente durante varias iteraciones:

$$
w := w - \alpha \cdot \frac{\partial J}{\partial w}, \quad b := b - \alpha \cdot \frac{\partial J}{\partial b}
$$


In [None]:
def train_logistic_regression(X, y, epochs=1000, lr=0.1):
    n_features = X.shape[1]
    w, b = inicializar_parametros(n_features)

    for i in range(epochs):
        dw, db = calcular_gradientes(w, b, X, y)
        w -= lr * dw
        b -= lr * db

        if i % 100 == 0:
            costo = compute_loss(w, b, X, y)
            print(f"Iteración {i} - Costo: {costo:.4f}")

    return w, b

## SVM

**1. Hiperplano de decisión**

La frontera de decisión de una SVM es una función lineal:

$$
f(\mathbf{x}) = \mathbf{w}^T \mathbf{x} + b
$$


In [None]:
def decision_function(X, w, b):
    return #TO DO

**2. Función de pérdida hinge con regularización**

La función objetivo para SVM (soft margin) es:

$$
J(\mathbf{w}, b) = \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^m \max(0, 1 - y_i f(\mathbf{x}_i))
$$

Donde $C$ es un hiperparámetro que controla el trade-off entre el margen y los errores.


In [None]:
def loss_hinge(X, y, w, b, C):
    """
    Calcula la función de pérdida hinge con regularización.

    Parámetros:
        X: datos de entrada (m x n)
        y: etiquetas en {-1, 1}
        w: vector de pesos
        b: sesgo
        C: parámetro de regularización

    Retorna:
        pérdida total
    """
    m = X.shape[0]
    distances = 0 #TO DO
    losses = 0 # TO DO
    return # TO DO


**3. Gradiente subgradiente de la función hinge**

Para optimizar por descenso de gradiente, usamos el subgradiente:

- Si $1 - y_i f(\mathbf{x}_i) > 0$, entonces:

$$
\frac{\partial J}{\partial \mathbf{w}} = \mathbf{w} - C y_i \mathbf{x}_i
$$

- Si $1 - y_i f(\mathbf{x}_i) \leq 0$, entonces:

$$
\frac{\partial J}{\partial \mathbf{w}} = \mathbf{w}
$$


In [None]:
def calcular_gradientes(X, y, w, b, C):
    """
    Calcula los gradientes de la función de pérdida hinge.

    Parámetros:
        X: datos de entrada (muestras x características)
        y: etiquetas (-1 o 1)
        w: vector de pesos
        b: sesgo
        C: parámetro de regularización

    Retorna:
        grad_w: gradiente respecto a w
        grad_b: gradiente respecto a b
    """
    m, n = X.shape
    grad_w = np.zeros_like(w)
    grad_b = 0
    # TO DO
    return grad_w, grad_b

**4. Entrenamiento del modelo (descenso de gradiente)**

Entrenamos el modelo actualizando los parámetros:

$$
\mathbf{w} \leftarrow \mathbf{w} - \alpha \frac{\partial J}{\partial \mathbf{w}}, \quad
b \leftarrow b - \alpha \frac{\partial J}{\partial b}
$$

donde $\alpha$ es la tasa de aprendizaje.


In [None]:
def entrenar_svm(X, y, C=1.0, lr=0.01, epochs=1000):
    """
    Entrena un clasificador SVM desde cero.

    Parámetros:
        X: datos de entrada (m x n)
        y: etiquetas (0 o 1) → serán transformadas a (-1, 1)
        C: parámetro de regularización
        lr: tasa de aprendizaje
        epochs: número de iteraciones

    Retorna:
        w: pesos entrenados
        b: sesgo entrenado
    """
    m, n = X.shape
    y_transf = np.where(y == 0, -1, 1)
    w = np.zeros(n)
    b = 0

    for epoch in range(epochs):
        grad_w, grad_b = calcular_gradientes(X, y_transf, w, b, C)
        w -= lr * grad_w
        b -= lr * grad_b

    return w, b


## DECISION TREE


**1. Impureza del nodo**

Para evaluar qué tan mezclado está un nodo, usamos medidas como:

**Impureza Gini**:

$$
Gini = 1 - \sum_{k=1}^K p_k^2
$$

**Entropía**:

$$
Entropy = -\sum_{k=1}^K p_k \log_2 p_k
$$

Donde $p_k$ es la proporción de elementos de clase $k$ en el nodo.


In [8]:
def gini_impurity(y):
    clases, counts = np.unique(y, return_counts=True)
    probas = counts / counts.sum()
    return 1 - np.sum(probas ** 2)

def entropy(y):
    clases, counts = np.unique(y, return_counts=True)
    probas = counts / counts.sum()
    return -np.sum(probas * np.log2(probas + 1e-9))


**2. Ganancia de información**

Medimos cuánto reduce la impureza al hacer una división:

$$
Gain(S, A) = Impurity(S) - \sum_{v \in Values(A)} \frac{|S_v|}{|S|} Impurity(S_v)
$$


In [9]:
def informacion_ganada(y, y_izq, y_der, criterio='gini'):
    if criterio == 'gini':
        impureza = gini_impurity
    else:
        impureza = entropy

    n = len(y)
    n_izq = len(y_izq)
    n_der = len(y_der)

    ganancia = impureza(y) - ((n_izq/n)*impureza(y_izq) + (n_der/n)*impureza(y_der))
    return ganancia


**3. Búsqueda del mejor split**

Para cada atributo y umbral, se calcula la ganancia de información y se selecciona el mejor.


In [10]:
def mejor_split(X, y, criterio='gini'):
    mejor_gain = -1
    mejor_atributo = None
    mejor_valor = None
    m, n = X.shape

    for atributo in range(n):
        valores = np.unique(X[:, atributo])
        for valor in valores:
            izq = y[X[:, atributo] <= valor]
            der = y[X[:, atributo] > valor]

            if len(izq) == 0 or len(der) == 0:
                continue

            gain = informacion_ganada(y, izq, der, criterio)

            if gain > mejor_gain:
                mejor_gain = gain
                mejor_atributo = atributo
                mejor_valor = valor

    return mejor_gain, mejor_atributo, mejor_valor


**4. Construcción recursiva del árbol**

El árbol se construye recursivamente dividiendo los datos hasta que:

- todos los ejemplos tienen la misma clase
- o se alcanza una profundidad máxima
- o no hay mejora en la ganancia


In [11]:
class Nodo:
    def __init__(self, atributo=None, valor=None, izquierdo=None, derecho=None, *, clase=None):
        self.atributo = atributo
        self.valor = valor
        self.izquierdo = izquierdo
        self.derecho = derecho
        self.clase = clase

def construir_arbol(X, y, profundidad=0, max_profundidad=5, criterio='gini'):
    clases, counts = np.unique(y, return_counts=True)
    clase_mayoritaria = clases[np.argmax(counts)]

    if len(clases) == 1 or profundidad == max_profundidad:
        return Nodo(clase=clase_mayoritaria)

    gain, atributo, valor = mejor_split(X, y, criterio)

    if gain == 0:
        return Nodo(clase=clase_mayoritaria)

    indices_izq = X[:, atributo] <= valor
    indices_der = X[:, atributo] > valor

    hijo_izq = construir_arbol(X[indices_izq], y[indices_izq], profundidad + 1, max_profundidad, criterio)
    hijo_der = construir_arbol(X[indices_der], y[indices_der], profundidad + 1, max_profundidad, criterio)

    return Nodo(atributo, valor, hijo_izq, hijo_der)

**5. Entrenamiento del árbol (train)**

El árbol se entrena construyéndolo recursivamente con los datos de entrenamiento.

In [12]:
def predecir_uno(x, nodo):
    while nodo.clase is None:
        if x[nodo.atributo] <= nodo.valor:
            nodo = nodo.izquierdo
        else:
            nodo = nodo.derecho
    return nodo.clase

def predecir(X, raiz):
    return np.array([predecir_uno(x, raiz) for x in X])


# Entrenamiento
raiz = construir_arbol(x_train, y_train, max_profundidad=5, criterio='gini')

# Predicción
y_pred = predecir(x_test, raiz)

# Evaluación
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred, target_names=["Healthy", "Unhealthy"]))

KeyboardInterrupt: 

## Métricas


| **Métrica**          | **Descripción**                                                                 | **Enlace a la documentación y ejemplos**                        |
|-----------------------|-------------------------------------------------------------------------------|----------------------------------------------------------------|
| **Accuracy**          | Proporción de predicciones correctas respecto al total de muestras.            | [Accuracy - scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html) |
| **Precision**         | Proporción de predicciones positivas correctas respecto a todas las predicciones positivas. | [Precision - scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html) |
| **Recall (Sensibilidad)** | Proporción de positivos reales identificados correctamente.                    | [Recall - scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html) |
| **F1-Score**          | Media armónica entre la Precision y el Recall, útil para datos desbalanceados. | [F1-Score - scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html) |


----

Una vez terminado de llenar las funciones del modelo seleccionado, programe el test y utilice el train y test en su modelo. Es necesario que mida a su modelo usando las métricas proporcionadas (Accuracy, Precision, Recall, F1-Score)

In [None]:
from sklearn.metrics import accuracy_score              # Accuracy
from sklearn.metrics import precision_score             # Precision
from sklearn.metrics import recall_score                # Recall
from sklearn.metrics import f1_score                    # F1-Score


# https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

In [None]:
# Ejemplo de como usar un reporte de clasificación .
from sklearn.metrics import classification_report
report = classification_report(y_test, y_pred, target_names = ["Healthy", "Unhealthy"])
print(" My Model Metrics  ")
print(report)