# üß© Bloque 0 ‚Äî Setup inicial

En este notebook se extraen las **caracter√≠sticas de color, textura y forma**
de las im√°genes de hojas de papa, que servir√°n como entrada para el modelo de Machine Learning.  

**Objetivo:** transformar las im√°genes en vectores num√©ricos que describan sus propiedades visuales.


In [1]:
import os
import cv2
import numpy as np
import pandas as pd
from skimage.feature import graycomatrix, graycoprops
from tqdm import tqdm

## üß† Bloque 1 ‚Äî Par√°metros globales

En este bloque se definen las **rutas base** del proyecto y los par√°metros generales que controlan el flujo de procesamiento.  
Las variables establecen:

- La carpeta donde se encuentran las im√°genes ya redimensionadas (`base_path`).  
- La ruta donde se guardar√° el dataset resultante con las caracter√≠sticas extra√≠das (`output_csv`).  

Estos par√°metros permiten mantener una estructura organizada y reutilizable para las siguientes etapas del an√°lisis.


In [9]:
base_path = "../data/2_data_resize"
output_csv = "../data/3_data_extract_features/features_dataset.csv"

## üåà Bloque 2 ‚Äî Extracci√≥n de caracter√≠sticas de color

En este bloque se calculan **estad√≠sticas b√°sicas de color** para cada imagen en el espacio **RGB**.  
Se obtienen dos tipos de medidas por canal (rojo, verde y azul):

- **Media (mean):** representa el color promedio de la hoja.  
- **Desviaci√≥n est√°ndar (std):** mide la variaci√≥n o dispersi√≥n de los tonos dentro de la hoja.

Estas caracter√≠sticas permiten identificar **cambios de pigmentaci√≥n**, **amarillamiento** o **p√©rdida de verdor** asociados a posibles enfermedades o deficiencias nutricionales en la planta.


In [3]:
def extract_color_features(image):
    mean_colors = np.mean(image, axis=(0, 1))
    std_colors = np.std(image, axis=(0, 1))
    return mean_colors, std_colors


## üåÄ Bloque 3 ‚Äî Caracter√≠sticas de textura

En este bloque se extraen descriptores que cuantifican la **textura** de las hojas, √∫tiles para identificar variaciones en la superficie, rugosidad o arrugas.

Se emplean dos enfoques complementarios:

- **LBP (Local Binary Patterns):** analiza microtexturas locales comparando cada p√≠xel con sus vecinos.  
- **GLCM (Gray-Level Co-occurrence Matrix):** eval√∫a la distribuci√≥n espacial de los niveles de gris, obteniendo medidas como:
  - **Contraste:** diferencia de intensidad entre p√≠xeles vecinos.  
  - **Homogeneidad:** uniformidad de la textura.  
  - **Energ√≠a:** repetitividad o regularidad del patr√≥n.  
  - **Entrop√≠a:** grado de desorden o complejidad de la textura.  

Estas m√©tricas ayudan a distinguir **superficies sanas** de aquellas afectadas por **deterioro o deformaciones**.


In [4]:
def extract_texture_features(gray_image):
    gray = cv2.normalize(gray_image, None, 0, 255, cv2.NORM_MINMAX).astype('uint8')
    glcm = graycomatrix(gray, distances=[1], angles=[0], levels=256, symmetric=True, normed=True)
    contrast = graycoprops(glcm, 'contrast')[0, 0]
    homogeneity = graycoprops(glcm, 'homogeneity')[0, 0]
    energy = graycoprops(glcm, 'energy')[0, 0]
    entropy = -np.sum(glcm * np.log2(glcm + 1e-10))
    return contrast, homogeneity, energy, entropy

## üßæ Bloque 4 ‚Äî Extracci√≥n global por carpeta

En este bloque se **recorren todas las subcarpetas del dataset**, donde cada carpeta representa una clase (por ejemplo, diferentes tipos o estados de hojas).

Para cada imagen:
1. Se **lee y convierte** a escala de grises.  
2. Se **extraen las caracter√≠sticas de color y textura** mediante las funciones definidas previamente.  
3. Se **almacenan los valores estad√≠sticos** (promedios, desviaciones y m√©tricas de textura) junto con su **etiqueta de clase**.

El resultado es un **DataFrame estructurado**, donde cada fila corresponde a una imagen y cada columna a una caracter√≠stica relevante para su posterior an√°lisis o clasificaci√≥n.


In [11]:
data_rows = []

for label in os.listdir(base_path):
    class_path = os.path.join(base_path, label)
    if not os.path.isdir(class_path):
        continue

    for img_name in tqdm(os.listdir(class_path), desc=f"Procesando {label}"):
        img_path = os.path.join(class_path, img_name)
        image = cv2.imread(img_path)
        if image is None:
            continue

        gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
        mean_colors, std_colors = extract_color_features(image)
        contrast, homogeneity, energy, entropy = extract_texture_features(gray)

        row = {
            "mean_R": mean_colors[2],
            "mean_G": mean_colors[1],
            "mean_B": mean_colors[0],
            "std_R": std_colors[2],
            "std_G": std_colors[1],
            "std_B": std_colors[0],
            "contrast": contrast,
            "homogeneity": homogeneity,
            "energy": energy,
            "entropy": entropy,
            "label": label
        }
        data_rows.append(row)


Procesando Bacteria: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 569/569 [00:02<00:00, 222.98it/s]
Procesando Fungi: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 748/748 [00:03<00:00, 204.40it/s]
Procesando Healthy: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 201/201 [00:00<00:00, 215.19it/s]
Procesando Nematode: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 68/68 [00:00<00:00, 178.16it/s]
Procesando Pest: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 611/611 [00:03<00:00, 197.96it/s]
Procesando Phytopthora: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 347/347 [00:01<00:00, 199.41it/s]
Procesando Virus: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 532/532 [00:02<00:00, 206.42it/s]


## üíæ Bloque 5 ‚Äî Ejecuci√≥n y guardado

En este bloque se **consolidan todas las caracter√≠sticas extra√≠das** en un `DataFrame` de *pandas* y se **exportan a un archivo CSV**.

Este dataset servir√° como **entrada para los siguientes procesos** de an√°lisis, visualizaci√≥n o clasificaci√≥n con Machine Learning.

Cada fila del archivo contiene:
- Las **caracter√≠sticas de color** (medias y desviaciones por canal).  
- Las **caracter√≠sticas de textura** (contraste, homogeneidad, energ√≠a y entrop√≠a).  
- La **etiqueta** correspondiente al grupo o clase (`label`).

El CSV generado puede integrarse directamente en flujos de *data preprocessing* o modelos de aprendizaje supervisado.


In [13]:
df = pd.DataFrame(data_rows)
df.to_csv(output_csv, index=False)
print(f"Dataset guardado en: {output_csv}")
print(df.head())

Dataset guardado en: ../data/3_data_extract_features/features_dataset.csv
       mean_R      mean_G      mean_B      std_R      std_G      std_B  \
0  128.616251  139.298928  128.693559  53.584559  47.329740  67.281873   
1  120.013433  129.300203   70.988461  41.580883  40.368936  52.271149   
2  141.421616  144.346261  130.426778  39.643502  36.942884  54.940789   
3  111.892459  110.107422   80.595265  50.574446  51.036134  57.771348   
4  121.738301  127.139848   85.049904  50.031091  51.864478  55.379393   

     contrast  homogeneity    energy    entropy     label  
0  156.163657     0.202887  0.017634  12.319971  Bacteria  
1  520.175789     0.093870  0.012094  13.357643  Bacteria  
2  468.388373     0.158820  0.021977  12.430230  Bacteria  
3  796.226517     0.072948  0.009259  13.958764  Bacteria  
4  366.683176     0.159419  0.015661  12.967569  Bacteria  
