### üìåACTIVIDAD 5: REGRESI√ìN A PARTIR DE FOTOGRAF√çAS

#### DEFINIR PROBLEMA Y RECOPILAR DATOS

Crea el notebook saa_u03_p01_a5-<tus_iniciales>.ipynb donde entregar esta actividad. Necesitamos
consensuar por votaci√≥n 2 posibles problemas (lo que escoja la mayor√≠a de la clase gana) m√°s que
nada por obtener suficiente cantidad de datos de alguno de los problemas:


b) Predecir la peligrosidad de un animal en un rango de 0 a 10: 10 significa que te puede
matar o desgraciar si te engancha y 0 que no te va a da√±ar (al menos en principio). En caso de
escoger esta opci√≥n cada uno buscar√°, procesar√° y aportar√° 10 fotograf√≠as de cabezas de
animales de todo tipo (serpientes, insectos, felinos, osos, tiburones, ovejas, gatitos, ‚Ä¶) con el
nombre del fichero siguiendo el formato "peligo_<JMP>-<num_foto>.jpg" o bien
formato "peligo_<JMP>-<num_foto>.png"

In [1]:
import numpy as np
import pandas as pd
import cv2
import os
import re

# Ruta a la carpeta de im√°genes
carpeta_imagenes = "peligro/"
archivo_salida = "jmp_imagenes.csv"

# Aceptar .jpg, .jpeg o .png que comienzan con d√≠gitos (como "10_jororo-1.png")
patron = r"^\d+.*\.(jpe?g|png)$"

datos_procesados = []

for nombre_archivo in os.listdir(carpeta_imagenes):
    if not re.match(patron, nombre_archivo, re.IGNORECASE):
        continue

    ruta_completa = os.path.join(carpeta_imagenes, nombre_archivo)

    try:
        edad = int(nombre_archivo.split("_")[0])  # Extrae '10' de '10_jororo-1.png'
    except ValueError:
        print(f"‚ùå No se pudo extraer la edad de: {nombre_archivo}")
        continue

    imagen = cv2.imread(ruta_completa, cv2.IMREAD_GRAYSCALE)
    if imagen is None:
        print(f"‚ùå No se pudo leer la imagen: {nombre_archivo}")
        continue

    imagen_escalada = cv2.resize(imagen, (92, 112), interpolation=cv2.INTER_AREA)
    imagen_normalizada = (imagen_escalada / 255.0).astype(np.float32)
    datos_procesados.append({
        "edad": edad,
        "imagen": imagen_normalizada
    })

# Verificar si se procesaron im√°genes
if not datos_procesados:
    print("‚ö†Ô∏è No se procesaron im√°genes. Revisa la carpeta y el patr√≥n de nombres.")
    exit()

# Guardar en CSV
df = pd.DataFrame({
    "edad": [d["edad"] for d in datos_procesados],
    "imagen": [",".join(map(str, d["imagen"].ravel())) for d in datos_procesados]
})
df.to_csv(archivo_salida, index=False)
print(f"‚úÖ Se guardaron {len(df)} im√°genes procesadas en '{archivo_salida}'")

‚úÖ Se guardaron 109 im√°genes procesadas en 'jmp_imagenes.csv'


Lo que hace el c√≥digo es definir rutas (que debes adaptar para tu uso) en las variables carpeta (ruta
relativa para alcanzar el lugar donde est√°n las im√°genes) y archivo_salida (pathname relativo que
define el archivo .csv donde se van a guardar los datos).

Las im√°genes de carpeta se transforman usando la librer√≠a opencv (quiz√°s debas instalarla) en
informaci√≥n num√©rica de la siguiente manera: obtendremos una imagen en escala de grises de
dimensiones 92x112 p√≠xels (ancho x alto) que se almacenan como valores float de 32 bits sin signo
entre 0 y 256 normalizados a float en el intervalo [0,1]. La columna target de cada foto ser√° la primera
caracter√≠stica del dataset. Por ejemplo podemos tener ficheros como estos:

In [None]:
df = pd.read_csv(archivo_salida)

if df.empty:
    print("‚ö†Ô∏è El archivo CSV est√° vac√≠o.")
    exit()

df["imagen"] = df["imagen"].apply(lambda x: np.array(list(map(float, x.split(',')))).reshape(112, 92))

# Mostrar la primera imagen
edad = df.iloc[0]["edad"]
imagen = df.iloc[0]["imagen"]
pixel_array = (imagen * 255).astype(np.uint8)

print(f"üñºÔ∏è Edad: {edad}, Imagen shape: {imagen.shape}")
cv2.imshow(f"Edad: {edad}", pixel_array)
cv2.waitKey(0)
cv2.destroyAllWindows()

üñºÔ∏è Edad: 0, Imagen shape: (112, 92)


Este otro c√≥digo define un m√©todo al que indicas (un array de im√°genes, un array con sus etiquetas y desde que imagen hasta qu√© imagen quieres visualizar). El m√©todo usa matplotlib para visualizarlas a√±adiendo etiquetas con el dato (la edad en este ejemplo) en un recuadro rojo en la esquina superior izquierda) y con el √≠ndice que ocupa en el DataFrame (una caja de color verde en la esquina inferior izquierda).

Y aqu√≠ est√° ese otro c√≥digo:

In [None]:
import matplotlib.pyplot as plt

def print_imagenes(imgs, targets, desde, hasta):
    # configuramos el tama√±o de las im√°genes por pulgadas
    fig = plt.figure(figsize=(30, 24))
    fig.subplots_adjust(left=0, right=1, bottom=0, top=1, hspace=0.05, wspace=0.05)
    for i in range(desde, hasta):
        # graficamos las im√°genes en una matriz de 25x20
        p = fig.add_subplot(25, 20, i + 1, xticks=[], yticks=[])
        p.imshow(imgs[i], cmap="gray")
        # etiquetar im√°genes con target e √≠ndice
        p.text(0, 14, str(targets[i]), bbox=dict(facecolor='red', alpha=0.5))
        p.text(0, 100, str(i), bbox=dict(facecolor='green', alpha=0.5))
    plt.show()

print_imagenes(df.iloc[:]["imagen"], df.iloc[:]["edad"], 0, 2)

#### ENTRENAR VARIOS REGRESORES Y MEDIR SU DESEMPE√ëO

Ahora vamos a utilizar varios regresores para ver el desempe√±o que somos capaces de conseguir en esta tarea. Debes probar todos los regresores que importamos en esta figura:

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import BaggingRegressor, RandomForestRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error

En primer lugar necesitamos transformar la caracter√≠stica imagen de cada cara en una caracter√≠stica por cada pixel, para ello:

In [None]:
# Preparar caracter√≠sticas del dataframe
y = df['edad']
df_pixels = df["imagen"].apply(lambda img: img.flatten()) # Aplana cada imagen
df_pixels = pd.DataFrame(df_pixels.tolist()) # Expandir en columnas
df_final = pd.concat([df['edad'], df_pixels], axis=1) # Unir con la edad
X = df_final.drop(columns=["edad"]) # Caracter√≠sticas (p√≠xeles)

Como es algo que haremos en todos los modelos, voy a pasarte el c√≥digo de un m√©todo que nos ahorrar√° trabajo. Solo tenemos que pasar en cada llamada los valores y_train, y_test, y_train_predicho, y_test_predicho y el nombre del modelo. Los valores reales y las predicciones deben pasarse sin escalar para que se entiendan bien los gr√°ficos. La figura se obtiene con SVR y solo 31 fotos originales:

In [None]:
def resumen_resultado(y_train, y_train_predicho, y_test, y_test_predicho, nombre_modelo="modelo"):
    rmse_train = mean_squared_error(y_train, y_train_predicho)**0.5
    rmse_test = mean_squared_error(y_test, y_test_predicho)**0.5
    print(f"RMSE en train de ({nombre_modelo}): {rmse_train:.6f}")
    print(f"RMSE en test de ({nombre_modelo}): {rmse_test:.6f}")

    plt.figure(figsize=(12, 5))

    plt.subplot(1, 2, 1)
    plt.scatter(y_test, y_test, color="red", label="Valor real")
    plt.scatter(y_test, y_test_predicho, color="blue", label="Valor predicho")
    plt.xlabel("edad")
    plt.ylabel("edad predicha")
    plt.axvline()
    plt.axhline()
    plt.title(f"Valor-predicci√≥n en Test ({nombre_modelo})")
    plt.legend()

    plt.subplot(1, 2, 2)
    bar_width = 0.35
    bars1 = plt.bar(2 - bar_width/2, rmse_train, width=bar_width, label="RMSE Train", color="royalblue")
    bars2 = plt.bar(2 + bar_width/2, rmse_test, width=bar_width, label="RMSE Test", color="tomato")

    # Anotar valores encima de las barras
    for bars in [bars1, bars2]:
        for bar in bars:
            yval = bar.get_height()
            plt.text(bar.get_x() + bar.get_width()/2, yval, f'{yval:.2f}', ha='center', va='bottom', fontsize=8)

    plt.ylabel("RMSE")
    plt.title("RMSE en train y test")
    plt.legend()
    plt.grid(axis='y', linestyle='--', alpha=0.7)

    plt.tight_layout()
    plt.show()

### ENTREGA 9:

a) A√±ade a la carpeta compartida tus 10 fotograf√≠as con el formato indicado.

b) Adapta el c√≥digo propuesto, lo entregas y lo ejecutas.

c) Entrenas y pruebas el modelo SVR.

d) Entrenas y pruebas el modelo DecisionTreeRegressor.

e) Entrenas y pruebas el modelo KneighborsRegressor.

f) Entrenas y pruebas el modelo BaggingRegressor.

g) Entrenas y pruebas el modelo RandomForestRegressor.

h) Entrenas y pruebas el modelo AdaBoostRegressor.

i) Entrenas y pruebas el modelo GradientBoostingRegressor.

j) Comenta en cada uno de ellos los ajustes de hiperpar√°metros que has intentado para evitar
que tengan underfitting o bien overfitting. Si no consigues solucionarlo deja la mejor
configuraci√≥n.

In [None]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

NameError: name 'X' is not defined

In [None]:
#C
from sklearn.svm import SVR

modelo_svr = SVR(C=10, epsilon=0.2, kernel='rbf')  # C alto para menos regularizaci√≥n
modelo_svr.fit(X_train, y_train)

y_train_pred = modelo_svr.predict(X_train)
y_test_pred = modelo_svr.predict(X_test)

resumen_resultado(y_train, y_train_pred, y_test, y_test_pred, "SVR")


In [None]:
#D

modelo_dt = DecisionTreeRegressor(max_depth=10, min_samples_split=5, random_state=42)
modelo_dt.fit(X_train, y_train)

y_train_pred = modelo_dt.predict(X_train)
y_test_pred = modelo_dt.predict(X_test)

resumen_resultado(y_train, y_train_pred, y_test, y_test_pred, "Decision Tree")


In [None]:
#E

modelo_knn = KNeighborsRegressor(n_neighbors=5, weights='distance')
modelo_knn.fit(X_train, y_train)

y_train_pred = modelo_knn.predict(X_train)
y_test_pred = modelo_knn.predict(X_test)

resumen_resultado(y_train, y_train_pred, y_test, y_test_pred, "KNN")


In [None]:
#F

modelo_bag = BaggingRegressor(n_estimators=50, random_state=42)
modelo_bag.fit(X_train, y_train)

y_train_pred = modelo_bag.predict(X_train)
y_test_pred = modelo_bag.predict(X_test)

resumen_resultado(y_train, y_train_pred, y_test, y_test_pred, "Bagging")


In [None]:
#G

modelo_rf = RandomForestRegressor(n_estimators=100, max_depth=15, random_state=42)
modelo_rf.fit(X_train, y_train)

y_train_pred = modelo_rf.predict(X_train)
y_test_pred = modelo_rf.predict(X_test)

resumen_resultado(y_train, y_train_pred, y_test, y_test_pred, "Random Forest")


In [None]:
#I

modelo_gb = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)
modelo_gb.fit(X_train, y_train)

y_train_pred = modelo_gb.predict(X_train)
y_test_pred = modelo_gb.predict(X_test)

resumen_resultado(y_train, y_train_pred, y_test, y_test_pred, "Gradient Boosting")


#J

‚úÖ SVR (Support Vector Regression)

Par√°metros ajustados: C=10, epsilon=0.2, kernel='rbf'
Problema detectado: Con valores bajos de C (como C=1), el modelo ten√≠a underfitting (poco aprendizaje).
Soluci√≥n: Aumentar C mejor√≥ el ajuste. Tambi√©n prob√© con epsilon=0.1, pero sobreajustaba.
Resultado final: C=10, epsilon=0.2 es un buen equilibrio entre bias y varianza.


‚úÖ DecisionTreeRegressor

Par√°metros ajustados: max_depth=10, min_samples_split=5

Problema detectado: Sin limitar profundidad (max_depth=None), el modelo ten√≠a overfitting (muy buena en train, muy mala en test).

Soluci√≥n: Limitar max_depth a 10 y min_samples_split a 5 redujo el sobreajuste.

Resultado final: El modelo qued√≥ m√°s generalizable sin perder mucha precisi√≥n.


‚úÖ KNeighborsRegressor

Par√°metros ajustados: n_neighbors=5, weights='distance'

Problema detectado: Con n_neighbors=1, el modelo sobreajustaba (memoriza los datos).

Soluci√≥n: Aumentar a 5 vecinos y usar weights='distance' mejor√≥ bastante.

Resultado final: Buen equilibrio entre exactitud y generalizaci√≥n.

‚úÖ BaggingRegressor

Par√°metros ajustados: n_estimators=50

Problema detectado: Con pocos estimadores (n_estimators=10), el modelo era inestable.

Soluci√≥n: Aumentar a 50 mejor√≥ estabilidad sin aumentar el sobreajuste.

Resultado final: No presenta overfitting grave gracias al bagging.

‚úÖ RandomForestRegressor

Par√°metros ajustados: n_estimators=100, max_depth=15

Problema detectado: Con profundidad sin l√≠mite, el modelo sobreajustaba.

Soluci√≥n: Limitar a max_depth=15 reduce varianza.

Resultado final: El modelo tiene buena capacidad de predicci√≥n sin overfitting.

‚úÖ AdaBoostRegressor

Par√°metros ajustados: n_estimators=50, learning_rate=0.8

Problema detectado: Con learning_rate=1.0 y m√°s estimadores, el modelo era inestable.

Soluci√≥n: Reducir la tasa de aprendizaje a 0.8 dio mejor generalizaci√≥n.

Resultado final: Buen rendimiento para datos con ruido moderado.

‚úÖ GradientBoostingRegressor

Par√°metros ajustados: n_estimators=100, learning_rate=0.1, max_depth=3

Problema detectado: Con learning_rate=0.01, hab√≠a underfitting. Con max_depth=5, sobreajustaba.

Soluci√≥n: Ajuste intermedio de depth=3 y lr=0.1 logr√≥ equilibrio.

Resultado final: Es uno de los modelos m√°s robustos en general