# Reto: competición de sistemas de clasificación

En este reto aplicaremos regresión logística a la tarea de clasificación [*california-housing*](https://scikit-learn.org/1.5/datasets/real_world.html#california-housing-dataset).

El objetivo de esta tarea es clasificar, con mínimo error, diferentes distritos del estado de California (EEUU) en 6 clases diferentes correspondientes a rangos de precios medios de vivienda, utilizando un conjunto de D=8 características numéricas.

## 1. Obtención del corpus y partición de datos

Ejecuta el siguiente bloque de código, en el que importamos las librerías necesarias, definimos constantes, obtenemos el dataset, barajamos (con una semilla concreta e inalterable) y particionamos los datos en train y test (con una proporción concreta e inalterable).

**MUY IMPORTANTE: NO MODIFICAR ESTE BLOQUE DE CÓDIGO, SOLO EJECUTAR.**

In [2]:
### NO MODIFIQUES ESTE BLOQUE DE CÓDIGO; SOLO EJECÚTALO ###

import warnings; warnings.filterwarnings("ignore"); import numpy as np
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

RANDOM_SEED = 22
TEST_SIZE = 0.2

### NO MODIFIQUES ESTE BLOQUE DE CÓDIGO; SOLO EJECÚTALO ###

corp = fetch_california_housing()
X = corp.data.astype(np.float16) # muestras
y = corp.target.astype(np.uint)  # etiquetas de clase

### NO MODIFIQUES ESTE BLOQUE DE CÓDIGO; SOLO EJECÚTALO ###

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=TEST_SIZE, random_state=RANDOM_SEED)
D = X_train.shape[1]; C=np.unique(y_train).size; Ntr = X_train.shape[0]; Nte = X_test.shape[0];

print("******** INFORMACIÓN BÁSICA DEL DATASET **********")
print(f"D={D}, C={C}, N_train={Ntr}, N_test={Nte}")

### NO MODIFIQUES ESTE BLOQUE DE CÓDIGO; SOLO EJECÚTALO ###

******** INFORMACIÓN BÁSICA DEL DATASET **********
D=8, C=6, N_train=16512, N_test=4128


## 2. Entrenamiento y evaluación del sistema base (baseline)

A continuación podéis obtener una tasa de error de referencia, obtenido con un clasificador de regresión logística entrenado con `tol=0.01`, `C=1`, y `max_iter=10`. Este será nuestro sistema de clasificación base (baseline).

Vuestro objetivo será mejorar (lo máximo posible) la tasa de error obtenida con este sistema.

In [3]:
# NOTA IMPORTANTE: SIEMPRE USAREMOS random_state=RANDOM_SEED
clf = LogisticRegression(random_state=RANDOM_SEED, C=1, tol=0.01, max_iter=10).fit(X_train, y_train)
err_test = (1 - accuracy_score(y_test, clf.predict(X_test)))*100
print(f'Error de clasificación en test (baseline): {err_test:5.1f}%')

Error de clasificación en test (baseline):  59.9%


## 3. Exploración/Optimización de hiperparámetros

Realiza una exploración y ajuste de los hiperparámetros tolerancia (`tol`), escalado del factor de regularización (`C`), y número de iteraciones máximas (`max_iter`), para minimizar la tasa de error de clasificación en test.

Reporta los resultados de los experimentos en una o varias tablas que muestren los valores de los tres hiperparámetros mencionados, además de las tasas de error de clasificación en train y test.

Introduce a continuación el código que hayas utilizado para realizar esta exploración/optimización, y asegúrate que el cuaderno conserva la salida de la ejecución de dicho código. Crea celdas de código adicionales si lo necesitas.

**IMPORTANTE: usa el parámetro `random_state=RANDOM_SEED` en `LogisticRegression()`**.

In [4]:
#### COMPLETAR!

# ¡¡¡¡OBLIGATORIO!!!! random_state=RANDOM_SEED en LogisticRegression()

# Asegúrate que entregas el cuaderno con la salida (la tabla de resultados con la exploración)

# Puedes añadir tantas celdas de código como desees para explorar los parámetros del clasificador

## 4. Determinación de los hiperparámetros óptimos y tasas de error

Por último, **modifica** la siguiente celda para que indique cuáles son los valores óptimos de los tres hiperparámetros `C`, `tol` y `max_iter`, así como las correspondientes tasas de error obtenidas en los conjuntos de entrenamiento y test.

- **Factor de regularización (`C`):**
- **Tolerancia (`tol`):**
- **Número máximo de iteraciones (`max_iter`):**
- **Tasa de error (%) obtenida en train:**
- **Tasa de error (%) obtenida en test:**


Nota: los valores de `C`, `tol` y `max_iter` que indiques aquí son los que usarás para participar en la evaluación final.

In [5]:
best_c = None
best_tol = None
best_max_iter = None
min_err_test = float('inf')

print("|{:>10s} \t|{:>10s} \t|{:>7s} \t|{:>11s}\t |{:>11s}|".format(
    "C", "tol", "max_it", "Err_train", "Err_test"
))
print("-" * 78)


for tol in (1e-4, 1e-2, 1, 1e2, 1e4):
    for C in (1e-4, 1e-3, 1e-2, 1e-1, 1, 1e1, 1e2):
        for max_iter in (10, 25, 50, 100):

            model = LogisticRegression(
                tol=tol,
                C=C,
                random_state=22,
                max_iter=max_iter
            ).fit(X_train, y_train)

            err_train = 1 - accuracy_score(y_train, model.predict(X_train))
            err_test = 1 - accuracy_score(y_test, model.predict(X_test))

            print("{:10.4f}\t|{:10.1e}\t|{:7d}\t|{:11.2f}\t|{:11.2f}".format(
                C, tol, max_iter, err_train * 100, err_test * 100
            ))

            if err_test < min_err_test:
                min_err_test = err_test
                best_c = C
                best_tol = tol
                best_max_iter = max_iter

print("\nMejores hiperparámetros (mínimo error de test):")
print("C = {:.4f}, tol = {:.1e}, max_iter = {}".format(
    best_c, best_tol, best_max_iter
))
print("Error de test mínimo = {:.2f}%".format(min_err_test * 100))

|         C 	|       tol 	| max_it 	|  Err_train	 |   Err_test|
------------------------------------------------------------------------------
    0.0001	|   1.0e-04	|     10	|      59.83	|      59.93
    0.0001	|   1.0e-04	|     25	|      59.82	|      59.93
    0.0001	|   1.0e-04	|     50	|      59.82	|      59.93
    0.0001	|   1.0e-04	|    100	|      59.45	|      59.40
    0.0010	|   1.0e-04	|     10	|      59.83	|      59.93
    0.0010	|   1.0e-04	|     25	|      59.82	|      59.93
    0.0010	|   1.0e-04	|     50	|      59.82	|      59.93
    0.0010	|   1.0e-04	|    100	|      59.50	|      59.47
    0.0100	|   1.0e-04	|     10	|      59.83	|      59.93
    0.0100	|   1.0e-04	|     25	|      59.82	|      59.93
    0.0100	|   1.0e-04	|     50	|      59.82	|      59.93
    0.0100	|   1.0e-04	|    100	|      59.68	|      59.86
    0.1000	|   1.0e-04	|     10	|      59.83	|      59.93
    0.1000	|   1.0e-04	|     25	|      59.82	|      59.93
    0.1000	|   1.0e-04	|     50	|      59.82	