# Regresión logística aplicada a iris

**Lectura del corpus y partición:**

In [None]:
import numpy as np; from sklearn.datasets import fetch_olivetti_faces
from sklearn.model_selection import train_test_split
iris = fetch_olivetti_faces(); X = iris.data.astype(np.float16); y = iris.target.astype(np.uint)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=23)

**LogisticRegression:** $\;$ implementación de regresión logística en sklearn

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
clf = LogisticRegression(random_state=23).fit(X_train, y_train)
y_test_pred = clf.predict(X_test)
err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
print(f"Error de test: {err_test:.1%}")

Error de test: 0.0%


**Warnings:** $\;$ sklearn es un poco "insistente" con los warnings; ignoraremos los avisos sobre convergencia

In [None]:
import warnings; from sklearn.exceptions import ConvergenceWarning
warnings.filterwarnings("ignore", category=ConvergenceWarning, module="sklearn")

**Solvers:** $\;$ el parámetro `solver` de LogisticRegression permite elegir entre diferentes solvers (algoritmos de optimitzación)

In [None]:
for solver in ['lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga']:
    clf = LogisticRegression(random_state=23, solver=solver, max_iter=10000).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test después de entrenar con el solver {solver!s}: {err_test:.1%}")

**Tolerancia:** $\;$ el parámetro `tol` establece un umbral de tolerancia para acabar el entrenamiento (1e4 por defecto)

In [None]:
for tol in (1e-4, 1e-2, 1, 1e2, 1e4):
    clf = LogisticRegression(tol=tol, random_state=23, max_iter=10000).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test con tolerancia {tol}: {err_test:.1%}")

**Regularización:** $\;$ el parámetro `C` (positivo, $1.0$ por defecto) des-regulariza el criterio de entrenamiento
* **Posibilidad de subajuste:** $\;$ con un valor próximo a cero (máxima regularización)
* **Posibilidad de sobreajuste:** $\;$ con un valor positivo muy alto (mínima regularización)

In [None]:
for C in (1e-2, 1e-1, 1, 1e1, 1e2):
    clf = LogisticRegression(C=C, random_state=23, max_iter=10000).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test con C {C:g}: {err_test:.1%}")

**Early stopping:** $\;$ ahorramos cálculo y evitamos sobre-entrenamiento ("regularizamos") acabando pronto (en pocas iteraciones)

In [None]:
for max_iter in (10, 20, 50, 100):
    clf = LogisticRegression(random_state=23, max_iter=max_iter).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test con max_iter {max_iter}: {err_test:.1%}")

**Ejercicio para hacer en clase**
---

Escribe el código python necesario para mostrar los resultados de error de test (err_test) para combinaciones de diferentes valores de:

1. `max_iter` (probar valores 10, 20, 50, 100, 200, 500, 800, 1000)
2. `solver` (utilizar sag, saga, lbfgs y netwon-cg que son los solvers para problemas multiclase
3. `C` (regularización: 0.01, 0.1, 1.0 , 10.0, 100)
4. `tol` (tolerancia: probar valores 10e-4, 10e-2, 1.0, 10e2, 10e4)

Utliza la cabecera:

`print('#   Iter     solver        C         tol        Ete');`
---

y la siguiente instrucción para mostrar los resultados:

`print('%8d %10s %8.3f %11.4f %10.3f' %(max_iter, solver, C, tol, err_test))`
---

In [None]:
min_error = float('inf')
best_combination = None
print('#   Iter     solver      C         tol          Ete')
for max_iter in (10,20,50,100,200,500,800,1000):
  for solver in ['sag','saga','lbfgs','newton-cg']:
    for C in (0.01,0.1,1.0,10.0,100):
      for tol in (10e-4,10e-2,1.0,10e2,10e4):
        clf = LogisticRegression(C=C,solver=solver,tol=tol, random_state=23, max_iter=max_iter).fit(X_train, y_train)
        err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
        print('%8d %10s %8.3f %11.4f %10.3f' %(max_iter, solver, C, tol, err_test))
        if err_test < min_error:
                    min_error = err_test
                    best_combination = (max_iter, solver, C, tol)

  print('#------- ------ ---- ---- ---- ----')
print('Mejor combinación con menor error:', best_combination)
print('Menor error encontrado:', min_error)

#   Iter     solver      C         tol          Ete
      10        sag    0.010      0.0010      0.175
      10        sag    0.010      0.1000      0.287
      10        sag    0.010      1.0000      0.975
      10        sag    0.010   1000.0000      0.975
      10        sag    0.010 100000.0000      0.975
      10        sag    0.100      0.0010      0.088
      10        sag    0.100      0.1000      0.075
      10        sag    0.100      1.0000      0.975
      10        sag    0.100   1000.0000      0.975
      10        sag    0.100 100000.0000      0.975
      10        sag    1.000      0.0010      0.088
      10        sag    1.000      0.1000      0.075
      10        sag    1.000      1.0000      0.975
      10        sag    1.000   1000.0000      0.975
      10        sag    1.000 100000.0000      0.975
      10        sag   10.000      0.0010      0.088
      10        sag   10.000      0.1000      0.075
      10        sag   10.000      1.0000      0.975
      10    

Después de analizar los resultados obtenidos de la implementación, podemos extraer diversas conclusiones significativas.

En primer lugar, se destaca que a medida que la tolerancia aumenta, la tasa de error también aumenta. Los valores de tolerancia 0.001 y 0.1 muestran consistentemente los errores más bajos, reafirmando la premisa de que a menor tolerancia, menor es el error. Entre estos, 0.001 y 0.1 destacan como los que presentan los errores más bajos.

Además, al evaluar diferentes solvers, se observa que lbfgs y newton-cg son los que proporcionan los mejores resultados. Entre estos, newton-cg generalmente presenta los errores más bajos, especialmente con respecto a valores de error de 0.000, siendo este solver el que más frecuentemente alcanza dicho valor.

Por último, en relación a las iteraciones, se nota que los errores de prueba tienden a seguir patrones similares, siendo ligeramente más altos para iteraciones más elevadas. Sin embargo, se destaca que el análisis más significativo se encuentra en la elección del solver y la tolerancia, ya que aquí se observa una disminución más drástica de los errores en la mayoría de los casos.

En este contexto, no existe una única configuración óptima, pero se destaca que una opción aceptable podría ser utilizar 10 iteraciones, el solver 'newton-cg', un parámetro C de 1.0, y una tolerancia de 0.001, ya que esta combinación presenta errores consistentemente bajos, incluyendo aquellos con valores de 0.000.