# Regresión logística aplicada a iris

**Lectura del corpus y partición:**

In [None]:
import numpy as np; from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
iris = load_digits(); X = iris.data.astype(np.float16); y = iris.target.astype(np.uint)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=23)

**LogisticRegression:** $\;$ implementación de regresión logística en sklearn

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
clf = LogisticRegression(random_state=23).fit(X_train, y_train)
y_test_pred = clf.predict(X_test)
err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
print(f"Error de test: {err_test:.1%}")

Error de test: 4.2%


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


**Warnings:** $\;$ sklearn es un poco "insistente" con los warnings; ignoraremos los avisos sobre convergencia

In [None]:
import warnings; from sklearn.exceptions import ConvergenceWarning
warnings.filterwarnings("ignore", category=ConvergenceWarning, module="sklearn")

**Solvers:** $\;$ el parámetro `solver` de LogisticRegression permite elegir entre diferentes solvers (algoritmos de optimitzación)

In [None]:
for solver in ['lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga']:
    clf = LogisticRegression(random_state=23, solver=solver, max_iter=10000).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test después de entrenar con el solver {solver!s}: {err_test:.1%}")

Error de test después de entrenar con el solver lbfgs: 3.6%
Error de test después de entrenar con el solver liblinear: 4.7%
Error de test después de entrenar con el solver newton-cg: 3.6%
Error de test después de entrenar con el solver newton-cholesky: 4.7%
Error de test después de entrenar con el solver sag: 4.2%
Error de test después de entrenar con el solver saga: 4.2%


**Tolerancia:** $\;$ el parámetro `tol` establece un umbral de tolerancia para acabar el entrenamiento (1e4 por defecto)

In [None]:
for tol in (1e-4, 1e-2, 1, 1e2, 1e4):
    clf = LogisticRegression(tol=tol, random_state=23, max_iter=10000).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test con tolerancia {tol}: {err_test:.1%}")

Error de test con tolerancia 0.0001: 3.6%
Error de test con tolerancia 0.01: 3.6%
Error de test con tolerancia 1: 4.4%
Error de test con tolerancia 100.0: 4.2%
Error de test con tolerancia 10000.0: 91.7%


**Regularización:** $\;$ el parámetro `C` (positivo, $1.0$ por defecto) des-regulariza el criterio de entrenamiento
* **Posibilidad de subajuste:** $\;$ con un valor próximo a cero (máxima regularización)
* **Posibilidad de sobreajuste:** $\;$ con un valor positivo muy alto (mínima regularización)

In [None]:
for C in (1e-2, 1e-1, 1, 1e1, 1e2):
    clf = LogisticRegression(C=C, random_state=23, max_iter=10000).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test con C {C:g}: {err_test:.1%}")

Error de test con C 0.01: 3.3%
Error de test con C 0.1: 3.9%
Error de test con C 1: 3.6%
Error de test con C 10: 3.9%
Error de test con C 100: 4.7%


**Early stopping:** $\;$ ahorramos cálculo y evitamos sobre-entrenamiento ("regularizamos") acabando pronto (en pocas iteraciones)

In [None]:
for max_iter in (10, 20, 50, 100):
    clf = LogisticRegression(random_state=23, max_iter=max_iter).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test con max_iter {max_iter}: {err_test:.1%}")

Error de test con max_iter 10: 4.4%
Error de test con max_iter 20: 3.6%
Error de test con max_iter 50: 3.1%
Error de test con max_iter 100: 4.2%


**Ejercicio para hacer en clase**
---

Escribe el código python necesario para mostrar los resultados de error de test (err_test) para combinaciones de diferentes valores de:

1. `max_iter` (probar valores 10, 20, 50, 100, 200, 500, 800, 1000)
2. `solver` (utilizar sag, saga, lbfgs y netwon-cg que son los solvers para problemas multiclase
3. `C` (regularización: 0.01, 0.1, 1.0 , 10.0, 100)
4. `tol` (tolerancia: probar valores 10e-4, 10e-2, 1.0, 10e2, 10e4)

Utliza la cabecera:

`print('#   Iter     solver        C         tol        Ete');`
---

y la siguiente instrucción para mostrar los resultados:

`print('%8d %10s %8.3f %11.4f %10.3f' %(max_iter, solver, C, tol, err_test))`
---

In [None]:
min_error = float('inf')
best_combination = None
print('#   Iter     solver      C         tol          Ete')
for max_iter in (10,20,50,100,200,500,800,1000):
  for solver in ['sag','saga','lbfgs','newton-cg']:
    for C in (0.01,0.1,1.0,10.0,100):
      for tol in (10e-4,10e-2,1.0,10e2,10e4):
        clf = LogisticRegression(C=C,solver=solver,tol=tol, random_state=23, max_iter=max_iter).fit(X_train, y_train)
        err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
        print('%8d %10s %8.3f %11.4f %10.3f' %(max_iter, solver, C, tol, err_test))
        if err_test < min_error:
                    min_error = err_test
                    best_combination = (max_iter, solver, C, tol)

  print('#------- ------ ---- ---- ---- ----')
print('Mejor combinación con menor error:', best_combination)
print('Menor error encontrado:', min_error)

#   Iter     solver      C         tol          Ete
      10        sag    0.010      0.0010      0.047
      10        sag    0.010      0.1000      0.039
      10        sag    0.010      1.0000      0.097
      10        sag    0.010   1000.0000      0.097
      10        sag    0.010 100000.0000      0.097
      10        sag    0.100      0.0010      0.039
      10        sag    0.100      0.1000      0.042
      10        sag    0.100      1.0000      0.100
      10        sag    0.100   1000.0000      0.100
      10        sag    0.100 100000.0000      0.100
      10        sag    1.000      0.0010      0.039
      10        sag    1.000      0.1000      0.044
      10        sag    1.000      1.0000      0.100
      10        sag    1.000   1000.0000      0.100
      10        sag    1.000 100000.0000      0.100
      10        sag   10.000      0.0010      0.039
      10        sag   10.000      0.1000      0.044
      10        sag   10.000      1.0000      0.100
      10    

Luego de analizar los resultados derivados de la implementación, podemos extraer diversas conclusiones esenciales.

En primer lugar, se observa que a medida que la tolerancia aumenta, la tasa de error también crece, destacándose los valores de tolerancia 0.001, 0.1 y 1.0 como aquellos que generan los menores errores en la mayoría de los casos. No obstante, es interesante señalar que, en ciertas situaciones, especialmente con el solver lbfgs, la tolerancia de 1.0 tiende a presentar los errores de prueba más bajos.

En términos generales, a mayor número de iteraciones, los solvers newton y lbfgs exhiben los errores de prueba más bajos en comparación con saga, que muestra menor error de prueba en iteraciones más bajas. Sin embargo, los errores de prueba más bajos suelen estar asociados al solver sag, con regularización de 0.01 y tolerancia de 0.0010, especialmente a partir de las 20 iteraciones.

En conclusión, la configuración óptima que proporciona el menor error de prueba sería con 20 iteraciones, solver 'sag', un parámetro de regularización (c) de 0.01 y tolerancia de 0.001. Estos hallazgos sugieren que esta combinación de parámetros brinda un rendimiento óptimo en términos de precisión en el conjunto de prueba.