<p style="page-break-after:always;"></p>

# Regressió logística aplicada a iris

**Lectura del corpus i partició:**

In [1]:
import numpy as np; from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris(); X = iris.data.astype(np.float16); y = iris.target.astype(np.uint)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=23)

**LogisticRegression:** $\;$ implementació de regressió logística en sklearn

In [2]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
clf = LogisticRegression(random_state=23).fit(X_train, y_train)
y_test_pred = clf.predict(X_test)
err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
print(f"Error de test: {err_test:.1%}")

Error de test: 0.0%


**Warnings:** $\;$ sklearn és un poc "llandós" amb el warnings; ignorarem els avisos sobre convergència

In [3]:
import warnings; from sklearn.exceptions import ConvergenceWarning
warnings.filterwarnings("ignore", category=ConvergenceWarning, module="sklearn")

<p style="page-break-after:always;"></p>

**Solvers:** $\;$ el paràmetre `solver` de LogisticRegression permet triar entre diferents solvers (algorismes d'optimització)

In [4]:
for solver in ['lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga']:
    clf = LogisticRegression(random_state=23, solver=solver, max_iter=10000).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test després d'entrenar amb el solver {solver!s}: {err_test:.1%}")

Error de test després d'entrenar amb el solver lbfgs: 0.0%
Error de test després d'entrenar amb el solver liblinear: 3.3%
Error de test després d'entrenar amb el solver newton-cg: 0.0%
Error de test després d'entrenar amb el solver newton-cholesky: 3.3%
Error de test després d'entrenar amb el solver sag: 0.0%
Error de test després d'entrenar amb el solver saga: 0.0%


**Tolerància:** $\;$ el paràmetre `tol` estableix un llindar de tolerància per a acabar l'entrenament (1e4 per omissió)

In [5]:
for tol in (1e-4, 1e-2, 1, 1e2, 1e4):
    clf = LogisticRegression(tol=tol, random_state=23, max_iter=10000).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test amb tolerància {tol}: {err_test:.1%}")

Error de test amb tolerància 0.0001: 0.0%
Error de test amb tolerància 0.01: 3.3%
Error de test amb tolerància 1: 60.0%
Error de test amb tolerància 100.0: 60.0%
Error de test amb tolerància 10000.0: 60.0%


<p style="page-break-after:always;"></p>

**Regularització:** $\;$ el paràmetre `C` (positiu, $1.0$ per omissió) des-regularitza el criteri d'entrenament
* **Possibilitat de subajust:** $\;$ amb un valor pròxim a zero (màxima regularització)
* **Possibilitat de sobreajust:** $\;$ amb un valor positiu molt alt (mínima regularització)

In [6]:
for C in (1e-2, 1e-1, 1, 1e1, 1e2):
    clf = LogisticRegression(C=C, random_state=23, max_iter=10000).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test amb C {C:g}: {err_test:.1%}")

Error de test amb C 0.01: 6.7%
Error de test amb C 0.1: 3.3%
Error de test amb C 1: 0.0%
Error de test amb C 10: 3.3%
Error de test amb C 100: 3.3%


**Early stopping:** $\;$ estaviem càlcul i evitem sobre-entrenament ("regularitzem") acabant prompte (en poques iteracions)

In [7]:
for max_iter in (10, 20, 50, 100):
    clf = LogisticRegression(random_state=23, max_iter=max_iter).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test amb max_iter {max_iter}: {err_test:.1%}")

Error de test amb max_iter 10: 0.0%
Error de test amb max_iter 20: 3.3%
Error de test amb max_iter 50: 0.0%
Error de test amb max_iter 100: 0.0%
