# SIN2324, grupo de laboratorio 3C1
# Examen de la práctica 2
# Turno 1: de 15h a 15.45h del 8 de enero de 2024

# Regresión logística aplicada a una tarea de openml

## 1 Preliminares

Las siguientes celdas de código leen una matriz de datos de openml y crean de un partición train-test para hacer experimentos:

In [None]:
import warnings; warnings.filterwarnings("ignore"); import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split

In [6]:
X, y = fetch_openml(data_id=54, return_X_y=True, as_frame=False)
mask = ~np.isnan(X).any(axis=1); X = X[mask, :]; y = y[mask]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, shuffle=True, random_state=23)

## 2 Experimento básico con regresión logística

La siguiente celda de código calcula el error en test de regresión logística con los valores por defecto que utiliza la implementación de sklearn:

In [7]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
clf = LogisticRegression(random_state=23).fit(X_train, y_train)
err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
print(f"Error de test: {err_test:.1%}")

Error de test: 31.0%


## Ejercicio de Examen

## 3 Comparación de valores para el máximo número de iteraciones

Sklearn emplea `max_iter=100` por defecto. Calcula el error en test de regresión logística para valores de número de iteraciones superiores a 100 (en particular, 200, 500, 1000, 2000, 5000 y 10000):

In [20]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

num_iteraciones = [200, 500, 1000, 2000, 5000, 10000]

for iteracion in num_iteraciones:
    clf = LogisticRegression(random_state=23, max_iter=iteracion).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test con {iteracion} iteraciones: {err_test:.1%}")


Error de test con 200 iteraciones: 22.4%
Error de test con 500 iteraciones: 20.4%
Error de test con 1000 iteraciones: 17.7%
Error de test con 2000 iteraciones: 17.1%
Error de test con 5000 iteraciones: 17.7%
Error de test con 10000 iteraciones: 17.7%


**Pregunta 1:** $\;$ A la vista de los resultados obtenidos, ¿qué número de iteraciones consideras que sería más apropiado utilizar? Razona brevemente la respuesta

Seria mas apropiado utilizar 2000 iteraciones porque da menos porcentaje de error

## 4 Comparación de solvers

Sklearn utiliza el solver `solver=lbfgs` por defecto. Haciendo uso del mejor número de iteraciones encontrado anteriormente, calcula el error en test de regresión logística con otros solvers ('liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'):

In [21]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score


num_iterations = 2000


solvers = ['liblinear', 'newton-cg', 'lbfgs', 'sag', 'saga']

for solver in solvers:
    clf = LogisticRegression(random_state=23, max_iter=num_iterations, solver=solver).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test con solver '{solver}': {err_test:.1%}")


Error de test con solver 'liblinear': 18.9%
Error de test con solver 'newton-cg': 18.0%
Error de test con solver 'lbfgs': 17.1%
Error de test con solver 'sag': 20.1%
Error de test con solver 'saga': 22.4%


:**Pregunta 2:** $\;$ A la vista de los resultados obtenidos, ¿qué solver consideras que sería más apropiado utilizar? Razona brevemente la respuesta

En este caso seria mejor seguir utilizando lbfgs ya que es el que nos aporta un porcentaje de error menor. Esto puede ser debido a que lbfgs trabaja mejor con conjuntos de datos medianos/grandes.

## 5 Comparación de tolerancias

Sklearn usa tolerància `tol=1e-4` por defecto. Haciendo uso del mejor número de iteraciones y solver encontrado anteriormente, calcula el error en test de regresión logística con tolerancias inferiores y superiores al valor por defecto (1e-6, 1e-5, 1e-4, 1e-3, 1e-2, 1e-1, 1):

In [28]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

tolerancias = [1e-6, 1e-5, 1e-4, 1e-3, 1e-2, 1e-1, 1]

for tole in tolerancias:
    clf = LogisticRegression(random_state=23, max_iter=2000, solver='lbfgs', tol=tole).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test con tolerancia {tole}: {err_test:.1%}")


Error de test con tolerancia 1e-06: 17.1%
Error de test con tolerancia 1e-05: 17.1%
Error de test con tolerancia 0.0001: 17.1%
Error de test con tolerancia 0.001: 17.1%
Error de test con tolerancia 0.01: 17.1%
Error de test con tolerancia 0.1: 17.1%
Error de test con tolerancia 1: 17.1%


**Pregunta 3:** $\;$  A la vista de los resultados obtenidos, ¿qué valor o valores de tolerancia consideras que sería más apropiado utilizar? Razona brevemente la respuesta

Todas las tolerancias dan el mismo resultado, asique se podria utilizar cualquier valor.

## 6 Comparación de valores para el hiper-parámetro `C`

Sklearn utiliza `C=1.0` por defecto. Haciendo uso del mejor número de iteraciones, solver y tolerancia encontrados anteriormente, calcula el error en test de regresión logística con valores de `C` inferiores y superiores al valor por defecto (1e-2, 1e-1, 1, 1e1, 1e2, 1e3, 1e4):

In [30]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

valores_C = [1e-2, 1e-1, 1, 1e1, 1e2, 1e3, 1e4]
for C_valor in valores_C:
    clf = LogisticRegression(random_state=23, max_iter=2000, solver='lbfgs', tol=1e-4, C=C_valor).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test con C={C_valor}: {err_test:.1%}")


Error de test con C=0.01: 20.1%
Error de test con C=0.1: 17.7%
Error de test con C=1: 17.1%
Error de test con C=10.0: 18.6%
Error de test con C=100.0: 18.3%
Error de test con C=1000.0: 19.8%
Error de test con C=10000.0: 18.6%


**Pregunta 4:** $\;$ A la vista de los resultados obtenidos, ¿qué valor o valores de C consideras que sería más apropiado utilizar? Razona brevemente la respuesta

En base a los resultados obtenidos, el menor error en el conjunto de prueba se encuentra cuando C=1, con un error del 17.1%. Los valores de C menores (0.01 y 0.1) resultan en un peor rendimiento,mientras que valores más grandes de C (1000 y 10000) generan un aumento en el error. Por lo tanto la opcion mas adecuada seria la de C=1