# Regresión logística aplicada a openml

El id del dataset y el suite con el que voy a trabajar, son el 99 y el 1480 respectivamente. El dataset escogido clasifica a los pacientes según si son hepáticos o no, C=2.Contiene un total de N=583 muestras, de las cuales 416 pertenecen a pacientes hepáticos y el resto a pacientes no hepáticos. También cabe destacar, que discrimina según el género, puesto que 441 muestras son de pacientes hombres y 142 de pacientes mujeres. En el análisis de este conjunto de datos, se han considerado 11 características, de las cuales 9 representan información cuantitativa y 2 representan información cualitativa o categórica. Estas son:                                                         


*   V1. Edad del paciente.
*   V2. Sexo del paciente
*   V3. Bilirrubina total
*   V4. Bilirrubina directa
*   V5. Fosfatasa alcalina alcalina
*   V6. Sgpt Alanina Aminotransferasa
*   V7. Sgot Aspartato Aminotransferasa
*   V8. Proteínas totales
*   V9. Albúmina
*   V10. A/G Ratio Albúmina y Globulina Ratio

Para concluir, mencionar que este dataset tiene un error de test de 29,9%. Por tanto, nuestro objetivo será reducir el error de
test y el de train si es posible, intentando encontrar la mejor combinación de número máximo de iteraciones, umbral de tolerancia, factor de aprendizaje y algoritmo de optimización.



In [None]:
!pip install openml

Collecting openml
  Downloading openml-0.14.1.tar.gz (131 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m131.3/131.3 kB[0m [31m898.7 kB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting liac-arff>=2.4.0 (from openml)
  Downloading liac-arff-2.5.0.tar.gz (13 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting xmltodict (from openml)
  Downloading xmltodict-0.13.0-py2.py3-none-any.whl (10.0 kB)
Collecting minio (from openml)
  Downloading minio-7.2.1-py3-none-any.whl (92 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.1/92.1 kB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
Collecting pycryptodome (from minio->openml)
  Downloading pycryptodome-3.19.0-cp35-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m8.8 MB/s[0m eta [36m0:00:00[0m
Building wheels for collected packages: openml, liac-

In [None]:
import warnings; warnings.filterwarnings("ignore"); import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [None]:
def get_data(data_id):
    X, y = fetch_openml(data_id=data_id, return_X_y=True, as_frame=False)
    mask = ~np.isnan(X).any(axis=1); X = X[mask, :]; y = y[mask]
    if X.shape[0] < 10: return(1.0)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=23)
    return X_train, X_test, y_train, y_test

In [None]:
import openml
#benchmark_suite = openml.study.get_suite(suite_id=99)
X_train, X_test, y_train, y_test = get_data(1480)


In [None]:
X_train[0]

array([6.0e+01, 1.0e+00, 5.0e-01, 1.0e-01, 5.0e+02, 2.0e+01, 3.4e+01,
       5.9e+00, 1.6e+00, 3.7e-01])

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
clf = LogisticRegression(random_state=23).fit(X_train, y_train)
y_test_pred = clf.predict(X_test)
err_test = 1 - accuracy_score(y_test, y_test_pred)
print(f"Error de test: {err_test:.1%}")

Error de test: 29.9%


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
clf = LogisticRegression(random_state=23).fit(X_train, y_train)
y_test_pred = clf.predict(X_train)
err_train = 1 - accuracy_score(y_train,y_test_pred )
print(f"Error de train: {err_train:.1%}")

Error de train: 26.6%


In [None]:
import warnings; from sklearn.exceptions import ConvergenceWarning
warnings.filterwarnings("ignore", category=ConvergenceWarning, module="sklearn")

In [None]:
for solver in ['lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga']:
    clf = LogisticRegression(random_state=23, solver=solver, max_iter=20).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test después de entrenar con el solver {solver!s}: {err_test:.1%}")

Error de test después de entrenar con el solver lbfgs: 26.5%
Error de test después de entrenar con el solver liblinear: 29.1%
Error de test después de entrenar con el solver newton-cg: 29.1%
Error de test después de entrenar con el solver newton-cholesky: 30.8%
Error de test después de entrenar con el solver sag: 30.8%
Error de test después de entrenar con el solver saga: 30.8%


In [None]:
for solver in ['lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga']:
  clf = LogisticRegression(random_state=23).fit(X_train, y_train)
  y_test_pred = clf.predict(X_train)
  err_train = 1 - accuracy_score(y_train,y_test_pred )
  print(f"Error de train: {err_train:.1%}")

Error de train: 26.6%
Error de train: 26.6%
Error de train: 26.6%
Error de train: 26.6%
Error de train: 26.6%
Error de train: 26.6%


In [None]:
for tol in (1e-4, 1e-2, 1, 1e2, 1e4):
    clf = LogisticRegression(tol=tol, random_state=23, max_iter=10000).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test con tolerancia {tol}: {err_test:.1%}")

Error de test con tolerancia 0.0001: 30.8%
Error de test con tolerancia 0.01: 30.8%
Error de test con tolerancia 1: 30.8%
Error de test con tolerancia 100.0: 30.8%
Error de test con tolerancia 10000.0: 30.8%


In [None]:
for tol in (1e-4, 1e-2, 1, 1e2, 1e4):
  clf = LogisticRegression(random_state=23).fit(X_train, y_train)
  err_train = 1 - accuracy_score(y_train, clf.predict(X_train))
  print(f"Error de train: {err_train:.1%}")


Error de train: 26.6%
Error de train: 26.6%
Error de train: 26.6%
Error de train: 26.6%
Error de train: 26.6%


In [None]:
for C in (1e-2, 1e-1, 1, 1e1, 1e2):
    clf = LogisticRegression(C=C, random_state=23, max_iter=10000).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test con C {C:g}: {err_test:.1%}")

Error de test con C 0.01: 27.4%
Error de test con C 0.1: 28.2%
Error de test con C 1: 30.8%
Error de test con C 10: 29.9%
Error de test con C 100: 30.8%


In [None]:
for max_iter in (20, 50, 100, 200, 500):
    clf = LogisticRegression(random_state=23, max_iter=max_iter).fit(X_train, y_train)
    err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
    print(f"Error de test con max_iter {max_iter}: {err_test:.1%}")

Error de test con max_iter 20: 26.5%
Error de test con max_iter 50: 29.1%
Error de test con max_iter 100: 29.9%
Error de test con max_iter 200: 29.9%
Error de test con max_iter 500: 30.8%


**Ejercicio para hacer en clase: aplicar RL a un dataset de OpenML**
---

Completa el código python de la caja de abajo para para mostrar los resultados de error de train (err_train) y error de test (err_test) para combinaciones de diferentes valores de:

1.   solver (utilizar sag, saga, lbfgs y netwon-cg que son los solvers para problemas multiclase
2.   max_iter (probar valores 20, 50, 100, 200, 500)
3. C (regularización: 0.01, 0.1, 1.0 , 10.0, 100)
4. tol (tolerancia: probar valores 10e-4, 10e-2, 1.0, 10e2, 10e4)

El error de train se calcula como  err_train = 1 - accuracy_score(y_train, clf.predict(X_train))

Utliza la cabecera:

print('#   Solver     Iter       C          tol       Etr      Ete');

y la siguiente instrucción para mostrar los resultados:

print('%10s %7d %9.3f %12.4f %7.0f%% %7.0f%%' %(solver, max_iter, C, tol, err_train\*100, err_test\*100))



**IMPORTANTE: en la instrucción 2 tienes que escoger un dataset dentro del suite. Para ello consulta el cuaderno openml_all_suites_datasets.ipynb**
---


In [None]:
print('# Solver       Iter       C          tol       Etr      Ete  ');
print('#-------      ------     ----       ----      ----     ----- ');

minimo_test = 100
for max_iter in (20, 50, 100, 200, 500):
  for solver in ('sag', 'saga', 'lbfgs','newton-cg'):
    for C in (0.01, 0.1, 1.0 , 10.0, 100):
      for tol in (10e-4, 10e-2, 1.0, 10e2, 10e4):
         clf = LogisticRegression(max_iter = max_iter, solver = solver, C=C, tol = tol).fit(X_train, y_train)
         err_test = 1 - accuracy_score(y_test, clf.predict(X_test))
         clf = LogisticRegression(random_state=23).fit(X_train, y_train)
         err_train = 1 - accuracy_score(y_train, clf.predict(X_train))
         if(err_test < minimo_test):
             minimo_test = err_test
             configuracion = (max_iter,solver,C,tol)

         print('%10s %7d %9.3f %12.4f %7.0f%% %7.0f%%' %(solver, max_iter, C, tol, err_train*100, err_test*100))
      print('#-------------------------------------------------');
print(configuracion, minimo_test);


# Solver       Iter       C          tol       Etr      Ete  
#-------      ------     ----       ----      ----     ----- 
       sag      20     0.010       0.0010      27%      31%
       sag      20     0.010       0.1000      27%      31%
       sag      20     0.010       1.0000      27%      31%
       sag      20     0.010    1000.0000      27%      31%
       sag      20     0.010  100000.0000      27%      31%
#-------------------------------------------------
       sag      20     0.100       0.0010      27%      31%
       sag      20     0.100       0.1000      27%      31%
       sag      20     0.100       1.0000      27%      31%
       sag      20     0.100    1000.0000      27%      31%
       sag      20     0.100  100000.0000      27%      31%
#-------------------------------------------------
       sag      20     1.000       0.0010      27%      31%
       sag      20     1.000       0.1000      27%      31%
       sag      20     1.000       1.0000      27%    

Teniendo en cuenta que en este dataset, el error de test es 29.9% y el error de train es 26.6%, la mejor combinación de iteraciones, solver, C y tolerancia es: (20,'lbfgs', 0.1, 0.01). Esta combinación, nos devuelve un error de test de 26% y un error de train de 27%. El algoritmo de optimización 'lbfgs' es el que utiliza la librería sklearn  lbfgs por defecto, y es el que considero que se ajusta mejor en este caso porque el resto de algoritmos como sag, saga, lbfgs y newton-cg es más recomendable utilizarlos cuando se trata de problemas multi-clase. En cuanto a los valores de C = 0.1 y tolerancia = 0.01, conseguimos evitar que el modelo se sobreajuste. No obstante, al tomar C un valor muy próximo al 0, estaríamos aplicando máxima regularización y podríamos acabar en una situación de subajuste. Por último, considero que con 20 iteraciones es suficiente para que el modelo converja, ya que el dataset no es muy grande.