Before you turn this problem in, make sure everything runs as expected. First, **restart the kernel** (in the menubar, select Kernel $\rightarrow$ Restart) and then **run all cells** (in the menubar, select Cell $\rightarrow$ Run All).

Make sure you fill in any place that says `YOUR CODE HERE` or "YOUR ANSWER HERE", as well as your name and collaborators below:

In [None]:
NAME = "Jorge Ángel Gómez Meza"
COLLABORATORS = "Irving Morgado Vinalay, Mauricio Morgado Castillo"

---

<div class="alert alert-success">

# Objetivo

El propósito de este ejercicio es que refuerces tus conocimientos sobre pipelines para tareas comúnes en aprendizaje automático

In [1]:
# Bibliotecas básicas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from macti.eval import *

In [2]:
quiz = Quiz('1', 'mdp')

In [3]:
# Conjunto de datos
# https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data
df = pd.read_csv('https://bit.ly/3gob0mX', header=None)
df.shape

(569, 32)

In [4]:
df.tail(2)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,22,23,24,25,26,27,28,29,30,31
567,927241,M,20.6,29.33,140.1,1265.0,0.1178,0.277,0.3514,0.152,...,25.74,39.42,184.6,1821.0,0.165,0.8681,0.9387,0.265,0.4087,0.124
568,92751,B,7.76,24.54,47.92,181.0,0.05263,0.04362,0.0,0.0,...,9.456,30.37,59.16,268.6,0.08996,0.06444,0.0,0.0,0.2871,0.07039


In [5]:
# Variable objetivo, arreglo numpy con la columna 1
# Predictoras, arreglo numpy con las columnas 2 en adelante
# YOUR CODE HERE

X = df.loc[:,2:].values
y = df.loc[:,1].values
#X.tail(2),y.tail(2)
print(X.shape)
print(y.shape)
#y.tail(2)
#print(y)

(569, 30)
(569,)


In [6]:
# Codificación de etiquetas
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
y = le.fit_transform(y)
le.classes_, le.transform(['M','B']) # clases y ejemplo



(array(['B', 'M'], dtype=object), array([1, 0]))

In [7]:
print(le.classes_) # clases
print(le.transform(['M','B'])) # ejemplo

['B' 'M']
[1 0]


In [8]:
# Separa en conjuntos de entrenamiento y pruebas con 20% de datos para pruebas
# y un valor de 42 para replicabilidad cnoservando la proporción de cada clase,

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
                                                    stratify=y, random_state=42)
X_train.shape, X_test.shape
# muestra número filas de cada conjunto
# YOUR CODE HERE
#raise NotImplementedError()
filas_train = len(y_train)
filas_test = len(y_test)
print(filas_train)
print(filas_test)

455
114


In [9]:
quiz.eval_numeric('1', filas_train)

[39m――――――――――――――――――――――――――――――――――――――――
[32m1 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [10]:
quiz.eval_numeric('2', filas_test)

[39m――――――――――――――――――――――――――――――――――――――――
[32m2 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [11]:
# Otras bibliotecas a usar
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import GridSearchCV, cross_val_score

In [12]:
# Parámetros para la selección de algoritmos con validación cruzada anidada
param_range = [10**i for i in range(-4,5)]
param_xgb_range = [v for v in range(2,10)]    

In [13]:
# Genera un pipeline que realice estandarización y posteriormente Regresión Logística
# con random_state=42
# YOUR CODE HERE
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
#pipe_lr = make_pipeline(...)

pipe_lr = make_pipeline( StandardScaler(),                        
                       LogisticRegression(random_state=42)
                       )


# Crea una malla de parámetros para la LR con C:param_range y en 'solver'
# todas las posibilidades posibles indicadas en la documentación
# YOUR CODE HERE
#raise NotImplementedError()
#param_grid_lr = [ ... ]
#'newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga']
param_grid_lr = [{
    'logisticregression__C': param_range,
    'logisticregression__solver': ['newton-cg'], #se requieren muchas iteraciones para que estos 2 puedan converger
    
},
{
    'logisticregression__C': param_range,
    'logisticregression__solver': [ 'lbfgs'], #se requieren muchas iteraciones para que estos 2 puedan converger
    
},
{
    'logisticregression__C': param_range,
    'logisticregression__solver': [ 'liblinear'], #se requieren muchas iteraciones para que estos 2 puedan converger
    
},
                 {
    'logisticregression__C': param_range,
    'logisticregression__solver': [ 'sag'], #se requieren muchas iteraciones para que estos 2 puedan converger
     'logisticregression__max_iter': [5000, 6000, 7000, 8000]
},
                        {
    'logisticregression__C': param_range,
    'logisticregression__solver': [ 'saga'], #se requieren muchas iteraciones para que estos 2 puedan converger
     'logisticregression__max_iter': [5000, 6000, 7000, 8000]
}
                ]
# Crea un objeto de GridSearchCV con estimator=pipe_lr,param_grid=param_grid_lr,
# exactitud para la evaluación y 2 en validación cruzada
# YOUR CODE HERE
#raise NotImplementedError()
#gs_lr = GridSearchCV(estimator=pipe_lr, param_grid=param_grid_lr, ...)

gs_lr = GridSearchCV(estimator=pipe_lr, param_grid=param_grid_lr,
                  scoring='accuracy', cv=2, n_jobs=-1)

# Guarda en scores_lr el resultado de cross_val_score con gs_lr, sobre los conjuntos
# de prueba exactitud para la evaluación y 5 en validación cruzada
# YOUR CODE HERE
#raise NotImplementedError()
# scores_lr = cross_val_score(...)

scores = cross_val_score(gs_lr, X_train, y_train,
                         scoring='accuracy', cv=5)
print("hecho")

hecho


In [14]:
# Muestra el valor de la media y desviación estándar de los resultados
# redondeados a 6 cifras decimales
# YOUR CODE HERE
#raise NotImplementedError()
media_lr=np.mean(scores)
std_lr=np.std(scores)
#print('Exactitud de NCV con DT : %.3f +/- %.3f'%(np.mean(scores),np.std(scores)))
#media_lr = ...
#std_lr = ...
media_lr=(round(media_lr,6))
std_lr=round(std_lr,6)


print(round(media_lr,6) )
print(round(std_lr,6) )

0.975824
0.012815


In [15]:
quiz.eval_numeric('3', media_lr)

[39m――――――――――――――――――――――――――――――――――――――――
[31m3 | Ocurrió un error en tus cálculos.
[39m――――――――――――――――――――――――――――――――――――――――
[31mHint: 
[39m――――――――――――――――――――――――――――――――――――――――


AssertionError: 

In [None]:
quiz.eval_numeric('4', std_lr)

In [89]:
# Genera un pipeline que realice estandarización y posteriormente un SVClasificador
# con random_state=42
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

pipe_svc = make_pipeline(StandardScaler(),
                         SVC(random_state=42))


#pipe_svc = make_pipeline(...)

# Crea una malla de parámetros para la SVC con C:param_range, gamma:param_range
# kernel:['sigmoid','rbf']
# YOUR CODE HERE

param_grid_svc = [{'svc__C':param_range,'svc__kernel':['sigmoid']},
                  {'svc__C':param_range,'svc__gamma':param_range,'svc__kernel':['rbf']}]



#param_grid_svc = [ ... ]

# Crea un objeto de GridSearchCV con estimator=pipe_svc,param_grid=param_grid_svc,
# exactitud para la evaluación y 2 en validación cruzada
# YOUR CODE HERE

#gs_svc = GridSearchCV(estimator=pipe_svc, param_grid=param_grid_svc, ...)
gs_svc = GridSearchCV(estimator=pipe_svc, param_grid=param_grid_svc,
                  scoring='accuracy', cv=2, n_jobs=-1)
# Guarda en scores_svc el resultado de cross_val_score con gs_svc, sobre los conjuntos
# de prueba exactitud para la evaluación y 5 en validación cruzada
# YOUR CODE HERE
scores_svc = cross_val_score(estimator=gs_svc,
                         X= X_train, y= y_train,scoring='accuracy',
                         cv=5, n_jobs=2)
# scores_svc = cross_val_score(...)
print("hecho")

hecho


In [90]:
# Muestra el valor de la media y desviación estándar de los resultados
# redondeados a 6 cifras decimales
# YOUR CODE HERE


 
#print('Exactitud de NCV con DT : %.3f +/- %.3f'%(np.mean(scores),np.std(scores)))
#media_lr = ...
#std_lr = ...
media_svc=np.mean(scores_svc)
std_svc=np.std(scores_svc)
media_svc=(round(media_svc,6))
std_svc=round(std_svc,6)
 
#media_svc = ...
#std_svc = ...
print(media_svc)
print(std_svc)

0.973626
0.013187


In [91]:
quiz.eval_numeric('5', media_svc)

[39m――――――――――――――――――――――――――――――――――――――――
[32m5 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [92]:
quiz.eval_numeric('6', std_svc)

[39m――――――――――――――――――――――――――――――――――――――――
[32m6 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [20]:
#!pip install xgboost

In [85]:
from xgboost import XGBClassifier
# Genera un pipeline que realice estandarización y posteriormente un XGBClasificador
# con random_state=42
# Instalar xgboost, de ser necesario descomenta la siguiente línea
#!pip install xgboost
# YOUR CODE HERE

pipe_xgb = make_pipeline(StandardScaler(),
                         XGBClassifier(random_state=42))
#pipe_xgb = make_pipeline(...)

# Crea una malla de parámetros para la XGBC con n_estimators:param_xgb_range,
# max_depth:param_xgb_range

param_grid_xgb = [{'xgbclassifier__n_estimators':param_xgb_range,'xgbclassifier__max_depth':param_xgb_range}]
#param_grid_xgb = [{'xgb_classifier__n_estimators':param_xgb_range,'xgb_classifier__max_depth':param_xgb_range}]
#param_grid_xgb = [{'model__n_estimators':param_xgb_range,'model__max_depth':param_xgb_range}]
#param_grid_xgb = [{"n_estimators":param_xgb_range,"max_depth":param_xgb_range}]
#param_grid_xgb = [ ... ]

# Crea uun objeto de GridSearchCV con estimator=pipe_xgb,param_grid=param_grid_xgb,
# exactitud para la evaluación y 2 en validación cruzada
# YOUR CODE HERE

#gs_xgb = GridSearchCV(estimator=pipe_xgb, param_grid=param_grid_xgb, ...)
gs_xgb = GridSearchCV(estimator=pipe_xgb, param_grid=param_grid_xgb,
                  scoring='accuracy', cv=2, n_jobs=-1)
# Guarda en scores_xgb el resultado de cross_val_score con gs_xgb, sobre los conjuntos
# de prueba exactitud para la evaluación y 5 en validación cruzada
# YOUR CODE HERE
scores_xgb = cross_val_score(estimator=gs_xgb,scoring='accuracy',
                         X= X_train, y= y_train,
                         cv=5, n_jobs=2)
# scores_xgb = cross_val_score(...)
print("hecho")

  _data = np.array(data, dtype=dtype, copy=copy,
  _data = np.array(data, dtype=dtype, copy=copy,


hecho


In [86]:
# Muestra el valor de la media y desviación estándar de los resultados
# redondeados a 6 cifras decimales
# YOUR CODE HERE
#raise NotImplementedError()
media_xgb = 0.945055
std_xgb = 0.039925

media_xgb=np.mean(scores_xgb)
std_xgb=np.std(scores_xgb)

media_xgb=(round(media_xgb,6))
std_xgb=round(std_xgb,6)

print(media_xgb)
print(std_xgb)

0.945055
0.039925


In [87]:
quiz.eval_numeric('7', media_xgb)

[39m――――――――――――――――――――――――――――――――――――――――
[32m7 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [88]:
quiz.eval_numeric('8', std_xgb)

[39m――――――――――――――――――――――――――――――――――――――――
[32m8 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [38]:
# Guarda en gs el objeto GridSearchCV correspondiente al pipeline con el
# mejor rendimiento, realiza ajuste con los conjuntos de entrenamiento
# y obtén la exactitud obtenida por el mejor modelo redondeada a 6 cifras decimales
# YOUR CODE HERE

#seleccionar el mejor 

gs = gs_svc
gs.fit(X_train, y_train)
#gs.fit(...)
accuracy_train = round(gs.best_score_,6)
#accuracy_train = ...
print(accuracy_train)
#print(gs.best_score_)
#print(gs.best_params_)


0.980215


In [39]:
quiz.eval_numeric('9', accuracy_train)

[39m――――――――――――――――――――――――――――――――――――――――
[32m9 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [41]:
# Guarda en clf al mejor estimador obtenido en gs, realiza ajuste con los
# conjuntos de entrenamiento y obtén su exactitud sobre el conjunto de prueba
# redondeada a 6 cifras decimales
# YOUR CODE HERE
clf = gs_svc.best_estimator_
clf.fit(X_train, y_train)
accuracy_test=clf.score(X_test, y_test)
accuracy_test = round(accuracy_test,6)
print('Exactitud en test : %.3f' % clf.score(X_test, y_test))

#clf = ...
#clf.fit(...)
#accuracy_test = ...
print(accuracy_test)

Exactitud en test : 0.974
0.973684


In [42]:
quiz.eval_numeric('10', accuracy_test)

[39m――――――――――――――――――――――――――――――――――――――――
[32m10 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――
