In [None]:
# Modulos y datos 
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import os

# Scikit-Learn
# Particionado de los datos : train/test
from sklearn.model_selection import train_test_split

# Creacion/instanciacion del modelo : linear_model
from sklearn.linear_model import LogisticRegression

# Submodulo metrics
from sklearn import metrics

# Datos 
data = pd.read_csv("https://raw.githubusercontent.com/robintux/Datasets4StackOverFlowQuestions/master/breast-cancer-wisconsin.csv")


In [None]:
# Necesitamos crear un objeto para las variables/columnas 
# independientes y ademas un objeto para la variable
# dependiente
y = data.diagnosis 
X = data.drop(["id", "diagnosis", "Unnamed: 32"], axis = 1)

In [None]:
# Construimos el modelo de regresion logistica 
# 
# Primero a realizar es la particionado de los datos en train/test
X_train, X_test, y_train, y_test = train_test_split(X,y,
                                                    test_size = 0.18,
                                                    stratify= y)

# Instanciamos el modelo a ajustar 
model1 = LogisticRegression(max_iter= 10000)

# Ajustamos el modelo
model1.fit(X_train, y_train)

# Calculamos un score (R^2) : Tanto para los datos de entrenamiento (el cual
# debe ser un score algo) como para los datos de testeo
print("""
Score para el dataset de entrenamiento : %f
Score para el dataset de testeo : %f

""" %(model1.score(X_train,y_train), model1.score(X_test, y_test)))


Score para el dataset de entrenamiento : 0.965665
Score para el dataset de testeo : 0.902913




In [None]:
# Construyamos pronosticos : El metodo predict
yForecast = model1.predict(X_test)

# Matriz de confusion
metrics.confusion_matrix(y_test, yForecast)

array([[61,  4],
       [ 6, 32]])

In [None]:
# Pensando en el ajuste de hiperparametros de mi modelo ,
# necesitamos conocer el conjunto de argumentos de la clase
# instanciada: LogisticRegression
help(LogisticRegression)

In [None]:
# Busqueda de hiperparametros 
# Cargamos la clase GridSearchCV
from sklearn.model_selection import GridSearchCV

# Definimos un diccionario con los hiperparametros
DictRegLog1 = {"C": np.linspace(0.01, 10, 10)}


# Modelo Base : Este modelo servira para que se realice el barrido de hiperparametros 
ModBaseClf =LogisticRegression(max_iter = 10000)

# Configuracion del gridSearchCV
ModBaseClf_gs1 = GridSearchCV(estimator = ModBaseClf,
                              param_grid = DictRegLog1,
                              cv = 5,
                              verbose = 4)

# Midamos el tiempo de procesamiento para hacer el GridSearch 
import time
InicioCronometro = time.time()
# 
MejorModelClf = ModBaseClf_gs1.fit(X_train, y_train)
# 
FinCronometro = time.time()
# 
print("Tiempo de procesamiento ", FinCronometro - InicioCronometro)


Fitting 5 folds for each of 10 candidates, totalling 50 fits
[CV 1/5] END ............................C=0.01;, score=0.936 total time=   0.1s
[CV 2/5] END ............................C=0.01;, score=0.989 total time=   0.1s
[CV 3/5] END ............................C=0.01;, score=0.957 total time=   0.1s
[CV 4/5] END ............................C=0.01;, score=0.925 total time=   0.1s
[CV 5/5] END ............................C=0.01;, score=0.946 total time=   0.3s
[CV 1/5] END ............................C=1.12;, score=0.936 total time=   1.1s
[CV 2/5] END ............................C=1.12;, score=0.978 total time=   0.9s
[CV 3/5] END ............................C=1.12;, score=0.946 total time=   0.7s
[CV 4/5] END ............................C=1.12;, score=0.925 total time=   1.6s
[CV 5/5] END ............................C=1.12;, score=0.957 total time=   3.0s
[CV 1/5] END ............................C=2.23;, score=0.947 total time=   1.1s
[CV 2/5] END ............................C=2.23;

In [None]:
# Los mejores parametros 
MejorModelClf.best_params_

{'C': 7.78}

In [None]:
MejorModelClf.best_estimator_

LogisticRegression(C=7.78, max_iter=10000)

In [None]:
# El mejor indicador de calidad 
MejorModelClf.best_score_

0.9549073438572411

In [None]:
# Si deseo construir otra busqueda de hiperparametros 
# Defino mi diccionarios

DictRegLog2 = {"C": np.linspace(1, 15, 30),
              #  "solver" :["newton-cg", "lbfgs", "liblinear", "sag", "saga"],
              #  "dual" : [True, False],
              #  "fit_intercept": [True, False]
               }

# Modelo Base : Este modelo servira para que se realice el barrido de hiperparametros 
ModBaseClf2 =LogisticRegression(max_iter = 10000)

# Configuracion del gridSearchCV
ModBaseClf_gs2 = GridSearchCV(estimator = ModBaseClf2,
                              param_grid = DictRegLog2,
                              cv = 5,
                              verbose = 4)

# Midamos el tiempo de procesamiento para hacer el GridSearch 
import time
InicioCronometro = time.time()
# 
MejorModelClf2 = ModBaseClf_gs2.fit(X_train, y_train)
# 
FinCronometro = time.time()
# 
print("Tiempo de procesamiento ", FinCronometro - InicioCronometro)



Fitting 5 folds for each of 30 candidates, totalling 150 fits
[CV 1/5] END .............................C=1.0;, score=0.947 total time=   1.5s
[CV 2/5] END .............................C=1.0;, score=0.978 total time=   1.7s
[CV 3/5] END .............................C=1.0;, score=0.946 total time=   1.3s
[CV 4/5] END .............................C=1.0;, score=0.925 total time=   1.0s
[CV 5/5] END .............................C=1.0;, score=0.957 total time=   0.7s
[CV 1/5] END ..............C=1.4827586206896552;, score=0.947 total time=   0.7s
[CV 2/5] END ..............C=1.4827586206896552;, score=0.978 total time=   1.0s
[CV 3/5] END ..............C=1.4827586206896552;, score=0.946 total time=   0.8s
[CV 4/5] END ..............C=1.4827586206896552;, score=0.925 total time=   0.7s
[CV 5/5] END ..............C=1.4827586206896552;, score=0.957 total time=   0.7s
[CV 1/5] END ..............C=1.9655172413793105;, score=0.947 total time=   0.8s
[CV 2/5] END ..............C=1.9655172413793105

In [None]:
#  Para este segundo gridsearch 
# Mejor hiperparametro
MejorModelClf2.best_params_


{'C': 12.586206896551724}

In [None]:
# El mejor indicador de calidad
MejorModelClf2.best_score_

0.95486158773736

In [None]:
# Guardamos el mejor modelo en disco duro
# Proceso de serializacion 

# Usemos el modulo pickle 
import pickle

# Creamos el mejor modelo y lo volvemos a ajustar con los de entranamiento
Mod2 = MejorModelClf2.best_estimator_
Mod2.fit(X_train, y_train)

# Guardamos el modelo recien ajustado a disco duro 
ArchivoMod2 = "ModRegLogCancer_Clase5_PIT2023.pkl"

# Volcamos la informacion del modelo que se encuentra en memoria ram
# a un archivo en el disco duro 
with open(ArchivoMod2, "wb") as file:
  pickle.dump(Mod2, file)