 Regresión Logística, en donde desarrollaremos un modelo para predecir si un paciente tiene cáncer de seno o no, de acuerdo a las características del tumor.
 https://aprendeia.com/algoritmo-regresion-logistica-machine-learning-practica-con-python/
 
 Para este análisis vamos a utilizar uno de los dataset que se encuentra disponible en la librería scikit-learn y es el correspondiente a Breast Cancer o cáncer de seno.
 Como todos los programas que hemos desarrollado en el canal, lo primero que debemos hacer es importar las librerías que vamos a utilizar.
Por los momentos importaremos solamente datasets que se encuentra en sklearn. Acá es donde se guardan todos los conjuntos de datos que dispone esta librería.
 

In [1]:
#Se importan la librerias a utilizar
from sklearn import datasets

In [3]:
#Importamos los datos de la misma librería de scikit-learn
dataset = datasets.load_breast_cancer()


Si imprimimos lo que acabamos de exportar, podemos observar que tenemos mucha información almacenada en esta variable que hace que sea difícil entenderla por lo que debemos primeramente entender estos datos para posteriormente continuar con el desarrollo del modelo.

Lo primero que revisaremos es la información contenida dentro del dataset, para este fin utilizamos la instrucción keys.



In [4]:
print('Información en el dataset:')
print(dataset.keys())

Información en el dataset:
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


Como podemos observar nos indica que el dataset cuenta con la siguiente información: primeramente “data”, que serían los datos independientes, seguidamente “target”, correspondiente a la columna con las etiquetas o respuestas, posteriormente tenemos “target_names” que son los nombres de las variables que se encuentran en la columna de “target”, después tenemos “DESCR” que sería la descripción total del dataset y finalmente tenemos “features_names” correspondiente a los nombres de cada una de las columnas de los datos.

Ya sabiendo todo esto podemos utilizar cada uno de estos nombres para entender mejor los datos, lo primero que vamos hacer es utilizar “DESCR” para conocer las características del dataset.

In [5]:
#Verifico las características del dataset
print('Características del dataset:')
print(dataset.DESCR)

Características del dataset:
.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For i

Ahora vamos a proceder a definir las variables de “X” y “y” que vamos emplear en nuestro modelo.

Para “X” vamos a utilizar todas las variables que se encuentran dentro de “data”, por lo que la igualamos a dataset punto data.

In [6]:
#Seleccionamos todas las columnas
X = dataset.data

Por su parte, “y” será igual a los datos correspondientes a “target” por lo que igualamos esta variable a dataset punto target.



In [7]:
#Defino los datos correspondientes a las etiquetas
y = dataset.target

Recuerda que “y” cuenta con una sola columna con solamente ceros y unos, los unos indican que el tumor es maligno mientras que los ceros corresponden al tumor benigno.

Definido “X” y “y” ya podemos realizar la separación correspondiente a los datos de prueba y entrenamiento para ello importamos la respectiva librería y procedemos a utilizar train_test_split para separar los datos.

In [8]:
########## IMPLEMENTACIÓN DE REGRESIÓN LOGÍSTICA ##########
from sklearn.model_selection import train_test_split

Para la separación de los datos, vamos a tomar un 20% de los mismos para utilizarlos como prueba una vez que hayamos obtenido el modelo.



In [9]:
#Separo los datos de "train" en entrenamiento y prueba para probar los algoritmos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

El siguiente paso que realizaremos es escalar los datos, esto se hace ya que las características son completamente distintas en magnitudes, unidades y rango por lo que lo mejor es escalarlos para llevarlos a un mismo nivel de magnitudes.

Para realizar este procedimiento importaremos el método StandarScaler de la librería scikit-learn.



In [10]:
#Se escalan todos los datos
from sklearn.preprocessing import StandardScaler

Seguidamente igualaremos la variable escalar a “StandarScaler” para que lo podamos implementar con nuestros datos.



In [11]:
escalar = StandardScaler()

Realizado todo ahora si podemos escalar los datos, para nuestro caso los datos a escalar son lo que tenemos dentro de las variables “X” tanto de entrenamiento como de prueba.

Ahora para realizar el escalamiento utilizaremos fit_transform, esta instrucción realiza el calculo respectivo y a su vez transforma y devuelve los datos ya escalados.



In [12]:
X_train = escalar.fit_transform(X_train)
X_test = escalar.transform(X_test)

Ya en este momento tenemos nuestros datos listos para empezar a construir el modelo.

Lo primero que debemos hacer es importar LogisticRegression que se encuentra dentro de la librería linear_model, y a su vez definimos el algoritmo.



In [14]:
#Defino el algoritmo a utilizar
from sklearn.linear_model import LogisticRegression
algoritmo = LogisticRegression()

Seguidamente entrenamos el modelo utilizando la instrucción fit y los datos tanto de “X” como de “y” de entrenamiento.



In [15]:
#Entreno el modelo
algoritmo.fit(X_train, y_train)

LogisticRegression()

Y finalmente realizamos una predicción, utilizando la instrucción predict y los datos de prueba.



In [16]:
#Realizo una predicción
y_pred = algoritmo.predict(X_test)

Si comparamos los datos que predecimos con los datos reales podemos ver que nuestro modelo realizo un excelente trabajo ya que a simple vista podemos observar que los datos predichos son exactamente igual a los datos reales.

In [24]:
import pandas as pd
df2 = pd.DataFrame(y_test,y_pred)



import mitosheet
mitosheet.sheet(df2, view_df=True)

MitoWidget(analysis_data_json='{"analysisName": "UUID-681aa57c-a8fe-4d37-8a12-1764735a4a6d", "code": {"imports…

Pero veamos si esto es cierto, para ello calculamos las métricas respectivas para verificar el rendimiento del modelo. Para esto debemos primero obtener la matriz de confusión utilizando la librería metrics de scikit learn y el modulo confusion-matrix.

In [25]:
#Verifico la matriz de Confusión
from sklearn.metrics import confusion_matrix

Y lo utilizamos junto los datos de reales y los que hemos predicho con anterioridad.



In [26]:
matriz = confusion_matrix(y_test, y_pred)
print('Matriz de Confusión:')
print(matriz)

Matriz de Confusión:
[[42  2]
 [ 1 69]]


La matriz nos indica que cuenta con 44 datos verdaderos positivos,  y el modelo los predijo correctamente 42.

Por su parte son 69 los datos verdaderos negativos, esto quiere decir datos reales que eran 0 y el modelo los predijo  1 como positivo.

Veamos ahora la cantidad de datos que el modelo no predijo correctamente. Comencemos con los datos falsos negativos, en total fueron 3, esto quiere decir datos reales que eran 1 pero el modelo los predijo como 0.

En cuanto a los datos falsos positivos fue solamente 2 solo dato, que era en realidad 0 y el modelo lo predijo como 1.

Comencemos entonces calculando la precisión del algoritmo para ello utilizamos la librería metrics de scikit-learn e importamos precision_score, y la implementamos junto con los datos reales y los que hemos obtenidos utilizando el modelo.



In [27]:
#Calculo la precisión del modelo
from sklearn.metrics import precision_score
precision = precision_score(y_test, y_pred)
print('Precisión del modelo:')
print(precision)

Precisión del modelo:
0.971830985915493


Esto coincide con lo que vimos en la matriz de confusión, demostrando que nuestro modelo es bastante bueno.

Calculemos ahora la exactitud del modelo, por lo que debemos ahora importar accuracy_score, de la misma librería de metrics.



In [28]:
#Calculo la exactitud del modelo
from sklearn.metrics import accuracy_score
exactitud = accuracy_score(y_test, y_pred)
print('Exactitud del modelo:')
print(exactitud)

Exactitud del modelo:
0.9736842105263158


Veamos ahora la sensibilidad o lo que también se le conoce como recall del algoritmo, para ello importamos recall_score.



In [29]:
#Calculo la sensibilidad del modelo
from sklearn.metrics import recall_score
sensibilidad = recall_score(y_test, y_pred)
print('Sensibilidad del modelo:')
print(sensibilidad)

Sensibilidad del modelo:
0.9857142857142858


Finalmente, la curva ROC – ACU del modelo, para ello importamos roc_auc_score. Recuerda que todas estas instrucciones se encuentran dentro de la librería scikit-learn dentro de metrics.



In [30]:
#Calculo la curva ROC - AUC del modelo
from sklearn.metrics import roc_auc_score
roc_auc = roc_auc_score(y_test, y_pred)
print('Curva ROC - AUC del modelo:')
print(roc_auc)

Curva ROC - AUC del modelo:
0.9701298701298702


No es necesario hacer todos estos cálculos porque nuestros datos se encuentran balanceados, los hago acá para que vean cómo se pueden obtener.
