## Modelo de Regresión Logística

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

## Importando los datos

Se lee el archivo csv con el conjunto de datos de masas mamograficas.

In [3]:
mammographic_masses_clean = pd.read_csv('../processed/procemammographic_masses_clean.csv')
mammographic_masses_clean.head(25)

Unnamed: 0,Age,Shape,Margin,Density,Severity
0,67,3,5,3,1
1,58,4,5,3,1
2,28,1,1,3,0
3,57,1,5,3,1
4,76,1,4,3,1
5,42,2,1,3,1
6,36,3,1,2,0
7,60,2,1,2,0
8,54,1,1,3,0
9,52,3,4,3,0


## Datos de entrenamiento y prueba

In [4]:
from sklearn.model_selection import train_test_split

In [6]:
x= mammographic_masses_clean [['Age', 'Shape', 'Margin', 'Density']]
y= mammographic_masses_clean ['Severity']

In [7]:
X_train, X_test, y_train, y_test = train_test_split(x,y, test_size=0.33, 
                                                    random_state=42)

## Entrenando y ajustando el modelo de regresión logística con el conjunto de entrenamiento.

In [8]:
from sklearn.linear_model import LogisticRegression

In [9]:
modelo = LogisticRegression(solver='lbfgs')
modelo.fit(X_train,y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='warn',
          n_jobs=None, penalty='l2', random_state=None, solver='lbfgs',
          tol=0.0001, verbose=0, warm_start=False)

## Predicciones y Evaluaciones

** Se procedera a hacer el pronostico de los valores para los datos de prueba.**

In [11]:
predictions = modelo.predict(X_test)

In [12]:
predictions

array([0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1,
       1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0,
       1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0,
       1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1,
       1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1,
       1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0,
       1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1,
       1, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0,
       0, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0,
       0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 1,
       0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1], dtype=int64)

In [18]:
from sklearn.metrics import classification_report,confusion_matrix

### Matriz de confución

In [19]:
confusion_matrix(y_test,predictions)

array([[103,  40],
       [ 22, 110]], dtype=int64)

### Reporte de clasificación

In [20]:
print(classification_report(y_test,predictions))

              precision    recall  f1-score   support

           0       0.82      0.72      0.77       143
           1       0.73      0.83      0.78       132

   micro avg       0.77      0.77      0.77       275
   macro avg       0.78      0.78      0.77       275
weighted avg       0.78      0.77      0.77       275

