# Scikit Learn 2
- - -

## Regresión Logística

La Regresión logística es un tipo de análisis de regresión utilizado para predecir el resultado de una variable categórica.

Ejemplo de ello, puede ser predecir el resultado de problemas de clasificación tales como:

+ Detección de transacciones fraudulentas.
+ Detección de Spam.
+ Otros...

Por lo que con problemas de este tipo podriamos, etiquetar un correo que es Spam como 1 y un correo que no es Spam como 0.

La clave de la regresión logística es el uso de la función sigmoide.

<img src=https://i.ibb.co/wJMYnnv/01.png width="450">

Con esta función siempre obtendremos alguna **probabilidad** comprendida entre 0 y 1.

Eso significa que podemos establecer un punto de corte.

Dicho corte es el que determinara si nuestra predicción pertencece a una clase u otra.

Generalmente este corte esta establecido en 0.5 con lo cual si resulta un 0.5 o menor irá a la clase 0, en caso contrario irá a la clase 1.

- - -

### Dataset Pima Indians Diabetes

+ Subconjunto de datos de la base de datos del Instituto Nacional de la Diabetes y las Enfermedades Digestivas y Renales.

+ Los datos han sido fitrados para centrarse en pacientes femeninos con herencia de indios pima.  

+ Se incluyen información médica como niveles de glucosa e insulina y factores de estilo de vida.  

- - -

In [None]:
import pandas as pd

In [None]:
import warnings
warnings.filterwarnings(action="ignore")

In [None]:
diabetes = pd.read_csv("https://raw.githubusercontent.com/4data-lab/datasets/master/diabetes.csv")

In [None]:
diabetes.head()

In [None]:
diabetes = pd.read_csv("https://raw.githubusercontent.com/4data-lab/datasets/master/diabetes.csv", header=None)

In [None]:
diabetes.head()

- - -
*Contenido del dataset*:

0. Number of times pregnant
1. Plasma glucose concentration a 2 hours in an oral glucose tolerance test
2. Diastolic blood pressure (mm Hg)
3. Triceps skin fold thickness (mm)
4. 2-Hour serum insulin (mu U/ml)
5. Body mass index (weight in kg/(height in m)^2)
6. Diabetes pedigree function
7. Age (years)


8. Diabetes  
    - 0
    - 1
- - -

<img src=https://i.ibb.co/8xd44kb/02.jpg width="450">

- - -

In [None]:
diabetes.columns = ["num_preg", "glucose_conc", "diastolic_bp", "thickness", "insulin", "bmi", "diab_pred", "age", "diabetes"]

In [None]:
diabetes.head()

In [None]:
diabetes.shape

- - -

In [None]:
#Alternativa, antes hemos visto antes que podemos declarar así nuestras X e y, abajo tenemos una alternativa.
#X = diabetes[["num_preg", "glucose_conc", "diastolic_bp", "thickness", "insulin", "bmi", "diab_pred", "age"]]
#y = diabetes["diabetes"]

- - -

Alternativamente podriamos separar "X" e "y" de la siguiente manera:

In [None]:
X = diabetes.drop(["diabetes"], axis=1)

In [None]:
y = diabetes["diabetes"]

In [None]:
X.shape

In [None]:
y.shape

In [None]:
print('Hay {} mujeres con diabetes'.format(y[y==1].count()))
print('Hay {} mujeres sin diabetes'.format(y[y==0].count()))

- - -

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.3, random_state=2)
#stratify hace que se mantengan las proporciones del dataset
print("Shape de X_train: {}, shape de X_test: {}".format(X_train.shape, X_test.shape))

<img src=https://i.ibb.co/Sw6x2W4/03.png width="450">

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
LR = LogisticRegression()

In [None]:
LR.fit(X_train, y_train)

In [None]:
y_train_pred = LR.predict(X_train)

In [None]:
y_test_pred = LR.predict(X_test)

- - -

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
print("Accuracy - Datos de train")
accuracy_score(y_train, y_train_pred)

In [None]:
print("Accuracy - Datos de test")
accuracy_score(y_test, y_test_pred)

- - -

### Matrix de confusión

In [None]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay


In [None]:
matriz_de_confusión = confusion_matrix(y_train, y_train_pred)

In [None]:
print("Matriz de confusión datos de train")
ConfusionMatrixDisplay.from_predictions(y_train, y_train_pred);




In [None]:
print("Matriz de confusión datos de test")
ConfusionMatrixDisplay.from_predictions(y_test, y_test_pred);

- - -
| *Matriz Confusión*        | Predicción Negativa    | Predicción Positiva     |
| -------------             | :-------------:          | :-------------:           |
| **Observación Negativa** | Verdaderos Negativo (VN)  | Falsos Positivo (FP)      |
| **Observación Positiva** | Falsos Negativo (FN)      | Verdaderos Positivos (VP) |

- - -
| *Matriz Confusión*                | Predicción igual a 0 | Predicción igual a 1 |
| ---------------------------       | :-------------:      | :-------------:      |
| **Observación igual a Valor = 0** | 311                  | 39                   |
| **Observación igual a Valor = 1** | 79                   | 108                  |

- - -

In [None]:
VN = matriz_de_confusión[0][0]

In [None]:
FP = matriz_de_confusión[0][1]

In [None]:
FN = matriz_de_confusión[1][0]

In [None]:
VP = matriz_de_confusión[1][1]

- - -
#### ACCURACY (aka exactitud):
Accuracy = (VP+VN)/(VP+VN+FP+FN)

Accuracy = (108+311)/(108+311+39+79)

Accuracy = 0.78

In [None]:
(VP+VN)/(VP+VN+FP+FN)

- - -
#### ESPECIFICIDAD:
Frecuencia que con nuestro valor negativo obtenemos una predicción que también lo es.  

Especificidad = VN/(VN+FP)

Especificidad = 311/(311+39)

Especificidad = 0.88

In [None]:
(VN/(VN+FP))

- - -
#### SENSIBILIDAD:  
Frecuencia que con nuestro valor positivo obtenermos una predicción que también lo es.  

Sensibilidad = VP/(VP+FN)

Sensibilidad = 108/(108+79)

Sensibilidad = 0.57

In [None]:
VP/(VP+FN)

- - -

Lo que veremos a continuación son algunos de los valores reales del target de entrenamiento y algunos valores se su predicción.

Lo que ha sucedido es que nuestro modelo  ha resultado ser mucho más específico que sensible por lo que para resolver este problema podemos modificar el umbral de corte.  

In [None]:
print("Valores Reales:")
list(y_train)[0:24]

In [None]:
print("Valores Predicción:")
list(y_train_pred)[0:24]

- - -

### Modificar el umbral

In [None]:
y_train_pred_proba = LR.predict_proba(X_train)
#nos devuelve la probabilidad de que sea 0 y la probabilidad de que sea 1.

In [None]:
list(y_train_pred_proba)[0:5]

    Usaremos sliding para  seleccionar tanto filas como columnas columnas.

In [None]:
list(y_train_pred_proba[0:15,1])
#Nos hemos quedado con la probabilidad de que sea 1.

- - -

    A continuación vamos a replicar el proceso de binarización con el corte por defecto y luego realizaremos un corte custom

In [None]:
from sklearn.preprocessing import binarize

In [None]:
y_pred_class = binarize(y_train_pred_proba, threshold=0.50)

In [None]:
print(y_pred_class[0:24,1])

In [None]:
y_pred_class = binarize(y_train_pred_proba, threshold=0.25)

In [None]:
otra_matriz_de_confusión = confusion_matrix(y_train, y_pred_class[:,1])
print(otra_matriz_de_confusión)

In [None]:
VN = otra_matriz_de_confusión[0][0]
FP = otra_matriz_de_confusión[0][1]
FN = otra_matriz_de_confusión[1][0]
VP = otra_matriz_de_confusión[1][1]

In [None]:
print("Especificidad")
print((VN/(VN+FP)))
print("Sensibilidad")
print((VP/(VP+FN)))

- - -

### Curva ROC

Una curva ROC (Receiver Operating Characteristic) es una representación gráfica que nos indica la relación entre la sensibilidad y la especificidad de un sistema clasificador para diferentes puntos de corte.

In [None]:
from sklearn.metrics import roc_curve

In [None]:
RFP, RVP, umbrales = roc_curve(y_train, y_train_pred_proba[:,1])

- - -

In [None]:
import matplotlib.pyplot as plt

In [None]:
from IPython.display import set_matplotlib_formats
set_matplotlib_formats("retina")

In [None]:
plt.plot(RFP, RVP)

In [None]:
plt.plot(RFP, RVP)
plt.plot([0, 1], [0, 1], color="black", lw=1, linestyle="--")
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.0])
plt.title("Especificidad\n1.0                0.8                0.6                0.4                0.2                0.0", fontsize=10)
plt.xlabel("1 - Especificidad = Ratio de falsos positivos")
plt.ylabel("Sensibilidad = Ratio verdaderos positivos")
plt.grid(True)

- - -
Alternativamente podriamos hacer este plot con seaborn de la siguiente manera:

In [None]:
import seaborn as sns

sns.lineplot(x=RFP, y=RVP)
sns.lineplot(x=[0, 1], y=[0, 1], color="black", lw=1, linestyle="--")
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.0])
plt.title("Especificidad\n1.0                0.8                0.6                0.4                0.2                0.0", fontsize=10)
plt.xlabel("1 - Especificidad = Ratio de falsos positivos")
plt.ylabel("Sensibilidad = Ratio verdaderos positivos")
plt.grid(True)

- - -

### Área bajo la curva

Si queremos calcular la eficiencia de nuestro modelo de manera general, indiferentemente del umbral de corte podemos usar la métrica de AUC.

Cuando más se aproxime nuestro valor de AUC a 1, mejor sera el rendimiento de nuestro modelo.

In [None]:
from sklearn.metrics import roc_auc_score

In [None]:
print("AUC - Datos de test")
roc_auc_score(y_test, y_test_pred)

- - -