# Regresión Logísitica
---

<img src='../Imagenes/logistic.png' style='width:30%;height:30%;float:left;margin-right:20px'>
La regresión logísitica es un modelo que puede predecir la probabilidad que tiene una variable binaria (que puede aceptar 2 valores) de pertenecer a una clase o a otra.  

Es por tanto un método utilizado para la clasificación categórica de variables, especialmente útil por su simplicidad e interpretabilidad

## Escenario del problema
---

<img src='../Imagenes/comprar.jpg' style='width:15%;height:15%;float:left;margin-right:20px'>
Una empresa de coches ha sacado un nuevo modelo al mercado. Le ha preguntado a una re  
¡Vamos a ello!

In [10]:
#!pip install beautifultable

In [11]:
# 1. Importar librerías
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
from beautifultable import BeautifulTable as BT

from sklearn.model_selection import train_test_split as separar
from sklearn.preprocessing import MinMaxScaler

In [21]:
# 2. Importar datos
datos = pd.read_csv('diabetes2.csv')
datos.head(10)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
5,5,116,74,0,0,25.6,0.201,30,0
6,3,78,50,32,88,31.0,0.248,26,1
7,10,115,0,0,0,35.3,0.134,29,0
8,2,197,70,45,543,30.5,0.158,53,1
9,8,125,96,0,0,0.0,0.232,54,1


In [22]:
# 3. Crear variable y respuesta
X = datos.iloc[:,2:-1].values
y = datos['Outcome'].values

In [24]:
# 4. Variables categóricas! --> Encode
'''
from sklearn.preprocessing import LabelEncoder
enconder = LabelEncoder()
X[:,0] = enconder.fit_transform(X[:,0])
'''
dataframe = pd.DataFrame(X)
dataframe.head()

Unnamed: 0,0,1,2,3,4,5
0,72.0,35.0,0.0,33.6,0.627,50.0
1,66.0,29.0,0.0,26.6,0.351,31.0
2,64.0,0.0,0.0,23.3,0.672,32.0
3,66.0,23.0,94.0,28.1,0.167,21.0
4,40.0,35.0,168.0,43.1,2.288,33.0


In [28]:
# 4. Separar en Entranamiento y Validación
X_train, X_test, y_train, y_test = separar(X, y, test_size=0.25, random_state=0)
print('La forma de X_train es: ', X_train.shape)
print('La forma de y_train es: ', y_train.shape)
print('La forma de X_test es: ', X_test.shape)
print('La forma de y_test es: ', y_test.shape)

La forma de X_train es:  (576, 6)
La forma de y_train es:  (576,)
La forma de X_test es:  (192, 6)
La forma de y_test es:  (192,)


In [29]:
# 5. Escalar los datos
escaladorX = MinMaxScaler()
X_train = escaladorX.fit_transform(X_train.astype('float64'))
X_test  = escaladorX.transform(X_test.astype('float64'))
X_test[:9,:]

array([[0.62295082, 0.43434343, 0.        , 0.63934426, 0.56191289,
        0.01666667],
       [0.60655738, 0.3030303 , 0.11820331, 0.50074516, 0.13919727,
        0.03333333],
       [0.50819672, 0.        , 0.        , 0.50670641, 0.13364646,
        0.06666667],
       [0.59016393, 0.19191919, 0.20685579, 0.38450075, 0.21733561,
        0.5       ],
       [0.53278689, 0.        , 0.        , 0.36661699, 0.24850555,
        0.16666667],
       [0.59016393, 0.18181818, 0.04728132, 0.39642325, 0.08753202,
        0.05      ],
       [0.63934426, 0.34343434, 0.20212766, 0.50968703, 0.34799317,
        0.2       ],
       [0.70491803, 0.27272727, 0.18439716, 0.49627422, 0.45943638,
        0.51666667],
       [0.47540984, 0.24242424, 0.3250591 , 0.41281669, 0.6498719 ,
        0.06666667]])

In [30]:
# 6. Ajustar el Modelo
from sklearn.linear_model import LogisticRegression as LR
clasificador = LR(random_state=0)
clasificador.fit(X_train, y_train)

In [31]:
# 7. Hacer las predicciones
#y_fit = clasificador.predict(X_train)
y_pred = clasificador.predict(X_test)

In [32]:
# 8. Crear la Matriz de Confusión para evaluar la clasificación realizada
from sklearn.metrics import confusion_matrix as CM
cm = CM(y_test, y_pred)
cm

array([[121,   9],
       [ 49,  13]])

# Conclusión
---
Podemos ver en la matriz de confusión que tenemos un buen modelo, ya que los datos verdaderos son un total de 134 contra 58 falsos, por lo que podemos afirmar que el modelo que tenemos es bueno 