## Reto 2: Regresión Logística

### 1. Objetivos:
    - Aprender a aplicar un algoritmo de Regresión Logística
    
---
    
### 2. Desarrollo:

Vamos a utilizar el dataset 'diabetes-clean.csv'. Si recuerdas, este dataset tiene datos de ciertas medidas biométricas tomadas de mujeres de ascendencia Pima. También se incluye la variable `outcome`, que indica si la paciente fue diagnosticada con diabetes o no. El 1 es un diagnóstico positivo (hay diabetes), mientras que el 0 es un diagnóstico negativo (no hay diabetes).

Vamos a entrenar un modelo de Regresión Logística para diagnosticar pacientes de manera automática. Tu Reto consiste en lo siguiente:

1. Lee el dataset 'diabetes-clean.csv'.
2. Realiza un pairplot (gráfica de pares) de tu conjunto de datos, donde cada scatterplot esté segmentado usando la categoría 'outcome'. Esto significa que los puntos en cada gráfica estarán coloreados de acuerdo a si corresponden al outcome 1 o 0. Puedes encontrar las instrucciones de cómo hacer eso [aquí](https://seaborn.pydata.org/generated/seaborn.pairplot.html).
3. Con tu gráfica de pares hecha, decide si realizar algo de limpieza en tus datos antes de entrenar el modelo. La limpieza puede consistir en eliminar algunos datos con valores atípicos o remover variables independientes que no creas que estén tan relacionadas con el resultado.
4. Utilizando `train_test_split` separa tu dataset en entrenamiento y prueba.
5. Entrena un modelo de `LogisticRegression` usando tu dataset de entrenamiento.
6. Obtén el score de exactitud de tu modelo.
7. Si crees que el score pueda mejorar, regresa al punto 3 y realiza algunos cambios antes de volver a entrenar al modelo.
8. Ya que estés satisfecho con los resultados, comenta tus hallazgos con tus compañeros y la experta.

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression

In [2]:
df = pd.read_csv('../../Datasets/diabetes-clean.csv', index_col=0)
                 
df.head()

Unnamed: 0,pregnancies,glucose,blood_pressure,skin_thickness,insulin,bmi,diabetes_pedigree_function,age,outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [11]:
df

Unnamed: 0,pregnancies,glucose,blood_pressure,skin_thickness,insulin,bmi,diabetes_pedigree_function,age,outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


In [3]:
df['outcome'].unique()

array([1, 0])

In [4]:
logreg = LogisticRegression(max_iter=10000)

In [5]:
X = df.drop(columns=['outcome'])
y = df['outcome']

In [6]:
from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test=train_test_split(X, y, test_size=0.3)

In [7]:
logreg.fit(X_train, y_train)

LogisticRegression(max_iter=10000)

In [8]:
logreg.score(X_test, y_test)

0.7878787878787878

In [9]:
y_pred = logreg.predict(X_test)

In [10]:
from sklearn import metrics
cnf_matrix = metrics.confusion_matrix(y_test, y_pred)
cnf_matrix

array([[137,  17],
       [ 32,  45]])