## Reto 2: Regresión Logística

### 1. Objetivos:
    - Aprender a aplicar un algoritmo de Regresión Logística
    
---
    
### 2. Desarrollo:

Vamos a utilizar el dataset 'diabetes-clean.csv'. Si recuerdas, este dataset tiene datos de ciertas medidas biométricas tomadas de mujeres de ascendencia Pima. También se incluye la variable `outcome`, que indica si la paciente fue diagnosticada con diabetes o no. El 1 es un diagnóstico positivo (hay diabetes), mientras que el 0 es un diagnóstico negativo (no hay diabetes).

Vamos a entrenar un modelo de Regresión Logística para diagnosticar pacientes de manera automática. Tu Reto consiste en lo siguiente:

1. Lee el dataset 'diabetes-clean.csv'.
2. Realiza un pairplot (gráfica de pares) de tu conjunto de datos, donde cada scatterplot esté segmentado usando la categoría 'outcome'. Esto significa que los puntos en cada gráfica estarán coloreados de acuerdo a si corresponden al outcome 1 o 0. Puedes encontrar las instrucciones de cómo hacer eso [aquí](https://seaborn.pydata.org/generated/seaborn.pairplot.html).
3. Con tu gráfica de pares hecha, decide si realizar algo de limpieza en tus datos antes de entrenar el modelo. La limpieza puede consistir en eliminar algunos datos con valores atípicos o remover variables independientes que no creas que estén tan relacionadas con el resultado.
4. Utilizando `train_test_split` separa tu dataset en entrenamiento y prueba.
5. Entrena un modelo de `LogisticRegression` usando tu dataset de entrenamiento.
6. Obtén el score de exactitud de tu modelo.
7. Si crees que el score pueda mejorar, regresa al punto 3 y realiza algunos cambios antes de volver a entrenar al modelo.
8. Ya que estés satisfecho con los resultados, comenta tus hallazgos con tus compañeros y la experta.

In [1]:
#montar drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
#leer df
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Datasets/Remoto diabetes-clean.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,pregnancies,glucose,blood_pressure,skin_thickness,insulin,bmi,diabetes_pedigree_function,age,outcome
0,0,6,148,72,35,0,33.6,0.627,50,1
1,1,1,85,66,29,0,26.6,0.351,31,0
2,2,8,183,64,0,0,23.3,0.672,32,1
3,3,1,89,66,23,94,28.1,0.167,21,0
4,4,0,137,40,35,168,43.1,2.288,33,1


In [4]:
#modelo
Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1

limpio = df[~((df < (Q1 - 1.5 * IQR)) |(df > (Q3 + 1.5 * IQR))).any(axis=1)]
limpio=limpio.drop(['Unnamed: 0'], axis=1)
limpio.head()

Unnamed: 0,pregnancies,glucose,blood_pressure,skin_thickness,insulin,bmi,diabetes_pedigree_function,age,outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
5,5,116,74,0,0,25.6,0.201,30,0


In [7]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

scaler=StandardScaler()
features=limpio.drop('outcome', axis=1)
scaled_features=scaler.fit_transform(features)
y=limpio['outcome']

x_train, x_test, y_train, y_test = train_test_split(scaled_features, y, test_size=0.2, random_state=42)
model = LogisticRegression()
model.fit(x_train, y_train)
y_pred = model.predict(x_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)


Accuracy: 0.828125


In [8]:
#print matriz auxiliar
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, y_pred)

array([[88,  4],
       [18, 18]])

In [13]:
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
from sklearn.metrics import confusion_matrix

# Calculate the confusion matrix - THIS IS THE MISSING STEP
cm = confusion_matrix(y_test, y_pred) # Assign the result to a variable 'cm'

graph = px.imshow(
    cm, # Pass the calculated confusion matrix 'cm' to px.imshow
    labels=dict(x="Predicted Label", y="True Label", color="Count"),
    x=['No Diabetes', 'Diabetes'],
    y=['No Diabetes', 'Diabetes'],
    color_continuous_scale=px.colors.carto.Peach,
    text_auto=True
)

graph.update_layout(
    template='plotly_white',
    font=dict(family='sans-serif'),
    xaxis=dict(gridcolor='lightgray'),
    yaxis=dict(gridcolor='lightgray'),
    width=700,
    height=700
)

graph.show()

In [14]:
tn, fp, fn, tp = confusion_matrix(y_test, y_pred).ravel()
print("True Negatives:", tn)
print("False Positives:", fp)
print("False Negatives:", fn)
print("True Positives:", tp)

True Negatives: 88
False Positives: 4
False Negatives: 18
True Positives: 18


In [15]:
presicion=tp/(tp+fp)
print("presicion:", presicion)

presicion: 0.8181818181818182


In [16]:
exactitud=(tp+tn)/(tp+tn+fp+fn)
print("exactitud:", exactitud)

exactitud: 0.828125


In [18]:
especificidad=tn/(tn+fp)
print("especificidad:", especificidad)

especificidad: 0.9565217391304348


In [17]:
recall=tp/(tp+fn)
print("recall:", recall)

recall: 0.5
