In [22]:
import pandas as pd
import numpy as np
import sklearn 
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
from sklearn.preprocessing import StandardScaler


In [23]:
print("NumPy:", np.__version__)
print("Pandas:", pd.__version__)
print("Scikit-Learn:", sklearn.__version__)


NumPy: 1.26.4
Pandas: 2.2.3
Scikit-Learn: 1.6.1


In [24]:
# Cargar el conjunto de datos 
df = pd.read_csv('C:/Users/Usuario/Desktop/Analisis_Robinson/dataset_enfermedad_optimizado.csv') 

In [25]:
# Mostrar las primeras filas del conjunto de datos 
print("Primeras filas del conjunto de datos:") 
print(df.head()) 

Primeras filas del conjunto de datos:
   Edad  Presion_Arterial  Colesterol  Tiene_Enfermedad
0    58               176         270                 0
1    71               172         239                 0
2    48               165         282                 1
3    34               118         297                 0
4    62               106         227                 1


In [26]:
# Verificar si hay valores nulos en el conjunto de datos 
print("\nValores nulos en el conjunto de datos:") 
print(df.isnull().sum()) 


Valores nulos en el conjunto de datos:
Edad                0
Presion_Arterial    0
Colesterol          0
Tiene_Enfermedad    0
dtype: int64


In [27]:
# Limpieza de datos: eliminar filas con valores nulos (si existen) 
df = df.dropna()

In [30]:
# Dividir los datos en conjuntos de entrenamiento y prueba
X = df.drop('Tiene_Enfermedad', axis=1)
y = df['Tiene_Enfermedad']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [31]:
# Crear el modelo de regresión logística 
model = LogisticRegression() 

In [34]:
# Entrenar el modelo 
model.fit(X_train, y_train) 

In [35]:
# Hacer predicciones en el conjunto de prueba 
y_pred = model.predict(X_test) 

In [36]:
# Evaluar el modelo 
accuracy = accuracy_score(y_test, y_pred) 
precision = precision_score(y_test, y_pred) 
recall = recall_score(y_test, y_pred) 
f1 = f1_score(y_test, y_pred) 
conf_matrix = confusion_matrix(y_test, y_pred) 

In [37]:
print(f'\nAccuracy: {accuracy}') 
print(f'Precision: {precision}') 
print(f'Recall: {recall}') 
print(f'F1 Score: {f1}') 


Accuracy: 0.503
Precision: 0.49230769230769234
Recall: 0.7579814624098867
F1 Score: 0.5969180859691808
