In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, roc_curve, roc_auc_score
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
# Crear un conjunto de datos de ejemplo con 10,000 registros
np.random.seed(42)  # Para reproducibilidad

data = {
    'Edad': np.random.randint(20, 80, size=10000),
    'Presion_Arterial': np.random.randint(100, 180, size=10000),
    'Colesterol': np.random.randint(150, 300, size=10000),
    'Tiene_Enfermedad': np.random.randint(0, 2, size=10000)
}


In [4]:
# Crear un DataFrame
df = pd.DataFrame(data)

In [6]:
# Guardar el DataFrame en un archivo CSV
df.to_csv('C:/Users/Usuario/Desktop/Analisis_Robinson/dataset_enfermedad_optimizado.csv', index=False)

print("El archivo dataset_enfermedad.csv ha sido creado exitosamente.")

El archivo dataset_enfermedad.csv ha sido creado exitosamente.


In [9]:
# Cargar el conjunto de datos
df = pd.read_csv('C:/Users/Usuario/Desktop/Analisis_Robinson/dataset_enfermedad_optimizado.csv')

In [11]:
# Mostrar las primeras filas del conjunto de datos
print("Primeras filas del conjunto de datos:")
print(df.head())


Primeras filas del conjunto de datos:
   Edad  Presion_Arterial  Colesterol  Tiene_Enfermedad
0    58               176         270                 0
1    71               172         239                 0
2    48               165         282                 1
3    34               118         297                 1
4    62               106         227                 0


In [12]:
# Verificar si hay valores nulos en el conjunto de datos
print("\nValores nulos en el conjunto de datos:")
print(df.isnull().sum())



Valores nulos en el conjunto de datos:
Edad                0
Presion_Arterial    0
Colesterol          0
Tiene_Enfermedad    0
dtype: int64


In [13]:
# Limpieza de datos: eliminar filas con valores nulos (si existen)
df = df.dropna()


In [15]:
# Separar las características (X) y la variable objetivo (y)
X = df.drop('Tiene_Enfermedad', axis=1)
y = df['Tiene_Enfermedad']

In [17]:
# Escalar las características
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [18]:
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

In [19]:
# Crear el modelo de regresión logística
model = LogisticRegression()

In [20]:
# Entrenar el modelo
model.fit(X_train, y_train)

In [22]:
# Hacer predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

In [24]:
# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)

In [25]:
print(f'\nAccuracy: {accuracy}')
print(f'Precision: {precision}')
print(f'Recall: {recall}')
print(f'F1 Score: {f1}')
print(f'Matriz de Confusión:\n{conf_matrix}')


Accuracy: 0.5035
Precision: 0.45482866043613707
Recall: 0.15145228215767634
F1 Score: 0.2272373540856031
Matriz de Confusión:
[[861 175]
 [818 146]]
