# REGRESI√ìN LOG√çSTICA PARA REVISI√ìN DE SCORES

About Dataset
üß† Conjunto de Datos de Clasificaci√≥n de Estilo de Vida y Salud
Este conjunto de datos contiene informaci√≥n detallada sobre el estilo de vida y datos biom√©tricos de 100,000 personas. El objetivo es predecir la probabilidad de tener una enfermedad en funci√≥n de los h√°bitos, m√©tricas de salud, datos demogr√°ficos e indicadores psicol√≥gicos.

üì¶ Resumen del Conjunto de Datos

Filas: 100,000 individuos

Columnas: 40 caracter√≠sticas + 1 objetivo

Variable Objetivo: target ‚Üí Clasificaci√≥n binaria:

saludable

con enfermedad

Desbalanceado: ~70% saludable, ~30% con enfermedad

Tipos de Datos: Num√©ricos, categ√≥ricos, ordinales

üéØ Definici√≥n de la Variable Objetivo
La columna objetivo indica si una persona ha sido diagnosticada con una determinada enfermedad o no. La clasificaci√≥n se basa en indicadores m√©dicos y de estilo de vida derivados del perfil del individuo.

## REGRESI√ìN LOG√çSTICA APLICADA LUEGO DE APLICAR IMPUTACI√ìN A TRAV√âS DE LA MEDIA

In [None]:
# üì¶ Cargar librer√≠as
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.impute import SimpleImputer

# üé® Estilo visual
sns.set(style="darkgrid")

# üìÅ Cargar datos
df = pd.read_csv("C:\Machine_Learning\jbook_ml2025\docs\datos\health_lifestyle_classification.csv")  # Reemplaza con tu archivo

# ‚úÖ Separar variables num√©ricas y categ√≥ricas
num_cols = [
    'age', 'bmi', 'blood_pressure', 'cholesterol', 'heart_rate',
    'glucose', 'insulin', 'calorie_intake', 'sugar_intake',
    'screen_time', 'stress_level', 'mental_health_score'
]

cat_cols = [
    'gender', 'marital_status', 'diet_type', 'occupation',
    'sleep_quality', 'mental_health_support', 'exercise_type',
    'device_usage', 'healthcare_access', 'insurance',
    'family_history', 'sunlight_exposure'
]

# ‚úÖ Filtra columnas categ√≥ricas que s√≠ existen
cat_cols = [col for col in cat_cols if col in df.columns]

# üîß Imputar valores nulos
num_imputer = SimpleImputer(strategy='mean')
df[num_cols] = num_imputer.fit_transform(df[num_cols])

cat_imputer = SimpleImputer(strategy='most_frequent')
df[cat_cols] = cat_imputer.fit_transform(df[cat_cols])

# üßπ Verifica valores faltantes
print("\nüîç Valores nulos:")
print(df.isnull().sum())

# ‚úÖ Separar variables num√©ricas y categ√≥ricas
num_cols = [
    'age', 'bmi', 'blood_pressure', 'cholesterol', 'heart_rate',
    'glucose', 'insulin', 'calorie_intake', 'sugar_intake',
    'screen_time', 'stress_level', 'mental_health_score'
]

cat_cols = [
    'gender', 'marital_status', 'diet_type', 'occupation',
    'sleep_quality', 'mental_health_support', 'exercise_type',
    'device_usage', 'healthcare_access', 'insurance',
    'family_history', 'sunlight_exposure'
]

# üîß Rellenar o eliminar valores nulos
#df = df.dropna()  # Simple para empezar
# üîß Rellenar o eliminar valores nulos

# ‚ö†Ô∏è Ajustar lista de columnas categ√≥ricas seg√∫n las que quedan en el DataFrame
# ‚ö†Ô∏è Ajustar lista de columnas categ√≥ricas seg√∫n las que quedan en el DataFrame
# ‚ö†Ô∏è Ajustar lista de columnas categ√≥ricas seg√∫n las que quedan en el DataFrame
cat_cols = [col for col in cat_cols if col in df.columns]

# A√±ade las columnas tipo objeto que faltan
extra_cat_cols = ['alcohol_consumption', 'smoking_level', 'education_level', 'job_type', 'caffeine_intake', 'pet_owner']
cat_cols += [col for col in extra_cat_cols if col in df.columns and col not in cat_cols]


# üî¢ One-hot encoding para categ√≥ricas
df_encoded = pd.get_dummies(df, columns=cat_cols, drop_first=True)

# üìä Matriz de correlaci√≥n
# üìä Matriz de correlaci√≥n (solo columnas num√©ricas)
plt.figure(figsize=(18, 12))
corr = df_encoded.select_dtypes(include=[np.number]).corr()
sns.heatmap(corr, cmap='coolwarm', center=0, annot=False, linewidths=0.5)
plt.title("üîó Matriz de Correlaci√≥n entre Variables")
plt.tight_layout()
plt.show()

# üéØ Variable objetivo
y = df_encoded["target"]
X = df_encoded.drop("target", axis=1)

# Verifica columnas con nulos despu√©s de la imputaci√≥n
null_cols = X.columns[X.isnull().any()].tolist()
print("Columnas con nulos en X:", null_cols)
print("Total de nulos por columna:\n", X.isnull().sum())

# Imputaci√≥n final para asegurar que no haya NaN en X
final_imputer = SimpleImputer(strategy='mean')
X = pd.DataFrame(final_imputer.fit_transform(X), columns=X.columns)

# üîç Escalar variables
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# üß† Divisi√≥n train/test
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42, stratify=y
)


# üìà Modelo con regularizaci√≥n m√°s fuerte
model = LogisticRegression(max_iter=1000, class_weight='balanced', C=0.5)
model.fit(X_train, y_train)

# üìä Predicci√≥n y evaluaci√≥n
y_pred = model.predict(X_test)

print("\n‚úÖ Accuracy:", accuracy_score(y_test, y_pred))
print("\nüìã Reporte de Clasificaci√≥n:")
print(classification_report(y_test, y_pred))

# üîç Matriz de Confusi√≥n
plt.figure(figsize=(6, 4))
sns.heatmap(confusion_matrix(y_test, y_pred), annot=True, fmt='d', cmap='Purples')
plt.xlabel("Predicci√≥n")
plt.ylabel("Real")
plt.title("üî¨ Matriz de Confusi√≥n")
plt.tight_layout()
plt.show()

## REGRESI√ìN LOG√çSTICA APLICADA LUEGO DE IMPUTACI√ìN POR KNN

### Aplicamos balanceo con SMOTE (Synthetic Minority Over-sampling Technique) e imputaci√≥n con KNN

In [None]:
!pip install imbalanced-learn

In [None]:

from imblearn.over_sampling import SMOTE

In [None]:
# üì¶ Cargar librer√≠as
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.impute import SimpleImputer
from imblearn.over_sampling import SMOTE
from sklearn.metrics import precision_recall_curve, auc


# üé® Estilo visual
sns.set(style="darkgrid")

# üìÅ Cargar datos
df = pd.read_csv("C:\Machine_Learning\jbook_ml2025\docs\datos\health_lifestyle_classification.csv")  # Reemplaza con tu archivo

# ‚úÖ Separar variables num√©ricas y categ√≥ricas
num_cols = [
    'age', 'bmi', 'blood_pressure', 'cholesterol', 'heart_rate',
    'glucose', 'insulin', 'calorie_intake', 'sugar_intake',
    'screen_time', 'stress_level', 'mental_health_score'
]

cat_cols = [
    'gender', 'marital_status', 'diet_type', 'occupation',
    'sleep_quality', 'mental_health_support', 'exercise_type',
    'device_usage', 'healthcare_access', 'insurance',
    'family_history', 'sunlight_exposure'
]

# ‚úÖ Filtra columnas categ√≥ricas que s√≠ existen
cat_cols = [col for col in cat_cols if col in df.columns]

# üîß Imputar valores nulos
num_imputer = SimpleImputer(strategy='mean')
df[num_cols] = num_imputer.fit_transform(df[num_cols])

cat_imputer = SimpleImputer(strategy='most_frequent')
df[cat_cols] = cat_imputer.fit_transform(df[cat_cols])

# üßπ Verifica valores faltantes
print("\nüîç Valores nulos:")
print(df.isnull().sum())

# ‚úÖ Separar variables num√©ricas y categ√≥ricas
num_cols = [
    'age', 'bmi', 'blood_pressure', 'cholesterol', 'heart_rate',
    'glucose', 'insulin', 'calorie_intake', 'sugar_intake',
    'screen_time', 'stress_level', 'mental_health_score'
]

cat_cols = [
    'gender', 'marital_status', 'diet_type', 'occupation',
    'sleep_quality', 'mental_health_support', 'exercise_type',
    'device_usage', 'healthcare_access', 'insurance',
    'family_history', 'sunlight_exposure'
]

# üîß Rellenar o eliminar valores nulos
#df = df.dropna()  # Simple para empezar
# üîß Rellenar o eliminar valores nulos

# ‚ö†Ô∏è Ajustar lista de columnas categ√≥ricas seg√∫n las que quedan en el DataFrame
# ‚ö†Ô∏è Ajustar lista de columnas categ√≥ricas seg√∫n las que quedan en el DataFrame
# ‚ö†Ô∏è Ajustar lista de columnas categ√≥ricas seg√∫n las que quedan en el DataFrame
cat_cols = [col for col in cat_cols if col in df.columns]

# A√±ade las columnas tipo objeto que faltan
extra_cat_cols = ['alcohol_consumption', 'smoking_level', 'education_level', 'job_type', 'caffeine_intake', 'pet_owner']
cat_cols += [col for col in extra_cat_cols if col in df.columns and col not in cat_cols]


# üî¢ One-hot encoding para categ√≥ricas
df_encoded = pd.get_dummies(df, columns=cat_cols, drop_first=True)

# üìä Matriz de correlaci√≥n
# üìä Matriz de correlaci√≥n (solo columnas num√©ricas)
plt.figure(figsize=(18, 12))
corr = df_encoded.select_dtypes(include=[np.number]).corr()
sns.heatmap(corr, cmap='coolwarm', center=0, annot=False, linewidths=0.5)
plt.title("üîó Matriz de Correlaci√≥n entre Variables")
plt.tight_layout()
plt.show()

# üéØ Variable objetivo
y = df_encoded["target"]
X = df_encoded.drop("target", axis=1)

# Verifica columnas con nulos despu√©s de la imputaci√≥n
null_cols = X.columns[X.isnull().any()].tolist()
print("Columnas con nulos en X:", null_cols)
print("Total de nulos por columna:\n", X.isnull().sum())

from sklearn.impute import KNNImputer

# Imputaci√≥n por KNN
knn_imputer = KNNImputer(n_neighbors=5)
X = pd.DataFrame(knn_imputer.fit_transform(X), columns=X.columns)

# üîç Escalar variables
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# üß† Divisi√≥n train/test
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42, stratify=y
)



# ‚öñÔ∏è Balanceo de clases en el set de entrenamiento
smote = SMOTE(random_state=42)
X_train_bal, y_train_bal = smote.fit_resample(X_train, y_train)

# üìà Modelo con regularizaci√≥n m√°s fuerte
model = LogisticRegression(max_iter=1000, class_weight='balanced', C=0.5)
model.fit(X_train_bal, y_train_bal)

# üìä Predicci√≥n y evaluaci√≥n
y_pred = model.predict(X_test)

print("\n‚úÖ Accuracy:", accuracy_score(y_test, y_pred))
print("\nüìã Reporte de Clasificaci√≥n:")
print(classification_report(y_test, y_pred))

# üìà Modelo con regularizaci√≥n m√°s fuerte
model = LogisticRegression(max_iter=1000, class_weight='balanced', C=0.5)
model.fit(X_train, y_train)

# üìä Predicci√≥n y evaluaci√≥n
y_pred = model.predict(X_test)

print("\n‚úÖ Accuracy:", accuracy_score(y_test, y_pred))
print("\nüìã Reporte de Clasificaci√≥n:")
print(classification_report(y_test, y_pred))

# üîç Matriz de Confusi√≥n
plt.figure(figsize=(6, 4))
sns.heatmap(confusion_matrix(y_test, y_pred), annot=True, fmt='d', cmap='Purples')
plt.xlabel("Predicci√≥n")
plt.ylabel("Real")
plt.title("üî¨ Matriz de Confusi√≥n")
plt.tight_layout()
plt.show()

## An√°lisis

Con base en los resultados, el Accuracy del modelo de regresi√≥n al aplicar imputaci√≥n por la media es infimamente menor al Accuracy al aplicar la imputaci√≥n por KNN. Debido a esto, considerando el elevado costo computacional de KNN y su m√≠nima diferencia, podemos concluir que el m√©todo m√°s adecuado para un modelo de regresi√≥n log√≠stica como el aplicado es la imputaci√≥n por la media. 

**1. Accuracy bajo (~0.50)**
El modelo apenas supera el azar. Esto indica que no est√° logrando distinguir bien entre "healthy" y "diseased", probablemente por el desbalance de clases y/o falta de informaci√≥n relevante.

**2. Precision y Recall desbalanceados**
Para la clase diseased:
Precision baja (0.30): Muchas predicciones positivas son incorrectas.
Recall moderado (0.48): El modelo detecta menos de la mitad de los casos reales.
Para la clase healthy:
Precision aceptable (0.70): La mayor√≠a de los positivos predichos son correctos.
Recall bajo (0.52): El modelo no detecta todos los casos reales.

**3. F1-score bajo en ambas clases**
El F1-score, que balancea precision y recall, es bajo para ambas clases, lo que indica que el modelo no logra un buen equilibrio entre ambos.

**4. Macro y Weighted Average cercanos a 0.5**
Esto confirma que el modelo no est√° aprendiendo patrones √∫tiles y que el desbalance de clases afecta negativamente el desempe√±o.

## Conclusi√≥n Final

1. Ni la imputaci√≥n por KNN ni el balanceo con SMOTE han logrado mejorar significativamente el desempe√±o del modelo.
2. El modelo sigue teniendo dificultades para identificar correctamente la clase minoritaria ("diseased"). Es necesario probar otros enfoques: mejorar la selecci√≥n de variables, probar otros algoritmos, ajustar hiperpar√°metros o revisar la calidad de los datos.
