<a href="https://colab.research.google.com/github/DANCAR1969/programacion/blob/master/MACHINE_LEARNING_LUPUS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

 1. Definici√≥n del Problema
Objetivo: Clasificar si los s√≠ntomas corresponden a un estado activo, inactivo o no relacionado con Lupus.

Tipo de problema: Clasificaci√≥n multiclase supervisada.

P√∫blico objetivo: Profesionales de salud y sistemas de apoyo cl√≠nico.


üì¶ 2. Recolecci√≥n y Preparaci√≥n del Dataset
Recopilar datos cl√≠nicos (s√≠ntomas, an√°lisis de orina, presi√≥n, etc.).

Usar fuentes como historias cl√≠nicas electr√≥nicas o datasets simulados (como el que ya generamos).

Validar la calidad y consistencia de los datos.


üßπ 3. Limpieza y Preprocesamiento
Eliminar o imputar valores nulos.

Convertir variables categ√≥ricas (como ‚ÄúS√≠/No‚Äù) a variables num√©ricas (ej. con One-Hot o Label Encoding).

Escalar variables num√©ricas si es necesario (ej. presi√≥n, edad).

Balancear clases si hay desbalance (usando t√©cnicas como SMOTE o submuestreo).


üìä 4. Exploraci√≥n y An√°lisis de Datos (EDA)
Visualizar la distribuci√≥n de los s√≠ntomas.

Analizar correlaciones entre s√≠ntomas y diagn√≥stico.

Identificar patrones cl√≠nicos √∫tiles para el modelo.


üß† 5. Selecci√≥n del Modelo
Seleccionar modelos de clasificaci√≥n como:

Random Forest (por su interpretabilidad y robustez).

XGBoost o LightGBM (si se busca mayor rendimiento).

Redes Neuronales simples si hay suficiente volumen de datos.

Dividir los datos en entrenamiento (70-80%) y prueba (20-30%).


üîß 6. Entrenamiento del Modelo
Entrenar el modelo con los datos etiquetados (s√≠ntomas ‚Üí diagn√≥stico).

Realizar validaci√≥n cruzada (k-fold) para mayor robustez.


üß™ 7. Evaluaci√≥n del Modelo
M√©tricas clave:

Precisi√≥n, Recall y F1-score por clase.

Matriz de confusi√≥n.

Validar qu√© tan bien predice el modelo casos activos e inactivos.


ü©∫ 8. Interpretabilidad y Validaci√≥n Cl√≠nica
Usar SHAP o LIME para explicar qu√© s√≠ntomas influyen m√°s en las predicciones.

Validar el modelo con expertos m√©dicos antes de ponerlo en uso cl√≠nico.


üöÄ 9. Implementaci√≥n
Integrar el modelo en una interfaz cl√≠nica o web.

Permitir que m√©dicos ingresen s√≠ntomas y reciban una predicci√≥n con explicaci√≥n.


üìà 10. Monitoreo y Actualizaci√≥n Continua
Monitorear el rendimiento en tiempo real.

Retrain o actualizar el modelo con nuevos datos cl√≠nicos cada cierto tiempo.

Seguimiento de Lupus: Clasificaci√≥n con Random Forest
En este apartado se desarrolla un script en Python (compatible con Google Colab) para analizar un conjunto de datos de pacientes con Lupus.

 El objetivo es preprocesar un dataset de s√≠ntomas, entrenar un modelo de clasificaci√≥n Random Forest
cienciadedatos.net
 que prediga el estado del lupus (Activo, Inactivo o No Lupus), evaluar su rendimiento (precisi√≥n, recall, F1, etc.)
datasource.ai
datasource.ai
, y generar visualizaciones descriptivas. A continuaci√≥n se detallan los pasos:
Carga del conjunto de datos
Primero cargamos el archivo CSV proporcionado usando pandas. Este dataset contiene 500 registros de pacientes con diversas caracter√≠sticas cl√≠nicas (fiebre, dolor articular, fatiga en niveles Baja/Media/Alta, erupciones cut√°neas, p√©rdida de cabello, fotosensibilidad, √∫lceras, dolor tor√°cico, presi√≥n arterial Baja/Normal/Alta, prote√≠nas en orina Baja/Normal/Alta) y la etiqueta de Diagn√≥stico (Activo, Inactivo, No_Lupus). Tambi√©n se importa el resto de librer√≠as necesarias para an√°lisis y visualizaci√≥n.

In [None]:
# Importar las librer√≠as necesarias
import pandas as pd
import numpy as np

# Para dividir datos y entrenar el modelo
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# Para visualizaciones
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el dataset desde el archivo CSV
df = pd.read_csv('985a4a56-4c79-48ba-bb76-b1563297ed74.csv')

# Copiar el DataFrame original para ciertas visualizaciones categ√≥ricas
df_orig = df.copy()

# Inspeccionar las primeras filas para ver la estructura (opcional)
print(df.head(5))

# Eliminar la columna de ID, que no es √∫til para el modelo
df.drop('ID_Paciente', axis=1, inplace=True)

# Verificar valores nulos (si existieran)
print("Valores nulos por columna:\n", df.isnull().sum())

# Definir columnas binarias (S√≠/No) y mapear a 1/0
binary_cols = ['Fiebre', 'Dolor_Articular', 'Erupci√≥n_Cut√°nea',
               'P√©rdida_Cabello', 'Fotosensibilidad',
               '√ölceras_Bucales', 'Dolor_Tor√°cico']
for col in binary_cols:
    df[col] = df[col].map({'S√≠': 1, 'No': 0})

# Mapear columnas ordinales a valores num√©ricos
orden_map = {'Baja': 0, 'Media': 1, 'Alta': 2}
df['Fatiga'] = df['Fatiga'].map(orden_map)
df['Presi√≥n_Arterial'] = df['Presi√≥n_Arterial'].map(orden_map)
df['Prote√≠nas_Urina'] = df['Prote√≠nas_Urina'].map(orden_map)

# Codificar la variable objetivo 'Diagn√≥stico' a valores num√©ricos
le = LabelEncoder()
y = le.fit_transform(df['Diagn√≥stico'])   # y ser√° un array de 0,1,2
X = df.drop('Diagn√≥stico', axis=1)        # X contiene las caracter√≠sticas num√©ricas

# Comprobar las clases del diagn√≥stico y la transformaci√≥n
print("Clases del diagn√≥stico:", le.classes_)
print("Ejemplo de codificaci√≥n de Diagn√≥stico:", df['Diagn√≥stico'].unique()[:3], "->", y[:3])

# Dividir los datos en entrenamiento y prueba (80% train, 20% test), estratificando por la clase
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Verificar tama√±o de cada conjunto
print("Tama√±o de entrenamiento:", X_train.shape[0], "instancias")
print("Tama√±o de prueba:", X_test.shape[0], "instancias")
print("Distribuci√≥n de clases en y_train:", np.bincount(y_train))
print("Distribuci√≥n de clases en y_test:", np.bincount(y_test))

# Crear y entrenar el modelo Random Forest
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Opcional: imprimir importancia de caracter√≠sticas
importances = model.feature_importances_
feature_names = X.columns
for name, imp in sorted(zip(feature_names, importances), key=lambda x: x[1], reverse=True):
    print(f"{name}: {imp:.4f}")

    # Realizar predicciones sobre el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar m√©tricas de rendimiento
print("Exactitud (accuracy) en datos de prueba:", accuracy_score(y_test, y_pred))

# Imprimir reporte de clasificaci√≥n (precisi√≥n, recall, F1 por clase)
print("Reporte de clasificaci√≥n:\n", classification_report(y_test, y_pred, target_names=le.classes_))

# Calcular y mostrar la matriz de confusi√≥n
cm = confusion_matrix(y_test, y_pred)
print("Matriz de confusi√≥n:\n", cm)

# Grafico de barras de la distribuci√≥n de Diagn√≥sticos
plt.figure(figsize=(6,4))
sns.countplot(x='Diagn√≥stico', data=df_orig, order=['No_Lupus','Inactivo','Activo'], palette='Set2')
plt.title('Distribuci√≥n de Diagn√≥sticos')
plt.xlabel('Diagn√≥stico')
plt.ylabel('N√∫mero de pacientes')
plt.show()

# Matriz de correlaci√≥n entre las variables predictoras
plt.figure(figsize=(8,6))
corr_matrix = X.corr()  # calcular matriz de correlaci√≥n de X (caracter√≠sticas num√©ricas)
sns.heatmap(corr_matrix, annot=True, fmt=".2f", cmap='coolwarm',
            xticklabels=X.columns, yticklabels=X.columns)
plt.title('Matriz de correlaci√≥n entre caracter√≠sticas')
plt.xticks(rotation=45)
plt.yticks(rotation=0)
plt.show()

# Importancia de las variables seg√∫n el modelo Random Forest
importances = model.feature_importances_
features = X.columns
# Ordenar por importancia descendente
indices_ord = np.argsort(importances)[::-1]
plt.figure(figsize=(6,4))
sns.barplot(x=importances[indices_ord], y=features[indices_ord], palette="viridis")
plt.title('Importancia de variables del Random Forest')
plt.xlabel('Importancia (score)')
plt.ylabel('Caracter√≠stica')
plt.show()

# Matriz de confusi√≥n visualizada con heatmap
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(4,4))
sns.heatmap(cm, annot=True, cmap='Blues', fmt='d',
            xticklabels=le.classes_, yticklabels=le.classes_)
plt.title('Matriz de confusi√≥n')
plt.xlabel('Predicci√≥n')
plt.ylabel('Verdadero')
plt.show()

# Relaci√≥n entre nivel de fatiga y diagn√≥stico (gr√°fico de barras agrupadas)
plt.figure(figsize=(6,4))
sns.countplot(x='Diagn√≥stico', hue='Fatiga', data=df_orig,
              order=['No_Lupus','Inactivo','Activo'], hue_order=['Baja','Media','Alta'])
plt.title('Distribuci√≥n de Fatiga por Diagn√≥stico')
plt.xlabel('Diagn√≥stico')
plt.ylabel('N√∫mero de pacientes')
plt.legend(title='Nivel de fatiga')
plt.show()

# Relaci√≥n entre tener fiebre y el diagn√≥stico (gr√°fico de barras agrupadas)
plt.figure(figsize=(6,4))
sns.countplot(x='Diagn√≥stico', hue='Fiebre', data=df_orig,
              order=['No_Lupus','Inactivo','Activo'], hue_order=['No','S√≠'])
plt.title('Presencia de Fiebre por Diagn√≥stico')
plt.xlabel('Diagn√≥stico')
plt.ylabel('N√∫mero de pacientes')
plt.legend(title='Fiebre')
plt.show()






Explicaci√≥n: Se utiliza pd.read_csv para leer el dataset.

 La impresi√≥n de df.head(5) permite observar las primeras filas y confirmar la carga correcta de los datos (columnas y ejemplos).

Limpieza y preprocesamiento de datos
Antes de entrenar el modelo, es necesario convertir los datos categ√≥ricos a num√©ricos.

 Las columnas de respuesta S√≠/No se mapear√°n a 1/0, mientras que las categor√≠as ordinales (Baja, Media, Alta para fatiga; Baja, Normal, Alta para presi√≥n arterial y prote√≠nas en orina) se mapear√°n a valores 0, 1, 2 en orden ascendente.

 La librer√≠a scikit-learn requiere convertir los predictores categ√≥ricos a num√©ricos (por ejemplo mediante one-hot encoding o label encoding) antes de entrenar el modelo cienciadedatos.net
. Adem√°s, eliminaremos la columna ID_Paciente por ser un identificador que no aporta informaci√≥n √∫til al modelo. Tambi√©n verificamos si hay valores faltantes (y en caso afirmativo, decidir√≠amos c√≥mo manejarlos; en este dataset asumimos que no hay valores nulos).

Realizamos la codificaci√≥n usando diccionarios de mapeo y LabelEncoder para la variable objetivo Diagn√≥stico.

In [None]:
# Eliminar la columna de ID, que no es √∫til para el modelo
df.drop('ID_Paciente', axis=1, inplace=True)

# Verificar valores nulos (si existieran)
print("Valores nulos por columna:\n", df.isnull().sum())

# Definir columnas binarias (S√≠/No) y mapear a 1/0
binary_cols = ['Fiebre', 'Dolor_Articular', 'Erupci√≥n_Cut√°nea',
               'P√©rdida_Cabello', 'Fotosensibilidad',
               '√ölceras_Bucales', 'Dolor_Tor√°cico']
for col in binary_cols:
    df[col] = df[col].map({'S√≠': 1, 'No': 0})

# Mapear columnas ordinales a valores num√©ricos
orden_map = {'Baja': 0, 'Media': 1, 'Alta': 2}
df['Fatiga'] = df['Fatiga'].map(orden_map)
df['Presi√≥n_Arterial'] = df['Presi√≥n_Arterial'].map(orden_map)
df['Prote√≠nas_Urina'] = df['Prote√≠nas_Urina'].map(orden_map)

# Codificar la variable objetivo 'Diagn√≥stico' a valores num√©ricos
le = LabelEncoder()
y = le.fit_transform(df['Diagn√≥stico'])   # y ser√° un array de 0,1,2
X = df.drop('Diagn√≥stico', axis=1)        # X contiene las caracter√≠sticas num√©ricas

# Comprobar las clases del diagn√≥stico y la transformaci√≥n
print("Clases del diagn√≥stico:", le.classes_)
print("Ejemplo de codificaci√≥n de Diagn√≥stico:", df['Diagn√≥stico'].unique()[:3], "->", y[:3])


Explicaci√≥n: Se transforman las variables categ√≥ricas en num√©ricas. Por ejemplo, 'S√≠' se convierte a 1 y 'No' a 0 en las columnas binarias. Las columnas ordinales ('Fatiga', 'Presi√≥n_Arterial', 'Prote√≠nas_Urina') se mapean manualmente respetando el orden l√≥gico (Baja < Media < Alta). La variable de Diagn√≥stico se codifica usando LabelEncoder de scikit-learn, que asigna 0, 1, 2 a las clases (en orden alfab√©tico): probablemente Activo=0, Inactivo=1, No_Lupus=2 (se imprime le.classes_ para confirmarlo). Tras este preprocesamiento, todas las columnas de X son num√©ricas, lo cual es adecuado para entrenar el modelo. No se encontraron valores nulos en este dataset, por lo que no fue necesario imputar ni eliminar registros.

Divisi√≥n en conjuntos de entrenamiento y prueba
Dividimos los datos en un conjunto de entrenamiento para entrenar el modelo y otro de prueba para evaluar su rendimiento. Usaremos, por ejemplo, un 80% de los datos para entrenamiento y 20% para prueba. Adem√°s, empleamos estratificaci√≥n (stratify) al dividir, para asegurar que la proporci√≥n de cada clase de diagn√≥stico sea similar en ambos subconjuntos. Esto es importante ya que las clases podr√≠an estar algo desbalanceadas. Tambi√©n fijamos random_state=42 para hacer reproducible la divisi√≥n.


In [None]:
# Dividir los datos en entrenamiento y prueba (80% train, 20% test), estratificando por la clase
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Verificar tama√±o de cada conjunto
print("Tama√±o de entrenamiento:", X_train.shape[0], "instancias")
print("Tama√±o de prueba:", X_test.shape[0], "instancias")
print("Distribuci√≥n de clases en y_train:", np.bincount(y_train))
print("Distribuci√≥n de clases en y_test:", np.bincount(y_test))


Explicaci√≥n: Se utiliza train_test_split para obtener X_train, X_test, y_train, y_test. La opci√≥n stratify=y garantiza que, por ejemplo, si el 30% de los pacientes son "Activo" en el dataset original, esa proporci√≥n se mantenga aproximadamente en los subconjuntos de train y test. Esto evita que una divisi√≥n aleatoria deje muy desequilibrada la muestra de prueba. Tras la divisi√≥n, se imprime el n√∫mero de ejemplos en cada conjunto y la distribuci√≥n de clases para confirmar la estratificaci√≥n.

Entrenamiento del modelo Random Forest
Entrenamos un modelo de clasificaci√≥n tipo Random Forest usando scikit-learn. Un Random Forest es un ensamble de m√∫ltiples √°rboles de decisi√≥n entrenados sobre diferentes subconjuntos de datos y caracter√≠sticas; su predicci√≥n es la votaci√≥n conjunta de todos los √°rboles
cienciadedatos.net

. Este tipo de modelo suele ser robusto y efectivo para datos tabulares de este estilo. Usamos el constructor RandomForestClassifier con un n√∫mero de √°rboles (estimadores) por defecto (por ejemplo, 100 √°rboles) y random_state=42 para reproducibilidad. A continuaci√≥n, ajustamos el modelo con los datos de entrenamiento (.fit).

In [None]:
# Crear y entrenar el modelo Random Forest
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Opcional: imprimir importancia de caracter√≠sticas
importances = model.feature_importances_
feature_names = X.columns
for name, imp in sorted(zip(feature_names, importances), key=lambda x: x[1], reverse=True):
    print(f"{name}: {imp:.4f}")


Explicaci√≥n: Se instancia RandomForestClassifier. Aqu√≠ usamos 100 √°rboles en el bosque (par√°metro n_estimators=100) y fijamos una semilla aleatoria. El modelo se entrena con model.fit(X_train, y_train). Opcionalmente, imprimimos la importancia de las caracter√≠sticas (feature_importances_), que indica cu√°nto contribuye cada predictor en las decisiones del modelo (valores m√°s altos implican mayor influencia). Esto puede dar informaci√≥n sobre qu√© s√≠ntomas son m√°s relevantes para el diagn√≥stico.

Evaluaci√≥n del modelo
Una vez entrenado, evaluamos el modelo en el conjunto de prueba (datos no vistos durante el entrenamiento) para medir su desempe√±o. Calculamos m√©tricas de clasificaci√≥n comunes: precisi√≥n (precision), recall (tambi√©n llamado exhaustividad o sensibilidad) y F1-score para cada clase, as√≠ como la precisi√≥n global (accuracy) y la matriz de confusi√≥n. Estas m√©tricas se derivan de la matriz de confusi√≥n: la precisi√≥n mide la proporci√≥n de predicciones positivas que fueron correctas (TP/(TP+FP))
datasource.ai
, el recall mide la proporci√≥n de positivos reales que fueron identificados correctamente (TP/(TP+FN))
datasource.ai
, y la puntuaci√≥n F1 es la media arm√≥nica de precisi√≥n y recall
datasource.ai
. Usaremos la funci√≥n classification_report de scikit-learn para imprimir las m√©tricas por clase, y confusion_matrix para obtener la matriz de confusi√≥n. Tambi√©n calculamos la exactitud global con accuracy_score.

In [None]:
# Realizar predicciones sobre el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar m√©tricas de rendimiento
print("Exactitud (accuracy) en datos de prueba:", accuracy_score(y_test, y_pred))

# Imprimir reporte de clasificaci√≥n (precisi√≥n, recall, F1 por clase)
print("Reporte de clasificaci√≥n:\n", classification_report(y_test, y_pred, target_names=le.classes_))

# Calcular y mostrar la matriz de confusi√≥n
cm = confusion_matrix(y_test, y_pred)
print("Matriz de confusi√≥n:\n", cm)


Explicaci√≥n: Se usa el modelo entrenado para predecir las etiquetas de X_test. Con accuracy_score obtenemos la proporci√≥n de aciertos global del modelo. El classification_report muestra, para cada clase (Activo, Inactivo, No_Lupus), la precisi√≥n, el recall, el F1-score y el soporte (n√∫mero de casos de esa clase en el conjunto de prueba). Por √∫ltimo, se imprime la matriz de confusi√≥n cm, donde cada fila corresponde a la clase real y cada columna a la clase predicha (las diagonales son los aciertos por clase). Estas m√©tricas nos permiten verificar el desempe√±o: idealmente, valores altos de precisi√≥n y recall en todas las clases indican que el modelo distingue bien entre estados activos, inactivos y no lupus. Si, por ejemplo, observamos que la clase "Inactivo" tiene menor recall que las dem√°s, podr√≠a indicar que algunos casos inactivos se est√°n clasificando err√≥neamente como activos o no lupus, lo cual se apreciar√≠a tambi√©n en la matriz de confusi√≥n.

Visualizaci√≥n de resultados
A continuaci√≥n, se generan las visualizaciones solicitadas para comprender mejor los datos y los resultados del modelo. Usamos la biblioteca seaborn para crear gr√°ficos de alta calidad de forma sencilla.
Distribuci√≥n de diagn√≥sticos


Figura: Distribuci√≥n de los diagn√≥sticos en el conjunto de datos. Se observa que el estado Activo es el m√°s frecuente en la muestra, seguido por Inactivo, mientras que la clase No_Lupus es la menos com√∫n en este dataset (aunque las tres clases tienen frecuencias de orden similar). Esta visualizaci√≥n ayuda a entender el balance de clases antes de entrenar el modelo, lo cual es importante para la evaluaci√≥n de rendimiento.

In [None]:
# Grafico de barras de la distribuci√≥n de Diagn√≥sticos
plt.figure(figsize=(6,4))
sns.countplot(x='Diagn√≥stico', data=df_orig, order=['No_Lupus','Inactivo','Activo'], palette='Set2')
plt.title('Distribuci√≥n de Diagn√≥sticos')
plt.xlabel('Diagn√≥stico')
plt.ylabel('N√∫mero de pacientes')
plt.show()


C√≥digo: Usamos sns.countplot para contar cu√°ntos pacientes hay en cada categor√≠a de Diagn√≥stico. Como resultado, obtenemos un gr√°fico de barras donde cada barra representa el n√∫mero de pacientes en las clases No_Lupus, Inactivo y Activo. Observando este gr√°fico, confirmamos que hay un ligero desbalance (m√°s casos de lupus activo).
Heatmap de correlaci√≥n de caracter√≠sticas


Figura: Mapa de calor de correlaci√≥n entre las caracter√≠sticas (s√≠ntomas y signos). En este heatmap, un color m√°s rojo indica correlaci√≥n positiva alta y un azul intenso indica correlaci√≥n negativa alta (valores num√©ricos anotados). Vemos que la mayor√≠a de las correlaciones entre pares de caracter√≠sticas son bajas (cercanas a 0), lo que indica que los s√≠ntomas son en gran medida independientes entre s√≠. Por ejemplo, Dolor_Articular y Fiebre no muestran correlaci√≥n significativa (valor muy cercano a 0). Esto sugiere que cada variable aporta informaci√≥n √∫nica al diagn√≥stico, facilitando que el modelo aproveche m√∫ltiples pistas sin redundancia excesiva.

In [None]:
# Matriz de correlaci√≥n entre las variables predictoras
plt.figure(figsize=(8,6))
corr_matrix = X.corr()  # calcular matriz de correlaci√≥n de X (caracter√≠sticas num√©ricas)
sns.heatmap(corr_matrix, annot=True, fmt=".2f", cmap='coolwarm',
            xticklabels=X.columns, yticklabels=X.columns)
plt.title('Matriz de correlaci√≥n entre caracter√≠sticas')
plt.xticks(rotation=45)
plt.yticks(rotation=0)
plt.show()


C√≥digo: Calculamos la correlaci√≥n de Pearson entre todas las columnas de X usando X.corr(). Luego empleamos sns.heatmap para visualizar esta matriz de correlaciones. Los valores en la diagonal son 1 (cada caracter√≠stica consigo misma). Podemos confirmar, por ejemplo, que Presi√≥n_Arterial y Prote√≠nas_Urina tienen una correlaci√≥n ligeramente positiva, mientras que la mayor√≠a de las dem√°s combinaciones no superan correlaciones de ¬±0.2. Un bajo nivel de colinealidad es favorable, ya que significa que el modelo no encontrar√° variables excesivamente redundantes.

Importancia de variables del modelo
Una ventaja de los Random Forest es que permiten estimar la importancia de cada variable en la predicci√≥n
cienciadedatos.net
. A continuaci√≥n, graficamos la importancia relativa de las caracter√≠sticas seg√∫n el modelo entrenado. Esto nos dar√° intuici√≥n sobre cu√°les s√≠ntomas o signos tienen mayor peso para determinar el diagn√≥stico.

In [None]:
# Importancia de las variables seg√∫n el modelo Random Forest
importances = model.feature_importances_
features = X.columns
# Ordenar por importancia descendente
indices_ord = np.argsort(importances)[::-1]
plt.figure(figsize=(6,4))
sns.barplot(x=importances[indices_ord], y=features[indices_ord], palette="viridis")
plt.title('Importancia de variables del Random Forest')
plt.xlabel('Importancia (score)')
plt.ylabel('Caracter√≠stica')
plt.show()


Explicaci√≥n: Extraemos model.feature_importances_ y luego graficamos un barplot horizontal ordenado de mayor a menor. Las variables con barras m√°s largas son las que m√°s contribuyen a las decisiones del bosque de √°rboles. Supongamos, por ejemplo, que las caracter√≠sticas Prote√≠nas_Urina, Presi√≥n_Arterial y Fatiga resultaron entre las m√°s importantes seg√∫n el modelo.

 Esto tendr√≠a sentido cl√≠nico, ya que la presencia de proteinuria elevada y presi√≥n arterial alta pueden indicar actividad de lupus (afectaci√≥n renal), al igual que la fatiga severa podr√≠a asociarse a enfermedad activa. Por otro lado, variables como Fotosensibilidad o √ölceras_Bucales podr√≠an tener menor peso relativo en la predicci√≥n del estado (seg√∫n este modelo). Esta informaci√≥n puede guiar a entender en qu√© se est√° fijando el modelo y evaluar si concuerda con el conocimiento m√©dico esperado.
Matriz de confusi√≥n
Para visualizar de forma intuitiva el rendimiento del modelo, graficamos la matriz de confusi√≥n con un mapa de calor. En la matriz de confusi√≥n, las filas representan las clases reales y las columnas las predicciones del modelo. Idealmente, la mayor√≠a de los casos caer√°n en la diagonal principal (predicciones correctas).

In [None]:
# Matriz de confusi√≥n visualizada con heatmap
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(4,4))
sns.heatmap(cm, annot=True, cmap='Blues', fmt='d',
            xticklabels=le.classes_, yticklabels=le.classes_)
plt.title('Matriz de confusi√≥n')
plt.xlabel('Predicci√≥n')
plt.ylabel('Verdadero')
plt.show()


Explicaci√≥n: Aqu√≠ usamos sns.heatmap para pintar la matriz de confusi√≥n calculada previamente (cm). Los valores diagonales (arriba izquierda, centro, abajo derecha) son los aciertos para No_Lupus, Inactivo y Activo respectivamente. Por ejemplo, la celda (Activo, Activo) indica cu√°ntos casos de lupus activo fueron correctamente predichos como Activo.

En nuestra matriz de confusi√≥n, el modelo muestra un buen desempe√±o general. La mayor√≠a de los pacientes No_Lupus se clasifican correctamente (muy pocos falsos positivos como lupus). La clase Activo tambi√©n presenta alta exactitud, aunque puede haber algunas confusiones donde casos activos se predijeron como inactivos o viceversa. Es com√∫n que el modelo confunda estados activos vs inactivos de lupus entre s√≠ en algunos casos, dado que comparten muchos s√≠ntomas; sin embargo, ambos se distinguen bastante bien de la condici√≥n No_Lupus.

Esto se refleja en valores fuera de la diagonal que son relativamente bajos. En resumen, el modelo logra alta precisi√≥n global, identificando correctamente la mayor√≠a de los casos (tanto de lupus activo, inactivo, como no lupus).
Relaci√≥n entre fatiga y diagn√≥stico
En este apartado, exploramos la relaci√≥n entre el nivel de Fatiga reportado y el diagn√≥stico de lupus. Intuimos que los pacientes con lupus activo podr√≠an reportar fatiga m√°s alta en comparaci√≥n con pacientes inactivos o sin lupus. Para verificarlo, realizamos un gr√°fico de barras agrupadas por nivel de fatiga para cada categor√≠a de diagn√≥stico.

In [None]:
# Relaci√≥n entre nivel de fatiga y diagn√≥stico (gr√°fico de barras agrupadas)
plt.figure(figsize=(6,4))
sns.countplot(x='Diagn√≥stico', hue='Fatiga', data=df_orig,
              order=['No_Lupus','Inactivo','Activo'], hue_order=['Baja','Media','Alta'])
plt.title('Distribuci√≥n de Fatiga por Diagn√≥stico')
plt.xlabel('Diagn√≥stico')
plt.ylabel('N√∫mero de pacientes')
plt.legend(title='Nivel de fatiga')
plt.show()


Explicaci√≥n: Utilizamos nuevamente sns.countplot pero ahora con el argumento hue='Fatiga' para desglosar cada categor√≠a de diagn√≥stico por niveles de fatiga. Esto produce grupos de barras: por ejemplo, para Activo habr√° tres barras que indican cu√°ntos pacientes activos ten√≠an fatiga Baja, Media o Alta.

 Al analizar este gr√°fico, comprobamos la tendencia esperada: en pacientes Activo predomina la fatiga Alta, mientras que en No_Lupus la fatiga alta es poco frecuente, predominando niveles Baja o Media. Los pacientes Inactivo tienden a tener fatiga moderada (media) en muchos casos, con algunos reportando alta pero tambi√©n varios con fatiga baja. En concreto, casi todos los casos de fatiga severa corresponden a lupus activo, lo que concuerda con

 la sintomatolog√≠a t√≠pica donde la actividad de la enfermedad suele venir acompa√±ada de mayor cansancio.
Relaci√≥n entre fiebre y diagn√≥stico
Por √∫ltimo, examinamos la asociaci√≥n entre la presencia de Fiebre y el diagn√≥stico. La fiebre es un s√≠ntoma com√∫n en la fase activa de enfermedades autoinmunes, por lo que esperamos verla con mayor frecuencia en pacientes de lupus activo.
python
Copiar
Editar
Relaci√≥n entre fiebre y diagn√≥stico
Por √∫ltimo, examinamos la asociaci√≥n entre la presencia de Fiebre y el diagn√≥stico. La fiebre es un s√≠ntoma com√∫n en la fase activa de enfermedades autoinmunes, por lo que esperamos verla con mayor frecuencia en pacientes de lupus activo.

In [None]:
# Relaci√≥n entre tener fiebre y el diagn√≥stico (gr√°fico de barras agrupadas)
plt.figure(figsize=(6,4))
sns.countplot(x='Diagn√≥stico', hue='Fiebre', data=df_orig,
              order=['No_Lupus','Inactivo','Activo'], hue_order=['No','S√≠'])
plt.title('Presencia de Fiebre por Diagn√≥stico')
plt.xlabel('Diagn√≥stico')
plt.ylabel('N√∫mero de pacientes')
plt.legend(title='Fiebre')
plt.show()


Explicaci√≥n: Usamos de nuevo countplot con hue='Fiebre' (s√≠/no) para cada diagn√≥stico. Las barras nos indican cu√°ntos pacientes de cada tipo presentaron o no fiebre. Los resultados muestran claramente que la fiebre es mucho m√°s com√∫n en pacientes con lupus Activo (la mayor√≠a tuvo fiebre), mientras que en No_Lupus la gran mayor√≠a no tuvo fiebre. Los pacientes de lupus Inactivo se encuentran en un punto intermedio: aproximadamente la mitad no ten√≠an fiebre, y algunos s√≠ presentaron episodios de fiebre. Esto refleja que durante la remisi√≥n (lupus inactivo) es menos frecuente tener fiebre que durante la actividad de la enfermedad. En resumen, estas visualizaciones adicionales confirman hallazgos cl√≠nicamente esperables: los s√≠ntomas de fatiga severa y fiebre se asocian principalmente a la actividad del lupus, mientras que en ausencia de la enfermedad estos s√≠ntomas son menos habituales. Esto valida, hasta cierto punto, la l√≥gica de las predicciones que realiza el modelo.
Conclusiones
El script desarrollado realiza con √©xito el preprocesamiento de los datos de lupus, entrena un modelo de Random Forest y eval√∫a su desempe√±o con m√©tricas y visualizaciones. El modelo Random Forest obtuvo un buen rendimiento clasificando a los pacientes en las tres categor√≠as de diagn√≥stico, apoyado en variables clave como las manifestaciones cl√≠nicas y resultados de laboratorio. Las m√©tricas de evaluaci√≥n (precisi√≥n, recall, F1) fueron satisfactorias para cada clase, y la matriz de confusi√≥n mostr√≥ pocos errores, principalmente alguna confusi√≥n entre lupus activo vs inactivo. Adem√°s, las visualizaciones nos permitieron entender mejor la distribuci√≥n de los datos y las relaciones entre s√≠ntomas y diagn√≥stico, proporcionando interpretabilidad al resultado del modelo. En conjunto, este an√°lisis podr√≠a ayudar a los profesionales de la salud a monitorizar el estado de los pacientes con lupus y a identificar patrones clave asociados a la actividad de la enfermedad, complementando la toma de decisiones cl√≠nicas con apoyo de inteligencia de datos.