In [None]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder

from google.colab import files
uploaded = files.upload()

Saving Dataset_Enfermedades.csv to Dataset_Enfermedades.csv


In [None]:
# 1. Cargar el dataset de enfermedades
df = pd.read_csv('Dataset_Enfermedades.csv')
df.columns = df.columns.str.strip()  # Eliminar espacios en los nombres de columnas

# 2. Preparar variables para el modelo
risk_cols = ['hombre', 'mujer', 'obesidad', 'sobrepeso', 'peso normal', 'desnutricion']
symptom_cols = [col for col in df.columns if col not in ['nombre de la enfermedad', 'breve descripci√≥n', 'tratamiento'] + risk_cols]

#  **NUEVO: Filtrar enfermedades seg√∫n los s√≠ntomas iniciales del usuario**
sintomas_usuario = input("Ingrese los s√≠ntomas que tiene (separados por comas): ").lower().strip()
sintomas_usuario = [s.strip() for s in sintomas_usuario.split(",")]

# Verificar si los s√≠ntomas ingresados existen en el dataset
sintomas_validos = [s for s in sintomas_usuario if s in symptom_cols]

df_filtrado = df.copy()  # Copia del dataset original

if sintomas_validos:
    # Mantener enfermedades que coincidan con AL MENOS el 50% de los s√≠ntomas ingresados
    df_filtrado['suma_sintomas'] = df_filtrado[sintomas_validos].sum(axis=1)
    df_filtrado = df_filtrado[df_filtrado['suma_sintomas'] >= (len(sintomas_validos) / 2)]


    # Si el filtro es muy estricto y quedan pocas enfermedades, ampliar el criterio
    if len(df_filtrado) < 3:
        print(" Pocas coincidencias. Se ampliar√° la b√∫squeda.")
        df_filtrado = df[df[sintomas_validos].sum(axis=1) > 0]

    df_filtrado = df_filtrado.drop(columns=['suma_sintomas'])

    print(f" Se han identificado {len(df_filtrado)} enfermedades relacionadas con sus s√≠ntomas.")
else:
    print(" No se encontraron s√≠ntomas v√°lidos. Se usar√° el dataset completo.")

# 3. Codificar la variable objetivo
le = LabelEncoder()
df['enfermedad_cod'] = le.fit_transform(df['nombre de la enfermedad'])

# 4. Crear variables de entrada (X) y salida (y)
X = df_filtrado[symptom_cols + risk_cols]  # Solo enfermedades filtradas
y = le.fit_transform(df_filtrado['nombre de la enfermedad'])  # Solo enfermedades filtradas


#  **NUEVO: Normalizar datos para evitar sesgo en factores de riesgo**
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 5. Entrenar el modelo de Random Forest con datos normalizados
clf = RandomForestClassifier(n_estimators=100, criterion='entropy', random_state=42)
clf.fit(X_scaled, y)


# 6. Solicitar factores de riesgo al usuario
edad = int(input("Ingrese su edad: "))
genero = input("Ingrese su g√©nero (M/F): ").strip().upper()
peso = float(input("Ingrese su peso en kilogramos: "))
altura = float(input("Ingrese su altura en metros: "))

# 7. Calcular IMC
imc = peso / (altura ** 2)
categoria_imc = ('desnutricion' if imc < 18.5 else 'peso normal' if imc < 25 else 'sobrepeso' if imc < 30 else 'obesidad')
print(f"\nSu IMC es {imc:.2f}, lo que corresponde a '{categoria_imc}'.\n")

# 8. Inicializar respuestas del usuario
user_answers = {symptom: 0 for symptom in symptom_cols}
user_answers.update({risk: 0 for risk in risk_cols})

# 9. Asignar g√©nero e IMC
user_answers['hombre' if genero == 'M' else 'mujer'] = 1
user_answers[categoria_imc] = 1

#  **NUEVO: Seleccionar s√≠ntomas m√°s comunes dentro del dataset filtrado**
sintomas_comunes = df_filtrado[symptom_cols].sum().sort_values(ascending=False).index.tolist()

# Limitar preguntas a los s√≠ntomas m√°s frecuentes en las enfermedades filtradas
num_preguntas = min(40, max(20, len(sintomas_comunes)))  # Entre 20 y 40 preguntas
top_symptoms = sintomas_comunes[:num_preguntas]

# 11. Preguntar al usuario sobre los s√≠ntomas m√°s relevantes
print("\nPor favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):\n")
questions_asked = 0
for symptom in top_symptoms:
    if questions_asked >= 20:  # Aumentamos la cantidad de preguntas para mayor precisi√≥n
        break
    resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    while resp not in ["s", "n", "si", "no"]:
        resp = input(f"Por favor responda con 's' o 'n'. ¬øPresenta '{symptom}'? ").strip().lower()
    user_answers[symptom] = 1 if resp in ["s", "si"] else 0
    questions_asked += 1

# 12. Generar el vector de entrada para el modelo
user_vector = [user_answers[feat] for feat in X.columns]

# 13. Obtener probabilidades de enfermedades con el modelo
user_vector_scaled = scaler.transform([user_vector])  # Normalizar antes de predecir
probs = clf.predict_proba(user_vector_scaled)[0]
top3_idx = np.argsort(probs)[-3:][::-1]

# 14. Mostrar los resultados finales
print("\n*** Diagn√≥stico Final ***")
for rank, idx in enumerate(top3_idx, start=1):
    disease_code = clf.classes_[idx]
    disease = le.inverse_transform([disease_code])[0]
    prob_percent = probs[idx] * 100
    desc = df.loc[df['nombre de la enfermedad'] == disease, 'breve descripci√≥n'].values[0]
    treat = df.loc[df['nombre de la enfermedad'] == disease, 'tratamiento'].values[0]
    print(f"\n{rank}. **{disease}** ‚Äì Probabilidad: {prob_percent:.1f}%")
    print(f"   *Descripci√≥n:* {desc}")
    print(f"   *Tratamiento:* {treat}\n")

Ingrese los s√≠ntomas que tiene (separados por comas): erupci√≥n cut√°nea, dolor de cabeza, dolor detr√°s de los ojos, dolor muscular
üîé Se han identificado 3 enfermedades relacionadas con sus s√≠ntomas.
Ingrese su edad: 20
Ingrese su g√©nero (M/F): m
Ingrese su peso en kilogramos: 70
Ingrese su altura en metros: 1.73

Su IMC es 23.39, lo que corresponde a 'peso normal'.


Por favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):

¬øPresenta 'escalofr√≠os'? (s/n): n
¬øPresenta 'dolor de cabeza'? (s/n): s
¬øPresenta 'dolor muscular'? (s/n): s
¬øPresenta 'fatiga'? (s/n): s
¬øPresenta 'fiebre alta'? (s/n): s
¬øPresenta 'tos'? (s/n): n
¬øPresenta 'dolor de garganta'? (s/n): n
¬øPresenta 'dolor de cabeza intenso'? (s/n): s
¬øPresenta 'p√©rdida del olfato y gusto'? (s/n): s
¬øPresenta 'dolor muscular y en articulaciones'? (s/n): s
¬øPresenta 'dificultad respiratoria'? (s/n): s
¬øPresenta 'erupci√≥n cut√°nea'? (s/n): s
¬øPresenta 'n√°useas'? (s/n): s
¬øPresenta 'fiebre'? (s/n): 



In [None]:
import pandas as pd
import numpy as np
import difflib
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, StandardScaler

# Cargar el dataset
file_path = "Dataset_Enfermedades.csv"
df = pd.read_csv(file_path)
df.columns = df.columns.str.strip()  # Eliminar espacios en los nombres de columnas

# Definir columnas clave
risk_cols = ['hombre', 'mujer', 'obesidad', 'sobrepeso', 'peso normal', 'desnutricion']
symptom_cols = [col for col in df.columns if col not in ['nombre de la enfermedad', 'breve descripci√≥n', 'tratamiento'] + risk_cols]

# Solicitar s√≠ntomas al usuario
sintomas_usuario = input("Ingrese los s√≠ntomas que tiene (separados por comas): ").lower().strip()
sintomas_usuario = [s.strip() for s in sintomas_usuario.split(",")]

# Mejor coincidencia de s√≠ntomas
def encontrar_sintomas_validos(sintomas_usuario, symptom_cols):
    sintomas_validos = []
    for s in sintomas_usuario:
        match = difflib.get_close_matches(s, symptom_cols, n=1, cutoff=0.8)
        if match:
            sintomas_validos.append(match[0])  # Usa el s√≠ntoma m√°s cercano encontrado
    return sintomas_validos

sintomas_validos = encontrar_sintomas_validos(sintomas_usuario, symptom_cols)

# Filtrar enfermedades
if sintomas_validos:
    df['match_score'] = df[sintomas_validos].sum(axis=1) / df[symptom_cols].sum(axis=1)
    df_filtrado = df[df['match_score'] >= 0.5].drop(columns=['match_score'])
    if len(df_filtrado) < 3:
        df_filtrado = df[df[sintomas_validos].sum(axis=1) > 0]
        df_filtrado = df_filtrado.copy()
else:
    df_filtrado = df.copy()

print(f" Se han identificado {len(df_filtrado)} enfermedades relacionadas con sus s√≠ntomas.")

# Codificar la variable objetivo
le = LabelEncoder()
df_filtrado['enfermedad_cod'] = le.fit_transform(df_filtrado['nombre de la enfermedad'])

# Variables de entrada y salida
X = df_filtrado[symptom_cols + risk_cols]
y = df_filtrado['enfermedad_cod']

# Normalizar datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Entrenar modelo Random Forest con max_depth
clf = RandomForestClassifier(n_estimators=100, criterion='entropy', max_depth=10, random_state=42)
clf.fit(X_scaled, y)

# Solicitar datos del usuario con validaci√≥n
def solicitar_numero(mensaje, tipo=float):
    while True:
        try:
            return tipo(input(mensaje))
        except ValueError:
            print("Entrada inv√°lida. Int√©ntelo de nuevo.")

edad = solicitar_numero("Ingrese su edad: ", int)
genero = input("Ingrese su g√©nero (M/F): ").strip().upper()
peso = solicitar_numero("Ingrese su peso en kilogramos: ", float)
altura = solicitar_numero("Ingrese su altura en metros: ", float)

# Calcular IMC
imc = peso / (altura ** 2)
categoria_imc = ('desnutricion' if imc < 18.5 else 'peso normal' if imc < 25 else 'sobrepeso' if imc < 30 else 'obesidad')
print(f"\nSu IMC es {imc:.2f}, lo que corresponde a '{categoria_imc}'.\n")

# Inicializar respuestas del usuario
user_answers = {symptom: 0 for symptom in symptom_cols}
user_answers.update({risk: 0 for risk in risk_cols})
user_answers['hombre' if genero == 'M' else 'mujer'] = 1
user_answers[categoria_imc] = 1

# Seleccionar s√≠ntomas m√°s comunes en el dataset filtrado
sintomas_comunes = df_filtrado[symptom_cols].sum().sort_values(ascending=False).index.tolist()
top_symptoms = sintomas_comunes[:min(40, max(20, len(sintomas_comunes)))]

# Preguntar sobre s√≠ntomas con mejor validaci√≥n
print("\nPor favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):\n")
for symptom in top_symptoms[:20]:
    resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    while resp not in ["s", "n", "si", "no"]:
        print("‚ö†Ô∏è Entrada inv√°lida. Por favor, ingrese 's' para s√≠ o 'n' para no.")
        resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    user_answers[symptom] = 1 if resp in ["s", "si"] else 0

# Crear vector de entrada con nombres de columnas
user_vector_df = pd.DataFrame([user_answers], columns=X.columns)
user_vector_scaled = scaler.transform(user_vector_df)

# Obtener probabilidades de enfermedades
probs = clf.predict_proba(user_vector_scaled)[0]
top3_idx = np.argsort(probs)[-3:][::-1]

# Mostrar resultados
print("\n*** Diagn√≥stico Final ***")
for rank, idx in enumerate(top3_idx, start=1):
    disease_code = clf.classes_[idx]
    disease = le.inverse_transform([disease_code])[0]
    prob_percent = probs[idx] * 100
    desc = df.loc[df['nombre de la enfermedad'] == disease, 'breve descripci√≥n'].values[0]
    treat = df.loc[df['nombre de la enfermedad'] == disease, 'tratamiento'].values[0]
    print(f"\n{rank}. **{disease}** ‚Äì Probabilidad: {prob_percent:.1f}%")
    print(f"   *Descripci√≥n:* {desc}")
    print(f"   *Tratamiento:* {treat}\n")



Ingrese los s√≠ntomas que tiene (separados por comas): dolor de cabeza y tos
 Se han identificado 4 enfermedades relacionadas con sus s√≠ntomas.
Ingrese su edad: 21
Ingrese su g√©nero (M/F): M
Ingrese su peso en kilogramos: 125
Ingrese su altura en metros: 2.50

Su IMC es 20.00, lo que corresponde a 'peso normal'.


Por favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):

¬øPresenta 'fatiga'? (s/n): S
¬øPresenta 'dolor de cabeza'? (s/n): N
¬øPresenta 'escalofr√≠os'? (s/n): N
¬øPresenta 'dolor de garganta'? (s/n): S
¬øPresenta 'dificultad respiratoria'? (s/n): S
¬øPresenta 'congesti√≥n nasal'? (s/n): S
¬øPresenta 'tos seca'? (s/n): S
¬øPresenta 'dolor muscular'? (s/n): N
¬øPresenta 'p√©rdida del olfato y gusto'? (s/n): S
¬øPresenta 'secreci√≥n nasal acuosa'? (s/n): S
¬øPresenta 'estornudos'? (s/n): S
¬øPresenta 'fiebre'? (s/n): S
¬øPresenta 'fiebre alta'? (s/n): S
¬øPresenta 'tos'? (s/n): S
¬øPresenta 'mareos'? (s/n): S
¬øPresenta 'visi√≥n borrosa'? (s/n): S
¬øPresenta 'do

In [None]:
import pandas as pd
import numpy as np
import difflib
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, StandardScaler

# Cargar el dataset
file_path = "Dataset_Enfermedades.csv"
df = pd.read_csv(file_path)
df.columns = df.columns.str.strip()  # Eliminar espacios en los nombres de columnas

# Definir columnas clave
risk_cols = ['hombre', 'mujer', 'obesidad', 'sobrepeso', 'peso normal', 'desnutricion']
symptom_cols = [col for col in df.columns if col not in ['nombre de la enfermedad', 'breve descripci√≥n', 'tratamiento'] + risk_cols]

# Funci√≥n para encontrar coincidencias de s√≠ntomas
def encontrar_sintomas_validos(sintomas_usuario, symptom_cols):
    sintomas_validos = []
    coincidencias = {}
    for s in sintomas_usuario:
        match = difflib.get_close_matches(s, symptom_cols, n=1, cutoff=0.8)
        if match:
            sintomas_validos.append(match[0])  # Usa el s√≠ntoma m√°s cercano encontrado
            coincidencias[s] = match[0]
    return sintomas_validos, coincidencias

# Solicitar s√≠ntomas al usuario
sintomas_usuario = input("Ingrese los s√≠ntomas que tiene (separados por comas): ").lower().strip()
sintomas_usuario = [s.strip() for s in sintomas_usuario.split(",")]

sintomas_validos, coincidencias = encontrar_sintomas_validos(sintomas_usuario, symptom_cols)

# Mostrar coincidencias encontradas
print("\nCoincidencias encontradas:")
for original, match in coincidencias.items():
    print(f"'{original}' coincide con '{match}' en el dataset.")

# Filtrar enfermedades SOLO con los s√≠ntomas ingresados
if sintomas_validos:
    df_filtrado = df[df[sintomas_validos].sum(axis=1) > 0].copy()
else:
    df_filtrado = df.copy()

print(f" Se han identificado {len(df_filtrado)} enfermedades relacionadas con sus s√≠ntomas.")

# Codificar la variable objetivo
le = LabelEncoder()
df_filtrado['enfermedad_cod'] = le.fit_transform(df_filtrado['nombre de la enfermedad'])

# Variables de entrada y salida
X = df_filtrado[symptom_cols + risk_cols]
y = df_filtrado['enfermedad_cod']

# Normalizar datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Entrenar modelo Random Forest con max_depth
clf = RandomForestClassifier(n_estimators=100, criterion='entropy', max_depth=10, random_state=42)
clf.fit(X_scaled, y)

# Solicitar datos del usuario con validaci√≥n
def solicitar_numero(mensaje, tipo=float):
    while True:
        try:
            return tipo(input(mensaje))
        except ValueError:
            print("Entrada inv√°lida. Int√©ntelo de nuevo.")

edad = solicitar_numero("Ingrese su edad: ", int)
genero = input("Ingrese su g√©nero (M/F): ").strip().upper()
peso = solicitar_numero("Ingrese su peso en kilogramos: ", float)
altura = solicitar_numero("Ingrese su altura en metros: ", float)

# Calcular IMC
imc = peso / (altura ** 2)
categoria_imc = ('desnutricion' if imc < 18.5 else 'peso normal' if imc < 25 else 'sobrepeso' if imc < 30 else 'obesidad')
print(f"\nSu IMC es {imc:.2f}, lo que corresponde a '{categoria_imc}'.\n")

# Inicializar respuestas del usuario
user_answers = {symptom: 0 for symptom in symptom_cols}
user_answers.update({risk: 0 for risk in risk_cols})
user_answers['hombre' if genero == 'M' else 'mujer'] = 1
user_answers[categoria_imc] = 1

# Seleccionar s√≠ntomas m√°s comunes en el dataset filtrado
sintomas_comunes = df_filtrado[symptom_cols].sum().sort_values(ascending=False).index.tolist()
top_symptoms = sintomas_comunes[:min(40, max(20, len(sintomas_comunes)))]

# Preguntar sobre s√≠ntomas con mejor validaci√≥n
print("\nPor favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):\n")
for symptom in top_symptoms[:20]:
    resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    while resp not in ["s", "n", "si", "no"]:
        print("‚ö†Ô∏è Entrada inv√°lida. Por favor, ingrese 's' para s√≠ o 'n' para no.")
        resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    user_answers[symptom] = 1 if resp in ["s", "si"] else 0

# Crear vector de entrada con nombres de columnas
user_vector_df = pd.DataFrame([user_answers], columns=X.columns)
user_vector_scaled = scaler.transform(user_vector_df)

# Obtener probabilidades de enfermedades
probs = clf.predict_proba(user_vector_scaled)[0]
top3_idx = np.argsort(probs)[-3:][::-1]

# Mostrar resultados
print("\n*** Diagn√≥stico Final ***")
for rank, idx in enumerate(top3_idx, start=1):
    disease_code = clf.classes_[idx]
    disease = le.inverse_transform([disease_code])[0]
    prob_percent = probs[idx] * 100
    desc = df.loc[df['nombre de la enfermedad'] == disease, 'breve descripci√≥n'].values[0]
    treat = df.loc[df['nombre de la enfermedad'] == disease, 'tratamiento'].values[0]
    print(f"\n{rank}. **{disease}** ‚Äì Probabilidad: {prob_percent:.1f}%")
    print(f"   *Descripci√≥n:* {desc}")
    print(f"   *Tratamiento:* {treat}\n")


Ingrese los s√≠ntomas que tiene (separados por comas): tos y fiebre

Coincidencias encontradas:
 Se han identificado 100 enfermedades relacionadas con sus s√≠ntomas.
Ingrese su edad: 21
Ingrese su g√©nero (M/F): M
Ingrese su peso en kilogramos: 100
Ingrese su altura en metros: 1.82

Su IMC es 30.19, lo que corresponde a 'obesidad'.


Por favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):

¬øPresenta 'fatiga'? (s/n): s
¬øPresenta 'p√©rdida de peso'? (s/n): n
¬øPresenta 'n√°useas'? (s/n): n
¬øPresenta 'fiebre'? (s/n): s
¬øPresenta 'dificultad respiratoria'? (s/n): n
¬øPresenta 'dolor abdominal'? (s/n): s
¬øPresenta 'visi√≥n borrosa'? (s/n): n
¬øPresenta 'ictericia'? (s/n): n
¬øPresenta 'picaz√≥n'? (s/n): s
¬øPresenta 'hinchaz√≥n'? (s/n): n
¬øPresenta 'dolor en el pecho'? (s/n): n
¬øPresenta 'dificultad para respirar'? (s/n): s
¬øPresenta 'dolor de cabeza'? (s/n): s
¬øPresenta 'fiebre alta'? (s/n): s
¬øPresenta 'sudoraci√≥n'? (s/n): n
¬øPresenta 'enrojecimiento'? (s/n): s
¬

In [None]:
import pandas as pd
import numpy as np
import difflib
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, StandardScaler

# Cargar el dataset
file_path = "Dataset_Enfermedades.csv"
df = pd.read_csv(file_path)
df.columns = df.columns.str.strip()  # Eliminar espacios en los nombres de columnas

# Definir columnas clave
risk_cols = ['hombre', 'mujer', 'obesidad', 'sobrepeso', 'peso normal', 'desnutricion']
symptom_cols = [col for col in df.columns if col not in ['nombre de la enfermedad', 'breve descripci√≥n', 'tratamiento'] + risk_cols]

# Funci√≥n para encontrar coincidencias de s√≠ntomas
def encontrar_sintomas_validos(sintomas_usuario, symptom_cols):
    sintomas_validos = []
    coincidencias = {}
    for s in sintomas_usuario:
        match = difflib.get_close_matches(s, symptom_cols, n=1, cutoff=0.8)
        if match:
            sintomas_validos.append(match[0])  # Usa el s√≠ntoma m√°s cercano encontrado
            coincidencias[s] = match[0]
    return sintomas_validos, coincidencias

# Solicitar s√≠ntomas al usuario
sintomas_usuario = input("Ingrese los s√≠ntomas que tiene (separados por comas): ").lower().strip()
sintomas_usuario = [s.strip() for s in sintomas_usuario.split(",")]

sintomas_validos, coincidencias = encontrar_sintomas_validos(sintomas_usuario, symptom_cols)

# Mostrar coincidencias encontradas
print("\nCoincidencias encontradas:")
for original, match in coincidencias.items():
    print(f"'{original}' coincide con '{match}' en el dataset.")

# Filtrar enfermedades que contengan TODOS los s√≠ntomas ingresados
if sintomas_validos:
    df_filtrado = df.copy()
    for sintoma in sintomas_validos:
        df_filtrado = df_filtrado[df_filtrado[sintoma] == 1]
else:
    df_filtrado = df.copy()

print(f"\nS√≠ntomas utilizados para filtrar enfermedades: {sintomas_validos}")
print(f"Se han identificado {len(df_filtrado)} enfermedades relacionadas con sus s√≠ntomas.")

# Codificar la variable objetivo
le = LabelEncoder()
df_filtrado['enfermedad_cod'] = le.fit_transform(df_filtrado['nombre de la enfermedad'])

# Variables de entrada y salida
X = df_filtrado[symptom_cols + risk_cols]
y = df_filtrado['enfermedad_cod']

# Normalizar datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Entrenar modelo Random Forest con max_depth
clf = RandomForestClassifier(n_estimators=100, criterion='entropy', max_depth=10, random_state=42)
clf.fit(X_scaled, y)

# Solicitar datos del usuario con validaci√≥n
def solicitar_numero(mensaje, tipo=float):
    while True:
        try:
            return tipo(input(mensaje))
        except ValueError:
            print("Entrada inv√°lida. Int√©ntelo de nuevo.")

edad = solicitar_numero("Ingrese su edad: ", int)
genero = input("Ingrese su g√©nero (M/F): ").strip().upper()
peso = solicitar_numero("Ingrese su peso en kilogramos: ", float)
altura = solicitar_numero("Ingrese su altura en metros: ", float)

# Calcular IMC
imc = peso / (altura ** 2)
categoria_imc = ('desnutricion' if imc < 18.5 else 'peso normal' if imc < 25 else 'sobrepeso' if imc < 30 else 'obesidad')
print(f"\nSu IMC es {imc:.2f}, lo que corresponde a '{categoria_imc}'.\n")

# Inicializar respuestas del usuario
user_answers = {symptom: 0 for symptom in symptom_cols}
user_answers.update({risk: 0 for risk in risk_cols})
user_answers['hombre' if genero == 'M' else 'mujer'] = 1
user_answers[categoria_imc] = 1

# Seleccionar s√≠ntomas m√°s comunes en el dataset filtrado
sintomas_comunes = df_filtrado[symptom_cols].sum().sort_values(ascending=False).index.tolist()
top_symptoms = sintomas_comunes[:min(40, max(20, len(sintomas_comunes)))]

# Preguntar sobre s√≠ntomas con mejor validaci√≥n
print("\nPor favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):\n")
for symptom in top_symptoms[:20]:
    resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    while resp not in ["s", "n", "si", "no"]:
        print("‚ö†Ô∏è Entrada inv√°lida. Por favor, ingrese 's' para s√≠ o 'n' para no.")
        resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    user_answers[symptom] = 1 if resp in ["s", "si"] else 0

# Crear vector de entrada con nombres de columnas
user_vector_df = pd.DataFrame([user_answers], columns=X.columns)
user_vector_scaled = scaler.transform(user_vector_df)

# Obtener probabilidades de enfermedades
probs = clf.predict_proba(user_vector_scaled)[0]
top3_idx = np.argsort(probs)[-3:][::-1]

# Mostrar resultados
print("\n*** Diagn√≥stico Final ***")
for rank, idx in enumerate(top3_idx, start=1):
    disease_code = clf.classes_[idx]
    disease = le.inverse_transform([disease_code])[0]
    prob_percent = probs[idx] * 100
    desc = df.loc[df['nombre de la enfermedad'] == disease, 'breve descripci√≥n'].values[0]
    treat = df.loc[df['nombre de la enfermedad'] == disease, 'tratamiento'].values[0]
    print(f"\n{rank}. **{disease}** ‚Äì Probabilidad: {prob_percent:.1f}%")
    print(f"   *Descripci√≥n:* {desc}")
    print(f"   *Tratamiento:* {treat}\n")


Ingrese los s√≠ntomas que tiene (separados por comas): tos,dolor de cabeza,fiebre

Coincidencias encontradas:
'tos' coincide con 'tos' en el dataset.
'dolor de cabeza' coincide con 'dolor de cabeza' en el dataset.
'fiebre' coincide con 'fiebre' en el dataset.

S√≠ntomas utilizados para filtrar enfermedades: ['tos', 'dolor de cabeza', 'fiebre']
Se han identificado 1 enfermedades relacionadas con sus s√≠ntomas.
Ingrese su edad: 21
Ingrese su g√©nero (M/F): M
Ingrese su peso en kilogramos: 1.82
Ingrese su altura en metros: 100

Su IMC es 0.00, lo que corresponde a 'desnutricion'.


Por favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):

¬øPresenta 'dolor de cabeza'? (s/n): s
¬øPresenta 'p√©rdida del olfato y gusto'? (s/n): n
¬øPresenta 'escalofr√≠os'? (s/n): s
¬øPresenta 'fatiga'? (s/n): n
¬øPresenta 'dificultad respiratoria'? (s/n): s
¬øPresenta 'fiebre'? (s/n): s
¬øPresenta 'dolor muscular'? (s/n): n
¬øPresenta 'tos'? (s/n): s
¬øPresenta 'presi√≥n arterial alta'? (s/n): n

In [None]:
import pandas as pd
import numpy as np
import difflib
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, StandardScaler

# Cargar el dataset
file_path = "Dataset_Enfermedades.csv"
df = pd.read_csv(file_path)
df.columns = df.columns.str.strip()  # Eliminar espacios en los nombres de columnas

# Definir columnas clave
risk_cols = ['hombre', 'mujer', 'obesidad', 'sobrepeso', 'peso normal', 'desnutricion']
symptom_cols = [col for col in df.columns if col not in ['nombre de la enfermedad', 'breve descripci√≥n', 'tratamiento'] + risk_cols]

# Funci√≥n para encontrar coincidencias de s√≠ntomas
def encontrar_sintomas_validos(sintomas_usuario, symptom_cols):
    sintomas_validos = []
    coincidencias = {}
    for s in sintomas_usuario:
        match = difflib.get_close_matches(s, symptom_cols, n=1, cutoff=0.8)
        if match:
            sintomas_validos.append(match[0])  # Usa el s√≠ntoma m√°s cercano encontrado
            coincidencias[s] = match[0]
    return sintomas_validos, coincidencias

# Solicitar s√≠ntomas al usuario
sintomas_usuario = input("Ingrese los s√≠ntomas que tiene (separados por comas): ").lower().strip()
sintomas_usuario = [s.strip() for s in sintomas_usuario.split(",")]

sintomas_validos, coincidencias = encontrar_sintomas_validos(sintomas_usuario, symptom_cols)

# Mostrar coincidencias encontradas
print("\nCoincidencias encontradas:")
for original, match in coincidencias.items():
    print(f"'{original}' coincide con '{match}' en el dataset.")

# Filtrar enfermedades que contengan TODOS los s√≠ntomas ingresados
if sintomas_validos:
    df_filtrado = df.copy()
    for sintoma in sintomas_validos:
        df_filtrado = df_filtrado[df_filtrado[sintoma] == 1]
else:
    df_filtrado = df.copy()

print(f"\nS√≠ntomas utilizados para filtrar enfermedades: {sintomas_validos}")
print(f"Se han identificado {len(df_filtrado)} enfermedades relacionadas con sus s√≠ntomas.")

# Codificar la variable objetivo
le = LabelEncoder()
df_filtrado['enfermedad_cod'] = le.fit_transform(df_filtrado['nombre de la enfermedad'])

# Variables de entrada y salida
X = df_filtrado[symptom_cols + risk_cols]
y = df_filtrado['enfermedad_cod']

# Normalizar datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Entrenar modelo Random Forest con max_depth
clf = RandomForestClassifier(n_estimators=100, criterion='entropy', max_depth=10, random_state=42)
clf.fit(X_scaled, y)

# Solicitar datos del usuario con validaci√≥n
def solicitar_numero(mensaje, tipo=float):
    while True:
        try:
            return tipo(input(mensaje))
        except ValueError:
            print("Entrada inv√°lida. Int√©ntelo de nuevo.")

edad = solicitar_numero("Ingrese su edad: ", int)
genero = input("Ingrese su g√©nero (M/F): ").strip().upper()
peso = solicitar_numero("Ingrese su peso en kilogramos: ", float)
altura = solicitar_numero("Ingrese su altura en metros: ", float)

# Calcular IMC
imc = peso / (altura ** 2)
categoria_imc = ('desnutricion' if imc < 18.5 else 'peso normal' if imc < 25 else 'sobrepeso' if imc < 30 else 'obesidad')
print(f"\nSu IMC es {imc:.2f}, lo que corresponde a '{categoria_imc}'.\n")

# Inicializar respuestas del usuario
user_answers = {symptom: 0 for symptom in symptom_cols}
user_answers.update({risk: 0 for risk in risk_cols})
user_answers['hombre' if genero == 'M' else 'mujer'] = 1
user_answers[categoria_imc] = 1

# Seleccionar s√≠ntomas m√°s comunes en el dataset filtrado excluyendo los ya ingresados
sintomas_comunes = df_filtrado[symptom_cols].sum().sort_values(ascending=False).index.tolist()
sintomas_comunes = [s for s in sintomas_comunes if s not in sintomas_validos]
top_symptoms = sintomas_comunes[:min(40, max(20, len(sintomas_comunes)))]

# Preguntar sobre s√≠ntomas con mejor validaci√≥n
print("\nPor favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):\n")
for symptom in top_symptoms[:20]:
    resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    while resp not in ["s", "n", "si", "no"]:
        print("‚ö†Ô∏è Entrada inv√°lida. Por favor, ingrese 's' para s√≠ o 'n' para no.")
        resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    user_answers[symptom] = 1 if resp in ["s", "si"] else 0

# Crear vector de entrada con nombres de columnas
user_vector_df = pd.DataFrame([user_answers], columns=X.columns)
user_vector_scaled = scaler.transform(user_vector_df)

# Obtener probabilidades de enfermedades
probs = clf.predict_proba(user_vector_scaled)[0]
top3_idx = np.argsort(probs)[-3:][::-1]

# Mostrar resultados
print("\n*** Diagn√≥stico Final ***")
for rank, idx in enumerate(top3_idx, start=1):
    disease_code = clf.classes_[idx]
    disease = le.inverse_transform([disease_code])[0]
    prob_percent = probs[idx] * 100
    desc = df.loc[df['nombre de la enfermedad'] == disease, 'breve descripci√≥n'].values[0]
    treat = df.loc[df['nombre de la enfermedad'] == disease, 'tratamiento'].values[0]
    print(f"\n{rank}. **{disease}** ‚Äì Probabilidad: {prob_percent:.1f}%")
    print(f"   *Descripci√≥n:* {desc}")
    print(f"   *Tratamiento:* {treat}\n")


Ingrese los s√≠ntomas que tiene (separados por comas): tos, fiebre

Coincidencias encontradas:
'tos' coincide con 'tos' en el dataset.
'fiebre' coincide con 'fiebre' en el dataset.

S√≠ntomas utilizados para filtrar enfermedades: ['tos', 'fiebre']
Se han identificado 1 enfermedades relacionadas con sus s√≠ntomas.
Ingrese su edad: 21
Ingrese su g√©nero (M/F): M
Ingrese su peso en kilogramos: 1.82
Ingrese su altura en metros: 0.7

Su IMC es 3.71, lo que corresponde a 'desnutricion'.


Por favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):

¬øPresenta 'dolor de cabeza'? (s/n): s
¬øPresenta 'p√©rdida del olfato y gusto'? (s/n): n
¬øPresenta 'escalofr√≠os'? (s/n): n
¬øPresenta 'fatiga'? (s/n): s
¬øPresenta 'dificultad respiratoria'? (s/n): n
¬øPresenta 'dolor muscular'? (s/n): n
¬øPresenta 'presi√≥n arterial alta'? (s/n): s
¬øPresenta 'presi√≥n arterial baja'? (s/n): n
¬øPresenta 'orina con sangre'? (s/n): n
¬øPresenta 'orina oscura'? (s/n): n
¬øPresenta 'orina turbia o con m

In [None]:
import pandas as pd
import numpy as np
import difflib
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, StandardScaler

# Cargar el dataset
file_path = "Dataset_Enfermedades.csv"
df = pd.read_csv(file_path)
df.columns = df.columns.str.strip()  # Eliminar espacios en los nombres de columnas

# Definir columnas clave
risk_cols = ['hombre', 'mujer', 'obesidad', 'sobrepeso', 'peso normal', 'desnutricion']
symptom_cols = [col for col in df.columns if col not in ['nombre de la enfermedad', 'breve descripci√≥n', 'tratamiento'] + risk_cols]

# Funci√≥n para encontrar coincidencias de s√≠ntomas
def encontrar_sintomas_validos(sintomas_usuario, symptom_cols):
    sintomas_validos = []
    coincidencias = {}
    for s in sintomas_usuario:
        match = difflib.get_close_matches(s, symptom_cols, n=1, cutoff=0.8)
        if match:
            sintomas_validos.append(match[0])  # Usa el s√≠ntoma m√°s cercano encontrado
            coincidencias[s] = match[0]
    return sintomas_validos, coincidencias

# Solicitar s√≠ntomas al usuario
sintomas_usuario = input("Ingrese los s√≠ntomas que tiene (separados por comas): ").lower().strip()
sintomas_usuario = [s.strip() for s in sintomas_usuario.split(",")]

sintomas_validos, coincidencias = encontrar_sintomas_validos(sintomas_usuario, symptom_cols)

# Mostrar coincidencias encontradas
print("\nCoincidencias encontradas:")
for original, match in coincidencias.items():
    print(f"'{original}' coincide con '{match}' en el dataset.")

# Filtrar enfermedades que contengan TODOS los s√≠ntomas ingresados
if sintomas_validos:
    df_filtrado = df.copy()
    for sintoma in sintomas_validos:
        df_filtrado = df_filtrado[df_filtrado[sintoma] == 1]
else:
    df_filtrado = df.copy()

print(f"\nS√≠ntomas utilizados para filtrar enfermedades: {sintomas_validos}")
print(f"Se han identificado {len(df_filtrado)} enfermedades relacionadas con sus s√≠ntomas.")

# Codificar la variable objetivo
le = LabelEncoder()
df_filtrado['enfermedad_cod'] = le.fit_transform(df_filtrado['nombre de la enfermedad'])

# Variables de entrada y salida
X = df_filtrado[symptom_cols + risk_cols]
y = df_filtrado['enfermedad_cod']

# Normalizar datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Entrenar modelo Random Forest con max_depth
clf = RandomForestClassifier(n_estimators=100, criterion='entropy', max_depth=10, random_state=42)
clf.fit(X_scaled, y)

# Solicitar datos del usuario con validaci√≥n
def solicitar_numero(mensaje, tipo=float):
    while True:
        try:
            return tipo(input(mensaje))
        except ValueError:
            print("Entrada inv√°lida. Int√©ntelo de nuevo.")

edad = solicitar_numero("Ingrese su edad: ", int)
genero = input("Ingrese su g√©nero (M/F): ").strip().upper()
peso = solicitar_numero("Ingrese su peso en kilogramos: ", float)
altura = solicitar_numero("Ingrese su altura en metros: ", float)

# Calcular IMC
imc = peso / (altura ** 2)
categoria_imc = ('desnutricion' if imc < 18.5 else 'peso normal' if imc < 25 else 'sobrepeso' if imc < 30 else 'obesidad')
print(f"\nSu IMC es {imc:.2f}, lo que corresponde a '{categoria_imc}'.\n")

# Inicializar respuestas del usuario
user_answers = {symptom: 0 for symptom in symptom_cols}
user_answers.update({risk: 0 for risk in risk_cols})
user_answers['hombre' if genero == 'M' else 'mujer'] = 1
user_answers[categoria_imc] = 1

# Seleccionar s√≠ntomas m√°s comunes en el dataset filtrado excluyendo los ya ingresados
sintomas_comunes = df_filtrado[symptom_cols].sum().sort_values(ascending=False).index.tolist()
sintomas_comunes = [s for s in sintomas_comunes if s not in sintomas_validos]
top_symptoms = sintomas_comunes[:min(40, max(20, len(sintomas_comunes)))]

# Preguntar sobre s√≠ntomas con mejor validaci√≥n
print("\nPor favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):\n")
for symptom in top_symptoms[:20]:
    resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    while resp not in ["s", "n", "si", "no"]:
        print("‚ö†Ô∏è Entrada inv√°lida. Por favor, ingrese 's' para s√≠ o 'n' para no.")
        resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    user_answers[symptom] = 1 if resp in ["s", "si"] else 0

    # Verificar si hay una probabilidad mayor al 80% despu√©s de cada respuesta
    user_vector_df = pd.DataFrame([user_answers], columns=X.columns)
    user_vector_scaled = scaler.transform(user_vector_df)
    probs = clf.predict_proba(user_vector_scaled)[0]
    top3_idx = np.argsort(probs)[-3:][::-1]

    if max(probs) >= 0.80:
        break

# Mostrar resultados
print("\n*** Diagn√≥stico Final ***")
for rank, idx in enumerate(top3_idx, start=1):
    disease_code = clf.classes_[idx]
    disease = le.inverse_transform([disease_code])[0]
    prob_percent = probs[idx] * 100
    desc = df.loc[df['nombre de la enfermedad'] == disease, 'breve descripci√≥n'].values[0]
    treat = df.loc[df['nombre de la enfermedad'] == disease, 'tratamiento'].values[0]
    print(f"\n{rank}. **{disease}** ‚Äì Probabilidad: {prob_percent:.1f}%")
    print(f"   *Descripci√≥n:* {desc}")
    print(f"   *Tratamiento:* {treat}\n")


Ingrese los s√≠ntomas que tiene (separados por comas): tos,fiebre

Coincidencias encontradas:
'tos' coincide con 'tos' en el dataset.
'fiebre' coincide con 'fiebre' en el dataset.

S√≠ntomas utilizados para filtrar enfermedades: ['tos', 'fiebre']
Se han identificado 1 enfermedades relacionadas con sus s√≠ntomas.
Ingrese su edad: 21
Ingrese su g√©nero (M/F): M
Ingrese su peso en kilogramos: 100
Ingrese su altura en metros: 1.82

Su IMC es 30.19, lo que corresponde a 'obesidad'.


Por favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):

¬øPresenta 'dolor de cabeza'? (s/n): s

*** Diagn√≥stico Final ***

1. **COVID-19** ‚Äì Probabilidad: 100.0%
   *Descripci√≥n:* Enfermedad viral causada por el coronavirus SARS-CoV-2, que afecta principalmente los pulmones. Puede ser leve o grave.
   *Tratamiento:* Cuidados de soporte, oxigenoterapia en casos graves, antivirales, corticosteroides seg√∫n la severidad.



In [None]:
import pandas as pd
import numpy as np
import difflib
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, StandardScaler

# Cargar el dataset
file_path = "Dataset_Enfermedades.csv"
df = pd.read_csv(file_path)
df.columns = df.columns.str.strip()  # Eliminar espacios en los nombres de columnas

# Definir columnas clave
risk_cols = ['hombre', 'mujer', 'obesidad', 'sobrepeso', 'peso normal', 'desnutricion']
symptom_cols = [col for col in df.columns if col not in ['nombre de la enfermedad', 'breve descripci√≥n', 'tratamiento'] + risk_cols]

# Funci√≥n para encontrar coincidencias de s√≠ntomas
def encontrar_sintomas_validos(sintomas_usuario, symptom_cols):
    sintomas_validos = []
    coincidencias = {}
    for s in sintomas_usuario:
        match = difflib.get_close_matches(s, symptom_cols, n=1, cutoff=0.8)
        if match:
            sintomas_validos.append(match[0])  # Usa el s√≠ntoma m√°s cercano encontrado
            coincidencias[s] = match[0]
    return sintomas_validos, coincidencias

# Solicitar s√≠ntomas al usuario
sintomas_usuario = input("Ingrese los s√≠ntomas que tiene (separados por comas): ").lower().strip()
sintomas_usuario = [s.strip() for s in sintomas_usuario.split(",")]

sintomas_validos, coincidencias = encontrar_sintomas_validos(sintomas_usuario, symptom_cols)

# Mostrar coincidencias encontradas
print("\nCoincidencias encontradas:")
for original, match in coincidencias.items():
    print(f"'{original}' coincide con '{match}' en el dataset.")

# Filtrar enfermedades con al menos 80% de coincidencia con los s√≠ntomas ingresados
if sintomas_validos:
    df['match_score'] = df[sintomas_validos].sum(axis=1) / len(sintomas_validos)
    df_filtrado = df[df['match_score'] >= 0.8].drop(columns=['match_score'])
else:
    df_filtrado = df.copy()

print(f"\nS√≠ntomas utilizados para filtrar enfermedades: {sintomas_validos}")
print(f"Se han identificado {len(df_filtrado)} enfermedades relacionadas con sus s√≠ntomas.")

# Codificar la variable objetivo
le = LabelEncoder()
df_filtrado['enfermedad_cod'] = le.fit_transform(df_filtrado['nombre de la enfermedad'])

# Variables de entrada y salida
X = df_filtrado[symptom_cols + risk_cols]
y = df_filtrado['enfermedad_cod']

# Normalizar datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Ajustar max_depth din√°micamente
max_depth_value = max(1, min(10, len(df_filtrado) // 2))
clf = RandomForestClassifier(n_estimators=100, criterion='entropy', max_depth=max_depth_value, random_state=42)
clf.fit(X_scaled, y)

# Solicitar datos del usuario con validaci√≥n
def solicitar_numero(mensaje, tipo=float):
    while True:
        try:
            return tipo(input(mensaje))
        except ValueError:
            print("Entrada inv√°lida. Int√©ntelo de nuevo.")

edad = solicitar_numero("Ingrese su edad: ", int)
genero = input("Ingrese su g√©nero (M/F): ").strip().upper()
peso = solicitar_numero("Ingrese su peso en kilogramos: ", float)
altura = solicitar_numero("Ingrese su altura en metros: ", float)

# Calcular IMC
imc = peso / (altura ** 2)
categoria_imc = ('desnutricion' if imc < 18.5 else 'peso normal' if imc < 25 else 'sobrepeso' if imc < 30 else 'obesidad')
print(f"\nSu IMC es {imc:.2f}, lo que corresponde a '{categoria_imc}'.\n")

# Inicializar respuestas del usuario
user_answers = {symptom: 0 for symptom in symptom_cols}
user_answers.update({risk: 0 for risk in risk_cols})
user_answers['hombre' if genero == 'M' else 'mujer'] = 1
user_answers[categoria_imc] = 1

# Seleccionar s√≠ntomas m√°s comunes en el dataset filtrado excluyendo los ya ingresados
sintomas_comunes = df_filtrado[symptom_cols].sum().sort_values(ascending=False).index.tolist()
sintomas_comunes = [s for s in sintomas_comunes if s not in sintomas_validos]
top_symptoms = sintomas_comunes[:min(40, max(20, len(sintomas_comunes)))]

# Preguntar sobre s√≠ntomas con mejor validaci√≥n
print("\nPor favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):\n")
for symptom in top_symptoms[:20]:
    resp = input(f"¬øPresenta '{symptom}'? (s/n o 'salir' para terminar): ").strip().lower()
    if resp == "salir":
        print("\n‚èπÔ∏è Diagn√≥stico interrumpido por el usuario. Mostrando predicci√≥n actual...\n")
        break
    while resp not in ["s", "n", "si", "no"]:
        print("‚ö†Ô∏è Entrada inv√°lida. Por favor, ingrese 's' para s√≠, 'n' para no, o 'salir' para terminar.")
        resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    user_answers[symptom] = 1 if resp in ["s", "si"] else 0

    # Verificar si hay una probabilidad mayor al 80% despu√©s de cada respuesta
    user_vector_df = pd.DataFrame([user_answers], columns=X.columns)
    user_vector_scaled = scaler.transform(user_vector_df)
    probs = clf.predict_proba(user_vector_scaled)[0]
    top3_idx = np.argsort(probs)[-3:][::-1]

    # print("\nEstado actual de predicci√≥n:")
    for rank, idx in enumerate(top3_idx, start=1):
        disease_code = clf.classes_[idx]
        disease = le.inverse_transform([disease_code])[0]
        prob_percent = probs[idx] * 100
        # print(f"{rank}. {disease} ‚Äì {prob_percent:.1f}%")

    if max(probs) >= 0.80:
        break

# Mostrar resultados
print("\n*** Diagn√≥stico Final ***")
for rank, idx in enumerate(top3_idx, start=1):
    disease_code = clf.classes_[idx]
    disease = le.inverse_transform([disease_code])[0]
    prob_percent = probs[idx] * 100
    desc = df.loc[df['nombre de la enfermedad'] == disease, 'breve descripci√≥n'].values[0]
    treat = df.loc[df['nombre de la enfermedad'] == disease, 'tratamiento'].values[0]
    print(f"\n{rank}. **{disease}** ‚Äì Probabilidad: {prob_percent:.1f}%")
    print(f"   *Descripci√≥n:* {desc}")
    print(f"   *Tratamiento:* {treat}\n")



Ingrese los s√≠ntomas que tiene (separados por comas): tos

Coincidencias encontradas:
'tos' coincide con 'tos' en el dataset.

S√≠ntomas utilizados para filtrar enfermedades: ['tos']
Se han identificado 3 enfermedades relacionadas con sus s√≠ntomas.
Ingrese su edad: 21
Ingrese su g√©nero (M/F): M
Ingrese su peso en kilogramos: 100
Ingrese su altura en metros: 2

Su IMC es 25.00, lo que corresponde a 'sobrepeso'.


Por favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):

¬øPresenta 'fatiga'? (s/n o 'salir' para terminar): s
¬øPresenta 'dificultad respiratoria'? (s/n o 'salir' para terminar): s
¬øPresenta 'opresi√≥n en el pecho'? (s/n o 'salir' para terminar): n
¬øPresenta 'erupci√≥n cut√°nea'? (s/n o 'salir' para terminar): s
¬øPresenta 'escalofr√≠os'? (s/n o 'salir' para terminar): n
¬øPresenta 'conjuntivitis'? (s/n o 'salir' para terminar): s
¬øPresenta 'sibilancias'? (s/n o 'salir' para terminar): b
‚ö†Ô∏è Entrada inv√°lida. Por favor, ingrese 's' para s√≠, 'n' para no

In [None]:
import pandas as pd
import numpy as np
import difflib
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, StandardScaler

# Cargar el dataset
file_path = "Dataset_Enfermedades.csv"
df = pd.read_csv(file_path)
df.columns = df.columns.str.strip()  # Eliminar espacios en los nombres de columnas

# Definir columnas clave
risk_cols = ['hombre', 'mujer', 'obesidad', 'sobrepeso', 'peso normal', 'desnutricion']
symptom_cols = [col for col in df.columns if col not in ['nombre de la enfermedad', 'breve descripci√≥n', 'tratamiento'] + risk_cols]

# Funci√≥n para encontrar coincidencias de s√≠ntomas
def encontrar_sintomas_validos(sintomas_usuario, symptom_cols):
    sintomas_validos = []
    coincidencias = {}
    for s in sintomas_usuario:
        match = difflib.get_close_matches(s, symptom_cols, n=1, cutoff=0.8)
        if match:
            sintomas_validos.append(match[0])  # Usa el s√≠ntoma m√°s cercano encontrado
            coincidencias[s] = match[0]
    return sintomas_validos, coincidencias

# Solicitar s√≠ntomas al usuario
sintomas_usuario = input("Ingrese los s√≠ntomas que tiene (separados por comas): ").lower().strip()
sintomas_usuario = [s.strip() for s in sintomas_usuario.split(",")]

sintomas_validos, coincidencias = encontrar_sintomas_validos(sintomas_usuario, symptom_cols)

# Mostrar coincidencias encontradas
print("\nCoincidencias encontradas:")
for original, match in coincidencias.items():
    print(f"'{original}' coincide con '{match}' en el dataset.")

# Filtrar enfermedades con al menos 80% de coincidencia con los s√≠ntomas ingresados
if sintomas_validos:
    df['match_score'] = df[sintomas_validos].sum(axis=1) / len(sintomas_validos)
    df_filtrado = df[df['match_score'] >= 0.8].drop(columns=['match_score'])
else:
    df_filtrado = df.copy()

print(f"\nS√≠ntomas utilizados para filtrar enfermedades: {sintomas_validos}")
print(f"Se han identificado {len(df_filtrado)} enfermedades relacionadas con sus s√≠ntomas.")

# Codificar la variable objetivo
le = LabelEncoder()
df_filtrado['enfermedad_cod'] = le.fit_transform(df_filtrado['nombre de la enfermedad'])

# Variables de entrada y salida
X = df_filtrado[symptom_cols + risk_cols]
y = df_filtrado['enfermedad_cod']

# Normalizar datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Ajustar max_depth din√°micamente
max_depth_value = max(1, min(10, len(df_filtrado) // 2))
clf = RandomForestClassifier(n_estimators=100, criterion='entropy', max_depth=max_depth_value, random_state=42)
clf.fit(X_scaled, y)

# Solicitar datos del usuario con validaci√≥n
def solicitar_numero(mensaje, tipo=float):
    while True:
        try:
            return tipo(input(mensaje))
        except ValueError:
            print("Entrada inv√°lida. Int√©ntelo de nuevo.")

edad = solicitar_numero("Ingrese su edad: ", int)
genero = input("Ingrese su g√©nero (M/F): ").strip().upper()
peso = solicitar_numero("Ingrese su peso en kilogramos: ", float)
altura = solicitar_numero("Ingrese su altura en metros: ", float)

# Calcular IMC
imc = peso / (altura ** 2)
categoria_imc = ('desnutricion' if imc < 18.5 else 'peso normal' if imc < 25 else 'sobrepeso' if imc < 30 else 'obesidad')
print(f"\nSu IMC es {imc:.2f}, lo que corresponde a '{categoria_imc}'.\n")

# Inicializar respuestas del usuario
user_answers = {symptom: 0 for symptom in symptom_cols}
user_answers.update({risk: 0 for risk in risk_cols})
user_answers['hombre' if genero == 'M' else 'mujer'] = 1
user_answers[categoria_imc] = 1

# Seleccionar s√≠ntomas m√°s comunes en el dataset filtrado excluyendo los ya ingresados
sintomas_comunes = df_filtrado[symptom_cols].sum().sort_values(ascending=False).index.tolist()
sintomas_comunes = [s for s in sintomas_comunes if s not in sintomas_validos]
top_symptoms = sintomas_comunes[:min(40, max(20, len(sintomas_comunes)))]

# Preguntar sobre s√≠ntomas con mejor validaci√≥n
print("\nPor favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):\n")
for symptom in top_symptoms[:20]:
    resp = input(f"¬øPresenta '{symptom}'? (s/n o 'salir' para terminar): ").strip().lower()
    if resp == "salir":
        print("\n‚èπÔ∏è Diagn√≥stico interrumpido por el usuario. Mostrando predicci√≥n actual...\n")
        break
    while resp not in ["s", "n", "si", "no"]:
        print("‚ö†Ô∏è Entrada inv√°lida. Por favor, ingrese 's' para s√≠, 'n' para no, o 'salir' para terminar.")
        resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    user_answers[symptom] = 1 if resp in ["s", "si"] else 0

    # Verificar si hay una probabilidad mayor al 80% despu√©s de cada respuesta
    user_vector_df = pd.DataFrame([user_answers], columns=X.columns)
    user_vector_scaled = scaler.transform(user_vector_df)
    probs = clf.predict_proba(user_vector_scaled)[0]
    top3_idx = np.argsort(probs)[-3:][::-1]

    if max(probs) >= 0.80:
        break

# Mostrar resultados
print("\n*** Diagn√≥stico Final ***")
for rank, idx in enumerate(top3_idx, start=1):
    disease_code = clf.classes_[idx]
    disease = le.inverse_transform([disease_code])[0]
    prob_percent = probs[idx] * 100
    desc = df.loc[df['nombre de la enfermedad'] == disease, 'breve descripci√≥n'].values[0]
    treat = df.loc[df['nombre de la enfermedad'] == disease, 'tratamiento'].values[0]
    print(f"\n{rank}. **{disease}** ‚Äì Probabilidad: {prob_percent:.1f}%")
    print(f"   *Descripci√≥n:* {desc}")
    print(f"   *Tratamiento:* {treat}\n")



Ingrese los s√≠ntomas que tiene (separados por comas): tos

Coincidencias encontradas:
'tos' coincide con 'tos' en el dataset.

S√≠ntomas utilizados para filtrar enfermedades: ['tos']
Se han identificado 3 enfermedades relacionadas con sus s√≠ntomas.
Ingrese su edad: 21
Ingrese su g√©nero (M/F): M
Ingrese su peso en kilogramos: 100
Ingrese su altura en metros: 2

Su IMC es 25.00, lo que corresponde a 'sobrepeso'.


Por favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):

¬øPresenta 'fatiga'? (s/n o 'salir' para terminar): s
¬øPresenta 'dificultad respiratoria'? (s/n o 'salir' para terminar): s
¬øPresenta 'opresi√≥n en el pecho'? (s/n o 'salir' para terminar): s
¬øPresenta 'erupci√≥n cut√°nea'? (s/n o 'salir' para terminar): n
¬øPresenta 'escalofr√≠os'? (s/n o 'salir' para terminar): s
¬øPresenta 'conjuntivitis'? (s/n o 'salir' para terminar): n
¬øPresenta 'sibilancias'? (s/n o 'salir' para terminar): n
¬øPresenta 'fiebre'? (s/n o 'salir' para terminar): s
¬øPresenta 'dolo

In [None]:
import pandas as pd
import numpy as np
import difflib
import joblib
import re
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split

# Cargar el dataset y limpiar columnas
file_path = "Dataset_Enfermedades.csv"
df = pd.read_csv(file_path)
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')

# Definir columnas clave
risk_cols = ['hombre', 'mujer', 'obesidad', 'sobrepeso', 'peso_normal', 'desnutricion']
symptom_cols = [col for col in df.columns if col not in ['nombre_de_la_enfermedad', 'breve_descripci√≥n', 'tratamiento'] + risk_cols]

# Manejo de valores nulos
df.fillna(0, inplace=True)

# Funci√≥n para encontrar s√≠ntomas v√°lidos con un umbral ajustable
def encontrar_sintomas_validos(sintomas_usuario, symptom_cols, cutoff=0.85):
    sintomas_validos = []
    coincidencias = {}
    for s in sintomas_usuario:
        match = difflib.get_close_matches(s, symptom_cols, n=1, cutoff=cutoff)
        if match:
            sintomas_validos.append(match[0])
            coincidencias[s] = match[0]
    return sintomas_validos, coincidencias

# Solicitar s√≠ntomas al usuario
while True:
    entrada_usuario = input("Ingrese sus s√≠ntomas: ").lower().strip()
    sintomas_usuario = re.split(r'[,;]\s*', entrada_usuario)  # No dividir por espacios para mantener frases completas
    sintomas_usuario = [s.strip() for s in sintomas_usuario if s]
    sintomas_validos, coincidencias = encontrar_sintomas_validos(sintomas_usuario, symptom_cols, cutoff=0.85)

    print("\nCoincidencias encontradas:")
    for original, match in coincidencias.items():
        print(f"'{original}' coincide con '{match}' en el dataset.")

    # Filtrar enfermedades relevantes
    if sintomas_validos:
        df['match_score'] = df[sintomas_validos].sum(axis=1) / len(sintomas_validos)
        df_filtrado = df[df['match_score'] >= 0.6].drop(columns=['match_score'])
    else:
        df_filtrado = df.copy()

    # Verificar si hay enfermedades relacionadas
    if len(df_filtrado) == 0:
        print("‚ö†Ô∏è No se encontraron enfermedades relacionadas con los s√≠ntomas ingresados. Intente nuevamente.")
    else:
        break

print(f"Se han identificado {len(df_filtrado)} enfermedades relacionadas con sus s√≠ntomas.")

# Codificar la variable objetivo
le = LabelEncoder()
df_filtrado['enfermedad_cod'] = le.fit_transform(df_filtrado['nombre_de_la_enfermedad'])

# Variables de entrada y salida
X = df_filtrado[symptom_cols + risk_cols]
y = df_filtrado['enfermedad_cod']

# Normalizar datos solo si hay datos disponibles
if len(X) > 0:
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X)
else:
    print("‚ö†Ô∏è No hay datos suficientes para normalizar. Verifique el dataset.")
    exit()

# Verificar si hay suficientes datos para entrenamiento
if len(df_filtrado) > 1:
    X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
else:
    X_train, y_train = X_scaled, y
    X_test, y_test = X_scaled, y

# Entrenar el modelo de Random Forest
clf = RandomForestClassifier(n_estimators=100, max_depth=5, criterion='entropy', random_state=42)
clf.fit(X_train, y_train)

# Guardar modelo y escalador
joblib.dump(clf, "modelo_random_forest.pkl")
joblib.dump(scaler, "scaler.pkl")

# Solicitar datos del usuario
def solicitar_numero(mensaje, tipo=float):
    while True:
        try:
            return tipo(input(mensaje))
        except ValueError:
            print("Entrada inv√°lida. Int√©ntelo de nuevo.")

edad = solicitar_numero("Ingrese su edad: ", int)
genero = input("Ingrese su g√©nero (M/F): ").strip().upper()
peso = solicitar_numero("Ingrese su peso en kg: ", float)
altura = solicitar_numero("Ingrese su altura en metros: ", float)

# Calcular IMC
imc = peso / (altura ** 2)
categoria_imc = ('desnutricion' if imc < 18.5 else 'peso_normal' if imc < 25 else 'sobrepeso' if imc < 30 else 'obesidad')
print(f"\nSu IMC es {imc:.2f}, lo que corresponde a '{categoria_imc}'.\n")

# Inicializar respuestas del usuario
user_answers = {symptom: 0 for symptom in symptom_cols}
user_answers.update({risk: 0 for risk in risk_cols})
user_answers['hombre' if genero == 'M' else 'mujer'] = 1
user_answers[categoria_imc] = 1

# Seleccionar s√≠ntomas m√°s comunes
sintomas_comunes = df_filtrado[symptom_cols].mean().sort_values(ascending=False).index.tolist()
top_symptoms = [s for s in sintomas_comunes if s not in sintomas_validos][:20]

# Preguntar sobre s√≠ntomas relevantes con validaci√≥n
print("\nPor favor responda con 's' (s√≠) o 'n' (no):\n")
for symptom in top_symptoms:
    while True:
        resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
        if resp in ['s', 'si', 'n', 'no']:
            user_answers[symptom] = 1 if resp in ['s', 'si'] else 0
            break
        else:
            print("‚ö†Ô∏è Respuesta inv√°lida. Por favor ingrese 's' para s√≠ o 'n' para no.")

# Cargar modelo entrenado y realizar predicci√≥n
clf = joblib.load("modelo_random_forest.pkl")
scaler = joblib.load("scaler.pkl")
user_vector_df = pd.DataFrame([user_answers], columns=X.columns)
user_vector_scaled = scaler.transform(user_vector_df)
probs = clf.predict_proba(user_vector_scaled)[0]
top3_idx = np.argsort(probs)[-3:][::-1]

# Mostrar siempre las 3 mejores predicciones
print("\n*** Diagn√≥stico Final ***")
num_diagnosticos = min(3, len(top3_idx))
for rank, idx in enumerate(top3_idx[:num_diagnosticos], start=1):
    disease_code = clf.classes_[idx]
    disease = le.inverse_transform([disease_code])[0]
    prob_percent = probs[idx] * 100
    desc = df.loc[df['nombre_de_la_enfermedad'] == disease, 'breve_descripci√≥n'].values[0]
    treat = df.loc[df['nombre_de_la_enfermedad'] == disease, 'tratamiento'].values[0]
    print(f"\n{rank}. **{disease}** ‚Äì Probabilidad: {prob_percent:.1f}%")
    print(f"   *Descripci√≥n:* {desc}")
    print(f"   *Tratamiento:* {treat}\n")

Ingrese sus s√≠ntomas: tos, dolor de cabeza

Coincidencias encontradas:
'tos' coincide con 'tos' en el dataset.
'dolor de cabeza' coincide con 'dolor_de_cabeza' en el dataset.
Se han identificado 1 enfermedades relacionadas con sus s√≠ntomas.
Ingrese su edad: 21
Ingrese su g√©nero (M/F): M
Ingrese su peso en kg: 100
Ingrese su altura en metros: 2

Su IMC es 25.00, lo que corresponde a 'sobrepeso'.


Por favor responda con 's' (s√≠) o 'n' (no):

¬øPresenta 'dolor_muscular'? (s/n): s
¬øPresenta 'dificultad_respiratoria'? (s/n): n
¬øPresenta 'fatiga'? (s/n): s
¬øPresenta 'p√©rdida_del_olfato_y_gusto'? (s/n): n
¬øPresenta 'escalofr√≠os'? (s/n): n
¬øPresenta 'fiebre'? (s/n): s
¬øPresenta 'orina_turbia_o_con_mal_olor'? (s/n): n
¬øPresenta 'orina_oscura'? (s/n): n
¬øPresenta 'palidez'? (s/n): n
¬øPresenta 'palpitaciones'? (s/n): n
¬øPresenta 'orina_con_sangre'? (s/n): n
¬øPresenta 'parches_rojos_con_escamas_plateadas'? (s/n): n
¬øPresenta 'opresi√≥n_en_el_pecho'? (s/n): n
¬øPresenta 'pensamie

In [None]:
import pandas as pd
import numpy as np
import difflib
import joblib
import re
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split

# Cargar el dataset y limpiar columnas
file_path = "Dataset_Enfermedades.csv"
df = pd.read_csv(file_path)
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')

# Definir columnas clave
risk_cols = ['hombre', 'mujer', 'obesidad', 'sobrepeso', 'peso_normal', 'desnutricion']
symptom_cols = [col for col in df.columns if col not in ['nombre_de_la_enfermedad', 'breve_descripci√≥n', 'tratamiento'] + risk_cols]

# Funci√≥n optimizada para encontrar s√≠ntomas v√°lidos
def encontrar_sintomas_validos(sintomas_usuario, symptom_cols, cutoff=0.85):
    sintomas_validos = []
    coincidencias = {}
    for s in sintomas_usuario:
        s = s.lower().strip()
        if s in symptom_cols:
            sintomas_validos.append(s)
            coincidencias[s] = s
        else:
            match = difflib.get_close_matches(s, symptom_cols, n=1, cutoff=cutoff)
            if match:
                sintomas_validos.append(match[0])
                coincidencias[s] = match[0]
    return sintomas_validos, coincidencias

# Solicitar s√≠ntomas al usuario
while True:
    entrada_usuario = input("Ingrese sus s√≠ntomas: ").lower().strip()
    sintomas_usuario = re.split(r'[,;]\s*', entrada_usuario)
    sintomas_usuario = [s.strip() for s in sintomas_usuario if s]
    sintomas_validos, coincidencias = encontrar_sintomas_validos(sintomas_usuario, symptom_cols, cutoff=0.85)

    print("\nCoincidencias encontradas:")
    for original, match in coincidencias.items():
        print(f"'{original}' coincide con '{match}' en el dataset.")

    # Filtrar enfermedades relevantes con umbral din√°mico
    if sintomas_validos:
        df['match_score'] = df[sintomas_validos].sum(axis=1) / len(sintomas_validos)
        threshold = max(0.5, df['match_score'].quantile(0.5))  # Ajusta el umbral din√°micamente
        df_filtrado = df[df['match_score'] >= threshold].drop(columns=['match_score'])
    else:
        df_filtrado = df.copy()

    if len(df_filtrado) == 0:
        print("‚ö†Ô∏è No se encontraron enfermedades relacionadas. Intente nuevamente.")
    else:
        break

print(f"Se han identificado {len(df_filtrado)} enfermedades relacionadas con sus s√≠ntomas.")

# Codificar la variable objetivo
le = LabelEncoder()
df_filtrado['enfermedad_cod'] = le.fit_transform(df_filtrado['nombre_de_la_enfermedad'])

# Variables de entrada y salida
X = df_filtrado[symptom_cols + risk_cols]
y = df_filtrado['enfermedad_cod']

# Normalizar datos con MinMaxScaler
if len(X) > 0:
    scaler = MinMaxScaler()
    X_scaled = scaler.fit_transform(X)
else:
    print("‚ö†Ô∏è No hay datos suficientes para normalizar. Verifique el dataset.")
    exit()

# Verificar si hay suficientes datos para entrenamiento
if len(df_filtrado) > 1:
    X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
else:
    X_train, y_train = X_scaled, y
    X_test, y_test = X_scaled, y

# Entrenar el modelo de Random Forest sin validaci√≥n cruzada
clf = RandomForestClassifier(n_estimators=100, max_depth=10, criterion='entropy', random_state=42)
clf.fit(X_train, y_train)

# Guardar modelo y escalador
joblib.dump(clf, "modelo_random_forest.pkl")
joblib.dump(scaler, "scaler.pkl")

# Solicitar datos del usuario
def solicitar_numero(mensaje, tipo=float):
    while True:
        try:
            return tipo(input(mensaje))
        except ValueError:
            print("Entrada inv√°lida. Int√©ntelo de nuevo.")

edad = solicitar_numero("Ingrese su edad: ", int)
genero = input("Ingrese su g√©nero (M/F): ").strip().upper()
peso = solicitar_numero("Ingrese su peso en kg: ", float)
altura = solicitar_numero("Ingrese su altura en metros: ", float)

# Calcular IMC
imc = peso / (altura ** 2)
categoria_imc = ('desnutricion' if imc < 18.5 else 'peso_normal' if imc < 25 else 'sobrepeso' if imc < 30 else 'obesidad')
print(f"\nSu IMC es {imc:.2f}, lo que corresponde a '{categoria_imc}'.\n")

# Inicializar respuestas del usuario
user_answers = {symptom: 0 for symptom in symptom_cols}
user_answers.update({risk: 0 for risk in risk_cols})
user_answers['hombre' if genero == 'M' else 'mujer'] = 1
user_answers[categoria_imc] = 1

# Seleccionar s√≠ntomas adicionales m√°s comunes en el dataset filtrado
sintomas_comunes = df_filtrado[symptom_cols].sum().sort_values(ascending=False).index.tolist()
sintomas_comunes = [s for s in sintomas_comunes if s not in sintomas_validos][:20]

# Preguntar sobre s√≠ntomas adicionales
print("\nPor favor responda con 's' (s√≠) o 'n' (no):\n")
for symptom in sintomas_comunes[:20]:
    while True:
        resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
        if resp in ['s', 'si', 'n', 'no']:
            user_answers[symptom] = 1 if resp in ['s', 'si'] else 0
            break
        else:
            print("‚ö†Ô∏è Respuesta inv√°lida. Por favor ingrese 's' para s√≠ o 'n' para no.")

# Cargar modelo entrenado y realizar predicci√≥n
clf = joblib.load("modelo_random_forest.pkl")
scaler = joblib.load("scaler.pkl")
user_vector_df = pd.DataFrame([user_answers], columns=X.columns)
user_vector_scaled = scaler.transform(user_vector_df)
probs = clf.predict_proba(user_vector_scaled)[0]
top3_idx = np.argsort(probs)[-3:][::-1]

# Mostrar siempre las 3 mejores predicciones
print("\n*** Diagn√≥stico Final ***")
for rank, idx in enumerate(top3_idx, start=1):
    disease_code = clf.classes_[idx]
    disease = le.inverse_transform([disease_code])[0]
    prob_percent = probs[idx] * 100
    desc = df.loc[df['nombre_de_la_enfermedad'] == disease, 'breve_descripci√≥n'].values[0]
    treat = df.loc[df['nombre_de_la_enfermedad'] == disease, 'tratamiento'].values[0]
    print(f"\n{rank}. **{disease}** ‚Äì Probabilidad: {prob_percent:.1f}%")
    print(f"   *Descripci√≥n:* {desc}")
    print(f"   *Tratamiento:* {treat}\n")


Ingrese sus s√≠ntomas: dolor de cabeza, tos

Coincidencias encontradas:
'dolor de cabeza' coincide con 'dolor_de_cabeza' en el dataset.
'tos' coincide con 'tos' en el dataset.
Se han identificado 6 enfermedades relacionadas con sus s√≠ntomas.
Ingrese su edad: 21
Ingrese su g√©nero (M/F): M
Ingrese su peso en kg: 100
Ingrese su altura en metros: 2

Su IMC es 25.00, lo que corresponde a 'sobrepeso'.


Por favor responda con 's' (s√≠) o 'n' (no):

¬øPresenta 'fatiga'? (s/n): s
¬øPresenta 'dificultad_respiratoria'? (s/n): s
¬øPresenta 'tos_seca'? (s/n): s
¬øPresenta 'congesti√≥n_nasal'? (s/n): s
¬øPresenta 'dolor_de_garganta'? (s/n): s
¬øPresenta 'fiebre_alta'? (s/n): s
¬øPresenta 'escalofr√≠os'? (s/n): n
¬øPresenta 'dolor_muscular'? (s/n): n
¬øPresenta 'conjuntivitis'? (s/n): n
¬øPresenta 'fiebre'? (s/n): s
¬øPresenta 'mareos'? (s/n): n
¬øPresenta 'p√©rdida_del_olfato_y_gusto'? (s/n): s
¬øPresenta 'sibilancias'? (s/n): n
¬øPresenta 'visi√≥n_borrosa'? (s/n): n
¬øPresenta 'secreci√≥n_nasal_

In [None]:
import pandas as pd
import numpy as np
import difflib
import joblib
import re
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split

# Cargar el dataset y limpiar columnas
file_path = "Dataset_Enfermedades.csv"
df = pd.read_csv(file_path)
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')

# Definir columnas clave
risk_cols = ['hombre', 'mujer', 'obesidad', 'sobrepeso', 'peso_normal', 'desnutricion']
symptom_cols = [col for col in df.columns if col not in ['nombre_de_la_enfermedad', 'breve_descripci√≥n', 'tratamiento'] + risk_cols]

# Funci√≥n optimizada para encontrar s√≠ntomas v√°lidos
def encontrar_sintomas_validos(sintomas_usuario, symptom_cols, cutoff=0.85):
    sintomas_validos = []
    coincidencias = {}
    for s in sintomas_usuario:
        s = s.lower().strip()
        if s in symptom_cols:
            sintomas_validos.append(s)
            coincidencias[s] = s
        else:
            match = difflib.get_close_matches(s, symptom_cols, n=1, cutoff=cutoff)
            if match:
                sintomas_validos.append(match[0])
                coincidencias[s] = match[0]
    return sintomas_validos, coincidencias

# Solicitar s√≠ntomas al usuario
while True:
    entrada_usuario = input("Ingrese sus s√≠ntomas: ").lower().strip()
    sintomas_usuario = re.split(r'[,;]\s*', entrada_usuario)
    sintomas_usuario = [s.strip() for s in sintomas_usuario if s]
    sintomas_validos, coincidencias = encontrar_sintomas_validos(sintomas_usuario, symptom_cols, cutoff=0.85)

    print("\nCoincidencias encontradas:")
    for original, match in coincidencias.items():
        print(f"'{original}' coincide con '{match}' en el dataset.")

    if sintomas_validos:
        df['match_score'] = df[sintomas_validos].sum(axis=1) / len(sintomas_validos)
        threshold = max(0.5, df['match_score'].quantile(0.7))
        df_filtrado = df[df['match_score'] >= threshold].drop(columns=['match_score'])
    else:
        df_filtrado = df.copy()

    if len(df_filtrado) == 0:
        print("‚ö†Ô∏è No se encontraron enfermedades relacionadas. Intente nuevamente.")
    else:
        break

print(f"Se han identificado {len(df_filtrado)} enfermedades relacionadas con sus s√≠ntomas.")

# Codificar la variable objetivo
le = LabelEncoder()
df_filtrado['enfermedad_cod'] = le.fit_transform(df_filtrado['nombre_de_la_enfermedad'])

# Variables de entrada y salida
X = df_filtrado[symptom_cols + risk_cols]
y = df_filtrado['enfermedad_cod']

# Normalizar datos con MinMaxScaler
if len(X) > 0:
    scaler = MinMaxScaler()
    X_scaled = scaler.fit_transform(X)
else:
    print("‚ö†Ô∏è No hay datos suficientes para normalizar. Verifique el dataset.")
    exit()

# Verificar si hay suficientes datos para entrenamiento
if len(df_filtrado) > 1:
    X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
else:
    X_train, y_train = X_scaled, y
    X_test, y_test = X_scaled, y

# Entrenar el modelo de Random Forest sin validaci√≥n cruzada
clf = RandomForestClassifier(n_estimators=100, max_depth=10, criterion='entropy', random_state=42)
clf.fit(X_train, y_train)

# Guardar modelo y escalador
joblib.dump(clf, "modelo_random_forest.pkl")
joblib.dump(scaler, "scaler.pkl")

# Solicitar datos del usuario
def solicitar_numero(mensaje, tipo=float):
    while True:
        try:
            return tipo(input(mensaje))
        except ValueError:
            print("Entrada inv√°lida. Int√©ntelo de nuevo.")

edad = solicitar_numero("Ingrese su edad: ", int)
genero = input("Ingrese su g√©nero (M/F): ").strip().upper()
peso = solicitar_numero("Ingrese su peso en kg: ", float)
altura = solicitar_numero("Ingrese su altura en metros: ", float)

# Calcular IMC
imc = peso / (altura ** 2)
categoria_imc = ('desnutricion' if imc < 18.5 else 'peso_normal' if imc < 25 else 'sobrepeso' if imc < 30 else 'obesidad')
print(f"\nSu IMC es {imc:.2f}, lo que corresponde a '{categoria_imc}'.\n")

# Inicializar respuestas del usuario
user_answers = {symptom: 0 for symptom in symptom_cols}
user_answers.update({risk: 0 for risk in risk_cols})
user_answers['hombre' if genero == 'M' else 'mujer'] = 1
user_answers[categoria_imc] = 1

# Seleccionar s√≠ntomas relevantes para preguntas
top_symptoms = df_filtrado[symptom_cols].sum().sort_values(ascending=False).index.tolist()
top_symptoms = [s for s in top_symptoms if s not in sintomas_validos][:20]

# Preguntar sobre s√≠ntomas con validaci√≥n
print("\nPor favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):\n")
for symptom in top_symptoms:
    resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    while resp not in ["s", "n", "si", "no"]:
        resp = input(f"‚ö†Ô∏è Entrada inv√°lida. ¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    user_answers[symptom] = 1 if resp in ["s", "si"] else 0

    # Verificar si alguna enfermedad supera el 80% de probabilidad
    user_vector_df = pd.DataFrame([user_answers], columns=X.columns)
    user_vector_scaled = scaler.transform(user_vector_df)
    probs = clf.predict_proba(user_vector_scaled)[0]
    if max(probs) >= 0.80:
        break

# Obtener las 3 enfermedades m√°s probables
probs = clf.predict_proba(user_vector_scaled)[0]
top3_idx = np.argsort(probs)[-3:][::-1]

# Mostrar diagn√≥stico final
print("\n*** Diagn√≥stico Final ***")
for rank, idx in enumerate(top3_idx, start=1):
    disease_code = clf.classes_[idx]
    disease = le.inverse_transform([disease_code])[0]
    prob_percent = probs[idx] * 100
    desc = df.loc[df['nombre_de_la_enfermedad'] == disease, 'breve_descripci√≥n'].values[0]
    treat = df.loc[df['nombre_de_la_enfermedad'] == disease, 'tratamiento'].values[0]
    print(f"\n{rank}. **{disease}** ‚Äì Probabilidad: {prob_percent:.1f}%")
    print(f"   *Descripci√≥n:* {desc}")
    print(f"   *Tratamiento:* {treat}\n")


Ingrese sus s√≠ntomas: tos, dolor de cabeza

Coincidencias encontradas:
'tos' coincide con 'tos' en el dataset.
'dolor de cabeza' coincide con 'dolor_de_cabeza' en el dataset.
Se han identificado 6 enfermedades relacionadas con sus s√≠ntomas.
Ingrese su edad: 21
Ingrese su g√©nero (M/F): M
Ingrese su peso en kg: 100
Ingrese su altura en metros: 2

Su IMC es 25.00, lo que corresponde a 'sobrepeso'.


Por favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):

¬øPresenta 'fatiga'? (s/n): s
¬øPresenta 'dificultad_respiratoria'? (s/n): s
¬øPresenta 'tos_seca'? (s/n): s
¬øPresenta 'congesti√≥n_nasal'? (s/n): s
¬øPresenta 'dolor_de_garganta'? (s/n): s
¬øPresenta 'fiebre_alta'? (s/n): s
¬øPresenta 'escalofr√≠os'? (s/n): n
¬øPresenta 'dolor_muscular'? (s/n): n
¬øPresenta 'conjuntivitis'? (s/n): n
¬øPresenta 'fiebre'? (s/n): s
¬øPresenta 'mareos'? (s/n): n
¬øPresenta 'p√©rdida_del_olfato_y_gusto'? (s/n): s
¬øPresenta 'sibilancias'? (s/n): n
¬øPresenta 'visi√≥n_borrosa'? (s/n): n
¬øPr

In [None]:
import pandas as pd
import numpy as np
import difflib
import joblib
import re
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split

# Cargar el dataset y limpiar columnas
file_path = "Dataset_Enfermedades.csv"
df = pd.read_csv(file_path)
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')

# Definir columnas clave
risk_cols = ['hombre', 'mujer', 'obesidad', 'sobrepeso', 'peso_normal', 'desnutricion']
symptom_cols = [col for col in df.columns if col not in ['nombre_de_la_enfermedad', 'breve_descripci√≥n', 'tratamiento'] + risk_cols]

# Funci√≥n optimizada para encontrar s√≠ntomas v√°lidos
def encontrar_sintomas_validos(sintomas_usuario, symptom_cols, cutoff=0.85):
    sintomas_validos = []
    coincidencias = {}
    for s in sintomas_usuario:
        s = s.lower().strip()
        if s in symptom_cols:
            sintomas_validos.append(s)
            coincidencias[s] = s
        else:
            match = difflib.get_close_matches(s, symptom_cols, n=1, cutoff=cutoff)
            if match:
                sintomas_validos.append(match[0])
                coincidencias[s] = match[0]
    return sintomas_validos, coincidencias

# Solicitar s√≠ntomas al usuario
while True:
    intentos = 3
    while intentos > 0:
        entrada_usuario = input("Ingrese sus s√≠ntomas: ").lower().strip()
        sintomas_usuario = re.split(r'[,;]\s*', entrada_usuario)
        sintomas_usuario = [s.strip() for s in sintomas_usuario if s]
        sintomas_validos, coincidencias = encontrar_sintomas_validos(sintomas_usuario, symptom_cols, cutoff=0.70)

        if sintomas_validos:
            break
        else:
            intentos -= 1
            if intentos > 0:
                print(f"‚ö†Ô∏è No se encontraron coincidencias. Intente nuevamente ({intentos} intentos restantes).")

    print("\nCoincidencias encontradas:")
    for original, match in coincidencias.items():
        print(f"'{original}' coincide con '{match}' en el dataset.")

    if sintomas_validos:
        df['match_score'] = df[sintomas_validos].sum(axis=1) / len(sintomas_validos)
        threshold = max(0.5, df['match_score'].quantile(0.7))
        df_filtrado = df[df['match_score'] >= threshold].drop(columns=['match_score'])
    else:
        df_filtrado = df.copy()

    if len(df_filtrado) == 0:
        print("‚ö†Ô∏è No se encontraron enfermedades relacionadas. Intente nuevamente.")
    else:
        break

print(f"Se han identificado {len(df_filtrado)} enfermedades relacionadas con sus s√≠ntomas.")

# Codificar la variable objetivo
le = LabelEncoder()
df_filtrado['enfermedad_cod'] = le.fit_transform(df_filtrado['nombre_de_la_enfermedad'])

# Variables de entrada y salida
X = df_filtrado[symptom_cols + risk_cols]
y = df_filtrado['enfermedad_cod']

# Normalizar datos con MinMaxScaler
if len(X) > 0:
    scaler = MinMaxScaler()
    X_scaled = scaler.fit_transform(X)
else:
    print("‚ö†Ô∏è No hay datos suficientes para normalizar. Verifique el dataset.")
    exit()

# Verificar si hay suficientes datos para entrenamiento
if len(df_filtrado) > 1:
    X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
else:
    X_train, y_train = X_scaled, y
    X_test, y_test = X_scaled, y

# Entrenar el modelo de Random Forest sin validaci√≥n cruzada
clf = RandomForestClassifier(n_estimators=100, max_depth=10, criterion='entropy', random_state=42)
clf.fit(X_train, y_train)

# Guardar modelo y escalador
joblib.dump(clf, "modelo_random_forest.pkl")
joblib.dump(scaler, "scaler.pkl")

# Solicitar datos del usuario
def solicitar_numero(mensaje, tipo=float):
    while True:
        try:
            return tipo(input(mensaje))
        except ValueError:
            print("Entrada inv√°lida. Int√©ntelo de nuevo.")

edad = solicitar_numero("Ingrese su edad: ", int)
genero = input("Ingrese su g√©nero (M/F): ").strip().upper()
peso = solicitar_numero("Ingrese su peso en kg: ", float)
altura = solicitar_numero("Ingrese su altura en metros: ", float)

# Calcular IMC
imc = peso / (altura ** 2)
categoria_imc = ('desnutricion' if imc < 18.5 else 'peso_normal' if imc < 25 else 'sobrepeso' if imc < 30 else 'obesidad')
print(f"\nSu IMC es {imc:.2f}, lo que corresponde a '{categoria_imc}'.\n")

# Inicializar respuestas del usuario
user_answers = {symptom: 0 for symptom in symptom_cols}
user_answers.update({risk: 0 for risk in risk_cols})
user_answers['hombre' if genero == 'M' else 'mujer'] = 1
user_answers[categoria_imc] = 1

# Seleccionar s√≠ntomas relevantes para preguntas
top_symptoms = df_filtrado[symptom_cols].sum().sort_values(ascending=False).index.tolist()
top_symptoms = [s for s in top_symptoms if s not in sintomas_validos][:20]

# Preguntar sobre s√≠ntomas con validaci√≥n
print("\nPor favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):\n")
for symptom in top_symptoms:
    resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    while resp not in ["s", "n", "si", "no"]:
        resp = input(f"‚ö†Ô∏è Entrada inv√°lida. ¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    user_answers[symptom] = 1 if resp in ["s", "si"] else 0

    # Verificar si alguna enfermedad supera el 80% de probabilidad
    user_vector_df = pd.DataFrame([user_answers], columns=X.columns)
    user_vector_scaled = scaler.transform(user_vector_df)
    probs = clf.predict_proba(user_vector_scaled)[0]
    if max(probs) >= 0.70:
        break

# Obtener las 3 enfermedades m√°s probables
probs = clf.predict_proba(user_vector_scaled)[0]
top3_idx = np.argsort(probs)[-3:][::-1]

# Mostrar diagn√≥stico final
print("\n*** Diagn√≥stico Final ***")
for rank, idx in enumerate(top3_idx, start=1):
    disease_code = clf.classes_[idx]
    disease = le.inverse_transform([disease_code])[0]
    prob_percent = probs[idx] * 100
    desc = df.loc[df['nombre_de_la_enfermedad'] == disease, 'breve_descripci√≥n'].values[0]
    treat = df.loc[df['nombre_de_la_enfermedad'] == disease, 'tratamiento'].values[0]
    print(f"\n{rank}. **{disease}** ‚Äì Probabilidad: {prob_percent:.1f}%")
    print(f"   *Descripci√≥n:* {desc}")
    print(f"   *Tratamiento:* {treat}\n")


Ingrese sus s√≠ntomas: tos, dolor de cabeza

Coincidencias encontradas:
'tos' coincide con 'tos' en el dataset.
'dolor de cabeza' coincide con 'dolor_de_cabeza' en el dataset.
Se han identificado 6 enfermedades relacionadas con sus s√≠ntomas.
Ingrese su edad: 21
Ingrese su g√©nero (M/F): M
Ingrese su peso en kg: 100
Ingrese su altura en metros: 2

Su IMC es 25.00, lo que corresponde a 'sobrepeso'.


Por favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):

¬øPresenta 'fatiga'? (s/n): s
¬øPresenta 'dificultad_respiratoria'? (s/n): s
¬øPresenta 'dolor_muscular'? (s/n): n
¬øPresenta 'congesti√≥n_nasal'? (s/n): s
¬øPresenta 'dolor_de_garganta'? (s/n): s
¬øPresenta 'escalofr√≠os'? (s/n): s
¬øPresenta 'tos_seca'? (s/n): s
¬øPresenta 'fiebre_alta'? (s/n): s
¬øPresenta 'p√©rdida_del_olfato_y_gusto'? (s/n): s
¬øPresenta 'sibilancias'? (s/n): n
¬øPresenta 'fiebre'? (s/n): s
¬øPresenta 'mareos'? (s/n): n
¬øPresenta 'dolor_en_el_pecho'? (s/n): n
¬øPresenta 'estornudos'? (s/n): s
¬øPre

In [None]:
import pandas as pd
import numpy as np
import difflib
import joblib
import re
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split

# Cargar el dataset y limpiar columnas
file_path = "Dataset_Enfermedades.csv"
df = pd.read_csv(file_path)
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')

# Definir columnas clave
risk_cols = ['hombre', 'mujer', 'obesidad', 'sobrepeso', 'peso_normal', 'desnutricion']
symptom_cols = [col for col in df.columns if col not in ['nombre_de_la_enfermedad', 'breve_descripci√≥n', 'tratamiento'] + risk_cols]

# Funci√≥n optimizada para encontrar s√≠ntomas v√°lidos
def encontrar_sintomas_validos(sintomas_usuario, symptom_cols, cutoff=0.85):
    sintomas_validos = []
    coincidencias = {}
    for s in sintomas_usuario:
        s = s.lower().strip()
        if s in symptom_cols:
            sintomas_validos.append(s)
            coincidencias[s] = s
        else:
            match = difflib.get_close_matches(s, symptom_cols, n=1, cutoff=cutoff)
            if match:
                sintomas_validos.append(match[0])
                coincidencias[s] = match[0]
    return sintomas_validos, coincidencias

# Solicitar s√≠ntomas al usuario
while True:
    intentos = 3
    while intentos > 0:
        entrada_usuario = input("Ingrese sus s√≠ntomas: ").lower().strip()
        sintomas_usuario = re.split(r'[,;]\s*', entrada_usuario)
        sintomas_usuario = [s.strip() for s in sintomas_usuario if s]
        sintomas_validos, coincidencias = encontrar_sintomas_validos(sintomas_usuario, symptom_cols, cutoff=0.70)

        if sintomas_validos:
            break
        else:
            intentos -= 1
            if intentos > 0:
                print(f"‚ö†Ô∏è No se encontraron coincidencias. Intente nuevamente ({intentos} intentos restantes).")

    print("\nCoincidencias encontradas:")
    for original, match in coincidencias.items():
        print(f"'{original}' coincide con '{match}' en el dataset.")

    if sintomas_validos:
        df['match_score'] = df[sintomas_validos].sum(axis=1) / len(sintomas_validos)
        threshold = max(0.5, df['match_score'].quantile(0.7))
        df_filtrado = df[df['match_score'] >= threshold].drop(columns=['match_score'])
    else:
        df_filtrado = df.copy()

    if len(df_filtrado) == 0:
        print("‚ö†Ô∏è No se encontraron enfermedades relacionadas. Intente nuevamente.")
    else:
        break

print(f"Se han identificado {len(df_filtrado)} enfermedades relacionadas con sus s√≠ntomas.")

# Codificar la variable objetivo
le = LabelEncoder()
df_filtrado['enfermedad_cod'] = le.fit_transform(df_filtrado['nombre_de_la_enfermedad'])

# Variables de entrada y salida
X = df_filtrado[symptom_cols + risk_cols]
y = df_filtrado['enfermedad_cod']

# Normalizar datos con MinMaxScaler
if len(X) > 0:
    scaler = MinMaxScaler()
    X_scaled = scaler.fit_transform(X)
else:
    print("‚ö†Ô∏è No hay datos suficientes para normalizar. Verifique el dataset.")
    exit()

# Verificar si hay suficientes datos para entrenamiento
if len(df_filtrado) > 1:
    X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
else:
    X_train, y_train = X_scaled, y
    X_test, y_test = X_scaled, y

# Entrenar el modelo de Random Forest sin validaci√≥n cruzada
clf = RandomForestClassifier(n_estimators=100, max_depth=10, criterion='entropy', random_state=42)
clf.fit(X_train, y_train)

# Guardar modelo y escalador
joblib.dump(clf, "modelo_random_forest.pkl")
joblib.dump(scaler, "scaler.pkl")

# Solicitar datos del usuario
def solicitar_numero(mensaje, tipo=float):
    while True:
        try:
            return tipo(input(mensaje))
        except ValueError:
            print("Entrada inv√°lida. Int√©ntelo de nuevo.")

edad = solicitar_numero("Ingrese su edad: ", int)
genero = input("Ingrese su g√©nero (M/F): ").strip().upper()
peso = solicitar_numero("Ingrese su peso en kg: ", float)
altura = solicitar_numero("Ingrese su altura en metros: ", float)

# Calcular IMC
imc = peso / (altura ** 2)
categoria_imc = ('desnutricion' if imc < 18.5 else 'peso_normal' if imc < 25 else 'sobrepeso' if imc < 30 else 'obesidad')
print(f"\nSu IMC es {imc:.2f}, lo que corresponde a '{categoria_imc}'.\n")

# Inicializar respuestas del usuario
user_answers = {symptom: 0 for symptom in symptom_cols}
user_answers.update({risk: 0 for risk in risk_cols})
user_answers['hombre' if genero == 'M' else 'mujer'] = 1
user_answers[categoria_imc] = 1

# Seleccionar s√≠ntomas relevantes para preguntas
top_symptoms = df_filtrado[symptom_cols].sum().sort_values(ascending=False).index.tolist()
top_symptoms = [s for s in top_symptoms if s not in sintomas_validos][:20]

# Preguntar sobre s√≠ntomas con validaci√≥n
print("\nPor favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):\n")
for symptom in top_symptoms:
    resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    while resp not in ["s", "n", "si", "no"]:
        resp = input(f"‚ö†Ô∏è Entrada inv√°lida. ¬øPresenta '{symptom}'? (s/n): ").strip().lower()
    user_answers[symptom] = 1 if resp in ["s", "si"] else 0

    # Verificar si alguna enfermedad supera el 80% de probabilidad
    user_vector_df = pd.DataFrame([user_answers], columns=X.columns)
    user_vector_scaled = scaler.transform(user_vector_df)
    probs = clf.predict_proba(user_vector_scaled)[0]
    if max(probs) >= 0.70:
        break

# Obtener las 3 enfermedades m√°s probables
probs = clf.predict_proba(user_vector_scaled)[0]
top3_idx = np.argsort(probs)[-3:][::-1]

# Lista de enfermedades finales y sus s√≠ntomas asociados
final_diseases = []
for idx in top3_idx:
    disease_code = clf.classes_[idx]
    disease_name = le.inverse_transform([disease_code])[0]

    # Obtener los s√≠ntomas reales de la enfermedad en el dataset
    disease_symptoms = df.loc[df['nombre_de_la_enfermedad'] == disease_name, symptom_cols].iloc[0]
    symptoms_present = disease_symptoms[disease_symptoms == 1].index.tolist()

    # Contar coincidencias con los s√≠ntomas ingresados por el usuario
    matched_symptoms = sum(user_answers[symptom] for symptom in symptoms_present)
    total_symptoms = len(symptoms_present)
    probability_match = (matched_symptoms / total_symptoms) * 100 if total_symptoms > 0 else 0

    final_diseases.append({
        "nombre": disease_name,
        "probabilidad_modelo": probs[idx] * 100,
        "probabilidad_coincidencias": probability_match,
        "s√≠ntomas_coincididos": matched_symptoms,
        "total_s√≠ntomas": total_symptoms
    })

# Mostrar diagn√≥stico final con ambos c√°lculos de probabilidad
print("\n*** Diagn√≥stico Final con Probabilidad de Coincidencias ***")
for rank, disease in enumerate(final_diseases, start=1):
    desc = df.loc[df['nombre_de_la_enfermedad'] == disease["nombre"], 'breve_descripci√≥n'].values[0]
    treat = df.loc[df['nombre_de_la_enfermedad'] == disease["nombre"], 'tratamiento'].values[0]

    print(f"\n{rank}. **{disease['nombre']}**")
    print(f"   - Probabilidad del modelo: {disease['probabilidad_modelo']:.1f}%")
    print(f"   - Coincidencia con s√≠ntomas: {disease['probabilidad_coincidencias']:.1f}% ({disease['s√≠ntomas_coincididos']}/{disease['total_s√≠ntomas']})")
    print(f"   *Descripci√≥n:* {desc}")
    print(f"   *Tratamiento:* {treat}\n")


Ingrese sus s√≠ntomas: tos, dolor de cabeza

Coincidencias encontradas:
'tos' coincide con 'tos' en el dataset.
'dolor de cabeza' coincide con 'dolor_de_cabeza' en el dataset.
Se han identificado 6 enfermedades relacionadas con sus s√≠ntomas.
Ingrese su edad: 21
Ingrese su g√©nero (M/F): m
Ingrese su peso en kg: 100
Ingrese su altura en metros: 2.10

Su IMC es 22.68, lo que corresponde a 'peso_normal'.


Por favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):

¬øPresenta 'fatiga'? (s/n): s
¬øPresenta 'dificultad_respiratoria'? (s/n): s
¬øPresenta 'dolor_muscular'? (s/n): n
¬øPresenta 'congesti√≥n_nasal'? (s/n): s
¬øPresenta 'dolor_de_garganta'? (s/n): s
¬øPresenta 'escalofr√≠os'? (s/n): s
¬øPresenta 'tos_seca'? (s/n): s
¬øPresenta 'fiebre_alta'? (s/n): s
¬øPresenta 'p√©rdida_del_olfato_y_gusto'? (s/n): s
¬øPresenta 'sibilancias'? (s/n): s
¬øPresenta 'fiebre'? (s/n): s
¬øPresenta 'mareos'? (s/n): n
¬øPresenta 'dolor_en_el_pecho'? (s/n): n
¬øPresenta 'estornudos'? (s/n): s


In [None]:
import pandas as pd
import numpy as np
import difflib
import joblib
import re
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split

# Cargar el dataset y limpiar columnas
file_path = "Dataset_Enfermedades.csv"
df = pd.read_csv(file_path)
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')

# Definir columnas clave
risk_cols = ['hombre', 'mujer', 'obesidad', 'sobrepeso', 'peso_normal', 'desnutricion']
symptom_cols = [col for col in df.columns if col not in ['nombre_de_la_enfermedad', 'breve_descripci√≥n', 'tratamiento'] + risk_cols]

# Funci√≥n optimizada para encontrar s√≠ntomas v√°lidos
def encontrar_sintomas_validos(sintomas_usuario, symptom_cols, cutoff=0.85):
    sintomas_validos = []
    coincidencias = {}
    for s in sintomas_usuario:
        s = s.lower().strip()
        if s in symptom_cols:
            sintomas_validos.append(s)
            coincidencias[s] = s
        else:
            match = difflib.get_close_matches(s, symptom_cols, n=1, cutoff=cutoff)
            if match:
                sintomas_validos.append(match[0])
                coincidencias[s] = match[0]
    return sintomas_validos, coincidencias

# Solicitar s√≠ntomas al usuario
while True:
    intentos = 3
    while intentos > 0:
        entrada_usuario = input("Ingrese sus s√≠ntomas: ").lower().strip()
        sintomas_usuario = re.split(r'[,;]\s*', entrada_usuario)
        sintomas_usuario = [s.strip() for s in sintomas_usuario if s]
        sintomas_validos, coincidencias = encontrar_sintomas_validos(sintomas_usuario, symptom_cols, cutoff=0.70)

        if sintomas_validos:
            break
        else:
            intentos -= 1
            if intentos > 0:
                print(f"‚ö†Ô∏è No se encontraron coincidencias. Intente nuevamente ({intentos} intentos restantes).")

    print("\nCoincidencias encontradas:")
    for original, match in coincidencias.items():
        print(f"'{original}' coincide con '{match}' en el dataset.")

    if sintomas_validos:
        df['match_score'] = df[sintomas_validos].sum(axis=1) / len(sintomas_validos)
        threshold = max(0.5, df['match_score'].quantile(0.7))
        df_filtrado = df[df['match_score'] >= threshold].drop(columns=['match_score'])
    else:
        df_filtrado = df.copy()

    if len(df_filtrado) == 0:
        print("‚ö†Ô∏è No se encontraron enfermedades relacionadas. Intente nuevamente.")
    else:
        break

print(f"Se han identificado {len(df_filtrado)} enfermedades relacionadas con sus s√≠ntomas.")

# Codificar la variable objetivo
le = LabelEncoder()
df_filtrado['enfermedad_cod'] = le.fit_transform(df_filtrado['nombre_de_la_enfermedad'])

# Variables de entrada y salida
X = df_filtrado[symptom_cols + risk_cols]
y = df_filtrado['enfermedad_cod']

# Normalizar datos con MinMaxScaler
if len(X) > 0:
    scaler = MinMaxScaler()
    X_scaled = scaler.fit_transform(X)
else:
    print("‚ö†Ô∏è No hay datos suficientes para normalizar. Verifique el dataset.")
    exit()

# Verificar si hay suficientes datos para entrenamiento
if len(df_filtrado) > 1:
    X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
else:
    X_train, y_train = X_scaled, y
    X_test, y_test = X_scaled, y

# Entrenar el modelo de Random Forest sin validaci√≥n cruzada
clf = RandomForestClassifier(n_estimators=100, max_depth=10, criterion='entropy', random_state=42)
clf.fit(X_train, y_train)

# Guardar modelo y escalador
joblib.dump(clf, "modelo_random_forest.pkl")
joblib.dump(scaler, "scaler.pkl")

# Solicitar datos del usuario
def solicitar_numero(mensaje, tipo=float):
    while True:
        try:
            return tipo(input(mensaje))
        except ValueError:
            print("Entrada inv√°lida. Int√©ntelo de nuevo.")

edad = solicitar_numero("Ingrese su edad: ", int)
genero = input("Ingrese su g√©nero (M/F): ").strip().upper()
peso = solicitar_numero("Ingrese su peso en kg: ", float)
altura = solicitar_numero("Ingrese su altura en metros: ", float)

# Calcular IMC
imc = peso / (altura ** 2)
categoria_imc = ('desnutricion' if imc < 18.5 else 'peso_normal' if imc < 25 else 'sobrepeso' if imc < 30 else 'obesidad')
print(f"\nSu IMC es {imc:.2f}, lo que corresponde a '{categoria_imc}'.\n")

# Inicializar respuestas del usuario
user_answers = {symptom: 0 for symptom in symptom_cols}
user_answers.update({risk: 0 for risk in risk_cols})
user_answers['hombre' if genero == 'M' else 'mujer'] = 1
user_answers[categoria_imc] = 1

# Seleccionar los s√≠ntomas m√°s frecuentes en las enfermedades filtradas
top_symptoms = df_filtrado[symptom_cols].sum().sort_values(ascending=False).index.tolist()

# Asegurar que los s√≠ntomas ingresados por el usuario tambi√©n se pregunten
symptoms_to_ask = list(set(sintomas_validos + top_symptoms[:20]))  # Aumentamos de 20 s√≠ntomas

# Establecer un m√≠nimo de preguntas antes de interrumpir
MIN_PREGUNTAS = 10
preguntas_realizadas = 0

print("\nPor favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):\n")

for symptom in symptoms_to_ask:
    resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()

    # Validaci√≥n de entrada
    while resp not in ["s", "n", "si", "no"]:
        resp = input(f"‚ö†Ô∏è Entrada inv√°lida. ¬øPresenta '{symptom}'? (s/n): ").strip().lower()

    user_answers[symptom] = 1 if resp in ["s", "si"] else 0
    preguntas_realizadas += 1

    # Actualizar la predicci√≥n con los s√≠ntomas ingresados hasta el momento
    user_vector_df = pd.DataFrame([user_answers], columns=X.columns)
    user_vector_scaled = scaler.transform(user_vector_df)
    probs = clf.predict_proba(user_vector_scaled)[0]

    # Obtener las 3 enfermedades m√°s probables en este punto
    top3_idx = np.argsort(probs)[-3:][::-1]
    top_final_probabilities = []

    for idx in top3_idx:
        disease_code = clf.classes_[idx]
        disease_name = le.inverse_transform([disease_code])[0]

        # Obtener los s√≠ntomas reales de la enfermedad en el dataset (manejo de errores)
        disease_data = df.loc[df['nombre_de_la_enfermedad'] == disease_name, symptom_cols]

        if disease_data.empty or disease_data.iloc[0].sum() == 0:
            total_symptoms = 0
            symptoms_present = []
        else:
            disease_symptoms = disease_data.iloc[0]
            symptoms_present = disease_symptoms[disease_symptoms == 1].index.tolist()
            total_symptoms = len(symptoms_present)

        # Contar coincidencias con los s√≠ntomas ingresados por el usuario
        matched_symptoms = sum(user_answers.get(symptom, 0) for symptom in symptoms_present)
        probability_match = (matched_symptoms / total_symptoms) * 100 if total_symptoms > 0 else 0

        # Probabilidad del modelo
        model_probability = probs[idx] * 100

        # Nueva probabilidad combinada
        final_probability = round((model_probability + probability_match) / 2, 1)
        top_final_probabilities.append(final_probability)

    # Si ya se han hecho al menos 10 preguntas y alguna enfermedad tiene una probabilidad combinada ‚â• 70%, detener preguntas
    if preguntas_realizadas >= MIN_PREGUNTAS and max(top_final_probabilities) >= 70:
        print("\nüîπ Se ha alcanzado una alta probabilidad de enfermedad. No es necesario m√°s preguntas.\n")
        break

# Obtener las 3 enfermedades m√°s probables despu√©s de la fase de preguntas
probs = clf.predict_proba(user_vector_scaled)[0]
top3_idx = np.argsort(probs)[-3:][::-1]

# Lista de enfermedades finales y sus s√≠ntomas asociados
final_diseases = []
for idx in top3_idx:
    disease_code = clf.classes_[idx]
    disease_name = le.inverse_transform([disease_code])[0]

    # Obtener los s√≠ntomas reales de la enfermedad en el dataset (manejo de errores)
    disease_data = df.loc[df['nombre_de_la_enfermedad'] == disease_name, symptom_cols]

    if disease_data.empty or disease_data.iloc[0].sum() == 0:
        total_symptoms = 0
        symptoms_present = []
    else:
        disease_symptoms = disease_data.iloc[0]
        symptoms_present = disease_symptoms[disease_symptoms == 1].index.tolist()
        total_symptoms = len(symptoms_present)

    # Contar coincidencias con los s√≠ntomas ingresados por el usuario
    matched_symptoms = sum(user_answers.get(symptom, 0) for symptom in symptoms_present)
    probability_match = (matched_symptoms / total_symptoms) * 100 if total_symptoms > 0 else 0

    # Probabilidad del modelo
    model_probability = probs[idx] * 100

    # Nueva probabilidad combinada (redondeada)
    final_probability = round((model_probability + probability_match) / 2, 1)

    final_diseases.append({
        "nombre": disease_name,
        "probabilidad_modelo": round(model_probability, 1),
        "probabilidad_coincidencias": round(probability_match, 1),
        "probabilidad_final": final_probability,
        "s√≠ntomas_coincididos": matched_symptoms,
        "total_s√≠ntomas": total_symptoms
    })

# Mostrar diagn√≥stico final con ambas probabilidades combinadas
print("\n*** Diagn√≥stico Final basado en Modelo + Coincidencia de S√≠ntomas ***")
for rank, disease in enumerate(final_diseases, start=1):
    # Obtener descripci√≥n y tratamiento (manejo de errores)
    desc = df.loc[df['nombre_de_la_enfermedad'] == disease["nombre"], 'breve_descripci√≥n']
    treat = df.loc[df['nombre_de_la_enfermedad'] == disease["nombre"], 'tratamiento']

    desc = desc.values[0] if not desc.empty else "No disponible"
    treat = treat.values[0] if not treat.empty else "No disponible"

    print(f"\n{rank}. **{disease['nombre']}**")
    print(f"   - Probabilidad del modelo: {disease['probabilidad_modelo']:.1f}%")
    print(f"   - Probabilidad basada en s√≠ntomas: {disease['probabilidad_coincidencias']:.1f}% ({disease['s√≠ntomas_coincididos']}/{disease['total_s√≠ntomas']})")
    print(f"   - üîπ **Probabilidad final combinada**: {disease['probabilidad_final']:.1f}%")
    print(f"   *Descripci√≥n:* {desc}")
    print(f"   *Tratamiento:* {treat}\n")



Ingrese sus s√≠ntomas: tos, dolor de cabeza

Coincidencias encontradas:
'tos' coincide con 'tos' en el dataset.
'dolor de cabeza' coincide con 'dolor_de_cabeza' en el dataset.
Se han identificado 6 enfermedades relacionadas con sus s√≠ntomas.
Ingrese su edad: 21
Ingrese su g√©nero (M/F): M
Ingrese su peso en kg: 100
Ingrese su altura en metros: 2

Su IMC es 25.00, lo que corresponde a 'sobrepeso'.


Por favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):

¬øPresenta 'fiebre'? (s/n): s
¬øPresenta 'opresi√≥n_en_el_pecho'? (s/n): s
¬øPresenta 'dolor_muscular'? (s/n): n
¬øPresenta 'escalofr√≠os'? (s/n): s
¬øPresenta 'mareos'? (s/n): s
¬øPresenta 'dolor_de_garganta'? (s/n): s
¬øPresenta 'sibilancias'? (s/n): s
¬øPresenta 'dolor_en_el_pecho'? (s/n): n
¬øPresenta 'dificultad_respiratoria'? (s/n): s
¬øPresenta 'erupci√≥n_cut√°nea'? (s/n): n
¬øPresenta 'secreci√≥n_nasal_acuosa'? (s/n): s
¬øPresenta 'fiebre_alta'? (s/n): s
¬øPresenta 'dolor_de_cabeza'? (s/n): s
¬øPresenta 'estornud

In [None]:
import pandas as pd
import numpy as np
import difflib
import joblib
import re
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split

# Cargar el dataset y limpiar columnas
file_path = "Dataset_Enfermedades.csv"
df = pd.read_csv(file_path)
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')

# Definir columnas clave
risk_cols = ['hombre', 'mujer', 'obesidad', 'sobrepeso', 'peso_normal', 'desnutricion']
symptom_cols = [col for col in df.columns if col not in ['nombre_de_la_enfermedad', 'breve_descripci√≥n', 'tratamiento'] + risk_cols]

# Funci√≥n optimizada para encontrar s√≠ntomas v√°lidos
def encontrar_sintomas_validos(sintomas_usuario, symptom_cols, cutoff=0.85):
    sintomas_validos = []
    coincidencias = {}
    for s in sintomas_usuario:
        s = s.lower().strip()
        if s in symptom_cols:
            sintomas_validos.append(s)
            coincidencias[s] = s
        else:
            match = difflib.get_close_matches(s, symptom_cols, n=1, cutoff=cutoff)
            if match:
                sintomas_validos.append(match[0])
                coincidencias[s] = match[0]
    return sintomas_validos, coincidencias

# Solicitar s√≠ntomas al usuario
while True:
    intentos = 3
    while intentos > 0:
        entrada_usuario = input("Ingrese sus s√≠ntomas: ").lower().strip()
        sintomas_usuario = re.split(r'[,;]\s*', entrada_usuario)
        sintomas_usuario = [s.strip() for s in sintomas_usuario if s]
        sintomas_validos, coincidencias = encontrar_sintomas_validos(sintomas_usuario, symptom_cols, cutoff=0.70)

        if sintomas_validos:
            break
        else:
            intentos -= 1
            if intentos > 0:
                print(f"‚ö†Ô∏è No se encontraron coincidencias. Intente nuevamente ({intentos} intentos restantes).")

    print("\nCoincidencias encontradas:")
    for original, match in coincidencias.items():
        print(f"'{original}' coincide con '{match}' en el dataset.")

    if sintomas_validos:
        df['match_score'] = df[sintomas_validos].sum(axis=1) / len(sintomas_validos)
        threshold = max(0.5, df['match_score'].quantile(0.7))
        df_filtrado = df[df['match_score'] >= threshold].drop(columns=['match_score'])
    else:
        df_filtrado = df.copy()

    if len(df_filtrado) == 0:
        print("‚ö†Ô∏è No se encontraron enfermedades relacionadas. Intente nuevamente.")
    else:
        break

print(f"Se han identificado {len(df_filtrado)} enfermedades relacionadas con sus s√≠ntomas.")

# Codificar la variable objetivo
le = LabelEncoder()
df_filtrado['enfermedad_cod'] = le.fit_transform(df_filtrado['nombre_de_la_enfermedad'])

# Variables de entrada y salida
X = df_filtrado[symptom_cols + risk_cols]
y = df_filtrado['enfermedad_cod']

# Normalizar datos con MinMaxScaler
if len(X) > 0:
    scaler = MinMaxScaler()
    X_scaled = scaler.fit_transform(X)
else:
    print("‚ö†Ô∏è No hay datos suficientes para normalizar. Verifique el dataset.")
    exit()

# Verificar si hay suficientes datos para entrenamiento
if len(df_filtrado) > 1:
    X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
else:
    X_train, y_train = X_scaled, y
    X_test, y_test = X_scaled, y

# Entrenar el modelo de Random Forest sin validaci√≥n cruzada
clf = RandomForestClassifier(n_estimators=100, max_depth=10, criterion='entropy', random_state=42)
clf.fit(X_train, y_train)

# Guardar modelo y escalador
joblib.dump(clf, "modelo_random_forest.pkl")
joblib.dump(scaler, "scaler.pkl")

# Solicitar datos del usuario
def solicitar_numero(mensaje, tipo=float):
    while True:
        try:
            return tipo(input(mensaje))
        except ValueError:
            print("Entrada inv√°lida. Int√©ntelo de nuevo.")

edad = solicitar_numero("Ingrese su edad: ", int)
genero = input("Ingrese su g√©nero (M/F): ").strip().upper()
peso = solicitar_numero("Ingrese su peso en kg: ", float)
altura = solicitar_numero("Ingrese su altura en metros: ", float)

# Calcular IMC
imc = peso / (altura ** 2)
categoria_imc = ('desnutricion' if imc < 18.5 else 'peso_normal' if imc < 25 else 'sobrepeso' if imc < 30 else 'obesidad')
print(f"\nSu IMC es {imc:.2f}, lo que corresponde a '{categoria_imc}'.\n")

# Inicializar respuestas del usuario
user_answers = {symptom: 0 for symptom in symptom_cols}  # Todos los s√≠ntomas empiezan en 0
user_answers.update({risk: 0 for risk in risk_cols})  # Todos los factores de riesgo en 0
user_answers['hombre' if genero == 'M' else 'mujer'] = 1  # Marcamos g√©nero
user_answers[categoria_imc] = 1  # Marcamos categor√≠a IMC

# üîπ Marcar los s√≠ntomas ingresados por el usuario como 1
for sintoma in sintomas_validos:
    user_answers[sintoma] = 1  # Se asigna 1 a los s√≠ntomas que el usuario ya report√≥

# Filtrar enfermedades seg√∫n factores de riesgo del usuario
factores_usuario = ['hombre' if genero == 'M' else 'mujer', categoria_imc]
df_riesgo = df_filtrado.copy()

for factor in factores_usuario:
    df_riesgo = df_riesgo[df_riesgo[factor] == 1]  # Filtramos solo enfermedades que coincidan

# Si no hay suficientes enfermedades despu√©s del filtro, usamos todas las filtradas previamente
if df_riesgo.empty:
    df_riesgo = df_filtrado.copy()

# Seleccionar los s√≠ntomas m√°s frecuentes en enfermedades que coinciden con los factores de riesgo
top_symptoms = df_riesgo[symptom_cols].sum().sort_values(ascending=False).index.tolist()

# Asegurar que los s√≠ntomas ingresados por el usuario tambi√©n se pregunten
symptoms_to_ask = list(set(top_symptoms[:20]) - set(sintomas_validos))  # Excluye s√≠ntomas ya ingresados por el usuario

# Establecer un m√≠nimo de preguntas antes de interrumpir
MIN_PREGUNTAS = 10
preguntas_realizadas = 0

print("\nPor favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):\n")


for symptom in symptoms_to_ask:
    resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()

    # Validaci√≥n de entrada
    while resp not in ["s", "n", "si", "no"]:
        resp = input(f"‚ö†Ô∏è Entrada inv√°lida. ¬øPresenta '{symptom}'? (s/n): ").strip().lower()

    user_answers[symptom] = 1 if resp in ["s", "si"] else 0
    preguntas_realizadas += 1

    # Actualizar la predicci√≥n con los s√≠ntomas ingresados hasta el momento
    user_vector_df = pd.DataFrame([user_answers], columns=X.columns)
    user_vector_scaled = scaler.transform(user_vector_df)
    probs = clf.predict_proba(user_vector_scaled)[0]

    # Obtener las 3 enfermedades m√°s probables en este punto
    top3_idx = np.argsort(probs)[-3:][::-1]
    top_final_probabilities = []

    for idx in top3_idx:
        disease_code = clf.classes_[idx]
        disease_name = le.inverse_transform([disease_code])[0]

        # Obtener los s√≠ntomas reales de la enfermedad en el dataset (manejo de errores)
        disease_data = df.loc[df['nombre_de_la_enfermedad'] == disease_name, symptom_cols]

        if disease_data.empty or disease_data.iloc[0].sum() == 0:
            total_symptoms = 0
            symptoms_present = []
        else:
            disease_symptoms = disease_data.iloc[0]
            symptoms_present = disease_symptoms[disease_symptoms == 1].index.tolist()
            total_symptoms = len(symptoms_present)

        # Contar coincidencias con los s√≠ntomas ingresados por el usuario
        matched_symptoms = sum(user_answers.get(symptom, 0) for symptom in symptoms_present)
        probability_match = (matched_symptoms / total_symptoms) * 100 if total_symptoms > 0 else 0

        # Probabilidad del modelo
        model_probability = probs[idx] * 100

        # Nueva probabilidad combinada
        final_probability = round((model_probability + probability_match) / 2, 1)
        top_final_probabilities.append(final_probability)

    # Si ya se han hecho al menos 10 preguntas y alguna enfermedad tiene una probabilidad combinada ‚â• 70%, detener preguntas
    if preguntas_realizadas >= MIN_PREGUNTAS and max(top_final_probabilities) >= 70:
        print("\nüîπ Se ha alcanzado una alta probabilidad de enfermedad. No es necesario m√°s preguntas.\n")
        break

# Obtener las 3 enfermedades m√°s probables despu√©s de la fase de preguntas
probs = clf.predict_proba(user_vector_scaled)[0]
top3_idx = np.argsort(probs)[-3:][::-1]

# Lista de enfermedades finales y sus s√≠ntomas asociados
final_diseases = []
for idx in top3_idx:
    disease_code = clf.classes_[idx]
    disease_name = le.inverse_transform([disease_code])[0]

    # Obtener los s√≠ntomas reales de la enfermedad en el dataset (manejo de errores)
    disease_data = df.loc[df['nombre_de_la_enfermedad'] == disease_name, symptom_cols]

    if disease_data.empty or disease_data.iloc[0].sum() == 0:
        total_symptoms = 0
        symptoms_present = []
    else:
        disease_symptoms = disease_data.iloc[0]
        symptoms_present = disease_symptoms[disease_symptoms == 1].index.tolist()
        total_symptoms = len(symptoms_present)

    # Contar coincidencias con los s√≠ntomas ingresados por el usuario
    matched_symptoms = sum(user_answers.get(symptom, 0) for symptom in symptoms_present)
    probability_match = (matched_symptoms / total_symptoms) * 100 if total_symptoms > 0 else 0

    # Probabilidad del modelo
    model_probability = probs[idx] * 100

    # Nueva probabilidad combinada (redondeada)
    final_probability = round((model_probability + probability_match) / 2, 1)

    final_diseases.append({
        "nombre": disease_name,
        "probabilidad_modelo": round(model_probability, 1),
        "probabilidad_coincidencias": round(probability_match, 1),
        "probabilidad_final": final_probability,
        "s√≠ntomas_coincididos": matched_symptoms,
        "total_s√≠ntomas": total_symptoms
    })

# Mostrar diagn√≥stico final con ambas probabilidades combinadas
print("\n*** Diagn√≥stico Final basado en Modelo + Coincidencia de S√≠ntomas ***")
for rank, disease in enumerate(final_diseases, start=1):
    # Obtener descripci√≥n y tratamiento (manejo de errores)
    desc = df.loc[df['nombre_de_la_enfermedad'] == disease["nombre"], 'breve_descripci√≥n']
    treat = df.loc[df['nombre_de_la_enfermedad'] == disease["nombre"], 'tratamiento']

    desc = desc.values[0] if not desc.empty else "No disponible"
    treat = treat.values[0] if not treat.empty else "No disponible"

    print(f"\n{rank}. **{disease['nombre']}**")
    print(f"   - Probabilidad del modelo: {disease['probabilidad_modelo']:.1f}%")
    print(f"   - Probabilidad basada en s√≠ntomas: {disease['probabilidad_coincidencias']:.1f}% ({disease['s√≠ntomas_coincididos']}/{disease['total_s√≠ntomas']})")
    print(f"   - üîπ **Probabilidad final combinada**: {disease['probabilidad_final']:.1f}%")
    print(f"   *Descripci√≥n:* {desc}")
    print(f"   *Tratamiento:* {treat}\n")



Ingrese sus s√≠ntomas: tos, dolor de cabeza

Coincidencias encontradas:
'tos' coincide con 'tos' en el dataset.
'dolor de cabeza' coincide con 'dolor_de_cabeza' en el dataset.
Se han identificado 6 enfermedades relacionadas con sus s√≠ntomas.
Ingrese su edad: 21
Ingrese su g√©nero (M/F): m
Ingrese su peso en kg: 100
Ingrese su altura en metros: 2

Su IMC es 25.00, lo que corresponde a 'sobrepeso'.


Por favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):

¬øPresenta 'erupci√≥n_cut√°nea'? (s/n): n
¬øPresenta 'fiebre'? (s/n): s
¬øPresenta 'opresi√≥n_en_el_pecho'? (s/n): n
¬øPresenta 'secreci√≥n_nasal_acuosa'? (s/n): s
¬øPresenta 'fiebre_alta'? (s/n): s
¬øPresenta 'dolor_muscular'? (s/n): s
¬øPresenta 'estornudos'? (s/n): s
¬øPresenta 'escalofr√≠os'? (s/n): s
¬øPresenta 'congesti√≥n_nasal'? (s/n): s
¬øPresenta 'tos_seca'? (s/n): s
¬øPresenta 'p√©rdida_del_olfato_y_gusto'? (s/n): s
¬øPresenta 'mareos'? (s/n): n
¬øPresenta 'dolor_de_garganta'? (s/n): s
¬øPresenta 'sibilancias'

In [None]:
import pandas as pd
import numpy as np
import difflib
import joblib
import re
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split

# Cargar el dataset y limpiar columnas
file_path = "Dataset_Enfermedades.csv"
df = pd.read_csv(file_path)
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')

# Definir columnas clave
risk_cols = ['hombre', 'mujer', 'obesidad', 'sobrepeso', 'peso_normal', 'desnutricion']
symptom_cols = [col for col in df.columns if col not in ['nombre_de_la_enfermedad', 'breve_descripci√≥n', 'tratamiento'] + risk_cols]

# Funci√≥n optimizada para encontrar s√≠ntomas v√°lidos
def encontrar_sintomas_validos(sintomas_usuario, symptom_cols, cutoff=0.85):
    sintomas_validos = []
    coincidencias = {}
    for s in sintomas_usuario:
        s = s.lower().strip()
        if s in symptom_cols:
            sintomas_validos.append(s)
            coincidencias[s] = s
        else:
            match = difflib.get_close_matches(s, symptom_cols, n=1, cutoff=cutoff)
            if match:
                sintomas_validos.append(match[0])
                coincidencias[s] = match[0]
    return sintomas_validos, coincidencias

# Solicitar s√≠ntomas al usuario una √∫nica vez
intentos = 3
while intentos > 0:
    entrada_usuario = input("Ingrese sus s√≠ntomas: ").lower().strip()
    sintomas_usuario = re.split(r'[,;]\s*', entrada_usuario)
    sintomas_usuario = [s.strip() for s in sintomas_usuario if s]

    # Buscar coincidencias en el dataset
    sintomas_validos, coincidencias = encontrar_sintomas_validos(sintomas_usuario, symptom_cols, cutoff=0.70)

    if sintomas_validos:
        break  # Salimos del bucle si hay s√≠ntomas v√°lidos
    else:
        intentos -= 1
        if intentos > 0:
            print(f"‚ö†Ô∏è No se encontraron coincidencias. Intente nuevamente ({intentos} intentos restantes).")
        else:
            print("‚ùå No se ingresaron s√≠ntomas v√°lidos. Terminando ejecuci√≥n.")
            exit()  # Terminar si no hay s√≠ntomas v√°lidos

# Mostrar coincidencias encontradas
print("\nCoincidencias encontradas:")
for original, match in coincidencias.items():
    print(f"'{original}' coincide con '{match}' en el dataset.")

    # Filtrar enfermedades solo una vez y no repetir la solicitud de s√≠ntomas
    df['match_score'] = df[sintomas_validos].sum(axis=1) / len(sintomas_validos)
    umbral_dinamico = max(0.3, min(0.8, len(sintomas_validos) / len(symptom_cols)))
    threshold = max(0.5, df['match_score'].quantile(umbral_dinamico))
    df_filtrado = df[df['match_score'] >= threshold].drop(columns=['match_score'])

    if df_filtrado.empty:
      print("‚ö†Ô∏è No se encontraron enfermedades relacionadas. Sugerimos ingresar m√°s s√≠ntomas.")
      exit()  # Terminar si no hay enfermedades v√°lidas

      print(f"‚úÖ Se han identificado {len(df_filtrado)} enfermedades relacionadas con sus s√≠ntomas.\n")

    # üîπ Filtrado inicial basado en s√≠ntomas ingresados por el usuario
    if sintomas_validos:
        df['match_score'] = df[sintomas_validos].sum(axis=1) / len(sintomas_validos)

        # Ajuste del umbral din√°mico basado en la cantidad de s√≠ntomas ingresados
        umbral_dinamico = max(0.3, min(0.8, len(sintomas_validos) / len(symptom_cols)))
        threshold = max(0.5, df['match_score'].quantile(umbral_dinamico))

        df_filtrado = df[df['match_score'] >= threshold].drop(columns=['match_score'])
    else:
        df_filtrado = df.copy()

    if df_filtrado.empty:
      print("‚ö†Ô∏è No se encontraron enfermedades relacionadas. Sugerimos ingresar m√°s s√≠ntomas.")
      exit()


    if len(df_filtrado) == 0:
        print("‚ö†Ô∏è No se encontraron enfermedades relacionadas. Intente nuevamente.")
    else:
        break

print(f"Se han identificado {len(df_filtrado)} enfermedades relacionadas con sus s√≠ntomas.")

# Codificar la variable objetivo
le = LabelEncoder()
df_filtrado['enfermedad_cod'] = le.fit_transform(df_filtrado['nombre_de_la_enfermedad'])

# Variables de entrada y salida
X = df_filtrado[symptom_cols + risk_cols]
y = df_filtrado['enfermedad_cod']

# Normalizar datos con MinMaxScaler
if len(X) > 0:
    scaler = MinMaxScaler()
    X_scaled = scaler.fit_transform(X)
else:
    print("‚ö†Ô∏è No hay datos suficientes para normalizar. Verifique el dataset.")
    exit()

# Verificar si hay suficientes datos para entrenamiento
if len(df_filtrado) > 1:
    X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
else:
    X_train, y_train = X_scaled, y
    X_test, y_test = X_scaled, y

# Entrenar el modelo de Random Forest sin validaci√≥n cruzada
clf = RandomForestClassifier(n_estimators=100, max_depth=10, criterion='entropy', random_state=42)
clf.fit(X_train, y_train)

# Guardar modelo y escalador
joblib.dump(clf, "modelo_random_forest.pkl")
joblib.dump(scaler, "scaler.pkl")

# Solicitar datos del usuario
def solicitar_numero(mensaje, tipo=float):
    while True:
        try:
            return tipo(input(mensaje))
        except ValueError:
            print("Entrada inv√°lida. Int√©ntelo de nuevo.")

edad = solicitar_numero("Ingrese su edad: ", int)
genero = input("Ingrese su g√©nero (M/F): ").strip().upper()
peso = solicitar_numero("Ingrese su peso en kg: ", float)
altura = solicitar_numero("Ingrese su altura en metros: ", float)

# Calcular IMC
imc = peso / (altura ** 2)
categoria_imc = ('desnutricion' if imc < 18.5 else 'peso_normal' if imc < 25 else 'sobrepeso' if imc < 30 else 'obesidad')
print(f"\nSu IMC es {imc:.2f}, lo que corresponde a '{categoria_imc}'.\n")

# Inicializar respuestas del usuario
user_answers = {symptom: 0 for symptom in symptom_cols}  # Todos los s√≠ntomas empiezan en 0
user_answers.update({risk: 0 for risk in risk_cols})  # Todos los factores de riesgo en 0
user_answers['hombre' if genero == 'M' else 'mujer'] = 1  # Marcamos g√©nero
user_answers[categoria_imc] = 1  # Marcamos categor√≠a IMC

# Inicializar probabilidades din√°micas con los valores iniciales del modelo
probabilidades_dinamicas = {}

# Crear el vector de s√≠ntomas del usuario y transformarlo
user_vector_df = pd.DataFrame([user_answers], columns=X.columns)
user_vector_scaled = scaler.transform(user_vector_df)
probs = clf.predict_proba(user_vector_scaled)[0]  # Obtener probabilidades iniciales

# Obtener las 3 enfermedades m√°s probables y asignar sus probabilidades iniciales
top3_idx = np.argsort(probs)[-3:][::-1]  # √çndices de las 3 enfermedades m√°s probables

for idx in top3_idx:
    disease_code = clf.classes_[idx]
    disease_name = le.inverse_transform([disease_code])[0]  # Convertir c√≥digo a nombre
    probabilidades_dinamicas[disease_name] = probs[idx] * 100  # Guardar en porcentaje


# üîπ Marcar los s√≠ntomas ingresados por el usuario como 1
for sintoma in sintomas_validos:
    user_answers[sintoma] = 1  # Se asigna 1 a los s√≠ntomas que el usuario ya report√≥

# Filtrar enfermedades seg√∫n factores de riesgo del usuario
factores_usuario = ['hombre' if genero == 'M' else 'mujer', categoria_imc]
df_riesgo = df_filtrado.copy()

for factor in factores_usuario:
    df_riesgo = df_riesgo[df_riesgo[factor] == 1]  # Filtramos solo enfermedades que coincidan

# Si no hay suficientes enfermedades despu√©s del filtro, usamos todas las filtradas previamente
if df_riesgo.empty:
    df_riesgo = df_filtrado.copy()

# üîπ Generaci√≥n de preguntas din√°micas basadas en s√≠ntomas distintivos
sintomas_criticos = []
for enfermedad in df_riesgo['nombre_de_la_enfermedad'].unique():
    disease_data = df[df['nombre_de_la_enfermedad'] == enfermedad][symptom_cols]
    sintomas_unicos = disease_data.loc[:, (disease_data == 1).all()].columns.tolist()
    sintomas_criticos.extend(sintomas_unicos)

# Priorizar s√≠ntomas distintivos antes que s√≠ntomas frecuentes
symptoms_to_ask = list(set(sintomas_criticos + top_symptoms[:20]) - set(sintomas_validos))

if not symptoms_to_ask:
    print("\nüîπ No hay m√°s s√≠ntomas relevantes. Se agregan preguntas de respaldo.\n")
    symptoms_to_ask = list(set(symptom_cols) - set(sintomas_validos))[:10]


# Establecer un m√≠nimo de preguntas antes de interrumpir
MIN_PREGUNTAS = 10
preguntas_realizadas = 0

print("\nPor favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):\n")

for symptom in symptoms_to_ask:
    resp = input(f"¬øPresenta '{symptom}'? (s/n): ").strip().lower()

    # Validaci√≥n de entrada
    while resp not in ["s", "n", "si", "no"]:
        resp = input(f"‚ö†Ô∏è Entrada inv√°lida. ¬øPresenta '{symptom}'? (s/n): ").strip().lower()

    user_answers[symptom] = 1 if resp in ["s", "si"] else 0
    preguntas_realizadas += 1

# üîπ Correcci√≥n: Manejo de la selecci√≥n de preguntas din√°micas

# Generar lista de preguntas prioritarias basadas en s√≠ntomas distintivos y frecuentes
sintomas_criticos = []
for enfermedad in df_riesgo['nombre_de_la_enfermedad'].unique():
    disease_data = df[df['nombre_de_la_enfermedad'] == enfermedad][symptom_cols]
    sintomas_unicos = disease_data.loc[:, (disease_data == 1).all()].columns.tolist()
    sintomas_criticos.extend(sintomas_unicos)

# Priorizar s√≠ntomas distintivos antes que s√≠ntomas frecuentes
symptoms_to_ask = list(set(sintomas_criticos + top_symptoms[:20]) - set(sintomas_validos))

# üîπ Correcci√≥n: Manejo de preguntas de respaldo si no hay suficientes s√≠ntomas distintivos
if not symptoms_to_ask:
    print("\nüîπ No hay m√°s s√≠ntomas relevantes. Se agregan preguntas de respaldo.\n")
    symptoms_to_ask = list(set(symptom_cols) - set(sintomas_validos))[:10]

# üîπ Correcci√≥n: Ajuste din√°mico en la eliminaci√≥n de enfermedades
for enfermedad in list(probabilidades_dinamicas.keys()):
    if user_answers[symptom] == 0:  # Si el usuario dice "No"
        factor_reduccion = max(0.85, 1 - (preguntas_realizadas / 100))  # üîπ Se reduce de forma m√°s controlada
        probabilidades_dinamicas[enfermedad] *= factor_reduccion
    elif user_answers[symptom] == 1:  # Si el usuario dice "S√≠"
        probabilidades_dinamicas[enfermedad] *= 1.05

    # üîπ Correcci√≥n: Evitar eliminaciones prematuras antes de 8 preguntas
    if preguntas_realizadas < 8:
        continue

    # üîπ Eliminaci√≥n de enfermedades con probabilidad menor al 20% en fases avanzadas
    if probabilidades_dinamicas[enfermedad] < 20:
        del probabilidades_dinamicas[enfermedad]

    # Actualizar la predicci√≥n con los s√≠ntomas ingresados hasta el momento
    user_vector_df = pd.DataFrame([user_answers], columns=X.columns)
    user_vector_scaled = scaler.transform(user_vector_df)
    probs = clf.predict_proba(user_vector_scaled)[0]


    # Obtener las 3 enfermedades m√°s probables en este punto
    top3_idx = np.argsort(probs)[-3:][::-1]
    top_final_probabilities = []

    for idx in top3_idx:
        disease_code = clf.classes_[idx]
        disease_name = le.inverse_transform([disease_code])[0]

        # Obtener los s√≠ntomas reales de la enfermedad en el dataset (manejo de errores)
        disease_data = df.loc[df['nombre_de_la_enfermedad'] == disease_name, symptom_cols]

        if disease_data.empty or disease_data.iloc[0].sum() == 0:
            total_symptoms = 0
            symptoms_present = []
        else:
            disease_symptoms = disease_data.iloc[0]
            symptoms_present = disease_symptoms[disease_symptoms == 1].index.tolist()
            total_symptoms = len(symptoms_present)

        # Contar coincidencias con los s√≠ntomas ingresados por el usuario
        matched_symptoms = sum(user_answers.get(symptom, 0) for symptom in symptoms_present)
        probability_match = (matched_symptoms / total_symptoms) * 100 if total_symptoms > 0 else 0

        # Probabilidad del modelo
        model_probability = probs[idx] * 100

        # Nueva probabilidad combinada
        final_probability = round((model_probability + probability_match) / 2, 1)
        top_final_probabilities.append(final_probability)

    # Si ya se han hecho al menos 10 preguntas y alguna enfermedad tiene una probabilidad combinada ‚â• 70%, detener preguntas
    if preguntas_realizadas >= MIN_PREGUNTAS and max(top_final_probabilities) >= 70:
        print("\nüîπ Se ha alcanzado una alta probabilidad de enfermedad. No es necesario m√°s preguntas.\n")
        break

# Obtener las 3 enfermedades m√°s probables despu√©s de la fase de preguntas
probs = clf.predict_proba(user_vector_scaled)[0]
top3_idx = np.argsort(probs)[-3:][::-1]

# Lista de enfermedades finales y sus s√≠ntomas asociados
final_diseases = []
for idx in top3_idx:
    disease_code = clf.classes_[idx]
    disease_name = le.inverse_transform([disease_code])[0]

    # Obtener los s√≠ntomas reales de la enfermedad en el dataset (manejo de errores)
    disease_data = df.loc[df['nombre_de_la_enfermedad'] == disease_name, symptom_cols]

    if disease_data.empty or disease_data.iloc[0].sum() == 0:
        total_symptoms = 0
        symptoms_present = []
    else:
        disease_symptoms = disease_data.iloc[0]
        symptoms_present = disease_symptoms[disease_symptoms == 1].index.tolist()
        total_symptoms = len(symptoms_present)

    # Contar coincidencias con los s√≠ntomas ingresados por el usuario
    matched_symptoms = sum(user_answers.get(symptom, 0) for symptom in symptoms_present)
    probability_match = (matched_symptoms / total_symptoms) * 100 if total_symptoms > 0 else 0

    # Probabilidad del modelo
    model_probability = probs[idx] * 100

    # Nueva probabilidad combinada (redondeada)
    final_probability = round((model_probability + probability_match) / 2, 1)

    final_diseases.append({
        "nombre": disease_name,
        "probabilidad_modelo": round(model_probability, 1),
        "probabilidad_coincidencias": round(probability_match, 1),
        "probabilidad_final": final_probability,
        "s√≠ntomas_coincididos": matched_symptoms,
        "total_s√≠ntomas": total_symptoms
    })

# Mostrar diagn√≥stico final con ambas probabilidades combinadas
print("\n*** Diagn√≥stico Final basado en Modelo + Coincidencia de S√≠ntomas ***")
for rank, disease in enumerate(final_diseases, start=1):
    # Obtener descripci√≥n y tratamiento (manejo de errores)
    desc = df.loc[df['nombre_de_la_enfermedad'] == disease["nombre"], 'breve_descripci√≥n']
    treat = df.loc[df['nombre_de_la_enfermedad'] == disease["nombre"], 'tratamiento']

    desc = desc.values[0] if not desc.empty else "No disponible"
    treat = treat.values[0] if not treat.empty else "No disponible"

    print(f"\n{rank}. **{disease['nombre']}**")
    print(f"   - Probabilidad del modelo: {disease['probabilidad_modelo']:.1f}%")
    print(f"   - Probabilidad basada en s√≠ntomas: {disease['probabilidad_coincidencias']:.1f}% ({disease['s√≠ntomas_coincididos']}/{disease['total_s√≠ntomas']})")
    print(f"   - üîπ **Probabilidad final combinada**: {disease['probabilidad_final']:.1f}%")
    print(f"   *Descripci√≥n:* {desc}")
    print(f"   *Tratamiento:* {treat}\n")



Ingrese sus s√≠ntomas: tos, dolor de cabeza

Coincidencias encontradas:
'tos' coincide con 'tos' en el dataset.
Se han identificado 6 enfermedades relacionadas con sus s√≠ntomas.
Ingrese su edad: 2
Ingrese su g√©nero (M/F): M
Ingrese su peso en kg: 100
Ingrese su altura en metros: 2

Su IMC es 25.00, lo que corresponde a 'sobrepeso'.


Por favor responda las siguientes preguntas con 's' (s√≠) o 'n' (no):

¬øPresenta 'erupci√≥n_cut√°nea'? (s/n): n
¬øPresenta 'fiebre'? (s/n): s
¬øPresenta 'opresi√≥n_en_el_pecho'? (s/n): n
¬øPresenta 'secreci√≥n_nasal_acuosa'? (s/n): s
¬øPresenta 'fiebre_alta'? (s/n): s
¬øPresenta 'parches_rojos_con_escamas_plateadas'? (s/n): n
¬øPresenta 'dolor_muscular'? (s/n): s
¬øPresenta 'palidez'? (s/n): n
¬øPresenta 'picaz√≥n'? (s/n): n
¬øPresenta 'estornudos'? (s/n): s
¬øPresenta 'conjuntivitis'? (s/n): n
¬øPresenta 'escalofr√≠os'? (s/n): s
¬øPresenta 'congesti√≥n_nasal'? (s/n): s
¬øPresenta 'palpitaciones'? (s/n): n
¬øPresenta 'tos_seca'? (s/n): s
¬øPresenta 'p√©