In [None]:
import pandas as pd
import spacy
import matplotlib.pyplot as plt
from collections import Counter

# Configurar pandas para ver texto completo
pd.set_option('display.max_colwidth', 150)

# Cargar el dataset unificado (CodiEsp + MTSamples) que se guard√≥ en el Notebook 1
try:
    df = pd.read_csv('../data/processed/datos_triaje_unificados.csv')
    print(f"‚úÖ Datos cargados correctamente. Total de filas: {len(df)}")
    print(f"üìä Dataset unificado con casos de CodiEsp + MTSamples traducido")
except FileNotFoundError:
    print("‚ùå Error: No se encuentra el archivo. Verifica que se ejecut√≥ el Notebook 1 completo.")

# Cargar el modelo de lenguaje en espa√±ol de Spacy
try:
    nlp = spacy.load("es_core_news_sm")
    print("‚úÖ Modelo de lenguaje espa√±ol (SpaCy) cargado.")
except OSError:
    print("‚ùå Error: Modelo de SpaCy no encontrado. Ejecuta en tu terminal: python -m spacy download es_core_news_sm")

‚úÖ Datos cargados correctamente. Total de filas: 6922
‚úÖ Modelo de lenguaje espa√±ol (SpaCy) cargado.


In [2]:
# Definir las palabras que no se quieren eliminar (negaciones)
negaciones = {'no', 'sin', 'ni', 'nunca', 'jam√°s', 'tampoco'}

# Definir las palabras que se quiere eliminar (stopwords)
stopwords = nlp.Defaults.stop_words

# Ajustar las stopwords para que las negaciones no se eliminen
for palabra in negaciones:
    nlp.vocab[palabra].is_stop = False

def procesar_texto_medico(texto):
    # 1. Convertir a objeto SpaCy (Tokenizaci√≥n autom√°tica)
    doc = nlp(texto)
    
    tokens_limpios = []
    
    for token in doc:
        # Filtros:
        # - Que no sea signo de puntuaci√≥n (is_punct)
        # - Que no sea una 'stopword' (is_stop)
        # - Que sea letras y no n√∫meros sueltos (is_alpha)
        if not token.is_punct and not token.is_stop and token.is_alpha:
            # 2. Lematizaci√≥n: Tomar la ra√≠z de la palabra (lemma_) y se pasa a min√∫sculas
            tokens_limpios.append(token.lemma_.lower())
            
    # Unir las palabras limpias de nuevo en una frase
    return " ".join(tokens_limpios)

# Probemos la funci√≥n con un ejemplo
ejemplo = "El paciente presenta dolores fuertes en el abdomen y v√≥mitos constantes."
print(f"Original: {ejemplo}")
print(f"Procesado: {procesar_texto_medico(ejemplo)}")

Original: El paciente presenta dolores fuertes en el abdomen y v√≥mitos constantes.
Procesado: paciente presentar dolor fuerte abdomen v√≥mito constante


In [3]:
print("‚è≥ Procesando todo el dataset (esto puede tardar unos segundos)...")

# Aplicar la funci√≥n a la columna 'sintomas'
df['sintomas_procesados'] = df['sintomas'].apply(procesar_texto_medico)

print("‚úÖ ¬°Procesamiento terminado!")

# Comparar el Antes y el Despu√©s
display(df[['sintomas', 'sintomas_procesados']].head(5))

‚è≥ Procesando todo el dataset (esto puede tardar unos segundos)...
‚úÖ ¬°Procesamiento terminado!


Unnamed: 0,sintomas,sintomas_procesados
0,Se trata de un var√≥n de 27 a√±os de edad que ingresa por politraumatismo despu√©s de precipitarse desde 15 metros. Es atendido en el lugar del accid...,var√≥n a√±o edad ingresar politraumatismo precipitar √©l metro atender lugar accidente glasgow coma scale punto estabilidad hemodin√°mico tacht diagno...
1,"DIAGN√ìSTICO DE INGRESO: , Fractura de cadera izquierda.,QUEJA PRINCIPAL: , Funci√≥n disminuida, secundaria a lo anterior.,HISTORIAL: , Este agradab...",diagn√≥stico ingreso fractura cadera izquierdo principal funci√≥n disminuido secundario agradable caballero a√±o ca√≠da nivel suelo casa llevar centro...
2,"DIAGN√ìSTICO: C√°ncer de nasofaringe T1 N3 M0, estado posterior a la radioterapia con 2 ciclos de dosis altas de cisplatino con radiaci√≥n, completad...",diagn√≥stico c√°ncer nasofaringe posterior radioterapia ciclo dosis alto cisplatino radiaci√≥n completado junio posterior ciclo administrado terapia ...
3,QUEJA PRINCIPAL: Dolor de espalda severo y somnolencia. La paciente no es un buen historiador y la historia se obtuvo del esposo de la paciente ju...,queja principal dolor espalda severo somnolencia paciente no historiador historia obtener esposo paciente cama antecedente enfermedad actual pacie...
4,"DIAGN√ìSTICO PREOPERATORIO: Quiste seb√°ceo reinfectado recurrente del abdomen. DIAGN√ìSTICO POSTOPERATORIO:,1. Absceso secundario a cuerpo extra√±o ...",diagn√≥stico preoperatorio quiste seb√°ceo reinfectado recurrente abdomen diagn√≥stico absceso secundario cuerpo extra√±o retenido hernia incisional e...


In [4]:
from wordcloud import WordCloud

# Unir todo el texto procesado en un solo bloque gigante
texto_completo = " ".join(df['sintomas_procesados'])

# Generar la nube de palabras
wordcloud = WordCloud(width=800, height=400, background_color='white', colormap='twilight').generate(texto_completo)

plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('S√≠ntomas m√°s frecuentes en TrIAje 593')
plt.show()

ModuleNotFoundError: No module named 'wordcloud'

In [None]:
# Guardar solo las columnas que se necesitan para entrenar
df_final = df[['sintomas_procesados', 'especialidad']]

# Eliminar filas que hayan quedado vac√≠as despu√©s de la limpieza
df_final = df_final[df_final['sintomas_procesados'].str.strip() != '']

# Guardar el dataset procesado y aumentado (CodiEsp + MTSamples)
df_final.to_csv('../data/processed/datos_nlp_procesados_aumentados.csv', index=False)
print(f"‚úÖ Archivo 'datos_nlp_procesados_aumentados.csv' guardado en /data/processed")
print(f"üìä Dataset listo para Machine Learning con {len(df_final)} casos procesados")

‚úÖ Archivo 'datos_nlp_procesados.csv' guardado en /data ready para Machine Learning.
