In [4]:
# ===============================
# NLP en textos clínicos simulados
# ===============================

# 1. Librerías necesarias
import pandas as pd
import re
import spacy
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from google.colab import files

# 2. Subir archivo CSV
print("📂 Sube el archivo CSV (dataset_clinico_simulado_200.csv)")
uploaded = files.upload()

# 3. Cargar dataset
FILE_NAME = list(uploaded.keys())[0]   # toma el nombre del archivo subido
df = pd.read_csv(FILE_NAME)

print("\n✅ Dataset cargado correctamente:")
print(df.head())

# 4. Preprocesamiento básico
def limpiar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r"[^a-záéíóúüñ0-9\s]", "", texto)
    return texto

df["limpio"] = df["texto_clinico"].astype(str).apply(limpiar_texto)

# 5. Tokenización y lematización con spaCy
nlp = spacy.load("es_core_news_sm")

def tokenizar_y_lematizar(texto):
    doc = nlp(texto)
    tokens = [token.lemma_ for token in doc if not token.is_stop and not token.is_punct]
    return tokens

df["tokens"] = df["limpio"].apply(tokenizar_y_lematizar)

# 6. TF-IDF
vectorizer = TfidfVectorizer(tokenizer=lambda x: x, preprocessor=lambda x: x)
X_tfidf = vectorizer.fit_transform(df["tokens"])

# 7. Matriz de similitud coseno
sim_matrix = cosine_similarity(X_tfidf)

# 8. Ejemplo de similitud entre textos
print("\n🔍 Similitud entre el primer y segundo texto:")
print(sim_matrix[0, 1])

# 9. Mostrar términos más relevantes por TF-IDF
def top_terms_tfidf(row_index, top_n=5):
    row = X_tfidf[row_index].toarray().flatten()
    indices = row.argsort()[::-1][:top_n]
    terms = [(vectorizer.get_feature_names_out()[i], row[i]) for i in indices]
    return terms

print("\n📌 Términos más relevantes del primer registro:")
print(top_terms_tfidf(0, top_n=10))

📂 Sube el archivo CSV (dataset_clinico_simulado_200.csv)


Saving dataset_clinico_simulado_200.csv to dataset_clinico_simulado_200 (2).csv

✅ Dataset cargado correctamente:
                                       texto_clinico  edad genero  \
0  El paciente presenta síntomas leves como dolor...    43      M   
1  Consulta por hipertensión leve sin signos de a...    34      F   
2  Evolución rápida del cuadro clínico, compatibl...    34      M   
3  El paciente presenta síntomas leves como tos y...    58      M   
4  El cuadro clínico indica asma, con síntomas co...    45      M   

                     afeccion  gravedad  
0             resfriado común      leve  
1           hipertensión leve      leve  
2  infarto agudo de miocardio    severo  
3             gastroenteritis      leve  
4                        asma  moderado  

🔍 Similitud entre el primer y segundo texto:
0.13616421120394842

📌 Términos más relevantes del primer registro:
[('dificultad', np.float64(0.40757659002008145)), ('respiratorio', np.float64(0.40757659002008145)), ('ca



NLP en Textos Clínicos
Proyecto: Similitud y Términos Clave en Notas Médicas
 Descripción

Este proyecto aplica técnicas tradicionales de NLP (Procesamiento de Lenguaje Natural) para analizar textos clínicos simulados. Se busca:

Preprocesar los textos clínicos (limpieza, normalización, tokenización, lematización).

Representar los textos con modelos vectoriales como TF-IDF.

Calcular similitud entre textos usando coseno de similitud.

Extraer términos clave relevantes de cada documento.

El enfoque está diseñado para datos médicos simulados, pero puede adaptarse a escenarios reales con precaución y respetando aspectos éticos.

 Resultados esperados

Tabla de similitud: muestra qué textos clínicos son más similares entre sí.

Palabras clave: términos médicos más relevantes por nota.

Visualizaciones: mapas de calor y gráficos con distribución de términos.

 Ejemplo de salida

Similitud coseno entre el documento 0 y 1: 0.82

Palabras clave doc 0: ['hipertensión', 'tratamiento', 'control']

 Reflexión crítica

Ética y sesgos: Los textos clínicos reales contienen información sensible; este ejemplo usa datos simulados.

Limitaciones: TF-IDF y similitud coseno no capturan semántica profunda; pueden confundir sinónimos o contextos clínicos complejos.

Interpretabilidad: El modelo es sencillo y explicable, útil para equipos médicos no técnicos.

En este trabajo aplicamos técnicas clásicas de NLP (Procesamiento de Lenguaje Natural) sobre textos clínicos simulados. Se implementaron pasos de preprocesamiento como limpieza, tokenización, lematización y vectorización con TF-IDF, lo que permitió transformar el texto en una representación numérica interpretable por algoritmos de aprendizaje automático. Posteriormente, se calcularon similitudes de coseno para identificar relaciones entre documentos, además de la extracción de términos clave relevantes.

Los resultados muestran que estas técnicas, aunque básicas frente a modelos modernos como transformers, siguen siendo muy útiles en contextos donde se requiere interpretabilidad y eficiencia computacional, como en el análisis preliminar de reportes médicos. Sin embargo, también debemos considerar desafíos importantes:

La ética y privacidad de los datos clínicos, que son altamente sensibles.

La posibilidad de sesgos si los datos no representan adecuadamente la población real.

La necesidad de modelos más avanzados en escenarios donde se requiera mayor precisión o comprensión semántica profunda.

En conclusión, este ejercicio demuestra que el NLP tradicional ofrece una base sólida para análisis clínico automatizado, y que puede ser un punto de partida antes de avanzar hacia modelos más sofisticados de Machine Learning y Deep Learning.