Este proyecto tiene como objetivo desarrollar un modelo de procesamiento
de lenguaje natural (NLP) capaz de generar resúmenes clínicos automáticos
a partir de un dataset de alrededor de 1700 conversaciones entre doctores y
sus pacientes, junto con los respectivos resúmenes y anotaciones.

    Los objetivos de esta entrega 3 son:

    1. Correciones de la entrega 2:

Por ejemplo, ¿por qué lematizais? ¿Habéis analizado qué pasa con los word embeddings lematizado vs no-lematizado? Para embeddings la recomendación es no lematizar y con tf-idf habría que analizarlo con la tarea que queráis resolver. Además, ¿qué son lo que vosotros denomiáis tokens? Porque de 4367 palabras únicas no sé cómo salen 173,867 tokens.

Por otro lado, el análisis de longitud está muy bien pero lo hacéis a nivel de palabra, no de token. De cara a siguientes entregas hacerlo también a nivel de token para ver si un BIOBert por ejemplo tiene contexto suficiente.



    2. Definición de la tarea:
Generación de resúmenes y clasificación del diagnóstico.

    3. Tareas Específicas de la entrega 3

Para ello, se deberán usar técnicas tanto de Shallow ML (o ML tradicional), como algunos de los modelos de CNNs o Redes Recurrentes que hemos visto en clase.

Comparar experimentos usando distintas métricas y optimizar los hiperparámetros.

Usar atención, combinar features (no creo que aplique a nuestro problema)

    Mínimos exigibles:
Dos técnicas de Shallow Learning utilizando técnicas de representación dispersa/sparse.

Dos técnicas de Deep Learning comparando diferentes tipos de embeddings y fine-tuneandolos dependiendo del caso. Ejemplos:

Word2Vec congelado vs Word2Vec fine-tuneado vs Word2Vec “from scratch”

Embedding fine-tuneado durante el entrenamiento vs Embedding inicializado

Comparar al menos dos formas de embeddings de cada tipo:

Tradicionales: e.g., Bag-of-Words, TF-IDF, etc.

Semánticos No-Contextuales: e.g., Glove, FastText, Word2Vec, etc.

Contextuales: e.g., ELMo, BERT, Modelos pre-entrenados de Hugging-Face, etc.

In [None]:

# Instalación de librerías
%pip install -q spacy gensim transformers torch tensorflow tensorflow-hub seaborn matplotlib scikit-learn


# Descargar modelo de idioma de spaCy
%pip install https://s3-us-west-2.amazonaws.com/ai2-s2-scispacy/releases/v0.5.4/en_core_sci_md-0.5.4.tar.gz

# Imports
import re
import pickle
import unicodedata
from collections import Counter

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# NLP y embeddings
import spacy
from gensim.models import Word2Vec
import gensim.downloader as api
from transformers import AutoTokenizer, AutoModel

# Machine Learning
from sklearn.preprocessing import LabelEncoder
from sklearn.decomposition import PCA
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

# Deep Learning
import torch
import tensorflow as tf
import tensorflow_hub as hub

In [None]:
def normalize_text(s, lowercase=True):
    if pd.isna(s):
        return ""
    # Normalizar unicode
    s = unicodedata.normalize("NFKC", str(s))
    # Marcadores de quién habla
    s = re.sub(r'\bDoctor[:\-]\s*', ' <DOC> ', s, flags=re.I)
    s = re.sub(r'\bPatient[:\-]\s*', ' <PAT> ', s, flags=re.I)
    # Espacios
    s = re.sub(r'\s+', ' ', s).strip()
    # Lowercase opcional
    if lowercase:
        s = s.lower()
    return s

# Versión para ELMo (lowercase)
df['dialog_clean'] = df['dialogue'].apply(lambda x: normalize_text(x, lowercase=True))

# Versión para BIO/ClinicalBERT (manteniendo mayúsculas)
df['dialog_clean_clinicBERT'] = df['dialogue'].apply(lambda x: normalize_text(x, lowercase=False))

# Los resúmenes
df['section_text_clean'] = df['section_text'].apply(lambda x: normalize_text(x, lowercase=True))

In [None]:
# Embeddings (sin lemmatization)

w2v = api.load("word2vec-google-news-300")          # Word2Vec




In [None]:
# Obtener vocabulario del dataset
all_tokens = []
for text in df['dialog_lemma']:
    if pd.notna(text):
        all_tokens.extend(text.split())

vocab = set(all_tokens)
vocab_freq = Counter(all_tokens)

print(f"\nVocabulario total: {len(vocab):,} palabras únicas")
print(f"Total de tokens: {len(all_tokens):,}")

# Análisis para cada modelo
models = {
    'Word2Vec (Google News)': w2v,
    'GloVe (Wiki Gigaword)': glove,
    'FastText (Wiki News)': ft
}

results = []

for model_name, model in models.items():
    print(f"\nModelo: {model_name}")
    
    found_words = [w for w in vocab if w in model.key_to_index]
    missing_words = [w for w in vocab if w not in model.key_to_index]
    
    found_tokens = sum(vocab_freq[w] for w in found_words)
    total_tokens = sum(vocab_freq.values())
    
    coverage_vocab = len(found_words) / len(vocab) * 100
    coverage_tokens = found_tokens / total_tokens * 100
    
    print(f"Palabras encontradas: {len(found_words):,}/{len(vocab):,} ({coverage_vocab:.2f}%)")
    print(f"Tokens cubiertos: {found_tokens:,}/{total_tokens:,} ({coverage_tokens:.2f}%)")
    
    missing_freq = {w: vocab_freq[w] for w in missing_words}
    top_missing = sorted(missing_freq.items(), key=lambda x: x[1], reverse=True)[:10]
    
    print(f"\nTop 10 palabras NO encontradas (más frecuentes):")
    for word, freq in top_missing:
        print(f"  {word:20s}: {freq:5d} ocurrencias")
    
    results.append({
        'Modelo': model_name,
        'Cobertura Vocabulario (%)': round(coverage_vocab, 2),
        'Cobertura Tokens (%)': round(coverage_tokens, 2),
        'Palabras Encontradas': len(found_words),
        'Palabras No Encontradas': len(missing_words)
    })

# Tabla comparativa
print("\nTABLA COMPARATIVA DE COBERTURA")
results_df = pd.DataFrame(results)
print(results_df.to_string(index=False))