# Estructura de anotaciones en CANTEMIST

En cantemist-norm los datos se presentan de la siguiente manera:
- nota1.txt
- nota1.ann <- Fichero de anotaci√≥n

La anotaci√≥n viene en un fichero de texto por filas. Cada dos filas est√°n organizadas de la siguiente forma:
La primera fila contiene esta informaci√≥n (sin header)

| indice t√©rmino | categoria | start char offset | end char offset | mention string |
|----|-----|-----|-----|----|
| T1 | MORFOLOGIA_NEOPLASIA | 3332 | 3341 | Carcinoma miocr√≠tico |

La segunda fila tiene esta informaci√≥n (sin header)
| indice | Annotator Notes | indice t√©rmino | eCIE-O 3.1 code |
|----|----|----|----|
| #1| AnnotatorNotes | T1 | 8041/3 |

La anotaci√≥n en la segunda fila se corresponde al t√©rmino descrito en la primera. Para parsear estas anotaciones a un formato m√°s legible he implementado la siguiente celda con la funci√≥n `parse_cantemist_annotation()`.


In [16]:
import os
import pandas as pd


def parse_cantemist_annotation(ann_path):
    ''' Parsea anotaciones de Cantemist para hacer un dataframe estructurado.
    
        Input: Un fichero de anotaci√≥n de cantemist. 
        Output: Un dataframe con la anotaci√≥n estructurada.
    '''
    # Comprueba que el fichero no est√© vac√≠o
    if os.path.getsize(ann_path) == 0:
        return pd.DataFrame(columns=['term_idx', 'text', 'category', 'char_start', 'char_end', 'ICD-O Code'])
    
    # Lee el fichero de anotaci√≥n
    ann = pd.read_csv(
        ann_path,
        sep = '\t',
        dtype=str,
        encoding='utf-8',
        header=None
    )

    # Parsea la parte de las coordenadas
    nota_coords = ann[ann[0].str.startswith('T')].copy()
    split = nota_coords[1].str.split(' ', expand=True)
    nota_coords = pd.concat([nota_coords[[0, 2]], split], axis=1)
    nota_coords.columns = ['term_idx', 'text', 'category', 'char_start', 'char_end']

    # Parsea las filas de anotaci√≥n
    nota_ann = ann[ann[0].str.startswith('#')].copy()
    nota_ann[0] = nota_ann[0].str.replace('#', 'T')
    nota_ann = nota_ann.drop(1, axis=1)
    nota_ann.columns = ['term_idx', 'ICD-O Code']

    # Merge de las dos partes
    merged = pd.merge(nota_coords, nota_ann, on='term_idx', how='inner')

    return merged


In [2]:
data_path = "../.data/Cantemist/dev-set1/cantemist-norm/"
nota = "cc_onco853.ann"

df = parse_cantemist_annotation(data_path + nota)

print(df.head())


Empty DataFrame
Columns: [term_idx, text, category, char_start, char_end, ICD-O Code]
Index: []


# Frecuencia de t√©rminos
Ahora que s√© parsear las anotaciones de Cantemist, quiero ver cu√°l es el t√©rmino m√°s frecuente en las notas. Para ello voy a leer todas las notas de .data/Cantemist/dev-set1/cantemist-norm/ e ir anotaci√≥n por anotaci√≥n contando los c√≥digos ICD-O que aparecen.

In [3]:
import os


data_path = '../.data/Cantemist/dev-set1/cantemist-norm/'

dict_counts = {}

for nota in os.listdir(data_path):
    if nota.endswith('.ann'):
        df = parse_cantemist_annotation(data_path + nota)
        
        # Cuenta el n√∫mero de veces que aparece cada c√≥digo ICD-O
        code_counts = df['ICD-O Code'].value_counts()
        for code, count in code_counts.items():
            if code in dict_counts:
                dict_counts[code] += count
            else:
                dict_counts[code] = count

In [4]:
# Convierte el diccionario a un dataframe para visualizarlo mejor
counts_df = pd.DataFrame(list(dict_counts.items()), columns=['ICD-O Code', 'Count'])
counts_df = counts_df.sort_values(by='Count', ascending=False)

# Carga el mapa de c√≥digos a t√©rminos
ecie_umls_map = pd.read_csv(
    "../.data/mappings/ICD-O-3.1-NCIt_Morphology_Mapping.txt",
    sep = '\t',
    dtype=str,
    encoding='utf-8'
)

# A√±ade a cada c√≥digo su t√©rmino preferido
counts_df = counts_df.merge(
    ecie_umls_map[ecie_umls_map['Term Type'] == 'PT'][['ICD-O Code', 'ICD-O string']],
    on='ICD-O Code',
    how='left'
)

print(counts_df.head(20))

   ICD-O Code  Count                                       ICD-O string
0      8000/6   1220                               Neoplasm, metastatic
1      8000/1    589    Neoplasm, uncertain whether benign or malignant
2      8000/3    242                                Neoplasm, malignant
3      8140/3     88                                Adenocarcinoma, NOS
4      8500/3     52                   Infiltrating duct carcinoma, NOS
5      8010/3     46                                     Carcinoma, NOS
6      8140/6     41                    Adenocarcinoma, metastatic, NOS
7      8720/3     33                            Malignant melanoma, NOS
8      8001/1     29  Tumor cells, uncertain whether benign or malig...
9      8001/3     25                             Tumor cells, malignant
10     8010/9     23                                     Carcinomatosis
11     8720/6     22                                                NaN
12     8010/6     21                         Carcinoma, metastat

Una vez tenemos el t√©rmino que queremos buscar, en este caso "Adenocarcinoma, metastasic, NOS" (C√≥digo 8140/3), buscamos sus sin√≥nimos para aumentar el texto a encontrar en las notas.

In [None]:
def find_synonims(code):
    '''Funci√≥n para encontrar los sin√≥nimos de un c√≥digo ICD-O.
        Input: c√≥digo ICD-O (str).
        Output: lista de sin√≥nimos (list of str).
    '''
    
    # Carga el mapa de c√≥digos a t√©rminos
    ecie_umls_map = pd.read_csv(
        "../.data/mappings/ICD-O-3.1-NCIt_Morphology_Mapping.txt",
        sep = '\t',
        dtype=str,
        encoding='utf-8'
    )
    
    filtered = ecie_umls_map[(ecie_umls_map['ICD-O Code'] == code) & (ecie_umls_map['Term Type'] == 'SY')]
    
    # Si no tiene sin√≥nimos, devuelve una lista vac√≠a
    if filtered.empty:
        return []
    
    synonims = filtered['NCIt PT string (Preferred term)'].tolist()
    return synonims

# Ejemplo de uso
example_code = counts_df.iloc[6]['ICD-O Code']
syns = find_synonims(example_code)
print(f'Sin√≥nimos para el c√≥digo {example_code}: {syns}')

example_code = counts_df.iloc[0]['ICD-O Code']
syns = find_synonims(example_code)
print(f'Sin√≥nimos para el c√≥digo {example_code}: {syns}')

Sin√≥nimos para el c√≥digo 8140/6: []
Sin√≥nimos para el c√≥digo 8000/6: ['Secondary Neoplasm', 'Tumor Embolism', 'Metastatic Neoplasm', 'Secondary Neoplasm']


# N√∫mero de tokens por nota
Para asegurarme de que no me quedo sin espacio analizando las notas, voy a medir el n√∫mero de tokens de cada una.

In [40]:
import os 
import glob
import numpy as np
from transformers import AutoTokenizer

import matplotlib.pyplot as plt
import numpy as np

def graficar_distribucion_tokens(token_counts, dataset_name:str, output_file:str="distribucion_tokens.png"):
    """ Genera un histograma con la distribuci√≥n de tokens y marca los l√≠mites de contexto.
    """
    
    if len(token_counts) == 0:
        print("No hay datos para graficar.")
        return

    plt.figure(figsize=(12, 6))
    
    # 1. Crear el Histograma
    # 'bins=50' divide tus datos en 50 barras para ver el detalle
    plt.hist(token_counts, bins=50, color='#4C72B0', edgecolor='black', alpha=0.7, label='Frecuencia de Notas')
    
    # 2. L√≠neas de referencia estad√≠stica
    media = np.mean(token_counts)
    p95 = np.percentile(token_counts, 95)
    
    plt.axvline(media, color='red', linestyle='dashed', linewidth=1.5, label=f'Media ({int(media)})')
    plt.axvline(p95, color='purple', linestyle='dashed', linewidth=1.5, label=f'Percentil 95% ({int(p95)})')
    
    # 3. L√≠neas de Context Window (Las fronteras cr√≠ticas)
    # Estos son los saltos t√≠picos en configuraci√≥n de LLMs
    context_limits = [2048, 4096, 8192, 16384]
    colors = ['orange', 'green', 'brown', 'gray']
    
    max_val = np.max(token_counts)
    
    for limit, color in zip(context_limits, colors):
        # Solo dibujamos la l√≠nea si est√° dentro del rango visual o cerca
        if limit < max_val * 1.2: 
            plt.axvline(limit, color=color, linestyle='dotted', linewidth=2, label=f'L√≠mite {limit//1024}k')

    # 4. Est√©tica
    plt.title(f'Distribuci√≥n de Longitud de Tokens en {dataset_name}', fontsize=14)
    plt.xlabel('N√∫mero de Tokens', fontsize=12)
    plt.ylabel('Cantidad de Documentos', fontsize=12)
    plt.legend()
    plt.grid(axis='y', alpha=0.3)
    
    # 5. Guardar
    plt.tight_layout()
    plt.savefig(output_file, dpi=300)
    print(f"üìä Gr√°fico guardado exitosamente en: {output_file}")
    plt.close()


def analizar_dataset(dataset_path:str, dataset_name:str, model_id:str):

    print(f"‚¨áÔ∏è  Cargando tokenizador de {model_id}...")
    try:
        # Solo descarga el vocabulario (< 2MB usually), no el modelo entero
        tokenizer = AutoTokenizer.from_pretrained(model_id)
    except Exception as e:
        print(f"Error cargando tokenizador: {e}")
        return
    
    search_pattern = os.path.join(dataset_path, "**/*.txt")
    files = glob.glob(search_pattern, recursive=True)

    if not files:
        print(f"‚ùå No se encontraron archivos .txt en {dataset_path}")
        return
    
    print(f"üìÇ Se encontraron {len(files)} documentos. Analizando...")
    
    token_counts = []
    
    for file_path in files:
        try:
            with open(file_path, "r", encoding="utf-8") as f:
                text = f.read()
                
            # Esta es la magia: codificar el texto a IDs de tokens y contar
            # Nota: No necesitamos attention_mask para esto
            tokens = tokenizer.encode(text, add_special_tokens=False)
            count = len(tokens)
            token_counts.append(count)
            
            # Opcional: Imprimir los archivos gigantes para inspeccionarlos luego
            if count > 6000: 
                print(f"‚ö†Ô∏è  Archivo grande detectado ({count} tokens): {os.path.basename(file_path)}")
                
        except Exception as e:
            print(f"Error leyendo {file_path}: {e}")

    # --- ESTAD√çSTICAS ---
    token_counts = np.array(token_counts)
    
    print("\n" + "="*40)
    print(f"üìä RESULTADOS DEL AN√ÅLISIS ({model_id})")
    print("="*40)
    print(f"Total documentos: {len(token_counts)}")
    print(f"üü¢ M√≠nimo:          {np.min(token_counts)} tokens")
    print(f"üü° Media (Promedio): {int(np.mean(token_counts))} tokens")
    print(f"üü† Mediana:         {int(np.median(token_counts))} tokens")
    print(f"üî¥ M√°ximo:          {np.max(token_counts)} tokens")
    print("-" * 40)
    print(f"Percentil 90:       {int(np.percentile(token_counts, 90))} tokens (El 90% de tus notas miden menos que esto)")
    print(f"Percentil 95:       {int(np.percentile(token_counts, 95))} tokens")
    print(f"Percentil 99:       {int(np.percentile(token_counts, 99))} tokens")
    print("="*40)

    # --- RECOMENDACI√ìN AUTOM√ÅTICA ---
    max_tokens = np.max(token_counts)
    prompt_estimate = 500  # Espacio para tus instrucciones de sistema
    output_estimate = 2000 # Espacio para el JSON de salida
    
    needed_ctx = max_tokens + prompt_estimate + output_estimate
    
    print("\nüí° RECOMENDACI√ìN DE INGENIER√çA:")
    print(f"Para cubrir el CASO PEOR (Nota m√°s larga + Prompt + Salida):")
    print(f"Necesitas: {max_tokens} (Nota) + {prompt_estimate} (Sys) + {output_estimate} (Output) = {needed_ctx} tokens")
    
    standard_sizes = [2048, 4096, 8192, 16384, 32768]
    recommended = next((x for x in standard_sizes if x >= needed_ctx), "32k+")
    
    print(f"üëâ Configura 'num_ctx' en Ollama a: {recommended}")

    graficar_distribucion_tokens(token_counts, dataset_name)



In [41]:
token_counts = analizar_dataset(
    dataset_path="/home/david/GitHub/MedText/.data/Cantemist/",
    model_id="Qwen/Qwen2.5-7B-Instruct",
    dataset_name="Cantemist All"
)

‚¨áÔ∏è  Cargando tokenizador de Qwen/Qwen2.5-7B-Instruct...
üìÇ Se encontraron 8536 documentos. Analizando...
‚ö†Ô∏è  Archivo grande detectado (9200 tokens): S1130-01082008001200008-1.txt
‚ö†Ô∏è  Archivo grande detectado (6735 tokens): S1130-52742010000200007-1.txt
‚ö†Ô∏è  Archivo grande detectado (7189 tokens): S1887-85712013000300006-1.txt
‚ö†Ô∏è  Archivo grande detectado (6064 tokens): S0211-57352013000400004-1.txt
‚ö†Ô∏è  Archivo grande detectado (7429 tokens): S1130-01082007000500007-1.txt

üìä RESULTADOS DEL AN√ÅLISIS (Qwen/Qwen2.5-7B-Instruct)
Total documentos: 8536
üü¢ M√≠nimo:          30 tokens
üü° Media (Promedio): 989 tokens
üü† Mediana:         871 tokens
üî¥ M√°ximo:          9200 tokens
----------------------------------------
Percentil 90:       1855 tokens (El 90% de tus notas miden menos que esto)
Percentil 95:       2158 tokens
Percentil 99:       2942 tokens

üí° RECOMENDACI√ìN DE INGENIER√çA:
Para cubrir el CASO PEOR (Nota m√°s larga + Prompt + Salida):
Nece