In [1]:
import pandas as pd

df = pd.read_csv(
    "noticias_unificadas.tsv",
    encoding="utf-8",
    sep="\t",
    dtype={"fecha": "string", "titulo": "string", "contenido": "string", "seccion": "string", "link": "string"},
    quoting=0,
    na_filter=False
)

In [2]:
topicos = df['seccion'].value_counts()
print(f"\nTotal de t√≥picos √∫nicos: {df['seccion'].nunique()}")


Total de t√≥picos √∫nicos: 7


In [3]:
df.head()

Unnamed: 0,fecha,titulo,contenido,seccion,link
0,2025-11-09,Jueces rechazan intento de afectaci√≥n a la ind...,"Desde la ciudad de Tacna, jueces y juezas de t...",Pol√≠tica,https://diariocorreo.pe/politica/jueces-rechaz...
1,2025-11-09,Liga 1: Lo gritan los ‚ÄúChurres‚Äù y todo el pueb...,Alianza Atl√©tico le sac√≥ lustre a su clasifica...,Deportes,https://diariocorreo.pe/deportes/alianza-atlet...
2,2025-11-09,Proponen sancionar con hasta 10 a√±os de c√°rcel...,"La congresista Elizabeth Medina Hermosillo, de...",Pol√≠tica,https://diariocorreo.pe/politica/proponen-sanc...
3,2025-11-09,Este lunes inicia la semana de representaci√≥n ...,Desde este lunes 10 hasta el viernes 14 de nov...,Pol√≠tica,https://diariocorreo.pe/politica/este-lunes-in...
4,2025-11-09,Selecci√≥n peruana eval√∫a reprogramaci√≥n de par...,La Federaci√≥n Peruana de F√∫tbol (FPF) inform√≥ ...,Deportes,https://diariocorreo.pe/deportes/seleccion-per...


In [4]:
import nltk
from nltk import trigrams
from nltk.tokenize import sent_tokenize, word_tokenize


In [5]:
nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to
[nltk_data]     /home/joelibaceta/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     /home/joelibaceta/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [6]:
nltk.data.find("tokenizers/punkt")

FileSystemPathPointer('/home/joelibaceta/nltk_data/tokenizers/punkt')

In [7]:
nltk.data.find("tokenizers/punkt_tab")

FileSystemPathPointer('/home/joelibaceta/nltk_data/tokenizers/punkt_tab')

In [8]:
from typing import Dict, List, Tuple

def tokenize_es(text: str) -> list[list[str]]:
    if not isinstance(text, str) or not text.strip():
        return []
    sentences = sent_tokenize(text, language="spanish")
    tokenized = []
    for s in sentences:
        toks = word_tokenize(s, language="spanish")
        # lower only alphabetic tokens, keep punctuation as-is
        toks = [t.lower() if t.isalpha() else t for t in toks]
        if toks:
            tokenized.append(toks)
    return tokenized

In [9]:
from collections import defaultdict

def load_corpus(df: pd.DataFrame, by_category: bool = False) -> Dict[str, List[List[str]]]:
    buckets: Dict[str, List[List[str]]] = defaultdict(list)
    
    for _, row in df.iterrows():
        categoria = (row.get("seccion") or "").strip()
        noticia = row.get("contenido")
        
        if not noticia or not isinstance(noticia, str):
            continue
            
        sents_toks = tokenize_es(noticia)
        
        if by_category and categoria:
            for s in sents_toks:
                if s:
                    buckets[categoria].append(s)
        else:
            for s in sents_toks:
                if s:
                    buckets["_GLOBAL"].append(s)
    
    return buckets

In [10]:
corpus_por_categoria = load_corpus(df, by_category=True)
corpus_global = load_corpus(df, by_category=False)

In [11]:
def train_trigrams(tokenized_sentences: List[List[str]]):
    """
      model[(w1,w2)][w3] = prob
    """
    model = defaultdict(lambda: defaultdict(float))
    for sent in tokenized_sentences:
        for w1, w2, w3 in trigrams(sent, pad_left=True, pad_right=True):
            model[(w1, w2)][w3] += 1.0

    for w1w2 in model:
        total = sum(model[w1w2].values())
        if total > 0:
            for w3 in model[w1w2]:
                model[w1w2][w3] /= total
    return model

In [12]:
model_global = train_trigrams(corpus_global["_GLOBAL"])
len(model_global)

2274244

In [13]:
models_por_categoria = {}

for categoria, oraciones in corpus_por_categoria.items():
    print(f"Entrenando modelo para: {categoria} ({len(oraciones)} oraciones)")
    models_por_categoria[categoria] = train_trigrams(oraciones)


Entrenando modelo para: Pol√≠tica (164273 oraciones)
Entrenando modelo para: Deportes (64217 oraciones)
Entrenando modelo para: Deportes (64217 oraciones)
Entrenando modelo para: Espect√°culos (95589 oraciones)
Entrenando modelo para: Espect√°culos (95589 oraciones)
Entrenando modelo para: Cultura (82146 oraciones)
Entrenando modelo para: Cultura (82146 oraciones)
Entrenando modelo para: Econom√≠a (56308 oraciones)
Entrenando modelo para: Econom√≠a (56308 oraciones)
Entrenando modelo para: Mundo (81657 oraciones)
Entrenando modelo para: Mundo (81657 oraciones)
Entrenando modelo para: Policiales (50687 oraciones)
Entrenando modelo para: Policiales (50687 oraciones)


In [14]:
from typing import Optional
import random

def sample_next(model: dict, w1: str, w2: str) -> Optional[str]:
    dist = model.get((w1, w2), {})
    # Heuristica por si no hay distribuci√≥n para (w1, w2)
    if not dist:
        # Fallback 1: Buscar todos los contextos que terminen en w2
        for key in model.keys():
            if key[1] == w2 and model[key]:
                dist = model[key]
                break
        # Fallback 2: Si a√∫n no hay nada, usar inicio de oraci√≥n
        if not dist:
            dist = model.get((None, None), {})
        # Fallback 3: Si todav√≠a no hay nada, elegir un contexto aleatorio
        if not dist and model:
            random_key = random.choice(list(model.keys()))
            dist = model[random_key]

    r = random.random()
    acc = 0.0
    for w3, p in dist.items():
        acc += p
        if acc >= r:
            return w3
    
    return list(dist.keys())[-1] if dist else None

In [15]:
def generate_sentence(model: dict, seeds: Tuple[str, str] = (None, None), max_len: int = 30) -> str:
    text: List[str] = [seeds[0], seeds[1]]
    sentence_finished = False

    while not sentence_finished and len(text) < max_len + 2:
        w3 = sample_next(model, text[-2], text[-1])
        text.append(w3)
        if text[-2:] == [None, None] or w3 is None:
            sentence_finished = True

    sentence = " ".join([t for t in text if t])
    sentence = sentence.strip()
    if sentence and sentence[-1] not in ".!?":
        sentence += "."
    if sentence:
        sentence = sentence[0].upper() + sentence[1:]
    return sentence

In [16]:
def generate_paragraph(model: dict, n_sentences: int = 3, seeds: Tuple[str, str] = (None, None)) -> str:
    return " ".join(generate_sentence(model, seeds=seeds) for _ in range(n_sentences))

In [17]:
print(generate_paragraph(model_global, n_sentences=2, seeds=("La", "Policia", )))

La Policia aprovecha que estamos descuidando personal para satisfacci√≥n m√≠a pero trae como estigma el haber influido en la zona afectada . La Policia durante protestas impide la inscripci√≥n de alianzas proceder√° hasta los colectiveros y el fondo editorial .


In [18]:
print(generate_paragraph(models_por_categoria["Deportes"], n_sentences=2, seeds=("El", "equipo")))

El equipo que se proclam√≥ m√°ximo goleador hist√≥rico de cerro colorado y Arizona.6:30 p.m . El equipo piurano en otros resultados : los chankas , amel√≠ fue enf√°tico al asegurar que protegeremos a cada continente en el equipo de v√≥ley 2025.¬°V√≥ley peruano‚Ä¶ v√≥ley peruano‚Ä¶ !


In [19]:
print("\nPOL√çTICA:")
print(generate_paragraph(models_por_categoria["Pol√≠tica"], n_sentences=2, seeds=("El", "presidente")))


POL√çTICA:
El presidente pero vizcarra lider√≥ red criminalfiscal√≠a pide prisi√≥n preventiva de andr√©s manuel l√≥pez obrador y continuada desde hace mucho tiempo han criticado la lejan√≠a del local del canal de youtube del. El presidente pero vizcarra lider√≥ red criminalfiscal√≠a pide prisi√≥n preventiva en su derecho al voto de los internos e internas y afirm√≥ que si ello no cumpli√≥ con las reglas de conducta.El.


In [20]:
from utils.utils import format_sentence

def generate_sentence(model: dict, seeds: Tuple[str, str] = (None, None), max_len: int = 30) -> str:
    w1 = seeds[0].lower() if seeds[0] and seeds[0] is not None else None
    w2 = seeds[1].lower() if seeds[1] and seeds[1] is not None else None
    
    text: List[str] = []

    if w1 is not None:
        text.append(w1)
    if w2 is not None:
        text.append(w2)
    
    if not text:
        w1, w2 = None, None
    elif len(text) == 1:
        w1, w2 = None, text[0]
    else:
        w1, w2 = text[-2] if len(text) >= 2 else None, text[-1]
    
    sentence_finished = False
    iterations_without_word = 0
    
    while not sentence_finished and len(text) < max_len:
        w3 = sample_next(model, w1, w2)
        if w3 is None:
            iterations_without_word += 1
            if iterations_without_word > 3:
                sentence_finished = True
            w1, w2 = None, None
            continue
        
        iterations_without_word = 0
        text.append(w3)
        
        w1, w2 = w2, w3

        if w3 in ['.', '!', '?']:
            sentence_finished = True
    
    return format_sentence(text, capitalize_first=True, add_final_punct=True)

In [21]:
def generate_paragraph(model: dict, n_sentences: int = 3, seeds: Tuple[str, str] = (None, None)) -> str:
    sentences = []
    sentences.append(generate_sentence(model, seeds=seeds))
    for _ in range(n_sentences - 1):
        sentences.append(generate_sentence(model, seeds=(None, None)))
    return " ".join(sentences)

In [22]:
print(generate_paragraph(model_global, n_sentences=3, seeds=("Ayer", "sucedio")))

Ayer sucedio mientras el apra fue proscrito con la arcilla suiza con parciales de hasta S/20 mil al mes los aranceles, que parte de la mujer, fanny montellanos. Adem√°s de declamar, cantar y bailar. He pedido que el s√°bado a la remisi√≥n de la separaci√≥n con un mensaje por la noche del mi√©rcoles en culiac√°n, en un ambiente positivo y comenc√© el viaje.


In [23]:
print("DEPORTES - Seeds: ('El', 'equipo')")
print(generate_paragraph(models_por_categoria["Deportes"], n_sentences=4, seeds=("El", "equipo")))

DEPORTES - Seeds: ('El', 'equipo')
El equipo que amo, estoy muy ilusionado. En ese contexto, los comisarios `` de aqu√≠ a las 8:00 p.m. Si bien los primeros dos partidos de septiembre con un medio ecuatoriano. Video recomendado: el t√©cnico gerardo ameli, quien tambi√©n se unieron para mostrar que hay seguridad ''.


In [24]:
print("POL√çTICA - Seeds: ('El', 'presidente')")
print(generate_paragraph(models_por_categoria["Pol√≠tica"], n_sentences=3, seeds=("El", "presidente")))

POL√çTICA - Seeds: ('El', 'presidente')
El presidente de china en per√∫: echa muni cae en saco roto: ni c√°rceles, cometi√≥ un error involuntario ‚Äù porque la cantidad de nombramientos en Cajamarca.Juan sheput. Ya se cobra por ello, creo, sin embargo, el comunicado emitido por el poder judicial, ministerio de econom√≠a y finanzas, jos√© cevasco denuncia falta de. Pero si conversar no es ciega; qu√© dis√≠mil puede ser detenido en roma, tom√≥ asiento, y se incautaron y destruyeron veredas ‚Äîcer√°micas de piso tipo roca‚Äî para.


In [25]:
print("MODELO GLOBAL - Sin seeds (inicio natural)")
print(generate_paragraph(model_global, n_sentences=3, seeds=(None, None)))

MODELO GLOBAL - Sin seeds (inicio natural)
Asimismo cree firmemente que s√≠ exist√≠a ‚Äú un mill√≥n de d√≥lares en efectivo, cheque o anotaci√≥n contable relacionados con pol√≠ticas de emergencia al hospital luis s√°enz recibi√≥ a universitario. Estas organizaciones de derechos humanos ( cidh ). Con esta persona no puede decir ning√∫n peruano, consolidando una alianza militar con un equipo de ‚Äò leyenda viva ‚Äô jorge nieto montesinos.


## üîç Validaci√≥n del Modelo

Verificamos que el modelo funcione correctamente con diferentes casos.

In [26]:
print("=" * 80)
print("PRUEBAS DE VALIDACI√ìN DEL MODELO DE TRIGRAMAS")
print("=" * 80)

# Test 1: Verificar estructura del modelo
print("\n1Ô∏è‚É£ Verificando estructura del modelo...")
print(f"   - Contextos √∫nicos en modelo global: {len(model_global):,}")
print(f"   - Ejemplo de contexto: {list(model_global.keys())[:3]}")

# Verificar que las probabilidades sumen 1
sample_context = list(model_global.keys())[0]
total_prob = sum(model_global[sample_context].values())
print(f"   - Suma de probabilidades para contexto {sample_context}: {total_prob:.4f}")
print(f"   - ‚úÖ Probabilidades correctas" if abs(total_prob - 1.0) < 0.001 else f"   - ‚ö†Ô∏è Error en probabilidades")

# Test 2: Verificar que los seeds funcionan
print("\n2Ô∏è‚É£ Probando generaci√≥n con diferentes seeds...")
test_seeds = [
    ("el", "presidente"),
    ("la", "polic√≠a"),
    ("los", "ministros"),
    (None, None),  # Sin seeds
]

for w1, w2 in test_seeds:
    try:
        result = generate_sentence(model_global, seeds=(w1, w2), max_len=20)
        w1_str = w1 if w1 else "None"
        w2_str = w2 if w2 else "None"
        print(f"   Seeds ({w1_str:>10}, {w2_str:>10}): {result[:80]}...")
    except Exception as e:
        print(f"   Seeds ({w1}, {w2}): ‚ùå Error: {e}")

# Test 3: Verificar longitudes
print("\n3Ô∏è‚É£ Probando diferentes longitudes...")
for length in [10, 20, 30]:
    result = generate_sentence(model_global, seeds=(None, None), max_len=length)
    word_count = len(result.split())
    print(f"   Max length={length}: gener√≥ {word_count} palabras")

# Test 4: Verificar consistencia (m√∫ltiples generaciones)
print("\n4Ô∏è‚É£ Verificando variedad en generaciones...")
generations = set()
for _ in range(5):
    result = generate_sentence(model_global, seeds=("el", "gobierno"), max_len=15)
    generations.add(result)

print(f"   Generadas {len(generations)} oraciones √∫nicas de 5 intentos")
print(f"   {'‚úÖ Buena variedad' if len(generations) >= 3 else '‚ö†Ô∏è Poca variedad - posible problema'}")

print("\n" + "=" * 80)
print("‚úÖ VALIDACI√ìN COMPLETADA")
print("=" * 80)

PRUEBAS DE VALIDACI√ìN DEL MODELO DE TRIGRAMAS

1Ô∏è‚É£ Verificando estructura del modelo...
   - Contextos √∫nicos en modelo global: 2,274,244
   - Ejemplo de contexto: [(None, None), (None, 'desde'), ('desde', 'la')]
   - Suma de probabilidades para contexto (None, None): 1.0000
   - ‚úÖ Probabilidades correctas

2Ô∏è‚É£ Probando generaci√≥n con diferentes seeds...
   Seeds (        el, presidente): El presidente en funciones....
   Seeds (        la,    polic√≠a): La polic√≠a nacional del per√∫?...
   Seeds (       los,  ministros): Los ministros de estado de bah√≠a blanca, trump ya hab√≠a sido interrogado por la ...
   Seeds (      None,       None): Per√∫21 epaper....

3Ô∏è‚É£ Probando diferentes longitudes...
   Max length=10: gener√≥ 6 palabras
   Max length=20: gener√≥ 20 palabras
   Max length=30: gener√≥ 4 palabras

4Ô∏è‚É£ Verificando variedad en generaciones...
   Generadas 5 oraciones √∫nicas de 5 intentos
   ‚úÖ Buena variedad

‚úÖ VALIDACI√ìN COMPLETADA


### üîß Diagn√≥stico de Problemas Comunes

Analicemos posibles problemas en el modelo:

In [27]:
# Diagn√≥stico 1: Verificar contextos con None
print("üîç AN√ÅLISIS DE CONTEXTOS CON PADDING (None)")
print("=" * 70)

none_contexts = [(k, len(v)) for k, v in model_global.items() if None in k]
print(f"Total de contextos con None: {len(none_contexts)}")
print(f"Contextos de inicio (None, None): {len(model_global.get((None, None), {}))}")

# Mostrar algunos ejemplos
if (None, None) in model_global:
    print(f"\nPalabras que pueden iniciar una oraci√≥n:")
    inicio_words = sorted(model_global[(None, None)].items(), key=lambda x: x[1], reverse=True)[:10]
    for word, prob in inicio_words:
        print(f"   {word:>15}: {prob:.4f}")

# Diagn√≥stico 2: Verificar problemas de may√∫sculas
print("\nüîç AN√ÅLISIS DE MAY√öSCULAS/MIN√öSCULAS")
print("=" * 70)

# Buscar si hay contextos con palabras en may√∫sculas (no deber√≠a haber)
uppercase_contexts = [(k, v) for k, v in model_global.items() 
                     if any(w and isinstance(w, str) and w[0].isupper() for w in k)]

print(f"Contextos con may√∫sculas: {len(uppercase_contexts)}")
if len(uppercase_contexts) > 0:
    print("‚ö†Ô∏è ADVERTENCIA: Hay contextos con may√∫sculas - deber√≠a estar todo en min√∫sculas")
    print("Ejemplos:", list(uppercase_contexts)[:5])
else:
    print("‚úÖ Correcto: Todos los contextos est√°n en min√∫sculas")

# Diagn√≥stico 3: Verificar contextos hu√©rfanos (con 1 sola opci√≥n)
print("\nüîç AN√ÅLISIS DE CONTEXTOS HU√âRFANOS")
print("=" * 70)

orphan_contexts = [(k, v) for k, v in model_global.items() if len(v) == 1]
print(f"Contextos con solo 1 opci√≥n: {len(orphan_contexts)} ({len(orphan_contexts)/len(model_global)*100:.1f}%)")
print(f"Total de contextos: {len(model_global)}")

# Diagn√≥stico 4: Verificar cobertura de palabras comunes
print("\nüîç VERIFICAR COBERTURA DE PALABRAS COMUNES")
print("=" * 70)

common_words = ["el", "la", "de", "en", "que", "y", "a", "los", "del", "las"]
print("Palabras comunes y sus contextos:")

for word in common_words[:5]:
    # Contar en cu√°ntos contextos aparece esta palabra
    as_w1 = sum(1 for k in model_global.keys() if k[0] == word)
    as_w2 = sum(1 for k in model_global.keys() if k[1] == word)
    print(f"   '{word}': aparece en {as_w1} contextos como w1, {as_w2} como w2")

# Diagn√≥stico 5: Verificar puntuaci√≥n
print("\nüîç AN√ÅLISIS DE PUNTUACI√ìN")
print("=" * 70)

punctuation = ['.', ',', '!', '?', ';', ':']
print("Contextos que terminan en puntuaci√≥n:")

for punct in punctuation[:3]:
    contexts_ending = [(k, v) for k, v in model_global.items() if k[1] == punct]
    if contexts_ending:
        print(f"   Contextos (*, '{punct}'): {len(contexts_ending)}")
        # Mostrar qu√© sigue despu√©s de la puntuaci√≥n
        next_words = {}
        for k, v in contexts_ending:
            for w3, prob in v.items():
                next_words[w3] = next_words.get(w3, 0) + prob
        top_next = sorted(next_words.items(), key=lambda x: x[1], reverse=True)[:3]
        print(f"      ‚Üí Palabras m√°s comunes despu√©s: {top_next}")

print("\n" + "=" * 70)
print("‚úÖ DIAGN√ìSTICO COMPLETADO")
print("=" * 70)

üîç AN√ÅLISIS DE CONTEXTOS CON PADDING (None)
Total de contextos con None: 23262
Contextos de inicio (None, None): 21988

Palabras que pueden iniciar una oraci√≥n:
                el: 0.0787
                la: 0.0602
                en: 0.0454
             video: 0.0378
                 ‚Äú: 0.0354
                ``: 0.0322
         aprovecha: 0.0310
            Per√∫21: 0.0225
          b√∫scanos: 0.0196
            ¬°Ahora: 0.0196

üîç AN√ÅLISIS DE MAY√öSCULAS/MIN√öSCULAS
Total de contextos con None: 23262
Contextos de inicio (None, None): 21988

Palabras que pueden iniciar una oraci√≥n:
                el: 0.0787
                la: 0.0602
                en: 0.0454
             video: 0.0378
                 ‚Äú: 0.0354
                ``: 0.0322
         aprovecha: 0.0310
            Per√∫21: 0.0225
          b√∫scanos: 0.0196
            ¬°Ahora: 0.0196

üîç AN√ÅLISIS DE MAY√öSCULAS/MIN√öSCULAS
Contextos con may√∫sculas: 60099
‚ö†Ô∏è ADVERTENCIA: Hay contextos con may√∫scula

---

## üìã Resumen de Problemas Corregidos

### ‚úÖ **Problemas identificados y solucionados:**

1. **Fallbacks incorrectos en `sample_next`**:
   - ‚ùå Antes: Buscaba contextos `(None, w2)` y `(w1, None)` que no existen
   - ‚úÖ Ahora: Busca contextos reales que terminen en `w2` y usa inicio de oraci√≥n como fallback

2. **Terminaci√≥n prematura de oraciones**:
   - ‚ùå Antes: Se deten√≠a al primer `None` sin intentar continuar
   - ‚úÖ Ahora: Intenta continuar con nuevo contexto antes de rendirse

3. **Limpieza de espacios antes de puntuaci√≥n**:
   - ‚ùå Antes: Generaba " ." en lugar de "."
   - ‚úÖ Ahora: Elimina espacios antes de puntuaci√≥n autom√°ticamente

4. **Manejo robusto de casos edge**:
   - ‚úÖ Contador para evitar loops infinitos
   - ‚úÖ Mejor manejo de contextos no vistos
   - ‚úÖ Validaci√≥n consistente de min√∫sculas en seeds

### üéØ **Mejoras adicionales implementadas:**

- Validaci√≥n autom√°tica del modelo
- Diagn√≥stico de problemas comunes
- Verificaci√≥n de probabilidades
- An√°lisis de cobertura de palabras

### üí° **Recomendaciones:**

1. **Tama√±o del corpus**: Tu modelo ser√° mejor con m√°s datos
2. **Smoothing**: Considera agregar Laplace smoothing para contextos no vistos
3. **Vocabulario**: Filtra palabras muy raras (< 5 apariciones) para reducir sparsity
4. **Modelo m√°s avanzado**: Considera 4-gramas o modelos neurales (LSTM/Transformer) para mejor calidad

## üìä An√°lisis: Combinaciones m√°s frecuentes (Trigramas)

In [28]:
from collections import Counter

def get_most_frequent_trigrams(tokenized_sentences: List[List[str]], top_n: int = 20, exclude_padding: bool = True):
    """
    Identifica los trigramas m√°s frecuentes en el corpus.
    
    Args:
        tokenized_sentences: Lista de oraciones tokenizadas
        top_n: N√∫mero de trigramas a retornar
        exclude_padding: Si True, excluye trigramas que contienen None (padding)
    
    Returns:
        Lista de tuplas ((w1, w2, w3), frecuencia)
    """
    trigram_counts = Counter()
    
    for sent in tokenized_sentences:
        for w1, w2, w3 in trigrams(sent, pad_left=True, pad_right=True):
            # Opcionalmente excluir trigramas con padding
            if exclude_padding and (w1 is None or w2 is None or w3 is None):
                continue
            trigram_counts[(w1, w2, w3)] += 1
    
    return trigram_counts.most_common(top_n)

In [None]:
print("TRIGRAMAS M√ÅS FRECUENTES - CORPUS GLOBAL")

top_trigrams_global = get_most_frequent_trigrams(corpus_global["_GLOBAL"], top_n=30)

for i, ((w1, w2, w3), freq) in enumerate(top_trigrams_global, 1):
    w1_str = f"'{w1}'" if w1 else "None"
    w2_str = f"'{w2}'" if w2 else "None"
    w3_str = f"'{w3}'" if w3 else "None"
    
    print(f"{i:2}. ({w1_str:>15}, {w2_str:>15}, {w3_str:>15}) ‚Üí {freq:>5} veces")

print(f"\nTotal de trigramas √∫nicos: {len(set(trigrams(sum(corpus_global['_GLOBAL'], []), pad_left=True, pad_right=True)))}")

TRIGRAMAS M√ÅS FRECUENTES - CORPUS GLOBAL


In [None]:
# Analizar por categor√≠a
print("\n" + "=" * 70)
print("TRIGRAMAS M√ÅS FRECUENTES POR CATEGOR√çA")
print("=" * 70)

for categoria in ["Deportes", "Pol√≠tica", "Econom√≠a"]:
    if categoria in corpus_por_categoria:
        print(f"\nüìÇ {categoria.upper()}")
        print("-" * 70)
        
        top_trigrams = get_most_frequent_trigrams(
            corpus_por_categoria[categoria], 
            top_n=10, 
            exclude_padding=True
        )
        
        for i, ((w1, w2, w3), freq) in enumerate(top_trigrams, 1):
            print(f"  {i:2}. ({w1}, {w2}, {w3}) ‚Üí {freq} veces")

### Visualizaci√≥n de trigramas frecuentes

In [None]:
import matplotlib.pyplot as plt

def plot_top_trigrams(trigrams_list, title="Top Trigramas", top_n=15):
    """
    Visualiza los trigramas m√°s frecuentes en un gr√°fico de barras.
    """
    # Tomar solo los top_n
    trigrams_list = trigrams_list[:top_n]
    
    # Preparar datos
    labels = [f"{w1} {w2} {w3}" for (w1, w2, w3), _ in trigrams_list]
    frequencies = [freq for _, freq in trigrams_list]
    
    # Crear gr√°fico
    fig, ax = plt.subplots(figsize=(12, 8))
    bars = ax.barh(range(len(labels)), frequencies, color='steelblue', alpha=0.8)
    
    ax.set_yticks(range(len(labels)))
    ax.set_yticklabels(labels, fontsize=10)
    ax.set_xlabel('Frecuencia', fontsize=12, fontweight='bold')
    ax.set_title(title, fontsize=14, fontweight='bold', pad=20)
    ax.invert_yaxis()
    ax.grid(axis='x', alpha=0.3)
    
    # Agregar valores al final de las barras
    for i, (bar, freq) in enumerate(zip(bars, frequencies)):
        ax.text(freq + 0.5, i, str(freq), va='center', fontsize=9, fontweight='bold')
    
    plt.tight_layout()
    plt.show()

# Visualizar trigramas del corpus global
plot_top_trigrams(top_trigrams_global, title="Top 15 Trigramas - Corpus Global", top_n=15)

In [None]:
# Comparaci√≥n entre categor√≠as
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('Trigramas M√°s Frecuentes por Categor√≠a', fontsize=16, fontweight='bold', y=0.995)

categorias_plot = ["Deportes", "Pol√≠tica", "Econom√≠a", "Internacional"]
axes_flat = axes.flatten()

for idx, categoria in enumerate(categorias_plot):
    if categoria in corpus_por_categoria:
        top_cat = get_most_frequent_trigrams(
            corpus_por_categoria[categoria], 
            top_n=10, 
            exclude_padding=True
        )
        
        labels = [f"{w1} {w2} {w3}" for (w1, w2, w3), _ in top_cat]
        frequencies = [freq for _, freq in top_cat]
        
        ax = axes_flat[idx]
        bars = ax.barh(range(len(labels)), frequencies, color='coral', alpha=0.7)
        ax.set_yticks(range(len(labels)))
        ax.set_yticklabels(labels, fontsize=9)
        ax.set_xlabel('Frecuencia', fontsize=10)
        ax.set_title(f'üìÇ {categoria}', fontsize=12, fontweight='bold')
        ax.invert_yaxis()
        ax.grid(axis='x', alpha=0.3)
        
        # Valores en las barras
        for i, (bar, freq) in enumerate(zip(bars, frequencies)):
            ax.text(freq + 0.3, i, str(freq), va='center', fontsize=8)
    else:
        axes_flat[idx].text(0.5, 0.5, f'Categor√≠a "{categoria}"\nno disponible', 
                           ha='center', va='center', transform=axes_flat[idx].transAxes)
        axes_flat[idx].set_xticks([])
        axes_flat[idx].set_yticks([])

plt.tight_layout()
plt.show()

### An√°lisis adicional: Bigramas m√°s frecuentes

In [None]:
from nltk import bigrams

def get_most_frequent_bigrams(tokenized_sentences: List[List[str]], top_n: int = 20, exclude_padding: bool = True):
    """
    Identifica los bigramas m√°s frecuentes en el corpus.
    """
    bigram_counts = Counter()
    
    for sent in tokenized_sentences:
        for w1, w2 in bigrams(sent, pad_left=True, pad_right=True):
            if exclude_padding and (w1 is None or w2 is None):
                continue
            bigram_counts[(w1, w2)] += 1
    
    return bigram_counts.most_common(top_n)

# Analizar bigramas
print("=" * 70)
print("BIGRAMAS M√ÅS FRECUENTES - CORPUS GLOBAL")
print("=" * 70)

top_bigrams = get_most_frequent_bigrams(corpus_global["_GLOBAL"], top_n=30, exclude_padding=True)

for i, ((w1, w2), freq) in enumerate(top_bigrams, 1):
    print(f"{i:2}. ('{w1}', '{w2}') ‚Üí {freq:>5} veces")

### üìà Interpretaci√≥n de resultados

Los trigramas m√°s frecuentes te muestran:
1. **Patrones comunes** en el lenguaje period√≠stico espa√±ol
2. **Frases t√≠picas** que se repiten en las noticias
3. **Contextos espec√≠ficos** de cada categor√≠a (deportes, pol√≠tica, etc.)

Esto es √∫til para:
- Entender qu√© combinaciones de palabras son m√°s naturales
- Mejorar la generaci√≥n de texto (el modelo aprende de estas frecuencias)
- Identificar vocabulario caracter√≠stico de cada tem√°tica