<a href="https://colab.research.google.com/github/johnathanacortesd/Zero_Entreno_Roberta_Mpnet/blob/main/Zero_Entreno_Roberta_Mpnet.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# @title üìä Interfaz para Concatenar Columnas
# --- Importaciones necesarias ---
import pandas as pd
import ipywidgets as widgets
from google.colab import files
from IPython.display import display, clear_output
import io

# --- Instalaci√≥n silenciosa de la dependencia para .xlsx ---
!pip install -q openpyxl

# --- Clase principal de la aplicaci√≥n ---
class VisualConcatenator:
    def __init__(self):
        """Inicializa la interfaz y sus componentes."""
        self.df = None
        self.output_df = None

        # --- Definici√≥n de los Widgets (Componentes de la UI) ---
        self.title = widgets.HTML("<h2>üîó Concatenador Visual de Columnas</h2><hr>")
        self.instructions = widgets.HTML("<h4>Paso 1: Sube tu archivo Excel para empezar.</h4>")

        self.uploader = widgets.FileUpload(
            accept='.xlsx',
            description='Subir Archivo',
            button_style='primary'
        )

        # Contenedor para la segunda parte de la UI (que aparece despu√©s de subir)
        self.step2_container = widgets.VBox([])

        # √Årea de salida para mensajes y resultados
        self.output_area = widgets.Output()

        # --- Observador de eventos ---
        # Llama a la funci√≥n _handle_upload cuando se sube un archivo
        self.uploader.observe(self._handle_upload, names='value')

    def _handle_upload(self, change):
        """Se activa al subir un archivo. Lee el archivo y crea la UI de selecci√≥n."""
        # Limpia cualquier contenido previo en el √°rea de salida
        with self.output_area:
            clear_output()

        uploaded_file_info = self.uploader.value
        if not uploaded_file_info:
            return # Si se cancela la subida, no hacer nada

        # Obtener el nombre y contenido del archivo subido
        filename = list(uploaded_file_info.keys())[0]
        content = uploaded_file_info[filename]['content']

        try:
            with self.output_area:
                print(f"‚è≥ Leyendo '{filename}'...")
                # Leer el archivo Excel desde la memoria
                self.df = pd.read_excel(io.BytesIO(content))
                print(f"‚úÖ ¬°Archivo cargado! Se encontraron {self.df.shape[0]} filas.")
                print(f"üìä Columnas disponibles: {', '.join(self.df.columns)}")

            # Si el archivo se ley√≥ bien, crear la siguiente parte de la interfaz
            self._create_column_selector_ui()

        except Exception as e:
            with self.output_area:
                print(f"‚ùå Error al leer el archivo. Aseg√∫rate de que es un .xlsx v√°lido.")
                print(f"Detalle: {e}")

    def _create_column_selector_ui(self):
        """Crea los widgets para seleccionar columnas y procesar."""

        # Nuevas instrucciones para el usuario
        step2_instructions = widgets.HTML("""
        <h4>Paso 2: Selecciona las columnas a unir.</h4>
        <p><i>Usa <b>Ctrl+Click</b> (o <b>Cmd+Click</b> en Mac) para elegir varias.</i></p>
        """)

        # Widget para seleccionar m√∫ltiples columnas
        self.column_selector = widgets.SelectMultiple(
            options=self.df.columns.tolist(),
            description='Columnas:',
            layout=widgets.Layout(height='180px', width='95%'),
            style={'description_width': 'initial'}
        )

        # Bot√≥n para iniciar el procesamiento
        self.process_button = widgets.Button(
            description='üîó Procesar y Descargar Resultado',
            button_style='success',
            icon='cogs',
            layout=widgets.Layout(width='300px', height='40px', margin='10px 0 0 0')
        )

        # Conectar el bot√≥n a la funci√≥n de procesamiento
        self.process_button.on_click(self._process_and_download)

        # Actualizar el contenedor del Paso 2 con los nuevos widgets
        self.step2_container.children = [
            step2_instructions,
            self.column_selector,
            self.process_button
        ]

    def _process_and_download(self, b):
        """Realiza la concatenaci√≥n, acortado y descarga del archivo."""
        with self.output_area:
            clear_output()

            selected_cols = self.column_selector.value
            if len(selected_cols) < 2:
                print("‚ùå Error: Debes seleccionar al menos dos columnas para poder unirlas.")
                return

            print("üöÄ Procesando los datos...")
            print(f"   - Uniendo columnas: {', '.join(selected_cols)}")

            try:
                # --- L√≥gica principal ---
                # 1. Funci√≥n para acortar el texto a 80 palabras
                def acortar_texto(texto, limite=80):
                    palabras = str(texto).split()
                    if len(palabras) > limite:
                        return ' '.join(palabras[:limite]) + '...'
                    return ' '.join(palabras) # .join() limpia espacios m√∫ltiples

                # 2. Convertir columnas a texto, rellenar vac√≠os y unir con un espacio
                texto_unido = self.df[list(selected_cols)].fillna('').astype(str).apply(
                    lambda fila: ' '.join(fila), axis=1
                )

                # 3. Acortar el texto ya unido
                texto_acortado = texto_unido.apply(acortar_texto)

                # 4. Crear el DataFrame final con una √∫nica columna llamada "resumen"
                self.output_df = pd.DataFrame({'resumen': texto_acortado})

                print("\n‚úÖ ¬°Procesamiento completado con √©xito!")

                # --- L√≥gica de descarga ---
                output_filename = 'resumen_concatenado.xlsx'
                print(f"\nüì¶ Generando el archivo '{output_filename}' para descarga...")

                # Guardar el DataFrame en un archivo Excel dentro del entorno de Colab
                self.output_df.to_excel(output_filename, index=False, engine='openpyxl')

                # Usar la funci√≥n de Colab para iniciar la descarga en el navegador
                files.download(output_filename)

            except Exception as e:
                print(f"\n‚ùå Ocurri√≥ un error inesperado durante el procesamiento.")
                print(f"Detalle: {e}")

    def display_app(self):
        """Muestra la aplicaci√≥n completa en la celda."""
        display(
            self.title,
            self.instructions,
            self.uploader,
            self.step2_container,
            self.output_area
        )

# --- Punto de entrada: Crear y mostrar la aplicaci√≥n ---
app = VisualConcatenator()
app.display_app()

HTML(value='<h2>üîó Concatenador Visual de Columnas</h2><hr>')

HTML(value='<h4>Paso 1: Sube tu archivo Excel para empezar.</h4>')

FileUpload(value={}, accept='.xlsx', button_style='primary', description='Subir Archivo')

VBox()

Output()

In [2]:
# @title üîß Instalaciones
print("Instalando dependencias...")
!pip install -q transformers sentence-transformers pandas openpyxl tqdm accelerate scikit-learn
print("Listo.")

Instalando dependencias...
Listo.


In [9]:
# @title üöÄ Analizador de Tono y Tema v15
# Roberta-large-multilingual-sentiment | paraphrase-multilingual-mpnet-base-v2
# ===============================================================
# MEJORAS IMPLEMENTADAS:
# 1. Agrupamiento sem√°ntico mejorado con clustering jer√°rquico
# 2. Sistema de votaci√≥n para tono en grupos similares
# 3. Refinamiento de temas con an√°lisis de keywords espec√≠ficos
# 4. Cache de embeddings para optimizaci√≥n
# 5. Post-procesamiento de consistencia tema-tono
# ===============================================================

import os
import io
import re
import gc
import time
import numpy as np
import pandas as pd
from tqdm.auto import tqdm
import torch
from transformers import pipeline
from sentence_transformers import SentenceTransformer, util
from google.colab import files
from collections import Counter, defaultdict
from sklearn.cluster import DBSCAN, AgglomerativeClustering
from scipy.spatial.distance import cosine

# Configuraci√≥n GPU
SEED = 42
np.random.seed(SEED)
torch.manual_seed(SEED)

if torch.cuda.is_available():
    device = torch.device("cuda")
    torch.backends.cudnn.benchmark = True
    torch.backends.cuda.matmul.allow_tf32 = True
    torch.cuda.empty_cache()

    gpu_props = torch.cuda.get_device_properties(0)
    total_memory = gpu_props.total_memory / 1024**3
    print(f"‚úì GPU: {torch.cuda.get_device_name(0)}")
    print(f"‚úì VRAM Total: {total_memory:.1f} GB")
else:
    device = torch.device("cpu")
    print("‚ö†Ô∏è Usando CPU. Recomendado activar GPU para mejor rendimiento")

# CONFIGURACI√ìN OPTIMIZADA
MODELO_SENTIMIENTO = "clapAI/roberta-large-multilingual-sentiment"
MODELO_EMBEDDING = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
BATCH_SENT = 64
BATCH_EMB = 256
MAX_LEN_SENT = 256
MAX_CHARS_CLEAN = 600

# Par√°metros de agrupamiento mejorados
SIMILARITY_THRESHOLD_STRICT = 0.92  # Para textos muy similares
SIMILARITY_THRESHOLD_MODERATE = 0.85  # Para textos relacionados
MIN_CLUSTER_SIZE = 2
PREFIX_WORDS = 8  # Aumentado para mejor discriminaci√≥n

# DICCIONARIOS EXPANDIDOS Y MEJORADOS
TOPIC_KEYWORDS = {
    "Pol√≠tica y Gobierno": {
        "primary": [
            "presidente petro", "gustavo petro", "gobierno nacional", "congreso",
            "senado", "c√°mara representantes", "reforma tributaria", "reforma pensional",
            "ministro", "ministerio", "francia m√°rquez", "gabinete", "decreto presidencial"
        ],
        "secondary": [
            "coalici√≥n", "oposici√≥n", "partido pol√≠tico", "movimiento", "elecciones",
            "campa√±a", "candidato", "votaci√≥n", "referendo", "plebiscito", "consulta"
        ]
    },
    "Econom√≠a y Finanzas": {
        "primary": [
            "pib", "inflaci√≥n", "banco rep√∫blica", "peso colombiano", "tasa cambio",
            "salario m√≠nimo", "tributaria", "impuestos", "ecopetrol", "petr√≥leo",
            "exportaciones", "crecimiento econ√≥mico", "recesi√≥n", "desempleo"
        ],
        "secondary": [
            "empleo", "importaciones", "comercio", "inversi√≥n extranjera",
            "pymes", "industria", "producci√≥n", "mercado", "bolsa valores", "econom√≠a"
        ]
    },
    "Seguridad y Justicia": {
        "primary": [
            "polic√≠a nacional", "fiscal√≠a", "homicidio", "asesinato", "captura",
            "eln", "disidencias farc", "paz total", "narcotr√°fico", "extorsi√≥n",
            "secuestro", "ej√©rcito nacional", "fuerzas militares", "guerrilla"
        ],
        "secondary": [
            "criminalidad", "hurto", "robo", "crimen organizado", "investigaci√≥n",
            "corte suprema", "juzgado", "sentencia", "proceso judicial", "defensor√≠a",
            "delito", "violencia", "inseguridad", "pandilla"
        ]
    },
    "Salud y Bienestar": {
        "primary": [
            "ministerio salud", "minsalud", "eps", "sistema salud", "reforma salud",
            "hospital", "cl√≠nica", "covid", "pandemia", "vacunaci√≥n", "emergencia m√©dica"
        ],
        "secondary": [
            "ips", "m√©dico", "enfermera", "medicamentos", "tratamiento",
            "atenci√≥n m√©dica", "pacientes", "enfermedad", "cobertura", "salud p√∫blica",
            "prevenci√≥n", "diagn√≥stico", "cirug√≠a"
        ]
    },
    "Educaci√≥n y Cultura": {
        "primary": [
            "ministerio educaci√≥n", "mineducaci√≥n", "universidades p√∫blicas",
            "icfes", "pruebas saber", "colegios", "educaci√≥n superior", "becas"
        ],
        "secondary": [
            "estudiantes", "profesores", "maestros", "educaci√≥n p√∫blica", "matr√≠cula",
            "calendario acad√©mico", "investigaci√≥n cient√≠fica", "ciencia", "tecnolog√≠a",
            "arte", "cultura", "patrimonio", "museo", "biblioteca"
        ]
    },
    "Infraestructura y Transporte": {
        "primary": [
            "carretera", "doble calzada", "t√∫nel", "puente", "v√≠a", "peaje",
            "transmilenio", "metro", "metro bogot√°", "metro medell√≠n", "aeropuerto eldorado"
        ],
        "secondary": [
            "avianca", "latam", "inv√≠as", "ani", "concesi√≥n vial", "obra p√∫blica",
            "construcci√≥n", "vivienda", "acueducto", "alcantarillado", "energ√≠a",
            "electricidad", "infraestructura", "transporte p√∫blico"
        ]
    },
    "Medio Ambiente y Clima": {
        "primary": [
            "deforestaci√≥n", "amazonas colombiana", "p√°ramo", "cambio clim√°tico",
            "minambiente", "parques naturales", "biodiversidad", "especies amenazadas"
        ],
        "secondary": [
            "contaminaci√≥n", "emisiones", "energ√≠as renovables", "miner√≠a ilegal",
            "carb√≥n", "oro", "r√≠os", "agua", "desastre natural", "inundaci√≥n",
            "sequ√≠a", "reforestaci√≥n", "medio ambiente", "ecolog√≠a", "sostenibilidad"
        ]
    },
    "Regiones y Territorio": {
        "primary": [
            "bogot√°", "medell√≠n", "cali", "barranquilla", "cartagena",
            "antioquia", "valle del cauca", "atl√°ntico", "cundinamarca", "santander"
        ],
        "secondary": [
            "boyac√°", "tolima", "huila", "cauca", "nari√±o", "c√≥rdoba", "bol√≠var",
            "meta", "municipio", "alcalde", "alcald√≠a", "gobernador", "gobernaci√≥n",
            "concejo", "asamblea departamental"
        ]
    },
    "Social y Derechos Humanos": {
        "primary": [
            "protestas", "paro nacional", "manifestaci√≥n", "derechos humanos",
            "v√≠ctimas conflicto", "desplazamiento forzado", "l√≠deres sociales",
            "asesinato l√≠deres", "amenazas", "masacre"
        ],
        "secondary": [
            "restituci√≥n tierras", "ind√≠genas", "comunidades √©tnicas", "afrocolombianos",
            "campesinos", "onu", "violencia g√©nero", "feminicidio", "mujeres",
            "juventud", "adulto mayor", "poblaci√≥n vulnerable", "discriminaci√≥n"
        ]
    },
    "Deportes y Entretenimiento": {
        "primary": [
            "selecci√≥n colombia", "james rodr√≠guez", "luis d√≠az", "falcao",
            "liga betplay", "millonarios", "nacional", "ciclismo colombiano",
            "egan bernal", "nairo quintana"
        ],
        "secondary": [
            "f√∫tbol colombiano", "am√©rica cali", "junior barranquilla",
            "deportivo cali", "atl√©tico nacional", "boxeo", "juegos ol√≠mpicos",
            "entretenimiento", "cine colombiano", "m√∫sica", "vallenato", "festival"
        ]
    }
}

# Patrones de sentimiento contextual mejorados
SENTIMENT_PATTERNS = {
    "strong_negative": [
        r'\b(tragedia|desastre|crisis grave|esc√°ndalo|corrupci√≥n masiva|cat√°strofe)\b',
        r'\b(asesinato|masacre|genocidio|crimen atroz|violaci√≥n grave)\b',
        r'\b(colapso|caos|devastaci√≥n|p√°nico|terror)\b',
        r'\b(repudio|indignaci√≥n|brutal|inhumano|inaceptable)\b' # <-- A√ëADIDO
    ],
    "moderate_negative": [
        r'\b(preocupaci√≥n|problema|denuncia|cr√≠tica|pol√©mica)\b',
        r'\b(deterioro|d√©ficit|irregularidad|falla|deficiencia)\b',
        r'\b(protestas|conflicto|rechazo|oposici√≥n|controversia)\b',
        r'\b(amenaza|riesgo|peligro|alerta|advertencia)\b',
        r'\b(grave|dif√≠cil|complicada|lamentable|impacto negativo)\b', # <-- A√ëADIDO
        r'\b(incertidumbre|retroceso|afecta|perjudica)\b' # <-- A√ëADIDO
    ],
    "strong_positive": [
        r'\b(logro hist√≥rico|√©xito rotundo|hito|haza√±a|triunfo)\b',
        r'\b(reconocimiento internacional|premio prestigioso|distinci√≥n)\b',
        r'\b(r√©cord|breakthrough|avance revolucionario)\b',
        r'\b(excelente|magn√≠fico|extraordinario|orgullo nacional)\b' # <-- A√ëADIDO
    ],
    "moderate_positive": [
        r'\b(mejora|avance|progreso|lanzamiento|premio|auge|crecimiento|desarrollo)\b',
        r'\b(inversi√≥n|acuerdo|aprobaci√≥n|beneficio|ganancia|lanza|soluciones|)\b',
        r'\b(inauguraci√≥n|entrega|lanzamiento|apertura)\b',
        r'\b(victoria|√©xito|logro|conquista)\b',
        r'\b(impulso|fortalece|recuperaci√≥n|oportunidad|positivo)\b' # <-- A√ëADIDO
    ]
}

# Temas sensibles que requieren an√°lisis cuidadoso
SENSITIVE_TOPICS = {
    "Seguridad y Justicia": ["Negativo", "Neutro"],  # Raramente positivo
    "Social y Derechos Humanos": ["Negativo", "Neutro"],
    "Medio Ambiente y Clima": ["Negativo", "Neutro"]
}

TOPIC_LIST = list(TOPIC_KEYWORDS.keys())

# ===============================================================
# UTILIDADES MEJORADAS
# ===============================================================

def sanitize_name(name):
    return re.sub(r"[^A-Za-z0-9_\-]", "_", name)

def clean_text_enhanced(text):
    """Limpieza de texto mejorada con preservaci√≥n de contexto"""
    if not isinstance(text, str):
        return ""

    t = text.strip()

    # Preservar puntuaci√≥n importante para contexto
    t = re.sub(r'https?://\S+', ' [URL] ', t)
    t = re.sub(r'[\x00-\x1f\x7f]', ' ', t)
    t = re.sub(r'\s+', ' ', t)

    # Truncar inteligentemente
    if len(t) > MAX_CHARS_CLEAN:
        truncated = t[:MAX_CHARS_CLEAN]
        # Buscar punto final o punto y coma cercano
        last_period = max(truncated.rfind('.'), truncated.rfind(';'),
                          truncated.rfind('!'), truncated.rfind('?'))

        if last_period > MAX_CHARS_CLEAN * 0.7:
            t = truncated[:last_period + 1]
        else:
            t = truncated.rsplit(' ', 1)[0] if ' ' in truncated else truncated

    return t.strip()

def normalize_for_comparison(text):
    """Normalizaci√≥n avanzada para comparaci√≥n"""
    t = text.lower().strip()

    # Remover URLs y menciones
    t = re.sub(r'https?://\S+|www\.\S+|@\w+', ' ', t)

    # Normalizar n√∫meros (mantener significado pero simplificar)
    t = re.sub(r'\d+', 'NUM', t)

    # Remover puntuaci√≥n pero mantener estructura
    t = re.sub(r'[^\w\s√°√©√≠√≥√∫√º√±]', ' ', t)
    t = re.sub(r'\s+', ' ', t).strip()

    return t

def get_text_signature(text, n_words=PREFIX_WORDS):
    """Obtiene firma del texto para comparaci√≥n r√°pida"""
    words = normalize_for_comparison(text).split()[:n_words]
    return ' '.join(words)

def analyze_sentiment_patterns(text):
    """An√°lisis de patrones de sentimiento en el texto"""
    text_lower = text.lower()

    scores = {
        'strong_negative': 0,
        'moderate_negative': 0,
        'strong_positive': 0,
        'moderate_positive': 0
    }

    for sentiment_type, patterns in SENTIMENT_PATTERNS.items():
        for pattern in patterns:
            matches = len(re.findall(pattern, text_lower))
            scores[sentiment_type] += matches

    return scores

def calculate_sentiment_score(pattern_scores):
    """Calcula score de sentimiento basado en patrones"""
    neg_score = (pattern_scores['strong_negative'] * 2 +
                 pattern_scores['moderate_negative'])
    pos_score = (pattern_scores['strong_positive'] * 2 +
                 pattern_scores['moderate_positive'])

    # --- AJUSTE DE PRECISI√ìN (Menos Neutro) ---
    # Se reduce el umbral de +2 a +0 para ser m√°s sensible
    if neg_score > pos_score:
        return 'Negativo'
    elif pos_score > neg_score:
        return 'Positivo'
    else:
        return 'Neutro'

def print_gpu_usage():
    if torch.cuda.is_available():
        allocated = torch.cuda.memory_allocated(0) / 1024**3
        reserved = torch.cuda.memory_reserved(0) / 1024**3
        print(f"   GPU Memory: {allocated:.2f} GB allocated, {reserved:.2f} GB reserved")

# ===============================================================
# AGRUPAMIENTO INTELIGENTE MEJORADO
# ===============================================================

def agrupar_textos_avanzado(textos):
    """
    Agrupamiento multi-nivel:
    1. Pre-filtro por firma textual
    2. Clustering por similitud sem√°ntica
    3. Post-procesamiento de micro-clusters
    """
    print("üîç Agrupamiento inteligente multi-nivel...")

    # NIVEL 1: Agrupamiento por firma textual
    print("   Nivel 1: Agrupamiento por firma textual")
    signature_groups = defaultdict(list)

    for i, txt in enumerate(textos):
        if len(txt.strip()) < 30:
            sig = f"_short_{i}"
        else:
            sig = get_text_signature(txt)
        signature_groups[sig].append((i, txt))

    print(f"   ‚Üí {len(signature_groups)} grupos de firma")

    # NIVEL 2: Clustering sem√°ntico dentro de cada grupo de firma
    print("   Nivel 2: Clustering sem√°ntico")
    encoder = SentenceTransformer(MODELO_EMBEDDING, device=device)
    encoder.max_seq_length = 256

    final_clusters = []
    cluster_map = np.zeros(len(textos), dtype=np.int32)
    current_cluster_id = 0

    for sig, items in tqdm(signature_groups.items(), desc="Procesando firmas"):
        if len(items) == 1:
            idx, txt = items[0]
            final_clusters.append({
                'indices': [idx],
                'representative': txt,
                'size': 1
            })
            cluster_map[idx] = current_cluster_id
            current_cluster_id += 1
            continue

        # Obtener embeddings para el grupo
        indices, texts = zip(*items)
        embeddings = encoder.encode(
            texts,
            batch_size=BATCH_EMB,
            show_progress_bar=False,
            convert_to_tensor=True,
            normalize_embeddings=True,
            device=device
        )

        # Clustering jer√°rquico para mejor control
        if len(items) <= 5:
            # Grupos peque√±os: usar threshold estricto
            clustering = AgglomerativeClustering(
                n_clusters=None,
                distance_threshold=1 - SIMILARITY_THRESHOLD_STRICT,
                linkage='average',
                metric='cosine'
            )
        else:
            # Grupos grandes: DBSCAN para identificar outliers
            clustering = DBSCAN(
                eps=1 - SIMILARITY_THRESHOLD_MODERATE,
                min_samples=MIN_CLUSTER_SIZE,
                metric='cosine'
            )

        labels = clustering.fit_predict(embeddings.cpu().numpy())

        # Crear sub-clusters
        label_groups = defaultdict(list)
        for label, idx, txt in zip(labels, indices, texts):
            label_groups[label].append((idx, txt))

        # Asignar clusters finales
        for label, sub_items in label_groups.items():
            sub_indices, sub_texts = zip(*sub_items)

            # Seleccionar representante (el m√°s largo y centrado)
            if len(sub_items) > 1:
                # Calcular texto m√°s centrado sem√°ntica
                sub_embs_indices = [indices.index(idx) for idx in sub_indices]
                sub_embs = embeddings[torch.tensor(sub_embs_indices).to(device)]
                centroid = sub_embs.mean(dim=0)
                distances = torch.cosine_similarity(sub_embs, centroid.unsqueeze(0))
                rep_idx = sub_indices[distances.argmax().item()]
                rep_text = textos[rep_idx]
            else:
                rep_idx = sub_indices[0]
                rep_text = sub_texts[0]

            final_clusters.append({
                'indices': list(sub_indices),
                'representative': rep_text,
                'representative_idx': rep_idx,
                'size': len(sub_indices)
            })

            for idx in sub_indices:
                cluster_map[idx] = current_cluster_id

            current_cluster_id += 1

    # NIVEL 3: Post-procesamiento - fusionar micro-clusters muy similares
    print("   Nivel 3: Fusi√≥n de micro-clusters")

    if len(final_clusters) > 100:  # Solo si hay muchos clusters
        rep_texts = [c['representative'] for c in final_clusters]
        rep_embeddings = encoder.encode(
            rep_texts,
            batch_size=BATCH_EMB,
            show_progress_bar=False,
            convert_to_tensor=True,
            normalize_embeddings=True,
            device=device
        )

        # Identificar pares muy similares
        similarity_matrix = util.cos_sim(rep_embeddings, rep_embeddings)
        merged = set()

        for i in range(len(final_clusters)):
            if i in merged:
                continue

            for j in range(i + 1, len(final_clusters)):
                if j in merged:
                    continue

                if similarity_matrix[i][j] > SIMILARITY_THRESHOLD_STRICT:
                    # Fusionar cluster j en cluster i
                    final_clusters[i]['indices'].extend(final_clusters[j]['indices'])
                    final_clusters[i]['size'] += final_clusters[j]['size']

                    # Actualizar mapa (apuntar todos los textos de j al ID de i)
                    target_cluster_id = cluster_map[final_clusters[i]['indices'][0]]
                    for idx in final_clusters[j]['indices']:
                        cluster_map[idx] = target_cluster_id

                    merged.add(j)

        # Remover clusters fusionados
        final_clusters = [c for i, c in enumerate(final_clusters) if i not in merged]
        print(f"   ‚Üí Fusionados {len(merged)} micro-clusters")

        # --- INICIO DE LA CORRECCI√ìN DEL INDEXERROR ---
        # Es crucial reconstruir el cluster_map DESPU√âS de fusionar y
        # re-indexar la lista 'final_clusters'.
        # El 'cluster_map' anterior conten√≠a IDs (ej. 150) que ahora est√°n
        # fuera de rango si la lista 'final_clusters' se acort√≥ (ej. a 149).
        print(f"   Nivel 3b: Re-indexando cluster_map final...")
        cluster_map_final = np.zeros(len(textos), dtype=np.int32)
        for new_cluster_id, cluster_info in enumerate(final_clusters):
            for idx in cluster_info['indices']:
                cluster_map_final[idx] = new_cluster_id

        # Sobrescribir el cluster_map antiguo con el mapa re-indexado
        cluster_map = cluster_map_final
        # --- FIN DE LA CORRECCI√ìN ---

    representatives = [c['representative'] for c in final_clusters]

    reduccion = (1 - len(representatives)/max(1, len(textos))) * 100
    print(f"‚úì {len(textos)} textos ‚Üí {len(representatives)} clusters ({reduccion:.1f}% reducci√≥n)")
    print(f"   Distribuci√≥n de tama√±os: "
          f"1 texto: {sum(1 for c in final_clusters if c['size'] == 1)}, "
          f"2-5 textos: {sum(1 for c in final_clusters if 2 <= c['size'] <= 5)}, "
          f">5 textos: {sum(1 for c in final_clusters if c['size'] > 5)}")

    del encoder, embeddings, rep_embeddings
    gc.collect()
    torch.cuda.empty_cache()

    return representatives, cluster_map, final_clusters

# ===============================================================
# AN√ÅLISIS DE SENTIMIENTO MEJORADO
# ===============================================================

def inferir_sentimiento_avanzado(representatives, textos_completos, cluster_map, clusters):
    """
    An√°lisis de sentimiento con sistema de votaci√≥n para clusters
    """
    print(f"\nüéØ An√°lisis de sentimiento avanzado con {MODELO_SENTIMIENTO}")
    print(f"   Batch size: {BATCH_SENT}")

    t_start = time.time()

    # An√°lisis de sentimiento base
    sentiment_pipe = pipeline(
        "text-classification",
        model=MODELO_SENTIMIENTO,
        device=0 if torch.cuda.is_available() else -1,
        batch_size=BATCH_SENT,
        truncation=True,
        max_length=MAX_LEN_SENT
    )

    print_gpu_usage()

    # Procesar representantes
    resultados_rep = []
    # Manejar caso de 0 representantes (ej. 0 textos de entrada)
    if len(representatives) > 0:
        for i in tqdm(range(0, len(representatives), BATCH_SENT), desc="Sentimiento base"):
            batch = representatives[i:i + BATCH_SENT]
            outputs = sentiment_pipe(batch)
            resultados_rep.extend(outputs)

    label_map = {
        "Positive": "Positivo",
        "Negative": "Negativo",
        "Neutral": "Neutro"
    }

    # Sentimientos base de representantes
    sentimientos_base = [label_map.get(r['label'], 'Neutro') for r in resultados_rep]

    # REFINAMIENTO: An√°lisis de patrones para clusters grandes
    print("   Refinando sentimiento en clusters grandes...")
    sentimientos_refinados = []

    for cluster_id, cluster_info in enumerate(tqdm(clusters, desc="Refinamiento")):
        if cluster_info['size'] == 1:
            # Cluster unitario: usar an√°lisis de patrones
            idx = cluster_info['indices'][0]
            texto = textos_completos[idx]
            pattern_scores = analyze_sentiment_patterns(texto)
            pattern_sentiment = calculate_sentiment_score(pattern_scores)

            base_sent = sentimientos_base[cluster_id]

            # --- AJUSTE DE PRECISI√ìN (Menos Neutro) ---
            # Priorizar el sentimiento de patrones (que ahora es m√°s sensible)
            # si este NO es Neutro.
            if pattern_sentiment != 'Neutro':
                final_sent = pattern_sentiment
            else:
                final_sent = base_sent # Usar el base solo si patrones no detectan nada

            sentimientos_refinados.append(final_sent)

        else:
            # Cluster m√∫ltiple: sistema de votaci√≥n
            indices = cluster_info['indices']
            votos = []

            for idx in indices[:min(5, len(indices))]:  # M√°ximo 5 muestras por cluster
                texto = textos_completos[idx]
                pattern_scores = analyze_sentiment_patterns(texto)
                pattern_sent = calculate_sentiment_score(pattern_scores)
                votos.append(pattern_sent)

            # Agregar voto del an√°lisis base
            votos.append(sentimientos_base[cluster_id])

            # Votaci√≥n ponderada
            voto_counts = Counter(votos)
            sentimiento_final = voto_counts.most_common(1)[0][0]

            # Si hay empate, usar el an√°lisis base
            if len(voto_counts) > 1 and list(voto_counts.values())[0] == list(voto_counts.values())[1]:
                sentimiento_final = sentimientos_base[cluster_id]

            sentimientos_refinados.append(sentimiento_final)

    t_elapsed = time.time() - t_start
    velocidad = len(representatives) / max(1, t_elapsed)
    print(f"   ‚ö° Procesados {len(representatives)} clusters en {t_elapsed:.2f}s ({velocidad:.0f} clusters/s)")
    print_gpu_usage()

    del sentiment_pipe
    gc.collect()
    torch.cuda.empty_cache()

    return sentimientos_refinados

# ===============================================================
# CLASIFICACI√ìN DE TEMAS MEJORADA
# ===============================================================

def inferir_temas_avanzado(representatives):
    """
    Clasificaci√≥n de temas con an√°lisis jer√°rquico:
    1. Matching de keywords primary (alta confianza)
    2. Embeddings sem√°nticos
    3. Refinamiento con keywords secondary
    """
    print(f"\nüè∑Ô∏è Clasificaci√≥n de temas avanzada con {MODELO_EMBEDDING}")
    print(f"   Batch size: {BATCH_EMB}")

    # Manejar caso de 0 representantes
    if len(representatives) == 0:
        print("   ‚Üí No hay representantes para analizar.")
        return []

    t_start = time.time()

    encoder = SentenceTransformer(MODELO_EMBEDDING, device=device)
    encoder.max_seq_length = 256

    print_gpu_usage()

    # PASO 1: An√°lisis directo de keywords primary
    print("   Paso 1: An√°lisis de keywords primarias")
    keyword_matches = []

    for txt in representatives:
        txt_lower = txt.lower()
        topic_scores = {}

        for topic, keywords_dict in TOPIC_KEYWORDS.items():
            primary_score = sum(2 for kw in keywords_dict['primary'] if kw in txt_lower)
            secondary_score = sum(1 for kw in keywords_dict['secondary'] if kw in txt_lower)
            topic_scores[topic] = primary_score + secondary_score

        # Si hay match fuerte con keywords primary (score >= 2), usar ese tema
        max_score = max(topic_scores.values()) if topic_scores else 0
        if max_score >= 2:
            best_topic = max(topic_scores, key=topic_scores.get)
            keyword_matches.append((best_topic, max_score))
        else:
            keyword_matches.append((None, max_score))

    n_keyword_matches = sum(1 for match, _ in keyword_matches if match is not None)
    print(f"   ‚Üí {n_keyword_matches}/{len(representatives)} con match directo")

    # PASO 2: Embeddings sem√°nticos para textos sin match claro
    print("   Paso 2: An√°lisis sem√°ntico con embeddings")

    # Crear centroides mejorados
    centroides_frases = []
    for tema, keywords_dict in TOPIC_KEYWORDS.items():
        # Combinar primary y secondary para mejor representaci√≥n
        all_keywords = keywords_dict['primary'][:8] + keywords_dict['secondary'][:4]
        frase = f"{tema}: " + ", ".join(all_keywords)
        centroides_frases.append(frase)

    centroides = encoder.encode(
        centroides_frases,
        batch_size=32,
        show_progress_bar=False,
        convert_to_tensor=True,
        normalize_embeddings=True,
        device=device
    )

    # Encodear representantes
    all_vecs = []
    for i in tqdm(range(0, len(representatives), BATCH_EMB), desc="Embeddings"):
        batch = representatives[i:i + BATCH_EMB]
        vecs = encoder.encode(
            batch,
            batch_size=BATCH_EMB,
            show_progress_bar=False,
            convert_to_tensor=True,
            normalize_embeddings=True,
            device=device
        )
        all_vecs.append(vecs)

    all_vecs = torch.cat(all_vecs, dim=0)
    similarities = torch.matmul(all_vecs, centroides.T)
    tema_ids_embeddings = similarities.argmax(dim=1).cpu().numpy()
    max_similarities = similarities.max(dim=1).values.cpu().numpy()

    # PASO 3: Decisi√≥n final combinando ambos m√©todos
    print("   Paso 3: Combinaci√≥n y refinamiento")
    temas_finales = []

    for i, (keyword_match, keyword_score) in enumerate(keyword_matches):
        if keyword_match is not None and keyword_score >= 4:
            # Match muy fuerte de keywords -> usar ese tema
            temas_finales.append(keyword_match)
        elif keyword_match is not None and max_similarities[i] < 0.3:
            # Match moderado de keywords pero baja similitud sem√°ntica
            # Confiar en keywords
            temas_finales.append(keyword_match)
        elif max_similarities[i] >= 0.4:
            # Alta similitud sem√°ntica -> usar embedding
            temas_finales.append(TOPIC_LIST[int(tema_ids_embeddings[i])])
        elif keyword_match is not None:
            # Match d√©bil de keywords -> usar ese tema
            temas_finales.append(keyword_match)
        else:
            # Usar embeddings como fallback
            temas_finales.append(TOPIC_LIST[int(tema_ids_embeddings[i])])

    t_elapsed = time.time() - t_start
    velocidad = len(representatives) / max(1, t_elapsed)
    print(f"   ‚ö° Procesados {len(representatives)} textos en {t_elapsed:.2f}s ({velocidad:.0f} textos/s)")
    print_gpu_usage()

    del encoder, centroides, all_vecs, similarities
    gc.collect()
    torch.cuda.empty_cache()

    return temas_finales

# ===============================================================
# POST-PROCESAMIENTO DE CONSISTENCIA
# ===============================================================

def post_procesar_consistencia(temas, sentimientos, clusters, textos_originales):
    """
    Asegura consistencia tema-tono basada en contexto colombiano
    """
    print("\nüîß Post-procesamiento de consistencia tema-tono...")

    ajustes = 0

    for cluster_id, (tema, sentimiento) in enumerate(zip(temas, sentimientos)):
        # Verificar temas sensibles
        if tema in SENSITIVE_TOPICS:
            expected_sentiments = SENSITIVE_TOPICS[tema]

            if sentimiento not in expected_sentiments:
                # Revisar el contenido del cluster
                cluster_indices = clusters[cluster_id]['indices']

                # Analizar algunos textos del cluster
                sample_size = min(3, len(cluster_indices))
                negative_indicators = 0

                for idx in cluster_indices[:sample_size]:
                    texto = textos_originales[idx].lower()

                    # Buscar indicadores negativos fuertes
                    if any(word in texto for word in [
                        'asesinato', 'masacre', 'muerto', 'v√≠ctima', 'violencia',
                        'amenaza', 'ataque', 'denuncia', 'crisis', 'desastre'
                    ]):
                        negative_indicators += 1

                # Si hay evidencia fuerte de negatividad, ajustar
                if negative_indicators >= sample_size * 0.6:
                    if sentimiento == "Positivo":
                        sentimientos[cluster_id] = "Neutro"
                        ajustes += 1

        # Verificar inconsistencias tema-sentimiento espec√≠ficas
        if tema == "Deportes y Entretenimiento" and sentimiento == "Negativo":
            # Deportes raramente es muy negativo, revisar
            cluster_indices = clusters[cluster_id]['indices']
            texto_muestra = textos_originales[cluster_indices[0]].lower()

            # Solo mantener negativo si hay palabras muy negativas
            if not any(word in texto_muestra for word in [
                'muerte', 'lesi√≥n grave', 'esc√°ndalo', 'dopaje', 'corrupci√≥n', 'tragedia'
            ]):
                sentimientos[cluster_id] = "Neutro"
                ajustes += 1

        # Econom√≠a con keywords positivos pero clasificado como negativo
        if tema == "Econom√≠a y Finanzas" and sentimiento == "Negativo":
            cluster_indices = clusters[cluster_id]['indices']
            texto_muestra = textos_originales[cluster_indices[0]].lower()

            positive_econ_words = [
                'crecimiento', 'aumento exportaciones', 'inversi√≥n r√©cord',
                'mejora pib', 'reducci√≥n desempleo', 'fortalecimiento'
            ]

            if any(word in texto_muestra for word in positive_econ_words):
                sentimientos[cluster_id] = "Neutro"
                ajustes += 1

    if ajustes > 0:
        print(f"   ‚úì Realizados {ajustes} ajustes de consistencia")
    else:
        print(f"   ‚úì Sin ajustes necesarios - alta consistencia")

    return temas, sentimientos

# ===============================================================
# AN√ÅLISIS DE CALIDAD
# ===============================================================

def analizar_calidad_resultados(df, clusters):
    """
    Analiza la calidad y consistencia de los resultados
    """
    print("\nüìä An√°lisis de calidad:")

    # Manejar caso de 0 clusters
    if len(clusters) == 0:
        print("   ‚Ä¢ No hay clusters para analizar.")
        return

    # Consistencia intra-cluster
    inconsistencias_tono = 0
    inconsistencias_tema = 0

    total_clusters_multi = sum(1 for c in clusters if c['size'] > 1)

    if total_clusters_multi > 0:
        for cluster in clusters:
            if cluster['size'] > 1:
                indices = cluster['indices']
                tonos = df.iloc[indices]['tono'].values
                temas = df.iloc[indices]['tema'].values

                # Si hay variaci√≥n en un cluster, es inconsistencia
                if len(set(tonos)) > 1:
                    inconsistencias_tono += 1
                if len(set(temas)) > 1:
                    inconsistencias_tema += 1

        consistencia_tono = (1 - inconsistencias_tono / total_clusters_multi) * 100
        consistencia_tema = (1 - inconsistencias_tema / total_clusters_multi) * 100

        print(f"   ‚Ä¢ Consistencia de tono en clusters: {consistencia_tono:.1f}%")
        print(f"   ‚Ä¢ Consistencia de tema en clusters: {consistencia_tema:.1f}%")
    else:
        print("   ‚Ä¢ No hay clusters de tama√±o > 1 para analizar consistencia.")

    # Distribuci√≥n de confianza
    distribucion_cluster_sizes = Counter(c['size'] for c in clusters)
    print(f"\n   ‚Ä¢ Distribuci√≥n de tama√±os de cluster:")
    for size in sorted(distribucion_cluster_sizes.keys())[:5]:
        count = distribucion_cluster_sizes[size]
        print(f"       - {size} textos: {count} clusters")

    # Coverage de temas
    temas_unicos = df['tema'].nunique() if not df.empty else 0
    print(f"\n   ‚Ä¢ Temas identificados: {temas_unicos}/{len(TOPIC_LIST)}")

    # Balance de sentimientos
    if not df.empty:
        balance_sent = df['tono'].value_counts(normalize=True) * 100
        print(f"\n   ‚Ä¢ Balance de sentimientos:")
        for sent, pct in balance_sent.items():
            print(f"       - {sent}: {pct:.1f}%")
    else:
        print("\n   ‚Ä¢ Balance de sentimientos: No hay datos.")


# ===============================================================
# EXPORTACI√ìN MEJORADA
# ===============================================================

def guardar_resultados_avanzado(df, nombre_original, clusters, t_total, metricas_calidad=None):
    """
    Guarda resultados con an√°lisis extendido y m√©tricas de calidad
    """
    # --- CORRECCI√ìN DEL ERROR DE SINTAXIS ---
    # La l√≠nea original estaba dividida incorrectamente.
    # Se ha unido en una sola l√≠nea y se ha a√±adido '$' para asegurar
    # que solo elimina la extensi√≥n al final del nombre.
    base = re.sub(r'\.xlsx?$', '', nombre_original, flags=re.IGNORECASE)
    # --- FIN DE LA CORRECCI√ìN ---

    ts = time.strftime("%Y%m%d_%H%M%S")
    out_xlsx = f"/content/analisis_avanzado_v15_{sanitize_name(base)}_{ts}.xlsx"

    n = len(df)
    n_clusters = len(clusters)

    print("\nüìù Generando Excel con an√°lisis completo...")

    # Estad√≠sticas b√°sicas
    dist_tono = df['tono'].value_counts() if not df.empty else pd.Series()
    dist_tema = df['tema'].value_counts() if not df.empty else pd.Series()
    crosstab = pd.crosstab(df['tema'], df['tono'], margins=True) if not df.empty else pd.DataFrame()

    # An√°lisis de clusters
    cluster_sizes = [c['size'] for c in clusters]
    cluster_stats = pd.DataFrame({
        'Tama√±o Cluster': sorted(set(cluster_sizes)),
        'Cantidad': [cluster_sizes.count(s) for s in sorted(set(cluster_sizes))],
        'Total Textos': [cluster_sizes.count(s) * s for s in sorted(set(cluster_sizes))]
    }) if cluster_sizes else pd.DataFrame()

    # Top temas por sentimiento
    tema_tono_detailed = []
    if not df.empty:
        for tema in TOPIC_LIST:
            tema_df = df[df['tema'] == tema]
            if len(tema_df) > 0:
                for tono in ['Positivo', 'Neutro', 'Negativo']:
                    count = len(tema_df[tema_df['tono'] == tono])
                    pct = (count / len(tema_df)) * 100 if len(tema_df) > 0 else 0
                    tema_tono_detailed.append({
                        'Tema': tema,
                        'Tono': tono,
                        'Cantidad': count,
                        'Porcentaje': round(pct, 2)
                    })

    tema_tono_df = pd.DataFrame(tema_tono_detailed)

    with pd.ExcelWriter(out_xlsx, engine="openpyxl") as w:
        # Hoja 1: Resultados principales
        if not df.empty:
            cols_order = ["resumen", "tono", "tema", "cluster_id", "cluster_size"] + \
                         [c for c in df.columns if c not in ["resumen", "tono", "tema", "cluster_id", "cluster_size"]]
            df[cols_order].to_excel(w, sheet_name="Resultados", index=False)
        else:
            pd.DataFrame([{"Error": "No se procesaron datos"}]).to_excel(w, sheet_name="Resultados", index=False)

        # Hoja 2: Estad√≠sticas generales
        stats = pd.DataFrame({
            "M√©trica": [
                "Total de textos",
                "Clusters procesados",
                "Reducci√≥n",
                "Textos √∫nicos",
                "Tiempo total (s)",
                "Velocidad (textos/s)",
                "Batch Sentimiento",
                "Batch Embeddings",
                "Modelo Sentimiento",
                "Modelo Temas",
                "Similarity Threshold Strict",
                "Similarity Threshold Moderate"
            ],
            "Valor": [
                n,
                n_clusters,
                f"{(1 - n_clusters/max(n,1))*100:.1f}%",
                sum(1 for c in clusters if c['size'] == 1),
                f"{t_total:.2f}",
                f"{n/max(t_total,1):.0f}",
                BATCH_SENT,
                BATCH_EMB,
                MODELO_SENTIMIENTO,
                MODELO_EMBEDDING,
                SIMILARITY_THRESHOLD_STRICT,
                SIMILARITY_THRESHOLD_MODERATE
            ],
        })
        stats.to_excel(w, sheet_name="Estadisticas", index=False)

        # Hoja 3: Distribuci√≥n de tonos
        if not dist_tono.empty:
            dist_tono_df = pd.DataFrame({
                'Tono': dist_tono.index,
                'Cantidad': dist_tono.values,
                'Porcentaje': (dist_tono.values / max(1, n) * 100).round(2)
            })
            dist_tono_df.to_excel(w, sheet_name="Distribucion_Tonos", index=False)

        # Hoja 4: Distribuci√≥n de temas
        if not dist_tema.empty:
            dist_tema_df = pd.DataFrame({
                'Tema': dist_tema.index,
                'Cantidad': dist_tema.values,
                'Porcentaje': (dist_tema.values / max(1, n) * 100).round(2)
            }).sort_values('Cantidad', ascending=False)
            dist_tema_df.to_excel(w, sheet_name="Distribucion_Temas", index=False)

        # Hoja 5: Cruce tema-tono
        if not crosstab.empty:
            crosstab.to_excel(w, sheet_name="Cruce_Tema_Tono")

        # Hoja 6: An√°lisis detallado tema-tono
        if not tema_tono_df.empty:
            tema_tono_df.to_excel(w, sheet_name="Detalle_Tema_Tono", index=False)

        # Hoja 7: An√°lisis de clusters
        if not cluster_stats.empty:
            cluster_stats.to_excel(w, sheet_name="Analisis_Clusters", index=False)

        # Hoja 8: Ejemplos por tema
        ejemplos_tema = []
        if not dist_tema.empty:
            for tema in dist_tema.index[:10]:  # Top 10 temas
                tema_samples = df[df['tema'] == tema].head(3)
                for _, row in tema_samples.iterrows():
                    ejemplos_tema.append({
                        'Tema': tema,
                        'Tono': row['tono'],
                        'Resumen': str(row['resumen'])[:200] + '...' if len(str(row['resumen'])) > 200 else row['resumen']
                    })

        if ejemplos_tema:
            pd.DataFrame(ejemplos_tema).to_excel(w, sheet_name="Ejemplos_Temas", index=False)

    if os.path.exists(out_xlsx):
        print(f"üíæ Descargando: {os.path.basename(out_xlsx)}")
        try:
            files.download(out_xlsx)
            print(f"‚úÖ Descarga completada")
        except Exception as e:
            print(f"‚ö†Ô∏è Error al descargar: {e}")
            print(f"üìÅ Archivo disponible en: {out_xlsx}")

# ===============================================================
# FLUJO PRINCIPAL
# ===============================================================

def main():
    print("="*70)
    print("   ANALIZADOR AVANZADO DE NOTICIAS COLOMBIA v15")
    print("   Multi-nivel Clustering + Votaci√≥n + Post-procesamiento")
    print("="*70)
    print(f"‚ö° Batch Sentimiento: {BATCH_SENT}")
    print(f"‚ö° Batch Embeddings: {BATCH_EMB}")
    print(f"üî¨ Modelo Sentimiento: {MODELO_SENTIMIENTO}")
    print(f"üî¨ Modelo Temas: {MODELO_EMBEDDING}")
    print(f"üìä Temas configurados: {len(TOPIC_LIST)}")
    print(f"üéØ Similarity Strict: {SIMILARITY_THRESHOLD_STRICT}")
    print(f"üéØ Similarity Moderate: {SIMILARITY_THRESHOLD_MODERATE}")
    print("="*70)

    try:
        print("\nüì§ Suba su archivo Excel con columna 'resumen'")
        up = files.upload()
        if not up:
            print("‚ùå No se subi√≥ archivo")
            return

        nombre = list(up.keys())[0]
        print(f"\nüìä Leyendo: {nombre}")
        df = pd.read_excel(io.BytesIO(up[nombre]))

    except Exception as e:
        print(f"‚ùå Error fatal al cargar el archivo: {e}")
        return

    if 'resumen' not in df.columns:
        print(f"‚ùå Error: Falta columna 'resumen'. Columnas: {', '.join(df.columns)}")
        return

    # Manejar DataFrames vac√≠os
    if df.empty:
        print("‚ö†Ô∏è El archivo est√° vac√≠o o no tiene filas.")
        # A√∫n as√≠, intentamos guardar un reporte vac√≠o
        df['tono'] = []
        df['tema'] = []
        df['cluster_id'] = []
        df['cluster_size'] = []
        t0 = time.time()
        clusters = []
    else:
        print(f"‚úì {len(df)} textos cargados")

        # Preparar textos
        textos_originales = df['resumen'].fillna('').astype(str).tolist()
        textos_limpios = [clean_text_enhanced(t) for t in textos_originales]

        print("\n" + "="*70)
        print("INICIANDO PROCESAMIENTO AVANZADO")
        print("="*70)

        t0 = time.time()

        # FASE 1: Agrupamiento multi-nivel
        representatives, cluster_map, clusters = agrupar_textos_avanzado(textos_limpios)

        # FASE 2: An√°lisis de sentimiento con votaci√≥n
        tonos_clusters = inferir_sentimiento_avanzado(
            representatives,
            textos_originales,
            cluster_map,
            clusters
        )

        # FASE 3: Clasificaci√≥n de temas avanzada
        temas_clusters = inferir_temas_avanzado(representatives)

        # FASE 4: Post-procesamiento de consistencia
        temas_clusters, tonos_clusters = post_procesar_consistencia(
            temas_clusters,
            tonos_clusters,
            clusters,
            textos_originales
        )

        # Mapear resultados a todos los textos
        n = len(df)
        # --- Verificaci√≥n para prevenir el error si las listas est√°n vac√≠as ---
        if n > 0 and len(tonos_clusters) > 0 and len(temas_clusters) > 0:
            df['tono'] = [tonos_clusters[int(cluster_map[i])] for i in range(n)]
            df['tema'] = [temas_clusters[int(cluster_map[i])] for i in range(n)]
            df['cluster_id'] = cluster_map
            df['cluster_size'] = [clusters[int(cluster_map[i])]['size'] for i in range(n)]
        elif n > 0:
             print("‚ö†Ô∏è Error: No se generaron clusters pero hay datos. Asignando N/A.")
             df['tono'] = 'N/A'
             df['tema'] = 'N/A'
             df['cluster_id'] = -1
             df['cluster_size'] = 0
        else:
             # df est√° vac√≠o, crear columnas vac√≠as
             df['tono'] = []
             df['tema'] = []
             df['cluster_id'] = []
             df['cluster_size'] = []


    t1 = time.time()
    n = len(df) # Recalcular n por si estaba vac√≠o
    t_total = t1 - t0

    print(f"\n{'='*70}")
    print(f"‚úÖ PROCESAMIENTO COMPLETADO")
    print(f"‚ö° Tiempo total: {t_total:.2f} segundos")
    if t_total > 0:
        print(f"‚ö° Velocidad: {n/t_total:.0f} textos/segundo")
    print(f"{'='*70}")

    # An√°lisis de calidad
    analizar_calidad_resultados(df, clusters)

    print("\nüìä DISTRIBUCI√ìN FINAL:")
    if not df.empty:
        print(f"\nTonos:\n{df['tono'].value_counts()}")
        print(f"\nTop 5 Temas:\n{df['tema'].value_counts().head(5)}")
    else:
        print("No hay datos para mostrar distribuci√≥n.")


    print(f"\nüéØ M√âTRICAS DE OPTIMIZACI√ìN:")
    print(f"   ‚Ä¢ Textos procesados: {n}")
    print(f"   ‚Ä¢ Clusters creados: {len(clusters)}")
    if n > 0:
        print(f"   ‚Ä¢ Eficiencia: {(1 - len(clusters)/n)*100:.1f}% reducci√≥n")
    if clusters:
        print(f"   ‚Ä¢ Clusters √∫nicos: {sum(1 for c in clusters if c['size'] == 1)}")
        print(f"   ‚Ä¢ Clusters m√∫ltiples: {sum(1 for c in clusters if c['size'] > 1)}")
        print(f"   ‚Ä¢ Cluster m√°s grande: {max(c['size'] for c in clusters)} textos")

    # Guardar resultados
    guardar_resultados_avanzado(df, nombre, clusters, t_total)

    # Limpieza final
    gc.collect()
    torch.cuda.empty_cache()

    print("\n‚úÖ Proceso completado exitosamente")
    print("="*70)

if __name__ == '__main__':
    main()

‚úì GPU: Tesla T4
‚úì VRAM Total: 14.7 GB
   ANALIZADOR AVANZADO DE NOTICIAS COLOMBIA v15
   Multi-nivel Clustering + Votaci√≥n + Post-procesamiento
‚ö° Batch Sentimiento: 64
‚ö° Batch Embeddings: 256
üî¨ Modelo Sentimiento: clapAI/roberta-large-multilingual-sentiment
üî¨ Modelo Temas: sentence-transformers/paraphrase-multilingual-mpnet-base-v2
üìä Temas configurados: 10
üéØ Similarity Strict: 0.92
üéØ Similarity Moderate: 0.85

üì§ Suba su archivo Excel con columna 'resumen'


Saving resumen_concatenado (1).xlsx to resumen_concatenado (1) (5).xlsx

üìä Leyendo: resumen_concatenado (1) (5).xlsx
‚úì 262 textos cargados

INICIANDO PROCESAMIENTO AVANZADO
üîç Agrupamiento inteligente multi-nivel...
   Nivel 1: Agrupamiento por firma textual
   ‚Üí 214 grupos de firma
   Nivel 2: Clustering sem√°ntico


Procesando firmas:   0%|          | 0/214 [00:00<?, ?it/s]

   Nivel 3: Fusi√≥n de micro-clusters
   ‚Üí Fusionados 39 micro-clusters
   Nivel 3b: Re-indexando cluster_map final...
‚úì 262 textos ‚Üí 179 clusters (31.7% reducci√≥n)
   Distribuci√≥n de tama√±os: 1 texto: 129, 2-5 textos: 46, >5 textos: 4

üéØ An√°lisis de sentimiento avanzado con clapAI/roberta-large-multilingual-sentiment
   Batch size: 64


Device set to use cuda:0


   GPU Memory: 1.05 GB allocated, 1.07 GB reserved


Sentimiento base:   0%|          | 0/3 [00:00<?, ?it/s]

   Refinando sentimiento en clusters grandes...


Refinamiento:   0%|          | 0/179 [00:00<?, ?it/s]

   ‚ö° Procesados 179 clusters en 2.60s (69 clusters/s)
   GPU Memory: 1.05 GB allocated, 1.55 GB reserved

üè∑Ô∏è Clasificaci√≥n de temas avanzada con sentence-transformers/paraphrase-multilingual-mpnet-base-v2
   Batch size: 256
   GPU Memory: 1.04 GB allocated, 1.09 GB reserved
   Paso 1: An√°lisis de keywords primarias
   ‚Üí 167/179 con match directo
   Paso 2: An√°lisis sem√°ntico con embeddings


Embeddings:   0%|          | 0/1 [00:00<?, ?it/s]

   Paso 3: Combinaci√≥n y refinamiento
   ‚ö° Procesados 179 textos en 4.86s (37 textos/s)
   GPU Memory: 1.05 GB allocated, 2.61 GB reserved

üîß Post-procesamiento de consistencia tema-tono...
   ‚úì Realizados 3 ajustes de consistencia

‚úÖ PROCESAMIENTO COMPLETADO
‚ö° Tiempo total: 15.78 segundos
‚ö° Velocidad: 17 textos/segundo

üìä An√°lisis de calidad:
   ‚Ä¢ Consistencia de tono en clusters: 100.0%
   ‚Ä¢ Consistencia de tema en clusters: 100.0%

   ‚Ä¢ Distribuci√≥n de tama√±os de cluster:
       - 1 textos: 129 clusters
       - 2 textos: 38 clusters
       - 3 textos: 6 clusters
       - 4 textos: 2 clusters
       - 6 textos: 1 clusters

   ‚Ä¢ Temas identificados: 10/10

   ‚Ä¢ Balance de sentimientos:
       - Neutro: 67.9%
       - Positivo: 17.6%
       - Negativo: 14.5%

üìä DISTRIBUCI√ìN FINAL:

Tonos:
tono
Neutro      178
Positivo     46
Negativo     38
Name: count, dtype: int64

Top 5 Temas:
tema
Regiones y Territorio           83
Salud y Bienestar               

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

‚úÖ Descarga completada

‚úÖ Proceso completado exitosamente


#Detalles

### Explicaci√≥n Detallada del C√≥digo: Analizador de Tono y Tema v15

Este c√≥digo Python es una herramienta robusta para el an√°lisis de tono y tema en textos, optimizada para el contexto colombiano. Utiliza t√©cnicas avanzadas de Procesamiento del Lenguaje Natural (PLN) y Machine Learning para ofrecer resultados precisos y organizados.

Aqu√≠ desglosamos sus componentes y funcionamiento:

1.  **Configuraci√≥n y Modelos de IA:**
    *   Configura el uso de la **GPU** (si est√° disponible) para acelerar dr√°sticamente el procesamiento de grandes vol√∫menes de texto.
    *   Define dos modelos de Inteligencia Artificial clave:
        *   **`clapAI/roberta-large-multilingual-sentiment`**: Un modelo pre-entrenado (basado en la arquitectura RoBERTa) especializado en clasificar el sentimiento (positivo, negativo, neutro) de textos en m√∫ltiples idiomas, incluyendo espa√±ol. Es "large" (grande), lo que implica que tiene muchos par√°metros y es capaz de capturar matices complejos en el lenguaje.
        *   **`sentence-transformers/paraphrase-multilingual-mpnet-base-v2`**: Un modelo de "sentence-transformers" que genera **embeddings** (representaciones num√©ricas densas) de frases y p√°rrafos. Es "multilingual" (multiling√ºe) y "paraphrase" (par√°frasis), lo que significa que puede entender la similitud sem√°ntica entre textos en diferentes idiomas o que expresan la misma idea de forma diferente. Es fundamental para el agrupamiento y la clasificaci√≥n de temas por similitud de significado, no solo por palabras clave.

2.  **Diccionarios y Patrones Contextuales:**
    *   **`TOPIC_KEYWORDS`**: Un diccionario extenso con palabras clave primarias y secundarias asociadas a diferentes temas relevantes en el contexto colombiano (Pol√≠tica, Econom√≠a, Seguridad, etc.). Esto permite una identificaci√≥n de temas m√°s precisa y contextualizada.
    *   **`SENTIMENT_PATTERNS`**: Patrones de expresiones y palabras que indican fuertemente un sentimiento particular (positivo o negativo). Se usan para refinar el an√°lisis de sentimiento, especialmente en textos cortos o con lenguaje muy directo.
    *   **`SENSITIVE_TOPICS`**: Define temas que, por su naturaleza (ej. violencia, derechos humanos), suelen tener un tono predominantemente negativo o neutro en el contexto de noticias. Se usa en el post-procesamiento para verificar la consistencia.

3.  **Utilidades de Limpieza y Normalizaci√≥n:**
    *   Funciones como `clean_text_enhanced` y `normalize_for_comparison` preparan los textos, eliminando ruido (URLs, caracteres especiales), manejando puntuaci√≥n y acortando inteligentemente los textos muy largos sin perder el sentido principal. `get_text_signature` crea una "firma" corta para comparaciones r√°pidas.

4.  **Agrupamiento Inteligente Avanzado (`agrupar_textos_avanzado`):**
    *   Este es un proceso multi-etapa:
        *   **Nivel 1 (Firma Textual):** Agrupa inicialmente textos con inicios de frase muy similares para una pre-selecci√≥n r√°pida.
        *   **Nivel 2 (Clustering Sem√°ntico):** Para los grupos de firmas, utiliza los embeddings del modelo `paraphrase-multilingual-mpnet-base-v2` y un algoritmo de clustering jer√°rquico (`AgglomerativeClustering` o `DBSCAN`) para agrupar textos basados en su similitud de significado, no solo de palabras. Identifica representantes para cada cluster.
        *   **Nivel 3 (Fusi√≥n de Micro-clusters):** Revisa los clusters resultantes y fusiona aquellos que son extremadamente similares sem√°nticamente, reduciendo el n√∫mero final de clusters y mejorando la organizaci√≥n.

5.  **An√°lisis de Sentimiento Avanzado (`inferir_sentimiento_avanzado`):**
    *   Utiliza el modelo `roberta-large-multilingual-sentiment` para obtener un sentimiento base para los textos representantes de cada cluster.
    *   Implementa un **sistema de votaci√≥n** para los clusters con m√∫ltiples textos. Analiza los patrones de sentimiento en varias muestras dentro del cluster y combina estos resultados con el sentimiento base del representante para determinar el tono final del cluster. Esto mejora la robustez del an√°lisis para grupos de textos.

6.  **Clasificaci√≥n de Temas Avanzada (`inferir_temas_avanzado`):**
    *   Combina el an√°lisis de **keywords** definidas en `TOPIC_KEYWORDS` con la **similitud sem√°ntica** calculada con los embeddings.
    *   Prioriza los matches fuertes de keywords, pero utiliza la similitud con "centroides" tem√°ticos (frases que representan cada tema) para textos donde las keywords no son tan claras o para refinar la asignaci√≥n.

7.  **Post-procesamiento de Consistencia (`post_procesar_consistencia`):**
    *   Ajusta los resultados de tono y tema bas√°ndose en las reglas definidas en `SENSITIVE_TOPICS` y otras inconsistencias detectadas. Por ejemplo, si un texto sobre un tema sensible (como una masacre) fue clasificado err√≥neamente como "Positivo", este paso puede corregirlo a "Neutro" o "Negativo" si hay suficiente evidencia contextual.

8.  **An√°lisis de Calidad (`analizar_calidad_resultados`):**
    *   Proporciona m√©tricas sobre la calidad de los resultados, como la consistencia del tono y tema dentro de los clusters, la distribuci√≥n de tama√±os de los clusters y el balance general de tonos y temas identificados.

9.  **Exportaci√≥n Avanzada (`guardar_resultados_avanzado`):**
    *   Genera un archivo Excel detallado con los resultados para cada texto original (incluyendo su tono, tema, ID de cluster y tama√±o del cluster).
    *   Incluye hojas adicionales con estad√≠sticas generales, distribuciones de tono y tema, un cruce entre tema y tono, un an√°lisis de los clusters y ejemplos de textos por tema. Esto facilita la interpretaci√≥n y el uso posterior de los resultados.

10. **Flujo Principal (`main`):**
    *   Coordina todo el proceso. Solicita al usuario que suba un archivo Excel con una columna llamada "resumen", ejecuta las fases de agrupamiento, an√°lisis de sentimiento, clasificaci√≥n de temas y post-procesamiento, y finalmente guarda y descarga el archivo de resultados.

**Ventajas de esta Implementaci√≥n:**

*   **Precisi√≥n Contextual:** El uso de diccionarios y reglas espec√≠ficas para el contexto colombiano mejora la relevancia y precisi√≥n de los temas y tonos identificados.
*   **Robustez con Agrupamiento:** Al analizar clusters de textos similares en lugar de cada texto individualmente para el sentimiento, se reduce el ruido y se obtiene un tono m√°s representativo para eventos o ideas recurrentes.
*   **An√°lisis Multi-m√©todo:** La combinaci√≥n de an√°lisis basado en keywords y an√°lisis sem√°ntico con embeddings proporciona una clasificaci√≥n de temas m√°s confiable.
*   **Post-procesamiento Inteligente:** Los ajustes basados en temas sensibles y patrones contextuales corrigen posibles errores de los modelos de IA en casos espec√≠ficos.
*   **Resultados Detallados y Organizados:** El archivo de salida incluye no solo el resultado por texto, sino tambi√©n estad√≠sticas y an√°lisis a nivel de cluster y general, lo que facilita la exploraci√≥n de los datos.
*   **Optimizaci√≥n de Recursos:** El uso de procesamiento por lotes (batch processing) y la gesti√≥n de memoria (limpieza de cach√© de GPU) mejoran la eficiencia, especialmente con grandes conjuntos de datos.

En resumen, esta versi√≥n del analizador va m√°s all√° de una simple clasificaci√≥n individual de textos, aplicando inteligencia para agrupar informaci√≥n similar y refinar los resultados bas√°ndose en el contexto y patrones espec√≠ficos.