## Introducci√≥n al Sistema RAG para Discursos del Presidente Javier Milei

Este cuaderno de Google Colab presenta un sistema de **Generaci√≥n Aumentada por Recuperaci√≥n (RAG)** dise√±ado espec√≠ficamente para analizar y consultar los discursos del presidente Javier Milei. Nuestro objetivo es permitir a usuarios interesados en las pol√≠ticas de Milei consultar sus posturas, propuestas y argumentos a lo largo del tiempo, bas√°ndose en un corpus en constante actualizaci√≥n de sus discursos, comunicados y diversas intervenciones p√∫blicas.

### ¬øC√≥mo funciona este sistema?

1.  **Recuperaci√≥n Inteligente:** Utilizamos **ChromaDB** para realizar b√∫squedas sem√°nticas. Esto significa que el sistema entiende el "significado" de tu pregunta, no solo las palabras clave, para encontrar los fragmentos m√°s relevantes de los discursos.
2.  **Generaci√≥n de Respuestas:** La generaci√≥n de respuestas se potencia con el modelo **Gemini** de Google. Gemini toma los fragmentos relevantes encontrados y los utiliza para formular respuestas coherentes, precisas y contextualizadas.

Este enfoque garantiza que las respuestas no solo sean informativas, sino que tambi√©n est√©n directamente respaldadas por las fuentes originales de los discursos, minimizando las "alucinaciones" y proporcionando una base s√≥lida para el an√°lisis de las pol√≠ticas presidenciales.

## Configuraci√≥n del Entorno

Primero instalamos las herramientas necesarias. LangChain es nuestra "caja de herramientas" principal para RAG.

In [None]:
# Instalamos las librer√≠as necesarias para nuestro sistema RAG
# LangChain: la librer√≠a m√°s popular para construir sistemas RAG de forma simple
# ChromaDB: nuestra base de datos vectorial para guardar los documentos
# Google GenerativeAI: para conectar con Gemini (solo para generaci√≥n final)
# sentence-transformers: para embeddings locales multilenguaje
!pip install langchain langchain-google-genai langchain-chroma chromadb sentence-transformers -q

print("Todas las librer√≠as instaladas correctamente")
print("IMPORTANTE: Solo se usar√° API de Gemini para generaci√≥n final de respuestas")

Todas las librer√≠as instaladas correctamente
IMPORTANTE: Solo se usar√° API de Gemini para generaci√≥n final de respuestas


In [None]:
# Importamos todas las herramientas que vamos a necesitar
import os
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_chroma import Chroma
from langchain.chains import RetrievalQA
from langchain.schema import Document
from langchain.prompts import PromptTemplate
from chromadb.utils import embedding_functions

# Configuraci√≥n para mostrar mejor los resultados
import warnings
warnings.filterwarnings('ignore')

print("Librer√≠as cargadas exitosamente")
print("Usando embeddings locales para reducir uso de API")

Librer√≠as cargadas exitosamente
Usando embeddings locales para reducir uso de API


## Configuraci√≥n de la API de Gemini

Necesitamos configurar nuestra conexi√≥n con Gemini de Google. Este ser√° el "cerebro" que generar√° las respuestas finales.

In [None]:
# Detectamos si estamos en Google Colab o en un entorno local
try:
    import google.colab
    from google.colab import userdata
    IN_COLAB = True
    print("üîç Entorno detectado: Google Colab")
except ImportError:
    IN_COLAB = False
    print("üîç Entorno detectado: Local")

# Obtenemos la clave API seg√∫n el entorno
if IN_COLAB:
    # En Colab: usar los secretos de Colab (m√°s seguro)
    try:
        GOOGLE_API_KEY = userdata.get('GOOGLE_API_KEY')
        print("‚úÖ Clave API cargada desde secretos de Colab")
    except Exception as e:
        print("‚ùå No se encontr√≥ GOOGLE_API_KEY en los secretos de Colab")
        print("   Ve a la barra lateral izquierda > üîë Secretos > Agregar GOOGLE_API_KEY")
        GOOGLE_API_KEY = input("Pega tu clave API de Google aqu√≠: ")
else:
    # En local: usar variable de entorno
    GOOGLE_API_KEY = os.getenv('GOOGLE_API_KEY')
    if not GOOGLE_API_KEY:
        print("‚ùå No se encontr√≥ GOOGLE_API_KEY en las variables de entorno")
        print("   Opci√≥n 1: Agrega GOOGLE_API_KEY a tu archivo .env")
        print("   Opci√≥n 2: Ejecuta: export GOOGLE_API_KEY=tu_clave_aqui")
        GOOGLE_API_KEY = input("Pega tu clave API de Google aqu√≠: ")
    else:
        print("‚úÖ Clave API cargada desde variables de entorno")

# Configuramos la variable de entorno para que LangChain la use
os.environ['GOOGLE_API_KEY'] = GOOGLE_API_KEY
print("üöÄ Configuraci√≥n de Gemini completada")

üîç Entorno detectado: Google Colab
‚úÖ Clave API cargada desde secretos de Colab
üöÄ Configuraci√≥n de Gemini completada


## Web Scraping de Discursos de Casa Rosada

Este cuaderno contiene un script de Python dise√±ado para realizar web scraping en el sitio web de la Casa Rosada y extraer los discursos p√∫blicos del Presidente. El objetivo principal es recolectar informaci√≥n relevante de estos discursos para su posterior an√°lisis.

### Funcionalidades Clave:

1.  **Extracci√≥n de Lista de Discursos**: Navega a la secci√≥n de "Discursos" de la Casa Rosada y extrae los enlaces y t√≠tulos de los discursos m√°s recientes.
2.  **Extracci√≥n de Contenido Individual**: Para cada discurso identificado, el script accede a su p√°gina individual para extraer el t√≠tulo, la fecha de publicaci√≥n, el contenido completo (crudo) y realiza una limpieza del texto para eliminar ruido y formatearlo adecuadamente.
3.  **Procesamiento y Estad√≠sticas**: Calcula estad√≠sticas b√°sicas para cada discurso, como la longitud del texto (caracteres y palabras) y el n√∫mero de p√°rrafos.
4.  **Guardado de Resultados**: Al finalizar el proceso, los datos recolectados son guardados en dos formatos: un archivo CSV y un archivo JSON, lo que facilita su uso en diferentes herramientas de an√°lisis.
5.  **Resumen y Estad√≠sticas Finales**: Muestra un resumen detallado de cada discurso extra√≠do y proporciona estad√≠sticas globales del conjunto de datos.

Este script es una herramienta √∫til para investigadores, periodistas o cualquier persona interesada en el an√°lisis de los discursos presidenciales argentinos.

In [None]:
# @title
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
from datetime import datetime
import time
import os

class ScraperDiscursosCasaRosada:
    def __init__(self):
        self.base_url = "https://www.casarosada.gob.ar/informacion/discursos"
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        }
        self.discursos = []

    def extraer_lista_discursos(self):
        """
        Extrae la lista de los √∫ltimos discursos de la p√°gina principal
        """
        try:
            print(f"üåê Conectando a: {self.base_url}")
            response = requests.get(self.base_url, headers=self.headers, timeout=10)
            response.raise_for_status()

            soup = BeautifulSoup(response.content, 'html.parser')
            print("‚úÖ P√°gina cargada correctamente")

            # Estrategia m√°s simple: buscar todos los enlaces y filtrar inteligentemente
            todos_los_enlaces = soup.find_all('a', href=True)
            print(f"üîç Encontrados {len(todos_los_enlaces)} enlaces en total")

            discursos_links = []

            for enlace in todos_los_enlaces:
                texto = enlace.get_text(strip=True)
                href = enlace['href']

                # Filtrar enlaces que NO queremos
                if (not texto or
                    len(texto) < 10 or  # Reducido de 15 a 10 para m√°s flexibilidad
                    texto.lower() in ['discursos', 'inicio', 'volver', 'volver al inicio', 'ir al contenido'] or
                    '#' in href or  # Enlaces internos
                    'javascript:' in href.lower()):
                    continue

                # Construir URL completa
                if href.startswith('/'):
                    url_completa = f"https://www.casarosada.gob.ar{href}"
                elif href.startswith('http'):
                    url_completa = href
                else:
                    url_completa = f"https://www.casarosada.gob.ar/{href}"

                # Incluir enlaces que parezcan ser discursos individuales
                # Ser m√°s permisivo con los criterios
                es_posible_discurso = (
                    # Criterio 1: Contiene palabras clave
                    any(palabra in texto.lower() for palabra in [
                        'discurso', 'milei', 'presidente', 'palabras', 'alocuci√≥n',
                        'mensaje', 'javier', 'conferencia', 'declaraci√≥n', 'ministro',
                        'argentina', 'naci√≥n', 'gobierno', 'pol√≠tica', 'econom√≠a'
                    ]) or
                    # Criterio 2: Tiene formato de fecha + t√≠tulo
                    (re.search(r'\d{1,2}\s+de\s+\w+', texto) and len(texto) > 20) or  # Reducido de 30 a 20
                    # Criterio 3: URL contiene patrones de discursos
                    any(patron in url_completa.lower() for patron in [
                        '/discursos/', '/discurso', 'noticia', 'article', 'informacion'
                    ]) or
                    # Criterio 4: Texto suficientemente largo y parece contenido
                    (len(texto) > 25 and any(caracter in texto for caracter in [':', '-', '‚Äì']))
                )

                if es_posible_discurso:
                    discursos_links.append({
                        'titulo': texto,
                        'url': url_completa,
                        'fecha_extraccion': datetime.now().strftime("%Y-%m-%d %H:%M:%S")
                    })

            # Eliminar duplicados por URL
            discursos_unicos = []
            urls_vistas = set()

            for discurso in discursos_links:
                # Normalizar URL para comparaci√≥n
                url_normalizada = discurso['url'].split('?')[0]  # Remover par√°metros
                if url_normalizada not in urls_vistas:
                    discursos_unicos.append(discurso)
                    urls_vistas.add(url_normalizada)

            print(f"üìã Filtrados {len(discursos_unicos)} discursos potenciales")

            # Ordenar por relevancia (los que tienen fechas primero)
            def relevancia(titulo):
                puntaje = 0
                if re.search(r'\d{1,2}\s+de\s+\w+\s+de\s+\d{4}', titulo):
                    puntaje += 3
                if 'discurso' in titulo.lower():
                    puntaje += 2
                if 'milei' in titulo.lower():
                    puntaje += 2
                if 'presidente' in titulo.lower():
                    puntaje += 1
                if len(titulo) > 50:  # T√≠tulos m√°s largos suelen ser m√°s espec√≠ficos
                    puntaje += 1
                return puntaje

            discursos_unicos.sort(key=lambda x: relevancia(x['titulo']), reverse=True)

            # Devolver los 10 m√°s relevantes
            return discursos_unicos[:10]

        except Exception as e:
            print(f"‚ùå Error al extraer lista de discursos: {e}")
            return []

    def extraer_contenido_discurso(self, url_discurso):
        """
        Extrae el contenido completo de un discurso individual
        """
        try:
            print(f"   üìñ Extrayendo contenido de: {url_discurso}")
            response = requests.get(url_discurso, headers=self.headers, timeout=10)
            response.raise_for_status()

            soup = BeautifulSoup(response.content, 'html.parser')

            # Extraer t√≠tulo - buscar en diferentes ubicaciones
            titulo_selectores = [
                'h1',
                '.titulo',
                '.title',
                'header h1',
                'main h1',
                'article h1',
                '.entry-title',
                '.post-title',
                '.noticia-titulo',
                '.page-title',
                '.node-title'
            ]

            titulo = None
            for selector in titulo_selectores:
                titulo_elem = soup.select_one(selector)
                if titulo_elem:
                    titulo = titulo_elem
                    break

            titulo_texto = titulo.get_text(strip=True) if titulo else "Sin t√≠tulo"

            # Estrategias para encontrar el contenido principal
            selectores_contenido = [
                'article .contenido',
                'article .content',
                'article .texto',
                '.nota-contenido',
                '.entry-content',
                '.post-content',
                '.article-content',
                '.field-body',
                '.field-content',
                'main article',
                'article',
                '.contenido',
                '.content',
                '.texto',
                'main',
                '.node-content'
            ]

            contenido = None
            for selector in selectores_contenido:
                contenido_elem = soup.select_one(selector)
                if contenido_elem:
                    contenido = contenido_elem
                    break

            # Si no encontramos con selectores espec√≠ficos, buscar el √°rea principal de texto
            if not contenido:
                # Buscar el elemento que contiene la mayor cantidad de texto
                elementos_texto = soup.find_all(['div', 'section', 'article'])
                if elementos_texto:
                    # Filtrar elementos con suficiente texto
                    elementos_con_texto = [elem for elem in elementos_texto if len(elem.get_text(strip=True)) > 200]
                    if elementos_con_texto:
                        contenido = max(elementos_con_texto, key=lambda x: len(x.get_text()))

            texto_completo = contenido.get_text(separator='\n', strip=True) if contenido else ""

            # Extraer fecha - buscar en diferentes formatos
            fecha_selectores = [
                'time',
                '.fecha',
                '.date',
                '.fecha-publicacion',
                '.entry-date',
                '.post-date',
                'span.fecha',
                '.fecha-noticia',
                '.created',
                '.publish-date'
            ]

            fecha_element = None
            for selector in fecha_selectores:
                fecha_elem = soup.select_one(selector)
                if fecha_elem:
                    fecha_element = fecha_elem
                    break

            # Si no encontramos fecha con selectores, buscar en el texto
            if not fecha_element:
                # Buscar patrones de fecha en el contenido
                fecha_pattern = re.search(r'\d{1,2}\s+de\s+\w+\s+de\s+\d{4}', texto_completo)
                if fecha_pattern:
                    fecha = fecha_pattern.group()
                else:
                    fecha = "Fecha no disponible"
            else:
                fecha = fecha_element.get_text(strip=True)

            return {
                'titulo': titulo_texto,
                'contenido_crudo': texto_completo,
                'fecha_publicacion': fecha,
                'url': url_discurso
            }

        except Exception as e:
            print(f"   ‚ùå Error al extraer discurso: {e}")
            return None

    def limpiar_texto(self, texto):
        """
        Limpia y preprocesa el texto extra√≠do
        """
        if not texto:
            return ""

        # 1. Eliminar espacios m√∫ltiples y normalizar saltos de l√≠nea
        texto = re.sub(r'\n+', '\n', texto)
        texto = re.sub(r' +', ' ', texto)

        # 2. Eliminar caracteres especiales no deseados (mantener puntuaci√≥n b√°sica y acentos)
        texto = re.sub(r'[^\w\s.,;:!?¬ø¬°()\-√°√©√≠√≥√∫√Å√â√ç√ì√ö√±√ë@]', '', texto)

        # 3. Normalizar saltos de l√≠nea y espacios
        lineas = [linea.strip() for linea in texto.split('\n') if linea.strip()]
        texto_limpio = '\n'.join(lineas)

        # 4. Eliminar l√≠neas muy cortas que puedan ser ruido (pero mantener p√°rrafos v√°lidos)
        lineas_filtradas = []
        for linea in texto_limpio.split('\n'):
            linea_limpia = linea.strip()
            if (len(linea_limpia) > 10 or  # Reducido de 15 a 10
                any(caracter in linea_limpia for caracter in ['.', '!', '?', ':', ';']) and len(linea_limpia) > 5):  # Reducido de 8 a 5
                lineas_filtradas.append(linea_limpia)

        return '\n'.join(lineas_filtradas)

    def procesar_discursos(self):
        """
        Proceso completo de ingesta: extracci√≥n y limpieza de los √∫ltimos 10 discursos
        """
        print("üîç Extrayendo lista de discursos...")
        lista_discursos = self.extraer_lista_discursos()

        if not lista_discursos:
            print("‚ùå No se pudieron extraer los discursos desde la p√°gina")
            return []

        print(f"üìù Procesando {len(lista_discursos)} discursos...")

        discursos_exitosos = 0
        for i, discurso_info in enumerate(lista_discursos, 1):
            print(f"  [{i}/{len(lista_discursos)}] üìÑ Procesando: {discurso_info['titulo'][:80]}...")

            contenido = self.extraer_contenido_discurso(discurso_info['url'])
            if contenido and len(contenido['contenido_crudo']) > 100:  # Solo si tiene contenido v√°lido
                # Aplicar limpieza
                contenido_limpio = self.limpiar_texto(contenido['contenido_crudo'])

                # Solo incluir si el contenido limpio tiene suficiente texto
                if len(contenido_limpio) > 200:
                    discurso_procesado = {
                        **discurso_info,
                        **contenido,
                        'contenido_limpio': contenido_limpio,
                        'longitud_texto': len(contenido_limpio),
                        'num_parrafos': contenido_limpio.count('\n') + 1,
                        'palabras_aprox': len(contenido_limpio.split())
                    }

                    self.discursos.append(discurso_procesado)
                    discursos_exitosos += 1
                    print(f"     ‚úÖ Extra√≠do: {len(contenido_limpio)} caracteres, {discurso_procesado['palabras_aprox']} palabras aprox.")
                else:
                    print(f"     ‚ö†Ô∏è  Descartado: contenido muy corto despu√©s de limpieza")
            else:
                print(f"     ‚ùå Fall√≥ la extracci√≥n o contenido insuficiente")

            time.sleep(1)  # Respetuoso con el servidor

            # Si ya tenemos 10 discursos exitosos, podemos parar
            if discursos_exitosos >= 10:
                print(f"üéØ Ya se alcanzaron {discursos_exitosos} discursos exitosos, continuando con los restantes...")

        print(f"üìä Resumen: {discursos_exitosos}/{len(lista_discursos)} discursos extra√≠dos exitosamente")
        return self.discursos

    def guardar_resultados(self, formato='csv'):
        """
        Guarda los resultados en diferentes formatos
        """
        if not self.discursos:
            print("No hay datos para guardar")
            return

        df = pd.DataFrame(self.discursos)

        # Crear directorio si no existe
        os.makedirs('resultados_discursos', exist_ok=True)

        timestamp = datetime.now().strftime('%Y%m%d_%H%M')

        if formato == 'csv':
            filename = f"resultados_discursos/discursos_casarosada_10_{timestamp}.csv"
            df.to_csv(filename, index=False, encoding='utf-8-sig')
        elif formato == 'json':
            filename = f"resultados_discursos/discursos_casarosada_10_{timestamp}.json"
            df.to_json(filename, orient='records', force_ascii=False, indent=2)

        print(f"üíæ Resultados guardados en: {filename}")
        return filename

    def mostrar_resumen(self):
        """Muestra un resumen de los discursos extra√≠dos"""
        if not self.discursos:
            print("No hay discursos para mostrar")
            return

        print("\n" + "="*80)
        print("üìä RESUMEN DE 10 DISCURSOS EXTRA√çDOS")
        print("="*80)

        for i, discurso in enumerate(self.discursos, 1):
            print(f"\nüéØ DISCURSO {i}:")
            print(f"   üìñ T√≠tulo: {discurso['titulo']}")
            print(f"   üìÖ Fecha publicaci√≥n: {discurso['fecha_publicacion']}")
            print(f"   üìä Estad√≠sticas:")
            print(f"      - Caracteres: {discurso['longitud_texto']:,}")
            print(f"      - Palabras aprox.: {discurso['palabras_aprox']:,}")
            print(f"      - P√°rrafos: {discurso['num_parrafos']}")
            print(f"   üîó URL: {discurso['url'][:100]}...")

# EJECUCI√ìN PRINCIPAL
print("üöÄ INICIANDO SCRAPING DE 10 DISCURSOS DE LA CASA ROSADA")
print("="*60)

scraper = ScraperDiscursosCasaRosada()

# Ejecutar el scraping
discursos_procesados = scraper.procesar_discursos()

if discursos_procesados:
    print(f"\nüéâ PROCESAMIENTO COMPLETADO!")
    print(f"‚úÖ Se extrajeron y procesaron {len(discursos_procesados)} discursos")

    # Mostrar resumen
    scraper.mostrar_resumen()

    # Guardar resultados
    print(f"\nüíæ GUARDANDO RESULTADOS...")
    archivo_csv = scraper.guardar_resultados('csv')
    archivo_json = scraper.guardar_resultados('json')

    print(f"\nüìÅ Archivos generados:")
    print(f"   - CSV: {archivo_csv}")
    print(f"   - JSON: {archivo_json}")

    # Estad√≠sticas finales
    total_caracteres = sum(d['longitud_texto'] for d in discursos_procesados)
    total_palabras = sum(d['palabras_aprox'] for d in discursos_procesados)

    print(f"\nüìà ESTAD√çSTICAS FINALES:")
    print(f"   üìö Total de discursos: {len(discursos_procesados)}")
    print(f"   üî§ Total de caracteres: {total_caracteres:,}")
    print(f"   üó£Ô∏è  Total de palabras aprox.: {total_palabras:,}")
    print(f"   üìÖ Rango temporal: {min(d['fecha_publicacion'] for d in discursos_procesados) if discursos_procesados else 'N/A'} a {max(d['fecha_publicacion'] for d in discursos_procesados) if discursos_procesados else 'N/A'}")

else:
    print("‚ùå No se pudieron extraer discursos")

üöÄ INICIANDO SCRAPING DE 10 DISCURSOS DE LA CASA ROSADA
üîç Extrayendo lista de discursos...
üåê Conectando a: https://www.casarosada.gob.ar/informacion/discursos
‚úÖ P√°gina cargada correctamente
üîç Encontrados 112 enlaces en total
üìã Filtrados 50 discursos potenciales
üìù Procesando 10 discursos...
  [1/10] üìÑ Procesando: Jueves 06 de Noviembre de 2025Discurso del Presidente Javier Milei en el America...
   üìñ Extrayendo contenido de: https://www.casarosada.gob.ar/informacion/discursos/51109-discurso-del-presidente-javier-milei-en-el-america-business-forum-de-miami
     ‚úÖ Extra√≠do: 23867 caracteres, 4033 palabras aprox.
  [2/10] üìÑ Procesando: Jueves 06 de Noviembre de 2025Discurso del Presidente Javier Milei en la Cena de...
   üìñ Extrayendo contenido de: https://www.casarosada.gob.ar/informacion/discursos/51111-discurso-del-presidente-javier-milei-en-la-cena-de-gala-del-cpac-en-mar-a-lago-miami
     ‚úÖ Extra√≠do: 8256 caracteres, 1378 palabras aprox.
  [3/10] 

## Dividir los Documentos en Fragmentos

Los documentos largos necesitan dividirse en pedazos m√°s peque√±os para que el sistema pueda encontrar informaci√≥n espec√≠fica. Es como hacer un √≠ndice detallado de un libro.

In [None]:
# El "Text Splitter" es como un bibliotecario que divide documentos grandes
# en secciones manejables, manteniendo el contexto

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,        # Cada fragmento tendr√° m√°ximo 500 caracteres
    chunk_overlap=50,      # 50 caracteres se superponen entre fragmentos para mantener contexto
    separators=["\n\n", "\n", ".", " "]  # Divide preferentemente por p√°rrafos, luego oraciones
)

# Convertimos nuestros documentos al formato que entiende LangChain
documentos_langchain = []

# Ahora usamos los discursos procesados del web scraping
for doc in discursos_procesados:
    # Cada documento se convierte en un objeto "Document" con contenido y metadata
    documento = Document(
        page_content=doc["contenido_limpio"],
        metadata={
            "titulo": doc["titulo"],
            "fecha_publicacion": doc["fecha_publicacion"],
            "url": doc["url"]
        }
    )
    documentos_langchain.append(documento)

# Dividimos todos los documentos en fragmentos m√°s peque√±os
fragmentos = text_splitter.split_documents(documentos_langchain)

print(f"üìù Discursos procesados: {len(discursos_procesados)}")
print(f"üî™ Fragmentos creados: {len(fragmentos)}")
print(f"\nüìã Ejemplo de fragmento:")
print(f"T√≠tulo: {fragmentos[0].metadata['titulo']}")
print(f"Fecha: {fragmentos[0].metadata['fecha_publicacion']}")
print(f"Contenido: {fragmentos[0].page_content[:200]}...")

üìù Discursos procesados: 10
üî™ Fragmentos creados: 502

üìã Ejemplo de fragmento:
T√≠tulo: Casa RosadaPresidencia de la Naci√≥n
Fecha: Jueves 06 de noviembre de 2025
Contenido: Discurso del Presidente Javier Milei en el America Business Forum de Miami
Hola a todos. No, gracias a ustedes por favor, gracias por recibirme con tanto cari√±o. Muchas gracias. Absolutamente que vamo...


In [None]:
print(f"T√≠tulo: {fragmentos[2].metadata['titulo']}")
print(f"Contenido: {fragmentos[2].page_content[:200]}...")

T√≠tulo: Casa RosadaPresidencia de la Naci√≥n
Contenido: . Tambi√©n me alegra poder compartir escenario con uno de nuestros m√°s ilustres deportistas y orgullo de todos los argentinos, Lionel Messi, un hombre que llev√≥ el talento argentino a lo m√°s alto del m...


## Crear la Base de Conocimiento Vectorial

Ahora convertimos nuestros fragmentos de texto en "vectores" (listas de n√∫meros) que el sistema puede comparar y buscar de forma inteligente.

In [None]:
# Los "embeddings" convierten texto en vectores num√©ricos que representan el significado
# Usamos un modelo local multilenguaje que funciona excelente con espa√±ol t√©cnico
embeddings = embedding_functions.SentenceTransformerEmbeddingFunction(
    model_name="intfloat/multilingual-e5-large"  # Modelo multilenguaje optimizado para espa√±ol
)

print("Modelo de embeddings local configurado (multilingual-e5-large)")
print("Ventaja: No consume cuota de API, solo procesamiento local")

modules.json:   0%|          | 0.00/387 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/57.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/690 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/418 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/280 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/201 [00:00<?, ?B/s]

Modelo de embeddings local configurado (multilingual-e5-large)
Ventaja: No consume cuota de API, solo procesamiento local


In [None]:
!pip install langchain_community -q

[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m2.5/2.5 MB[0m [31m44.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m1.0/1.0 MB[0m [31m48.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m471.5/471.5 kB[0m [31m27.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m64.7/64.7 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m50.9/50.9 kB[0m [31m2.6 MB/s[0m eta [36m0:00:00[0m
[?25h[3

In [None]:
# ChromaDB ser√° nuestra "biblioteca inteligente" donde guardamos los vectores
# Es como un bibliotecario que puede encontrar libros por su tema, no solo por t√≠tulo
from langchain_community.embeddings import SentenceTransformerEmbeddings

embeddings = SentenceTransformerEmbeddings(model_name="intfloat/multilingual-e5-large")

vectorstore = Chroma.from_documents(
    documents=fragmentos,           # Los fragmentos de nuestros documentos
    embedding=embeddings,           # El modelo que convierte texto en vectores
    collection_name="documentos_empresa",  # Nombre de nuestra colecci√≥n
    persist_directory="./chroma_db"  # Donde se guardan los datos (opcional)
)

print(f"Base de conocimiento vectorial creada con {len(fragmentos)} fragmentos")
print("El sistema ya puede buscar informaci√≥n por significado, no solo por palabras exactas")
print("Los embeddings se procesan localmente sin consumir cuota de Gemini")

Base de conocimiento vectorial creada con 502 fragmentos
El sistema ya puede buscar informaci√≥n por significado, no solo por palabras exactas
Los embeddings se procesan localmente sin consumir cuota de Gemini


In [None]:
# Configuramos el modelo Gemini que generar√° las respuestas finales
# NOTA: Solo este componente consume cuota de API, los embeddings son locales
llm = ChatGoogleGenerativeAI(
    model="gemini-2.5-flash",    # Modelo r√°pido y eficiente de Gemini
    temperature=0.1,             # Baja creatividad = respuestas m√°s precisas y consistentes
    google_api_key=GOOGLE_API_KEY
)

print("Modelo Gemini configurado")
print("   Modelo: gemini-2.5-flash (r√°pido y preciso)")
print("   Temperatura: 0.1 (respuestas consistentes y factuales)")
print("   IMPORTANTE: Solo la generaci√≥n final usa API de Gemini")

Modelo Gemini configurado
   Modelo: gemini-2.5-flash (r√°pido y preciso)
   Temperatura: 0.1 (respuestas consistentes y factuales)
   IMPORTANTE: Solo la generaci√≥n final usa API de Gemini


## Template de Respuesta

Definimos c√≥mo queremos que Gemini estructure sus respuestas. Es como darle instrucciones espec√≠ficas sobre su rol y forma de responder.

In [None]:
# El prompt template es como las instrucciones que le damos a un asistente
# Le decimos exactamente como debe comportarse y que formato usar

# Template mejorado con mas estructura
template_mejorado = """
    Sos un asistente especializado en discursos y pol√≠ticas del presidente Javier Milei.
    Tu misi√≥n es proporcionar informaci√≥n precisa y √∫til basada √öNICAMENTE en
    los discursos oficiales disponibles.

    INSTRUCCIONES IMPORTANTES:
    1. Solo us√° informaci√≥n que aparece EXPL√çCITAMENTE en los discursos
    2. Si no encontr√°s la informaci√≥n espec√≠fica, indic√° claramente "No se menciona en los discursos disponibles"
    3. S√© preciso con nombres, fechas, cifras y datos espec√≠ficos
    4. Us√° un tono amigable pero informado y profesional

    FORMATO DE RESPUESTA:
    - Comenz√° con un resumen directo de lo encontrado
    - Proporcion√° detalles espec√≠ficos (nombres, fechas, eventos, cifras)
    - Si hay m√∫ltiples puntos, numer√°los claramente
    - Mencion√° en qu√© discurso y fecha se encuentra cada informaci√≥n
    - Si algo no est√° claro o no aparece en los documentos, decilo expl√≠citamente

    DISCURSOS DISPONIBLES:
    {context}

    CONSULTA:
    {question}

    RESPUESTA ESTRUCTURADA:
    """

# Creamos el prompt personalizado usando nuestro template
prompt_mejorado = PromptTemplate(
    template=template_mejorado,
    input_variables=["context", "question"]
)

print("Template de respuesta configurado")
print("El asistente seguira instrucciones especificas para dar respuestas precisas")

Template de respuesta configurado
El asistente seguira instrucciones especificas para dar respuestas precisas


## Sistema RAG Completo Opcion FINAL


    retriever_complejo = vectorstore.as_retriever(
        search_type="mmr",
        search_kwargs={"k": 8, "fetch_k": 25, "lambda_mult": 0.6}  # M√°s documentos para consultas complejas
    )



In [None]:
# @title
# Funci√≥n para manejar consultas complejas que requieren m√∫ltiples documentos
def consulta_compleja(pregunta):
    """
    Maneja consultas que pueden necesitar informaci√≥n de m√∫ltiples documentos
    """
    print(f"\nüß© CONSULTA COMPLEJA")
    print(f"üìã Pregunta: {pregunta}")
    print("\n" + "="*80)

    # Configuramos para buscar m√°s documentos
    retriever_complejo = vectorstore.as_retriever(
        search_type="mmr",
        search_kwargs={"k": 8, "fetch_k": 25, "lambda_mult": 0.6}  # M√°s documentos para consultas complejas
    )

    # Sistema temporal con m√°s contexto
    sistema_complejo = RetrievalQA.from_chain_type(
        llm=llm,
        chain_type="stuff",
        retriever=retriever_complejo,
        chain_type_kwargs={"prompt": prompt_mejorado},
        return_source_documents=True
    )

    resultado = sistema_complejo({"query": pregunta})

    print(f"ü§ñ RESPUESTA INTEGRAL:")
    print(resultado["result"])

    print(f"\n" + "="*80)
    print(f"üìä AN√ÅLISIS DE FUENTES CONSULTADAS")
    print("="*80)

    # An√°lisis detallado de los documentos fuente
    documentos = resultado['source_documents']

    # Estad√≠sticas generales
    documentos_unicos = list(set([doc.metadata.get('titulo', 'T√≠tulo no disponible') for doc in documentos]))
    fechas_unicas = list(set([doc.metadata.get('fecha_publicacion', 'No disponible') for doc in documentos]))

    print(f"üìà ESTAD√çSTICAS:")
    print(f"   ‚Ä¢ Total de fragmentos consultados: {len(documentos)}")
    print(f"   ‚Ä¢ Documentos √∫nicos: {len(documentos_unicos)}")
    print(f"   ‚Ä¢ Rango temporal: {min(fechas_unicas) if fechas_unicas else 'N/A'} a {max(fechas_unicas) if fechas_unicas else 'N/A'}")

    print(f"\nüìö DOCUMENTOS CONSULTADOS (por relevancia):")
    print("-" * 80)

    # Agrupar por documento y mostrar fragmentos relevantes
    documentos_agrupados = {}
    for doc in documentos:
        titulo = doc.metadata.get('titulo', 'T√≠tulo no disponible')
        if titulo not in documentos_agrupados:
            documentos_agrupados[titulo] = []
        documentos_agrupados[titulo].append(doc)

    for i, (titulo, fragments) in enumerate(documentos_agrupados.items(), 1):
        # Extraer informaci√≥n del documento
        fecha = fragments[0].metadata.get('fecha_publicacion', 'Fecha no disponible')
        url = fragments[0].metadata.get('url', 'URL no disponible')

        print(f"\nüîπ {i}. {titulo}")
        print(f"   üìÖ Fecha: {fecha}")
        print(f"   üîó Fragmentos relevantes: {len(fragments)}")
        print(f"   üåê URL: {url[:80]}..." if len(url) > 80 else f"   üåê URL: {url}")

        # Mostrar los fragmentos m√°s relevantes (primeros 2)
        print(f"   üìñ Fragmentos destacados:")
        for j, fragment in enumerate(fragments[:2], 1):  # Mostrar solo los 2 primeros por documento
            contenido_limpio = fragment.page_content.replace('\n', ' ').strip()
            if len(contenido_limpio) > 150:
                contenido_limpio = contenido_limpio[:147] + "..."
            print(f"      {j}. {contenido_limpio}")

        if len(fragments) > 2:
            print(f"      ... y {len(fragments) - 2} fragmentos m√°s")

    # An√°lisis de cobertura tem√°tica
    print(f"\nüéØ COBERTURA TEM√ÅTICA:")
    print("-" * 80)

    # Palabras clave de la pregunta
    palabras_clave = pregunta.lower().split()
    palabras_relevantes = [p for p in palabras_clave if len(p) > 3]  # Filtrar palabras muy cortas

    for palabra in palabras_relevantes[:5]:  # Analizar primeras 5 palabras clave
        menciones = 0
        for doc in documentos:
            if palabra in doc.page_content.lower():
                menciones += 1
        if menciones > 0:
            print(f"   ‚Ä¢ '{palabra}': mencionado en {menciones} fragmentos")

    # Calidad de las fuentes
    print(f"\nüìã RESUMEN EJECUTIVO DE FUENTES:")
    print("-" * 80)
    print(f"   ‚úÖ Se consultaron {len(documentos_unicos)} documentos √∫nicos")
    print(f"   üìÖ Discursos desde {min(fechas_unicas) if fechas_unicas else 'N/A'}")
    print(f"   üîç {len(documentos)} fragmentos analizados para la respuesta")
    print(f"   üìä Cobertura temporal: {len(fechas_unicas)} fechas diferentes")

    return resultado

# Funci√≥n adicional para mostrar solo un resumen r√°pido de fuentes
def consulta_rapida(pregunta, mostrar_fuentes_detalladas=False):
    """
    Versi√≥n r√°pida para consultas simples
    """
    print(f"\n‚ö° CONSULTA R√ÅPIDA")
    print(f"Pregunta: {pregunta}")
    print("\n" + "="*60)

    resultado = sistema_rag_mejorado({"query": pregunta})

    print(f"ü§ñ RESPUESTA:")
    print(resultado["result"])

    if mostrar_fuentes_detalladas:
        documentos = resultado['source_documents']
        print(f"\nüìö FUENTES ({len(documentos)} fragmentos):")
        for i, doc in enumerate(documentos, 1):
            titulo = doc.metadata.get('titulo', 'T√≠tulo no disponible')
            fecha = doc.metadata.get('fecha_publicacion', 'N/A')
            contenido = doc.page_content.replace('\n', ' ')[:100] + "..."
            print(f"   {i}. [{fecha}] {titulo}")
            print(f"      üìÑ {contenido}")
    else:
        documentos_unicos = list(set([doc.metadata.get('titulo', 'T√≠tulo no disponible') for doc in resultado['source_documents']]))
        print(f"\nüìÅ Documentos consultados: {len(documentos_unicos)}")
        for i, titulo in enumerate(documentos_unicos, 1):
            print(f"   {i}. {titulo}")

    return resultado

# Probemos con preguntas que necesitan m√∫ltiples fuentes
print("üöÄ PROBANDO CONSULTA COMPLEJA MEJORADA")
consulta_compleja("¬øQu√© dice Javier Milei sobre la econom√≠a y las reformas estructurales?")


üöÄ PROBANDO CONSULTA COMPLEJA MEJORADA

üß© CONSULTA COMPLEJA
üìã Pregunta: ¬øQu√© dice Javier Milei sobre la econom√≠a y las reformas estructurales?

ü§ñ RESPUESTA INTEGRAL:
¬°Hola! Con gusto te proporciono la informaci√≥n sobre la econom√≠a y las reformas estructurales seg√∫n los discursos disponibles del Presidente Javier Milei.

El Presidente Javier Milei enfatiza que el ordenamiento de la macroeconom√≠a es la base fundamental para el crecimiento econ√≥mico y que las reformas estructurales son urgentes para dinamizar la microeconom√≠a. Destaca la importancia de la secuencia correcta en la implementaci√≥n de estas reformas, especialmente en lo que respecta a la apertura comercial, y subraya el equilibrio fiscal como un pilar esencial para el crecimiento sostenido.

Aqu√≠ te detallo los puntos espec√≠ficos:

1.  **Ordenamiento Macroecon√≥mico como Base del Crecimiento:**
    *   Durante el √∫ltimo a√±o y medio, se dedicaron a "ordenar la macro a toda costa", consider√°ndola la b

{'query': '¬øQu√© dice Javier Milei sobre la econom√≠a y las reformas estructurales?',
 'result': '¬°Hola! Con gusto te proporciono la informaci√≥n sobre la econom√≠a y las reformas estructurales seg√∫n los discursos disponibles del Presidente Javier Milei.\n\nEl Presidente Javier Milei enfatiza que el ordenamiento de la macroeconom√≠a es la base fundamental para el crecimiento econ√≥mico y que las reformas estructurales son urgentes para dinamizar la microeconom√≠a. Destaca la importancia de la secuencia correcta en la implementaci√≥n de estas reformas, especialmente en lo que respecta a la apertura comercial, y subraya el equilibrio fiscal como un pilar esencial para el crecimiento sostenido.\n\nAqu√≠ te detallo los puntos espec√≠ficos:\n\n1.  **Ordenamiento Macroecon√≥mico como Base del Crecimiento:**\n    *   Durante el √∫ltimo a√±o y medio, se dedicaron a "ordenar la macro a toda costa", consider√°ndola la base del crecimiento econ√≥mico.\n    *   *Discurso del Presidente de la Na

In [None]:
consulta_compleja("De que trato el discurso de asuncion de Milei?")


üß© CONSULTA COMPLEJA
üìã Pregunta: De que trato el discurso de asuncion de Milei?

ü§ñ RESPUESTA INTEGRAL:
El discurso de asunci√≥n del Presidente Javier Milei trat√≥ sobre el inicio de una nueva era para Argentina, marcando el fin de un per√≠odo de decadencia y el comienzo de la reconstrucci√≥n del pa√≠s. Enfatiz√≥ la voluntad de cambio expresada por los argentinos y deline√≥ los principios de su gobierno.

Aqu√≠ los detalles espec√≠ficos:

1.  **Nueva Era y Fin de la Decadencia:** Milei declar√≥ que "Hoy comienza una nueva era en Argentina", dando por terminada "una larga historia de decadencia y declive" y comenzando "el camino de la reconstrucci√≥n de nuestro pa√≠s". Afirm√≥ que los argentinos expresaron una "voluntad de cambio que ya no tiene retorno", enterrando "d√©cadas de fracaso, peleas intestinas y disputas sin sentido" que llevaron al pa√≠s a la ruina.
    *   **Discurso:** DISCURSO DEL PRESIDENTE JAVIER MILEI EN SU ASUNCI√ìN / Discurso de Javier Milei en acto de asunc

{'query': 'De que trato el discurso de asuncion de Milei?',
 'result': 'El discurso de asunci√≥n del Presidente Javier Milei trat√≥ sobre el inicio de una nueva era para Argentina, marcando el fin de un per√≠odo de decadencia y el comienzo de la reconstrucci√≥n del pa√≠s. Enfatiz√≥ la voluntad de cambio expresada por los argentinos y deline√≥ los principios de su gobierno.\n\nAqu√≠ los detalles espec√≠ficos:\n\n1.  **Nueva Era y Fin de la Decadencia:** Milei declar√≥ que "Hoy comienza una nueva era en Argentina", dando por terminada "una larga historia de decadencia y declive" y comenzando "el camino de la reconstrucci√≥n de nuestro pa√≠s". Afirm√≥ que los argentinos expresaron una "voluntad de cambio que ya no tiene retorno", enterrando "d√©cadas de fracaso, peleas intestinas y disputas sin sentido" que llevaron al pa√≠s a la ruina.\n    *   **Discurso:** DISCURSO DEL PRESIDENTE JAVIER MILEI EN SU ASUNCI√ìN / Discurso de Javier Milei en acto de asunci√≥n.\n    *   **Fecha:** No se men

## SISTEMA DE CARGA DE ARCHIVOS PARA JUPYTER



In [None]:
!pip install pypdf -q

[?25l   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/328.9 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[91m‚ï∏[0m [32m327.7/328.9 kB[0m [31m15.1 MB/s[0m eta [36m0:00:01[0m[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m328.9/328.9 kB[0m [31m8.2 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# @title
import os
import glob
from IPython.display import display, HTML, clear_output
import ipywidgets as widgets
from langchain.document_loaders import PyPDFLoader, TextLoader, UnstructuredWordDocumentLoader
from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Configurar el text splitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200,
    separators=["\n\n", "\n", ".", " "]
)

# Widgets para interfaz interactiva
progress = widgets.FloatProgress(value=0.0, min=0, max=1.0, description='Progreso:')
status_text = widgets.HTML(value="<i>Listo para cargar archivos...</i>")
file_stats = widgets.HTML(value="")
result_display = widgets.Output()

def detectar_o_crear_carpeta(ruta_carpeta="./documentos/"):
    """
    Detecta si la carpeta existe, si no, la crea y da instrucciones
    """
    if os.path.exists(ruta_carpeta):
        archivos = glob.glob(os.path.join(ruta_carpeta, "*"))
        archivos_soportados = [f for f in archivos if any(f.endswith(ext) for ext in ['.pdf', '.txt', '.docx'])]

        with result_display:
            if archivos_soportados:
                print(f"‚úÖ Carpeta encontrada: {ruta_carpeta}")
                print(f"üìÅ Archivos detectados: {len(archivos_soportados)}")
                for archivo in archivos_soportados[:5]:  # Mostrar primeros 5
                    print(f"   üìÑ {os.path.basename(archivo)}")
                if len(archivos_soportados) > 5:
                    print(f"   ... y {len(archivos_soportados) - 5} m√°s")
            else:
                print(f"üìÅ Carpeta encontrada pero sin archivos PDF/TXT/DOCX")
                print("üí° Agrega archivos a la carpeta 'documentos/' y vuelve a intentar")

        return True, archivos_soportados
    else:
        # Crear la carpeta
        os.makedirs(ruta_carpeta, exist_ok=True)

        with result_display:
            print(f"üìÇ Se cre√≥ la carpeta: {ruta_carpeta}")
            print("\nüìã INSTRUCCIONES PARA AGREGAR ARCHIVOS:")
            print("1. Ve a la pesta√±a 'Archivos' en el lateral izquierdo")
            print("2. Busca la carpeta 'documentos'")
            print("3. Arrastra tus archivos PDF, TXT o DOCX all√≠")
            print("4. Vuelve a hacer clic en 'Cargar carpeta documentos/'")
            print("\nüí° Tambi√©n puedes usar 'Cargar archivos espec√≠ficos' para rutas exactas")

        return False, []

def cargar_archivos_jupyter(archivos_lista):
    """
    Versi√≥n optimizada para Jupyter - carga archivos con barra de progreso
    """
    documentos = []
    total_archivos = len(archivos_lista)

    if total_archivos == 0:
        status_text.value = "<span style='color: orange'>‚ö†Ô∏è No hay archivos para procesar</span>"
        return []

    status_text.value = f"<span style='color: blue'>üìÅ Procesando {total_archivos} archivos...</span>"

    for i, archivo_path in enumerate(archivos_lista):
        try:
            # Actualizar progreso
            progress.value = (i + 1) / total_archivos
            nombre_archivo = os.path.basename(archivo_path)

            # Mostrar archivo actual
            status_text.value = f"<span style='color: blue'>üìñ Leyendo: {nombre_archivo} ({i+1}/{total_archivos})</span>"

            if archivo_path.lower().endswith('.pdf'):
                loader = PyPDFLoader(archivo_path)
                docs = loader.load()
                tipo = "üìÑ PDF"

            elif archivo_path.lower().endswith('.txt'):
                loader = TextLoader(archivo_path, encoding='utf-8')
                docs = loader.load()
                tipo = "üìù TXT"

            elif archivo_path.lower().endswith('.docx'):
                loader = UnstructuredWordDocumentLoader(archivo_path)
                docs = loader.load()
                tipo = "üìã DOCX"

            else:
                with result_display:
                    print(f"‚ùå Formato no soportado: {nombre_archivo}")
                continue

            # Agregar metadata
            for doc in docs:
                doc.metadata.update({
                    "fuente": "archivo_local",
                    "nombre_archivo": nombre_archivo,
                    "ruta_archivo": archivo_path,
                    "tipo_archivo": tipo.strip()
                })

            documentos.extend(docs)

            # Mostrar √©xito en el output
            with result_display:
                print(f"‚úÖ {tipo}: {nombre_archivo} ‚Üí {len(docs)} p√°ginas/secciones")

        except Exception as e:
            with result_display:
                print(f"‚ùå Error en {archivo_path}: {str(e)}")
            continue

    progress.value = 1.0
    return documentos

def procesar_archivos_interactivo(vectorstore, archivos_lista):
    """
    Funci√≥n interactiva para procesar archivos en Jupyter
    """
    # Limpiar output anterior
    result_display.clear_output()

    with result_display:
        print("üîÑ INICIANDO PROCESAMIENTO DE ARCHIVOS")
        print("=" * 50)

    # 1. Cargar archivos
    documentos = cargar_archivos_jupyter(archivos_lista)

    if not documentos:
        status_text.value = "<span style='color: red'>‚ùå No se pudieron cargar archivos</span>"
        return 0, 0

    # 2. Dividir en fragmentos
    with result_display:
        print(f"\nüî™ Dividiendo {len(documentos)} documentos en fragmentos...")

    fragmentos = text_splitter.split_documents(documentos)

    with result_display:
        print(f"üìù Fragmentos creados: {len(fragmentos)}")

    # 3. Agregar al vectorstore
    with result_display:
        print(f"\nüìö Agregando al vectorstore...")

    try:
        vectorstore.add_documents(fragmentos)

        with result_display:
            print(f"‚úÖ ‚úÖ {len(fragmentos)} fragmentos agregados exitosamente!")

        # 4. Mostrar estad√≠sticas bonitas
        mostrar_estadisticas(documentos, fragmentos)

        status_text.value = "<span style='color: green'>üéâ ¬°Carga completada exitosamente!</span>"

    except Exception as e:
        with result_display:
            print(f"‚ùå Error agregando documentos: {e}")
        status_text.value = "<span style='color: red'>‚ùå Error en la carga</span>"
        return len(documentos), 0

    return len(documentos), len(fragmentos)

def mostrar_estadisticas(documentos, fragmentos):
    """
    Muestra estad√≠sticas formateadas para Jupyter
    """
    # Contar tipos de archivos
    tipos_archivos = {}
    for doc in documentos:
        archivo = doc.metadata.get('nombre_archivo', '')
        if archivo.endswith('.pdf'):
            tipos_archivos['PDF'] = tipos_archivos.get('PDF', 0) + 1
        elif archivo.endswith('.txt'):
            tipos_archivos['TXT'] = tipos_archivos.get('TXT', 0) + 1
        elif archivo.endswith('.docx'):
            tipos_archivos['DOCX'] = tipos_archivos.get('DOCX', 0) + 1

    with result_display:
        print(f"\nüìä RESUMEN DE CARGA:")
        print("=" * 50)
        print(f"   üìÑ Documentos originales: {len(documentos)}")
        print(f"   üß© Fragmentos generados: {len(fragmentos)}")
        print(f"   üìà Ratio fragmentos/doc: {len(fragmentos)/len(documentos):.1f}")

        if tipos_archivos:
            print(f"\n   üìÅ Tipos de archivos:")
            for tipo, cantidad in tipos_archivos.items():
                print(f"      ‚Ä¢ {tipo}: {cantidad}")

        print(f"\n   üíæ Base de conocimiento actualizada")
        print("=" * 50)

# FUNCIONES DE CONVENIENCIA MEJORADAS
def cargar_desde_carpeta(vectorstore, ruta_carpeta="./documentos/"):
    """
    Carga todos los archivos de una carpeta - CON DETECCI√ìN AUTOM√ÅTICA
    """
    # Detectar o crear carpeta
    carpeta_existe, archivos_lista = detectar_o_crear_carpeta(ruta_carpeta)

    if not carpeta_existe or not archivos_lista:
        return 0, 0

    archivos_lista.sort()  # Ordenar alfab√©ticamente

    with result_display:
        print(f"üìÇ Carpeta: {ruta_carpeta}")
        print(f"üîç Procesando {len(archivos_lista)} archivos...")

    return procesar_archivos_interactivo(vectorstore, archivos_lista)

def cargar_archivos_especificos(vectorstore, lista_rutas):
    """
    Carga una lista espec√≠fica de archivos - CON VERIFICACI√ìN MEJORADA
    """
    # Verificar que los archivos existen
    archivos_validos = []
    archivos_no_encontrados = []

    for ruta in lista_rutas:
        if os.path.exists(ruta):
            archivos_validos.append(ruta)
        else:
            archivos_no_encontrados.append(ruta)

    if archivos_no_encontrados:
        with result_display:
            print("‚ö†Ô∏è Archivos no encontrados:")
            for ruta in archivos_no_encontrados:
                print(f"   ‚ùå {ruta}")

    if not archivos_validos:
        with result_display:
            print("‚ùå No hay archivos v√°lidos para cargar")
        return 0, 0

    with result_display:
        print(f"üîç Procesando {len(archivos_validos)} archivos espec√≠ficos...")

    return procesar_archivos_interactivo(vectorstore, archivos_validos)

# WIDGETS PARA INTERFAZ VISUAL MEJORADA
def crear_interfaz_carga():
    """
    Crea una interfaz visual mejorada para cargar archivos
    """
    # Botones de acci√≥n
    btn_carpeta = widgets.Button(
        description="üìÇ Cargar carpeta 'documentos/'",
        button_style='primary',
        tooltip='Carga todos los archivos de la carpeta documentos/',
        layout=widgets.Layout(width='300px', height='40px')
    )

    btn_explorar = widgets.Button(
        description="üîç Explorar carpeta actual",
        button_style='info',
        tooltip='Ver qu√© archivos hay disponibles',
        layout=widgets.Layout(width='200px', height='40px')
    )

    btn_manual = widgets.Button(
        description="üîß Cargar archivos espec√≠ficos",
        button_style='info',
        tooltip='Especificar rutas manualmente',
        layout=widgets.Layout(width='250px', height='40px')
    )

    btn_limpiar = widgets.Button(
        description="üßπ Limpiar resultados",
        button_style='warning',
        layout=widgets.Layout(width='150px', height='40px')
    )

    # Campo para rutas manuales
    texto_rutas = widgets.Textarea(
        value="",
        placeholder="Pega las rutas de archivos, una por l√≠nea:\n/documentos/doc1.pdf\n/documentos/doc2.txt\nO usa rutas absolutas: /content/mi_archivo.pdf",
        description="Archivos:",
        disabled=False,
        layout=widgets.Layout(width="90%", height="100px")
    )

    # Funci√≥n para bot√≥n de carpeta
    def on_btn_carpeta_click(b):
        cargar_desde_carpeta(vectorstore)

    # Funci√≥n para explorar
    def on_btn_explorar_click(b):
        result_display.clear_output()
        detectar_o_crear_carpeta("./documentos/")

    # Funci√≥n para bot√≥n manual
    def on_btn_manual_click(b):
        if texto_rutas.value.strip():
            rutas = [r.strip() for r in texto_rutas.value.split('\n') if r.strip()]
            cargar_archivos_especificos(vectorstore, rutas)
        else:
            with result_display:
                print("‚ö†Ô∏è Ingresa al menos una ruta de archivo")

    # Funci√≥n para limpiar
    def on_btn_limpiar_click(b):
        result_display.clear_output()
        status_text.value = "<i>Resultados limpiados...</i>"
        progress.value = 0.0

    # Conectar botones
    btn_carpeta.on_click(on_btn_carpeta_click)
    btn_explorar.on_click(on_btn_explorar_click)
    btn_manual.on_click(on_btn_manual_click)
    btn_limpiar.on_click(on_btn_limpiar_click)

    # Dise√±o de la interfaz
    controles = widgets.VBox([
        widgets.HTML(value="<h3>üéØ Opciones de Carga:</h3>"),
        widgets.HBox([btn_carpeta, btn_explorar]),
        widgets.HBox([btn_manual, btn_limpiar]),
        widgets.HTML(value="<hr>"),
        widgets.HTML(value="<h4>üìã Carga Manual de Archivos:</h4>"),
        texto_rutas
    ])

    return widgets.VBox([
        widgets.HTML(value="<h2>üóÇÔ∏è Cargador de Archivos para RAG</h2>"),
        widgets.HTML(value="<p>Carga archivos PDF, TXT y DOCX a tu sistema de consultas</p>"),
        controles,
        widgets.HTML(value="<hr>"),
        progress,
        status_text,
        file_stats,
        widgets.HTML(value="<h4>üìù Log de ejecuci√≥n:</h4>"),
        result_display
    ])

# INICIALIZAR INTERFAZ
def inicializar_cargador():
    """
    Inicializa y muestra el cargador interactivo
    """
    display(crear_interfaz_carga())

    # Mostrar estado inicial
    with result_display:
        print("üîç Estado inicial del sistema:")
    detectar_o_crear_carpeta("./documentos/")

# USO R√ÅPIDO (sin interfaz)
def carga_rapida(vectorstore, ruta_archivo):
    """
    Funci√≥n r√°pida para cargar un solo archivo
    """
    if os.path.exists(ruta_archivo):
        return procesar_archivos_interactivo(vectorstore, [ruta_archivo])
    else:
        print(f"‚ùå Archivo no encontrado: {ruta_archivo}")
        return 0, 0

# FUNCI√ìN PARA SUBIR ARCHIVOS DIRECTAMENTE EN COLAB
def instrucciones_subida_colab():
    """
    Muestra instrucciones espec√≠ficas para Google Colab
    """
    with result_display:
        print("üöÄ INSTRUCCIONES PARA GOOGLE COLAB:")
        print("=" * 50)
        print("1. Haz clic en el icono de üìÅ (Archivos) en el lateral izquierdo")
        print("2. Haz clic derecho en la carpeta 'documentos' o en espacio vac√≠o")
        print("3. Selecciona 'Subir' y elige tus archivos PDF/TXT/DOCX")
        print("4. Espera a que se completen las subidas")
        print("5. Vuelve a esta celda y haz clic en 'Cargar carpeta documentos/'")
        print("\nüí° Tambi√©n puedes usar:")
        print("   ‚Ä¢ 'Explorar carpeta actual' para ver qu√© hay")
        print("   ‚Ä¢ 'Cargar archivos espec√≠ficos' para rutas exactas")

# EJECUTAR ESTO EN JUPYTER PARA USAR LA INTERFAZ:
print("‚úÖ Sistema de carga listo - Ejecuta: inicializar_cargador()")

‚úÖ Sistema de carga listo - Ejecuta: inicializar_cargador()


In [None]:
inicializar_cargador()

VBox(children=(HTML(value='<h2>üóÇÔ∏è Cargador de Archivos para RAG</h2>'), HTML(value='<p>Carga archivos PDF, TXT‚Ä¶