In [2]:
%pip install streamlit
%pip install openai
%pip install PyPDF2







In [3]:
import re # Importa el m√≥dulo para expresiones regulares
from datetime import datetime, timedelta # Importa clases para manejar fechas y tiempos
from typing import Dict, List, Any, Optional # Importa tipos para anotaciones de tipo
from sentence_transformers import SentenceTransformer, util
import torch # Import the torch library




'''La siguiente celda es la clase subvenciones parser el cual se compone de funciones para detectar par√°metros, los cuales varios de ellos responden a n√πmeros.
 Con la documentaci√≥n que nos comparti√≥ Carmen, hice mapas de palabras comunes para unirlos con las categor√≠as de cada argumento (por ejemplo actividades, instrumentos,regiones etc),
al final de todo la funcion "parsear_busqueda_subvenciones" es la que toma un texto (query) y devuelve un diccionario con los argumentos detectados para refinar la busqueda de convocatorias.



'''





class SubvencionesParser:
    """
    Clase para parsear texto en lenguaje natural y extraer par√°metros de b√∫squeda
    para subvenciones. Permite identificar regiones, tipos de administraci√≥n,
    beneficiarios, instrumentos, finalidades, actividades y fechas.
    """
    def __init__(self):
        """
        Constructor de la clase SubvencionesParser.
        Inicializa todos los mapeos (diccionarios) y patrones regex
        necesarios para la extracci√≥n de informaci√≥n.
        """
        # --- Mapeos de t√©rminos a IDs/valores ---

        # Mapeo de nombres de regiones/provincias de Espa√±a a sus IDs num√©ricos.
        # Las claves son strings en min√∫sculas y los valores son listas que contienen el ID.
        self.regiones_map = {
            "a coru√±a": [4], "lugo": [5], "ourense": [6], "pontevedra": [7],
            "galicia": [3], "asturias": [9], "principado de asturias": [8],
            "cantabria": [11], "cantabria": [10], # Nota: 'cantabria' aparece dos veces con IDs diferentes, revisar si es intencional
            "noroeste": [2], "araba/√°lava": [14], "gipuzkoa": [15],
            "bizkaia": [16], "pais vasco": [13], "navarra": [18],
            "comunidad foral de navarra": [17], "la rioja": [20],
            "la rioja": [19], # Nota: 'la rioja' aparece dos veces con IDs diferentes, revisar si es intencional
            "huesca": [22], "teruel": [23], "zaragoza": [24],
            "aragon": [21], "noreste": [12], "madrid": [27],
            "comunidad de madrid": [26], "centro (es)": [28],
            "√°vila": [30], "burgos": [31], "le√≥n": [32],
            "palencia": [33], "salamanca": [34], "segovia": [35],
            "soria": [36], "valladolid": [37], "zamora": [38],
            "castilla y leon": [29], "albacete": [40], "ciudad real": [41],
            "cuenca": [42], "guadalajara": [43], "toledo": [44],
            "castilla la mancha": [39], "badajoz": [46], "c√°ceres": [47],
            "extremadura": [45], "barcelona": [50], "girona": [51],
            "lleida": [52], "tarragona": [53], "catalu√±a": [49],
            "alicante": [55], "castell√≥n": [56], "valencia": [57],
            "comunidad valenciana": [54], "eivissa y formentera": [59],
            "mallorca": [60], "menorca": [61], "illes balears": [58],
            "este": [48], "almer√≠a": [64], "c√°diz": [65], "c√≥rdoba": [66],
            "granada": [67], "huelva": [68], "ja√©n": [69], "m√°laga": [70],
            "sevilla": [71], "andalucia": [63], "murcia": [73],
            "region de murcia": [72], "ceuta": [75], "ciudad autonoma de ceuta": [74],
            "melilla": [77], "ciudad autonoma de melilla": [76],
            "sur": [62], "el hierro": [80], "fuerteventura": [81],
            "gran canaria": [82], "la gomera": [83], "la palma": [84],
            "lanzarote": [85], "tenerife": [86], "canarias": [79],
            "espa√±a": [1], "extra-regio nuts 1": [87]
        }

        # Mapeo de t√©rminos de tipo de administraci√≥n a c√≥digos (C: Central, A: Auton√≥mica, L: Local, O: Otros).
        self.tipos_administracion_map = {
            'estatal': 'C', 'estado': 'C', 'central': 'C', 'gobierno': 'C', 'ministerio': 'C',
            'auton√≥mica': 'A', 'autonomica': 'A', 'comunidad aut√≥noma': 'A', 'comunidad autonoma': 'A',
            'local': 'L', 'ayuntamiento': 'L', 'municipio': 'L', 'diputaci√≥n': 'L', 'diputacion': 'L',
            'otros': 'O', 'otras': 'O', 'otro': 'O', 'organismo': 'O'
        }

        # Mapeo de palabras clave de tipos de beneficiario a sus IDs num√©ricos.
        # Los IDs est√°n en listas, lo que permite flexibilidad para futuras expansiones


        self.tipos_beneficiario_comunes_map = {

            "Esta categor√≠a incluye a personas f√≠sicas que no desarrollan ninguna actividad econ√≥mica. Engloba a particulares, ciudadanos en general, individuos, estudiantes, jubilados, desempleados, familias y hogares que buscan ayudas o beneficios.": [1],
            "Esta categor√≠a se refiere a personas jur√≠dicas que no persiguen un fin de lucro o no realizan una actividad econ√≥mica lucrativa. Incluye a asociaciones, fundaciones, organizaciones sin √°nimo de lucro (ONGs), clubes deportivos, federaciones, confederaciones, partidos pol√≠ticos y colegios profesionales.": [2],
            "Engloba a Peque√±as y Medianas Empresas (PYMES) y a personas f√≠sicas (aut√≥nomos) que s√≠ desarrollan una actividad econ√≥mica. Aqu√≠ se incluyen aut√≥nomos, profesionales independientes, emprendedores, peque√±os negocios, microempresas, sociedades limitadas (SL) y start-ups.": [3],
            "Esta categor√≠a est√° dirigida a grandes empresas, corporaciones, multinacionales y otras entidades de gran envergadura o tama√±o econ√≥mico. Son organizaciones con una gran capacidad productiva y un n√∫mero elevado de empleados.": [4]
        }






        # Mapeo de palabras clave de actividades econ√≥micas a sus IDs num√©ricos.
        # Las claves son strings en min√∫sculas.
        self.actividad_map = {
           "Sector primario que incluye la producci√≥n agr√≠cola, la cr√≠a de animales (ganader√≠a), el cultivo y aprovechamiento de bosques (silvicultura), y la captura de peces y otros recursos acu√°ticos.": 274,
            "Actividades relacionadas con la extracci√≥n de minerales s√≥lidos, l√≠quidos y gaseosos de la Tierra, como la miner√≠a de carb√≥n, petr√≥leo, gas natural o metales.": 278,
            "Transformaci√≥n de materiales o sustancias en nuevos productos, ya sea en f√°bricas o plantas. Incluye la fabricaci√≥n de alimentos, textiles, maquinaria, productos qu√≠micos, electr√≥nicos, etc.": 284,
            "Producci√≥n, transporte y distribuci√≥n de electricidad, gas natural, vapor y sistemas de aire acondicionado para consumo dom√©stico, comercial e industrial.": 309,
            "Gesti√≥n del ciclo integral del agua (captaci√≥n, tratamiento y suministro), recolecci√≥n y tratamiento de aguas residuales, gesti√≥n de residuos (recogida, tratamiento, eliminaci√≥n) y actividades de descontaminaci√≥n ambiental.": 311,
            "Edificaci√≥n de todo tipo (residencial y no residencial), ingenier√≠a civil (carreteras, puentes, etc.) y trabajos especializados de construcci√≥n.": 316,
            "Comercializaci√≥n de bienes a otros negocios (mayor) o directamente a consumidores (menor), as√≠ como el mantenimiento y reparaci√≥n de veh√≠culos de motor y motocicletas.": 320,
            "Servicios de transporte de pasajeros y mercanc√≠as por v√≠a terrestre, mar√≠tima, a√©rea y espacial, adem√°s del almacenamiento de bienes.": 324,
            "Actividades de alojamiento (hoteles, campings) y servicios de comida y bebida (restaurantes, bares, cafeter√≠as).": 330,
            "Producci√≥n y distribuci√≥n de productos y servicios de informaci√≥n y comunicaci√≥n. Incluye edici√≥n, cine, radio, televisi√≥n, telecomunicaciones y programaci√≥n inform√°tica.": 333,
            "Servicios financieros como banca, seguros, fondos de inversi√≥n, y otras operaciones monetarias y crediticias.": 340,
            "Actividades relacionadas con la compra, venta, alquiler y gesti√≥n de propiedades inmobiliarias.": 344,
            "Servicios especializados que requieren un alto grado de conocimiento o habilidad, como consultor√≠a, servicios jur√≠dicos, contabilidad, arquitectura, ingenier√≠a, investigaci√≥n y desarrollo.": 346,
            "Servicios de apoyo a las empresas y a la actividad profesional, como alquiler de veh√≠culos, gesti√≥n de empleo, seguridad, limpieza de edificios, y servicios de oficina.": 354,
            "Actividades propias del gobierno, la administraci√≥n de justicia, la seguridad p√∫blica, la defensa nacional y los reg√≠menes obligatorios de seguridad social.": 361,
            "Provisi√≥n de instrucci√≥n y formaci√≥n en diversos niveles y especialidades, desde la educaci√≥n infantil hasta la universitaria y la formaci√≥n continua.": 363,
            "Servicios de atenci√≥n m√©dica, hospitalaria, dental y de enfermer√≠a, as√≠ como actividades de asistencia social sin alojamiento (trabajo social, servicios de guarder√≠a).": 365,
            "Operaciones relacionadas con las artes esc√©nicas, espect√°culos, museos, jardines bot√°nicos y zool√≥gicos, parques de atracciones, actividades deportivas y de recreo.": 369,
            "Categor√≠a miscel√°nea que incluye servicios personales (peluquer√≠as, salones de belleza), servicios de lavander√≠a, reparaciones de ordenadores y art√≠culos personales, y otras actividades no clasificadas en otros apartados.": 374,
            "Actividades realizadas por hogares particulares que emplean personal dom√©stico para el servicio propio, y la producci√≥n de bienes y servicios por los hogares para su consumo exclusivo.": 378,
            "Actividades de organismos internacionales, embajadas, misiones diplom√°ticas y otros cuerpos extraterritoriales.": 381
        }


        # Mapeo de palabras clave de instrumentos de ayuda a sus IDs num√©ricos.
        # Los IDs est√°n en listas, permitiendo asociar m√∫ltiples palabras a un mismo ID.
        self.instrumentos_map = {


            "SUBVENCI√ìN Y ENTREGA DINERARIA SIN CONTRAPRESTACI√ìN. Ayuda econ√≥mica no reembolsable, tambi√©n conocida como subvenci√≥n directa, que se otorga sin esperar devoluci√≥n ni contraprestaci√≥n. Se vincula a un objetivo concreto como la innovaci√≥n, el empleo, o el desarrollo regional. Palabras clave: subvenci√≥n, ayuda directa, entrega dineraria, no reembolsable, sin contraprestaci√≥n.": 1,

            "PR√âSTAMO. Instrumento financiero basado en la entrega de capital reembolsable, generalmente sujeto a intereses y plazos de amortizaci√≥n. Puede tener tipo de inter√©s fijo o variable. Frecuente en programas de financiaci√≥n para inversiones, digitalizaci√≥n o crecimiento empresarial. Palabras clave: pr√©stamo, devoluci√≥n, intereses, amortizaci√≥n, financiaci√≥n reembolsable.": 2,

            "GARANT√çA. Instrumento de aval, fianza o respaldo financiero proporcionado por una entidad para asegurar el cumplimiento de obligaciones o facilitar el acceso a otras fuentes de financiaci√≥n. Se usa mucho en licitaciones, proyectos de inversi√≥n o emprendimiento. Palabras clave: garant√≠a, aval, respaldo, fianza, seguridad financiera.": 4,

            "VENTAJA FISCAL. Conjunto de incentivos en materia de impuestos o tributos, como deducciones fiscales, bonificaciones, exenciones o aplazamientos. Permiten a empresas o aut√≥nomos reducir su carga fiscal. Muy frecuente en pol√≠ticas de I+D+i o empleo. Palabras clave: ventaja fiscal, deducci√≥n, bonificaci√≥n, exenci√≥n, ahorro tributario.": 5,

            "APORTACI√ìN DE FINANCIACI√ìN DE RIESGO. Modalidad de inversi√≥n que implica asumir riesgo empresarial, como el capital riesgo o el venture capital. El apoyo se hace mediante la entrada al capital social o financiaci√≥n subordinada. Muy usada en startups o proyectos con alto potencial de crecimiento. Palabras clave: capital riesgo, inversi√≥n, venture capital, participaci√≥n, financiaci√≥n de riesgo.": 6,

            "OTROS INSTRUMENTOS DE AYUDA. Categor√≠a abierta para apoyos no monetarios directos como consultor√≠a gratuita, asesoramiento t√©cnico, acceso a espacios f√≠sicos o servicios sin coste. Incluye cualquier forma de ayuda que no sea pr√©stamo, subvenci√≥n, garant√≠a, fiscalidad o capital. Palabras clave: asesoramiento, consultor√≠a, cesi√≥n, soporte no financiero, apoyo institucional.": 7


        }



        # Mapeo de palabras clave de finalidades de pol√≠tica de gasto a sus IDs num√©ricos.
        self.finalidades_map = {



            "ACCESO A LA VIVIENDA Y FOMENTO DE LA EDIFICACI√ìN. Ayudas y programas dirigidos a facilitar la adquisici√≥n, el alquiler o la rehabilitaci√≥n de viviendas, as√≠ como al impulso y financiaci√≥n de proyectos de construcci√≥n de nuevas edificaciones. Palabras clave: vivienda, alquiler, hipoteca, rehabilitaci√≥n, edificaci√≥n.": 8,
            "AGRICULTURA, PESCA Y ALIMENTACI√ìN. Programas de apoyo a la agricultura, la ganader√≠a, la silvicultura, la pesca y todas las actividades relacionadas con la producci√≥n, transformaci√≥n y comercializaci√≥n de alimentos. Palabras clave: agroalimentario, ganader√≠a, agricultura, pesca, alimentos.": 12,
            "COMERCIO, TURISMO Y PYMES. Iniciativas y fondos destinados a impulsar el comercio minorista y mayorista, la promoci√≥n tur√≠stica de destinos y servicios, y el apoyo espec√≠fico a Peque√±as y Medianas Empresas (PYMES) en su desarrollo y crecimiento. Palabras clave: comercio, turismo, pyme, hosteler√≠a, marketing comercial.": 14,
            "COOPERACI√ìN INTERNACIONAL PARA EL DESARROLLO Y CULTURAL. Proyectos y fondos orientados a la colaboraci√≥n con otros pa√≠ses para su desarrollo econ√≥mico y social, as√≠ como al fomento y difusi√≥n de la cultura a nivel internacional. Palabras clave: cooperaci√≥n internacional, ayuda exterior, desarrollo global, cultura exterior, relaciones internacionales.": 20,
            "CULTURA. Ayudas y programas para la promoci√≥n, conservaci√≥n y difusi√≥n del patrimonio cultural, las artes esc√©nicas, las bellas artes, el cine, la m√∫sica, la literatura y otras manifestaciones culturales. Palabras clave: patrimonio, arte, cine, m√∫sica, literatura.": 11,
            "DEFENSA. Programas y presupuestos destinados a la seguridad y defensa nacional, incluyendo el equipamiento militar, la formaci√≥n de personal y las operaciones de seguridad y protecci√≥n. Palabras clave: defensa, militar, ej√©rcito, armamento, estrategia nacional.": 2,
            "DESEMPLEO. Ayudas y prestaciones dirigidas a personas en situaci√≥n de desempleo, incluyendo subsidios, prestaciones por desempleo y programas de reinserci√≥n laboral. Palabras clave: paro, subsidio, prestaci√≥n por desempleo, reinserci√≥n, desempleado.": 7,
            "EDUCACION. Fondos y programas dedicados a la financiaci√≥n de centros educativos, becas para estudiantes, formaci√≥n profesional, educaci√≥n superior y todas las actividades relacionadas con la ense√±anza y el aprendizaje. Palabras clave: educaci√≥n, beca, escolar, universidad, formaci√≥n acad√©mica.": 10,
            "FOMENTO DEL EMPLEO. Iniciativas y ayudas para la creaci√≥n de empleo, el fomento del autoempleo, la formaci√≥n y cualificaci√≥n profesional, y el apoyo a la contrataci√≥n de colectivos espec√≠ficos. Palabras clave: contrataci√≥n, autoempleo, inserci√≥n laboral, empleabilidad, creaci√≥n de empleo.": 6,
            "INDUSTRIA Y ENERG√çA. Ayudas y programas para el desarrollo de la industria, la innovaci√≥n tecnol√≥gica en el sector industrial, la eficiencia energ√©tica y el fomento de fuentes de energ√≠a sostenibles. Palabras clave: industria, energ√≠a, eficiencia energ√©tica, f√°brica, energ√≠a renovable.": 13,
            "INFORMACI√ìN NO DISPONIBLE. Esta categor√≠a se utiliza cuando no se dispone de informaci√≥n espec√≠fica o suficiente para clasificar la ayuda en ninguna de las otras √°reas definidas. Palabras clave: desconocido, sin categorizar, informaci√≥n ausente, no disponible.": 21,
            "INFRAESTRUCTURAS. Inversiones y proyectos para el desarrollo y mantenimiento de infraestructuras de transporte (carreteras, ferrocarriles, puertos, aeropuertos), energ√©ticas, hidr√°ulicas o de telecomunicaciones. Palabras clave: carreteras, infraestructuras, transporte, puertos, telecomunicaciones.": 16,
            "INVESTIGACI√ìN, DESARROLLO E INNOVACI√ìN. Apoyo a proyectos de investigaci√≥n cient√≠fica, desarrollo tecnol√≥gico y actividades de innovaci√≥n en todos los sectores, buscando el avance del conocimiento y la aplicaci√≥n de nuevas tecnolog√≠as. Palabras clave: I+D, innovaci√≥n, ciencia, desarrollo tecnol√≥gico, investigaci√≥n aplicada.": 17,
            "JUSTICIA. Programas y fondos relacionados con la administraci√≥n de justicia, los sistemas judiciales, la asistencia legal y los servicios penitenciarios. Palabras clave: justicia, tribunales, legal, juzgado, penitenciario.": 1,
            "OTRAS ACTUACIONES DE CAR√ÅCTER ECON√ìMICO. Categor√≠a amplia que engloba subvenciones y ayudas no clasificables en otros sectores espec√≠ficos, pero que tienen un claro impacto o finalidad econ√≥mica, como apoyo a empresas en general, desarrollo regional, etc. Palabras clave: subvenciones, incentivo empresarial, desarrollo economico, crecimiento.": 18,
            "OTRAS PRESTACIONES ECON√ìMICAS. Incluye diversas ayudas econ√≥micas que no se ajustan a las categor√≠as de empleo, vivienda o dependencia, como ayudas a familias, a la natalidad, o prestaciones econ√≥micas por situaciones especiales. Palabras clave: natalidad, familia numerosa, prestaci√≥n especial, ayuda puntual, situaci√≥n excepcional.": 4,
            "SANIDAD. Programas y fondos destinados a la atenci√≥n sanitaria, la prevenci√≥n de enfermedades, la salud p√∫blica, la investigaci√≥n m√©dica y la mejora de los servicios de salud. Palabras clave: salud, sanidad, atenci√≥n m√©dica, prevenci√≥n, sistema sanitario.": 9,
            "SEGURIDAD CIUDADANA E INSTITUCIONES PENITENCIARIAS. Ayudas y presupuestos para la seguridad p√∫blica, las fuerzas y cuerpos de seguridad, la prevenci√≥n del delito, y la gesti√≥n y funcionamiento de las instituciones penitenciarias. Palabras clave: seguridad, polic√≠a, vigilancia, delincuencia, prisi√≥n.": 3,
            "SERVICIOS SOCIALES Y PROMOCI√ìN SOCIAL. Programas y prestaciones dirigidos a colectivos vulnerables, promoci√≥n de la inclusi√≥n social, atenci√≥n a la dependencia, servicios para personas mayores o con discapacidad, y otras iniciativas de bienestar social. Palabras clave: servicios sociales, dependencia, inclusi√≥n, personas mayores, discapacidad.": 5,
            "SIN INFORMACION ESPECIFICA. Similar a 'INFORMACI√ìN NO DISPONIBLE', esta categor√≠a se usa cuando la tem√°tica de la subvenci√≥n no est√° claramente definida o especificada dentro de las categor√≠as preestablecidas. Palabras clave: sin informaci√≥n, sin especificar, indeterminado, categor√≠a desconocida.": 19,
            "SUBVENCIONES AL TRANSPORTE. Ayudas espec√≠ficas destinadas a fomentar el uso del transporte p√∫blico, la mejora de infraestructuras de transporte o la subvenci√≥n de billetes o abonos para usuarios. Palabras clave: transporte p√∫blico, billete subvencionado, movilidad urbana, bono transporte, accesibilidad vial.": 15
        }



        # --- Patrones de Expresiones Regulares para Fechas ---
        self.fecha_patterns = [
            # dd/mm/yyyy o dd-mm-yyyy precedido de 'desde' o 'a partir de'
            r'desde\s+(\d{1,2})[/-](\d{1,2})[/-](\d{4})',
            r'a partir del?\s+(\d{1,2})[/-](\d{1,2})[/-](\d{4})',
            # dd/mm/yyyy o dd-mm-yyyy precedido de 'hasta' o 'antes de'
            r'hasta\s+(\d{1,2})[/-](\d{1,2})[/-](\d{4})',
            r'antes del?\s+(\d{1,2})[/-](\d{1,2})[/-](\d{4})',
            # Rango de fechas: dd/mm/yyyy hasta dd/mm/yyyy
            r'(\d{1,2})[/-](\d{1,2})[/-](\d{4})\s+hasta\s+(\d{1,2})[/-](\d{1,2})[/-](\d{4})',
            # A√±o solo (ej. '2025'). \b asegura que sea una palabra completa para evitar coincidencias parciales.
            r'\b(\d{4})\b'
        ]

        self.model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-mpnet-base-v2')
        #encode de tipos de beneficiario
        self.common_beneficiary_terms = list(self.tipos_beneficiario_comunes_map.keys())
        self.common_terms_embeddings = self.model.encode(self.common_beneficiary_terms, convert_to_tensor=True)


        #encode tipos de act
        self.common_activities_terms = list(self.actividad_map.keys())
        self.common_activities_embeddings = self.model.encode(self.common_activities_terms, convert_to_tensor=True)

        #encode tipos de instrumento
        self.common_instrumentos_terms = list(self.instrumentos_map.keys())
        self.common_instrumentos_embeddings = self.model.encode(self.common_instrumentos_terms, convert_to_tensor=True)

        #encode finalidades
        self.common_finalidades_terms = list(self.finalidades_map.keys())
        self.common_finalidades_embeddings = self.model.encode(self.common_finalidades_terms, convert_to_tensor=True)







    def extraer_parametros(self, texto: str) -> Dict[str, Any]:
        """
        Funci√≥n principal para extraer par√°metros de b√∫squeda de subvenciones
        desde texto en lenguaje natural. Procesa el texto y llama a funciones
        auxiliares para identificar diferentes tipos de informaci√≥n.

        Args:
            texto (str): Texto de b√∫squeda en lenguaje natural proporcionado por el usuario.

        Returns:
            Dict[str, Any]: Un diccionario que contiene todos los par√°metros
                            extra√≠dos, listos para ser utilizados en una API
                            o sistema de b√∫squeda de subvenciones.
        """
        # Normaliza el texto de entrada: convierte a min√∫sculas y elimina espacios en blanco al inicio/final.
        texto_lower = texto.lower().strip()
        parametros = {} # Inicializa un diccionario vac√≠o para almacenar los par√°metros encontrados.

        # --- Extracci√≥n de la Descripci√≥n (t√©rminos clave) ---
        # Llama a la funci√≥n auxiliar para extraer los t√©rminos de b√∫squeda principales.
        descripcion = self._extraer_descripcion(texto_lower)
        if descripcion:
            parametros['descripcion'] = descripcion
            # Establece un tipo de b√∫squeda por defecto si se encuentra una descripci√≥n.
            parametros['descripcionTipoBusqueda'] = 2  # '2' suele significar "todas las palabras"

        # --- Extracci√≥n de Regiones ---
        # Llama a la funci√≥n auxiliar para identificar regiones.
        regiones = self._extraer_regiones(texto_lower)
        if regiones:
            parametros['regiones'] = regiones

        # --- Extracci√≥n del Tipo de Administraci√≥n ---
        # Llama a la funci√≥n auxiliar para determinar si la b√∫squeda es estatal, auton√≥mica, local, etc.
        tipo_admin = self._extraer_tipo_administracion(texto_lower)
        if tipo_admin:
            parametros['tipoAdministracion'] = tipo_admin

        # --- Extracci√≥n de Tipos de Beneficiario ---
        # Llama a la funci√≥n auxiliar para identificar a qui√©n va dirigida la subvenci√≥n.
        tipos_benef = self.extraer_tipo_beneficiario(texto_lower)
        if tipos_benef:
            parametros['tiposBeneficiario'] = tipos_benef

        # --- Extracci√≥n de Instrumentos ---
        # Llama a la funci√≥n auxiliar para identificar el tipo de ayuda (subvenci√≥n, pr√©stamo, etc.).
        instrumentos = self._extraer_instrumentos(texto_lower)
        if instrumentos:
            parametros['instrumentos'] = instrumentos

        # --- Extracci√≥n de Finalidad ---
        # Llama a la funci√≥n auxiliar para determinar la finalidad o sector de la pol√≠tica de gasto.
        finalidad = self._extraer_finalidad(texto_lower)
        if finalidad:
            parametros['finalidad'] = finalidad

        # --- Extracci√≥n de Actividad Econ√≥mica ---
        # Llama a la funci√≥n auxiliar para identificar el tipo de actividad econ√≥mica.

        actividad = self._extraer_actividad(texto_lower)
        if actividad:
            parametros['actividad'] = actividad

        # --- Extracci√≥n de Fechas ---
        # Llama a la funci√≥n auxiliar para identificar fechas o rangos de fechas.
        fechas = self._extraer_fechas(texto_lower)
        if fechas:
            # Agrega los pares clave-valor de fechas al diccionario de par√°metros principal.
            parametros.update(fechas)

        # --- Extracci√≥n de N√∫mero de Convocatoria ---
        # Llama a la funci√≥n auxiliar para buscar un n√∫mero de convocatoria espec√≠fico (ej. BDNS).
        numero_conv = self._extraer_numero_convocatoria(texto) # Usa el texto original, no el lower para posibles may√∫sculas en c√≥digos
        if numero_conv:
            parametros['numeroConvocatoria'] = numero_conv

        # --- Detecci√≥n de MRR (Mecanismo de Recuperaci√≥n y Resiliencia) ---
        # Busca t√©rminos relacionados con los fondos Next Generation.
        if any(term in texto_lower for term in ['mrr', 'recuperaci√≥n', 'resiliencia', 'next generation']):
            parametros['mrr'] = True

        # --- Configuraci√≥n de Par√°metros por Defecto ---
        # Establece valores por defecto para par√°metros que no fueron especificados en la consulta.
        if 'descripcionTipoBusqueda' not in parametros:
            parametros['descripcionTipoBusqueda'] = 2  # Por defecto: buscar todas las palabras de la descripci√≥n.
        if 'order' not in parametros:
            parametros['order'] = 'fechaRecepcion' # Ordenar por fecha de recepci√≥n.
        if 'direccion' not in parametros:
            parametros['direccion'] = 'desc'  # Orden descendente (m√°s recientes primero).
        if 'vpd'not in parametros:
            parametros['vpd'] = 'GE' # Valor por defecto para 'vpd' (posiblemente 'Vigencia de Publicaci√≥n/Documento').
        if 'page' not in parametros:
            parametros['page'] = 0 # P√°gina inicial de resultados.
        if 'pageSize' not in parametros:
            parametros['pageSize'] = 25 # N√∫mero de resultados por p√°gina.

        return parametros

    def _extraer_descripcion(self, texto: str) -> Optional[str]:
        """
        Extrae los t√©rminos clave de la descripci√≥n de la b√∫squeda,
        filtrando palabras comunes (stop words) que no aportan significado.

        Args:
            texto (str): Texto de la consulta en min√∫sculas.

        Returns:
            Optional[str]: Una cadena con las palabras clave extra√≠das (m√°ximo 5),
                           o None si no se encuentran palabras clave significativas.
        """
        if texto.strip().isdigit():
            return None
        # Palabras a ignorar que son muy comunes o funcionales en las consultas.
        stop_words = {
        'a', 'al', 'algo', 'algunas', 'algunos', 'ante', 'antes', 'como', 'con',
        'contra', 'cual', 'cuando', 'de', 'del', 'desde', 'donde', 'durante', 'e',
        'el', 'ella', 'ellas', 'ellos', 'en', 'entre', 'es', 'esa', 'esas', 'ese',
        'eso', 'esos', 'esta', 'estas', 'este', 'esto', 'estos', 'existen', 'hacia',
        'hasta', 'incluso', 'la', 'las', 'le', 'les', 'lo', 'los', 'muy', 'ni',
        'o', 'otro', 'otras', 'otros', 'para', 'pero', 'por', 'que', 'quien',
        'quienes', 'se', 'sea', 'sean', 'si', 'sido', 'sin', 'sino', 'solo', 'su',
        'sus', 'tal', 'tambi√©n', 'tan', 'te', 'tener', 'tienen', 'todo', 'todos',
        'tras', 'un', 'una', 'uno', 'unos', 'usted', 'ustedes', 'y', 'ya', 'yo',
        'acerca', 'adem√°s', 'apenas', 'as√≠', 'a√∫n', 'aunque', 'casi', 'cierta',
        'ciertas', 'cierto', 'ciertos', 'c√≥mo', 'cualquier', 'cu√°ndo', 'dado',
        'debido', 'dem√°s', 'esos', 'estas', 'este', 'estos', 'fin', 'fue', 'fueron',
        'fuesen', 'fuesemos', 'hubiera', 'hubieramos', 'hubiesen', 'hubiesemos',
        'hubo', 'igualmente', 'incluso', 'm√°s', 'mismo', 'muchas', 'muchos', 'nadie',
        'ninguna', 'ninguno', 'nunca', 'poco', 'pocas', 'pocos', 'pueden', 'puedo',
        'quiero', 'respecto', 'saber', 'ser', 'siempre', 's√≥lo', 'solos', 'somos',
        'suele', 'tal', 'tambi√©n', 'tampoco', 'tengo', 'tienes', 'todas', 'todo',
        'va', 'vamos', 'van', 'vez', 'veces', 'v√≠a', 'voy', 'y',
        # Palabras espec√≠ficas de consulta que no aportan valor sem√°ntico
        'ayudame', 'ay√∫dame', 'buscar', 'encontrar', 'referentes', 'sobre',
        'relacionado', 'relacionados', 'me', 'quiero', 'gustar√≠a', 'saber', 'hay',
        'quieres', 'necesito', 'podr√≠a', 'podr√≠amos', 'favor', 'informaci√≥n', 'd√≥nde',
        'cu√°l', 'cu√°les', 'qui√©n', 'qui√©nes', 'por qu√©', 'para qu√©', 'c√≥mo', 'd√≥nde',
        'cuando', 'qu√©', 'cual', 'esto', 'estas', 'ese', 'eso', 'esos', 'su', 'sus',
        'mis', 'mi', 'tu', 'tus', 'nuestro', 'nuestra', 'nuestros', 'nuestras', 'vuestro',
        'vuestra', 'vuestros', 'vuestras', 'suya', 'suyos', 'suyas', 'm√≠o', 'm√≠a',
        'm√≠os', 'm√≠as', 'tuyo', 'tuya', 'tuyos', 'tuyas', 'mismo', 'misma', 'mismos',
        'mismas', 'cada', 'cierto', 'cierta', 'ciertos', 'ciertas', 'poco', 'poca',
        'pocos', 'pocas', 'mucho', 'mucha', 'muchos', 'muchas', 'bastante', 'demasiado',
        'todo', 'toda', 'todos', 'todas', 'varios', 'varias', 'ambos', 'ambas', 'sendos',
        'sendas', 'otro', 'otra', 'otros', 'otras', 'mismo', 'misma', 'mismos', 'mismas',
        'tan', 'tanto', 'tanta', 'tantos', 'tantas', 'cuan', 'cuanto', 'cuanta',
        'cuantos', 'cuantas', 'm√°s', 'menos', 'mejor', 'peor', 'antes', 'despu√©s',
        'durante', 'mientras', 'siempre', 'nunca', 'jam√°s', 'a√∫n', 'todav√≠a',
        'ya', 'apenas', 'casi', 'as√≠', 'bien', 'mal', 'alto', 'bajo', 'lejos', 'cerca',
        'dentro', 'fuera', 'arriba', 'abajo', 'delante', 'detr√°s', 'aqu√≠', 'all√≠',
        'ah√≠', 'entonces', 'luego', 'asimismo', 'adem√°s', 'incluso', 'no', 's√≠',
        'quiz√°s', 'quiz√°', 'acaso', 'probablemente', 'posiblemente', 'ciertamente',
        'efectivamente', 'en efecto', 'por supuesto', 'claro', 'd√≥nde', 'cu√°ndo',
        'c√≥mo', 'por qu√©', 'para qu√©', 'hacia d√≥nde', 'de d√≥nde', 'a d√≥nde',
        'con qui√©n', 'de qui√©n', 'para qui√©n', 'por qui√©n', 'entre qui√©nes',
        'contra qui√©n', 'sin qui√©n', 'a pesar de', 'a fin de', 'con el fin de',
        'a trav√©s de', 'en cuanto a', 'en medio de', 'en vez de', 'por parte de',
        'a lo largo de', 'alrededor de', 'debajo de', 'encima de', 'frente a',
        'junto a', 'a causa de', 'con motivo de', 'por culpa de', 'debido a',
        'gracias a', 'para con', 'sin embargo', 'no obstante', 'por consiguiente',
        'por lo tanto', 'as√≠ que', 'de modo que', 'de manera que', 'en resumen',
        'en conclusi√≥n', 'finalmente', 'en primer lugar', 'en segundo lugar',
        'por √∫ltimo', 'en general', 'en particular', 'por ejemplo', 'es decir',
        'o sea', 'en otras palabras', 'adem√°s', 'asimismo', 'incluso', 'tambi√©n',
        'por otra parte', 'por un lado', 'por otro lado', 'en cambio', 'al contrario',
        'a diferencia de', 'mientras que', 'aunque', 'a pesar de', 'por m√°s que',
        'si bien', 'para que', 'a fin de que', 'con el objeto de que', 'con el fin de que',
        'con la finalidad de que', 'de modo que', 'de manera que', 'tan pronto como',
        'en cuanto', 'apenas', 'no bien', 'mientras tanto', 'hasta que', 'desde que',
        'antes de que', 'despu√©s de que', 'para cu√°ndo', 'de d√≥nde', 'a d√≥nde', 'cu√°nto',
        'cu√°nta', 'cu√°ntos', 'cu√°ntas'
    }

        # Encuentra todas las palabras alfanum√©ricas en el texto.
        palabras = re.findall(r'\b\w+\b', texto)
        # Filtra las palabras: no deben ser stop words y deben tener m√°s de 2 caracteres.
        palabras_clave = [p for p in palabras if p.lower() not in stop_words and len(p) > 2]

        if palabras_clave:
            # Retorna un m√°ximo de 5 palabras clave, unidas por espacios.
            return ' '.join(palabras_clave[:15])
        return None

    def _extraer_regiones(self, texto: str) -> Optional[List[int]]:
        """
        Extrae los IDs de las regiones espa√±olas mencionadas en el texto.

        Args:
            texto (str): Texto de la consulta en min√∫sculas.

        Returns:
            Optional[List[int]]: Una lista de IDs √∫nicos de regiones encontradas,
                                  o None si no se identifica ninguna regi√≥n.
        """
        regiones_encontradas = []
        # Itera sobre el mapeo de regiones.
        for region, ids in self.regiones_map.items():
            # Si el nombre de la regi√≥n est√° en el texto, a√±ade sus IDs a la lista.
            if region in texto:
                regiones_encontradas.extend(ids)

        # Devuelve una lista de IDs √∫nicos, o None si la lista est√° vac√≠a.
        return list(set(regiones_encontradas)) if regiones_encontradas else None

    def _extraer_tipo_administracion(self, texto: str) -> Optional[str]:
        """
        Extrae el tipo de administraci√≥n (Estatal, Auton√≥mica, Local, Otros)
        mencionado en el texto.

        Args:
            texto (str): Texto de la consulta en min√∫sculas.

        Returns:
            Optional[str]: El c√≥digo del tipo de administraci√≥n ('C', 'A', 'L', 'O'),
                           o None si no se identifica.
        """
        # Itera sobre el mapeo de tipos de administraci√≥n.
        for tipo, codigo in self.tipos_administracion_map.items():
            # Si el t√©rmino del tipo de administraci√≥n est√° en el texto, retorna su c√≥digo.
            # Se detiene en la primera coincidencia.
            if tipo in texto:
                return codigo
        return None

    def extraer_tipo_beneficiario(self,texto: str) -> Optional[List[int]]:
        """
        Clasifica el tipo de beneficiario usando similitud de embeddings contra t√©rminos comunes.
        """
        query_embedding = self.model.encode(texto, convert_to_tensor=True)
        cosine_scores = util.cos_sim(query_embedding, self.common_terms_embeddings)[0]
        max_score=cosine_scores.max()
        matchs=None
        if max_score>.20:
          max_pos=torch.argmax(cosine_scores)
          term=self.common_beneficiary_terms[max_pos]
          matchs=self.tipos_beneficiario_comunes_map[term]
        else:
          return None


        '''# Si desea un "fallback" a SIN INFORMACION ESPECIFICA si no hay matches por encima del umbral
        if not matchs and 5 in self.tipos_beneficiario_comunes_map.values():
            # Asumiendo que ID 5 es 'SIN INFORMACION ESPECIFICA'
            matchs.add(5) '''

        return matchs if matchs else None

    def _extraer_instrumentos(self, texto: str) -> Optional[List[int]]:
        """
        Extrae los IDs de los instrumentos de ayuda (ej. subvenci√≥n, pr√©stamo)
        mencionados en el texto.

        Args:
            texto (str): Texto de la consulta en min√∫sculas.

        Returns:
            Optional[List[int]]: Una lista de IDs √∫nicos de instrumentos encontrados,
                                  o None si no se identifica ninguno.
        """
        query_embedding = self.model.encode(texto, convert_to_tensor=True)
        cosine_scores = util.cos_sim(query_embedding, self.common_instrumentos_embeddings)[0]
        top_scores, top_indices = torch.topk(cosine_scores, 2)
        top=zip(top_scores.tolist(),top_indices.tolist())
        print(top)

        top_terms=[]
        for score,indice in top:
            if score>.20:
              top_terms.append(self.common_instrumentos_terms[indice])



        matchs = []
        for term in top_terms:
            if term in self.instrumentos_map:
              matchs.append(self.instrumentos_map[term])



        # Devuelve una lista de IDs √∫nicos, o None si la lista est√° vac√≠a.
        return list(set(matchs)) if matchs else None

    def _extraer_finalidad(self, texto: str) -> Optional[int]:
        """
        Extrae el ID de la finalidad de la pol√≠tica de gasto (ej. vivienda, agricultura)
        mencionada en el texto.

        Args:
            texto (str): Texto de la consulta en min√∫sculas.

        Returns:
            Optional[int]: El ID de la finalidad encontrada, o None si no se identifica.
                           Retorna la primera coincidencia.
        """
        query_embedding = self.model.encode(texto, convert_to_tensor=True)
        cosine_scores = util.cos_sim(query_embedding, self.common_finalidades_embeddings)[0]
        max_score=cosine_scores.max()
        print(max_score)
        matchs=None
        if max_score>.2:
          max_pos=torch.argmax(cosine_scores)
          term=self.common_finalidades_terms[max_pos]
          matchs=self.finalidades_map[term]

        # Devuelve una lista de IDs √∫nicos, o None si la lista est√° vac√≠a.
        return matchs if matchs else None


    def _extraer_actividad(self, texto: str) -> Optional[int]:
        """
        Clasifica el tipo de actividad usando similitud de embeddings contra t√©rminos comunes.
        """

        query_embedding = self.model.encode(texto, convert_to_tensor=True)
        cosine_scores = util.cos_sim(query_embedding, self.common_activities_embeddings)[0]
        max_score=cosine_scores.max()
        matchs=None
        if max_score>.2:

          max_pos=torch.argmax(cosine_scores)
          term=self.common_activities_terms[max_pos]
          matchs=self.actividad_map[term]
        else:
          return None


        return matchs if matchs else None

    def _extraer_fechas(self, texto: str) -> Dict[str, str]:
        """
        Extrae fechas o rangos de fechas (fechaDesde, fechaHasta, anioInteres)
        del texto utilizando expresiones regulares.

        Args:
            texto (str): Texto de la consulta en min√∫sculas.

        Returns:
            Dict[str, str]: Un diccionario con las fechas extra√≠das .
        """
        fechas = {}
        # Itera sobre cada patr√≥n de expresi√≥n regular predefinido para fechas.
        for pattern in self.fecha_patterns:
            # Encuentra todas las coincidencias del patr√≥n en el texto.
            matches = re.finditer(pattern, texto)
            for match in matches:
                # L√≥gica para patrones de "desde" o "a partir de" (formato dd/mm/yyyy)
                if 'desde' in pattern or 'partir' in pattern:
                    # Verifica que haya al menos 3 grupos capturados (d√≠a, mes, a√±o)
                    if len(match.groups()) >= 3:
                        # Formatea la fecha y la asigna a 'fechaDesde'. zfill(2) a√±ade un cero inicial si es necesario (ej. 1 -> 01).
                        fechas['fechaDesde'] = f"{match.group(1).zfill(2)}/{match.group(2).zfill(2)}/{match.group(3)}"
                # L√≥gica para patrones de "hasta" o "antes de" (formato dd/mm/yyyy)
                elif 'hasta' in pattern or 'antes' in pattern:
                    if len(match.groups()) >= 3:
                        fechas['fechaHasta'] = f"{match.group(1).zfill(2)}/{match.group(2).zfill(2)}/{match.group(3)}"
                # L√≥gica para el patr√≥n de rango completo (dd/mm/yyyy hasta dd/mm/yyyy)
                elif len(match.groups()) == 6: # Este patr√≥n captura 6 grupos (3 para la primera fecha, 3 para la segunda)
                    fechas['fechaDesde'] = f"{match.group(1).zfill(2)}/{match.group(2).zfill(2)}/{match.group(3)}"
                    fechas['fechaHasta'] = f"{match.group(4).zfill(2)}/{match.group(5).zfill(2)}/{match.group(6)}"

        return fechas

    def _extraer_numero_convocatoria(self, texto: str) -> Optional[str]:
        """
        Extrae un posible n√∫mero de convocatoria BDNS (Base de Datos Nacional de Subvenciones),
        identificando una secuencia de 6 d√≠gitos como palabra completa.

        Args:
            texto (str): Texto original de la consulta.

        Returns:
            Optional[str]: El n√∫mero de convocatoria encontrado como string, o None si no se halla.
        """
        # Busca una secuencia de exactamente 6 d√≠gitos rodeada por l√≠mites de palabra.
        match = re.search(r'\b\d{6}\b', texto)
        return match.group() if match else None


# --- Funci√≥n Principal de Parsing ---
def parsear_busqueda_subvenciones(texto_busqueda: str) -> Dict[str, Any]:
    """
    Funci√≥n principal de utilidad que encapsula la l√≥gica de parsing de b√∫squedas
    de subvenciones. Crea una instancia de SubvencionesParser y llama a su
    m√©todo `extraer_parametros`.

    Args:
        texto_busqueda (str): El texto de la b√∫squeda en lenguaje natural del usuario.

    Returns:
        Dict[str, Any]: Un diccionario con los par√°metros de b√∫squeda extra√≠dos.
    """
    parser = SubvencionesParser()
    return parser.extraer_parametros(texto_busqueda)

In [4]:
from logging import warning
import streamlit as st
import requests
import pandas as pd
import re
from datetime import datetime
import openai
import json
import os
import unicodedata
import PyPDF2
import time



# ---------- FUNCIONES AUXILIARES -----------


'''Aqui hay algunas funciones auxiliares basadas en el trabajo de Carmen para comunicarnos con el sitio web de subvenciones.

'''

def buscar_convocatorias(**params): #esta funcion toma el diccionario de palabras obtenido de la funci√≥n "parsear_busqueda_subvenciones" y hace un request con la API al sitio de subvenciones.
#se obtiene un DF con las convocatorias que satisfacen los argumentos del diccionario.
    base_url = "https://www.pap.hacienda.gob.es/bdnstrans/api/convocatorias/busqueda"
    headers = {"Accept": "application/json"}
    page_size = params.get("pageSize", 25)
    max_paginas = 3
    resultados = []
    params.setdefault("vpd", "GE")
    params.setdefault("pageSize", page_size)
    for pagina in range(0, max_paginas):
        params["page"] = pagina
        try:
            response = requests.get(base_url, params=params, headers=headers)
            response.raise_for_status()
            if "application/json" in response.headers.get("Content-Type", ""):
                data = response.json()
                convocatorias = data.get("convocatorias", data.get("content", []))
                if not convocatorias:
                    break
                resultados.extend(convocatorias)
                time.sleep(0.5)
        except Exception as e:
            break
    return pd.DataFrame(resultados)

def obtener_convocatoria_por_id(num_conv): #esta funcion toma un numero especifico de convocatoria y realiza un request a la API, la cual devuelve un diccionario con informaci√≥n espec√≠fica de la convocatoria.
    base_url = "https://www.infosubvenciones.es/bdnstrans/api/convocatorias"
    params = {"vpd": "GE", "numConv": str(num_conv)}
    headers = {"Accept": "application/json"}
    r = requests.get(base_url, params=params, headers=headers)
    if r.status_code == 200 and "application/json" in r.headers.get("Content-Type", ""):
        return r.json()
    else:
        return None

def descargar_documento_pdf(documento_id, nombre): #esta funcion requiere el documento_id y nombre y descarga en ruta relativa el pdf en cuesti√≥n.
    url = f"https://www.infosubvenciones.es/bdnstrans/api/convocatorias/documentos?idDocumento={documento_id}"
    respuesta = requests.get(url)
    if respuesta.status_code == 200:
        ruta_relativa = os.path.join("documentos", nombre)
        ruta_absoluta = os.path.abspath(ruta_relativa)
        os.makedirs(os.path.dirname(ruta_absoluta), exist_ok=True)
        with open(ruta_absoluta, "wb") as f:
            f.write(respuesta.content)
        return ruta_absoluta
    return None

def mostrar_resumen_json(convocatoria): #es una funcion que hice para que al hacer clic sobre una convocatoria, se muestre un resumen peque√±o de la convocatoria, antes de dar la opci√≥n a ver mas detalles . (Solo para demo de streamlit)
    resumen = []
    resumen.append(f"**Presupuesto total:** {convocatoria.get('presupuestoTotal', 'N/D')} ‚Ç¨")
    resumen.append(f"**Fechas:** del {convocatoria.get('fechaInicioSolicitud', '¬ø?')} al {convocatoria.get('fechaFinSolicitud', '¬ø?')}")
    resumen.append(f"**Finalidad:** {convocatoria.get('descripcionFinalidad', 'No especificada')}")
    tipos = convocatoria.get("tiposBeneficiarios", [])
    if tipos:
        resumen.append(f"**Beneficiarios:** {', '.join(t.get('descripcion', '') for t in tipos)}")
    resumen.append(f"**Abierta:** {'‚úÖ S√≠' if convocatoria.get('abierto') else '‚ùå No'}")
    return "\n".join(resumen)


# ---------- INTERFAZ STREAMLIT -----------


st.title("üîç Buscador de convocatorias p√∫blicas")

query = st.text_input("¬øQu√© convocatorias buscas?", key="query_input_main")

if query:
    try:
        filtros = parsear_busqueda_subvenciones(query)
        with st.spinner("Buscando convocatorias, por favor espera..."):
            df = buscar_convocatorias(**filtros)

        if not df.empty:
            st.success(f"Se encontraron {len(df)} convocatorias.")
             # --- NUEVO PASO CRUCIAL ---
            # Convertir la columna 'fechaPublicacion' a datetime
            # Primero, aseguramos que la columna exista para evitar errores si la API no la devuelve
            if 'fechaRecepcion' in df.columns:
                # Usamos errors='coerce' para convertir a NaT (Not a Time) si hay valores inv√°lidos
                df['fechaRecepcion'] = pd.to_datetime(df['fechaRecepcion'], errors='coerce')

            # A√±adir una columna booleana para los checkboxes
            # Inicialmente, ninguna est√° seleccionada
            df['Seleccionar'] = False

            # Columnas a mostrar y renombrar
            display_df = df[['Seleccionar', 'numeroConvocatoria', 'descripcion', 'fechaRecepcion', 'nivel1']].copy()
            display_df.columns = ['Seleccionar', 'N¬∫ Convocatoria', 'Descripci√≥n', 'Fecha Publicaci√≥n', 'Nivel1*']

            st.write("### Convocatorias encontradas:")

            # Usar st.data_editor con CheckboxColumn
            edited_df = st.data_editor(
                display_df,
                column_config={
                    "Seleccionar": st.column_config.CheckboxColumn(
                        "Seleccionar",
                        help="Marca para ver el resumen de la convocatoria",
                        default=False,
                        # Si quieres que solo se pueda seleccionar una, la l√≥gica es un poco m√°s avanzada
                        # y requiere manejar el estado para deseleccionar otras.
                        # Para selecci√≥n m√∫ltiple, esto funciona directamente.
                    ),
                    "Descripci√≥n": st.column_config.TextColumn(
                        "Descripci√≥n",
                        help="Descripci√≥n de la convocatoria",
                        width="large", # Para que la descripci√≥n ocupe m√°s espacio
                    ),
                    "N¬∫ Convocatoria": st.column_config.TextColumn("N¬∫ Convocatoria", width="small"),
                    "Cuant√≠a": st.column_config.TextColumn("Cuant√≠a", width="small"),
                    "Fecha Publicaci√≥n": st.column_config.DateColumn("Fecha Publicaci√≥n", width="small"),
                },
                hide_index=True,
                num_rows="fixed", # No permitir a√±adir/eliminar filas
                use_container_width=True, # Usar el ancho completo de la columna/p√°gina
                key="convocatorias_editor"
            )

            # --- L√≥gica para mostrar el resumen de la convocatoria seleccionada ---
            # Filtrar las filas que tienen el checkbox marcado
            selected_rows = edited_df[edited_df['Seleccionar'] == True]

            if not selected_rows.empty:
                # Si hay m√∫ltiples seleccionadas, puedes elegir mostrar la primera,
                # o mostrar un resumen para cada una, o pedir al usuario que deseleccione.
                # Para el ejemplo, mostraremos la primera seleccionada.
                selected_convocatoria = selected_rows.iloc[0]
                num_conv = selected_convocatoria['N¬∫ Convocatoria']

                # Guardar en session_state para mantener el estado si se refresca la p√°gina
                st.session_state.num_conv_selected = num_conv

                st.divider() # Un separador visual
                st.subheader(f"Resumen de la convocatoria {num_conv}")

                try:
                    with st.spinner(f"Cargando detalles de {num_conv}..."):
                        data = obtener_convocatoria_por_id(num_conv)

                    if data:
                        st.markdown(mostrar_resumen_json(data))
                    else:
                        st.warning(f"No se pudieron obtener los detalles para la convocatoria {num_conv}.")
                except Exception as e_detail:
                    st.error(f"‚ö†Ô∏è Error al cargar detalles: {e_detail}")
            else:
                st.info("Marca el checkbox de una convocatoria en la tabla para ver su resumen.")

        else:
            st.warning("No se encontraron convocatorias que cumplan con los criterios de b√∫squeda.")

    except Exception as e:
        # Este except general captura cualquier excepci√≥n lanzada por
        # parsear_busqueda_subvenciones o buscar_convocatorias.
        st.error(f"üö´ ¬°Ha ocurrido un problema! Por favor, intenta una b√∫squeda diferente o verifica tu conexi√≥n. Detalles: {e}")





2025-07-28 15:53:24.325 
  command:

    streamlit run /usr/local/lib/python3.11/dist-packages/colab_kernel_launcher.py [ARGUMENTS]
2025-07-28 15:53:24.334 Session state does not function when running a script without `streamlit run`


In [10]:
#ejemplo de funcionamiento en codigo:




filtros=parsear_busqueda_subvenciones(query)
#del filtros["descripcion"]
convocatoria= buscar_convocatorias(**filtros)
convocatoria

<zip object at 0x7b0aac92b740>
tensor(0.6179)


Unnamed: 0,id,mrr,numeroConvocatoria,descripcion,descripcionLeng,fechaRecepcion,nivel1,nivel2,nivel3,codigoInvente
0,1039840,False,838279,Convocatoria para la concesi√≥n de subvenciones...,,2025-06-06,GETAFE,AYUNTAMIENTO DE GETAFE,,
1,1037256,False,835695,CONVOCATORIA PARA LA CONCESI√ìN DE SUBVENCIONES...,,2025-05-28,GETAFE,AYUNTAMIENTO DE GETAFE,,
2,1032386,False,830825,CONVOCATORIA AYUDAS ACCESIBILIDAD 2025 (JGL 30...,,2025-05-07,FUENLABRADA,AYUNTAMIENTO DE FUENLABRADA,,
3,1030870,False,829309,CONVOCATORIA DE SUBVENCIONES PARA LA IMPLANTAC...,,2025-04-29,FUENLABRADA,AYUNTAMIENTO DE FUENLABRADA,,
4,1025183,False,823622,Convocatoria p√∫blica subvenciones 2025 con des...,,2025-03-28,MADRID,√ÅREA DE GOBIERNO DE POL√çTICAS DE VIVIENDA,,
5,1012289,True,810729,Acuerdo de 26 de diciembre de 2024 de la Manco...,,2025-01-23,MANCOMUNIDAD INTERMUNICIPAL LA SIERRA DEL RINC√ìN,MANCOMUNIDAD INTERMUNICIPAL LA SIERRA DEL RINC√ìN,,
6,1002691,True,801131,SUBVENCI√ìN PARA LA CONCESI√ìN DE LAS AYUDAS PAR...,,2024-12-05,TORRES DE LA ALAMEDA,AYUNTAMIENTO DE TORRES DE LA ALAMEDA,,
7,978699,True,777139,SUBV. FINANC. MEJORA O REHABILITACION DE EDIFI...,,2024-07-24,TORREJ√ìN DE ARDOZ,AYUNTAMIENTO DE TORREJ√ìN DE ARDOZ,,
8,970338,False,768778,CONVOCATORIA DE SUBVENCIONES PARA ACTUACIONES ...,,2024-06-17,FUENLABRADA,AYUNTAMIENTO DE FUENLABRADA,,
9,967026,False,765466,CONVOCATORIA DE SUBVENCIONES PARA LA IMPLANTAC...,,2024-06-03,FUENLABRADA,AYUNTAMIENTO DE FUENLABRADA,,


In [8]:
query='quiero buscar ayudas para vivienda en la comunidad de madrid'

In [9]:
print(parsear_busqueda_subvenciones(query))

<zip object at 0x7b0aa98b29c0>
tensor(0.6179)
{'descripcion': 'ayudas vivienda comunidad madrid', 'descripcionTipoBusqueda': 2, 'regiones': [26, 27], 'tiposBeneficiario': [1], 'instrumentos': [1, 7], 'finalidad': 8, 'actividad': 344, 'order': 'fechaRecepcion', 'direccion': 'desc', 'vpd': 'GE', 'page': 0, 'pageSize': 25}


In [11]:
obtener_convocatoria_por_id(838279)

{'id': 1039840,
 'organo': {'nivel1': 'GETAFE',
  'nivel2': 'AYUNTAMIENTO DE GETAFE',
  'nivel3': None},
 'sedeElectronica': None,
 'codigoBDNS': '838279',
 'fechaRecepcion': '2025-06-06',
 'instrumentos': [{'descripcion': 'SUBVENCI√ìN Y ENTREGA DINERARIA SIN CONTRAPRESTACI√ìN '}],
 'tipoConvocatoria': 'Concurrencia competitiva - can√≥nica',
 'presupuestoTotal': 270000,
 'mrr': False,
 'descripcion': 'Convocatoria para la concesi√≥n de subvenciones por el Ayuntamiento de Getafe para actuaciones relativas a la accesibilidad, conservaci√≥n, rehabilitaci√≥n o mejora de la eficiencia energ√©tica en viviendas del t√©rmino municipal de Getafe.',
 'descripcionLeng': None,
 'tiposBeneficiarios': [{'descripcion': 'PERSONAS F√çSICAS QUE NO DESARROLLAN ACTIVIDAD ECON√ìMICA'},
  {'descripcion': 'PERSONAS JUR√çDICAS QUE NO DESARROLLAN ACTIVIDAD ECON√ìMICA'}],
 'sectores': [{'descripcion': 'Acabado de edificios', 'codigo': '43.3'}],
 'regiones': [{'descripcion': 'ES30 - COMUNIDAD DE MADRID'}],
 'des