# Proyecto final -  Topicos especiales
## 1. Título tentativo del proyecto
Clasificación temática de artículos científicos sobre redes neuronales
mediante modelos de lenguaje preentrenados.
## 2. Integrantes
* Mónica Fleitas
* Carlos Bustamante
* Zulema Silguero

## 3. Planteamiento del problema
En la actualidad, el volumen de artículos científicos relacionados con redes
neuronales artificiales crece exponencialmente, lo cual dificulta la
organización y acceso eficiente a información relevante por parte de
investigadores y profesionales. Muchos de estos textos abordan
aplicaciones diversas, desde visión por computadora hasta procesamiento
del lenguaje natural, sin embargo, suelen encontrarse dispersos en bases
de datos científicas con etiquetado deficiente o inexistente, lo cual dificulta
el relevamiento de datos a la hora de realizar trabajos de investigación.
Este proyecto busca resolver este problema mediante la clasificación
automática de artículos científicos según la temática específica de la
aplicación de redes neuronales.

### Corpus o datos a utilizar
Obtener los datos de las presentaciones cientificas de la conacyt.

### Técnica(s) que planeas implementar
* Embeddings (Word2Vec, FastText) LSTM, GRU
* Modelos preentrenados (BERT, RoBERTa, SciBERT)
Vamos a centrarnos en modelos preentrenados como SciBERT, especializado en
texto científico, pero podemos hacer comparativas con técnicas más clásicas o
embeddings.
* Implementacion de un RAG utilizando los trabajos cientificos de redes neuronales 

## 4. Resultados esperados
Esperamos construir un sistema capaz de clasificar artículos científicos según
su temática principal relacionada con las aplicaciones de redes neuronales.
Para evaluar el rendimiento del sistema, se usará una métrica de clasificación
multiclase como:
* Exactitud (Accuracy)
* F1-Score macro y micro
* Matriz de confusion


In [2]:
pip install requests beautifulsoup4


You should consider upgrading via the '/usr/local/bin/python3 -m pip install --upgrade pip' command.[0m[33m
[0mNote: you may need to restart the kernel to use updated packages.


## PARTE1: WebScrapping de datos del repositorio de la conacyt.

In [3]:
## Proyecto Web Scraping Repositorio CONACYT

# 1. Instalar librerías necesarias

# 2. Importar librerías
import requests
from bs4 import BeautifulSoup
import json

# 3. Definir la URL
url = 'https://repositorio.conacyt.gov.py/browse?rpp=100&sort_by=1&type=title&offset=20&etal=-1&order=ASC'

# 4. Realizar la solicitud a la página
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 5. Extraer los datos
# En este sitio, los títulos y enlaces están en etiquetas <div class="artifact-title"> dentro de <a>
resultados = []

for item in soup.select('div.artifact-title a'):
    titulo = item.text.strip()
    enlace = 'https://repositorio.conacyt.gov.py' + item['href']
    resultados.append({
        "titulo": titulo,
        "enlace": enlace
    })

print(resultados)



[]


In [4]:
# 6. Guardar como archivo JSON
with open('temas_investigacion.json', 'w', encoding='utf-8') as f:
    json.dump(resultados, f, ensure_ascii=False, indent=4)

# 7. Mostrar los primeros 5 resultados
for r in resultados[:5]:
    print(r)

In [18]:
# 1. Instalar BeautifulSoup si no está
# 2. Importar librerías
import requests
from bs4 import BeautifulSoup

# 3. Definir la URL
url = 'https://repositorio.conacyt.gov.py/browse?rpp=100&sort_by=1&type=title&offset=20&etal=-1&order=ASC'

# 4. Hacer la petición HTTP
response = requests.get(url)
print (response.status_code)
print (response._content)


# 6. Buscar el div principal por id
main_div = soup.find('div', id='aspect_artifactbrowser_ConfigurableBrowse_div_browse-by-title-results')

# 7. Listar todos los elementos dentro de ese div
if main_div:
    elementos = main_div.find_all(recursive=True)  # Buscar todos los descendientes
    print(f"Encontrados {len(elementos)} elementos dentro del div principal.")
    
    for idx, elem in enumerate(elementos):
        print(f"\nElemento {idx+1}:")
        print(elem.prettify())
else:
    print("No se encontró el div con el id especificado.")



200
Encontrados 1572 elementos dentro del div principal.

Elemento 1:
<ul class="ds-artifact-list list-unstyled">
 <!-- External Metadata URL: cocoon://metadata/handle/20.500.14066/4436/mets.xml?sections=dmdSec,fileSec&fileGrpTypes=THUMBNAIL-->
 <li class="ds-artifact-item odd">
  <div class="artifact-description">
   <h4 class="artifact-title">
    <a href="/handle/20.500.14066/4436">
     A novel modulated model predictive control applied to six-phase induction motor drives
    </a>
    <span class="Z3988" title="ctx_ver=Z39.88-2004&amp;rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Adc&amp;rft_id=0278-0046&amp;rft_id=http%3A%2F%2Fhdl.handle.net%2F20.500.14066%2F4436&amp;rft_id=10.1109%2FTIE.2020.2984425&amp;rft_id=1557-9948&amp;rfr_id=info%3Asid%2Fdspace.org%3Arepository&amp;">
     ﻿
    </span>
   </h4>
   <div class="artifact-info">
    <span class="author h4">
     <small>
      <a href="/browse?authority=117&amp;type=author">
       Ayala Silva, Magno Elías
      </a>
      <img alt

In [19]:
# 1. Instalar librerías necesarias
# 2. Importar librerías
import requests
from bs4 import BeautifulSoup

# 3. Definir la URL
url = 'https://repositorio.conacyt.gov.py/browse?rpp=100&sort_by=1&type=title&offset=20&etal=-1&order=ASC'

# 4. Hacer la solicitud HTTP
response = requests.get(url)
response.raise_for_status()

# 5. Parsear el HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 6. Buscar el div principal por id
main_div = soup.find('div', id='aspect_artifactbrowser_ConfigurableBrowse_div_browse-by-title-results')

# 7. Buscar todos los artifact-description
resultados = []

if main_div:
    descriptions = main_div.find_all('div', class_='artifact-description')
    
    for desc in descriptions:
        # Buscar el h4 con clase artifact-title
        title_tag = desc.find('h4', class_='artifact-title')
        if title_tag:
            a_tag = title_tag.find('a')
            if a_tag and a_tag.get('href'):
                titulo = a_tag.text.strip()
                enlace = 'https://repositorio.conacyt.gov.py' + a_tag['href']
                resultados.append({
                    "titulo": titulo,
                    "enlace": enlace
                })
else:
    print("No se encontró el div con el id especificado.")

# 8. Mostrar resultados
for r in resultados:
    print(r)


{'titulo': 'A novel modulated model predictive control applied to six-phase induction motor drives', 'enlace': 'https://repositorio.conacyt.gov.py/handle/20.500.14066/4436'}
{'titulo': 'A novel predictive-fixed switching frequency technique for a cascade H-bridge multilevel STATCOM', 'enlace': 'https://repositorio.conacyt.gov.py/handle/20.500.14066/3281'}
{'titulo': 'A qPCR targeted against the viral replication origin designed to quantify total amount of filamentous phages and phagemids', 'enlace': 'https://repositorio.conacyt.gov.py/handle/20.500.14066/3732'}
{'titulo': 'A quantum adiabatic algorithm for multiobjective combinatorial optimization', 'enlace': 'https://repositorio.conacyt.gov.py/handle/20.500.14066/3723'}
{'titulo': 'A Recommender System Approach for Predicting Drug Side Effects', 'enlace': 'https://repositorio.conacyt.gov.py/handle/20.500.14066/2996'}
{'titulo': 'A review of existing evaluation methods for point clouds quality', 'enlace': 'https://repositorio.conacyt.g

In [20]:
# 1. Instalar librerías necesarias
# Ejecuta esto si no tienes instaladas:
# pip install requests beautifulsoup4

# 2. Importar librerías
import requests
from bs4 import BeautifulSoup
import json

# 3. Definir la función de scraping de una sola página
def scrape_page(offset):
    base_url = 'https://repositorio.conacyt.gov.py/browse?rpp=100&sort_by=1&type=title&etal=-1&order=ASC'
    url = f'{base_url}&offset={offset}'
    print(f"Scrapeando: {url}")
    
    response = requests.get(url)
    response.raise_for_status()
    
    soup = BeautifulSoup(response.text, 'html.parser')
    main_div = soup.find('div', id='aspect_artifactbrowser_ConfigurableBrowse_div_browse-by-title-results')
    
    resultados = []
    
    if main_div:
        descriptions = main_div.find_all('div', class_='artifact-description')
        
        for desc in descriptions:
            title_tag = desc.find('h4', class_='artifact-title')
            if title_tag:
                a_tag = title_tag.find('a')
                if a_tag and a_tag.get('href'):
                    titulo = a_tag.text.strip()
                    enlace = 'https://repositorio.conacyt.gov.py' + a_tag['href']
                    resultados.append({
                        "titulo": titulo,
                        "enlace": enlace
                    })
    return resultados

# 4. Iterar en offsets de 20 hasta 2280
todos_los_resultados = []

for offset in range(20, 2281, 20):  # Desde 20 hasta 2280 inclusive
    resultados = scrape_page(offset)
    todos_los_resultados.extend(resultados)

# 5. Guardar todos los resultados en un archivo JSON
with open('temas_investigacion_conacyt.json', 'w', encoding='utf-8') as f:
    json.dump(todos_los_resultados, f, ensure_ascii=False, indent=4)

# 6. Mostrar cuántos registros obtuvimos
print(f"\nTotal de temas de investigación encontrados: {len(todos_los_resultados)}")
print("Archivo JSON 'temas_investigacion_conacyt.json' generado correctamente.")



Scrapeando: https://repositorio.conacyt.gov.py/browse?rpp=100&sort_by=1&type=title&etal=-1&order=ASC&offset=20
Scrapeando: https://repositorio.conacyt.gov.py/browse?rpp=100&sort_by=1&type=title&etal=-1&order=ASC&offset=40
Scrapeando: https://repositorio.conacyt.gov.py/browse?rpp=100&sort_by=1&type=title&etal=-1&order=ASC&offset=60
Scrapeando: https://repositorio.conacyt.gov.py/browse?rpp=100&sort_by=1&type=title&etal=-1&order=ASC&offset=80
Scrapeando: https://repositorio.conacyt.gov.py/browse?rpp=100&sort_by=1&type=title&etal=-1&order=ASC&offset=100
Scrapeando: https://repositorio.conacyt.gov.py/browse?rpp=100&sort_by=1&type=title&etal=-1&order=ASC&offset=120
Scrapeando: https://repositorio.conacyt.gov.py/browse?rpp=100&sort_by=1&type=title&etal=-1&order=ASC&offset=140
Scrapeando: https://repositorio.conacyt.gov.py/browse?rpp=100&sort_by=1&type=title&etal=-1&order=ASC&offset=160
Scrapeando: https://repositorio.conacyt.gov.py/browse?rpp=100&sort_by=1&type=title&etal=-1&order=ASC&offset=

In [None]:
import html  # Para decodificar entidades HTML
import urllib.parse  # Para URL encoding

def scrape_detalle(url):
    print(f"Scrapeando detalle: {url}")
    response = requests.get(url)
    response.raise_for_status()

    soup = BeautifulSoup(response.text, 'html.parser')
    
    # Iniciar el objeto de retorno
    detalle = {
        "titulo": "",
        "imagen": "",
        "autores": "",
        "fecha_publicacion": "",
        "tipo_publicacion": "",
        "materia": "",
        "resumen": "",
        "link_documento": "",
        "link_tema_investigacion": url
    }

    # Título
    title_tag = soup.find('h2', class_='page-header')
    if title_tag:
        detalle["titulo"] = title_tag.text.strip()

    # Imagen
    img_tag = soup.find('img', class_='img-thumbnail')
    if img_tag and img_tag.get('src'):
        detalle["imagen"] = 'https://repositorio.conacyt.gov.py' + img_tag['src']

    # Autores
    autores_div = soup.find('div', class_='simple-item-view-authors')
    if autores_div:
        autores = [html.unescape(a.text.strip()) for a in autores_div.find_all('a')]
        detalle["autores"] = ', '.join(autores)

    # Fecha de publicación y Tipo de publicación
    date_blocks = soup.find_all('div', class_='simple-item-view-date')
    for block in date_blocks:
        h5 = block.find('h5')
        if h5:
            titulo_h5 = h5.text.strip().lower()
            text_content = block.get_text(separator='|').split('|')[-1].strip()
            if 'fecha de publicación' in titulo_h5:
                detalle["fecha_publicacion"] = text_content
            elif 'tipo de publicación' in titulo_h5:
                detalle["tipo_publicacion"] = text_content

    # Materia(s


In [53]:
detalle = scrape_detalle('https://repositorio.conacyt.gov.py/handle/20.500.14066/4344')
print(json.dumps(detalle, indent=4, ensure_ascii=False))


Scrapeando detalle: https://repositorio.conacyt.gov.py/handle/20.500.14066/4344
{
    "titulo": "Aña Cuá, la fuerza de una hidroeléctrica",
    "imagen": "https://repositorio.conacyt.gov.py/bitstream/handle/20.500.14066/4344/A%c3%b1a%20Cu%c3%a1%2c%20la%20fuerza%20de%20una%20hidroel%c3%a9ctrica.jpg?sequence=4&isAllowed=y",
    "autores": "Ovelar Pintos, Aníbal Manuel",
    "fecha_publicacion": "2023-11-30",
    "tipo_publicacion": "still image",
    "materia": "Central hidroeléctrica Ciencia y sociedad Cultura científica Divulgación científica Energía hidroeléctrica Hydroelectric power stations Science and society Scientific culture Science popularization Hydroelectric power",
    "resumen": "Resumen Fotografía ganadora del Tercer Puesto del III Concurso Nacional de Fotografía Científica del CONACYT, en la categoría Fotógrafo Aficionado y con la temática “El poder del agua”, establecida con el objetivo de generar conciencia sobre la importancia del cuidado del agua y el impacto que tien

In [7]:
import html  # Para decodificar entidades HTML
import urllib.parse  # Para URL encoding

def scrape_detalle(url):
    print(f"Scrapeando detalle: {url}")
    response = requests.get(url)
    response.raise_for_status()

    soup = BeautifulSoup(response.text, 'html.parser')
    
    # Iniciar el objeto de retorno
    detalle = {
        "titulo": "",
        "imagen": "",
        "autores": "",
        "fecha_publicacion": "",
        "tipo_publicacion": "",
        "materia": "",
        "resumen": "",
        "link_documento": "",
        "link_tema_investigacion": url
    }

    # Título
    title_tag = soup.find('h2', class_='page-header')
    if title_tag:
        detalle["titulo"] = title_tag.text.strip()

    # Imagen
    img_tag = soup.find('img', class_='img-thumbnail')
    if img_tag and img_tag.get('src'):
        detalle["imagen"] = 'https://repositorio.conacyt.gov.py' + img_tag['src']

    # Autores
    autores_div = soup.find('div', class_='simple-item-view-authors')
    if autores_div:
        autores = [html.unescape(a.text.strip()) for a in autores_div.find_all('a')]
        detalle["autores"] = ', '.join(autores)

    # Fecha de publicación y Tipo de publicación
    date_blocks = soup.find_all('div', class_='simple-item-view-date')
    for block in date_blocks:
        h5 = block.find('h5')
        if h5:
            titulo_h5 = h5.text.strip().lower()
            text_content = block.get_text(separator='|').split('|')[-1].strip()
            if 'fecha de publicación' in titulo_h5:
                detalle["fecha_publicacion"] = text_content
            elif 'tipo de publicación' in titulo_h5:
                detalle["tipo_publicacion"] = text_content

    # Materia(s)
    materia_block = None
    h5_tags = soup.find_all('h5')
    for h5 in h5_tags:
        if 'Materia' in h5.text:
            materia_block = h5.find_next('div')
            break

    if materia_block:
        materias = [html.unescape(a.text.strip()) for a in materia_block.find_all('a')]
        detalle["materia"] = ' '.join(materias)

    # Resumen
    resumen_block = soup.find('div', class_='simple-item-view-description')
    if resumen_block:
        resumen_text = resumen_block.text.strip()
        resumen_text = resumen_text.replace('\n', ' ')
        detalle["resumen"] = resumen_text

    # Link del documento (primer <a> de descarga)
    document_div = soup.find('div', class_='item-page-field-wrapper table word-break')
    if document_div:
        first_link = document_div.find('a')  # Primer <a> del bloque
        if first_link and first_link.get('href'):
            href_raw = first_link['href']
            href_encoded = urllib.parse.quote(href_raw, safe="/:?=&")  # Encodear bien pero respetar /:?=&
            detalle["link_documento"] = 'https://repositorio.conacyt.gov.py' + href_encoded
        else:import html  # Para decodificar entidades HTML
import urllib.parse  # Para URL encoding

def scrape_detalle(url):
    print(f"Scrapeando detalle: {url}")
    response = requests.get(url)
    response.raise_for_status()

    soup = BeautifulSoup(response.text, 'html.parser')
    
    # Iniciar el objeto de retorno
    detalle = {
        "titulo": "",
        "imagen": "",
        "autores": "",
        "fecha_publicacion": "",
        "tipo_publicacion": "",
        "materia": "",
        "resumen": "",
        "link_documento": "",
        "link_tema_investigacion": url
    }

    # Título
    title_tag = soup.find('h2', class_='page-header')
    if title_tag:
        detalle["titulo"] = title_tag.text.strip()

    # Imagen
    img_tag = soup.find('img', class_='img-thumbnail')
    if img_tag and img_tag.get('src'):
        detalle["imagen"] = 'https://repositorio.conacyt.gov.py' + img_tag['src']

    # Autores
    autores_div = soup.find('div', class_='simple-item-view-authors')
    if autores_div:
        autores = [html.unescape(a.text.strip()) for a in autores_div.find_all('a')]
        detalle["autores"] = ', '.join(autores)

    # Fecha de publicación y Tipo de publicación
    date_blocks = soup.find_all('div', class_='simple-item-view-date')
    for block in date_blocks:
        h5 = block.find('h5')
        if h5:
            titulo_h5 = h5.text.strip().lower()
            text_content = block.get_text(separator='|').split('|')[-1].strip()
            if 'fecha de publicación' in titulo_h5:
                detalle["fecha_publicacion"] = text_content
            elif 'tipo de publicación' in titulo_h5:
                detalle["tipo_publicacion"] = text_content

    # Materia(s)
    materia_block = None
    h5_tags = soup.find_all('h5')
    for h5 in h5_tags:
        if 'Materia' in h5.text:
            materia_block = h5.find_next('div')
            break

    if materia_block:
        materias = [html.unescape(a.text.strip()) for a in materia_block.find_all('a')]
        detalle["materia"] = ' '.join(materias)

    # Resumen
    resumen_block = soup.find('div', class_='simple-item-view-description')
    if resumen_block:
        resumen_text = resumen_block.text.strip()
        resumen_text = resumen_text.replace('\n', ' ')
        detalle["resumen"] = resumen_text

    # Link del documento (primer <a> de descarga)
    document_div = soup.find('div', class_='item-page-field-wrapper table word-break')
    if document_div:
        first_link = document_div.find('a')  # Primer <a> del bloque
        if first_link and first_link.get('href'):
            href_raw = first_link['href']
            href_encoded = urllib.parse.quote(href_raw, safe="/:?=&")  # Encodear bien pero respetar /:?=&
            detalle["link_documento"] = 'https://repositorio.conacyt.gov.py' + href_encoded
        else:
            detalle["link_documento"] = ""
    else:
        detalle["link_documento"] = ""

    return detalle



In [58]:
#scrape_detalle('https://repositorio.conacyt.gov.py/handle/20.500.14066/4344')
scrape_detalle('https://repositorio.conacyt.gov.py/handle/20.500.14066/3678')

Scrapeando detalle: https://repositorio.conacyt.gov.py/handle/20.500.14066/3678


{'titulo': 'Adquisición, instalación y operación de la cámara fotodocumentadora para obtención de imágenes por quimioluminiscencia, luz UV, luz azul y luz blanca de: hibridación de ácidos nucleicos, western blots y corridas electroforéticas en geles',
 'imagen': '',
 'autores': 'del Puerto Rodas, Ramona Florencia',
 'fecha_publicacion': '2019',
 'tipo_publicacion': 'conference presentation',
 'materia': 'MEDICINA EQUIPAMIENTO TECNOLOGICO',
 'resumen': 'Resumen La habilitación de esta tecnología se realiza en el marco del proyecto “Adquisición de un equipo de Espectrofotómetro Infrarrojo con Transformada de Fourier LABO16-133”, que fue beneficiado con fondos para el fortalecimiento de infraestructura y equipamiento para la investigación, de la convocatoria de “Fortalecimiento del equipamiento tecnológico de investigación del Paraguay”. Este proyecto es cofinanciado por el Consejo Nacional de Ciencia y Tecnología – CONACYT, con recursos del Fondo para la Excelencia de la Educación y la I

In [None]:
import json
import time
import os

def crear_dataset_completo(desde=0, hasta=0):
    # 1. Leer el archivo de temas
    with open('temas_investigacion_conacyt.json', 'r', encoding='utf-8') as f:
        temas = json.load(f)

    print(f"Total de temas disponibles: {len(temas)}")
    
    # 2. Aplicar el rango
    temas_a_procesar = temas[desde:hasta] if hasta > 0 else temas[desde:]
    print(f"Procesando temas desde {desde} hasta {hasta if hasta > 0 else len(temas)}.")

    # 3. Cargar dataset existente si existe
    dataset_completo = []
    if os.path.exists('dataset_conacyt.json'):
        with open('dataset_conacyt.json', 'r', encoding='utf-8') as f_out:
            dataset_completo = json.load(f_out)

    # 4. Recorrer y procesar
    for idx, tema in enumerate(temas_a_procesar, start=desde + 1):
        if tema.get('parseado') == True:
            print(f"[{idx}] Ya parseado, saltando: {tema.get('titulo')}")
            continue

        enlace = tema.get('enlace')
        try:
            if enlace:
                detalle = scrape_detalle(enlace)
                dataset_completo.append(detalle)
                tema['parseado'] = True  # Marcar como parseado

                print(f"[{idx}] Procesado: {detalle['titulo']}")
                
                time.sleep(1)  # Para no sobrecargar servidor
        except Exception as e:
            print(f"Error procesando {enlace}: {e}")
            continue

    # 5. Guardar el dataset actualizado
    with open('dataset_conacyt.json', 'w', encoding='utf-8') as f_out:
        json.dump(dataset_completo, f_out, ensure_ascii=False, indent=4)

    # 6. Guardar el archivo de temas actualizado
    with open('temas_investigacion_conacyt.json', 'w', encoding='utf-8') as f:
        json.dump(temas, f, ensure_ascii=False, indent=4)

    print(f"\nDataset completo actualizado en 'dataset_conacyt.json'.")
    print(f"Estado actualizado en 'temas_investigacion_conacyt.json'.")



In [10]:
crear_dataset_completo(3000, 6000)  # Cambia los parámetros según necesites

Total de temas disponibles: 11100
Procesando temas desde 3000 hasta 6000.
Scrapeando detalle: https://repositorio.conacyt.gov.py/handle/20.500.14066/2452
[3001] Procesado: Detección de Pachymerus sp (chrysomelidae) en lotes de semillas de Acrocomia aculeata
Scrapeando detalle: https://repositorio.conacyt.gov.py/handle/20.500.14066/3860
[3002] Procesado: Detección de perfiles de rendimiento académico en la Universidad Nacional del Este de Paraguay
Scrapeando detalle: https://repositorio.conacyt.gov.py/handle/20.500.14066/3827
[3003] Procesado: Detección de perfiles de rendimiento académico en la Universidad Nacional del Este de Paraguay
Scrapeando detalle: https://repositorio.conacyt.gov.py/handle/20.500.14066/3074
[3004] Procesado: Detección molecular y cuantificación del transcripto BCR-ABL1 en pacientes paraguayos con leucemia mieloide crónica
Scrapeando detalle: https://repositorio.conacyt.gov.py/handle/20.500.14066/3843
[3005] Procesado: Detección Temprana de la Hipoacusia
Scrapean

In [11]:
pip install langdetect deep-translator


Collecting langdetect
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m981.5/981.5 KB[0m [31m8.4 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25h  Preparing metadata (setup.py) ... [?25ldone
[?25hCollecting deep-translator
  Downloading deep_translator-1.11.4-py3-none-any.whl (42 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.3/42.3 KB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
Building wheels for collected packages: langdetect
  Building wheel for langdetect (setup.py) ... [?25ldone
[?25h  Created wheel for langdetect: filename=langdetect-1.0.9-py3-none-any.whl size=993241 sha256=7e88ebc898c1af54b452b124ef724fc87181c7f36590f3f9d2045752d0893410
  Stored in directory: /Users/cbustamante/Library/Caches/pip/wheels/95/03/7d/59ea870c70ce4e5a370638b5462a7711ab78fba2f655d05106
Successfully built langdetect
Installing collected packages: langdetect, deep-translator
Successfully installed deep-trans

## Parte2: Tratamiento de los datos, traduccion de los temas

# Limpieza del dataset
* Deteccion del idioma
* Traduccion del texto

In [12]:
import json
from langdetect import detect
from deep_translator import GoogleTranslator

# 1. Leer archivo original
with open('dataset_conacyt.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

# 2. Procesar cada entrada
processed = []

for i, item in enumerate(data, start=1):
    titulo = item.get("titulo", "")
    resumen = item.get("resumen", "")

    try:
        texto_completo = f"{titulo} {resumen}".strip()
        idioma_detectado = detect(texto_completo)
    except Exception as e:
        print(f"[{i}] Error detectando idioma: {e}")
        idioma_detectado = "unknown"

    # Si está en inglés
    if idioma_detectado.startswith("en"):
        item["idioma"] = "ingles"
        try:
            item["titulo_traducido"] = GoogleTranslator(source='en', target='es').translate(titulo)
            item["resumen_traducido"] = GoogleTranslator(source='en', target='es').translate(resumen)
            print(f"[{i}] Traducido del inglés: {titulo[:50]}...")
        except Exception as e:
            print(f"[{i}] Error traduciendo: {e}")
            item["titulo_traducido"] = titulo
            item["resumen_traducido"] = resumen
    else:
        item["idioma"] = "espanol"

    processed.append(item)

# 3. Guardar en nuevo archivo
with open('dataset_conacyt_processed.json', 'w', encoding='utf-8') as f:
    json.dump(processed, f, ensure_ascii=False, indent=4)

print("✅ Proceso completado. Archivo generado: dataset_conacyt_processed.json")


[1] Traducido del inglés: A novel modulated model predictive control applied...
[2] Traducido del inglés: A novel predictive-fixed switching frequency techn...
[3] Traducido del inglés: A qPCR targeted against the viral replication orig...
[4] Traducido del inglés: A quantum adiabatic algorithm for multiobjective c...
[5] Traducido del inglés: A Recommender System Approach for Predicting Drug ...
[6] Traducido del inglés: A review of existing evaluation methods for point ...
[9] Traducido del inglés: A speed-sensorless predictive current control of m...
[10] Traducido del inglés: A study of the optimality of PCA under spectral sp...
[11] Traducido del inglés: A tale of two bellies : systematics of the oval fr...
[12] Traducido del inglés: A thermo-mechanical formulation for the modeling o...
[15] Traducido del inglés: A trust-based methodology to evaluate deep learnin...
[16] Traducido del inglés: A weighted bootstrap approximation for comparing t...
[45] Traducido del inglés: Adjacent

# Filtro de los trabajos sobre redes neuronales

In [6]:
pip uninstall -y numpy gensim

Found existing installation: numpy 1.24.4
Uninstalling numpy-1.24.4:
  Successfully uninstalled numpy-1.24.4
Found existing installation: gensim 4.3.2
Uninstalling gensim-4.3.2:
  Successfully uninstalled gensim-4.3.2
Note: you may need to restart the kernel to use updated packages.


In [7]:
pip uninstall -y scipy

Found existing installation: scipy 1.10.1
Uninstalling scipy-1.10.1:
  Successfully uninstalled scipy-1.10.1
Note: you may need to restart the kernel to use updated packages.


In [8]:
pip install scipy==1.10.1


Collecting scipy==1.10.1
  Using cached scipy-1.10.1-cp310-cp310-macosx_12_0_arm64.whl (28.8 MB)
Collecting numpy<1.27.0,>=1.19.5
  Using cached numpy-1.26.4-cp310-cp310-macosx_11_0_arm64.whl (14.0 MB)
Installing collected packages: numpy, scipy
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
scikit-image 0.25.2 requires scipy>=1.11.4, but you have scipy 1.10.1 which is incompatible.[0m[31m
[0mSuccessfully installed numpy-1.26.4 scipy-1.10.1
You should consider upgrading via the '/usr/local/bin/python3 -m pip install --upgrade pip' command.[0m[33m
[0mNote: you may need to restart the kernel to use updated packages.


In [9]:
pip install numpy==1.24.4 


Collecting numpy==1.24.4
  Using cached numpy-1.24.4-cp310-cp310-macosx_11_0_arm64.whl (13.9 MB)
Installing collected packages: numpy
  Attempting uninstall: numpy
    Found existing installation: numpy 1.26.4
    Uninstalling numpy-1.26.4:
      Successfully uninstalled numpy-1.26.4
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
tensorflow 2.19.0 requires numpy<2.2.0,>=1.26.0, but you have numpy 1.24.4 which is incompatible.
scikit-image 0.25.2 requires scipy>=1.11.4, but you have scipy 1.10.1 which is incompatible.
langchain-community 0.3.21 requires numpy<3,>=1.26.2, but you have numpy 1.24.4 which is incompatible.
faiss-cpu 1.10.0 requires numpy<3.0,>=1.25.0, but you have numpy 1.24.4 which is incompatible.[0m[31m
[0mSuccessfully installed numpy-1.24.4
You should consider upgrading via the '/usr/local/bin/python3 -m pip install --upgrade pip' comma

In [10]:
pip install gensim==4.3.2 

Collecting gensim==4.3.2
  Using cached gensim-4.3.2-cp310-cp310-macosx_11_0_arm64.whl (24.0 MB)
Installing collected packages: gensim
Successfully installed gensim-4.3.2
You should consider upgrading via the '/usr/local/bin/python3 -m pip install --upgrade pip' command.[0m[33m
[0mNote: you may need to restart the kernel to use updated packages.


In [18]:
import os
import re
import json
import numpy as np
import urllib.request
import gzip
from tqdm import tqdm
from gensim.models.fasttext import load_facebook_vectors

# ---------- 1. Descargar y descomprimir modelo FastText -----------

url = "https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.es.300.bin.gz"
gz_path = "cc.es.300.bin.gz"
bin_path = "cc.es.300.bin"

if not os.path.exists(bin_path):
    print("⬇️ Descargando modelo FastText en español...")
    urllib.request.urlretrieve(url, gz_path)
    print("✅ Descarga completa. Descomprimiendo...")

    with gzip.open(gz_path, 'rb') as f_in, open(bin_path, 'wb') as f_out:
        f_out.write(f_in.read())

    print("✅ Descompresión completa.")
else:
    print("✅ Modelo ya disponible localmente.")

# ---------- 2. Cargar modelo -----------

print("🧠 Cargando modelo FastText...")
modelo = load_facebook_vectors(bin_path)
print("✅ Modelo cargado.")

# ---------- 3. Leer dataset JSON -----------

with open("dataset_conacyt_processed.json", "r", encoding="utf-8") as f:
    data = json.load(f)

# ---------- 4. Funciones de limpieza y análisis -----------

def limpiar(texto):
    texto = re.sub(r"http\S+|www\S+", '', texto)
    texto = re.sub(r"[^\w\sáéíóúñÁÉÍÓÚÑ]", '', texto)
    texto = re.sub(r"\s+", ' ', texto).strip()
    return texto.lower()

# Palabras clave base
keywords = ["redes", "neuronal", "neuronales", "aprendizaje", "profundo"]

# Obtener vectores de referencia
keyword_vectors = [modelo.get_vector(k) for k in keywords if k in modelo]

def contiene_concepto(texto, modelo, keyword_vectors, umbral=0.55):
    tokens = limpiar(texto).split()
    for token in tokens:
        if token in modelo:
            v = modelo.get_vector(token)
            for ref in keyword_vectors:
                sim = np.dot(v, ref) / (np.linalg.norm(v) * np.linalg.norm(ref))
                if sim >= umbral:
                    return True
    return False

# ---------- 5. Aplicar clasificación semántica con barra de progreso -----------

print("🔍 Analizando publicaciones...")
for entry in tqdm(data, desc="Procesando artículos"):
    if entry.get("idioma") == "ingles":
        texto = f"{entry.get('titulo_traducido', '')} {entry.get('resumen_traducido', '')}"
    else:
        texto = f"{entry.get('titulo', '')} {entry.get('resumen', '')}"

    entry["label"] = 1 if contiene_concepto(texto, modelo, keyword_vectors) else 0

# ---------- 6. Guardar resultado etiquetado -----------

with open("dataset_conacyt_labeled_semantico.json", "w", encoding="utf-8") as f_out:
    json.dump(data, f_out, ensure_ascii=False, indent=4)

print("✅ Archivo generado: dataset_conacyt_labeled_semantico.json")


✅ Modelo ya disponible localmente.
🧠 Cargando modelo FastText...
✅ Modelo cargado.
🔍 Analizando publicaciones...


  sim = np.dot(v, ref) / (np.linalg.norm(v) * np.linalg.norm(ref))
Procesando artículos: 100%|██████████| 5998/5998 [00:13<00:00, 434.59it/s]


✅ Archivo generado: dataset_conacyt_labeled_semantico.json


# Parte 3 - Implementacion de un RAG utilizando los trabajos cientificos de redes neuronales

In [20]:
from dotenv import load_dotenv


In [21]:
load_dotenv()


True

In [24]:
# Load environment variables

from dotenv import load_dotenv,find_dotenv
load_dotenv(find_dotenv())
load_dotenv('.env')

True

In [19]:
pip install langchain langchain-community langchain-core langchain-openai faiss-cpu openai tiktoken beautifulsoup4 html2text


Collecting numpy<3,>=1.26.2
  Downloading numpy-2.2.5-cp310-cp310-macosx_14_0_arm64.whl (5.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.4/5.4 MB[0m [31m21.2 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Installing collected packages: numpy
  Attempting uninstall: numpy
    Found existing installation: numpy 1.24.4
    Uninstalling numpy-1.24.4:
      Successfully uninstalled numpy-1.24.4
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
tensorflow 2.19.0 requires numpy<2.2.0,>=1.26.0, but you have numpy 2.2.5 which is incompatible.
scipy 1.10.1 requires numpy<1.27.0,>=1.19.5, but you have numpy 2.2.5 which is incompatible.
scikit-image 0.25.2 requires scipy>=1.11.4, but you have scipy 1.10.1 which is incompatible.[0m[31m
[0mSuccessfully installed numpy-2.2.5
You should consider upgrading via the '/usr/local/bin/python3 -m pi

In [None]:

api_key="sk-proj--jM5HRLmfGlja6QrYFXx0A"
print("api_key" + api_key);
os.environ["OPENAI_API_KEY"] = api_key
from langchain_openai import OpenAIEmbeddings
emb = OpenAIEmbeddings()
emb.embed_query("test")  # Si falla aquí, tu clave está mal o hay un problema de red.



In [37]:
pip install sentence-transformers


Collecting sentence-transformers
  Downloading sentence_transformers-4.1.0-py3-none-any.whl (345 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m345.7/345.7 KB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting numpy>=1.17
  Using cached numpy-1.26.4-cp310-cp310-macosx_11_0_arm64.whl (14.0 MB)
Installing collected packages: numpy, sentence-transformers
  Attempting uninstall: numpy
    Found existing installation: numpy 2.2.5
    Uninstalling numpy-2.2.5:
      Successfully uninstalled numpy-2.2.5
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
scikit-image 0.25.2 requires scipy>=1.11.4, but you have scipy 1.10.1 which is incompatible.[0m[31m
[0mSuccessfully installed numpy-1.26.4 sentence-transformers-4.1.0
You should consider upgrading via the '/usr/local/bin/python3 -m pip install --upgrade pip' command.[0m[3

In [40]:
pip uninstall -y transformers numpy torch


Found existing installation: transformers 4.51.3
Uninstalling transformers-4.51.3:
  Successfully uninstalled transformers-4.51.3
Found existing installation: numpy 1.26.4
Uninstalling numpy-1.26.4:
  Successfully uninstalled numpy-1.26.4
Found existing installation: torch 2.6.0
Uninstalling torch-2.6.0:
  Successfully uninstalled torch-2.6.0
Note: you may need to restart the kernel to use updated packages.


In [41]:
pip install numpy==1.24.4 torch==2.0.1 transformers==4.36.2

Collecting numpy==1.24.4
  Using cached numpy-1.24.4-cp310-cp310-macosx_11_0_arm64.whl (13.9 MB)
Collecting torch==2.0.1
  Downloading torch-2.0.1-cp310-none-macosx_11_0_arm64.whl (55.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.8/55.8 MB[0m [31m6.4 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting transformers==4.36.2
  Downloading transformers-4.36.2-py3-none-any.whl (8.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m45.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting tokenizers<0.19,>=0.14
  Downloading tokenizers-0.15.2-cp310-cp310-macosx_11_0_arm64.whl (2.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.4/2.4 MB[0m [31m13.2 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Installing collected packages: numpy, torch, tokenizers, transformers
  Attempting uninstall: tokenizers
    Found existing installation: tokenizers 0.21.1
    Uninstalling tokenizers-0.21.1:

In [4]:
pip uninstall -y torch transformers sentence-transformers


Found existing installation: torch 2.0.1
Uninstalling torch-2.0.1:
  Successfully uninstalled torch-2.0.1
Found existing installation: transformers 4.36.2
Uninstalling transformers-4.36.2:
  Successfully uninstalled transformers-4.36.2
Found existing installation: sentence-transformers 2.2.2
Uninstalling sentence-transformers-2.2.2:
  Successfully uninstalled sentence-transformers-2.2.2
Note: you may need to restart the kernel to use updated packages.


In [5]:
pip install torch==2.0.1 transformers==4.36.2 sentence-transformers==2.2.2

Collecting torch==2.0.1
  Using cached torch-2.0.1-cp310-none-macosx_11_0_arm64.whl (55.8 MB)
Collecting transformers==4.36.2
  Using cached transformers-4.36.2-py3-none-any.whl (8.2 MB)
Collecting sentence-transformers==2.2.2
  Using cached sentence_transformers-2.2.2-py3-none-any.whl
Installing collected packages: torch, transformers, sentence-transformers
Successfully installed sentence-transformers-2.2.2 torch-2.0.1 transformers-4.36.2
You should consider upgrading via the '/usr/local/bin/python3 -m pip install --upgrade pip' command.[0m[33m
[0mNote: you may need to restart the kernel to use updated packages.


In [1]:
pip install sentence-transformers

You should consider upgrading via the '/usr/local/bin/python3 -m pip install --upgrade pip' command.[0m[33m
[0mNote: you may need to restart the kernel to use updated packages.


In [70]:
import json

# Cargar el archivo JSON original
file_path = "dataset_conacyt_labeled_semantico.json"
with open(file_path, "r", encoding="utf-8") as file:
    data = json.load(file)

# Recorremos todo el dataset
for record in data:
    # Verificar si el idioma es inglés
    if record.get('idioma') == 'ingles':
        # Reemplazamos los campos según lo solicitado
        if 'titulo_traducido' in record:
            record['titulo'] = record['titulo_traducido']
            del record['titulo_traducido']
        if 'resumen_traducido' in record:
            record['resumen'] = record['resumen_traducido']
            del record['resumen_traducido']
        
        # Si 'titulo_original' y 'resumen_original' existen, los dejamos igual, ya que son los originales en inglés
        if 'titulo_original' in record:
            record['titulo'] = record['titulo_original']
            del record['titulo_original']
        if 'resumen_original' in record:
            record['resumen'] = record['resumen_original']
            del record['resumen_original']

# Guardamos los cambios en un nuevo archivo JSON
output_file_path = "dataset_conacyt_relabeled_semantico.json"
with open(output_file_path, "w", encoding="utf-8") as file:
    json.dump(data, file, ensure_ascii=False, indent=4)

print(f"Se realizaron los ajustes y el nuevo archivo fue guardado como {output_file_path}")


Se realizaron los ajustes y el nuevo archivo fue guardado como dataset_conacyt_relabeled_semantico.json


In [71]:
import os
import json
from tqdm import tqdm
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.schema import Document
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.prompts import PromptTemplate
from langchain.chains.qa_with_sources import load_qa_with_sources_chain

# 1. Configurar clave de API
#os.environ["OPENAI_API_KEY"] = "sk-..."  # Reemplaza por tu clave

# 2. Cargar dataset relabeled
with open("dataset_conacyt_relabeled_semantico.json", "r", encoding="utf-8") as f:
    data = json.load(f)

# 3. Filtrar solo registros con label = 1
filtered_data = [entry for entry in data if entry.get("label") == 1]

# 4. Crear documentos con metadatos
docs = []
for item in filtered_data:
    # Unificamos el acceso al título y resumen
    titulo = item.get("titulo", "")
    resumen = item.get("resumen", "")
    texto = f"{titulo.strip()}. {resumen.strip()}"
    
    # Solo añadimos el documento si el texto no está vacío
    if texto.strip():
        docs.append(Document(
            page_content=texto.strip(),
            metadata={"source": item.get("link_tema_investigacion", "desconocido")}
        ))

# 5. Dividir en chunks más grandes
splitter = RecursiveCharacterTextSplitter(chunk_size=3000, chunk_overlap=300)
chunks = splitter.split_documents(docs)

# Buscar palabras clave en los documentos
palabra_clave = "aprendizaje profundo"
for doc in chunks:
    if palabra_clave.lower() in doc.page_content.lower():
        print("✅ Documento con 'aprendizaje profundo' encontrado:")
        print(doc.metadata.get("source"))
        print(doc.page_content[:400])

palabra_clave2 = "redes neuronales"
for doc in chunks:
    if palabra_clave2.lower() in doc.page_content.lower():
        print("✅ Documento con 'redes neuronales' encontrado:")
        print(doc.metadata.get("source"))
        print(doc.page_content[:400])


✅ Documento con 'aprendizaje profundo' encontrado:
https://repositorio.conacyt.gov.py/handle/20.500.14066/3791
Una metodología basada en la confianza para evaluar modelos de aprendizaje profundo para el diagnóstico automático de toxoplasmosis ocular a partir de imágenes de fondo de fondo. Se reanuda en el diagnóstico automático de toxoplasmosis ocular (OT), el aprendizaje profundo (DL) ha surgido como un enfoque poderoso y prometedor para el diagnóstico. Sin embargo, a pesar del buen desempeño de los model
✅ Documento con 'aprendizaje profundo' encontrado:
https://repositorio.conacyt.gov.py/handle/20.500.14066/3019
Correlation between image quality metrics of different image enhancement techniques applied to panoramic x-ray images and the teeth detection results of deep learning architectures. Resumen Las imágenes radiográficas dentales complementan el examen clínico, ayudando al proceso de diagnóstico y permitir que los profesionales planifiquen el tratamiento adecuado para los pacien

In [72]:
# 6. Crear embeddings y FAISS index
embeddings = OpenAIEmbeddings()
db = FAISS.from_documents(chunks, embeddings)
retriever = db.as_retriever(search_kwargs={"k": 15})

# 7. Prompt personalizado (flexible)
custom_prompt = PromptTemplate(
    template="""
Contesta la siguiente pregunta usando exclusivamente la información proporcionada a continuación.
Si no hay una respuesta directa, proporciona la más relacionada posible basada en los documentos.

DOCUMENTOS:
{summaries}

PREGUNTA:
{question}

RESPUESTA:
""",
    input_variables=["summaries", "question"],
)

# 8. Crear cadena RAG con fuentes
llm = ChatOpenAI(temperature=0)
rag_chain = load_qa_with_sources_chain(
    llm=llm,
    chain_type="stuff",
    prompt=custom_prompt
)


In [None]:
# 10. Ejecutar RAG con filtrado y límite de resultados únicos
def mostrar_resultados_rag(pregunta, context_docs, respuesta, min_docs=3):
    print(f"\n❓ Pregunta: {pregunta}")
    
    # Usamos un conjunto para evitar fuentes duplicadas
    fuentes_vistas = set()

    # Contador de documentos mostrados
    documentos_mostrados = 0

    # Intentamos mostrar al menos 'min_docs' documentos
    for i, doc in enumerate(context_docs):
        if documentos_mostrados >= min_docs:  # Ya mostramos suficientes documentos
            break
        
        titulo = doc.metadata.get('titulo', 'Título no disponible')
        resumen = doc.metadata.get('resumen', 'Resumen no disponible')
        fuente = doc.metadata.get('source', 'Fuente no disponible')

        # Si la fuente ya fue vista, la ignoramos
        if fuente in fuentes_vistas:
            continue

        fuentes_vistas.add(fuente)
        documentos_mostrados += 1

        print(f"\n📄 Documento {documentos_mostrados} (fuente: {fuente}):\n{titulo}\n{resumen}\n{doc.page_content[:500]}...\n")

    # Mostrar la respuesta generada por el modelo
    print(f"📘 Respuesta: {respuesta}")

    # Mostrar las fuentes relacionadas (sin duplicados)
    print("\n🔗 Fuente(s):")
    for doc in context_docs[:5]:  # Muestra hasta 5 fuentes
        fuente = doc.metadata.get('source', 'Fuente no disponible')
        if fuente not in fuentes_vistas:
            print(f"- {fuente}")

    print("=" * 100)


# Ejecución principal

# 9. Preguntas de prueba
preguntas = [
    "¿Hay trabajos sobre aprendizaje profundo?",
    "¿Existe algún trabajo científico que utilice un modelo computacional para analizar la red eléctrica?",
     "¿Hay trabajos que utilicen redes neuronales para produccion de tomates?"

]

# 10. Ejecutar RAG y mostrar resultados
for pregunta in preguntas:
    context_docs = retriever.get_relevant_documents(pregunta)

    resultado = rag_chain({
        "question": pregunta,
        "input_documents": context_docs
    })

    respuesta = resultado["output_text"]
    mostrar_resultados_rag(pregunta, context_docs, respuesta)



❓ Pregunta: ¿Hay trabajos sobre aprendizaje profundo?

📄 Documento 1 (fuente: https://repositorio.conacyt.gov.py/handle/20.500.14066/3783):
Título no disponible
Resumen no disponible
Hibridación de aprendizaje profundo y neuroevolución: aplicación al pronóstico de consumo de energía eléctrica a corto plazo español. Renovar la producción de energía eléctrica sería mucho más eficiente si hubiera estimaciones precisas de la demanda futura, ya que estos permitirían asignar solo los recursos necesarios para la producción de la cantidad correcta de energía requerida. Con esta motivación en mente, proponemos una estrategia, basada en la neuroevolución, que puede usarse para este ob...


📄 Documento 2 (fuente: https://repositorio.conacyt.gov.py/handle/20.500.14066/3588):
Título no disponible
Resumen no disponible
Aprendizaje profundo para la predicción del tráfico con una aplicación para la optimización de los semáforos.. Resumen Este trabajo propone el uso de redes neuronales profundas para 

Parte 3

In [7]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments, EarlyStoppingCallback
from datasets import Dataset, DatasetDict
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix
import pandas as pd
import numpy as np
import json
from tqdm import tqdm

# 1. Cargar el dataset
with open("dataset_conacyt_labeled_semantico.json", "r", encoding="utf-8") as f:
    raw_data = json.load(f)

# 2. Preparar datos con barra de progreso
data = []
print("📦 Preparando datos...")
for item in tqdm(raw_data, desc="Procesando artículos"):
    texto = item.get("resumen_traducido") if item.get("idioma") == "ingles" else item.get("resumen", "")
    if texto:
        data.append({
            "text": texto.strip(),
            "label": int(item.get("label", 0))
        })

df = pd.DataFrame(data)

# 3. División train/test
train_df = df.sample(frac=0.8, random_state=42)
test_df = df.drop(train_df.index)

dataset = DatasetDict({
    "train": Dataset.from_pandas(train_df.reset_index(drop=True)),
    "test": Dataset.from_pandas(test_df.reset_index(drop=True))
})

# 4. Tokenización
model_name = "pysentimiento/robertuito-base-uncased"  # más liviano y rápido
tokenizer = AutoTokenizer.from_pretrained(model_name)

def tokenize(batch):
    return tokenizer(batch["text"], padding=True, truncation=True)

print("🔁 Tokenizando textos...")
tokenized = dataset.map(tokenize, batched=True)

# 5. Cargar modelo
#model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)

# 6. Métricas
def compute_metrics(pred):
    labels = pred.label_ids
    preds = np.argmax(pred.predictions, axis=1)
    return {
        "accuracy": accuracy_score(labels, preds),
        "f1_macro": f1_score(labels, preds, average="macro"),
        "f1_micro": f1_score(labels, preds, average="micro"),
        "confusion_matrix": confusion_matrix(labels, preds).tolist()
    }

# 7. Argumentos de entrenamiento optimizados

model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
model.gradient_checkpointing_enable()  # ← OPCIONAL pero útil en M1

training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=3,
    weight_decay=0.01,
    logging_dir="./logs",
    logging_steps=10,
    load_best_model_at_end=True,   # ← requerido por EarlyStopping
    save_strategy="epoch",         # ← necesario para guardar el mejor modelo
    metric_for_best_model="f1_macro"
)

# 8. Inicializar Trainer con early stopping
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized["train"],
    eval_dataset=tokenized["test"],
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
    callbacks=[EarlyStoppingCallback(early_stopping_patience=1)]
)

# 9. Entrenar
print("🚀 Entrenando modelo...")
trainer.train()

# 10. Evaluar
metrics = trainer.evaluate()
print("\n📊 Resultados de evaluación:")
for key, value in metrics.items():
    print(f"{key}: {value}")


📦 Preparando datos...


Procesando artículos: 100%|██████████| 5998/5998 [00:00<00:00, 1443589.57it/s]


🔁 Tokenizando textos...


Map:   0%|          | 0/4798 [00:00<?, ? examples/s]

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Map:   0%|          | 0/1200 [00:00<?, ? examples/s]

Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at pysentimiento/robertuito-base-uncased and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


🚀 Entrenando modelo...


  0%|          | 0/1800 [00:00<?, ?it/s]

  return fn(*args, **kwargs)


{'loss': 0.6385, 'learning_rate': 1.988888888888889e-05, 'epoch': 0.02}
{'loss': 0.5265, 'learning_rate': 1.977777777777778e-05, 'epoch': 0.03}
{'loss': 0.5658, 'learning_rate': 1.9666666666666666e-05, 'epoch': 0.05}
{'loss': 0.6674, 'learning_rate': 1.9555555555555557e-05, 'epoch': 0.07}
{'loss': 0.6007, 'learning_rate': 1.9444444444444445e-05, 'epoch': 0.08}
{'loss': 0.5415, 'learning_rate': 1.9333333333333333e-05, 'epoch': 0.1}
{'loss': 0.6046, 'learning_rate': 1.9222222222222225e-05, 'epoch': 0.12}
{'loss': 0.5022, 'learning_rate': 1.9111111111111113e-05, 'epoch': 0.13}
{'loss': 0.5475, 'learning_rate': 1.9e-05, 'epoch': 0.15}
{'loss': 0.5178, 'learning_rate': 1.888888888888889e-05, 'epoch': 0.17}
{'loss': 0.577, 'learning_rate': 1.877777777777778e-05, 'epoch': 0.18}
{'loss': 0.3846, 'learning_rate': 1.866666666666667e-05, 'epoch': 0.2}
{'loss': 0.4954, 'learning_rate': 1.8555555555555557e-05, 'epoch': 0.22}
{'loss': 0.411, 'learning_rate': 1.8444444444444448e-05, 'epoch': 0.23}
{'

  0%|          | 0/150 [00:00<?, ?it/s]

Trainer is attempting to log a value of "[[878, 8], [39, 275]]" of type <class 'list'> for key "eval/confusion_matrix" as a scalar. This invocation of Tensorboard's writer.add_scalar() is incorrect so we dropped this attribute.


{'eval_loss': 0.13503827154636383, 'eval_accuracy': 0.9608333333333333, 'eval_f1_macro': 0.9476026834115112, 'eval_f1_micro': 0.9608333333333333, 'eval_confusion_matrix': [[878, 8], [39, 275]], 'eval_runtime': 162.9709, 'eval_samples_per_second': 7.363, 'eval_steps_per_second': 0.92, 'epoch': 1.0}


  return fn(*args, **kwargs)


{'loss': 0.0696, 'learning_rate': 1.3222222222222223e-05, 'epoch': 1.02}
{'loss': 0.113, 'learning_rate': 1.3111111111111113e-05, 'epoch': 1.03}
{'loss': 0.0089, 'learning_rate': 1.3000000000000001e-05, 'epoch': 1.05}
{'loss': 0.1055, 'learning_rate': 1.288888888888889e-05, 'epoch': 1.07}
{'loss': 0.014, 'learning_rate': 1.2777777777777777e-05, 'epoch': 1.08}
{'loss': 0.1711, 'learning_rate': 1.2666666666666667e-05, 'epoch': 1.1}
{'loss': 0.2442, 'learning_rate': 1.2555555555555557e-05, 'epoch': 1.12}
{'loss': 0.2849, 'learning_rate': 1.2444444444444446e-05, 'epoch': 1.13}
{'loss': 0.0315, 'learning_rate': 1.2333333333333334e-05, 'epoch': 1.15}
{'loss': 0.2192, 'learning_rate': 1.2222222222222224e-05, 'epoch': 1.17}
{'loss': 0.1902, 'learning_rate': 1.211111111111111e-05, 'epoch': 1.18}
{'loss': 0.1124, 'learning_rate': 1.2e-05, 'epoch': 1.2}
{'loss': 0.0722, 'learning_rate': 1.188888888888889e-05, 'epoch': 1.22}
{'loss': 0.1214, 'learning_rate': 1.177777777777778e-05, 'epoch': 1.23}


KeyboardInterrupt: 