![Open Alex Logo](./images/openalex-logo.png)

## PLANTEAMIENTO Y ACOTACI√ìN DE OBJETIVOS INICIALES
El prop√≥sito inicial pretend√≠a responder a la pregunta de qu√© instituciones y pa√≠ses son los mayores divulgadores de conocimientos en cada rama del conocimiento humano.

Este objetivo era totalmente cumplible si no fuese porque openalex ya nos devolv√≠a todos los datos de forma estructurada:

![Diagram OpenAlex components](./images/openalex-diagram.jpg)

Es decir, en este punto del proyecto carec√≠amos de fuentes de datos no estructuradas:

* Por ello, optamos por dirigir el proyecto a un enfoque diferente que parte del inter√©s de comprender que tecnolog√≠as de programaci√≥n son las mas usadas, en art√≠culos o proyectos de investigaci√≥n relacionados con la computaci√≥n, y como var√≠a su uso y distribuci√≥n en funci√≥n de cada subcampo.

Adem√°s, identificamos una problem√°tica con el alcance definido para el proyecto (dado que se desarrollar√≠a exclusivamente en 5h durante el Hackathon):

* OpenAlex cuenta con un total de **200 Millones de archivos**, lo cual implicar√≠a una cantidad alarmante de tiempo para extraer y procesar toda la informaci√≥n necesaria para cumplir el objetivo. Por lo tanto, decidimos utilizar un conjunto de restricciones para acotar el alcance de los datos:

    * Usamos el campo _Tem√°tica_ para filtrar el n√∫mero de archivos a extraer, en este aspecto decidimos filtrar una sucesi√≥n de tem√°ticas padre-hijo relacionadas con nuestra meta: 

        ***Physical Sciences (domain) -> Computer Science (field) -> Artificial Inteligence (subfield) -> Todas las tem√°ticas hijas de AI sin hijo (topics)***

    * Agregamos un conjunto de campos restrictivos como que el idioma en el que est√©n escritos sea en ingl√©s, agregamos filtrado de keyword por lenguajes de programaci√≥n en art√≠culos y pedimos exclusivamente los articulos que tengan vinculado su pdf y adem√°s que est√© sea open access. Esto redujo el n√∫mero de obras a procesar a ~6000 art√≠culos:

![Filtro tem√°ticas dentro de OpenAlex](./images/filtro_openalex.jpeg)


Por √∫ltimo decidimos adem√°s simplificar mucho m√°s las entidades a almacenar, reduciendo lo m√°ximo posible la estructura y manteniendo la funcionalidad que se quer√≠a obtener con el objetivo. A continuaci√≥n se muestra la imagen de la estructura completa de la base de datos antes y despu√©s de modificarla:

### Diagrama Entidad-Relaci√≥n del sistema antes de la adaptaci√≥n
![Diagrama Entidad-Relaci√≥n del sistema antes](./images/relaciones%20db.png)
### Diagrama Entidad-Relaci√≥n del sistema despu√©s de la adaptaci√≥n
![Diagrama Entidad-Relaci√≥n del sistema despu√©s](./images/esquema_redux.jpeg)

## TRABAJO REALIZADO EN EL HACKATHON

### CREACI√ìN BASE DE DATOS POSTGRESQL
---


En nuestra base de datos de PostgreSQL representamos las entidades como las siguientes tablas:

* **Obra:** Engloba los art√≠culos citados dentro de OpenAlex. Tiene dos funciones esenciales:
    * Almacenar los datos estructurados de cada art√≠culo organizados por sus atributos: nombre, doi, url, etc.
    * Enlazar  _Tecnologia_ y _Tematica_ para poder realizar b√∫squedas de datos filtrando por ambas entidades. Cabe destacar que, como _Tecnologia_ y _Obra_ tienen una relaci√≥n N:M, fue necesario crear una tabla para representar esta relaci√≥n. Esto no pasa con la relaci√≥n entre _Obra_ y _Tematica_ ya que, como es 1:N, con indicar un atributo *tematica_id* es suficiente.

* **Tecnologia:** Engloba los distintos lenguajes de programaci√≥n obtenidos al extraer y analizar el contenido de los art√≠culos. Los datos son solamente no estructurados. Est√° enlazado con _Obra_ por *Obra_tecnologia*.

* **Tematica:** Aqu√≠ se alamacena cada tem√°tica encontrada en la b√∫squeda de OpenAlex, por lo que los datos de esta tabla son estructurados. Se encuentra relacionado con _Obra_ gracias a que las obras de una tem√°tica concreta almacenan su id. Lo importante aqu√≠ es que existen tem√°ticas que son subtem√°ticas de otras. La idea es que las obras est√©n relacionadas solamente con tem√°ticas sin hijos para que estas a su vez se relacionen con sus padres, haciendo que todas las obras de cada hijo se relacionen con el padre. Para hacer esta relaci√≥n de _Tematica_ con _Tematica_, fue necesaria la creaci√≥n de una nueva tabla: *tematica_contenida*.

Adem√°s, se han creado estas tablas para las relaciones:

* **Obra_tecnologia:** Hace referencia a la relaci√≥n N:M entre _Tecnologia_ y _Obra_.

* **Tematica_contenida:** Hace referencia a la relaci√≥n padre a hijo de _Tematica_ con _Tematica_.

Todas estas tablas fueron creadas dentro de un *SQL script*. Para subirla a PostgreSQL, se conecta el docker, se indican los par√°metros necesarios en el Python y, si no hay ning√∫n problema, se suben.

In [2]:
import psycopg2
from psycopg2 import sql

DB_PARAMS = {
    "host": "localhost",
    "port": 5432,
    "database": "demoDB",
    "user": "userPSQL",
    "password": "passPSQL"
}

sql_script = """CREATE TABLE IF NOT EXISTS tematica (
    id INTEGER,
    nombre_campo TEXT NOT NULL,
        PRIMARY KEY (id)
);

CREATE TABLE IF NOT EXISTS tecnologia (
    id INTEGER,
    nombre TEXT NOT NULL,
    tipo TEXT,
    version TEXT,
    PRIMARY KEY (id)
);

CREATE TABLE IF NOT EXISTS obra (
    id INTEGER,
    doi TEXT UNIQUE,  -- NEW
    direccion_fuente TEXT NOT NULL,
    titulo TEXT NOT NULL,
    abstract TEXT,
    fecha_publicacion TEXT,
    idioma TEXT,
    num_citas INTEGER DEFAULT 0,
    fwci REAL,
    tematica_id INTEGER,
    PRIMARY KEY (id),
    FOREIGN KEY (tematica_id)
        REFERENCES tematica(id)
        ON UPDATE CASCADE
        ON DELETE SET NULL
);

CREATE TABLE IF NOT EXISTS obra_tecnologia (
    id INTEGER,
    obra_id INTEGER NOT NULL,
    tecnologia_id INTEGER NOT NULL,
    PRIMARY KEY (id),
    FOREIGN KEY (obra_id)
        REFERENCES obra(id)
        ON UPDATE CASCADE
        ON DELETE CASCADE,
    FOREIGN KEY (tecnologia_id)
        REFERENCES tecnologia(id)
        ON UPDATE CASCADE
        ON DELETE RESTRICT
);

CREATE TABLE IF NOT EXISTS tematica_contenida (
    id INTEGER,
    tematica_padre_id INTEGER NOT NULL,
    tematica_hijo_id INTEGER NOT NULL,
    PRIMARY KEY (id),
    FOREIGN KEY (tematica_padre_id)
        REFERENCES tematica(id)
        ON UPDATE CASCADE
        ON DELETE CASCADE,
    FOREIGN KEY (tematica_hijo_id)
        REFERENCES tematica(id)
        ON UPDATE CASCADE
        ON DELETE CASCADE,
    CHECK (tematica_padre_id <> tematica_hijo_id)
);

CREATE INDEX IF NOT EXISTS idx_obra_tematica ON obra(tematica_id);
CREATE INDEX IF NOT EXISTS idx_obratec_tecnologia ON obra_tecnologia(tecnologia_id);
CREATE INDEX IF NOT EXISTS idx_tematica_hijo ON tematica_contenida(tematica_hijo_id);
"""

def main():
    # Connect to default database to check/create demoDB
    connection = psycopg2.connect(
        host=DB_PARAMS['host'],
        port=DB_PARAMS['port'],
        database="demoDB",
        user=DB_PARAMS['user'],
        password=DB_PARAMS['password']
    )
    connection.autocommit = True
    cursor = connection.cursor()

    cursor.execute("SELECT 1 FROM pg_database WHERE datname = %s;", (DB_PARAMS["database"],))
    exists = cursor.fetchone()

    if not exists:
        cursor.execute(sql.SQL(f"CREATE DATABASE {DB_PARAMS['database']};"))
        print(f"‚úÖ Database '{DB_PARAMS['database']}' created.")
    else:
        print(f"‚ÑπÔ∏è Database '{DB_PARAMS['database']}' already exists.")

    cursor.close()
    connection.close()

    # Connect to demoDB to create tables
    connection = psycopg2.connect(**DB_PARAMS)
    cursor = connection.cursor()
    cursor.execute(sql_script)
    connection.commit()
    cursor.close()
    connection.close()
    print("‚úÖ Tables created or verified successfully.")

if __name__ == "__main__":
    main()

‚ÑπÔ∏è Database 'demoDB' already exists.
‚úÖ Tables created or verified successfully.


### OBTENCI√ìN DATOS ESTRUCTURADOS (REQUESTS & CSV)
---

La idea ahora es obtener los datos estructurados, es decir, el contenido de _Obra_, _Tematica_ y *Tematica_contenida*. Para utilizar posteriormente estos datos, se ha creado una carpeta **cache** para almacenar estas tablas ya con la informaci√≥n estructurada en formato csv. Para explicar el proceso completo de esta fase, podemos dividirla en las siguientes subfases:

1. Creaci√≥n del csv de la entidad _obra_
2. B√∫squeda y obtenci√≥n de los art√≠culos pedidos.
3. Creaci√≥n del csv de la entidad _tematica_
4. Creaci√≥n del csv de la relaci√≥n *tematica_contenida*

En el c√≥digo, se puede observar que el main sigue una estructura equivalente:

```
def main():
    initialize_csv_files()
    tematica_map = fetch_all_works()
    save_tematica_csv(tematica_map)
    update_tematica_and_generate_tematica_contenida()
```

Adem√°s, cabe destacar que se han declarado variables al inicio del c√≥digo para que la b√∫squeda siga los filtros explicados en la introducci√≥n y para tener ya almacenadas las direcciones donde se crearan los csvs:

```
BASE_URL = "https://api.openalex.org/works"
PER_PAGE = 200
KEYWORDS = [
    "python","c-programming-language","javascript","java","java-programming-language",
    "sql","dart","swift","cobol","fortran","matlab","prolog","lisp","haskell","rust","perl",
    "scala","html","html5"
]
SUBFIELD_ID = "subfields/1702"
LANGUAGE = "languages/en"
BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))  # go up one level from src/
CACHE_DIR = os.path.join(BASE_DIR, "cache")

CSV_OBRA = os.path.join(CACHE_DIR, "obra.csv")
CSV_TEMATICA = os.path.join(CACHE_DIR, "tematica.csv")
CSV_TEMATICA_CONTENIDA = os.path.join(CACHE_DIR, "tematica_contenida.csv")

os.makedirs(CACHE_DIR, exist_ok=True)

BASE_TOPICS = ["Physical Sciences", "Computer Science", "Artificial Intelligence"]
```
#### Creaci√≥n del csv de la entidad _obra_
Crea el archivo *obra.csv* (o lo abre si ya esta creado) y crea la tabla vac√≠a (atributos son las columnas y habr√° tantas filas como obras distintas). Este proceso se encuentra represnetado dentro de la funci√≥n *initialize_csv_files*.

#### B√∫squeda y obtenci√≥n de los art√≠culos pedidos.
Como no todas las obras aparecen por p√°gina (l√≠mite: **200**). Este proceso se ha creado siguiendo esta l√≥gica:
1. La b√∫squeda se va a realizar en bucle, por lo que es necesario crear los valores no afectados antes de empezar. Las que tienen mayor importancia son la listado/diccionario de tem√°ticas (*tematic_map*), el id de la tem√°tica siguiente (*next_tematica_id*) y la p√°gina actual (*page*).

2. Empieza al bucle. Al inicio se realiza la llamada a OpenAlex. A esta se le pasa por par√°metros la p√°gina actual (*page*), el l√≠mite de 200 (*PER_PAGE*), un filtro formado por los datos declarados previamente (*filter*) y el orden (*sort*). Solo en caso deque la funci√≥n que realiza la llamada (*fetch_page*) devuelva los resultados se sigue con el proceso.

3. Saca todos los datos estrcuturados para las tres tablas, usando el identificador correspondiente de cada atributo dentro de OpenAlex. El abstract se restructura para que se pueda insertar en el csv (*reconstruct_abstract*)

4. En cuanto a la tem√°tica. Se obtiene su nombre. Si ya est√° en *tematic_map* se ignora. Si no, se a√±ade al diccionario, siendo el nombre la clave y su valor el *next_tematica_id*, el cual es su nuevo id. Al valor de esta √∫ltima variable se le suma uno para la siguiente ejecuci√≥n.

5. Se saca *tematica_id* con *tematic_map* y se crea una nueva fila en *obra_csv* con los datos del art√≠culo. Si el bucle ha terminado con los art√≠culos de la p√°gina, va a la siguiente (*page* + 1) y repite el bucle. Si ya no se encuentran m√°s obras, se finaliza.

6. Se devuelve *tematic_map* para la creaci√≥n de los otros dos csv.

La funci√≥n que sigue este proceso es *fetch_all_works*.

#### Creaci√≥n del csv de la entidad _tematica_
Se crea el *tematica_csv* tal cual se cre√≥ el de _obra_, pero como se tienen ya el n√∫mero de tem√°ticas con sus ids gracias a *tematic_map*, se llena la tabla al completo con todas las tem√°ticas. La funci√≥n que sigue este proceso es *save_tematica_csv*.

#### Creaci√≥n del csv de la relaci√≥n *tematica_contenida*
Esta funci√≥n se ha creado con la idea de que ya sabemos quienes son los padres: ***Physical Sciences -> Computer_Science -> Artificial Inteligence -> Tem√°ticas sin hijo***. Por tanto, a partir de cada tem√°tica dentro de *tematica_csv*, se analiza si es una de los posibles padres. Si es una sin hijos, se declara como hija de *Artificial Inteligence* con un identificador propio (m√°s el de *Artificial Inteligence* y el hijo). Para las que se son padres, se decalra directamente la relaci√≥n a partir de la estructura antes mencionada. Con esto, se crea *tematica_contenida.csv*  y en este archivo se primero los nombres de las columnas (*id*, *id_padre* e *id_hijo*) y posteriormente tantas filas como relaciones detectadas (ids distintos), incluidas las relaciones entre los padres. La funci√≥n que sigue este proceso es *update_tematica_and_generate_tematica_contenida*.

In [None]:
import requests
import csv
import time
import os
from pathlib import Path

BASE_URL = "https://api.openalex.org/works"
PER_PAGE = 200

KEYWORDS = [
    "python","c-programming-language","javascript","java","java-programming-language",
    "sql","dart","swift","cobol","fortran","matlab","prolog","lisp","haskell","rust","perl",
    "scala","html","html5"
]
SUBFIELD_ID = "subfields/1702" #Artificial Intelligence
LANGUAGE = "languages/en"

NOTEBOOK_DIR = Path.cwd()
BASE_DIR = str(NOTEBOOK_DIR.parent)
CACHE_DIR = os.path.join(BASE_DIR, "cache")

CSV_OBRA = os.path.join(CACHE_DIR, "obra.csv")
CSV_TEMATICA = os.path.join(CACHE_DIR, "tematica.csv")
CSV_TEMATICA_CONTENIDA = os.path.join(CACHE_DIR, "tematica_contenida.csv")

os.makedirs(CACHE_DIR, exist_ok=True)

BASE_TOPICS = ["Physical Sciences", "Computer Science", "Artificial Intelligence"] # Base topics to ensure presence of hierarchy

def reconstruct_abstract(abstract_inverted_index):
    if not abstract_inverted_index or not isinstance(abstract_inverted_index, dict):
        return ""
    position_map = {}
    for word, positions in abstract_inverted_index.items():
        for pos in positions:
            position_map[pos] = word
    return " ".join(position_map[pos] for pos in sorted(position_map.keys()))

def fetch_page(url, params, max_retries=5, delay_base=2):
    retries = 0
    while retries < max_retries:
        try:
            response = requests.get(url, params=params, timeout=30)
            if response.status_code == 200:
                return response.json()
            print(f"‚ö†Ô∏è Warning: Bad response {response.status_code}, retrying...")
        except Exception as e:
            print(f"‚ö†Ô∏è Warning: Exception during request: {e}")
        retries += 1
        time.sleep(delay_base ** retries)
    print(f"‚ùå Error: Failed to fetch page after {max_retries} retries.")
    return None

def initialize_csv_files():
    os.makedirs(os.path.dirname(CSV_OBRA), exist_ok=True)
    with open(CSV_OBRA, "w", newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow([
            "id","direccion_fuente","titulo","abstract","fecha_publicacion",
            "idioma","num_citas","fwci","tematica_id","doi"
        ])
    print(f"Initialized '{CSV_OBRA}' for writing works.")

def fetch_all_works():
    tematica_map = {}
    next_tematica_id = 1
    obra_id = 1
    page = 1
    total_results = None

    while True:
        params = {
            "page": page,
            "per_page": PER_PAGE,
            "filter": f"open_access.is_oa:true,has_content.pdf:true,primary_topic.subfield.id:{SUBFIELD_ID},best_oa_location.is_accepted:true,language:{LANGUAGE},keywords.id:{'|'.join(KEYWORDS)}",
            "sort": "cited_by_count:desc"
        }
        data = fetch_page(BASE_URL, params)
        if not data or "results" not in data:
            print(f"No data returned for page {page}, stopping.")
            break

        works = data["results"]
        if total_results is None:
            total_results = data.get("meta", {}).get("count", 0)
            print(f"Total results to fetch (approximate): {total_results}")

        print(f"Fetched page {page} with {len(works)} works.")

        with open(CSV_OBRA, "a", newline='', encoding='utf-8') as f:
            writer = csv.writer(f)
            for work in works:
                # --- PDF URL ---
                pdf_url = work.get("best_oa_location", {}).get("pdf_url")
                if not pdf_url:
                    continue

                # --- DOI ---
                doi = work.get("doi", "")

                titulo = work.get("title", "")
                abstract = reconstruct_abstract(work.get("abstract_inverted_index"))
                fecha_publicacion = work.get("publication_date", "")
                idioma = work.get("language", LANGUAGE)
                num_citas = work.get("cited_by_count", 0)
                fwci = work.get("fwci", "")
                primary_topic = work.get("primary_topic")
                if not primary_topic:
                    continue
                topic_name = primary_topic.get("display_name", "Unknown Topic")
                if topic_name not in tematica_map:
                    tematica_map[topic_name] = next_tematica_id
                    next_tematica_id += 1
                tematica_id = tematica_map[topic_name]

                writer.writerow([
                    obra_id, pdf_url, titulo, abstract, fecha_publicacion,
                    idioma, num_citas, fwci, tematica_id, doi
                ])
                obra_id += 1

        if page * PER_PAGE >= total_results or not works:
            break
        page += 1

    print(f"Finished fetching all works. Total works saved: {obra_id-1}")
    return tematica_map

def save_tematica_csv(tematica_map):
    os.makedirs(os.path.dirname(CSV_TEMATICA), exist_ok=True)
    with open(CSV_TEMATICA, "w", newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(["id","nombre_campo"])
        for topic_name, topic_id in tematica_map.items():
            writer.writerow([topic_id, topic_name])
    print(f"Saved '{CSV_TEMATICA}' with {len(tematica_map)} topics.")

def update_tematica_and_generate_contenida():
    if not os.path.exists(CSV_TEMATICA):
        raise FileNotFoundError(f"{CSV_TEMATICA} not found.")

    tematicas = {}
    rows = []
    with open(CSV_TEMATICA, newline='', encoding='utf-8') as f:
        reader = csv.DictReader(f)
        for row in reader:
            row["id"] = int(row["id"])
            rows.append(row)
            tematicas[row["nombre_campo"].strip()] = row["id"]

    max_id = max(r["id"] for r in rows)
    for topic in BASE_TOPICS:
        if topic not in tematicas:
            max_id += 1
            tematicas[topic] = max_id
            rows.append({"id": max_id, "nombre_campo": topic})
            print(f"Added base topic '{topic}' with id={max_id}")

    with open(CSV_TEMATICA, "w", newline='', encoding='utf-8') as f:
        writer = csv.DictWriter(f, fieldnames=["id", "nombre_campo"])
        writer.writeheader()
        writer.writerows(rows)

    relaciones = [
        {"id_padre": tematicas["Physical Sciences"], "id_hijo": tematicas["Computer Science"]},
        {"id_padre": tematicas["Computer Science"], "id_hijo": tematicas["Artificial Intelligence"]}
    ]
    ai_id = tematicas["Artificial Intelligence"]
    for nombre, id_ in tematicas.items():
        if nombre not in BASE_TOPICS:
            relaciones.append({"id_padre": ai_id, "id_hijo": id_})
    relaciones = [{"id_padre": p, "id_hijo": h} for p, h in {(r["id_padre"], r["id_hijo"]) for r in relaciones}]

    os.makedirs(os.path.dirname(CSV_TEMATICA_CONTENIDA), exist_ok=True)
    with open(CSV_TEMATICA_CONTENIDA, "w", newline='', encoding='utf-8') as f:
        writer = csv.DictWriter(f, fieldnames=["id_padre", "id_hijo"])
        writer.writeheader()
        writer.writerows(relaciones)

    print(f"'{CSV_TEMATICA}' updated with {len(rows)} topics.")
    print(f"'{CSV_TEMATICA_CONTENIDA}' generated with {len(relaciones)} relations.")

def main():
    print("Starting OpenAlex fetch process...")
    initialize_csv_files()
    tematica_map = fetch_all_works()
    save_tematica_csv(tematica_map)
    update_tematica_and_generate_contenida()
    print("Finished fetching and processing all works and topics.")

if __name__ == "__main__":
    main()

Starting OpenAlex fetch process...
Initialized 'c:\Users\kzzazzk\Downloads\gestbd-hackathon\cache\obra.csv' for writing works.
Total results to fetch (approximate): 6067
Fetched page 1 with 200 works.
Fetched page 2 with 200 works.
Fetched page 3 with 200 works.
Fetched page 4 with 200 works.
Fetched page 5 with 200 works.
Fetched page 6 with 200 works.
Fetched page 7 with 200 works.
Fetched page 8 with 200 works.
Fetched page 9 with 200 works.
Fetched page 10 with 200 works.
Fetched page 11 with 200 works.
Fetched page 12 with 200 works.
Fetched page 13 with 200 works.
Fetched page 14 with 200 works.
Fetched page 15 with 200 works.
Fetched page 16 with 200 works.
Fetched page 17 with 200 works.
Fetched page 18 with 200 works.
Fetched page 19 with 200 works.
Fetched page 20 with 200 works.
Fetched page 21 with 200 works.
Fetched page 22 with 200 works.
Fetched page 23 with 200 works.
Fetched page 24 with 200 works.
Fetched page 25 with 200 works.
Fetched page 26 with 200 works.
Fetched

### ‚ö†Ô∏èCELDA NO EJECUTABLE PORQUE SE EJECUT√ì Y SE GENERARON LOS CSV PARA GUARDAR SUS RESULTADOS PREVIAMENTE (SE TARDARON M√ÅS DE 6H EN PROCESAR LOS RESULTADOS Y NO HA DADO TIEMPO NI HAY RECURSOS PARA VOLVER A EJECUTAR)

### OBTENCI√ìN DATOS NO ESTRUCTURADOS 



Una vez establecidos los datos estructurados, comenzamos la tarea de extracci√≥n de lenguajes de programaci√≥n usando un LLM. Para la comprensi√≥n de esta fase, la dividir√© en subfases:

1.  **Extracci√≥n del texto** de los documentos PDF de los art√≠culos.
2.  **Generaci√≥n de lenguajes** de programaci√≥n por art√≠culo, enviando el texto extra√≠do de cada obra a `gpt-5-nano`.
3.  **Guardado en cach√©** de este procesamiento en los archivos `tecnologia.csv` y `obra_tecnologia.csv` para no tener que volver a ejecutar el LLM en caso de p√©rdida de datos.


#### EXTRACCI√ìN DEL TEXTO DE LOS DOCUMENTOS PDF DE LOS ART√çCULOS
Esta tarea parece simple, pero realmente es la m√°s compleja para no perder datos. Veamos c√≥mo est√° estructurado el `obra.csv` para comprenderlo:

![Filtro tem√°ticas dentro de OpenAlex](./images/obra-csv-screenshot.png)

Como se puede observar, hay dos campos que hacen referencia al URL:
* **`doi`**: El Digital Object Identifier, este es el identificador √∫nico del art√≠culo.
* **`direccion_fuente`**: La *open access url* m√°s fiable desde el punto de vista de OpenAlex.

La `direccion_fuente` va a ser la primera URL a la que consultaremos, ya que asumimos que la consulta a OpenAlex siempre devuelve un archivo PDF de *open access* (dado que la restricci√≥n en la consulta as√≠ lo define).

El flujo de extracci√≥n es el siguiente:

1.  **Intento con `direccion_fuente`**:
    * Si la URL responde con un `Content-Type` de `application/pdf`, extraemos el texto directamente usando la librer√≠a `PyMuPDF` y pasamos al siguiente paso.
    * Si la URL responde con `text/html`, significa que es una p√°gina web.

2.  **Proceso de *Scraping* (si es HTML)**:
    * Se analiza el HTML buscando clases comunes que los visores de PDF web usan para renderizar texto (ej: `[class*="textLayer"]`). Si se encuentra texto, se extrae.
    * Si no se encuentra texto, se buscan todos los enlaces `<a>` en la p√°gina que terminen en `.pdf` y se intenta descargar el primer enlace encontrado.

3.  **Proceso de *Fallback* (si todo lo anterior falla)**:
    * Si la `direccion_fuente` falla o no se encuentra un PDF, se utiliza el `doi` del art√≠culo.
    * Se consulta la API de **Unpaywall** (`https://api.unpaywall.org/v2/{doi}`) para encontrar la mejor URL de PDF de acceso abierto (`best_oa_location`).
    * Paralelamente, se intenta construir una URL directa al portal de **ACM** (`https://dl.acm.org/doi/pdf/{doi}`), que es una fuente com√∫n.

4.  **Extracci√≥n Final**:
    * Si cualquiera de estas estrategias devuelve un archivo PDF v√°lido, se extrae su contenido con `PyMuPDF`. Si ninguna lo logra, se marca el art√≠culo como fallido y se contin√∫a con el siguiente.

#### MANEJO DE ERRORES (HTTP Y "SOFT 404")
El flujo anterior est√° protegido contra errores de varias maneras para asegurar su robustez:

* **Errores HTTP (Timeouts y Conexi√≥n):** Toda la l√≥gica de descarga (`requests.get`) est√° envuelta en un bloque `try...except` gen√©rico. Esto captura errores de red, DNS, o si el servidor tarda demasiado en responder (definido en `PDF_TIMEOUT = 30`). Si ocurre una de estas excepciones, se registra el error y se activa inmediatamente el proceso de *fallback* (Unpaywall/ACM).

* **Errores "Soft 404" en HTML:** Este es un caso cr√≠tico. A veces, un servidor devuelve un c√≥digo `200 OK` (√©xito) pero la p√°gina HTML es en realidad un error ("No encontrado", "Acceso denegado", etc.).
    * Para detectar esto, si la respuesta es `text/html`, el script extrae el texto plano de la p√°gina (`soup.get_text()`) y lo busca contra una lista de indicadores de error (ej: `["not found", "error 404", "no encontrado", "access denied"]`).
    * Si encuentra alguna de estas frases, considera la p√°gina como un error, la descarta, y activa el *fallback* a Unpaywall y ACM.

* **Detecci√≥n de Contenido Bloqueado (Pre-LLM):** Existe un √∫ltimo filtro. Incluso si se extrae texto con √©xito, este podr√≠a ser in√∫til (ej. un *paywall* o un aviso de "habilitar cookies"). La funci√≥n `analyze_text_with_gpt` revisa los primeros 300 caracteres del texto. Si detecta frases como `["enable javascript and cookies to continue", "access denied", ...]`, omite el an√°lisis del LLM para ese art√≠culo, evitando procesar texto basura y gastar recursos.


#### GENERACI√ìN DE LENGUAJES V√çA LLM
Una vez obtenido el texto crudo del art√≠culo, se env√≠a al LLM (`gpt-5-nano`) para su an√°lisis.

Se utiliza un *prompt* espec√≠fico que act√∫a como un asistente de an√°lisis de texto. Este *prompt* tiene reglas claras:

```
instructions = """
    You are a text analysis assistant specialized in identifying programming languages mentioned in academic or technical articles.
    Analyze the provided raw text (extracted directly from a PDF). Identify and return the main programming languages mentioned in the article (do not include frameworks, libraries, or tools).
    If a ‚ÄúReferences‚Äù or ‚ÄúBibliography‚Äù section appears, ignore all text after that marker.
    Return strictly in JSON, like:
    {
        "programming_languages": ["Python", "C", "Java"]
    }
    If none found:
    {
        "programming_languages": []
    }
"""
```

#### ALMACENAMIENTO EN CACHE (CSV)
El proceso completo est√° orquestado por la funci√≥n `process_all_obras`, que itera sobre cada art√≠culo del `obra.csv` y aplica los pasos anteriores. Los resultados se guardan para asegurar la persistencia de los datos:

* **`tecnologia.csv`**: Este archivo act√∫a como una tabla maestra para las tecnolog√≠as. Cuando el LLM devuelve un lenguaje (ej: "Python"), el script comprueba (con `load_tecnologias`) si "Python" ya existe en este CSV. Si no existe, se le asigna un nuevo `id` (`next_tecn_id`) y se a√±ade al final.
* **`obra_tecnologia.csv`**: Este archivo es la tabla de uni√≥n (relaci√≥n N-a-N). Por cada lenguaje identificado en un art√≠culo, se guarda una fila que conecta el `obra_id` con el `tecnologia_id` correspondiente (ej: `[id_enlace, 101, 1]` para vincular la obra 101 con Python (id 1)).

Este sistema de cach√© es crucial, ya que permite reanudar el proceso en caso de error sin tener que volver a consumir recursos de la API del LLM sobre art√≠culos ya procesados.

In [11]:
import csv
import os
import io
import requests
import json
import openai
import subprocess
from bs4 import BeautifulSoup
import fitz 
from pathlib import Path

MODEL_NAME = "mistral:instruct"
PDF_TIMEOUT = 30
UNPAYWALL_EMAIL = "your_email@example.com"
NOTEBOOK_DIR = Path.cwd()
BASE_DIR = str(NOTEBOOK_DIR.parent)
CACHE_DIR = os.path.join(BASE_DIR, "cache")

OBRAS_CSV = os.path.join(CACHE_DIR, "obra.csv")
TECN_CSV = os.path.join(CACHE_DIR, "tecnologia.csv")
OBRA_TECN_CSV = os.path.join(CACHE_DIR, "obra_tecnologia.csv")


instructions = """You are a text analysis assistant specialized in identifying programming languages mentioned in academic or technical articles.
Analyze the provided raw text (extracted directly from a PDF). Identify and return the main programming languages mentioned in the article (do not include frameworks, libraries, or tools).
If a ‚ÄúReferences‚Äù or ‚ÄúBibliography‚Äù section appears, ignore all text after that marker.
Return strictly in JSON, like:
{
  "programming_languages": ["Python", "C", "Java"]
}
If none found:
{
  "programming_languages": []
}
"""

os.makedirs(CACHE_DIR, exist_ok=True)

# ----------------------
# CSV helpers
# ----------------------
def read_obras_from_csv(file_path):
    obras = []
    with open(file_path, "r", newline="", encoding="utf-8") as f:
        reader = csv.DictReader(f)
        for row in reader:
            obras.append((int(row["id"]), row["direccion_fuente"], row.get("doi")))
    return obras

def init_csv(file_path, headers=None):
    os.makedirs(os.path.dirname(file_path), exist_ok=True)
    if not os.path.exists(file_path) or os.path.getsize(file_path) == 0:
        with open(file_path, "w", newline="", encoding="utf-8") as f:
            writer = csv.writer(f)
            if headers:
                writer.writerow(headers)
        return 1
    max_id = 0
    with open(file_path, "r", newline="", encoding="utf-8") as f:
        try:
            reader = csv.DictReader(f)
            for row in reader:
                val = row.get("id")
                if val:
                    try:
                        max_id = max(max_id, int(val))
                    except:
                        continue
        except:
            f.seek(0)
            for line in f:
                parts = line.split(",")
                if parts:
                    try:
                        max_id = max(max_id, int(parts[0].strip()))
                    except:
                        continue
    return max_id + 1

def append_unique_to_csv(file_path, row, headers=None, key_index=1):
    init_csv(file_path, headers=headers)
    existing_keys = set()
    with open(file_path, "r", newline="", encoding="utf-8") as f:
        reader = csv.reader(f)
        peek = next(reader, None)
        if headers and peek and all(h in peek for h in headers):
            pass
        else:
            if peek:
                try:
                    existing_keys.add(peek[key_index])
                except:
                    pass
        for r in reader:
            try:
                existing_keys.add(r[key_index])
            except:
                continue
    key = row[key_index] if len(row) > key_index else None
    if key not in existing_keys:
        with open(file_path, "a", newline="", encoding="utf-8") as f:
            writer = csv.writer(f)
            writer.writerow(row)



def append_to_csv(file_path, row, headers=None):
    """Simple append without uniqueness (for obra_tecnologia)"""
    file_exists = os.path.exists(file_path)
    with open(file_path, "a", newline="", encoding="utf-8") as f:
        writer = csv.writer(f)
        if not file_exists and headers:
            writer.writerow(headers)
        writer.writerow(row)
def load_tecnologias(file_path):
    tech_map = {}
    if os.path.exists(file_path):
        with open(file_path, newline="", encoding="utf-8") as f:
            reader = csv.DictReader(f)
            for row in reader:
                tech_map[row["nombre"]] = int(row["id"])
    return tech_map

# ----------------------
# PDF + Analysis
# ----------------------
def get_text_from_pdf_url(pdf_url, doi=None):
    tried_urls = set()
    headers = {'User-Agent': 'Mozilla/5.0'}
    
    def fetch_unpaywall_pdf(doi):
        if not doi:
            return None
        try:
            unpaywall_url = f"https://api.unpaywall.org/v2/{doi}?email={UNPAYWALL_EMAIL}"
            r = requests.get(unpaywall_url, timeout=10)
            if r.status_code == 200:
                data = r.json()
                pdf_link = data.get("best_oa_location", {}).get("url_for_pdf")
                if pdf_link:
                    print(f"üìñ Found Unpaywall PDF: {pdf_link}")
                    return pdf_link
        except Exception as e:
            print(f"‚ö†Ô∏è Unpaywall fetch failed: {e}")
        return None


def get_text_from_pdf_url(pdf_url, doi=None):
    tried_urls = set()
    headers = {'User-Agent': 'Mozilla/5.0'}
    
    def fetch_unpaywall_pdf(doi):
        if not doi:
            return None
        try:
            unpaywall_url = f"https://api.unpaywall.org/v2/{doi}?email={UNPAYWALL_EMAIL}"
            r = requests.get(unpaywall_url, timeout=10)
            if r.status_code == 200:
                data = r.json()
                pdf_link = data.get("best_oa_location", {}).get("url_for_pdf")
                if pdf_link:
                    print(f"üìñ Found Unpaywall PDF: {pdf_link}")
                    return pdf_link
        except Exception as e:
            print(f"‚ö†Ô∏è Unpaywall fetch failed: {e}")
        return None

    def fetch_acm_pdf(doi):
        if not doi:
            return None
        try:
            acm_url = f"https://dl.acm.org/doi/pdf/{doi}"
            r = requests.head(acm_url, allow_redirects=True, timeout=10)
            if r.status_code == 200 and "pdf" in r.headers.get("Content-Type", "").lower():
                print(f"üìÑ Found ACM PDF: {acm_url}")
                return acm_url
        except Exception as e:
            print(f"‚ö†Ô∏è ACM fetch failed: {e}")
        return None

    while pdf_url and pdf_url not in tried_urls:
        tried_urls.add(pdf_url)
        try:
            response = requests.get(pdf_url, headers=headers, timeout=PDF_TIMEOUT)
            content_type = response.headers.get("Content-Type", "").lower()

            if "application/pdf" in content_type:
                try:
                    pdf_bytes = io.BytesIO(response.content)
                    doc = fitz.open(stream=pdf_bytes, filetype="pdf")
                    text = "\n\n".join([page.get_text() for page in doc])
                    if not text.strip():
                        raise ValueError("No text extracted from PDF")
                    return text.strip(), pdf_url
                except Exception as e:
                    print(f"‚ö†Ô∏è PDF parse error with PyMuPDF: {e}")
                pdf_url = fetch_unpaywall_pdf(doi) or fetch_acm_pdf(doi)
                continue

            if "text/html" in content_type:
                soup = BeautifulSoup(response.text, "html.parser")
                body_text = soup.get_text(separator=' ', strip=True).lower()
                if any(x in body_text for x in ["not found", "error 404", "no encontrado", "access denied"]):
                    pdf_url = fetch_unpaywall_pdf(doi) or fetch_acm_pdf(doi)
                    continue
                text_labels = soup.select('[class*="textLayer"], [id*="textLayer"] div, span')
                texts = [el.get_text(separator=' ', strip=True) for el in text_labels]
                if texts:
                    return " ".join(texts), pdf_url
                pdf_links = [a['href'] for a in soup.find_all('a', href=True) if a['href'].endswith('.pdf')]
                if pdf_links:
                    next_pdf = requests.compat.urljoin(pdf_url, pdf_links[0])
                    if next_pdf not in tried_urls:
                        pdf_url = next_pdf
                        continue
                pdf_url = fetch_unpaywall_pdf(doi) or fetch_acm_pdf(doi)
                continue

            pdf_url = fetch_unpaywall_pdf(doi) or fetch_acm_pdf(doi)

        except Exception as e:
            print(f"‚ö†Ô∏è Exception while fetching PDF: {e}")
            pdf_url = fetch_unpaywall_pdf(doi) or fetch_acm_pdf(doi)

    print("‚ùå No valid PDF or text found.")
    return None, None



def estimate_tokens(text: str) -> int:
    """Estimate the number of tokens in a string for GPT models."""
    return len(ENCODING.encode(text))

def analyze_text(instructions, pdf_text):
    detected_languages = set()

    # 1Ô∏è‚É£ Try LLM first
    if pdf_text.strip():
        prompt = f"{instructions}\n\nText:\n{pdf_text}"
        try:
            result = subprocess.run(
                ["ollama", "run", MODEL_NAME],
                input=prompt,
                capture_output=True,
                text=True,
                encoding="utf-8",
                errors="ignore"
            )
            raw = result.stdout.strip()
            json_start = raw.find("{")
            json_end = raw.rfind("}") + 1
            if json_start != -1 and json_end != -1:
                llm_result = json.loads(raw[json_start:json_end])
                detected_languages.update(llm_result.get("programming_languages", []))
        except Exception:
            pass

    return {"programming_languages": sorted(detected_languages)}

# Make sure to set your API key in the environment
# export OPENAI_API_KEY="sk-..."
def analyze_text_with_gpt(pdf_text, model="gpt-5-nano"):
    """
    Analyze PDF text using ChatGPT Responses API.
    Returns a set of detected programming languages.
    Automatically skips blocked content.
    """
    detected_languages = set()

    # Blocked content check
    blocked_indicators = [
        "enable javascript and cookies to continue",
        "access denied",
        "not found",
        "error 404"
    ]
    preview_text = pdf_text[:300].replace("\n", " ").lower()
    if any(b in preview_text for b in blocked_indicators):
        print("‚ö†Ô∏è Blocked content detected, skipping analysis.")
        return {"programming_languages": []}

    # GPT-5 request
    try:
        response = openai.responses.create(
            model=model,
            input=f"""
            You are a text analysis assistant specialized in identifying programming languages mentioned in academic or technical articles.

            Task:
            1Ô∏è‚É£ Identify **only actual programming languages** used to write code.
            2Ô∏è‚É£ Do **NOT** include frameworks, libraries, standards, formal languages, or platforms.
            3Ô∏è‚É£ Ignore any text after a ‚ÄúReferences‚Äù or ‚ÄúBibliography‚Äù section.
            4Ô∏è‚É£ Return strictly in JSON:

            {{"programming_languages": ["Python", "C", "Java"]}}

            If none found, return:

            {{"programming_languages": []}}


            Text:
            {pdf_text}
"""
        )
        raw = response.output_text.strip()
        json_start = raw.find("{")
        json_end = raw.rfind("}") + 1
        if json_start != -1 and json_end != -1:
            llm_result = json.loads(raw[json_start:json_end])
            detected_languages.update(llm_result.get("programming_languages", []))
    except Exception as e:
        print(f"‚ö†Ô∏è GPT analysis failed: {e}")

    return {"programming_languages": sorted(detected_languages)}

# ----------------------
# Main loop
# ----------------------
def process_all_obras():
    obras = read_obras_from_csv(OBRAS_CSV)
    print(f"Found {len(obras)} obras in CSV.")

    next_tecn_id = init_csv(TECN_CSV, headers=["id","nombre"])
    next_link_id = init_csv(OBRA_TECN_CSV, headers=["id","obra_id","tecnologia_id"])

    for obra_id, pdf_url, doi in obras:
        print(f"\nüîπ Processing Obra ID: {obra_id}")
        try:
            # Step 1: fetch PDF text
            text, final_url = get_text_from_pdf_url(pdf_url, doi)
            if not text:
                print(f"‚ùå No valid PDF or text found.")
                print(f"‚ö†Ô∏è Skipping Obra ID {obra_id}, no text extracted.")
                continue
            else:
                preview = text[:300].replace("\n", " ").strip()
                print(f"üìÑ Text extracted for Obra ID {obra_id} ({len(text)} chars)")
                print(f"üîó Source URL used: {final_url}")
                print(f"üìù Text preview: {preview}{'...' if len(text) > 300 else ''}")

            # Step 2: analyze with Ollama
            print(f"ü§ñ Analyzing text for Obra ID {obra_id}...")
            try:
                result = analyze_text_with_gpt(text)
            except Exception as e:
                print(f"‚ö†Ô∏è Analysis failed for Obra ID {obra_id}: {e}")
                result = {"programming_languages": []}

            languages = result.get("programming_languages", [])
            print(f"üìù Obra ID {obra_id} languages detected: {languages}")

            tech_map = load_tecnologias(TECN_CSV)  # { "Python": 89, "C": 90, ... }

            for lang in languages:
                if lang not in tech_map:
                    tech_map[lang] = next_tecn_id
                    append_to_csv(TECN_CSV, [next_tecn_id, lang], headers=["id","nombre"])
                    next_tecn_id += 1

                tecnologia_id = tech_map[lang]
                append_to_csv(OBRA_TECN_CSV, [next_link_id, obra_id, tecnologia_id], headers=["id","obra_id","tecnologia_id"])
                next_link_id += 1

        except Exception as e:
            print(f"‚ö†Ô∏è Unexpected error processing Obra ID {obra_id}: {e}")


if __name__ == "__main__":
    #Uncomment if you are testing runs 
    """for csv_file in [TECN_CSV, OBRA_TECN_CSV]:
        if os.path.exists(csv_file):
            os.remove(csv_file)
            print(f"üóëÔ∏è Deleted old CSV: {csv_file}")"""
    process_all_obras()


Found 6010 obras in CSV.

üîπ Processing Obra ID: 1
‚ùå No valid PDF or text found.
‚ùå No valid PDF or text found.
‚ö†Ô∏è Skipping Obra ID 1, no text extracted.

üîπ Processing Obra ID: 2
‚ùå No valid PDF or text found.
‚ùå No valid PDF or text found.
‚ö†Ô∏è Skipping Obra ID 2, no text extracted.

üîπ Processing Obra ID: 3
‚ùå No valid PDF or text found.
‚ùå No valid PDF or text found.
‚ö†Ô∏è Skipping Obra ID 3, no text extracted.

üîπ Processing Obra ID: 4
üìÑ Text extracted for Obra ID 4 (1903 chars)
üîó Source URL used: https://joss.theoj.org/papers/10.21105/joss.00024.pdf
üìù Text preview: corner.py: Scatterplot matrices in Python Daniel Foreman-Mackey1 1 Sagan Fellow, University of Washington DOI: 10.21105/joss.00024 Software ‚Ä¢ Review ‚Ä¢ Repository ‚Ä¢ Archive Licence Authors of JOSS papers retain copyright and release the work un- der a Creative Commons Attri- bution 4.0 International...
ü§ñ Analyzing text for Obra ID 4...


KeyboardInterrupt: 

### ALMACENAMIENTO EN POSTGRESQL
---

Una vez declaradas las tablas en **PostgreSQL**, y los datos obtenidos mediante **OpenAlex**, y la API de **OpenAI**, y guardados en archivos *.csv (en la carpeta **cache**), procedemos a trasladar todos los datos guardados en dichos archivos y almacenarlos en nuestra base de datos.

Primero nos conectamos a la base de datos y obtenemos un cursor, mediante la biblioteca `psycopg2-binary`.
Segundo cargamos directamente todos los archivos de cache como `DataFrames` de `pandas`.

`df_tematica = pd.read_csv(file_tematica)`

Tabla a tabla, vamos leyendo cada fila de su `DataFrame` e insertandolo en su tabla correspondiente mediante **SQL**. Por ejemplo: el archivo tematica.csv sirve para rellenar la tabla tematica de la base de datos. En caso de conflito por datos repetidos, la orden de insercion se ignora.

```
for _, row in df_tematica.iterrows():
        cursor.execute("""
            INSERT INTO tematica (id, nombre_campo)
            VALUES (%s, %s)
            ON CONFLICT (id) DO NOTHING
        """, row['id'], row['nombre_campo']))
```

Una vez todos los datos de cache han sido cargados, guardamos los cambios desconectamos el cursor y cerramos la conexion.

`connection.commit()`

In [6]:
import os
import pandas as pd
import psycopg2
from pathlib import Path
DB_PARAMS = {
    "host": "localhost",
    "port": 5432,
    "database": "demoDB",
    "user": "userPSQL",
    "password": "passPSQL"
}

def main():
    connection = psycopg2.connect(**DB_PARAMS)
    cursor = connection.cursor()

    notebook_dir = Path.cwd()
    script_dir = str(notebook_dir.parent)
    dir_cache = os.path.join(script_dir, "cache")


    # File paths
    file_tematica = os.path.join(dir_cache, 'tematica.csv')
    file_tematica_contenida = os.path.join(dir_cache, 'tematica_contenida.csv')
    file_obra = os.path.join(dir_cache, 'obra.csv')
    file_tecnologia = os.path.join(dir_cache, 'tecnologia.csv')
    file_obra_tecnologia = os.path.join(dir_cache, 'obra_tecnologia.csv')

    # Read CSVs
    df_tematica = pd.read_csv(file_tematica)
    df_tematica_contenida = pd.read_csv(file_tematica_contenida)
    df_obra = pd.read_csv(file_obra)
    df_tecnologia = pd.read_csv(file_tecnologia)
    df_obra_tecnologia = pd.read_csv(file_obra_tecnologia)

    # Insert tematica
    for _, row in df_tematica.iterrows():
        cursor.execute("""
            INSERT INTO tematica (id, nombre_campo)
            VALUES (%s, %s)
            ON CONFLICT (id) DO NOTHING
        """, (int(row['id']), row['nombre_campo'].strip() if pd.notna(row['nombre_campo']) else None))

    # Insert tematica_contenida
    for _, row in df_tematica_contenida.iterrows():
        cursor.execute("""
            INSERT INTO tematica_contenida (id, tematica_padre_id, tematica_hijo_id)
            VALUES (%s, %s, %s)
            ON CONFLICT DO NOTHING
        """, (int(row['id']), int(row['id_padre']), int(row['id_hijo'])))

    # Insert obra
    for _, row in df_obra.iterrows():
        cursor.execute("""
            INSERT INTO obra (
                id, doi, direccion_fuente, titulo, abstract, fecha_publicacion,
                idioma, num_citas, fwci, tematica_id
            ) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
            ON CONFLICT (id) DO NOTHING
        """, (
            int(row['id']),
            row.get('doi').strip() if pd.notna(row.get('doi')) else None,
            row['direccion_fuente'].strip() if pd.notna(row.get('direccion_fuente')) else None,
            row['titulo'].strip() if pd.notna(row.get('titulo')) else None,
            row.get('abstract').strip() if pd.notna(row.get('abstract')) else None,
            row.get('fecha_publicacion') if pd.notna(row.get('fecha_publicacion')) else None,
            row.get('idioma').strip() if pd.notna(row.get('idioma')) else None,
            int(row.get('num_citas', 0)) if pd.notna(row.get('num_citas')) else 0,
            float(row.get('fwci', 0.0)) if pd.notna(row.get('fwci')) else 0.0,
            int(row.get('tematica_id')) if pd.notna(row.get('tematica_id')) else None
        ))

    # Insert tecnologia
    for _, row in df_tecnologia.iterrows():
        cursor.execute("""
            INSERT INTO tecnologia (id, nombre, tipo, version)
            VALUES (%s, %s, %s, %s)
            ON CONFLICT (id) DO NOTHING
        """, (
            int(row['id']),
            row['nombre'].strip() if pd.notna(row['nombre']) else None,
            row.get('tipo').strip() if pd.notna(row.get('tipo')) else None,
            row.get('version').strip() if pd.notna(row.get('version')) else None
        ))

    # Insert obra_tecnologia
    for _, row in df_obra_tecnologia.iterrows():
        cursor.execute("""
            INSERT INTO obra_tecnologia (id, obra_id, tecnologia_id)
            VALUES (%s, %s, %s)
            ON CONFLICT (id) DO NOTHING
        """, (int(row['id']), int(row['obra_id']), int(row['tecnologia_id'])))
# Puede que on conflict falle por lo de id 
    connection.commit()
    cursor.close()
    connection.close()
    print("‚úÖ CSV data loaded successfully including tecnologia and obra_tecnologia.")

if __name__ == "__main__":
    main()


‚úÖ CSV data loaded successfully including tecnologia and obra_tecnologia.


### Creaci√≥n del Grafo: Turtle, Schema.org & SKOS

#### Mapeo de Entidades (PostgreSQL ‚Üí Vocabularios)

En la √∫ltima entrega (Pr√°ctica 3) se defini√≥ un conjunto de mapeos entre las tablas de la base de datos _PostgreSQL_ y las clases de los vocabularios **SCHEMA** y **SKOS**.  
Estos mapeos permiten representar las entidades relacionales (_obra_, _tem√°tica_, _tecnolog√≠a_, _obra_tecnolog√≠a_ y _tem√°tica_contenida_) como recursos sem√°nticos dentro de un grafo RDF.

#### Generaci√≥n del Grafo RDF

El siguiente paso consiste en **transformar los datos de la base de datos en un grafo RDF** y **exportarlos al formato Turtle (.ttl)**.  
Este archivo podr√° ser cargado posteriormente en **GraphDB**, donde se podr√°n ejecutar consultas **SPARQL** sobre la informaci√≥n enlazada.

El proceso se realiza mediante un script en **Python** que:

1. Conecta con la base de datos PostgreSQL.  
2. Itera sobre cada fila de las tablas relevantes.  
3. Genera triples RDF utilizando las ontolog√≠as **SCHEMA** y **SKOS**.  
4. Exporta el resultado final a un archivo `.ttl`.

#### Descripci√≥n del Script

El script realiza los siguientes pasos principales:

- **Conexi√≥n a la base de datos** PostgreSQL mediante `psycopg2`.  
- **Creaci√≥n de un grafo RDF** usando la librer√≠a `rdflib`.  
- **Asignaci√≥n de namespaces**:  
  - `schema:` ‚Üí [https://schema.org/](https://schema.org/)  
  - `skos:` ‚Üí [https://www.w3.org/2004/02/skos/core#](https://www.w3.org/2004/02/skos/core#)  
  - `openalex:` ‚Üí [https://openalex.org/](https://openalex.org/)  
- **Iteraci√≥n sobre las tablas**:
  - `tematica` ‚Üí Clases `skos:Concept`  
  - `tematica_contenida` ‚Üí Relaciones jer√°rquicas `skos:broader` y `skos:narrower`  
  - `tecnologia` ‚Üí Clases `schema:SoftwareApplication`  
  - `obra` ‚Üí Clases `schema:TechArticle`  
  - `obra_tecnologia` ‚Üí Relaciones `schema:mentions`  
- **Exportaci√≥n del grafo** en formato Turtle (`.ttl`)  
- **Cierre de la conexi√≥n** a la base de datos.

#### Resultado Final

El script genera un archivo RDF llamado **`openalex_graph.ttl`** dentro del directorio `ttl/`.  
Este archivo contiene todos los triples RDF generados a partir de la base de datos y puede cargarse directamente en **GraphDB**.

Una vez cargado, es posible ejecutar consultas **SPARQL** para:

- Explorar relaciones entre obras y tecnolog√≠as.  
- Visualizar jerarqu√≠as tem√°ticas mediante SKOS.  
- Analizar la estructura sem√°ntica del conocimiento extra√≠do.

In [8]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import psycopg2
from rdflib import Graph, Namespace, URIRef, Literal
from rdflib.namespace import RDF, SKOS, XSD

# --- Namespaces ---
SCHEMA = Namespace("https://schema.org/")
OPENALEX = Namespace("https://openalex.org/")
g = Graph()
g.bind("schema", SCHEMA)
g.bind("skos", SKOS)
g.bind("openalex", OPENALEX)

# --- PostgreSQL connection ---
DB_PARAMS = {
    "host": "localhost",
    "port": 5432,
    "database": "demoDB",
    "user": "userPSQL",
    "password": "passPSQL"
}


conn = psycopg2.connect(**DB_PARAMS)

cur = conn.cursor()

print("Connected to database ‚úÖ")

# --- 1. TEM√ÅTICA ---
cur.execute("SELECT id, nombre_campo FROM tematica;")
for tmid, nombre in cur.fetchall():
    tema_uri = OPENALEX[f"tematica_{tmid}"]
    g.add((tema_uri, RDF.type, SKOS.Concept))
    g.add((tema_uri, SKOS.prefLabel, Literal(nombre)))

print("Mapped table: tematica ‚úÖ")

# tematica_contenida ‚Üí skos:broader
cur.execute("SELECT id, tematica_padre_id, tematica_hijo_id FROM tematica_contenida;")
for tcid, parent, child in cur.fetchall():
    parent_uri = OPENALEX[f"tematica_{parent}"]
    child_uri = OPENALEX[f"tematica_{child}"]
    g.add((parent_uri, SKOS.narrower, child_uri))
    g.add((child_uri, SKOS.broader, parent_uri))

# --- 2. TECNOLOG√çA ---
cur.execute("SELECT id, nombre, tipo, version FROM tecnologia;")
for tid, nombre, tipo, version in cur.fetchall():
    tech_uri = OPENALEX[f"tecnologia_{tid}"]
    g.add((tech_uri, RDF.type, SCHEMA.SoftwareApplication))
    g.add((tech_uri, SCHEMA.name, Literal(nombre)))
    if tipo:
        g.add((tech_uri, SCHEMA.applicationCategory, Literal(tipo)))
    if version:
        g.add((tech_uri, SCHEMA.softwareVersion, Literal(version)))

print("Mapped table: tecnologia ‚úÖ")

# --- 3. OBRA ---
cur.execute("SELECT id, doi, direccion_fuente, titulo, abstract, fecha_publicacion, idioma, num_citas, fwci, tematica_id FROM obra;")
for oid, doi, direccion_fuente, titulo, abstract, fecha_publicacion, idioma, num_citas, fwci, tematica_id in cur.fetchall():
    obra_uri = OPENALEX[f"obra_{oid}"]
    g.add((obra_uri, RDF.type, SCHEMA.TechArticle))
    if doi:
        g.add((obra_uri, SCHEMA.sameAs, Literal(doi)))
    if direccion_fuente:
        g.add((obra_uri, SCHEMA.url, Literal(direccion_fuente)))
    if titulo:
        g.add((obra_uri, SCHEMA.name, Literal(titulo)))
    if abstract:
        g.add((obra_uri, SCHEMA.abstract, Literal(abstract)))
    if fecha_publicacion:
        g.add((obra_uri, SCHEMA.datePublished, Literal(fecha_publicacion, datatype=XSD.date)))
    if idioma:
        g.add((obra_uri, SCHEMA.inLanguage, Literal(idioma)))
    if num_citas:
        g.add((obra_uri, SCHEMA.citationCount, Literal(num_citas, datatype=XSD.integer)))
    if fwci:
        g.add((obra_uri, SCHEMA.metric, Literal(fwci, datatype=XSD.float)))
    if tematica_id:
        g.add((obra_uri, SCHEMA.about, OPENALEX[f"tematica_{tematica_id}"]))

print("Mapped table: obra ‚úÖ")

# obra_tecnologia ‚Üí schema:mentions
cur.execute("SELECT obra_id, tecnologia_id FROM obra_tecnologia;")
for oid, tid in cur.fetchall():
    g.add((OPENALEX[f"obra_{oid}"], SCHEMA.mentions, OPENALEX[f"tecnologia_{tid}"]))


print("Mapped relationships ‚úÖ")

# --- 4. EXPORT ---
output_file = "../ttl/openalex_graph.ttl"
g.serialize(destination=output_file, format="turtle")
print(f"RDF graph exported to {output_file} üß©")

# --- 5. Cleanup ---
cur.close()
conn.close()
print("PostgreSQL connection closed üîí")


Connected to database ‚úÖ
Mapped table: tematica ‚úÖ
Mapped table: tecnologia ‚úÖ
Mapped table: obra ‚úÖ
Mapped relationships ‚úÖ
RDF graph exported to ../ttl/openalex_graph.ttl üß©
PostgreSQL connection closed üîí


### CREACI√ìN DE CONSULTAS
---

Para finalizar el proyecto, hemos creado una serie de querys con las que se pueda analizar s√≠ el sistema cumple los objetivos programados.

Primeramente, se prob√≥ si cumpl√≠a el objetivo principal: obtener el n√∫mero de apariciones de distintos lenguajes de programaci√≥n en obras de cada subtem√°tica (o tem√°tica sin hijas) distinta. El resultado fue una tabla donde se listaban todas las combinaciones de t√≥pico y lenguaje distinto dentro de la base de datos, junto al n√∫mero de veces que se repet√≠a esa relaci√≥n. Por lo tanto, se cumpli√≥ la meta descrita al inicio del proyecto.

Para demostrar su funcionamiento, solo hay que utilizar la siguiente consulta en GraphDB:

In [None]:
"""
PREFIX schema: <https://schema.org/>
PREFIX skos: <http://www.w3.org/2004/02/skos/core#>

# Queremos una lista de "aristas" (conexiones)
SELECT ?topicName ?techName (COUNT(DISTINCT ?work) AS ?sharedWorksCount)
WHERE {
    ?work schema:about ?topic .
    ?work schema:mentions ?technology .
    
    OPTIONAL { ?topic skos:prefLabel ?topicName . }
    OPTIONAL { ?technology schema:name ?techName . }
    
    FILTER(BOUND(?topicName) && BOUND(?techName))
}
GROUP BY ?topicName ?techName
ORDER BY DESC(?sharedWorksCount)

"""

Posteriormente, para exprimir los l√≠mites del sistema, decidimos probar una consulta m√°s: Tecnolog√≠as m√°s competitivas entre campos. En esta consulta, se lista el n√∫mero de veces que cada par de tecnolog√≠as distintas (por ejemplo, Python y Java, C++ y Prolog, etc.) aparecen en las mismas obras. Con el resultado, aprendimos que Python y Java eran la dupla que m√°s aparec√≠a en las mismas obras.

Para demostrar su funcionamiento, solo hay que utilizar la siguiente consulta en GraphDB:

In [None]:
"""
PREFIX schema: <https://schema.org/>

SELECT ?techA_name ?techB_name (COUNT(DISTINCT ?topic) AS ?commonTopics)
WHERE {
    # Encuentra la primera tecnolog√≠a (A) mencionada por una obra
    ?workA schema:mentions ?techA .
    ?workA schema:about ?topic .
    ?techA schema:name ?techA_name .

    # Encuentra la segunda tecnolog√≠a (B) mencionada por la misma obra (o una obra sobre el mismo tema)
    ?workB schema:mentions ?techB .
    ?workB schema:about ?topic . # <-- Mismo tema
    ?techB schema:name ?techB_name .

    # Asegura que no sea la misma tecnolog√≠a
    FILTER (?techA != ?techB)

    # Solo queremos los nombres, no las URIs largas
    FILTER(BOUND(?techA_name) && BOUND(?techB_name))
}
GROUP BY ?techA_name ?techB_name
ORDER BY DESC(?commonTopics)
LIMIT 10

"""

### FUTUROS INCREMENTOS
---
Actualmente, en la tabla de tecnolog√≠as almacenamos cerca de 600 filas. Al ver la tabla m√°s de cerca, en realidad, muchas de las tecnolog√≠as utilizadas no son mas que frameworks o derivaciones de ya existentes, por ejemplo, si se busca el lenguaje **Java** en la lista, aparece cerca de 10 veces (sin contar **javascript**): Java, Java-K, Featherweight Java, etc.; y solo Java es un lenguaje de programacion, los demas son derivaciones que usan Java como base. Por degracia, nuestro LLM encargado de encontrar cada tecnologia usada no otorga el lenguaje principal en el que se basa el obtenido, asi que hemos terminado una lista de 600 tecnolog√≠as, que seria interesante simplificar para ajustarnos a nuestros objetivos.

Proponemos como soluci√≥n, reducir tabla de relaciones, eleiminando y sustiuyendo aquellas tecnolog√≠as que no sean lenguajes de programaci√≥n, por aquellas de las que deriva, por ejemplo, sustituir Java-K por Java; y propagar los cambios a la tabla obras y actualizar las relaciones antiguas por las nuevas.

Para ello, identificaremos primero cuales tecnolog√≠as son lenguajes de programaci√≥n y cuales no, utilizando la base de datos con API **Wikidata**, que tiene clase titulada `programming language`. Una vez obtenido cuales son lenguajes de programaci√≥n, proponemos varios m√©todos, para determinar la herencia entre tecnolog√≠as.

El primer metodo consisten en utilizar embeddings para transformar las tecnolog√≠as, y aplicar el algoritmo K-Means para detectar los grupos que se forman entorno a cada lenguaje. Sin embargo, este algoritmo puede presentar varios problemas, siendo uno de ellos, que m√∫ltiples lenguajes de programaci√≥n acaben en un mismo cluster, y otras tecnolog√≠as aparezcan aisladas en un grupo aparte.

Otra soluci√≥n que proponemos, es utilizar de nuevo embeddings, pero en esta vez utilizar el algoritmo K-Nearest Neighbors (K-NN), que teniendo en cuenta cuales son los lenguajes de programaci√≥n, organize cada tecnolog√≠a no identificada como lenguaje alrededor de una que si lo es.

### PARTICIPANTES:
* Jaime Vaquero Rabahieh. Correo: jaime.vaquero@alumnos.upm.es
* Zakaria Lasry Sahraoui. Correo: z.lsahraoui@alumnos.upm.es
* Damian Sanchez Maqueda. Correo: damian.sanchez@alumnos.upm.es
* Radu-Andrei Bourceanu. Correo: r.bourceanu@alumnos.upm.es