# Pipeline: 
**EndNote Lib. >> .xml >> postgreSQL >> (Búsqueda DOI)+INSERT >> EndNote Lib.**

Control de etapas del *pipeline* para completado de DOI de la biblioteca de EndNote.

## Módulos

In [1]:
import sys
import pandas as pd
# import io 

from extraer_desde_xml.extrac_xml_to_df import extr_opc2, xml_doi
import carga_posgres.load as db
from carga_posgres.load import connec
from completar_doi.add_doi import buscar_doi_v0
import temporizador as temp

# if platform.system() == "Windows":
#     # Cambiar la codificación de la salida estándar a UTF-8
#     sys.stdout = io.TextIOWrapper(sys.stdout.detach(), encoding='utf-8')


PATH_XML = "extraer_desde_xml/Endnote 09-08-24.xml"

# SQL
%load_ext sql

## Extracción desde .xml
El archivo .xml es generado desde EndNote con todos los registros de la biblioteca.  
La lógica para la extracción de las referencias almacenadas a registros de un *dataframe* se importa desde [extrac_xml_to_df.py](extraer_desde_xml\extrac_xml_to_df.py).

In [2]:

df = extr_opc2(PATH_XML)
print(df.head(10))

  nregistro                                            autores   año ciudad  \
0      2892  Ministry of Agriculture and Rural Affairs of t...  2013   None   
1      2879                    Butt A.; Talib, R.; Khan, M. X.  2019   None   
2      3561  Abbes, Khaled; Biondi, Antonio; Kurtulus, Alic...  2015   None   
3      3035             Abdelfattah, E. A.; El-Bassiony, G. M.  2022   None   
4      3573  Abdollahi, Mohammad; Ranjbar, Akram; Shadnia, ...  2004   None   
5      3584  Abele, Doris; Heise, Katja; Portner, HO; Punta...  2002   None   
6      3520  Abo-El-Saad, Mahmoud M; Elshafie, Hamadttu A; ...  2013   None   
7      2835  Abou-Donia, M. B.; Goldstein, L. B.; Bullman, ...  2008   None   
8      1398  Abreu, L.A.; Valle, D.; Manso. P.P.A.; Façanha...  2004   None   
9      1399  Abreu, T. F.; Sumitomo, B. N.; Nishiyama, M. Y...  2017   None   

                                                 doi editores editorial  \
0                                               None   

## Carga a base de datos (postgreSQL)
Para manipular los datos, estos se cargan en una base de datos relacional.

La lógica para la conexión con base de datos y la carga de los registros se importa desde [load.py](carga_posgres\load.py).

Limpieza en celdas conectadas con base de datos (`ipython-sql`).

### Creación de usuario, base y esquema
En terminal *psql*:

### Carga de registros desde dataframe a postgreSQL

In [None]:
conn = connec()
# Asegurar tabla de destino
db.tabla_referencias(conn)

# Carga de dataframe a postgres
db.load_all(conn, df, True)

conn.close()

### Limpieza de campos
Contectar notebook con base de datos

In [2]:
# Conectar ipynb con postgreSQL
%sql postgresql://editor_en:editarend24@localhost:5432/endnote_refs

Consultas SQL para limpieza de columna `año` y su *casteo* a tipo `INTEGER`.  

In [None]:
%%sql
-- Contar años erroneos
SELECT tipo,
       COUNT(CASE WHEN LENGTH(año) > 4 THEN 1 END) AS errores,
       COUNT(CASE WHEN LENGTH(año) <= 4 THEN 1 END) AS correctos,
       COUNT(*) AS n
FROM endnote_refs.endnote.referencias
GROUP BY tipo;

In [19]:
%%sql
-- Ver años erroneos por tipo de registro
select * from endnote_refs.endnote.referencias
		where LENGTH(año) > 4;

 * postgresql://editor_en:***@localhost:5432/endnote_refs
0 rows affected.


nregistro,autores,año,ciudad,doi,editores,editorial,numero,páginas,revis_ab1,revis_ab2,revista_full,tipo,titl_sec,titulo,url,volumen


In [18]:
%%sql
-- Reparar años con errores de tipeo:
--- eliminar espacios
UPDATE endnote_refs.endnote.referencias
SET año = REGEXP_REPLACE(año, ' ', '', 'g');

--- eliminar letras
UPDATE endnote_refs.endnote.referencias
SET año = REGEXP_REPLACE(año, '[a-zA-Z]', '', 'g');

--- eliminar "."
UPDATE endnote_refs.endnote.referencias
SET año = REPLACE(año, '.', '')
WHERE año LIKE '%.%';

 * postgresql://editor_en:***@localhost:5432/endnote_refs
2529 rows affected.
2529 rows affected.
1 rows affected.


[]

Transformar **año** a `INTEGER`:

In [20]:
%%sql

ALTER TABLE endnote.referencias
ALTER COLUMN año TYPE INTEGER USING año::INTEGER;

 * postgresql://editor_en:***@localhost:5432/endnote_refs
Done.


[]

In [34]:
%%sql
-- proporción doi nulos
SELECT ((SELECT count(*) FROM endnote.referencias WHERE doi is null)::float / 
		(SELECT count(*) FROM endnote.referencias)::float)*100 as "% doi nul";

 * postgresql://editor_en:***@localhost:5432/endnote_refs
1 rows affected.


% doi nul
40.05535784895216


## Completar DOIs faltantes
Las funciones de búsqueda (empleando [API de *Crossref*](https://search.crossref.org/)) se importan desde [add_doi.py](completar_doi\add_doi.py)

Debido a las complicaciones particulares de cada tipo de referencia, este paso se realiza por separado para los **tipo = "Journal Article"**.

### Funciones generales

In [9]:
# Función para para mapear el DOI (de Crossref) sobre títulos
def map_doi(tit):
    res = buscar_doi_v0(
        titulo = tit, 
        nitems = 10,
        terminal= True
    )
    return res['DOI'] if res else 'no hallado'


# Función búsqueda y log de búsqueda (prueba con `map`)
def tit_a_doi(mapa:map, txt_path:str):
    with open(txt_path, "w", encoding="UTF-8") as log:
        sys.stdout = log
        dois = list(mapa)

    sys.stdout = sys.__stdout__

    return dois

def logging(funcion, path):
    '''Guardar salida por terminal en `path` proporcionado'''
    with open(path, "a", encoding="UTF-8") as log:
        sys.stdout = log
        print(f"\n== t: {temp.timestamp()} ==")
        res = funcion()

    sys.stdout = sys.__stdout__

    return res
    

### Ensayo: solo "Journal Article" y > 2000s
Primer intento de busqueda solo para artículos en journals, que parece que son más fáciles de ubicar con *crossref* usando el título. Además se limitó a los más modernos (>2000).

In [44]:
# DOI solo relevante luego de los 2000
conn = connec()
resp = db.query_sql(conn,'''
    select nregistro, titulo from endnote.referencias 
        where 
            año > 2000 and
            doi is null and
            tipo = 'Journal Article';
''', cerrar = False)

df_sindoi = db.registros_a_df(resp, ["nregistro", "titulo"])

titulos = list(df_sindoi['titulo'])

print(titulos)



In [None]:

dois = list(map(lambda t: map_doi(t), titulos))
df_sindoi.insert(2, "doi_nuevo", dois)

db.query_sql(conn,'''
    create table if not exists endnote.busqueda_doi (
        nregistro INTEGER NOT NULL PRIMARY KEY,        
        titulo VARCHAR(440),
        doi_nuevo VARCHAR(125)
        );''', 
        cerrar = False
)

# INSERTAR en tabla "busqueda_doi"

db.load_to(conn,df_sindoi, db.ESQUEMA, "busqueda_doi")

# 

# Pasar a tabla "referencias" los DOI descargados
db.query_sql(conn, '''
        UPDATE endnote.referencias r
        SET doi = bd.doi_nuevo
        from   (select nregistro, doi_nuevo
                from endnote.busqueda_doi
                where doi_nuevo != 'no hallado') as bd
        where 
                bd.nregistro = r.nregistro;''', 
        cerrar = False
)


### Búsqueda DOI para toda la biblioteca
Luego de probar solo con los papers, probar con todos los tipos de registros de la base.

In [10]:
conn = connec()

# Contar doi faltantes por tipo de referencia
resp = db.query_sql(conn, 
    '''select tipo, count(*) from endnote.referencias where doi is null group by tipo;'''
)
for r in resp:print(r)

Crear 3 grupos de búsqueda separados:
- "Journal Article": 643
- "Book" + "Book Section":  96
- "Thesis" + "'Online Multimedia"+ "Generic"+"Online Database" +"Legal Rule or Regulation"+"Conference Proceedings"+ "Conference Paper"+"Report"+"Newspaper Article": 785

En las primeras pruebas, se usaba `map` para introducir cada título de una lista  para cada subgrupo, en una función que llamaba a `load.buscar_doi_v0` que realiza la consulta a la API. Este proceso era continuo para los n registros del grupo (cientos). El problema es que era casi seguro que fallara algo (probablemente debido a la conexión http?) y toda la ejecusión no se guardaba. Por ello debe asegurarse cada respuesta de la API. Esto, en combinación con al captura del log (info de resultados) debería mejorar la efectividad de la búsqueda.

In [11]:
# Filtrar y separar por tipo de referencia
sin_doi = dict()
col_n = db.colnames(conn, db.ESQUEMA, "referencias")

jour_ar = db.query_sql(conn, 
    '''
    select * from endnote.referencias 
    where doi is null and
          tipo = 'Journal Article'
    ;'''
)
sin_doi["jour_ar"] = db.registros_a_df(jour_ar, col_n)


books = db.query_sql(conn, 
    '''
    select * from endnote.referencias 
    where doi is null and
          (tipo = 'Book' or
          tipo = 'Book Section')
    ;'''
)
sin_doi["books"] = db.registros_a_df(books, col_n)

otr = db.query_sql(conn, 
    '''
    select * from endnote.referencias 
    where doi is null and
          (tipo != 'Book' or
          tipo != 'Book Section' or
          tipo !=  'Journal Article')
    ;'''
)
sin_doi["otr"] = db.registros_a_df(otr, col_n)

# for k in sin_doi.keys():
#     print(k,len(sin_doi[k]))

#### Búsqueda por pasos
Se usa `tit_a_doi_v2` para trabajar sobre los registros del diccionario de DataFrames, realizar las búsquedas con **Crossref** (`add_doi.py`) y guardar los resultados a medida que retornan las consultas de la API. Simultaneamente se guardan en *completar_doi/* el historial de búsqueda. 

In [12]:
# Funciones de búsqueda y logging
## Tabla SQL para resultados de búsqueda
t_doi_todo = "busq_doi_todo"

db.query_sql(conn,f'''
    create table if not exists endnote.{t_doi_todo} (
        nregistro INTEGER NOT NULL PRIMARY KEY,        
        titulo VARCHAR(440),
        doi_nuevo VARCHAR(125)
        );''', 
        cerrar = False
)

## Asegurar resultados de búsqueda de DOI
def tit_a_doi_v2(datos:dict, clave:str):
    df = datos[clave]
    path_log = f"completar_doi\\log_busq_{clave}.txt"

    with open(path_log, "w") as f:
        f.write(f"Creado: {temp.timestamp()}\n")
    
    nregis = df["nregistro"].to_list()

    for n in nregis:
        n_tit = df[df["nregistro"] == n].iloc[0]["titulo"]
        if n_tit is not None:
            n_tit = n_tit.replace("'","")
        
        try:
            doi = logging(lambda: map_doi(n_tit), path_log) 
        except:
            doi = "ERROR API"
            
        db.query_sql(conn, f'''
        INSERT INTO endnote.{t_doi_todo} (nregistro, titulo, doi_nuevo)
        SELECT {n}, '{n_tit}', '{doi}'
        WHERE NOT EXISTS (
            SELECT 1 FROM endnote.{t_doi_todo} WHERE nregistro = {n}
        );''')


        # NOTE: `ON CONFLICT (col) DO NOTHING` no está disponible en PostgreSQL 9.3.25
        # En versiones posteriores a la 9.5 hubiera usado:
        # f'''
        # insert into endnote.{t_doi_todo} (nregistro, titulo, doi_nuevo)
        # VALUES ({n}, '{n_tit}', '{doi}') 
        # ON CONFLICT (nregistro) DO NOTHING;
        # '''

In [11]:
# BUSCAR y GUARDAR: Journal Article

tit_a_doi_v2(sin_doi, "jour_ar")

In [7]:
# BUSCAR y GUARDAR: Books y Secc

tit_a_doi_v2(sin_doi, "books")

In [13]:
# BUSCAR y GUARDAR: Otros

tit_a_doi_v2(sin_doi, "otr")

Resultados de las tres búsquedas:

In [6]:
%%sql

select 
    (CASE WHEN doi_nuevo != 'no hallado' THEN 'doi' ELSE 'no hallado' END) as doi_busqueda,
    count(*) as n
from 
    endnote.busq_doi_todo
group by doi_busqueda;

 * postgresql://editor_en:***@localhost:5432/endnote_refs
2 rows affected.


doi_busqueda,n
no hallado,418
doi,335


## Editar xml

Los doi obtenidos de **Crossref** deben ser introducidos en la etiqueta `electronic-resource-num` del correspondiente registro en el archivo **.xml**.

In [3]:
conn = db.connec()

doi = db.query_sql(conn,
    '''
    select nregistro, doi_nuevo
    from endnote.busq_doi_todo
    where doi_nuevo != 'no hallado';
    '''
)

df_doi = db.registros_a_df(doi, ["nregistro", "doi_nuevo"])

PATH_SALIDA = "actualizar_en\EN_bibl_actualizada.xml"
PATH_XML
xml_doi(PATH_XML, df_doi, PATH_SALIDA)

GUARDADO: actualizar_en\EN_bibl_actualizada.xml
