# Pipeline: 
**EndNote Lib. >> .xml >> postgreSQL >> (Búsqueda DOI)+INSERT >> .xml >> EndNote Lib.**

Control de etapas del *pipeline* para completado de DOI de la biblioteca de EndNote.

## Módulos

In [1]:
import sys

from extraer_desde_xml.extrac_xml_to_df import (
    extr_opc2, 
    xml_doi, 
    guardar_xml,
    elim_indent
)
import carga_posgres.load as db
from carga_posgres.load import connec
from completar_doi.add_doi import buscar_doi_v0
import temporizador as temp


PATH_XML = "extraer_desde_xml\Endnote_14-8-24.xml"

# SQL
%load_ext sql

## Extracción desde .xml
El archivo .xml es generado desde EndNote con todos los registros de la biblioteca.  
La lógica para la extracción de las referencias almacenadas a registros de un *dataframe* se importa desde [extrac_xml_to_df.py](extraer_desde_xml\extrac_xml_to_df.py).

In [3]:
# xml a DataFrame
df = extr_opc2(PATH_XML)
print(df.head(10))

  nregistro                                            autores   año ciudad  \
0        11     GIBF: Global Biodiversity Information Facility  None   None   
1      2076              Schnell, R.; Agren, D.; Schneider, G.  2008   None   
2      3131    Chen, X.; Zhong, Z.; Xu, Z.; Chen, L.; Wang, Y.  2010   None   
3      2364                                 Nicogossian, A. E.  1994   None   
4      1332                                    Andersen, M. K.  1979   None   
5      3518                                      Khalil, M. S.  2013   None   
6      3525                    Kaspi, Roy; Parrella, Michael P  2005   None   
7      2249  Zhang, W.; ten Hove, M.; Schneider, J. E.; Stu...  2008   None   
8      1351                                       Andersen, K.  1979   None   
9      1710                                      Zandee, D. I.  1967   None   

                           doi editores editorial numero   páginas  \
0                         None     None      None   None    

## Carga a base de datos (postgreSQL)
Para manipular los datos, estos se cargan en una base de datos relacional.

La lógica para la conexión con base de datos y la carga de los registros se importa desde [load.py](carga_posgres\load.py).

Limpieza en celdas conectadas con base de datos (`ipython-sql`).

### Creación de usuario, base y esquema
En terminal *psql*:

### Carga de registros desde dataframe a postgreSQL

In [4]:
conn = connec()
# Asegurar tabla de destino
db.tabla_referencias(conn)

# Carga de dataframe a postgres
db.load_all(conn, df, False)

conn.close()

COMMIT >CREATE TABLE IF NOT EXISTS endnote.referencias<
> ERROR en commit a endnote.referencias <


### Limpieza de campos
Contectar notebook con base de datos

In [5]:
# Conectar ipynb con postgreSQL
%sql postgresql://editor_en:editarend24@localhost:5432/endnote_refs

Consultas SQL para limpieza de columna `año` y su *casteo* a tipo `INTEGER`.  

In [6]:
%%sql
-- Contar años erroneos
SELECT tipo,
       COUNT(CASE WHEN LENGTH(año) > 4 THEN 1 END) AS errores,
       COUNT(CASE WHEN LENGTH(año) <= 4 THEN 1 END) AS correctos,
       COUNT(*) AS n
FROM endnote_refs.endnote.referencias
GROUP BY tipo;

 * postgresql://editor_en:***@localhost:5432/endnote_refs
14 rows affected.


tipo,errores,correctos,n
Thesis,0,12,12
Online Multimedia,0,1,1
Book,0,59,60
Web Page,0,20,20
Journal Article,1,2355,2356
Report,0,2,2
Conference Paper,0,4,4
Catalog,0,1,1
Newspaper Article,0,1,1
Book Section,0,61,61


In [7]:
%%sql
-- Ver años erroneos por tipo de registro
select * from endnote_refs.endnote.referencias
		where LENGTH(año) > 4;

 * postgresql://editor_en:***@localhost:5432/endnote_refs
1 rows affected.


nregistro,autores,año,ciudad,doi,editores,editorial,numero,páginas,revis_ab1,revis_ab2,revista_full,tipo,titl_sec,titulo,url,volumen
2795,"Amalin, D. M.; Peña, J. E.; Mcsorley, R.; Browning, H. W.; Crane, J. H.",2001 : -/101603/0046-225-3061021 - →,,10.1603/0046-225x-30.6.1021,,,6,1021–1027,,,,Journal Article,Environmental Entomology,Effects of Pesticides on the Arthropod Community in the Agricultural Areas near the Everglades National Park,,30


In [8]:
%%sql
-- Reparar años con errores de tipeo:
--- eliminar espacios
UPDATE endnote_refs.endnote.referencias
SET año = REGEXP_REPLACE(año, ' ', '', 'g');

--- eliminar letras
UPDATE endnote_refs.endnote.referencias
SET año = REGEXP_REPLACE(año, '[a-zA-Z]', '', 'g');

--- eliminar "."
UPDATE endnote_refs.endnote.referencias
SET año = REPLACE(año, '.', '')
WHERE año LIKE '%.%';

 * postgresql://editor_en:***@localhost:5432/endnote_refs


2524 rows affected.
2524 rows affected.
0 rows affected.


[]

Transformar **año** a `INTEGER`:

In [9]:
%%sql

ALTER TABLE endnote.referencias
ALTER COLUMN año TYPE INTEGER USING año::INTEGER;

 * postgresql://editor_en:***@localhost:5432/endnote_refs
»/101603/0046-225-3061021extRepresentation) la sintaxis de entrada no es válida para integer: «2001

[SQL: ALTER TABLE endnote.referencias
ALTER COLUMN año TYPE INTEGER USING año::INTEGER;]
(Background on this error at: https://sqlalche.me/e/20/9h9h)


In [10]:
%%sql
-- proporción doi nulos
SELECT ((SELECT count(*) FROM endnote.referencias WHERE doi is null)::float / 
		(SELECT count(*) FROM endnote.referencias)::float)*100 as "% doi nul";

 * postgresql://editor_en:***@localhost:5432/endnote_refs
1 rows affected.


% doi nul
39.4611727416799


## Completar DOIs faltantes
Las funciones de búsqueda (empleando [API de *Crossref*](https://search.crossref.org/)) se importan desde [add_doi.py](completar_doi\add_doi.py)

Debido a las complicaciones particulares de cada tipo de referencia, este paso se realiza por separado para los **tipo = "Journal Article"**.

**Función de búsqueda: `add_doi.buscar_doi_v0`**

Sencilla envoltura para el método `Crossref.works` del módulo **habanero**. Solo se emplea en la búsqueda el título como argumento. Por defecto se seleccionan los primeros 10 resultados. De entre estos solo se acepta el que posea más de 80% de palabras iguales al título introducido.

**Log de búsqueda: `logging`**

Los .txt con los resultados completo de búsqueda para cada título se almacenan en carpeta *completar_doi/*

In [2]:
# Función para para mapear el DOI (de Crossref) sobre títulos
def map_doi(tit):
    res = buscar_doi_v0(
        titulo = tit, 
        nitems = 10,
        terminal= True
    )
    return res['DOI'] if res else 'no hallado'


# Función búsqueda y log de búsqueda (prueba con `map`)
def logging(funcion, path):
    '''Guardar salida por terminal en `path` proporcionado'''
    with open(path, "a", encoding="UTF-8") as log:
        sys.stdout = log
        print(f"\n== t: {temp.timestamp()} ==")
        res = funcion()

    sys.stdout = sys.__stdout__

    return res

### Búsqueda DOI por título

In [3]:
# Conexión con base de datos gracias a `psycopg2`
conn = connec()

# Contar doi faltantes por tipo de referencia
resp = db.query_sql(conn, 
    '''select tipo, count(*) from endnote.referencias where doi is null group by tipo;'''
)
for r in resp:print(r)

('Thesis', 10)
('Online Multimedia', 1)
('Book', 42)
('Web Page', 18)
('Online Database', 1)
('Generic', 2)
('Journal Article', 873)
('Conference Proceedings', 2)
('Legal Rule or Regulation', 1)
('Report', 2)
('Conference Paper', 4)
('Newspaper Article', 1)
('Book Section', 39)


Crear 3 grupos de búsqueda separados:
- "Journal Article"
- "Book" + "Book Section"
- "Thesis" + "'Online Multimedia"+ "Generic"+"Online Database" +"Legal Rule or Regulation"+"Conference Proceedings"+ "Conference Paper"+"Report"+"Newspaper Article"

En las primeras pruebas, se usaba `map` para introducir cada título de una lista  para cada subgrupo, en una función que llamaba a `load.buscar_doi_v0` que realiza la consulta a la API. Este proceso era continuo para los n registros del grupo (cientos). El problema es que era casi seguro que fallara algo (probablemente debido a la conexión http?) y toda la ejecusión no se guardaba. Por ello debe asegurarse cada respuesta de la API. Esto, en combinación con al captura del log (info de resultados) debería mejorar la efectividad de la búsqueda.

In [13]:
# Filtrar y separar por tipo de referencia
sin_doi = dict()
col_n = db.colnames(conn, db.ESQUEMA, "referencias")

jour_ar = db.query_sql(conn, 
    '''
    select * from endnote.referencias 
    where doi is null and
          tipo = 'Journal Article'
    ;'''
)
sin_doi["jour_ar"] = db.registros_a_df(jour_ar, col_n)


books = db.query_sql(conn, 
    '''
    select * from endnote.referencias 
    where doi is null and
          (tipo = 'Book' or
          tipo = 'Book Section')
    ;'''
)
sin_doi["books"] = db.registros_a_df(books, col_n)

otr = db.query_sql(conn, 
    '''
    select * from endnote.referencias 
    where doi is null and
          (tipo != 'Book' or
          tipo != 'Book Section' or
          tipo !=  'Journal Article')
    ;'''
)
sin_doi["otr"] = db.registros_a_df(otr, col_n)

#### Búsqueda por pasos
Se usa `tit_a_doi` para trabajar sobre los registros del diccionario de DataFrames, realizar las búsquedas con **Crossref** (`add_doi.py`) y guardar los resultados a medida que retornan las consultas de la API. Simultaneamente se guardan en *completar_doi/* el historial de búsqueda. 

In [14]:
# Funciones de búsqueda y logging
## Tabla SQL para resultados de búsqueda
t_doi_todo = "busq_doi_todo"

db.query_sql(conn,f'''
    create table if not exists endnote.{t_doi_todo} (
        nregistro INTEGER NOT NULL PRIMARY KEY,        
        titulo VARCHAR(440),
        doi_nuevo VARCHAR(125)
        );''', 
        cerrar = False
)

## Asegurar resultados de búsqueda de DOI
def tit_a_doi(datos:dict, clave:str):
    df = datos[clave]
    path_log = f"completar_doi\\log_busq_{clave}.txt"

    with open(path_log, "w") as f:
        f.write(f"Creado: {temp.timestamp()}\n")
    
    nregis = df["nregistro"].to_list()

    for n in nregis:
        n_tit = df[df["nregistro"] == n].iloc[0]["titulo"]
        if n_tit is not None:
            n_tit = n_tit.replace("'","")
        
        try:
            doi = logging(lambda: map_doi(n_tit), path_log) 
        except:
            doi = "ERROR API"
        
        # NOTE: `ON CONFLICT (col) DO NOTHING` no está disponible en PostgreSQL 9.3.25
        db.query_sql(conn, f'''
        INSERT INTO endnote.{t_doi_todo} (nregistro, titulo, doi_nuevo)
        SELECT {n}, '{n_tit}', '{doi}'
        WHERE NOT EXISTS (
            SELECT 1 FROM endnote.{t_doi_todo} WHERE nregistro = {n}
        );''')


!!!  no results to fetch


In [15]:
# BUSCAR y GUARDAR: Journal Article

tit_a_doi(sin_doi, "jour_ar")

In [None]:
# BUSCAR y GUARDAR: Books y Secc

tit_a_doi(sin_doi, "books")

In [None]:
# BUSCAR y GUARDAR: Otros

tit_a_doi(sin_doi, "otr")

Resultados de las tres búsquedas:

In [None]:
%%sql

select 
    (CASE WHEN doi_nuevo != 'no hallado' THEN 'doi' ELSE 'no hallado' END) as doi_busqueda,
    count(*) as n
from 
    endnote.busq_doi_todo
group by doi_busqueda;

 * postgresql://editor_en:***@localhost:5432/endnote_refs
2 rows affected.


doi_busqueda,n
no hallado,419
doi,574


## Creación de archivo de importación a Endnote

### Editar .xml con nuevos datos de DOI
Los doi obtenidos de **Crossref** deben ser introducidos en la etiqueta `electronic-resource-num` del correspondiente registro en el archivo **.xml**.

In [2]:
conn = db.connec()
q_1 =     '''
    select nregistro, doi_nuevo
    from endnote.busq_doi_todo
    where doi_nuevo != 'no hallado';
    '''

q_2 = '''
select viejo.nregistro as nregistro, nuevo.doi_nuevo as doi_nuevo
from endnote.referencias as viejo
left join endnote.busq_doi_todo as nuevo
on nuevo.nregistro = viejo.nregistro
where nuevo.doi_nuevo is not null and nuevo.doi_nuevo like '10.%';
'''
doi = db.query_sql(conn,
    q_2
)

df_doi = db.registros_a_df(doi, ["nregistro", "doi_nuevo"])

# print(None in list(df_doi["doi_nuevo"]))

xml_actualizado = xml_doi(PATH_XML, df_doi)


print(
    xml_actualizado.findtext()
)

**Inconveniente con indentado:**

La funcionalidad de exportación / importación de registros como archivos xml de Endnote requiere que el archivo **no posea indentación**, sinó contiguas en forma "compacta".

In [3]:
# eliminar "\n" y "\s" entre etiquetas

xml_formateado = elim_indent(xml_actualizado)

### Guardar archivo .xml compatible con EndNote

In [4]:
# guardar .xml con formato apto para importar en EndNote
PATH_SALIDA = "actualizar_en\EN_bibl_actualizada6.xml"
guardar_xml(xml_formateado, PATH_SALIDA)

GUARDADO: actualizar_en\EN_bibl_actualizada6.xml


## Importar a EndNote
Solo resta usar la funcionalidad de EndNote (v.20.2.1) *File > Importa > File.. > Import Options: Endnote generated XML* para cargar en una biblioteca (.enl) existente los registros editados.  
**IMPORTANTE:**. Se recomienda crear una biblioteca nueva, para evitar la duplicación de registros.