# Pipeline: 
### EndNote Lib. >> .xml >> postgreSQL >> (Búsqueda DOI)+INSERT >> .enw >> EndNote Lib.

Control de etapas del *pipeline* para completado de DOI de la biblioteca de EndNote.

**Notas:**  
...

## Módulos

In [11]:
import sys
import platform
import io 

from extraer_desde_xml.extrac_xml_to_df import extr_opc2
import carga_posgres.load as db
from carga_posgres.load import connec
from completar_doi.add_doi import buscar_doi_v0
import temporizador as temp

if platform.system() == "Windows":
    # Cambiar la codificación de la salida estándar a UTF-8
    sys.stdout = io.TextIOWrapper(sys.stdout.detach(), encoding='utf-8')


PATH_XML = "extraer_desde_xml/Endnote 09-08-24.xml"

# SQL
%load_ext sql

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


## Extracción desde .xml
El archivo .xml es generado desde EndNote con todos los registros de la biblioteca.  
La lógica para la extracción de las referencias almacenadas a registros de un *dataframe* se importa desde [extrac_xml_to_df.py](extraer_desde_xml\extrac_xml_to_df.py).

In [2]:

df = extr_opc2(PATH_XML)
print(df.head(10))

  nregistro                                            autores   año ciudad  \
0      2892  Ministry of Agriculture and Rural Affairs of t...  2013   None   
1      2879                    Butt A.; Talib, R.; Khan, M. X.  2019   None   
2      3561  Abbes, Khaled; Biondi, Antonio; Kurtulus, Alic...  2015   None   
3      3035             Abdelfattah, E. A.; El-Bassiony, G. M.  2022   None   
4      3573  Abdollahi, Mohammad; Ranjbar, Akram; Shadnia, ...  2004   None   
5      3584  Abele, Doris; Heise, Katja; Portner, HO; Punta...  2002   None   
6      3520  Abo-El-Saad, Mahmoud M; Elshafie, Hamadttu A; ...  2013   None   
7      2835  Abou-Donia, M. B.; Goldstein, L. B.; Bullman, ...  2008   None   
8      1398  Abreu, L.A.; Valle, D.; Manso. P.P.A.; Façanha...  2004   None   
9      1399  Abreu, T. F.; Sumitomo, B. N.; Nishiyama, M. Y...  2017   None   

                                                 doi editores editorial  \
0                                               None   

## Carga a base de datos (postgreSQL)
Para manipular los datos, estos se cargan en una base de datos relacional. Las operaciones previas necesarias se guardaron en el [Historial completo de Consultas SQL](sql_history.sql).

La lógica para la conexión con base de datos y la carga de los registros se importa desde [load.py](carga_posgres\load.py).

Limpieza en celdas conectadas con base de datos (`ipython-sql`).

In [None]:
conn = connec()
# Asegurar tabla de destino
db.tabla_referencias(conn)

# Carga de dataframe a postgres
db.load_all(conn, df, True)

conn.close()

In [10]:
# Conectar ipynb con postgreSQL
%sql postgresql://editor_en:editarend24@localhost:5432/endnote_refs

Consultas SQL para limpieza de columna `año` y su *casteo* a tipo `INTEGER`.  

In [8]:
%%sql
-- Contar años erroneos
SELECT tipo,
       COUNT(CASE WHEN LENGTH(año) > 4 THEN 1 END) AS errores, -- 1 es solo por que hay que poner algo (evaua que sea verdadero)
       COUNT(CASE WHEN LENGTH(año) <= 4 THEN 1 END) AS correctos,
       COUNT(*) AS n
FROM endnote_refs.endnote.referencias
GROUP BY tipo;

 * postgresql://editor_en:***@localhost:5432/endnote_refs
14 rows affected.


tipo,errores,correctos,n
Journal Article,8,2352,2360
Book,2,56,59
Conference Paper,0,4,4
Conference Proceedings,0,3,3
Legal Rule or Regulation,0,1,1
Generic,0,3,3
Catalog,0,1,1
Online Database,0,0,1
Thesis,1,11,12
Web Page,0,19,19


In [12]:
%%sql
-- Ver años erroneos por tipo de registro
select * from endnote_refs.endnote.referencias
		where LENGTH(año) > 4;

 * postgresql://editor_en:***@localhost:5432/endnote_refs
10 rows affected.


nregistro,autores,año,ciudad,doi,editores,editorial,numero,páginas,revis_ab1,revis_ab2,revista_full,tipo,titl_sec,titulo,url,volumen
1474,"Ferenz, H. J.",1985,,,,,11.0,602-603,Naturwissenschaften,Naturwissenschaften,Naturwissenschaften,Journal Article,Naturwissenschaften,Triacylglycerol synthesis in locust oocytes,,72.0
544,"Filshie, B. K. ; Hadley, N. F.",1979,,,,,2.0,249-262,,,,Journal Article,Tissue & Cell,"Fine structure of the cuticle of the desert scorpion, Hadrurus arizonenesis",,11.0
274,"Garda, H.A.; Bernasconi, A.M.; Brenner, R.R.",1994,,,,,,1367-1377,J. Lipid Res.,J Lipid Res,Journal of Lipid Research,Journal Article,J. Lipid Res.,Possible compensation of structural and viscotropic properties in hepatic microsomes and erythrocyte membranes of rats with essential fatty acid deficiency,,35.0
1059,"Gonzalez-Baró, M. R. ; Heras, H.; Pollero, R. J.",2000,,10.1002/(SICI)1097-010X(20000215)286:3<231::AID-JEZ2>3.0.CO;2-1,,,,,,,,Journal Article,Journal of Experimental Zoology,Enzyme activities involved in lipid metabolism during embryonic development of Macrobrachium borellii,,286.0
333,"Majkus, Z.",1988.,Praha,,,Statni Pedagogicke Nakladatelstvi,,,,,,Book,,Ekologicko-faunisticka´ charakteristika arachnocenoz vybranych ostravskych hald.,,
551,"Ring, R. A.",1981,,,,,,219-229,J. Therm. Biol.,J Therm Biol,Journal of Thermal Biology,Journal Article,J. therm. Biol.,The physiology and biochemistry of cold tolerance in artic insects,,6.0
2849,"Stearns, S. C.",1992,Oxford,,,Oxford University Press,,,,,,Book,,The evolution of life histories,,
2895,"Studebaker, G. E.; Kring, T. J.; Gbur, E.",2003Journal,,10.18474/0749-8004-38.4.711,,,4.0,711-713,,,,Journal Article,Journal of Entomological Science,"λ-Cyhalothrin, Imidacloprid and Spinosad Impacts on Movement of Predatory Arthropods in Cotton",,38.0
3029,"Valavanidis, A. ; Vlahogianni, T. ; Dassenakis, M. ; Scoullos, M.",2006,,10.1016/j.ecoenv.2005.03.013,,,2.0,178-189,Ecotoxicol Environ Saf,Ecotoxicol. Environ. Saf.,Ecotoxicology and Environmental Safety,Journal Article,Ecotoxicol. Environ. Saf.,Molecular biomarkers of oxidative stress in aquatic organisms in relation to toxic environmental pollutants,,64.0
1700,"Wibo, K.",1966,,,,Universite Catholique de Louvain.,,,,,,Thesis,,Recherches sur les hemocyanines des arthropodes:constantes de sedimentation et aspects morphologiques,,


In [None]:
-- Ver años erroneos por tipo de registro
select * from endnote_refs.endnote.referencias
		where LENGTH(año) > 4;

-- Reparar años con errores de tipeo:
UPDATE endnote.referencias
	SET año='1998'
	WHERE nregistro=1774;
UPDATE endnote.referencias
	SET año='2001'
	WHERE nregistro=2795;
UPDATE endnote.referencias
	SET año='1985'
	WHERE nregistro=1474;
UPDATE endnote.referencias
	SET año='1979'
	WHERE nregistro=544;
UPDATE endnote.referencias
	SET año='1994'
	WHERE nregistro=274;
UPDATE endnote.referencias
	SET año='2000'
	WHERE nregistro=1059;
UPDATE endnote.referencias
	SET año='1988'
	WHERE nregistro=333;
UPDATE endnote.referencias
	SET año='1981'
	WHERE nregistro=551;
UPDATE endnote.referencias
	SET año='1992'
	WHERE nregistro=2849;
UPDATE endnote.referencias
	SET año='2003'
	WHERE nregistro=2895;
UPDATE endnote.referencias
	SET año='2006'
	WHERE nregistro=3029;
UPDATE endnote.referencias
	SET año='1966'
	WHERE nregistro=1700;

-- Verificar 

select año, count(*)  from endnote.referencias
	where LENGTH(año) = 4
	group by año;

## Completar DOIs faltantes
Las funciones de búsqueda (empleando [API de *Crossref*](https://search.crossref.org/)) se importan desde [add_doi.py](completar_doi\add_doi.py)

Debido a las complicaciones particulares de cada tipo de referencia, este paso se realiza por separado para los **tipo = "Journal Article"**.

### DOIs para registros de "Journal Article" y posterior a 2000s
Primer intento de busqueda solo para artículos en journals, que parece que son más fáciles de ubicar con *crossref* usando el título. Además se limitó a los más modernos (>2000).

In [11]:
# DOI solo relevante luego de los 2000
conn = connec()
resp = db.query_sql(conn,'''
    select nregistro, titulo from endnote.referencias 
        where 
            año > 2000 and
            doi is null and
            tipo = 'Journal Article';
''', cerrar = False)

df_sindoi = db.registros_a_df(resp, ["nregistro", "titulo"])

titulos = list(df_sindoi['titulo'])

def map_doi(tit):
    res = buscar_doi_v0(
        titulo = tit, 
        nitems = 10,
        terminal= True
    )
    return res['DOI'] if res else 'no hallado'

dois = list(map(lambda t: map_doi(t), titulos))
df_sindoi.insert(2, "doi_nuevo", dois)

db.query_sql(conn,'''
    create table if not exists endnote.busqueda_doi (
        nregistro INTEGER NOT NULL PRIMARY KEY,        
        titulo VARCHAR(440),
        doi_nuevo VARCHAR(125)
        );''', 
        cerrar = False
)

# INSERTAR en tabla "busqueda_doi"

db.load_to(conn,df_sindoi, db.ESQUEMA, "busqueda_doi")

# Pasar a tabla "referencias" los DOI descargados
db.query_sql(conn, '''
        UPDATE endnote.referencias r
        SET doi = bd.doi_nuevo
        from   (select nregistro, doi_nuevo
                from endnote.busqueda_doi
                where doi_nuevo != 'no hallado') as bd
        where 
                bd.nregistro = r.nregistro;''', 
        cerrar = False
)


UndefinedFunction: operator does not exist: character varying > integer
LINE 4:             año > 2000 and
                        ^
HINT:  No operator matches the given name and argument types. You might need to add explicit type casts.


### DOI para toda la biblioteca en un paso

In [10]:
conn = connec()
resp = db.query_sql(conn,'''
    select nregistro, titulo from endnote.referencias 
        where
            doi is null ;
''', cerrar = False)

df = db.registros_a_df(resp, ["nregistro", "titulo"])
print(df.head(5))

   nregistro                                             titulo
0       2892  The Ministry of Agriculture Announcement No. 2...
1       3561  Combined non-target effects of insecticide and...
2       3573          Pesticides and oxidative stress: a review
3       3584  Temperature-dependence of mitochondrial functi...
4       3520  Toxicity of bio-insecticide, Abamectin, on red...
