<a href="https://colab.research.google.com/github/restrepo/medicion/blob/master/cienciometria/Query_CTR-FCEN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Búsquedas WOS+SCI+SCP+PTJ+CTR para FCEN

Búsquedas en bases bibligráficas  
* Web of Science (WOS), 
* Scielo (SCI)
* Scopus  (SCP)
* Puntaje (UDEA)
* Center (CTR)
de los artículos científicos de la UdeA

La base de datos se creó con:

[WOS_SCI_SCP_PTJ_CTR.ipynb](./WOS_SCI_SCP_PTJ_CTR.ipynb)

In [178]:
import os
VERSION='NEW'
if os.getcwd()=='/content':
    !pip install openpyxl xlrd wosplus fuzzywuzzy[speedup] > /dev/null

## functions

In [1]:
import pandas as pd
import wosplus as wp

##  Configure public links of  files in Google Drive
* If it is a Google Spreadsheet the corresponding file is downloaded as CSV
* If it is in excel/json or text file the file is downloaded  directly

To define your  own labeled IDs for public google drive files edit the next cell:

In [2]:
%%writefile drive.cfg
[FILES]
WOS_SCI_SCP_PTJ_CTR.json.gz=19E1C1kRk4I0V3uXojqko8-NEicWaPp1j

Overwriting drive.cfg


##  Load data bases

In [3]:
drive_files=wp.wosplus('drive.cfg')

In [53]:
UDEAjsonfile='WOS_SCI_SCP_PTJ_CTR.json.gz'
tmp=drive_files.load_biblio(UDEAjsonfile,compression='gzip')
UDEA=drive_files.biblio['WOS'].copy().reset_index(drop=True)



In [32]:
#UDEA=pd.read_json('WOS_SCI_SCP_PTJ_CTR.json.gz',compression='gzip')

In [5]:
json_column='UDEA_authors'
UDEA_YES=UDEA[~UDEA['UDEA_authors'].isna()].reset_index(drop=True)
UDEA_NOT=UDEA[UDEA['UDEA_authors'].isna()].reset_index(drop=True)
UDEA_YES.shape[0],UDEA_NOT.shape[0]

(12257, 3443)

# Búsquedas

In [7]:
import pandas as pd
import numpy as np
import fuzzywuzzy.process as fwp
from fuzzywuzzy import fuzz
def flatten_if_nested(l):
    flatten=False
    for i in l:
        if type(i)==list:
            #return i
            flatten=True
    if flatten:
        l=[item for sublist in l for item in sublist]
        l=pd.np.array(l)
    return l
def extract_key(df,key,json_column='UDEA_authors'):
    '''
    Extract all the unique key values of the list of dictionaries in 
    a json column when the key value is a string or another list
    '''
    ll=df[json_column].apply(lambda l: np.unique([ d.get(key) for d in l 
                                if d.get(key) ]) if type(l)==list else l)
    if ll.str[0].apply(lambda l: l if type(l)==list else None).dropna().shape[0]:
        ll=ll.apply(flatten_if_nested)
    ll=ll.apply(pd.Series).stack().values
    return pd.DataFrame( {key:list(ll)} ).groupby(key)[key].count().sort_values(ascending=False)
def extract_key_unique(*args,**kwargs):
    keys=extract_key(*args,**kwargs).keys()
    return [ k for k in keys if k]




## Cree indices para búsquedas

In [11]:
def get_groups(l,g):
    '''Normalize columna GRUPO'''
    for d in l:
        gt=d.get('GRUPO')
        if gt and type( gt )==str:
            gs=gt.replace(
                ', Grupo','; Grupo'
            ).split('; ')
            for gg in gs:
                if gg not in g:
                    g.append(gg)
    return g

facultades={'key':'FACULTAD',
            'values' : extract_key_unique(UDEA,'FACULTAD',json_column='UDEA_authors') }
departamentos={'key':'DEPARTAMENTO',
            'values' :extract_key_unique(UDEA,'DEPARTAMENTO',json_column='UDEA_authors')}
nombre_completo={'key'    : 'NOMBRE COMPLETO',
            'values' : extract_key_unique(UDEA,'NOMBRE COMPLETO',json_column='UDEA_authors')}
full_name={'key'    : 'full_name',
            'values' : extract_key_unique(UDEA,'full_name',json_column='UDEA_authors')}
udea_affiliations={'key'    : 'WOS_affiliation',
            'values' : extract_key_unique(UDEA.fillna(''),'WOS_affiliation',json_column='UDEA_authors')}
#wos_affiliations={'key'    : 'affiliation',
#            'values' : extract_key_unique(UDEA.fillna(''),'WOS_affiliation',json_column='authors_WOS')}
udea_author={'key'    : 'WOS_author',
            'values' : extract_key_unique(UDEA.fillna(''),'WOS_author',json_column='UDEA_authors')}
wos_author={'key'    : 'WOS_author',
            'values' : extract_key_unique(UDEA,'WOS_author',json_column='authors_WOS')}

In [12]:
def query_json_column(q,df=UDEA,json_column='UDEA_authors',
                        choices=nombre_completo,scorer=fuzz.partial_token_sort_ratio,score_cutoff=0):
    #Found best exact match from index
    fchoices=fwp.extractOne(q,choices['values'],scorer=scorer,score_cutoff=score_cutoff)
    # Exact search in indexed subcolumn converted to strins (e.g list → string if necessary)
    if fchoices:
        fchoices=fchoices[0]
        dfF=df[df[json_column].apply(lambda l: True in [ str(d.get(choices['key'])).find(fchoices)>-1 
                                        for d in l if d.get(choices['key'])] if type(l)==list else False)]
        return dfF.reset_index(drop=True)
    else:
        return pd.DataFrame()

## Centro

In [13]:
cen=query_json_column('Facultad de Ciencias Exactas y Naturales',df=UDEA,json_column='UDEA_authors',
                        choices=facultades,scorer=fuzz.partial_token_sort_ratio,score_cutoff=79)

In [14]:
cen.shape

(2415, 181)

## Departamento

In [15]:
extract_key(cen,'DEPARTAMENTO')[:4]

DEPARTAMENTO
Instituto de Física            916
Instituto de Biología          680
Instituto de Química           666
Departamento de Matemáticas    190
Name: DEPARTAMENTO, dtype: int64

In [16]:
aunly=drive_files.read_drive_json('UDEA_authors_with_WOS_info.json').reset_index(drop=True)

In [17]:
aunly['DEPARTAMENTO']=aunly['UDEA_authors'].apply( lambda d: d.get('DEPARTAMENTO')   ).dropna()

In [18]:
dpto=['Instituto de Física',
        'Instituto de Biología',
        'Instituto de Química',
        'Departamento de Matemáticas' ]

In [19]:
print('DEPARTAMENTO')
for k in dpto: 
    print('{}:  {}'.format(k,
                    aunly[aunly['DEPARTAMENTO']==k].shape[0]))

DEPARTAMENTO
Instituto de Física:  35
Instituto de Biología:  34
Instituto de Química:  37
Departamento de Matemáticas:  24


### CITACIONES

In [20]:
df=pd.DataFrame()
dfinst={}
for k in dpto:
    inst={}
    dfinst[k]=query_json_column(k,df=UDEA,json_column='UDEA_authors',
                        choices=departamentos,scorer=fuzz.partial_token_sort_ratio,score_cutoff=100)
    inst['DEPARTAMENTO']=k
    inst['WOS Cited by']=dfinst[k].Z9.sum()
    inst['SCP Cited by']=dfinst[k]['SCP_Cited by'].sum()
    df=df.append(inst,ignore_index=True)

ct=[c for c in df.columns if c.find('Cited')>-1]
for c in ct:
    df[c]=df[c].astype(int)
df.loc[0,'GS Cited by*']='22500'
print('* https://scholar.google.com/citations?user=mxSOjTYAAAAJ')
df    

* https://scholar.google.com/citations?user=mxSOjTYAAAAJ


Unnamed: 0,DEPARTAMENTO,SCP Cited by,WOS Cited by,GS Cited by*
0,Instituto de Física,8349,8227,22500.0
1,Instituto de Biología,6898,11603,
2,Instituto de Química,7089,7078,
3,Departamento de Matemáticas,492,384,


In [21]:
pd.set_option('display.max_rows', 500)

In [22]:
extract_key(dfinst['Instituto de Física'],'full_name')

full_name
DUQUE ECHEVERRI CARLOS ALBERTO         261
MORALES ARAMBURO ALVARO LUIS            86
BARRERA RAMIREZ JOHN FREDY              62
RESTREPO CARDENAS JOHANS                60
BARRERO MENESES CESAR AUGUSTO           59
MORA RAMOS MIGUEL EDUARDO               49
REYES GOMEZ ERNESTO AMADOR              49
SANZ VICARIO JOSE LUIS                  46
ARNACHE OLMOS OSCAR LUIS                40
RESTREPO QUINTERO DIEGO ALEJANDRO       37
PONCE GUTIERREZ WILLIAM ANTONIO         34
HENAO HENAO RODRIGO DE JESUS            32
MAZO ZULUAGA JOHANN                     31
OSORIO GUILLEN JORGE MARIO              29
OSORIO VELEZ JAIME ALBERTO              26
RODRIGUEZ REY BORIS ANGHELO             25
ROMANO ANTONIO ENEA                     23
ZULUAGA CALLEJAS JORGE IVAN             23
RAIGOZA BOHORQUEZ NICOLAS FERNANDO      22
ZAPATA NOREÑA OSCAR ALBERTO             22
GARCIA TELLEZ KAREN EDILMA              20
LOPEZ RIOS SONIA YANETH                 19
RUEDA MUNOZ EDGAR ALBERTO               19
P

In [99]:
i=0
print(dpto[i])
aunly[aunly['DEPARTAMENTO']==dpto[i]].sort_values('tmp_author').reset_index(drop=True).tmp_author

Instituto de Física


0              ARNACHE OLMOS OSCAR LUIS
1            BARRERA RAMIREZ JOHN FREDY
2         BARRERO MENESES CESAR AUGUSTO
3         CUARTAS RESTREPO PABLO ANDRES
4        DUQUE ECHEVERRI CARLOS ALBERTO
5          FERRIN VAZQUEZ IGNACIO RAMON
6         GIRALDO CADAVID MARCO ANTONIO
7          HENAO HENAO RODRIGO DE JESUS
8       JARAMILLO ARANGO DANIEL ESTEBAN
9     JARAMILLO GALLEGO JOHNY ALEXANDER
10      LONDOÑO BADILLO FERNANDO ANDRES
11          MAHECHA GOMEZ JORGE EDUARDO
12                  MAZO ZULUAGA JOHANN
13               MIRA AGUDELO ALEJANDRO
14         MORALES ARAMBURO ALVARO LUIS
15            MUÑOZ CUARTAS JUAN CARLOS
16           OSORIO GUILLEN JORGE MARIO
17           OSORIO VELEZ JAIME ALBERTO
18    PACHON CONTRERAS LEONARDO AUGUSTO
19      PONCE GUTIERREZ WILLIAM ANTONIO
20             RESTREPO CARDENAS JOHANS
21    RESTREPO QUINTERO DIEGO ALEJANDRO
22           REYES GOMEZ ERNESTO AMADOR
23               RICAURTE AVELLA GERMAN
24          RODRIGUEZ REY BORIS ANGHELO


In [23]:
pd.set_option('display.max_colwidth',2000)

In [24]:
wp=UDEA[UDEA.AU.str.contains('Ponce, W')][['TI','SO','PY','AU','authors_WOS','UDEA_authors']].reset_index(drop=True)

In [28]:
wp.apply(lambda r: fwp.extractOne(  [ a for a in r['AU'].split('\n')[0:-1] 
                       if a.find('Ponce, W')>-1][0], list( aus),
                        scorer=fuzz.partial_token_sort_ratio) ,axis=1 )[:1]                                 

0    (Ponce, William A., 88)
dtype: object

### Others

In [31]:
for k in dpto:
    print('='*40)
    print(k)
    print('='*40)
    print( extract_key(dfinst[k],'full_name') )

Instituto de Física
full_name
DUQUE ECHEVERRI CARLOS ALBERTO         261
MORALES ARAMBURO ALVARO LUIS            86
BARRERA RAMIREZ JOHN FREDY              62
RESTREPO CARDENAS JOHANS                60
BARRERO MENESES CESAR AUGUSTO           59
MORA RAMOS MIGUEL EDUARDO               49
REYES GOMEZ ERNESTO AMADOR              49
SANZ VICARIO JOSE LUIS                  46
ARNACHE OLMOS OSCAR LUIS                40
RESTREPO QUINTERO DIEGO ALEJANDRO       37
PONCE GUTIERREZ WILLIAM ANTONIO         34
HENAO HENAO RODRIGO DE JESUS            32
MAZO ZULUAGA JOHANN                     31
OSORIO GUILLEN JORGE MARIO              29
OSORIO VELEZ JAIME ALBERTO              26
RODRIGUEZ REY BORIS ANGHELO             25
ROMANO ANTONIO ENEA                     23
ZULUAGA CALLEJAS JORGE IVAN             23
RAIGOZA BOHORQUEZ NICOLAS FERNANDO      22
ZAPATA NOREÑA OSCAR ALBERTO             22
GARCIA TELLEZ KAREN EDILMA              20
LOPEZ RIOS SONIA YANETH                 19
RUEDA MUNOZ EDGAR ALBERT

full_name
MONDRAGON PEREZ FANOR                  84
LOPEZ OSORIO BETTY LUCY                75
RESTREPO COSSIO ALBEIRO ALONSO         70
ECHEVERRI LOPEZ LUIS FERNANDO          54
TORRES PALMA RICARDO ANTONIO           54
LOPEZ LOPEZ DIANA PATRICIA             38
MESA CADAVID MONICA                    36
ECHAVARRIA ISAZA ADRIANA PATRICIA      32
QUIÑONES FLETCHER WINSTON              26
HADAD ARRIAGADA CACIER ZILAHY          25
PELAEZ JARAMILLO CARLOS ALBERTO        25
VAZQUEZ CEBALLOS MARIO VICTOR          23
CARDONA GALEANO WILSON ISIDRO          23
SANTAMARIA PALACIO ALEXANDER           22
MANRIQUE MORENO MARCELA MARIA          21
GARCIA TELLEZ KAREN EDILMA             21
OTALVARO TAMAYO LEON FELIPE            21
ESPINAL LOPEZ JUAN FERNANDO            21
ROBLEDO RESTREPO SARA MARIA            21
BARRERO MENESES CESAR AUGUSTO          20
PUERTAS MEJIA MIGUEL ANGEL             18
GALLEGO MARIN JAIME ANDRES             17
CASANOVA YEPES HERLEY FERNANDO         17
RAMIREZ VELEZ ALEJANDRO 

## TODO

In [None]:
BUG: 10178,10184

In [320]:
aw=UDEA[UDEA['authors_WOS'].apply(len)==0][['AU','authors_WOS','C1','UDEA_authors']].reset_index(drop=True)
aw[:3]

Unnamed: 0,AU,authors_WOS,C1,UDEA_authors
0,"Carvajal-Carmona, LG\nOphoff, R\nService, S\nSoto, I\nHartiala, J\nBedoya, G\nOspina, J\nReus, V\nFreimer, NB\nRuiz-Linares, A\n",[],"UCL, Dept Biol, Galton Lab, London, England.\nUniv Antioquia, Fac Med, Mol Genet Lab, Antioquia, Colombia.\nUniv Calif Los Angeles, Ctr Neurobehav Genet, Los Angeles, CA USA.\nUniv Antioquia, Fac Med, Dept Psiquiat, Antioquia, Colombia.\nUniv Calif San Francisco, Dept Psychiat, San Francisco, CA 94143 USA.\n","[{'NOMBRES': 'Ivan Dario', 'CÉDULA': 71777067.0, 'INICIALES': 'I. D.', 'PRIMER APELLIDO': 'Soto', 'full_name': 'SOTO CALDERON IVAN DARIO', 'GRUPO': 'GAMMA: Genética, Mejoramiento y Modelación Animal, ', 'FACULTAD': 'Facultad de Ciencias Exactas y Naturales', 'SEGUNDO APELLIDO': 'Calderon', 'NOMBRE COMPLETO': 'Ivan Dario Soto Calderon', 'DEPARTAMENTO': 'Instituto de Biología'}]"
1,"Bortolini, MC\nSalzano, FM\nBau, CHD\nLayrisse, Z\nPetzl-Erler, ML\nTsuneto, LT\nHill, K\nHurtado, AM\nCastro-de-Guerra, D\nBedoya, G\nRutz-Linares, A\n",[],"UCL, Dept Biol, Galton Lab, London NW1 2HE, England.\nUniv Fed Rio Grande do Sul, Dept Genet, Porto Alegre, RS, Brazil.\nInst Venezolano Invest Cient, Caracas, Venezuela.\nUniv Fed Parana, Dept Genet, BR-80060000 Curitiba, Parana, Brazil.\nUniv New Mexico, Dept Anthropol, Albuquerque, NM 87131 USA.\nUniv Antioquia, Lab Genet Mol, Medellin, Colombia.\n","[{'WOS_author': ['Bedoya, G'], 'full_name': 'BEDOYA BERRIO GABRIEL DE JESUS', 'NOMBRE COMPLETO': 'Gabriel De Jesus Bedoya Berrio', 'NOMBRES': 'Gabriel Jesus', 'CÉDULA': 8342412.0, 'INICIALES': 'G. J.', 'PRIMER APELLIDO': 'Bedoya', 'FACULTAD': 'Facultad de Ciencias Exactas y Naturales', 'GRUPO': 'Genética Molecular (GENMOL)', 'WOS_affiliation': ['Univ Antioquia, Lab Genet Mol, Medellin, Colombia.'], 'SEGUNDO APELLIDO': 'Berrio', 'DEPARTAMENTO': 'Instituto de Biología'}]"
2,"Agudelo-Suárez, Andrés\nRonda-Pérez, Elena\nGil-González, Diana\nVives-Cases, Carmen\n",[],"Univ Antioquia, Colombia.\n[Agudelo-Suárez, Andrés; Ronda-Pérez, Elena; Gil-González, Diana; Vives-Cases, Carmen] Universidad de Alicante, Spain.\n","[{'full_name': 'AGUDELO SUAREZ ANDRES ALONSO', 'SEGUNDO APELLIDO': 'Suarez', 'INICIALES': 'A. A.', 'PRIMER APELLIDO': 'Agudelo', 'NOMBRES': 'Andres Alonso'}]"


Strategy: 
* From `full name` in `UDEA_authors` column creates `WOS_author` list.
* Check if some author in `C1` column is in that list
* Creates keys:values for keys: `WOS_author` and `[WOS_]affiliations` in both `authors_WOS` and `UDEA_authors`
* Assign affiliation from `C1` if not ambiguity or left a generic one: `affil`
* Assign a tag to `authors_WOS` to specify the origin, e.g, {'origin':'AU'}

In [306]:
from wos_sci_scp_ptj_ctr import *

In [291]:
import numpy as np

In [355]:
def AU_to_author_WOS(wos_au,au_info,c1_old,affil='Univ Antioquia'):
    AUWOS=False
    AFFIL=False
    wn=wos_names_list(au_info)
    wn=wn+[ n.replace('. ','.').replace('.','') 
            for n in wn if n.find('.')>-1]
    mtch=np.intersect1d(wos_au.strip().split('\n'),wn)
    if len(mtch)==0:
        wos_au=unidecode.unidecode(wos_au)
        mtch=np.intersect1d(wos_au.strip().split('\n'),wn)
    if len(mtch)==1:
        AUWOS=True
        affs=[ c1 for c1 in c1_old.strip().split('\n') 
                 if c1.find(affil)>-1]
        #Cases:
        # 1. Single match
        if len(affs)==1:
            AFFIL=True
            aff=affs
        # 2. One of the very similar matches
        # 3. Ordered mathc
        
    auwos={}    
    if AUWOS:
        auwos['WOS_author']=mtch[0]
        auwos['origin']='from AU+UDEA_authors'
        if AFFIL:
            auwos['affiliation']=aff
        else:
            auwos['affiliation']=[affil]
    return auwos

In [344]:
aw.AU.loc[i]

'Agudelo-Suárez, Andrés\nRonda-Pérez, Elena\nGil-González, Diana\nVives-Cases, Carmen\n'

In [357]:
i=3
# creates a copy of dict
auudea=dict(aw['UDEA_authors'].loc[i][0])
auwos=AU_to_author_WOS( aw.AU.loc[i],auudea,aw['C1'].loc[i])
auwos

{}

In [358]:
wosau=aw.AU.loc[i]
#wosau=unidecode.unidecode(wosau)
wosau

'Malafronte, N\nCotugno, R\nJimenez, N\nDe Leo, M\nBraca, A\nDe Tommasi, N\n'

In [349]:
au_info=auudea
wn=wos_names_list(au_info)
wn=wn+[ n.replace('. ','.').replace('.','') 
            for n in wn if n.find('.')>-1]
wn

['Agudelo, Andres Alonso',
 'Agudelo, Andres',
 'Agudelo, Alonso',
 'Agudelo, A. A.',
 'Agudelo, A.',
 'Agudelo, Andres A.',
 'Agudelo, A.',
 'Agudelo-Suarez, Andres Alonso',
 'Agudelo-Suarez, Andres',
 'Agudelo-Suarez, Alonso',
 'Agudelo-Suarez, A. A.',
 'Agudelo-Suarez, A.',
 'Agudelo-Suarez, Andres A.',
 'Agudelo-Suarez, A.',
 'Agudelo, AA',
 'Agudelo, A',
 'Agudelo, Andres A',
 'Agudelo, A',
 'Agudelo-Suarez, AA',
 'Agudelo-Suarez, A',
 'Agudelo-Suarez, Andres A',
 'Agudelo-Suarez, A']

In [340]:
c1_old=aw.C1.loc[i]
c1_old

'Univ Antioquia, Colombia.\n[Agudelo-Suárez, Andrés; Ronda-Pérez, Elena; Gil-González, Diana; Vives-Cases, Carmen] Universidad de Alicante, Spain.\n'

In [341]:
[ c1 for c1 in c1_old.strip().split('\n') 
                 if c1.find(affil)>-1]

['Univ Antioquia, Colombia.']

In [316]:
if auwos:
    if auudea.get('WOS_author'):
        if auwos['WOS_author'] in auudea['WOS_author']:
            auudea['WOS_author']=auudea['WOS_author']+[auwos['WOS_author']]
            auudea['WOS_affiliation']=auudea['WOS_affiliation']+auwos['affiliation']
    else:
        auudea['WOS_author']=[auwos['WOS_author']]
        auudea['WOS_affiliation']=auwos['affiliation']

In [325]:
auudea

{'CÉDULA': 8342412.0,
 'DEPARTAMENTO': 'Instituto de Biología',
 'FACULTAD': 'Facultad de Ciencias Exactas y Naturales',
 'GRUPO': 'Genética Molecular (GENMOL)',
 'INICIALES': 'G. J.',
 'NOMBRE COMPLETO': 'Gabriel De Jesus Bedoya Berrio',
 'NOMBRES': 'Gabriel Jesus',
 'PRIMER APELLIDO': 'Bedoya',
 'SEGUNDO APELLIDO': 'Berrio',
 'WOS_affiliation': ['Univ Antioquia, Lab Genet Mol, Medellin, Colombia.'],
 'WOS_author': ['Bedoya, G'],
 'full_name': 'BEDOYA BERRIO GABRIEL DE JESUS'}

In [236]:
affil='Univ Antioquia'
i=1
c1_old=aw.C1.loc[i]

In [240]:
[ c1 for c1 in c1_old.strip().split('\n') if c1.find(affil)>-1]

['Univ Antioquia, Lab Genet Mol, Medellin, Colombia.']

In [216]:
aw['UDEA_authors'].loc[i][0]

{'CÉDULA': 8342412.0,
 'DEPARTAMENTO': 'Instituto de Biología',
 'FACULTAD': 'Facultad de Ciencias Exactas y Naturales',
 'GRUPO': 'Genética Molecular (GENMOL)',
 'INICIALES': 'G. J.',
 'NOMBRE COMPLETO': 'Gabriel De Jesus Bedoya Berrio',
 'NOMBRES': 'Gabriel Jesus',
 'PRIMER APELLIDO': 'Bedoya',
 'SEGUNDO APELLIDO': 'Berrio',
 'full_name': 'BEDOYA BERRIO GABRIEL DE JESUS'}

In [215]:
wn=wos_names_list(aw['UDEA_authors'].loc[i][0])
wn=wn+[ n.replace('. ','.').replace('.','') 
   for n in wn if n.find('.')>-1]
wn

['Bedoya, Gabriel Jesus',
 'Bedoya, Gabriel',
 'Bedoya, Jesus',
 'Bedoya, G. J.',
 'Bedoya, G.',
 'Bedoya, Gabriel J.',
 'Bedoya, J.',
 'Bedoya-Berrio, Gabriel Jesus',
 'Bedoya-Berrio, Gabriel',
 'Bedoya-Berrio, Jesus',
 'Bedoya-Berrio, G. J.',
 'Bedoya-Berrio, G.',
 'Bedoya-Berrio, Gabriel J.',
 'Bedoya-Berrio, J.',
 'Bedoya, GJ',
 'Bedoya, G',
 'Bedoya, Gabriel J',
 'Bedoya, J',
 'Bedoya-Berrio, GJ',
 'Bedoya-Berrio, G',
 'Bedoya-Berrio, Gabriel J',
 'Bedoya-Berrio, J']

['Bortolini, MC',
 'Salzano, FM',
 'Bau, CHD',
 'Layrisse, Z',
 'Petzl-Erler, ML',
 'Tsuneto, LT',
 'Hill, K',
 'Hurtado, AM',
 'Castro-de-Guerra, D',
 'Bedoya, G',
 'Rutz-Linares, A']

In [210]:
np.intersect1d(aw.AU.loc[i].strip().split('\n'),wn)

array(['Bedoya, G'], dtype='<U28')