In [None]:
# Imports previos

import matplotlib.pyplot as plt
import nltk
import networkx as nx

from Bio import Medline
from Bio import Entrez

import urllib.request

In [None]:
# Funciones necesarias:

def key_from_value(dict, query):
    for key, values in dict.items():
        for synonym in values:
            if query == synonym:
                return key

def back_to_value(dict, query):
    for keys,values in dict.items():
        for key in keys:
            if query == key:
                return value[0]

# Database para enfermedades

**PLAN RAW PARA ENFERMEDADES**: en Disease Ontology, hay una lista<sup>1</sup> que contiene un ID de la enfermedad, con el id, nombre de la enfermedad y sinónimos. La idea es generar un diccionario  {key: ID y values: nombres de la enfermedad} y si se encuentra en un abstract la enfermedad (es decir, el value), cambiarlo por el ID (la key)
 
 <sup>1</sup>https://github.com/DiseaseOntology/HumanDiseaseOntology/blob/main/src/ontology/HumanDO.obo
 
*Nota*: https://raw.githubusercontent.com/DiseaseOntology/HumanDiseaseOntology/main/src/ontology/HumanDO.obo es el raw

In [None]:
# Importación de lista de enfermedades 

# Se inicializa el diccionario y las variables (inicialmente vacias y false)
disease_dict={}
disease_key=False
disease_name=[]

# Se abre la página del texto raw, se pone todo en minúsculas y se aplica el decode
obo=urllib.request.urlopen('https://raw.githubusercontent.com/DiseaseOntology/HumanDiseaseOntology/main/src/ontology/HumanDO.obo')
obo=[line.lower().decode("utf-8") for line in obo]

# Para cada linea del texto:

# Si empieza con [term] y NO hay definidos una key y value para el diccionario, se inicializan las variables.
# Si empieza con [term] y SÍ hay definidos una key y value para el diccionario, se añaden al diccionario y se resetean

# Si empieza con id, lo convierte en key (disease_key), quitando el "id:", el salto de línea y los espacios en blanco
# Si empieza con name o synonym, lo añade a la lista de values (disease_name) tras eliminar los saltos de línea, el 
#     synonym, el exact [] en el caso de los synonyms, y las comillas.

# Si empieza con [typedef], significa que ya no hay más terms, y que no interesa seguir parseando, con lo que se añade
# el último key-value y se termina

for line in obo:
            
    if line.startswith("[term]"):
        if disease_key and disease_name:
            disease_dict[disease_key]=disease_name
        disease_key=str()
        disease_name=list()
    
    if line.startswith("id"):
        disease_key=line.strip("id:").strip("\n").strip()

    elif line.startswith("name"):
        disease_name.append(line.strip("name:").strip("\n").strip())
    
    elif line.startswith("synonym"):
        disease_name.append(line.strip("\n").strip("synonym: ").strip( "exact []").replace('"',""))

    elif line.startswith("[typedef]"):
        disease_dict[disease_key] = disease_name
        break


In [None]:
print(f'El diccionario de enfermedades contiene {len(disease_dict)} entradas.')
# El resultado es 13046 para la versión del 22 de diciembre de 2020

# Database para bacterias

**PLAN RAW PARA BACTERIAS**:  Se obtendrá una lista con el nombre científico de las bacterias, tanto con nombre genérico como epíteto específico (ojo con pasarla a  minúsculas) en un solo string. Una opción es generar un diccionario {key: Nombre científico completo pero todo junto y values: nombre científico separado y nombre abreviado}, y repetir el proceso anterior. Así, todos los nombres científicos (staphylococcus aureus, o s.aureus, hay que recordar que estará todo en minúscula) se cambiarán por el nombre sin espacios 
(staphylococcusaureus o staphylococcus_aureus, es sencillo de lograr de cualquier método) para que al tokenizar sea un solo token. 

He tenido que hacer una cosa un poco fea, poner en el github la lista de los taxids de bacterias (solamente de bacterias, obtenidos a través de un grep del categories.dmp del ftp del NCBI)

Tarda mucho, quizás sería buena idea guardarlo en un archivo JSON?


In [None]:
Entrez.max_tries=5
Entrez.email=""

In [None]:
bact_dict={}

dmp = urllib.request.urlopen("https://raw.githubusercontent.com/GuilleGorines/data/main/b_categories.dmp")
dmp = [line.decode("utf-8").strip("\n").split("\t")[1] for line in dmp]
dmp = set(dmp)

print(f'La cantidad de especies bacterianas encontradas es {len(dmp)}.')

In [None]:
for num,organism in enumerate(dmp):
    search = Entrez.efetch(db='taxonomy',id=organism)
    result = Entrez.read(search)
    result = dict(result[0])
    
    print(result["ScientificName"].lower())
    print(result["LineageEx"][-1])
    print("\n")
    
    


# Generación del corpora con Entrez

In [None]:
# Se establecen términos de búsqueda

term = "pokemon"

Entrez.max_tries=5
Entrez.email=""

In [None]:
# Búsqueda inicial para comprobar cantidad de coincidencias

scout_search = Entrez.esearch(db="pubmed", rettype="count", term = term)
scout_result = Entrez.read(scout_search)
id_quantity = int(scout_result["Count"])
print(f"{id_quantity} artículo(s) encontrados en PubMed.")

In [None]:
# Rondas de esearch dividido en rondas de longitud máxima (100k búsquedas)
if id_quantity > 100000:
    rounds = int(id_quantity/100000)+1
    retmax=100*1000
else:
    rounds = 1
    retmax = id_quantity


In [None]:
# Se inicializa la lista de abstracts 
retstart=0
abstracts=[]

# eFetch y adición de los resultados a la lista de abstracts. 
for round in range(0,rounds):
    
    search = Entrez.esearch(db="pubmed", retmax=retmax, term=term)
    
    id_quantity -= retmax
    retstart += retmax
    if id_quantity < 100000:
        retmax = id_quantity
    result = Entrez.read(search)
    

In [None]:
for single_id in result['IdList']:
    search = Entrez.efetch(db="pubmed", id=single_id, rettype="medline", retmode="text")
    record = list(Medline.parse(search))
    record = dict(record[0])
    try:
        date = record["DP"]
        print(date)
        record = record["AB"]
        abstracts.append([date,record])
    except KeyError:
        pass


In [None]:
cantidad_inicial=len(abstracts)

print(f'La cantidad inicial de abstracts es {cantidad_inicial}.')

In [None]:
for i,j in enumerate(abstracts):
    print(i,j)

# Sustitución

In [None]:
bact_list = [bacteria for sublist in bact_dict.values() for bacteria in sublist]
disease_list = [disease for sublist in disease_dict.values() for disease in sublist]

bacterias_detectadas = []
enfermedades_detectadas = []

coincidencias = []

for num,text in enumerate(abstracts):
    bact_in_text = [num]
    enf_in_text = [num]
    
    for bact in bact_list:
        if bact in text:
            taxid = key_from_value(bact_dict, bact)
            text.replace(bact,taxid)
            bact_in_text.append(taxid)
    
    for disease in disease_list:
        if disease in text:
            doid = key_from_value(disease_dict, disease)
            text.replace(disease, doid)
            enf_in_text.append(doid)
    
    bacterias_detectadas.append(bact_in_text)
    enfermedades_detectadas.append(enf_in_text)

NUEVA PRUEBA

In [4]:
import matplotlib.pyplot as plt
import nltk
import networkx as nx

from Bio import Medline
from Bio import Entrez

import requests

import json


In [5]:
term = "digimon"
Entrez.max_tries=5
Entrez.email="" # Necesario o error

# Búsqueda inicial para comprobar cantidad de coincidencias

scout_search = Entrez.esearch(db="pubmed", rettype="count", term = term)
scout_result = Entrez.read(scout_search)
id_quantity = int(scout_result["Count"])
print(f"La cantidad de resultados es {id_quantity}")

# Rondas de esearch dividido en rondas de longitud máxima (100k búsquedas)
if id_quantity > 100000:
    rounds = round(id_quantity/100000)
    retmax=100*1000
else:
    rounds = 1
    retmax = id_quantity

retstart=0
abstracts=[]

# eFetch y adición de los resultados a la lista de abstracts. 
for round in range(0,rounds):
    
    search = Entrez.esearch(db="pubmed", retmax=retmax, term=term)
    
    id_quantity -= retmax
    retstart += retmax
    if id_quantity < 100000:
        retmax = id_quantity
    
    result = Entrez.read(search)
       
for single_id in result['IdList']:
    search = Entrez.efetch(db="pubmed", id=single_id, rettype="medline", retmode="text")
    record = list(Medline.parse(search))
    record = dict(record[0])
    try:
        date = record["DP"]
        record = record["AB"]
        abstracts.append([date,record])
    except KeyError:
        pass

cantidad_inicial=len(abstracts)

print(f'La cantidad de abstracts iniciales es {cantidad_inicial}')

La cantidad de resultados es 2
La cantidad de abstracts iniciales es 2


In [8]:
for num, abstract in enumerate(abstracts):
    print(num,abstract)

0 2013 Feb 15
1 The role of experience in the development of brain mechanisms for face recognition is intensely debated. Experience with subordinate- and individual-level classification of faces is thought, by some, to be foundational in the development of the specialization of face recognition. Studying children with extremely intense interests (EII) provides an opportunity to examine experience-related changes in non-face object recognition in a population where face expertise is not fully developed. Here, two groups of school-aged children -one group with an EII with Pokemon cards and another group of age-matched controls - underwent fMRI while viewing faces, Pokemon characters, Pokemon objects, and Digimon characters. Pokemon objects were non-character Pokemon cards that experts do not typically individuate during game play and trading. Neither experts nor controls had previous experience with Digimon characters. As expected, experts and controls showed equivalent activation in the