Análise de literatura - PubMed - GENE TRMT61A
Nota:Para a realização de todo o código do trabalho teve-se em conta o tutorial do Biopython. 
Consoante os códigos que estavam disponíveis no tutorial, tentamos adaptá-los aos genes de interesse, neste caso tentamos adaptar ao gene TRMT61A.

1.Numa primeira fase, recorreu-se a algumas funções do Bio.Entrez para se aceder a base de dados PubMed, para o gene TRMT61A.Ou seja, consultou-se no PubMed todos os artigos relativos ao gene TRMT61A.
Este pequeno código posteriormente apresentado, indica quantos artigos sobre este gene existem no PubMed, 3 artigos.

In [1]:
from Bio import Entrez
Entrez.email = "joanafigueiredo2014@gmail.com" 
handle = Entrez.egquery(term="TRMT61A")
record = Entrez.read(handle)
for row in record["eGQueryResult"]:
    if row["DbName"]=="pubmed":
        print(row["Count"])

3


2.Seguidamente, utilizou-se as funções Bio.Entrez.esearch e Bio.Entrez.read para fazer o download de todos os IDs dos 3 artigos relacionados com o gene TRMT61A. 
Posteriormente imprimiu-se a lista que contem todos esses IDs de cada um dos artigos do PubMed.

In [2]:
from Bio import Entrez
Entrez.email = "joanafigueiredo2014@gmail.com" 
handle = Entrez.esearch(db="pubmed", term="TRMT61A", retmax=3)
record = Entrez.read(handle)
handle.close()
idlist = record["IdList"]

In [3]:
print(idlist)#obtém-se todos os PMIDs

['30131402', '29072297', '23097428']


3.Depois de se ter a lista de todos os IDs, dos 3 artigos, pretende-se obter os registos Medline correspondentes para se poder extrair informações a partir deles. 
Para isso fez se o download dos registos Medline no formato de arquivo simples Medline e utiliza-se o módulo Bio.Medline para analisar esse mesmos registos. Posteriormente imprimiu-se toda a informação contida em cada um dos artigos (records) numa lista.
Assim, consegue-se saber muito superficialmente, se algum dos artigos relaciona este gene TRMT61A com o cancro ou não (ou mais especificamente, se está relacionado com o cancro da mama ou não), analisando alguns parâmetros de cada um dos records, por exemplo.

In [4]:
from Bio import Medline
handle = Entrez.efetch(db="pubmed", id=idlist, rettype="medline",retmode="text")
records = Medline.parse(handle)#para analisar os registos

In [5]:
records = list(records)
# obtém-se toda a informação contida em cada um dos artigos
#Posteriormente, explorando alguns parâmetros em cada um dos artigos conseguimos ter uma perceção rápida em relação a que temas são abordados nos artigos. 
records 

[{'PMID': '30131402',
  'OWN': 'NLM',
  'STAT': 'MEDLINE',
  'DCOM': '20181231',
  'LR': '20191101',
  'IS': '1469-9001 (Electronic) 1355-8382 (Linking)',
  'VI': '24',
  'IP': '11',
  'DP': '2018 Nov',
  'TI': 'm(1)A within cytoplasmic mRNAs at single nucleotide resolution: a reconciled transcriptome-wide map.',
  'PG': '1427-1436',
  'LID': '10.1261/rna.067348.118 [doi]',
  'AB': 'Following synthesis, RNA can be modified with over 100 chemically distinct modifications. Recently, two studies-one by our group-developed conceptually similar approaches to globally map N1-methyladenosine (m(1)A) at single nucleotide resolution. Surprisingly, the studies diverged quite substantially in their estimates of the abundance, whereabouts, and stoichiometry of m(1)A within internal sites in cytosolic mRNAs: One study reported it to be a very rare modification, present at very low stoichiometries, and invariably catalyzed by TRMT6/61A. The other found it to be present at >470 sites, often at high l

4.Posteriormente com o ciclo for que se encontra no código abaixo, obtém-se informações mais relevantes sobre cada um dos artigos do PubMed como: o título do artigo, os autores do artigo e ainda, a fonte do artigo (para cada um dos 3 artigos que se encontram no PubMed relacionados com este gene TRMT61A).

In [6]:
for record in records:
    print("title:", record.get("TI", "?"))
    print("authors:", record.get("AU", "?"))
    print("source:", record.get("SO", "?"))
    print("")


title: m(1)A within cytoplasmic mRNAs at single nucleotide resolution: a reconciled transcriptome-wide map.
authors: ['Schwartz S']
source: RNA. 2018 Nov;24(11):1427-1436. doi: 10.1261/rna.067348.118. Epub 2018 Aug 21.

title: The m1A landscape on cytosolic and mitochondrial mRNA at single-base resolution.
authors: ['Safra M', 'Sas-Chen A', 'Nir R', 'Winkler R', 'Nachshon A', 'Bar-Yaacov D', 'Erlacher M', 'Rossmanith W', 'Stern-Ginossar N', 'Schwartz S']
source: Nature. 2017 Nov 9;551(7679):251-255. doi: 10.1038/nature24456. Epub 2017 Oct 25.

title: Trmt61B is a methyltransferase responsible for 1-methyladenosine at position 58 of human mitochondrial tRNAs.
authors: ['Chujo T', 'Suzuki T']
source: RNA. 2012 Dec;18(12):2269-76. doi: 10.1261/rna.035600.112. Epub 2012 Oct 24.



5.O objetivo que agora era pretendido, era procurar em cada um dos 3 artigos do PubMed, qual/quais dos artigos se relacionavam com cancro.Porém como estávamos a falar do cancro numa zona espefífica do corpo, se se obtivessem resultados na procura anterior, ía-se procurar todos os artigos relacionados com o cancro da mama.
Raciocínio inicial que se pretendia implementar:
ID->título->abstract->Progonóstico (CANCRO ou CANCRO DA MAMA)
lista_artigos = lista com os 3 IDs
artigos_para_reter = lista vazia # lista dos IDs dos artigos que contém informação sobre o cancro ou mais especificamente, sobre o cancro da mama 
for a in lista_artigos: # o "a" é um ID da lista_artigos
    if “prognostic” in a.abstract:
		artigo_para_reter.append(a)
    
PROBLEMA que encontamos: Não reconhece Strings no Abstract!


In [7]:
for record in records:
    print("Abstract:", record.get("AB", "?"))

Abstract: Following synthesis, RNA can be modified with over 100 chemically distinct modifications. Recently, two studies-one by our group-developed conceptually similar approaches to globally map N1-methyladenosine (m(1)A) at single nucleotide resolution. Surprisingly, the studies diverged quite substantially in their estimates of the abundance, whereabouts, and stoichiometry of m(1)A within internal sites in cytosolic mRNAs: One study reported it to be a very rare modification, present at very low stoichiometries, and invariably catalyzed by TRMT6/61A. The other found it to be present at >470 sites, often at high levels, and suggested that the vast majority were highly unlikely to be TRMT6/61A substrates. Here we reanalyze the data from the latter study, and demonstrate that the vast majority of the detected sites originate from duplications, misannotations, mismapping, SNPs, sequencing errors, and a set of sites from the very first transcribed base that appear to originate from nont

In [None]:
#NÃO FUNCIONA!
lista_artigos = idlist
artigos_para_reter =[] # lista dos IDs dos artigos que contém informação sobre o cancro ou mais especificamente, sobre o cancro da mama 
for a in lista_artigos: # o "a" é um ID da lista_artigos
    if "CANCER" in a.Abstract:
        artigos_para_reter.append(a)
print(artigos_para_reter)

6.Com o código que se apresenta de seguida obtém-se num ficheiro com todos os artigos do PubMed relacionados com o gene TRMT61A, com todas as informações que eles contêm. Ou seja, obtém-se num ficheiro tudo o que se encontra em cada um dos 3 atigos e, posteriormente consegue-se se saber se algum dos artigos nos dá indicações sobre o facto de este gene estar relacionado com o cancro ou não (ou mais especificamente, se está relacionado com o cancro da mama ou não).É uma alternativa ao que foi realizado em parte no passo 3.

In [10]:
from Bio import Entrez
Entrez.email = "joanafigueiredo2014@gmail.com"
search_results = Entrez.read(Entrez.esearch(db="pubmed", term="ELP4", reldate=500, datetype="pdat", usehistory="y"))
count = int(search_results["Count"])
print("Found %i results" % count)
batch_size = 3
out_handle = open("recent_TRMT61A_papers.txt", "w")
for start in range(0,count,batch_size):
    end = min(count, start+batch_size)
    print("Going to download record %i to %i" % (start+1, end))
    fetch_handle = Entrez.efetch(db="pubmed",rettype="medline",retmode="text",retstart=start,retmax=batch_size,webenv=search_results["WebEnv"],query_key=search_results["QueryKey"])
    data = fetch_handle.read()
    fetch_handle.close()
out_handle.write(data)
out_handle.close()

Found 3 results
Going to download record 1 to 3
