### Recolher dados da Web

Neste notebook vamos sistematizar a recolha de dados a partir do site do Genbank.

Dado uma determinada sequência, identificada por um id, por exemplo, quer-se ir ao site descarregar o respetivo registo, tratá-lo (somo já fizemos) e depois inserir as partes relevantes em base de dados.

Exemplos de links para sequências:
- https://www.ncbi.nlm.nih.gov/nuccore/L42022
- https://www.ncbi.nlm.nih.gov/nuccore/L42023
- https://www.ncbi.nlm.nih.gov/nuccore/LC740868.1

Depois de se pedir este link, dentro da página, em Javascript, é feito um outro pedido ao servidor a pedir o record da sequência.

Exemplo:
- https://www.ncbi.nlm.nih.gov/sviewer/viewer.cgi?tool=portal&save=file&log$=seqview&db=nuccore&report=genbank&id=804715&conwithfeat=on&hide-cdd=on&ncbi_phid=null

No exemplo seguinte,. pede-se a página, mas a mesma não contém o registo que nos interessa.

O registo é carregado assincronamente, através de programação Javascript.

In [1]:
import requests
r = requests.get('https://www.ncbi.nlm.nih.gov/nuccore/PA500505.1')
print(r.content)



No exemplo seguinte,. em vez de se pedir a página que contém o registo, pede-se apenas o registo, depois de percebermos como o mesmo é pedido.

### Problema

Ao pedir a página, não vem a registo da sequência.

Para pedir o registo, o mesmo pede-se por um id (um número interno) que é diferente do id da sequência (L42022, por exemplo).

### Solução

A solução passa por fazer dois pedidos. No primeiro, pede-se a página e extrai-se apenas o id numérico interno, associado à sequência. Esse id interno é então usado para se fazer o segundo pedido.



In [None]:
import requests
from bs4 import BeautifulSoup

# Making a GET request
r = requests.get('https://www.ncbi.nlm.nih.gov/nuccore/L42022')
# Parsing the HTML
soup = BeautifulSoup(r.content, 'html.parser')

# Procurar um tag meta com um determinado atributo
lines = soup.find_all('meta', {'name':"ncbi_uidlist"} )

id = ""
url = ""
for line in lines:
	# print(line)
	# if 'name' in line.attrs:
	# 	print(line.attrs['name'])
	if 'content' in line.attrs:
		# print(line.attrs['content'])		
		id = line.attrs['content']

if id:
	url = "https://www.ncbi.nlm.nih.gov/sviewer/viewer.fcgi?id={}&db=nuccore&report=genbank&conwithfeat=on&hide-cdd=on&retmode=text&maxdownloadsize=5000000".format(id)

r2 = requests.get( url )

print( r2.content ) 

In [24]:
# pip3 install html5lib

import requests
from bs4 import BeautifulSoup

# Making a GET request
r = requests.get('https://www.ncbi.nlm.nih.gov/nuccore/L42022')
# Parsing the HTML
soup = BeautifulSoup(r.content, 'html.parser')

# Procurar um tag meta com um determinado atributo
lines = soup.find_all('meta', {'name':"ncbi_uidlist"} )

id = ""
url = ""
for line in lines:
	# print(line)
	# if 'name' in line.attrs:
	# 	print(line.attrs['name'])
	if 'content' in line.attrs:
		# print(line.attrs['content'])		
		id = line.attrs['content']

if id:
	url = "https://www.ncbi.nlm.nih.gov/sviewer/viewer.fcgi?id={}&db=nuccore&report=genbank&conwithfeat=on&hide-cdd=on&retmode=text&maxdownloadsize=5000000".format(id)

r2 = requests.get( url )

print( r2.content ) 


b'LOCUS       HIVI5C                   231 bp    DNA     linear   VRL 24-MAR-1997\nDEFINITION  Human immunodeficiency virus type 1 (isolate genotype C, I5) gag\n            gene, partial cds.\nACCESSION   L42022\nVERSION     L42022.1\nKEYWORDS    gag gene; p24 protein.\nSOURCE      Human immunodeficiency virus 1 (HIV-1)\n  ORGANISM  Human immunodeficiency virus 1\n            Viruses; Riboviria; Pararnavirae; Artverviricota; Revtraviricetes;\n            Ortervirales; Retroviridae; Orthoretrovirinae; Lentivirus.\nREFERENCE   1  (bases 1 to 231)\n  AUTHORS   Voevodin,A., Crandall,K.A., Seth,P. and al Mufti,S.\n  TITLE     HIV type 1 subtypes B and C from new regions of India and Indian\n            and Ethiopian expatriates in Kuwait\n  JOURNAL   AIDS Res. Hum. Retroviruses 12 (7), 641-643 (1996)\n   PUBMED   8743090\nFEATURES             Location/Qualifiers\n     source          1..231\n                     /organism="Human immunodeficiency virus 1"\n                     /proviral\n   

In [2]:
import time
for id in range(10, 15):
    url = "'https://www.ncbi.nlm.nih.gov/nuccore/{}'".format(id)
    time.sleep(1)
    print(url)

'https://www.ncbi.nlm.nih.gov/nuccore/10'
'https://www.ncbi.nlm.nih.gov/nuccore/11'
'https://www.ncbi.nlm.nih.gov/nuccore/12'
'https://www.ncbi.nlm.nih.gov/nuccore/13'
'https://www.ncbi.nlm.nih.gov/nuccore/14'


In [6]:
import requests
r = requests.get('https://www.ncbi.nlm.nih.gov/nuccore/HIVI5C')
print(r.content)



In [7]:
import requests
from bs4 import BeautifulSoup

# Making a GET request
r = requests.get('https://www.ncbi.nlm.nih.gov/nuccore/HIVI5C')
# Parsing the HTML
soup = BeautifulSoup(r.content, 'html.parser')

# Procurar um tag meta com um determinado atributo
lines = soup.find_all('meta', {'name':"ncbi_uidlist"} )

id = ""
url = ""
for line in lines:
	# print(line)
	# if 'name' in line.attrs:
	# 	print(line.attrs['name'])
	if 'content' in line.attrs:
		# print(line.attrs['content'])		
		id = line.attrs['content']

if id:
	url = "https://www.ncbi.nlm.nih.gov/sviewer/viewer.fcgi?id={}&db=nuccore&report=genbank&conwithfeat=on&hide-cdd=on&retmode=text&maxdownloadsize=5000000".format(id)

r2 = requests.get( url )

print( r2.content ) 

b'LOCUS       HIVI5C                   231 bp    DNA     linear   VRL 24-MAR-1997\nDEFINITION  Human immunodeficiency virus type 1 (isolate genotype C, I5) gag\n            gene, partial cds.\nACCESSION   L42022\nVERSION     L42022.1\nKEYWORDS    gag gene; p24 protein.\nSOURCE      Human immunodeficiency virus 1 (HIV-1)\n  ORGANISM  Human immunodeficiency virus 1\n            Viruses; Riboviria; Pararnavirae; Artverviricota; Revtraviricetes;\n            Ortervirales; Retroviridae; Orthoretrovirinae; Lentivirus.\nREFERENCE   1  (bases 1 to 231)\n  AUTHORS   Voevodin,A., Crandall,K.A., Seth,P. and al Mufti,S.\n  TITLE     HIV type 1 subtypes B and C from new regions of India and Indian\n            and Ethiopian expatriates in Kuwait\n  JOURNAL   AIDS Res. Hum. Retroviruses 12 (7), 641-643 (1996)\n   PUBMED   8743090\nFEATURES             Location/Qualifiers\n     source          1..231\n                     /organism="Human immunodeficiency virus 1"\n                     /proviral\n   

__Exercicio__

In [54]:
import time
def url_get(i):
    url_list= [ ]
    for id in range(243,(243+i)):
        url = "https://www.ncbi.nlm.nih.gov/nuccore/NG_009{}?from=5002&to=261787&report=genbank".format( id )
        url_list.append(url)
    return url_list

url_get(4)

['https://www.ncbi.nlm.nih.gov/nuccore/NG_009243?from=5002&to=261787&report=genbank',
 'https://www.ncbi.nlm.nih.gov/nuccore/NG_009244?from=5002&to=261787&report=genbank',
 'https://www.ncbi.nlm.nih.gov/nuccore/NG_009245?from=5002&to=261787&report=genbank',
 'https://www.ncbi.nlm.nih.gov/nuccore/NG_009246?from=5002&to=261787&report=genbank']

In [55]:
import requests

content = []
for url in url_get(4):
    r = requests.get(url)
    content.append(r.content)
print(content)



In [56]:
import requests
from bs4 import BeautifulSoup

# Parsing the HTML
for c in content:
    soup = BeautifulSoup(c, 'html.parser')

    # Procurar um tag meta com um determinado atributo
    lines = soup.find_all('meta', {'name':"ncbi_uidlist"} )

    id = ""
    url = ""
    for line in lines:
        #print(line)
        #if 'name' in line.attrs:
        #    print(line.attrs['name'])
        if 'content' in line.attrs:
            # print(line.attrs['content'])		
            id = line.attrs['content']

    if id:
        url = "https://www.ncbi.nlm.nih.gov/sviewer/viewer.fcgi?id={}&db=nuccore&report=genbank&conwithfeat=on&hide-cdd=on&retmode=text&maxdownloadsize=5000000".format(id)

    r2 = requests.get( url )
    
    r3= str(r2.content)
    

In [21]:
import re
existe = re.findall(r"ORGANISM\s+.*?(?=bp)", r3, re.DOTALL)
if existe:
    for definition in existe:
        m = re.match( r"ORGANISM\s+(.+)", definition, re.DOTALL )
        print( re.sub(r'\s+', ' ', m.group(1) ) )

In [58]:
r3.count(' CDS ')

    

1

In [30]:
LIST

[]