# Análisis BLAST contra las bases de datos del NCBI

En este ejercicio vamos a hacer una búsqueda de secuencias por similitud usando el algoritmo blast en la base de datos del NCBI.

In [None]:
### Libraries necesarias

In [2]:
from Bio import Blast
from Bio import SeqIO
# Probablemente necesiten instalar Zipfile2  y json. lo pueden hacer con conda:
# conda install conda-forge::zipfile2
# conda install jmcmurray::json
import zipfile2
import json

Verifiquemos que el módulo Blast esta funcionando bien.

In [3]:
Blast.tool

'biopython'

Registramos nuestro e-mail para ejecutar procesos en el NCBI

In [4]:
Blast.email = "soria@agro.uba.ar"

En la celda que sigue corremos el análisis BLAST de una secuencia cualquiera, en este caso, una proteína con el número de acceso NP_013127, especificamos que el algoritmo es plastp y la base de datos nr. Queremos recuperar los resultados en formato JSON.
**Atención**: los resultados a veces demoran en llegar. A veces bastante, es importante determinar si realmente nos conviene usar este procedimiento de rutina.

In [5]:
result_stream = Blast.qblast("blastp", "nr", "NP_013127", format_type="JSON2")

Los resultados que devuelve el NCBI se pueden leer una sola vez y vienen en comprimidos. En nuestro caso los vamos a guardar en el objeto "data". Si intentaran volver a ejecutar el comando de abajo, *data* quedaría vacio y perderíamos los resultados.

In [6]:
data = result_stream.read()

A continuación guardamos los resultados como archivo zip, y en la celda que sigue lo volvemos a leer. No van a proceder siempre de esta manera, pero aqui queremos demostrar cómo guardar los resultados para usarlos más tarde o para mantener una adecuada documentación del proyecto.

In [7]:
with open("blast_file.zip", "wb") as out_stream:
    out_stream.write(data)

In [8]:
zip_file = zipfile2.ZipFile("blast_file.zip")

El archivo zip contiene dos objetos, sus nombres van a cambiar, por lo que ustedes pueden ver nombres diferentes. Por eso más abajo, en lugar de llamarlos por sus nombres, los llamamos "zip_file.namelist()[0]" y "zip_file.namelist()[1]"

In [10]:
zip_file.namelist()

['MW3SNBWY013.json', 'MW3SNBWY013_1.json']

In [11]:
stream = zip_file.open(zip_file.namelist()[0])
data = stream.read()

In [12]:
print(data)

b'{\n\t"BlastJSON": [\n\t\t{"File": "MW3SNBWY013_1.json" }\n\t]\n}'


La información que nos interesa está en el segundo objeto (zip_file.namelist()[1])

In [13]:
stream = zip_file.open(zip_file.namelist()[1])
data = stream.read()


El objeto *data* contiene bytes, es de tipo binario, tenemos que transformarlo en un diccionario JSON en modo texto.

In [14]:
type(data)

bytes

In [30]:
blast_data = json.loads(data)

In [31]:
type(blast_data)

dict

Este diccionario contiene a su vez otro diccionario, que a su vez contiene otro:

In [32]:
blast_data.keys()

dict_keys(['BlastOutput2'])

In [33]:
type(blast_data['BlastOutput2'])

dict

In [29]:
blast_data['BlastOutput2'].keys()

dict_keys(['report'])

In [35]:
type( blast_data['BlastOutput2']['report'])

dict

Guardamos este último diccionario en un objeto *blast_report*:

In [36]:
blast_report = blast_data['BlastOutput2']['report']

In [37]:
blast_report.keys()

dict_keys(['program', 'version', 'reference', 'search_target', 'params', 'results'])

Los items de este diccionario contienen el nombre del algoritmo (blastp), la versión de blastp usada, los parámetros de la corrida, y el más grande de todos *blast_dict['results']* que es un diccionario con los resultados detallados.

In [38]:
blast_report['program']

'blastp'

In [100]:
blast_report['version']

'BLASTP 2.16.0+'

In [104]:
blast_report['params']

{'matrix': 'BLOSUM62',
 'expect': 10,
 'gap_open': 11,
 'gap_extend': 1,
 'filter': 'F',
 'cbs': 2}

In [108]:
type(blast_report['results'])

dict

El diccionario *results* contiene el detalle de cada secuencia que devuelve el análisis Blast.

In [39]:
blast_report['results'].keys()

dict_keys(['search'])

In [40]:
blast_report['results']['search'].keys()

dict_keys(['query_id', 'query_title', 'query_len', 'hits', 'stat'])

In [128]:
type(blast_report['results']['search']['hits'])

list

La búsqueda Blast en el NCBI devolvió 50 resultados:

In [41]:
res_list = blast_report['results']['search']['hits']

In [42]:
len(res_list)

50

In [43]:
type(res_list[0])

dict

Y es posible recuperar cada una de las secuencias que encontró Blast:

In [44]:
res_list[0].keys()

dict_keys(['num', 'description', 'len', 'hsps'])

In [45]:
res_list[0]['description']

[{'id': 'emb|CAA97550.1|',
  'accession': 'CAA97550',
  'title': 'AAT2 [Saccharomyces cerevisiae]',
  'taxid': 4932,
  'sciname': 'Saccharomyces cerevisiae'}]

In [46]:
res_list[0]['len']

432

In [47]:
res_list[0]['hsps']

[{'num': 1,
  'bit_score': 874.774,
  'score': 2259,
  'evalue': 0,
  'identity': 418,
  'positive': 418,
  'query_from': 1,
  'query_to': 418,
  'hit_from': 15,
  'hit_to': 432,
  'align_len': 418,
  'gaps': 0,
  'qseq': 'MSATLFNNIELLPPDALFGIKQRYGQDQRATKVDLGIGAYRDDNGKPWVLPSVKAAEKLIHNDSSYNHEYLGITGLPSLTSNAAKIIFGTQSDAFQEDRVISVQSLSGTGALHISAKFFSKFFPDKLVYLSKPTWANHMAIFENQGLKTATYPYWANETKSLDLNGFLNAIQKAPEGSIFVLHSCAHNPTGLDPTSEQWVQIVDAIASKNHIALFDTAYQGFATGDLDKDAYAVRLGVEKLSTVSPVFVCQSFAKNAGMYGERVGCFHLALTKQAQNKTIKPAVTSQLAKIIRSEVSNPPAYGAKIVAKLLETPELTEQWHKDMVTMSSRITKMRHALRDHLVKLGTPGNWDHIVNQCGMFSFTGLTPQMVKRLEETHAVYLVASGRASIAGLNQGNVEYVAKAIDEVVRFYTIEAKL',
  'hseq': 'MSATLFNNIELLPPDALFGIKQRYGQDQRATKVDLGIGAYRDDNGKPWVLPSVKAAEKLIHNDSSYNHEYLGITGLPSLTSNAAKIIFGTQSDAFQEDRVISVQSLSGTGALHISAKFFSKFFPDKLVYLSKPTWANHMAIFENQGLKTATYPYWANETKSLDLNGFLNAIQKAPEGSIFVLHSCAHNPTGLDPTSEQWVQIVDAIASKNHIALFDTAYQGFATGDLDKDAYAVRLGVEKLSTVSPVFVCQSFAKNAGMYGERVGCFHLALTKQAQNKTIKPAVTSQLAKIIRSEVSNPPAYGAKIVAKLLETPELTEQWHKDMVTMSSRITKMRHALRDHLVKL

In [48]:
len(res_list[0]['description'])

1

In [49]:
res_list[0]['description'][0]['accession']

'CAA97550'