# Uso de librerías biológicas
- Autores: Amalia Espinoza, Mickaela Gallo, Andrés Palma

## Utilizando herramientas y librerías de biopython, reproducir el tutorial indicado en el siguiente enlace:
- __[Tutorial de biopython](https://biopython.org/DIST/docs/tutorial/Tutorial.html)__

### Búsqueda de un número de acceso en la base de datos del NCBI

- Instalación e importación de librerías

In [1]:
from Bio import SeqIO
from Bio import Entrez

- Lectura de un archivo fasta previamente guardado e impresión de las primeras 100 bases de cada secuencia

In [2]:
# Lee el archivo y guarda las secuencias en un objeto SeqIO
secuencias = SeqIO.parse("jpcm5.fasta", "fasta")
# Recorre cada secuencia
for seq_record in secuencias:
    # Imprime el identificador de la secuencia y su secuencia
    print(seq_record.id)
    print(str(seq_record.seq[:100]))

JPCM5
ccctcaccctaaccctctccctaaccctaacccgtaaccctaaccctcaccctaaccctcaccctaaccctaaccctaaccctaaccctaaccctcaccc


- Al igual que en seqinR en R, es posible obtener la lista de las bases de datos disponibles

In [3]:
handle = Entrez.einfo()
result = handle.read()
handle = Entrez.einfo()
record = Entrez.read(handle)
record["DbList"]

            Email address is not specified.

            To make use of NCBI's E-utilities, NCBI requires you to specify your
            email address with each request.  As an example, if your email address
            is A.N.Other@example.com, you can specify it as follows:
               from Bio import Entrez
               Entrez.email = 'A.N.Other@example.com'
            In case of excessive usage of the E-utilities, NCBI will attempt to contact
            a user at the email address provided before blocking access to the
            E-utilities.


['pubmed', 'protein', 'nuccore', 'ipg', 'nucleotide', 'structure', 'genome', 'annotinfo', 'assembly', 'bioproject', 'biosample', 'blastdbinfo', 'books', 'cdd', 'clinvar', 'gap', 'gapplus', 'grasp', 'dbvar', 'gene', 'gds', 'geoprofiles', 'homologene', 'medgen', 'mesh', 'nlmcatalog', 'omim', 'orgtrack', 'pmc', 'popset', 'proteinclusters', 'pcassay', 'protfam', 'pccompound', 'pcsubstance', 'seqannot', 'snp', 'sra', 'taxonomy', 'biocollections', 'gtr']

- A continuación vamos a utilizar la librería Entrez para buscar secuencias y toda la información relacionada a bases de datos biológicas del NCBI
- Primero debemos establecer nuestro correo electrónico como usuario de la librería

In [4]:
Entrez.email = "bapalma@puce.edu.ec"

- Para obtener la secuencia correspondiente a la bacteria \*Leishmania infantum\*, causante de la Leishmaniasis en Ecuador, la tercera enfermedad más común transmitida por vectores según [un informe publicado por el Ministerio de Salud Publica en 2020](https://www.salud.gob.ec/wp-content/uploads/2020/07/ETV-SE-26.pdf)

In [5]:
# Accede a la base de datos de GenBank y busca el registro con el número de acceso 'NM_001003003'
leishmania = Entrez.efetch(db="nucleotide", id="FR796433", rettype="gb", retmode="text")
datos=leishmania.read().split("\n")
for i in range(50):
    print(datos[i])

LOCUS       FR796433              277951 bp    DNA     linear   INV 16-DEC-2011
DEFINITION  Leishmania infantum JPCM5 genome chromosome 1.
ACCESSION   FR796433 AM502219
VERSION     FR796433.1
DBLINK      BioProject: PRJNA12658
KEYWORDS    complete genome.
SOURCE      Leishmania infantum JPCM5
  ORGANISM  Leishmania infantum JPCM5
            Eukaryota; Discoba; Euglenozoa; Kinetoplastea; Metakinetoplastina;
            Trypanosomatida; Trypanosomatidae; Leishmaniinae; Leishmania.
REFERENCE   1
  AUTHORS   Peacock,C.S., Seeger,K., Harris,D., Murphy,L., Ruiz,J.C.,
            Quail,M.A., Peters,N., Adlem,E., Tivey,A., Aslett,M., Kerhornou,A.,
            Ivens,A., Fraser,A., Rajandream,M.A., Carver,T., Norbertczak,H.,
            Chillingworth,T., Hance,Z., Jagels,K., Moule,S., Ormond,D.,
            Rutter,S., Squares,R., Whitehead,S., Rabbinowitsch,E.,
            Arrowsmith,C., White,B., Thurston,S., Bringaud,F., Baldauf,S.L.,
            Faulconbridge,A., Jeffares,D., Depledge,D.P., 

Almacenamos la secuencia que se encuentra en el atributo `seq` de la variable `registro`.

In [6]:
leishmania = Entrez.efetch(db="nucleotide", id="FR796433", rettype="gb", retmode="text")
registro = SeqIO.read(leishmania, "genbank")
secuencia = registro.seq
secuencia[:50]

Seq('CCCTCACCCTAACCCTCTCCCTAACCCTAACCCGTAACCCTAACCCTCAC')

- Buscando secuencias publicadas en la revista Nature indicando el número de volumen y página:

In [7]:
busqueda_journals = Entrez.esearch(db="nucleotide", term="Nature[Journal] AND 396[Volume] AND 133[Page Number] ", retmax=10)

- En esta búsqueda se obtuvieron 7 resultados

In [8]:
resultados = Entrez.read(busqueda_journals)
resultados

{'Count': '7', 'RetMax': '7', 'RetStart': '0', 'IdList': ['15603881', '30407152', '3868717', '3861237', '3861033', '3860572', '4581484'], 'TranslationSet': [{'From': 'Nature[Journal]', 'To': '*Incorrect Translation* "Nature"[Journal:__jid0410462] OR "Nature (Paris, France)"[Journal:__jid18940010R]'}], 'TranslationStack': [{'Term': 'Nature[Journal]', 'Field': 'Journal', 'Count': '6968817', 'Explode': 'N'}, {'Term': '396[Volume]', 'Field': 'Volume', 'Count': '1121', 'Explode': 'N'}, 'AND', {'Term': '133[Page Number]', 'Field': 'Page Number', 'Count': '100456', 'Explode': 'N'}, 'AND'], 'QueryTranslation': 'Nature[Journal] AND 396[Volume] AND 133[Page Number]'}

In [9]:
resultados["Count"]

'7'

Por cada resultado accedemos a la base de datos de GenBank y obtenemos la secuencia correspondiente

In [10]:
for res in resultados["IdList"]:
    handle = Entrez.efetch(db="nucleotide", id=res, rettype="fasta", retmode="text")
    secuencia = handle.read()
    print(secuencia[:100])


>NC_000963.1 Rickettsia prowazekii str. Madrid E, complete sequence
ATGACAAAGCTAATTATTCACTTGGTTTCAGA
>AJ235269.1 Rickettsia prowazekii str. Madrid E, complete genome
ATGACAAAGCTAATTATTCACTTGGTTTCAGACTC
>AJ235271.1 Rickettsia prowazekii strain Madrid E, complete genome; segment 2/4
ATCTTAAACAATGATTGCGC
>AJ235273.1 Rickettsia prowazekii strain Madrid E, complete genome; segment 4/4
GAAAGATTTAATATCTGACT
>AJ235272.1 Rickettsia prowazekii strain Madrid E, complete genome; segment 3/4
TGGATATAGCGGTTAAGCTA
>AJ235270.1 Rickettsia prowazekii strain Madrid E, complete genome; segment 1/4
ATGACAAAGCTAATTATTCA
>X89470.1 Rickettsia prowazekii plp gene and secA gene (partial)
ACCGCAAACTCTGCTAGCCGCTTCTCTCACTACCG


- Realizamos una búsqueda más compleja de las moléculas de tRNA del homo sapiens y las guardamos en un archivo FASTA

In [11]:
busqueda=Entrez.esearch(db="nucleotide", term="homo sapiens[ORGN] AND tRNA[MOLTYPE]")
handle = Entrez.read(busqueda)
id_lista = handle['IdList']
handle = Entrez.efetch(db="nucleotide", id=id_lista, rettype="fasta", retmode="text")
secuencias = handle.read()

In [12]:
with open("humantRNA.fasta", "w") as archivo:
    archivo.write(secuencias)

In [13]:
# Leer las secuencias desde el archivo guardado
with open("humantRNA.fasta", "r") as archivo:
    secuencias_guardadas = list(SeqIO.parse(archivo, "fasta"))

# Imprimir el número de secuencias guardadas
print("Número de secuencias guardadas:", len(secuencias_guardadas))

Número de secuencias guardadas: 20


## Ejercicios

1. **¿Qué información sobre la secuencia del virus de la rabia (acceso al NCBI NC_001542) puede obtener de sus anotaciones en la base de datos de secuencias del NCBI?**

In [14]:
handle = Entrez.efetch(db="nucleotide", id="NC_001542", rettype="gb", retmode="text")
record = handle.read().split("\n")

# Algunas anotaciones de la secuencia
for i in range(50):
    print(record[i])

LOCUS       NC_001542              11932 bp ss-RNA     linear   VRL 13-AUG-2018
DEFINITION  Rabies virus, complete genome.
ACCESSION   NC_001542
VERSION     NC_001542.1
DBLINK      BioProject: PRJNA485481
KEYWORDS    RefSeq.
SOURCE      Lyssavirus rabies
  ORGANISM  Lyssavirus rabies
            Viruses; Riboviria; Orthornavirae; Negarnaviricota;
            Haploviricotina; Monjiviricetes; Mononegavirales; Rhabdoviridae;
            Alpharhabdovirinae; Lyssavirus.
REFERENCE   1  (bases 5388 to 11932)
  AUTHORS   Tordo,N., Poch,O., Ermine,A., Keith,G. and Rougeon,F.
  TITLE     Completion of the rabies virus genome sequence determination:
            highly conserved domains among the L (polymerase) proteins of
            unsegmented negative-strand RNA viruses
  JOURNAL   Virology 165 (2), 565-576 (1988)
   PUBMED   3407152
REFERENCE   2  (bases 1 to 5500)
  AUTHORS   Tordo,N., Poch,O., Ermine,A., Keith,G. and Rougeon,F.
  TITLE     Walking along the rabies genome: is the large G-L i

2. **¿Cuántas secuencias de nucleótidos hay de la bacteria Chlamydia trachomatis en la base de datos de secuencias del NCBI?**

In [15]:
busqueda=Entrez.esearch(db="nucleotide", term="Chlamydia trachomatis[ORGN]")
handle = Entrez.read(busqueda)
count = handle["Count"]

In [16]:
count

'79520'

3. **¿Cuántas secuencias de nucleótidos hay de la bacteria Chlamydia trachomatis en la parte RefSeq de la base de datos de secuencias del NCBI?**

In [17]:
busqueda=Entrez.esearch(db="nucleotide", term="Chlamydia trachomatis[ORGN] AND srcdb_refseq[PROP]")
handle = Entrez.read(busqueda)
count = handle["Count"]

In [18]:
count

'490'

4. **¿Cuántas secuencias de nucleótidos envió Matthew Berriman al NCBI?**

In [19]:
busqueda=Entrez.esearch(db="nucleotide", term="Berriman M[AU]")
handle = Entrez.read(busqueda)
count = handle["Count"]

In [20]:
count

'648267'

5. **¿Cuántas secuencias de nucleótidos de gusanos nematodos hay en la base de datos RefSeq?**

In [21]:
busqueda=Entrez.esearch(db="nucleotide", term="Nematoda[ORGN] AND srcdb_refseq[PROP]")
handle = Entrez.read(busqueda)
count = handle["Count"]

In [22]:
count

'205388'

6. **¿Cuántas secuencias de ARNm para genes de colágeno de gusanos nematodos hay en la base de datos del NCBI?**

In [23]:
busqueda=Entrez.esearch(db="nucleotide", term="Nematoda[Organism] AND Collagen")
handle = Entrez.read(busqueda)
count = handle["Count"]

In [24]:
count

'10635'

7. **¿Cuántas secuencias de ARNm para genes de colágeno de gusanos nematodos hay en la base de datos del NCBI?**

In [25]:
busqueda=Entrez.esearch(db="nucleotide", term="Nematoda[ORGN] AND collagen AND biomol mRNA[PROP]")
handle = Entrez.read(busqueda)
count = handle["Count"]

In [26]:
count

'7606'

8. **¿Cuántas secuencias de proteínas para proteínas de colágeno de gusanos nematodos hay en la base de datos del NCBI?**

In [27]:
busqueda=Entrez.esearch(db="protein", term="Nematoda[ORGN] AND collagen")
handle = Entrez.read(busqueda)
count = handle["Count"]

In [28]:
count

'9656'

9. **¿Cuál es el número de acceso para el genoma de *Trypanosoma cruzi* en NCBI?**

In [29]:
busqueda=Entrez.esearch(db="genome", term="Trypanosoma cruzi[ORGN]")
busqueda = Entrez.read(busqueda)
summary_handle = Entrez.esummary(db="genome", id=busqueda["IdList"][0])
summary_record = Entrez.read(summary_handle)

In [30]:
summary_record[0]["Assembly_Accession"]

'GCA_000209065.1'

In [31]:
busqueda=Entrez.esearch(db="nucleotide", term="Trypanosoma cruzi[ORGN] AND complete genome[TITLE]")
handle = Entrez.read(busqueda)
id_lista = handle['IdList']
handle = Entrez.efetch(db="nucleotide", id=id_lista, rettype="gb", retmode="text")
secuencias = handle.read().split("\n")[3].split(" ")[3]


In [32]:
secuencias

'MT554701'

10. **¿Cuántas especies de gusanos nematodos completamente secuenciadas están representadas en la base de datos del Genoma del NCBI?**

In [33]:
busqueda=Entrez.esearch(db="genome", term="nematoda[ORGN] AND complete genome")
handle = Entrez.read(busqueda)
count = handle["Count"]

In [34]:
count

'68'

## Conclusiones
La función seqinr en **R** utiliza el sistema ACNUC, el cual ejecuta un filtrado más exhaustivo y es más especializado para ver nucleótidos, en cambio, en **PYTHON** nos direcciona a cualquier información de NCBI como si estuviésemos buscando directamente en la página web.