# Leyendo archivos de secuencia usando Biopython
**Formato de archivo FASTA**

Las secuencias de ADN y proteínas son el tipo de datos más común en bioinformática y el formato de archivo estándar para almacenar estas secuencias es el formato FASTA.

ADN: A,T,C,G

PROTEÍNAS: acrónimos de letras, por ejemplo, A para alanina

Un registro FASTA comienza con un identificador de una línea. Esta línea de identificador siempre comienza con un símbolo mayor que > y lo siguiente es la secuencia. Tenga en cuenta que un archivo FASTA puede contener más de un registro

Ejemplo:

>SECUENCIA_1

MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG
LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK
IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL
MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL

>SECUENCIA_2

SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

In [None]:
# obteniendo data
!wget https://cocalc.com/share/download/df81e09e5b8f16f28b3a2e818dcdd4560e7818ae/support/2015-04-02-ISB-notes/ls_orchid.fasta.txt

--2024-06-06 16:15:56--  https://cocalc.com/share/download/df81e09e5b8f16f28b3a2e818dcdd4560e7818ae/support/2015-04-02-ISB-notes/ls_orchid.fasta.txt
Resolving cocalc.com (cocalc.com)... 104.26.7.215, 172.67.68.195, 104.26.6.215, ...
Connecting to cocalc.com (cocalc.com)|104.26.7.215|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/plain]
Saving to: ‘ls_orchid.fasta.txt’

ls_orchid.fasta.txt     [ <=>                ]  74.69K  --.-KB/s    in 0.02s   

2024-06-06 16:15:56 (3.56 MB/s) - ‘ls_orchid.fasta.txt’ saved [76480]



# Biopython SeqIO

El paquete SeqIO proporciona la interfaz para trabajar con formatos de archivos de secuencia.

parse(file_path, format): lee archivos de secuencia como objeto SeqRecord. SeqRecord contiene la siguiente información:

**id** - ID utilizado para identificar la secuencia - una cadena

**seq** - Objeto Seq que contiene la secuencia (convertir a cadena: str(), verificar la longitud de la secuencia con len())
más información: http://biopython.org/DIST/docs/tutorial/Tutorial.pdf Capítulo 4

Referenica: http://biopython.org/DIST/docs/tutorial/Tutorial.pdf Capítulo 4

In [None]:
!pip install Biopython

Collecting Biopython
  Downloading biopython-1.83-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m10.2 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: Biopython
Successfully installed Biopython-1.83


In [None]:
from Bio import SeqIO

sequences = [] # estableciendo lista vacìa
S=SeqIO.parse("ls_orchid.fasta.txt", "fasta")
#print(type(S))

for x in S:
    # adicionando registro a la lista
    sequences.append(str(x.seq))
    # imprimiendo secuencia:
    print(x.seq)
    # imprimiendo identificador de secuencia:
    print(x.id)
    # imprimiendo la longitu de la secuencia:
    print(len(x.seq))

print(len(sequences))

CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTGAATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGGCCGCCTCGGGAGCGTCCATGGCGGGTTTGAACCTCTAGCCCGGCGCAGTTTGGGCGCCAAGCCATATGAAAGCATCACCGGCGAATGGCATTGTCTTCCCCAAAACCCGGAGCGGCGGCGTGCTGTCGCGTGCCCAATGAATTTTGATGACTCTCGCAAACGGGAATCTTGGCTCTTTGCATCGGATGGAAGGACGCAGCGAAATGCGATAAGTGGTGTGAATTGCAAGATCCCGTGAACCATCGAGTCTTTTGAACGCAAGTTGCGCCCGAGGCCATCAGGCTAAGGGCACGCCTGCTTGGGCGTCGCGCTTCGTCTCTCTCCTGCCAATGCTTGCCCGGCATACAGCCAGGCCGGCGTGGTGCGGATGTGAAAGATTGGCCCCTTGTGCCTAGGTGCGGCGGGTCCAAGAGCTGGTGTTTTGATGGCCCGGAACCCGGCAAGAGGTGGACGGATGCTGGCAGCAGCTGCCGTGCGAATCCCCCATGTTGTCGTGCTTGTCGGACAGGCAGGAGAACCCTTCCGAACCCCAATGGAGGGCGGTTGACCGCCATTCGGATGTGACCCCAGGTCAGGCGGGGGCACCCGCTGAGTTTACGC
gi|2765658|emb|Z78533.1|CIZ78533
740
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAGAATATATGATCGAGTGAATCTGGAGGACCTGTGGTAACTCAGCTCGTCGTGGCACTGCTTTTGTCGTGACCCTGCTTTGTTGTTGGGCCTCCTCAAGAGCTTTCATGGCAGGTTTGAACTTTAGTACGGTGCAGTTTGCGCCAAGTCATATAAAGCATCACTGATGAA

In [None]:
print(sequences)

['CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTGAATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGGCCGCCTCGGGAGCGTCCATGGCGGGTTTGAACCTCTAGCCCGGCGCAGTTTGGGCGCCAAGCCATATGAAAGCATCACCGGCGAATGGCATTGTCTTCCCCAAAACCCGGAGCGGCGGCGTGCTGTCGCGTGCCCAATGAATTTTGATGACTCTCGCAAACGGGAATCTTGGCTCTTTGCATCGGATGGAAGGACGCAGCGAAATGCGATAAGTGGTGTGAATTGCAAGATCCCGTGAACCATCGAGTCTTTTGAACGCAAGTTGCGCCCGAGGCCATCAGGCTAAGGGCACGCCTGCTTGGGCGTCGCGCTTCGTCTCTCTCCTGCCAATGCTTGCCCGGCATACAGCCAGGCCGGCGTGGTGCGGATGTGAAAGATTGGCCCCTTGTGCCTAGGTGCGGCGGGTCCAAGAGCTGGTGTTTTGATGGCCCGGAACCCGGCAAGAGGTGGACGGATGCTGGCAGCAGCTGCCGTGCGAATCCCCCATGTTGTCGTGCTTGTCGGACAGGCAGGAGAACCCTTCCGAACCCCAATGGAGGGCGGTTGACCGCCATTCGGATGTGACCCCAGGTCAGGCGGGGGCACCCGCTGAGTTTACGC', 'CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAGAATATATGATCGAGTGAATCTGGAGGACCTGTGGTAACTCAGCTCGTCGTGGCACTGCTTTTGTCGTGACCCTGCTTTGTTGTTGGGCCTCCTCAAGAGCTTTCATGGCAGGTTTGAACTTTAGTACGGTGCAGTTTGCGCCAAGTCATATAAAGCATCACTGATGAATGACATTATTGTCAGAAAAAATCAGAGGGGCA

In [None]:
#Escribir un script (código) que obtenga la proporción de CG de cada secuencia en la lista sequences.
#estos deben almacenarse en una lista

from Bio.SeqUtils import gc_fraction
#print(gc_fraction(sequences[0]))
#print(gc_fraction(sequences[1]))
#print(gc_fraction(sequences[2]))

FGC=[]

for sec in sequences:
  FGC.append(gc_fraction(sec))

print(len(FGC))

print(FGC)


94
[0.595945945945946, 0.4847277556440903, 0.570855614973262, 0.47580645161290325, 0.47885402455661663, 0.5069637883008357, 0.5041095890410959, 0.5042613636363636, 0.4776725304465494, 0.5035260930888575, 0.49857142857142855, 0.4903581267217631, 0.4953519256308101, 0.4907010014306152, 0.5151975683890577, 0.4973404255319149, 0.49173553719008267, 0.5372549019607843, 0.5602649006622517, 0.5592991913746631, 0.5616797900262467, 0.5624161073825503, 0.5706666666666667, 0.5554035567715458, 0.5681511470985156, 0.5635135135135135, 0.5598349381017882, 0.5569620253164557, 0.5518169582772544, 0.562585969738652, 0.5640686922060766, 0.564935064935065, 0.5723598435462842, 0.5151515151515151, 0.5133333333333333, 0.5253807106598984, 0.5180878552971576, 0.5310519645120405, 0.5, 0.5118219749652295, 0.506056527590848, 0.5033921302578019, 0.5137362637362637, 0.5121621621621621, 0.514367816091954, 0.5109289617486339, 0.5102599179206566, 0.507482993197279, 0.5083333333333333, 0.49864864864864866, 0.52312599681

# Accediendo a la bases de datos del NCBI con Biopython

Analizamos cómo acceder a dichas bases de datos en el Centro Nacional de Información Biotecnológica (NCBI). No solo se tratará del GenBank, sino también de otras bases de datos del NCBI. A veces se refiere (erróneamente) a todo el conjunto de bases de datos del NCBI como GenBank, pero el NCBI incluye la base de datos de nucleótidos y muchas otras, por ejemplo, PubMed.

Consulte las bases de datos disponibles en el NCBI
Biopython proporciona una interfaz para Entrez (https://www.ncbi.nlm.nih.gov/books/NBK25501/), el sistema de recuperación de datos que ofrece el NCBI. Entrez también se puede utilizar a través de un navegador web: https://www.ncbi.nlm.nih.gov/search/

## Tips:
- Indicar una dirección de correo electrónico con su consulta
- Evitar recibir una gran cantidad de solicitudes (100 o más) durante las horas pico (entre las 9:00 a. m. y las 5:00 p. m., hora del este de Estados Unidos, los días de semana)
- No postear más de tres consultas por segundo (Biopython se encargará de esto)
No solo es una buena conducta, sino que corre el riesgo de que bloqueen si se usa demasiado los servidores del NCBI (una buena razón para proporcionar una dirección de correo electrónico real, porque el NCBI puede intentar comunicarse con usted).

In [None]:
from Bio import Entrez, SeqIO
Entrez.email = "anavargas@lamolina.edu.pe" # ingresar correo personal

**EInfo**: obtiene una lista de todos los nombres de bases de datos accesibles a través de Entrez

In [None]:
# Proporciona las bases de datos disponibles
handle = Entrez.einfo() #retorna un resumen de las BD en Entrez
rec = Entrez.read(handle) #funciòn de lectura del mòdulo Entrez
handle.close()
print(type(rec))
print(rec.keys())

<class 'Bio.Entrez.Parser.DictionaryElement'>
dict_keys(['DbList'])


In [None]:
rec['DbList']

['pubmed', 'protein', 'nuccore', 'ipg', 'nucleotide', 'structure', 'genome', 'annotinfo', 'assembly', 'bioproject', 'biosample', 'blastdbinfo', 'books', 'cdd', 'clinvar', 'gap', 'gapplus', 'grasp', 'dbvar', 'gene', 'gds', 'geoprofiles', 'medgen', 'mesh', 'nlmcatalog', 'omim', 'orgtrack', 'pmc', 'popset', 'proteinclusters', 'pcassay', 'protfam', 'pccompound', 'pcsubstance', 'seqannot', 'snp', 'sra', 'taxonomy', 'biocollections', 'gtr']

In [None]:
handle1 = Entrez.einfo(db='genome')
rec1 = Entrez.read(handle1)
handle1.close()
print(type(handle1))
print(rec1)

<class 'http.client.HTTPResponse'>
{'DbInfo': {'DbName': 'genome', 'MenuName': 'Genome', 'Description': 'Genomic sequences, contigs, and maps', 'DbBuild': 'Build240603-1355.1', 'Count': '88137', 'LastUpdate': '2024/06/03 14:40', 'FieldList': [{'Name': 'ALL', 'FullName': 'All Fields', 'Description': 'All terms from all searchable fields', 'TermCount': '20527244', 'IsDate': 'N', 'IsNumerical': 'N', 'SingleToken': 'N', 'Hierarchy': 'N', 'IsHidden': 'N'}, {'Name': 'UID', 'FullName': 'UID', 'Description': 'Unique number assigned to genome', 'TermCount': '0', 'IsDate': 'N', 'IsNumerical': 'Y', 'SingleToken': 'Y', 'Hierarchy': 'N', 'IsHidden': 'Y'}, {'Name': 'FILT', 'FullName': 'Filter', 'Description': 'Limits the records', 'TermCount': '17', 'IsDate': 'N', 'IsNumerical': 'N', 'SingleToken': 'Y', 'Hierarchy': 'N', 'IsHidden': 'N'}, {'Name': 'ORGN', 'FullName': 'Organism', 'Description': 'Organism', 'TermCount': '710044', 'IsDate': 'N', 'IsNumerical': 'N', 'SingleToken': 'Y', 'Hierarchy': 'Y',

In [None]:
handle2 = Entrez.einfo(db='pubmed',term ="cancer genomic")
rec2 = Entrez.read(handle2)
handle2.close()
print(type(rec2))
print(rec2.keys())

<class 'Bio.Entrez.Parser.DictionaryElement'>
dict_keys(['DbInfo'])


In [None]:
print(rec2)

{'DbInfo': {'DbName': 'pubmed', 'MenuName': 'PubMed', 'Description': 'PubMed bibliographic record', 'DbBuild': 'Build-2024.06.06.07.46', 'Count': '37318299', 'LastUpdate': '2024/06/06 07:46', 'FieldList': [{'Name': 'ALL', 'FullName': 'All Fields', 'Description': 'All terms from all searchable fields', 'TermCount': '', 'IsDate': 'N', 'IsNumerical': 'N', 'SingleToken': 'N', 'Hierarchy': 'N', 'IsHidden': 'N'}, {'Name': 'UID', 'FullName': 'UID', 'Description': 'Unique number assigned to publication', 'TermCount': '', 'IsDate': 'N', 'IsNumerical': 'Y', 'SingleToken': 'Y', 'Hierarchy': 'N', 'IsHidden': 'Y'}, {'Name': 'FILT', 'FullName': 'Filter', 'Description': 'Limits the records', 'TermCount': '', 'IsDate': 'N', 'IsNumerical': 'N', 'SingleToken': 'Y', 'Hierarchy': 'N', 'IsHidden': 'N'}, {'Name': 'TITL', 'FullName': 'Title', 'Description': 'Words in title of publication', 'TermCount': '', 'IsDate': 'N', 'IsNumerical': 'N', 'SingleToken': 'N', 'Hierarchy': 'N', 'IsHidden': 'N'}, {'Name': 'ME

Ahora se intentará encontrar el gen transportador de resistencia a la cloroquina (CRT) (**KM288867**) en Plasmodium falciparum (el parásito que causa la forma más letal de malaria) en la base de datos de nucleótidos:

**ESearch**: Búsqueda en las bases de datos de Entrez

Tomar en cuenta que la búsqueda estándar limitará la cantidad de referencias de registros a **20**, por lo que, si se tiene más, se puede configuarar con **retmax** a la cantidad deseada de registros.

In [None]:
handle = Entrez.esearch(db="nucleotide", term='CRT[Gene Name] AND "Plasmodium falciparum"[Organism]', retmax="100")
rec_list = Entrez.read(handle)
handle.close()
print(type(rec_list))
#rec_list['Count']
#print(rec_list.keys())
print(rec_list['IdList'])

<class 'Bio.Entrez.Parser.DictionaryElement'>
['2587918588', '2507817686', '2507817684', '2507817682', '2507817680', '2507817678', '2507817676', '2507817674', '2507817672', '2507817670', '2507817668', '2507817666', '2507817664', '2507817662', '2507817660', '2507817658', '2507817656', '2507817654', '2507817652', '2507817650', '2507817648', '2507817646', '2507817644', '2507817642', '2507817640', '2507817638', '2507817636', '2507817634', '2507817632', '2507817630', '2507817628', '2507817626', '2507817624', '2507817622', '2507817620', '2507817618', '2507817616', '2507817614', '2507817612', '2507817610', '2507817608', '2507817606', '2507817604', '2507817602', '2507817600', '2507817598', '2507817596', '2507817594', '2507817592', '2507817590', '2507817588', '2507817586', '2507817584', '2507817582', '2507817580', '2507817578', '2507817576', '2507817574', '2507817572', '2507817570', '2507817568', '2507817566', '2507817564', '2507817562', '2507817560', '2507817558', '2507817556', '2327910595', '

In [None]:
len(rec_list['IdList'])

100

In [None]:
rec_list['IdList']

['2587918588', '2507817686', '2507817684', '2507817682', '2507817680', '2507817678', '2507817676', '2507817674', '2507817672', '2507817670', '2507817668', '2507817666', '2507817664', '2507817662', '2507817660', '2507817658', '2507817656', '2507817654', '2507817652', '2507817650', '2507817648', '2507817646', '2507817644', '2507817642', '2507817640', '2507817638', '2507817636', '2507817634', '2507817632', '2507817630', '2507817628', '2507817626', '2507817624', '2507817622', '2507817620', '2507817618', '2507817616', '2507817614', '2507817612', '2507817610', '2507817608', '2507817606', '2507817604', '2507817602', '2507817600', '2507817598', '2507817596', '2507817594', '2507817592', '2507817590', '2507817588', '2507817586', '2507817584', '2507817582', '2507817580', '2507817578', '2507817576', '2507817574', '2507817572', '2507817570', '2507817568', '2507817566', '2507817564', '2507817562', '2507817560', '2507817558', '2507817556', '2327910595', '2327910593', '2327910591', '2327910589', '2327

Ahora se tiene los identificadores de todos los registros, pero aún se necesita recuperarlos correctamente.

**EFetch**: Descarga registros completos de Entrez

Para solicitar un formato de archivo específico de Entrez mediante Bio.Entrez.efetch() es necesario especificar los argumentos opcionales **rettype** y/o **retmode**. Las diferentes combinaciones se describen para cada tipo de base de datos en las páginas vinculadas a la página web de efetch del NCBI: https://www.ncbi.nlm.nih.gov/books/NBK25499/#chapter4.EFetch

rettype: tipo de retorno, gb == GenBank
retmax: número total de registros del conjunto de entrada que se recuperarán, hasta un máximo de 10 000

In [None]:
id_list = rec_list['IdList']
handle = Entrez.efetch(db='nucleotide', id=id_list, rettype='gb') # formato genbank, para analizarlo con el módulo SeqIO

In [None]:
recs = list(SeqIO.parse(handle, 'gb'))
print(type(recs[0]))
handle.close()
ls=[]
c=0
for i in range(len(recs)):
  if len(recs[i].seq) >= 150:
    c=c+1
    ls.append(recs[i].seq)
print(ls)
print(c)



<class 'Bio.SeqRecord.SeqRecord'>
[Seq('GGTGGAGGTTCTTGTCTTGGTAAATGTGCTCATGTGTTTAAACTTATTTTTAAA...AAA')]
1


In [None]:
(recs[99].seq)


Seq('TGTGCTCATGTGTTTAAACTTATTTTTAAAGAGATTAAGGATAATATTTTTATT...TTT')

Tener en cuenta que se ha convertido un iterador (el resultado de SeqIO.parse) en una lista. La ventaja de hacer esto es que se puede utilizar el resultado tantas veces como se requiere (por ejemplo, iterar muchas veces), sin repetir la consulta al servidor.

In [None]:
recs

[SeqRecord(seq=Seq('GGTGGAGGTTCTTGTCTTGGTAAATGTGCTCATGTGTTTAAACTTATTTTTAAA...AAA'), id='OR483864.1', name='OR483864', description='Plasmodium falciparum isolate PE-26 chloroquine resistance transporter (crt) gene, partial cds', dbxrefs=[]),
 SeqRecord(seq=Seq('TGTGCTCATGTGTTTAAACTTATTTTTAAAGAGATTAAGGATAATATTTTTATT...TTG'), id='OQ672451.1', name='OQ672451', description='Plasmodium falciparum isolate ML_14 chloroquine resistance transporter (crt) gene, partial cds', dbxrefs=[]),
 SeqRecord(seq=Seq('TGTGCTCATGTGTTTAAACTTATTTTTAAAGAGATTAAGGATAATATTTTTATT...TTG'), id='OQ672450.1', name='OQ672450', description='Plasmodium falciparum isolate ML_13 chloroquine resistance transporter (crt) gene, partial cds', dbxrefs=[]),
 SeqRecord(seq=Seq('TGTGCTCATGTGTTTAAACTTATTTTTAAAGAGATTAAGGATAATATTTTTATT...TTG'), id='OQ672449.1', name='OQ672449', description='Plasmodium falciparum isolate ML_12 chloroquine resistance transporter (crt) gene, partial cds', dbxrefs=[]),
 SeqRecord(seq=Seq('TGTGCTCATGTGTTTA

Sin embargo, tener cuidado con esta técnica, ya que recuperará una gran cantidad de registros completos y algunos de ellos tendrán secuencias bastante grandes en su interior. Podría descargar una gran cantidad de datos (lo que supondría una saturación de carga tanto para uno como para los servidores del NCBI).

In [None]:
for rec in recs:
    if rec.name == 'OQ672416': # buscando el gen CRT gene en los 40 registros obtenidos
      print(rec.name)
      print(rec.description)

OQ672416
Plasmodium falciparum isolate GJ_02 chloroquine resistance transporter (crt) gene, partial cds


In [None]:
#print(type(rec))
#print(type(recs))
#str(rec.seq)

<class 'Bio.SeqRecord.SeqRecord'>
<class 'list'>


'TGTGCTCATGTGTTTAAACTTATTTTTAAAGAGATTAAGGATAATATTTTTATTTATATTTTAAGTATTATTTATTTAAGTGTATCTGTAATGAATACAATTTTTGCTAAAAGAACTTTAAACAAAATTGGTAACTATAGTTTTG'

In [None]:
# task: descarga (efetch)
# identifier: id (ejem: accesion number, GI number, etc)
# database: db (ejem: nucleòtido, nuncore, etc)
# output format: rttype (ejem: fasta, genbank, etc)
# display format: retmode (text, xml,etc)

In [None]:
handle3 = Entrez.efetch(db="nuccore", id='34577062')
print(handle3.read())
print(type(handle3.read()))
handle3.close()

Seq-entry ::= set {
  level 1,
  class nuc-prot,
  descr {
    source {
      genome genomic,
      org {
        taxname "Homo sapiens",
        common "human",
        db {
          {
            db "taxon",
            tag id 9606
          }
        },
        orgname {
          name binomial {
            genus "Homo",
            species "sapiens"
          },
          lineage "Eukaryota; Metazoa; Chordata; Craniata; Vertebrata;
 Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
 Catarrhini; Hominidae; Homo",
          gcode 1,
          mgcode 2,
          div "PRI"
        }
      },
      subtype {
        {
          subtype chromosome,
          name "1"
        },
        {
          subtype map,
          name "1cen-q12"
        }
      }
    },
    pub {
      pub {
        pmid 19115993,
        article {
          title {
            name "Association analyses of the interaction between the ADSS and
 ATM genes with schizophrenia in a Chinese 

In [None]:
handle4 = Entrez.efetch(db="nuccore", id='34577062', rettype="fasta")
print(handle4.read())
print(type(handle4.read()))
handle4.close()

>NM_001126.2 Homo sapiens adenylosuccinate synthase (ADSS), mRNA
GGAAGGGGCGTGGCCTCGGTCCGGGGTGGCGGCCGTTGCCGCCACCAGGGCCTCTTCCTGCGGGCGGTGC
TGCCGAGGCCGGCCTGCGCGGGGCAGTCATGGTACCCCCTTGAGCGGGCTGTGGCGGAGAGCGGGGCGGG
GACTGGCTGGAGGGTGGCGGCCCGGCGGGGCGGGGGCGGGGCCGGCCTCTGGCTCCTTCTTCCTCTGCAT
GTGGCTGGCGGCCGCAGAGCAGTTCAGTTCGCTCACTCCTCGCCGGCCGCCTCTCCTTCGGGCTCTCCTC
GCGTCACTGGAGCCATGGCGTTCGCCGAGACCTACCCGGCGGCATCCTCCCTGCCCAACGGCGATTGCGG
CCGCCCCAGGGCGCGGCCCGGAGGAAACCGGGTGACGGTGGTGCTCGGTGCGCAGTGGGGCGACGAAGGC
AAAGGGAAGGTGGTGGACCTGCTGGCGCAGGACGCCGACATCGTGTGCCGCTGCCAGGGAGGAAATAATG
CTGGCCATACAGTTGTTGTGGATTCTGTGGAATATGATTTTCATCTCTTACCCAGTGGAATAATTAATCC
AAATGTCACTGCATTCATTGGAAATGGTGTGGTAATTCATCTACCTGGATTGTTTGAAGAAGCAGAGAAA
AATGTTCAAAAAGGAAAAGGACTAGAAGGCTGGGAAAAAAGGCTTATTATATCTGACAGAGCTCATATTG
TATTTGATTTTCATCAAGCAGCTGATGGTATCCAGGAACAACAGAGACAAGAACAAGCAGGAAAAAATTT
GGGTACAACAAAAAAGGGCATTGGCCCAGTTTATTCGTCCAAAGCTGCTCGGAGTGGACTCAGGATGTGC
GACCTTGTTTCTGACTTTGATGGCTTCTCTGAGAGGTTTAAAGTTCTAGCTAACCAATACAAATCTATAT
ACCCCACTTTGG

In [None]:
handle5 = Entrez.efetch(db="nucleotide", id='NM_001126.2', rettype="gb",retmode='text')
print(handle5.read())
print(type(handle5.read()))

LOCUS       NM_001126               2775 bp    mRNA    linear   PRI 10-OCT-2010
DEFINITION  Homo sapiens adenylosuccinate synthase (ADSS), mRNA.
ACCESSION   NM_001126
VERSION     NM_001126.2
KEYWORDS    RefSeq.
SOURCE      Homo sapiens (human)
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.
REFERENCE   1  (bases 1 to 2775)
  AUTHORS   Sivendran,S. and Colman,R.F.
  TITLE     Effect of a new non-cleavable substrate analog on wild-type and
            serine mutants in the signature sequence of adenylosuccinate lyase
            of Bacillus subtilis and Homo sapiens
  JOURNAL   Protein Sci. 17 (7), 1162-1174 (2008)
   PUBMED   18469177
  REMARK    GeneRIF: Kinetic data reveal that human Ser(289) and B. subtilis
            Ser(262) and Ser(263) are essential for catalysis, while the
            ability of these Ser mutant

In [None]:
from Bio import SeqIO
handle6 = Entrez.efetch(db="nucleotide", id='NM_001126.2', rettype="gb",retmode='text')
#print(handle6.read())
record = SeqIO.read(handle6,'gb')
handle6.close()

In [None]:
print(record.id)
print(record.features)
print(record.seq)


NM_001126.2
[SeqFeature(SimpleLocation(ExactPosition(0), ExactPosition(2775), strand=1), type='source', qualifiers=...), SeqFeature(SimpleLocation(ExactPosition(0), ExactPosition(2775), strand=1), type='gene', qualifiers=...), SeqFeature(SimpleLocation(ExactPosition(294), ExactPosition(1665), strand=1), type='CDS', qualifiers=...), SeqFeature(SimpleLocation(ExactPosition(2731), ExactPosition(2737), strand=1), type='regulatory', qualifiers=...), SeqFeature(SimpleLocation(ExactPosition(2756), ExactPosition(2757), strand=1), type='polyA_site', qualifiers=...)]
GGAAGGGGCGTGGCCTCGGTCCGGGGTGGCGGCCGTTGCCGCCACCAGGGCCTCTTCCTGCGGGCGGTGCTGCCGAGGCCGGCCTGCGCGGGGCAGTCATGGTACCCCCTTGAGCGGGCTGTGGCGGAGAGCGGGGCGGGGACTGGCTGGAGGGTGGCGGCCCGGCGGGGCGGGGGCGGGGCCGGCCTCTGGCTCCTTCTTCCTCTGCATGTGGCTGGCGGCCGCAGAGCAGTTCAGTTCGCTCACTCCTCGCCGGCCGCCTCTCCTTCGGGCTCTCCTCGCGTCACTGGAGCCATGGCGTTCGCCGAGACCTACCCGGCGGCATCCTCCCTGCCCAACGGCGATTGCGGCCGCCCCAGGGCGCGGCCCGGAGGAAACCGGGTGACGGTGGTGCTCGGTGCGCAGTGGGGCGACGAAGGCAAAGGGAAGGTGGTGG

In [None]:
handle7 = Entrez.efetch(db="nuccore", id='34577062,186972394', rettype="fasta")
records = SeqIO.parse(handle7,'fasta')
records = [i for i in records]
handle7.close()
print(records)
print(len(records))
print(records[0].id)

[SeqRecord(seq=Seq('GGAAGGGGCGTGGCCTCGGTCCGGGGTGGCGGCCGTTGCCGCCACCAGGGCCTC...AAA'), id='NM_001126.2', name='NM_001126.2', description='NM_001126.2 Homo sapiens adenylosuccinate synthase (ADSS), mRNA', dbxrefs=[]), SeqRecord(seq=Seq('ATTTTTTACGAACCTGTGGAAATTTTTGGTTATGACAATAAATCTAGTTTAGTA...GAA'), id='EU490707.1', name='EU490707.1', description='EU490707.1 Selenipedium aequinoctiale maturase K (matK) gene, partial cds; chloroplast', dbxrefs=[])]
2
NM_001126.2


In [None]:
handle8 = Entrez.efetch(db="nucleotide", id='34577062', rettype="fasta")
record1 = SeqIO.read(handle8,'fasta')
SeqIO.write(record1,'registro1','fasta')
handle8.close()