In [50]:
from Bio.Seq import Seq

my_seq = Seq("GAT")
my_seq.complement()
my_seq.translate()

Seq('D')

In [51]:
# Chapter 3: Seqs

# DNA and RNA codon tables
# https://en.wikipedia.org/wiki/DNA_and_RNA_codon_tables

# Example
my_seq = Seq("AGTACACTGGT")

# Reverse
reversed("GATA")
my_seq[::-1]  # Equivalent to reversed()

# Enumerate. Coordinates start at 0!
list(enumerate(reversed("GATA")))

# In Python strings and Seqs are immutable!
# "GATAGATA"[0] = "A"



[(0, 'A'), (1, 'T'), (2, 'A'), (3, 'G')]

In [52]:
# Chapter 5: Input/Output

from Bio import SeqIO
from Bio.SeqRecord import SeqRecord
from Bio.SeqIO.FastaIO import FastaIterator
from Bio.SeqFeature import SeqFeature, FeatureLocation

# Los dos métodos básicos para leer ficheros son .read() y .parse()
# SeqIO.read()  => Leer ficheros con UNA sola secuencia o ficha.
# SeqIO.parse() => Leer ficheros con varias secuencias o fichas. (multifasta, etc.)
# Ambos métodos devuelven un SeqRecord.
# En el caso de leer fastas, la ficha no tiene casi ninguna anotación.


In [53]:
# Chapter 5: Input/Output de ficheros FASTA

# Ejemplo de fichero con sólo una secuencia
record: SeqRecord = SeqIO.read("coronavirus2.fasta", "fasta")
record.seq           # Bio.Seq.Seq
record.id            # str
record.name          # str
record.description   # str
record.dbxrefs       # list[str]


# Ejemplo multifasta
# ls_orchid.fasta está en el Chapter 5.1.1 Reading Sequence Files
# SeqIO.read("ls_orchid.fasta", "fasta")  # => ERROR: Leer un multifasta con .read()

# Mutlifasta: Leer todo el multifasta en RAM
record_list: list[SeqRecord] = list(SeqIO.parse("ls_orchid.fasta", "fasta"))
len(record_list)
record_list[0].seq

# Mutlifasta: Sólo leer cada fasta de uno en uno
iterator: FastaIterator = SeqIO.parse("ls_orchid.fasta", "fasta")

# for record in iterator:
#     print(record.id, end=', ')

# WARNING: Cuidado con los iteradores sólo se pueden recorrer UNA única vez.

# Cómo leer una sola secuencia con .parse()
iterator: FastaIterator = SeqIO.parse("coronavirus2.fasta", "fasta")

record: SeqRecord = next(iterator)
record.id

# Formas equivalentes de leer una sola secuencia
# - SeqIO.read("coronavirus2.fasta", "fasta"))
# - next(SeqIO.parse("coronavirus2.fasta", "fasta"))



'NC_045512.2'

In [82]:
# Chapter 5: Input/Output de ficheros GENBANK

record: SeqRecord = SeqIO.read("coronavirus2.gb", "genbank")

dir(record)
# Éstos son los campos que tiene el SeqRecord
record.seq                # Bio.Seq.Seq
record.id                 # str
record.name               # str
record.description        # str
record.dbxrefs            # list[str]
record.annotations        # dict -> Contexto de la secuencia
record.letter_annotations # dict
record.features           # list[SeqFeature]

# Un SeqFeature es una anotación dentro de la sección FEATURES.
# Vamos a ver los campos de un SeqFeature

source_feature: SeqFeature = record.features[0]

dir(source_feature)
source_feature.type       # str
source_feature.id         # str
source_feature.location   # FeatureLocation
source_feature.strand     # int (hebra directa o indirecta)
source_feature.ref        # str
source_feature.ref_db     # str
source_feature.qualifiers # dict[str, list[str]] => dict(source_feature.qualifiers)

# Locations
source_location: FeatureLocation = source_feature.location

dir(source_location)
source_location.strand         # int. 1 = Hebra directa. -1 = Hebra indirecta
source_location.start          # Position
source_location.end            # Position
source_location.nofuzzy_start  # Position (int)
source_location.nofuzzy_end    # Position (int)
source_location.parts          # Para joins
source_location.ref            # str
source_location.ref_db         # str

# Las posiciones están explicadas en 4.3.2.3 Fuzzy Positions
# - ExactPosition
# - BeforePosition
# - AfterPosition
# - WithinPosition
# - OneOfPosition
# - UnknownPosition



[FeatureLocation(ExactPosition(0), ExactPosition(29903), strand=1)]

In [None]:
# Para escribir .fasta o .gb, se usa SeqIO
# Ejemplo:
# Bio.SeqIO.write()
