Obtener una cadena proteíca de cualquiera de sus ORF's 
ADVANCE: imprimir el de mayor longitud 

In [15]:
from Bio.Seq import Seq
from Bio import SeqUtils

seqobj = Seq("AGCCATGTAGCTAACTCAGGTTACATGGGGATGACCCCGCGACTTGGATTAGAGTCTCTTTTGGAATAAGCCTGAATGATCCGAGTAGCATCTCAG")

# Traducir la secuencia completa hasta el primer stop codon
proteina = seqobj.translate(to_stop=True)

# Traducir en los diferentes marcos de lectura
proteina_ORF1 = seqobj[0:].translate(to_stop=True)
proteina_ORF2 = seqobj[1:].translate(to_stop=True)
proteina_ORF3 = seqobj[2:].translate(to_stop=True)

# Búsqueda de patrones
pattern = "TAC"
ORF = SeqUtils.nt_search(str(seqobj), pattern)

# Determinar el ORF más largo
if len(proteina_ORF1) > len(proteina_ORF2) and len(proteina_ORF1) > len(proteina_ORF3):
    print("Secuencia de aminoácidos del ORF1 es el más largo: ", proteina_ORF1)
elif len(proteina_ORF2) > len(proteina_ORF1) and len(proteina_ORF2) > len(proteina_ORF3):
    print("Secuencia de aminoácidos del ORF2 es el más largo: ", proteina_ORF2)
else:
    print("Secuencia de aminoácidos del ORF3 es el más largo: ", proteina_ORF3)

print("len ORF1: ", len(proteina_ORF1))
print("len ORF2: ", len(proteina_ORF2))
print("len ORF3: ", len(proteina_ORF3))


Secuancia de aminoacidos del ORF1 es el más largo:  SHVANSGYMGMTPRLGLESLLE
len ORF1:  22
len ORF2:  5
len ORF3:  16


Buscar secuencias consenso; una secuencia consenso es una secuencia "promedio" que refleja los nucleótidos o aminoácidos más comunes en una posición específica de un conjunto de secuencias similares.

In [17]:
from Bio import SeqUtils

consensus = "RGWYV"
sequence = "CGTAGCTAGCTCAGAGCAGGGACACGTGCTAGCAACAGCGCT"

resultado = SeqUtils.nt_search(sequence, consensus)

Motifs; Un motif en bioinformática es un patrón o secuencia conservada que aparece en múltiples secuencias de ADN, ARN, o proteínas. Identificar motifs ayuda a entender las regiones funcionales del genoma.

In [None]:
from Bio.Seq import Seq
from Bio import motifs

# Crear instancias de secuencias de ADN
instances = [
    Seq("TACAA"),
    Seq("TACGC"),
    Seq("TACAC"),
    Seq("TACCC"),
    Seq("AACCC"),
    Seq("AATGC"),
    Seq("AATGC"),
]

# Crear el motif
m = motifs.create(instances)

**SeqIO; Módulo de BioPython que permite:**

1. Leer secuencias: SeqIO puede leer secuencias de archivos en varios formatos como FASTA, GenBank, EMBL, etc
2. Escribir secuencias: SeqIO puede escribir secuencias en archivos en diferentes formatos.
3. Conversión de formatos: Facilita la conversión de secuencias de un formato de archivo a otro.
4. Manipulación de secuencias: Permite iterar sobre secuencias y acceder a sus atributos y metadatos.


In [None]:
'''
**Lectura archivo formato fasta:**
> parsea archivo example.fasta, puedes obtener id, seq, name, features, etc..
> `SeqIO.parse()`, devuelve un iterador que te permite recorrer todas las secuencias en el archivo
> `record`; cada record es un objeto de `SeqRecord` que contiene la secuencia y medatados 
> Utilizamos la sentencia with para abrir el archivo ejemplo.fasta en modo lectura. 
La sentencia with garantiza que el archivo se cierre automáticamente al final del bloque, incluso si ocurre una excepción. 
> `handle` es un objeto de archivo que se utiliza como entrada para las funciones de SeqIO.
'''

from Bio import SeqIO

for record in SeqIO.parse("ejemplo.fasta", "fasta"): 
    print(record.id)


# alternativamente se puede usar lo siguiente    
with open("ejemplo.fasta") as handle: # `handle` : nombre del archivo u objeto similar al archivo
    for record in SeqIO.parse(handle, "fasta"):
        print(record.id)



#SeqIO.read(): similar pero solo si tienes un único record en archivo

record = SeqIO.read("single.fasta", "fasta")

**Funcion Format**
Se utiliza para formatear cadenas de texto de manera flexible y legible. Aqui se utiliza para insetar valores(como el ID, longitud de la secuencia y su traducción)  dentro de la cadena de texto


In [None]:
#Leer archivos fasta 

from Bio import SeqIO
#dirección de archivo
filename = "files/clase_2/seq.nt.fa"
#por cada record queremos ID, longitud seq y traducción
for seq_record in SeqIO.parse(filename, "fasta"):
    print('ID {}'.format(seq_record.id))
    print('len {}'.format(len(seq_record)))
    print('Traducción {}'.format(seq_record.seq.translate(to_stop=False)))
#  (to_stop=False,cds=True)
#cds revisa que tenga un codón de inicio

In [None]:
'''
**Escribir secuencias a un archivo**
`SeqIO.write` toma una lista de objetos `SeqRecord`, un nombre de archivo y el formato en el que se quiere escribir
'''
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord

# Crear algunas secuencias de ejemplo
sequences = [
    SeqRecord(Seq("ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG"), id="seq1", description="Example sequence 1"),
    SeqRecord(Seq("GGGCGGCGGTCAGTTCAGGGAAC"), id="seq2", description="Example sequence 2"),
]

# Escribir las secuencias a un archivo FASTA
SeqIO.write(sequences, "output.fasta", "fasta")
#La diferencia con el metodo de abajo es que aqui "output.fasta" es el nombre del archivo en lugar de un objeto de archivo

#Manera alternativa, necesita SeqRecord, archivo output y tipo de formato
with open("ejemplo.fasta", "w") as output_handle:
    #secuencias es un iterador de objetos seqrecord  
    SeqIO.write(secuencias, output_handle, "fasta")
    

In [None]:
'''
**Convertir entre formatos** 
'''
from Bio import SeqIO
from Bio.SeqRecord import SeqRecord


# Convertir de FASTA a GenBank
input_file = "sequences.fasta"
output_file = "sequences.gb"

# Leer las secuencias del archivo FASTA
sequences = SeqIO.parse(input_file, "fasta")

# Escribir las secuencias en el archivo GenBank
SeqIO.write(sequences, output_file, "genbank")

**Archivo fasta a diccionario de Python**

Usaremos SeqIO.to_dict para que nuestro archivo parseado sea convertido en un diccionario. No es conveniente cuando el archivo es muy grande.  

In [None]:
from Bio import SeqIO

id_dict = SeqIO.to_dict(SeqIO.parse('archivos_trabajo/seq.nt.fa', 'fasta'))

#accedemos así
print(id_dict['seq4'], '\n')  # objeto record
print(id_dict['seq4'].seq, '\n')  # solo secuencia
print(type(id_dict['seq4'].seq), '\n')  #clase Seq
print(str(id_dict['seq4'].seq.transcribe()), '\n')

**Ejercicio 2** 

Imprimir codones (separados por un espacio) de cada secuencia en formato FASTA. 
Crea diccionario de tu archivo FASTA
Encuentra todos los codones del primer marco de lectura
Imprimir los codones separados con formato FASTA

EJERCICIO AVANZADO: Hacer lo mismo para los 6 marcos de lectura
En los encabezados deberá decir a qué marco de lectura pertenece

In [4]:
from Bio import SeqIO

archivo_fasta = /Users/frida_galan/Desktop/PythonSEM2/Notes/seq.nt.fa

codones_dict = SeqIO.to_dict(SeqIO.parse(archivo_fasta, "fasta"))

for record in codones_dict:
    print

TypeError: 'str' object is not callable