Obtener una cadena proteíca de cualquiera de sus ORF's 
ADVANCE: imprimir el de mayor longitud 

In [1]:
from Bio.Seq import Seq
from Bio import SeqUtils

seqobj = Seq("AGCCATGTAGCTAACTCAGGTTACATGGGGATGACCCCGCGACTTGGATTAGAGTCTCTTTTGGAATAAGCCTGAATGATCCGAGTAGCATCTCAG")

# Traducir la secuencia completa hasta el primer stop codon
proteina = seqobj.translate(to_stop=True)

# Traducir en los diferentes marcos de lectura
proteina_ORF1 = seqobj[0:].translate(to_stop=True)
proteina_ORF2 = seqobj[1:].translate(to_stop=True)
proteina_ORF3 = seqobj[2:].translate(to_stop=True)

# Búsqueda de patrones
pattern = "TAC"
ORF = SeqUtils.nt_search(str(seqobj), pattern)

# Determinar el ORF más largo
if len(proteina_ORF1) > len(proteina_ORF2) and len(proteina_ORF1) > len(proteina_ORF3):
    print("Secuencia de aminoácidos del ORF1 es el más largo: ", proteina_ORF1)
elif len(proteina_ORF2) > len(proteina_ORF1) and len(proteina_ORF2) > len(proteina_ORF3):
    print("Secuencia de aminoácidos del ORF2 es el más largo: ", proteina_ORF2)
else:
    print("Secuencia de aminoácidos del ORF3 es el más largo: ", proteina_ORF3)

print("len ORF1: ", len(proteina_ORF1))
print("len ORF2: ", len(proteina_ORF2))
print("len ORF3: ", len(proteina_ORF3))




Secuencia de aminoácidos del ORF1 es el más largo:  SHVANSGYMGMTPRLGLESLLE
len ORF1:  22
len ORF2:  2
len ORF3:  3


Buscar secuencias consenso; una secuencia consenso es una secuencia "promedio" que refleja los nucleótidos o aminoácidos más comunes en una posición específica de un conjunto de secuencias similares.

In [17]:
from Bio import SeqUtils

consensus = "RGWYV"
sequence = "CGTAGCTAGCTCAGAGCAGGGACACGTGCTAGCAACAGCGCT"

resultado = SeqUtils.nt_search(sequence, consensus)

Motifs; Un motif en bioinformática es un patrón o secuencia conservada que aparece en múltiples secuencias de ADN, ARN, o proteínas. Identificar motifs ayuda a entender las regiones funcionales del genoma.

In [None]:
from Bio.Seq import Seq
from Bio import motifs

# Crear instancias de secuencias de ADN
instances = [
    Seq("TACAA"),
    Seq("TACGC"),
    Seq("TACAC"),
    Seq("TACCC"),
    Seq("AACCC"),
    Seq("AATGC"),
    Seq("AATGC"),
]

# Crear el motif
m = motifs.create(instances)

**SeqIO; Módulo de BioPython que permite:**

1. Leer secuencias: SeqIO puede leer secuencias de archivos en varios formatos como FASTA, GenBank, EMBL, etc
2. Escribir secuencias: SeqIO puede escribir secuencias en archivos en diferentes formatos.
3. Conversión de formatos: Facilita la conversión de secuencias de un formato de archivo a otro.
4. Manipulación de secuencias: Permite iterar sobre secuencias y acceder a sus atributos y metadatos.


In [None]:
'''
**Lectura archivo formato fasta:**
> parsea archivo example.fasta, puedes obtener id, seq, name, features, etc..
> `SeqIO.parse()`, devuelve un iterador que te permite recorrer todas las secuencias en el archivo
> `record`; cada record es un objeto de `SeqRecord` que contiene la secuencia y medatados 
> Utilizamos la sentencia with para abrir el archivo ejemplo.fasta en modo lectura. 
La sentencia with garantiza que el archivo se cierre automáticamente al final del bloque, incluso si ocurre una excepción. 
> `handle` es un objeto de archivo que se utiliza como entrada para las funciones de SeqIO.
'''

from Bio import SeqIO

for record in SeqIO.parse("ejemplo.fasta", "fasta"): 
    print(record.id)


# alternativamente se puede usar lo siguiente    
with open("ejemplo.fasta") as handle: # `handle` : nombre del archivo u objeto similar al archivo
    for record in SeqIO.parse(handle, "fasta"):
        print(record.id)



#SeqIO.read(): similar pero solo si tienes un único record en archivo

record = SeqIO.read("single.fasta", "fasta")

**Funcion Format**
Se utiliza para formatear cadenas de texto de manera flexible y legible. Aqui se utiliza para insetar valores(como el ID, longitud de la secuencia y su traducción)  dentro de la cadena de texto


In [None]:
#Leer archivos fasta 

from Bio import SeqIO
#dirección de archivo
filename = "files/clase_2/seq.nt.fa"
#por cada record queremos ID, longitud seq y traducción
for seq_record in SeqIO.parse(filename, "fasta"):
    print('ID {}'.format(seq_record.id))
    print('len {}'.format(len(seq_record)))
    print('Traducción {}'.format(seq_record.seq.translate(to_stop=False)))
#  (to_stop=False,cds=True)
#cds revisa que tenga un codón de inicio

In [None]:
'''
**Escribir secuencias a un archivo**
`SeqIO.write` toma una lista de objetos `SeqRecord`, un nombre de archivo y el formato en el que se quiere escribir
'''
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord

# Crear algunas secuencias de ejemplo
sequences = [
    SeqRecord(Seq("ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG"), id="seq1", description="Example sequence 1"),
    SeqRecord(Seq("GGGCGGCGGTCAGTTCAGGGAAC"), id="seq2", description="Example sequence 2"),
]

# Escribir las secuencias a un archivo FASTA
SeqIO.write(sequences, "output.fasta", "fasta")
#La diferencia con el metodo de abajo es que aqui "output.fasta" es el nombre del archivo en lugar de un objeto de archivo

#Manera alternativa, necesita SeqRecord, archivo output y tipo de formato
with open("ejemplo.fasta", "w") as output_handle:
    #secuencias es un iterador de objetos seqrecord  
    SeqIO.write(secuencias, output_handle, "fasta")
    

In [None]:
'''
**Convertir entre formatos** 
'''
from Bio import SeqIO
from Bio.SeqRecord import SeqRecord


# Convertir de FASTA a GenBank
input_file = "sequences.fasta"
output_file = "sequences.gb"

# Leer las secuencias del archivo FASTA
sequences = SeqIO.parse(input_file, "fasta")

# Escribir las secuencias en el archivo GenBank
SeqIO.write(sequences, output_file, "genbank")

**Archivo fasta a diccionario de Python**

Usaremos SeqIO.to_dict para que nuestro archivo parseado sea convertido en un diccionario. No es conveniente cuando el archivo es muy grande. 

*Ventajas:*

> Acceso Rápido: Los diccionarios permiten un acceso muy rápido a las secuencias por su identificador (O(1) en promedio), lo que es muy eficiente si necesitas buscar secuencias específicas frecuentemente.
> Organización por Identificador: Es fácil y rápido recuperar secuencias específicas, lo que puede ser útil en análisis donde el acceso por identificador es común.

*Desventajas:*

> Mayor Uso de Memoria: Los diccionarios utilizan más memoria debido a la necesidad de almacenar las claves además de los valores.
> Complejidad: Puede ser más complicado de manejar si solo necesitas iterar sobre las secuencias.

In [None]:
from Bio import SeqIO

id_dict = SeqIO.to_dict(SeqIO.parse('archivos_trabajo/seq.nt.fa', 'fasta'))

#accedemos así
print(id_dict['seq4'], '\n')  # objeto record
print(id_dict['seq4'].seq, '\n')  # solo secuencia
print(type(id_dict['seq4'].seq), '\n')  #clase Seq
print(str(id_dict['seq4'].seq.transcribe()), '\n')

**Ejercicio 2** 

Imprimir codones (separados por un espacio) de cada secuencia en formato FASTA. 
Crea diccionario de tu archivo FASTA
Encuentra todos los codones del primer marco de lectura
Imprimir los codones separados con formato FASTA

EJERCICIO AVANZADO: Hacer lo mismo para los 6 marcos de lectura
En los encabezados deberá decir a qué marco de lectura pertenece

In [3]:
from Bio import SeqIO

archivo_fasta = "/Users/frida_galan/Desktop/PythonSEM2/Notes/seq.nt.fa"

codones_dict = SeqIO.to_dict(SeqIO.parse(archivo_fasta, "fasta"))

for record_id, record in codones_dict.items():
    sequence = str(record.seq)
    codons = [sequence[i:i+3] for i in range(0, len(sequence), 3)]
    codons_str = " ".join(codons)
    print(f">{record_id}\n{codons_str}")

>seq1
AAG AGC AGC TCG CGC TAA TGT GAT AGA TGG CGG TAA AGT AAA TGT CCT ATG GGC CAC CAA TTA TGG TGT ATG AGT GAA TCT CTG GTC CGA GAT TCA CTG AGT AAC TGC TGT ACA CAG TAG TAA CAC GTG GAG ATC CCA TAA GCT TCA CGT GTG GTC CAA TAA AAC ACT CCG TTG GTC AAC
>seq2
GCC ACA GAG CCT AGG ACC CCA ACC TAA CCT AAC CTA ACC TAA CCT ACA GTT TGA TCT TAA CCA TGA GGC TGA GAA GCG ATG TCC TGA CCG GCC TGT CCT AAC CGC CCT GAC CTA ACC GGC TTG ACC TAA CCG CCC TGA CCT AAC CAG GCT AAC CTA ACC AAA CCG TGA AAA AAG GAA TCT
>seq3
ATG AAA GTT ACA TAA AGA CTA TTC GAT GCA TAA ATA GTT CAG TTT TGA AAA CTT ACA TTT TGT TAA AGT CAG GTA CTT GTG TAT AAT ATC AAC TAA AT
>seq4
ATG CTA ACC AAA GTT TCA GTT CGG ACG TGT CGA TGA GCG ACG CTC AAA AAG GAA ACA ACA TGC CAA ATA GAA ACG ATC AAT TCG GCG ATG GAA ATC AGA ACA ACG ATC AGT TTG GAA ATC AAA ATA GAA ATA ACG GGA ACG ATC AGT TTA ATA ACA TGA TGC AGA ATA AAG GGA ATA ATC AAT TTA ATC CAG GTA ATC AGA ACA GAG GT


**Manejo de FASTA con listas** 

*Ventajas:*
> Simplicidad: Es fácil iterar sobre las secuencias en una lista.
> Uso de memoria: Generalmente, el uso de memoria es menor en comparación con los diccionarios, ya que no hay almacenamiento adicional para las claves.

*Desventajas:*
> Acceso Secuencial: Si necesitas buscar una secuencia específica por su identificador, tendrás que recorrer la lista completa hasta encontrarla, lo cual es ineficiente (O(n)).

In [4]:
from Bio import SeqIO

archivo_fasta = "/Users/frida_galan/Desktop/PythonSEM2/Notes/seq.nt.fa"

id_list = list(SeqIO.parse(archivo_fasta, "fasta"))
print(id_list[-1].id, '\n') #accedemos al id del último elemento
print(id_list[-1].seq, '\n') #accedemos al seq del último elemento
print(id_list) #para examinar 

seq4 

ATGCTAACCAAAGTTTCAGTTCGGACGTGTCGATGAGCGACGCTCAAAAAGGAAACAACATGCCAAATAGAAACGATCAATTCGGCGATGGAAATCAGAACAACGATCAGTTTGGAAATCAAAATAGAAATAACGGGAACGATCAGTTTAATAACATGATGCAGAATAAAGGGAATAATCAATTTAATCCAGGTAATCAGAACAGAGGT 

[SeqRecord(seq=Seq('AAGAGCAGCTCGCGCTAATGTGATAGATGGCGGTAAAGTAAATGTCCTATGGGC...AAC'), id='seq1', name='seq1', description='seq1', dbxrefs=[]), SeqRecord(seq=Seq('GCCACAGAGCCTAGGACCCCAACCTAACCTAACCTAACCTAACCTACAGTTTGA...TCT'), id='seq2', name='seq2', description='seq2', dbxrefs=[]), SeqRecord(seq=Seq('ATGAAAGTTACATAAAGACTATTCGATGCATAAATAGTTCAGTTTTGAAAACTT...AAT'), id='seq3', name='seq3', description='seq3', dbxrefs=[]), SeqRecord(seq=Seq('ATGCTAACCAAAGTTTCAGTTCGGACGTGTCGATGAGCGACGCTCAAAAAGGAA...GGT'), id='seq4', name='seq4', description='seq4', dbxrefs=[])]


**Uso de `SeqIO.index`**

Herramienta eficiente para manejar archivos FASTA o similares. Especilamente útil para acceder a registros de manera rápida sin cargar todo el archivo a la memoria. 
- Ideal para archivos grandes


1) Indexación de los archivos; Biopython crea un índice del archivo FASTA. Este índice almacena las posiciones de los registros en el archivo, permitiendo un acceso rápido y eficiente a cualquier registro específico.
A diferencia de SeqIO.parse o SeqIO.to_dict, SeqIO.index no carga todas las secuencias en la memoria. En su lugar, solo mantiene la información necesaria para localizar rápidamente cada secuencia en el archivo.

2) Acceso a registros específicos;
Utiliza el indice creado anteriormente para buscar la posición del registro y luego solo cargar ese registro en la memoria. 


In [None]:
from Bio import SeqIO

record_dict = SeqIO.index("example2.fasta", "fasta")
# hasta este momento recuperará la info de seq1
print(record_dict["seq1"])

**Crear un subset** 

Si queremos un FASTA seleccionando dolo ciertas secuencias podríamos hacer lo siguiente: 

In [6]:
from Bio import SeqIO

#Guardamos IDs de interés
seq_ids = ['seq4', 'seq1']

#Escribimos el archivo ya filtrado con `filtered.fasta` con las secuencias seleccionadas 
with open("/Users/frida_galan/Desktop/PythonSEM2/Notes/filtered.fasta", "w") as out_handle:
    for record in SeqIO.parse('/Users/frida_galan/Desktop/PythonSEM2/Notes/seq.nt.fa', "fasta"):
        if record.id in seq_ids:
            SeqIO.write(record, out_handle, "fasta")

**Fastq**

* Identificador de secuencia con información sobre la secuenciación. Los contenidos de esta línea varian, basados en el software de conversión BCL a FASTQ usado

* La secuencia ( A, C, T, G y N)

* Un separador, signo de más (+)

* Puntuaciones de calidad. Estas son codificadas con Phred +33, usando caracteres ASCII para representar puntuaciones de calidad numéricas


**Puntación de calidad** 
    La puntuación Q de 3 significa P=0,5, lo que significa que hay un 50% de probabilidades de que la base esté equivocada

In [None]:
#Leer archivos Fastq

from Bio import SeqIO

n = 0
# indicamos que es un archivo fastq
for record in SeqIO.parse("archivos_trabajo/sample.fastq", "fastq"):
    if n < 5:
        # pedimos id y seq
        print("%s %s" % (record.id, record.seq))
        n +=1
    else:break
print ('\n',record.letter_annotations.keys())
# nos da los valores en qscore (ya no en ASCII)
print (record.letter_annotations["phred_quality"])

**FASTQC**

FastQC es un programa diseñado para detectar posibles problemas en los conjuntos de datos de secuenciación de alto rendimiento. Ejecuta un conjunto de análisis en uno o más archivos de secuencia sin procesar en formato fastq o bam y produce un informe que resume los resultados.

> Funcionalidades de FastQC
FastQC realiza varios análisis, entre los cuales se incluyen:

- Per Base Sequence Quality: Evalúa la calidad de las bases a lo largo de cada lectura.
- Per Sequence Quality Scores: Muestra la distribución de las calidades de todas las lecturas.
- Per Base Sequence Content: Muestra la proporción de cada base (A, T, C, G) en cada posición a lo largo de todas las lecturas.
- Per Sequence GC Content: Muestra la distribución del contenido de GC en las secuencias.
- Per Base N Content: Evalúa la frecuencia de bases 'N' (bases desconocidas) en cada posición.
- Sequence Length Distribution: Muestra la distribución de la longitud de las lecturas.
- Sequence Duplication Levels: Evalúa el nivel de duplicación de secuencias.
- Overrepresented Sequences: Identifica secuencias que están sobre-representadas en el conjunto de datos.
- Adapter Content: Detecta la presencia de secuencias adaptadoras que no se han eliminado adecuadamente.
- Kmer Content: Busca secuencias de oligonucleótidos cortos (k-mers) que están sobre-representados en el conjunto de datos.

> ¿Cómo Funciona FastQC?
FastQC lee los archivos FASTQ y realiza varios análisis estadísticos y gráficos para generar un informe detallado sobre la calidad de los datos de secuenciación. El informe incluye gráficos y tablas que resumen los resultados de cada análisis mencionado anteriormente.