##Transcriptómica
Algunos conceptos clave...

* RNA seq:

  paired -> fragmentos largos
  
  unnpaired -> fragmentos más cortos, mayor costo computacional

* FASTQ: (Fastqc) cálidad de las secuencias, archivos arrojados por secuenciación

* GeneBank: base de datos, IDs

Es importante realizar controles de calidad para obtener información confiable!

Ya teniendo nuestra información "limpia", realizar alineamientos BLAST 

## SeqIO - Objetos SeqRecord

Manejando Seq Record

Los atributos principales son :
* ID: (cadena) objeto.id
* seq: (objeto Seq o similar) objeto.seq
* Puede haber atributos adicionales (como nombre, descripción, dbxrefs,features, annotations...)


*SeqIO.parse(archivo, formato)* : método que nos permite parsear un archivo (genera un objeto SeqRecord), permite la iteración por cada registro

*record.letter_annotations["phred_quality"]* : método que nos arroja el phred score (cambiamos de ASCI a valores numéricos)


In [None]:
#Manejo de archivos FASTQ
from Bio import SeqIO

path="files/sample.fastq"
#guardar IDs de records bajo umbral
mala_calidad = []
umbral = 40
for record in SeqIO.parse(path, "fastq"): 
    promedio = sum(record.letter_annotations["phred_quality"]) / len(record.letter_annotations["phred_quality"])
    if (promedio < umbral):
        mala_calidad.append((promedio, record.id))


## GenBank annotations
Metadatos: Información detallada sobre el organismo, referencias a otras bases de datos, publicaciones, etc.

* Metadatos: Organismo, versión, fecha...
* Features: Source (organismo, aislado, país), Gen, CDS...
* Origin: secuencia de la que provienen los datos

---

Manejando nuestros archivos con SeqIO - Los datos estarán guardados en diccionarios

In [None]:
from Bio import SeqIO

for gb_record in SeqIO.parse("./files/clase_2/aichi.gb", "genbank"):
    print('ID', gb_record.id)
    print('Secuencia', str(gb_record.seq)[0:30],'...')
    print('Longitud', len(gb_record))
    
# Accediendo a los metadatos (diccionario)
for annotation, value in gb_record.annotations.items:
  print(annotation, value)

print(gb_record.annotations['date'])


### Ejercicio
Utilizando el archivo virus.gb obtener de qué organismo viene y la versión

In [None]:
from Bio import Se

path = "./files/clase_2/virus.gb"

for gb_record in SeqIO.parse(path, "genebank"):
  print('ID', gb_record.id)

print(gb_record.annotations)

# Obteniendo metadatos
version = gb_record.annotations['sequence_version']
organismo = gb_record.annotations['organism']


## Accediendo a la información - Features
Features contiene una lista de los genes y los productos

  Dentro de la lista hay objetos "SeqFeature": [Source, CDS, Gene...]

Cada SeqFeature tiene "atributos":
* location
* type
* qualifiers

Cada uno de estos atributos pueden tener:
* objetos
* diccionarios
* cadenas...


In [None]:
#Accediendo a features
f_source = gb_record.features[0]
f_cds = gb_record.features[1]

print(f_source.location)
print(f_source.type)
print(f_source.qualifiers)

print(f_source.qualifiers['organism'])

print(f_source.qualifiers['collection_date'])

print(f_cds.qualifiers['codon_start'])


### Ejercicio
Obtener información de features

Utilizando el archivo virus.gb obtener la fuente del aislado y el país de donde proviene

In [None]:
from Bio import Seq

path = "./files/clase_2/virus.gb"
for gb_record in SeqIO.parse(path, "genebank"):
  print('ID', gb_record.id)

fuente_aislado = gb_record.features[0].qualifiers['isolation_source']
pais = gb_record.features[0].qualifiers['country']

# Extra - Por cada feature (cds, source, gene) busco aquellos cuyo tipo sea gene
for feature in gb_record.features:
    if feature.type == "gene":
        print(feature)
