In [1]:
from Bio.Seq import Seq
# Un ADN ha de tenir triples valors (longitud múltiple de 3) per a treure les proteïnes.
my_seq = Seq("GATAGATA")
my_seq

Seq('GATAGATA')

## Convertim una cadena ADN a ARN i a proteïna.

L'ADN ha de tenir triples valors (longitud múltiple de 3) per poder traduïr-ho a proteïnes.

A la vida real no es poden fer els 2 passos automàticament, primer transcripció a ARN (U en comptes de T) i després traducció a proteïna.


In [2]:
Seq("GATAGATAT").transcribe()

Seq('GAUAGAUAU')

In [3]:
Seq("GATAGATAT").translate()

Seq('DRY')

## Seqüeǹcies complementaries i revers complementari. 🧬

Recordem que l'ADN és una cadena amb forma de doble hèlix, per això podem fer aquestes operacions.

In [4]:
my_seq = Seq("GATAGATAT")
my_seq.complement()

Seq('CTATCTATA')

## Fitxers .fasta

La forma estàndard de guardar sequències (cadenes) d'ADN és el fitxer .fasta

Poden tenir una sequència o més sequències (multifasta).

Cada sequència:
-    Un comentari/descripció que comença per > i es una sola linea. Dona informació important de l'organisme 
i de quina font s'ha extret.
-    La seqüència de bases dividides per línies de ...[70] caràcters pot variar.

### Exemple multifasta que usarem.

Descarreguem i llegim el fitxer que proposa la documentació BioPython, en el punt 2.4.1 

<a href="https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/ls_orchid.fasta">Multifasta Orquidea</a>

Mitjançant un iterador (for), llegim totes les cadenes:

In [5]:
from Bio import SeqIO

# Només visualitzarem les 3 primeres perquè hi ha moltes cadenes.
num_seq=0
for seq_record in SeqIO.parse("ls_orchid.fasta", "fasta"):
     if(num_seq<3):
          print(seq_record.id)
          print(repr(seq_record.seq))
          print(len(seq_record))
     num_seq=num_seq+1

gi|2765658|emb|Z78533.1|CIZ78533
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC')
740
gi|2765657|emb|Z78532.1|CCZ78532
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAG...GGC')
753
gi|2765656|emb|Z78531.1|CFZ78531
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGCAG...TAA')
748


### Com podem llegir les dades en una llista ?

Si només volem saber quantes linies hi ha, ho fem posant la seqüència en una llista.

In [6]:
seq_list = list(SeqIO.parse("ls_orchid.fasta", "fasta"))
print(len(seq_list))
print(seq_list[0])

94
ID: gi|2765658|emb|Z78533.1|CIZ78533
Name: gi|2765658|emb|Z78533.1|CIZ78533
Description: gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA
Number of features: 0
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC')


## Com llegim un fitxer de genbank ? 

In [7]:
# Llegeix multifasta o multigenbank, retorna un Iterador.
sarscov2_list = list(SeqIO.parse("sars-cov-2.gb", "genbank"))
sarscov2_list

[SeqRecord(seq=Seq('ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGT...AAA'), id='NC_045512.2', name='NC_045512', description='Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome', dbxrefs=['BioProject:PRJNA485481'])]

In [8]:
# Llegeix un sol fasta o un sol genbank, retorna un únic seq_record.
sarscov2_record = SeqIO.read("sars-cov-2.gb", "genbank")
sarscov2_record

SeqRecord(seq=Seq('ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGT...AAA'), id='NC_045512.2', name='NC_045512', description='Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome', dbxrefs=['BioProject:PRJNA485481'])

### Llegir tot el contingut del genbank.

Usarem reflexió (inspecció) del les classes de Python i el pretty print (pprint)

In [12]:
import inspect
import pprint

def explore(obj: object) -> dict:
    # 1. Get all members
    member_list = inspect.getmembers(obj)
    # 2. Dict comprension to convert list to dict. 
    # member[0] -> key, member[1] -> value
    member_dict = { member[0]:member[1] for member in member_list }
    # 3. Exclude all the private and system methods
    public_member_dict = {  key:value 
                            for key,value in member_dict.items() 
                            if not key.startswith('_') }
    # 4. Remove methods
    public_member_dict = {  key:value 
                            for key,value in public_member_dict.items()
                            if not inspect.ismethod(value)}
    return public_member_dict

list(explore(sarscov2_record).keys())


['annotations',
 'dbxrefs',
 'description',
 'features',
 'id',
 'letter_annotations',
 'name',
 'seq']

## Fitxers .fastaq

Calidad 