# **8. cvičení - BLAST a vícenásobné zarovnání (1.4.2021)**

## BLAST (Basic Local Alignment Search Tool)

* program pro vyhledávání homologních sekvencí v databázích
* kombinace heuristiky a lokálního zarovnání
* typy: blastn, blastp, blastx, tblastn
* https://blast.ncbi.nlm.nih.gov
* BLAST tutoriál: https://digitalworldbiology.com/blast 

<img src="https://drive.google.com/uc?export=view&id=1vVZdPrYtWB3nUtemOecMBLr5ytFxeoJy">


## Vícenásobné zarovnání

* zarovnání 3 a více sekvencí
* nalezení optimálního zarovnání pomocí DP
* výpočetně náročné
* skórovací systém pro nalezení optimálního zarovnání
  * metoda sumy párů

## Metoda CLUSTAL

* progresivní metoda pro zarovnání více sekvencí
* zarovnání nejvíce podobných párů - přidávají se méně podobné sekvence k počátečnímu zarovnání
* verze: CLUSTAL Omega, CLUSTALW, CLUSTALX

###**Úkol č. 1:** <br>
Najděte v NCBI Gene databázi gen COX2 pro kočku domácí (*Felis catus*) ve FASTA formátu. </br>

**I. Nukleotidy** </br>
a)
* Stáhněte kódující sekvenci ve formátu FASTA Nucleotide
* Otevřete si webový nástroj [BLAST](https://blast.ncbi.nlm.nih.gov)
* Použijte Nucleotide BLAST (blastn)
* Nahrajte sekvenci (sekvenci je možné nahrát jako FASTA soubor nebo také zkopírovat); ostatní parametry nechte ve výchozím nastavení a spusťte BLAST. 
* Stáhněte si homologní sekvence např. pro *Felis catus*, *Felis margarita*, *Lynx rufus*, *Felis silvestris* a *Prionailurus planiceps*.

b) </br>
* Spusťte BLAST přímo z NCBI.

**II. Proteiny** </br>
Stejný postup jako v I. opakujte pro proteinové sekvence: </br>
a) 
* Stáhněte kódující sekvenci ve formátu FASTA Protein
* Otevřete si webový nástroj [BLAST](https://blast.ncbi.nlm.nih.gov)
* Použijte Protein BLAST (blastp)
* Nahrajte sekvenci (sekvenci je možné nahrát jako FASTA soubor nebo také zkopírovat); ostatní parametry nechte ve výchozím nastavení a spusťte BLAST. 
* Stáhněte si homologní sekvence např. pro *Felis catus*, *Felis margarita*, *Lynx rufus*, *Rangifer tarandus* a *Prionailurus planiceps*.

**Odpověď:** <br>
Odevzdejte všechny stažené soubory (gen COX2 kočky domácí, nukleotidové homologní sekvence, proteinové homologní sekvence). Popište rozdíly:
1) při spouštení BLASTu pomocí staženého souboru a přímo z NCBI,
2) výsledky z blastn a blastp.

1) Při spuštění BLASTu přímo z NCBI je potřebné zadat i parametry from-to daného génu.
2) Výsledkem blastn jsou nukleotidové sekvence, zatímco výsledkem blastp proteinové sekvence.

### **Úkol č. 2:** <br>
Vytvořte funkci pro zarovnání stažených nukleotidových a proteinových sekvencí genu COX2 pro 5 organismů pomocí vícenásobného zarovnání. Zarovnání poté zobrazte.

In [None]:
pip install biopython

Collecting biopython
[?25l  Downloading https://files.pythonhosted.org/packages/3a/cd/0098eaff841850c01da928c7f509b72fd3e1f51d77b772e24de9e2312471/biopython-1.78-cp37-cp37m-manylinux1_x86_64.whl (2.3MB)
[K     |▏                               | 10kB 11.8MB/s eta 0:00:01[K     |▎                               | 20kB 17.0MB/s eta 0:00:01[K     |▍                               | 30kB 20.7MB/s eta 0:00:01[K     |▋                               | 40kB 23.4MB/s eta 0:00:01[K     |▊                               | 51kB 26.2MB/s eta 0:00:01[K     |▉                               | 61kB 22.5MB/s eta 0:00:01[K     |█                               | 71kB 22.4MB/s eta 0:00:01[K     |█▏                              | 81kB 17.4MB/s eta 0:00:01[K     |█▎                              | 92kB 18.4MB/s eta 0:00:01[K     |█▌                              | 102kB 17.7MB/s eta 0:00:01[K     |█▋                              | 112kB 17.7MB/s eta 0:00:01[K     |█▊                       

In [None]:
from Bio import AlignIO
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord
from Bio.Align import MultipleSeqAlignment


a = SeqRecord(Seq("AAAACGT"), id="Alpha")
b = SeqRecord(Seq("AAA-CGT"), id="Beta")
c = SeqRecord(Seq("AAAAGGT"), id="Gamma")
align = MultipleSeqAlignment([a, b, c])
print(format(align, "phylip"))

# definice funkce
def multiple_seq_alignment(name):
  file = AlignIO.read(name, "fasta") # načtení souboru
  # zarovnání
  align = MultipleSeqAlignment(file)
  # zobrazení
  print(format(align, "phylip"))
multiple_seq_alignment("cox2_nucleotide_blast.fasta")
multiple_seq_alignment("cox2_protein_blast.fasta")


### **Úkol č. 3:** <br>
Stažené nukleotidové a proteinové sekvence genu COX2 pro 5 organismů zarovnejte pomocí nástroje CLUSTAL Omega: 
* https://www.ebi.ac.uk/Tools/msa/clustalo/
* nezapomeňte nastavit, zda zarovnáváte nukleotidy nebo proteiny</br>
* zaměřte se na možnosti výstupních formátů</br>

Zarovnané nukleotidové a proteinové sekvence si stáhněte. Stažené soubory odevzdejte (zarovnané nukleotidové homologní sekvence, zarovnané proteinové homologní sekvence).

Načtěte a zobrazte stažená zarovnání.


In [None]:
# definice funkce
def clustal(name):
  # načtení souboru typu CLUSTAL: ... (name, "clustal")
  file = AlignIO.read(name, "clustal") # načtení souboru
  # zobrazení
  print(format(file, "phylip"))

#volání funkce
clustal("clustal_nucleotide.clustal_num")
clustal("clustal_protein.clustal_num")

### **Úkol č. 4:** <br>
Načtěte sekvence z e-learningu označené jako sekvence_ukol4.fasta. Jedná se o nukleotidové sekvence stažené přes BLAST.</br>

Jelikož BLAST provádí lokální zarovnání, může se stát, že u nalezené sekvence chybí začátek či konec genu. Tím pádem může dojít k posunu čtecího rámce. </br>

Přeložte sekvence do proteinů se správným čtecím rámcem.
* každá sekvence může mít čtecí rámec jinde
* správný čtecí rámec poznáte tak, že v proteinové sekvenci se nevyskytuje stop kodon

Proteinové sekvence stáhněte a zarovnejte pomocí Clustal. Zarované sekvence zobrazte a odevzdejte.



In [None]:
from Bio import AlignIO
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord
from Bio.Align import MultipleSeqAlignment
from Bio import SeqIO

def protein_translation(file_name):
  trans_prot = []
  for record in SeqIO.parse(file_name, "fasta"):
    seq = record.seq
    id = record.id
    print(id)
    print(seq)
    for i in range(3):
      prot = seq[i:].translate(table="Vertebrate Mitochondrial")
      print(prot) 
      if prot.count("*") == 0:
        trans_prot.append(prot)
        break
  print(trans_prot)

protein_translation("sekvence_ukol4.fasta")

def clustal(name):
  file = AlignIO.read(name, "clustal")
  print(format(file, "phylip"))

clustal("clustal_of_trans_prot_seq.clustal_num")


JN801510.1
GTGACTTTCATTAACCGATGATTATTTTCTACCAACCACAAAGATATCGGCACTCTCTACCTAATTTTCGGAGCATGAGCCGGTATAATTGGAACCTCCCTTAGCCTCCTAATTCGAGCTGAACTTGGACAACCAGGCACTCTCCTAGGTGACGACCAAATTTACAACGTTATTGTCACCGCCCATGCCTTCGTAATAATCTTCTTCATAGTTATACCCATTATAATCGGTGGCTTCGGTAACTGATTAGTACCACTAATAATCGGCGCCCCTGATATAGCATTCCCCCGAATAAATAACATAAGCTTTTGACTCCTACCCCCATCCTTCCTGCTTCTACTAGCTTCCTCAACAGTAGAGGCCGGAGTAGGAACAGGATGGACAGTCTACCCCCCATTAGCAGGCAACCTAGCCCACGCTGGAGCCTCAGTAGACCTGGCCATCTTTTCCCTTCACTTAGCAGGTGTATCCTCTATCCTAGGAGCCATCAACTTTATCACTACCGCAATCAACATAAAACCTCCCGCCCTCTCACAATATCAAACCCCCCTATTCGTCTGATCCGTCCTCATCACTGCCGTTCTACTTCTACTTTCCCTTCCTGTCCTAGCCGCTGGAATCACAATACTACTTACAGACCGCAATCTCAATACCACATTCTTTGACCCTGCTGGAGGCGGAGACCCTGTATTATACCAACACTTATTCTGATTCTTCGGTCACCCAGAA
VTFINRWLFSTNHKDIGTLYLIFGAWAGMIGTSLSLLIRAELGQPGTLLGDDQIYNVIVTAHAFVMIFFMVMPIMIGGFGNWLVPLMIGAPDMAFPRMNNMSFWLLPPSFLLLLASSTVEAGVGTGWTVYPPLAGNLAHAGASVDLAIFSLHLAGVSSILGAINFITTAINMKPPALSQYQTPLFVWSVLITAVLLLLSLPVLAAGITMLLTDRNLNTTFFDPAGGGDPVLYQHLFWFFGHPE
JX487747.1
GTGA



SHRNUTÍ K ODEVZDÁNÍ: </br>
Všechny soubory odevzdávejte ve FASTA formátu, nebo v .ipynb. </br>
* tento soubor s vypracovanými úkoly 1-4
* gen COX2 kočky domácí, nukleotidové homologní sekvence, proteinové homologní sekvence (viz úkol 1)
* zarovnané nukleotidové homologní sekvence, zarovnané proteinové homologní sekvence (viz úkol 3)
* zarovnané sekvence (viz úkol 4)