<a href="https://colab.research.google.com/github/Julibio7/bioinformatics/blob/main/2_Biopython.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <center> Iniciando o Biopython

- [tutorial oficial Biopython](http://biopython.org/DIST/docs/tutorial/Tutorial.html#sec7)
- [Cookbook](https://biopython.org/wiki/Category%3ACookbook)
-[Biopython.org](https://biopython.org/)




Primeiro √© necess√°rio instalar o Biopython no Colab usando o comando:

In [None]:
#Instalar o Biopython
!pip3 install biopython

In [3]:
#importar Bio.seq
import Bio
from Bio.Seq import Seq

In [None]:
#Declarando minha primeira sequ√™ncia
minha_sequencia = Seq("AGTACACTGGT")
print(minha_sequencia)

##Manipulando sequ√™ncias
Uma das fun√ß√µes b√°sicas do Biopython √© a an√°lise de sequ√™ncias. Para isso, √© necess√°rio importar o m√≥dulo Seq com o comando:

In [None]:
 # Manipula√ß√£o b√°sica de sequ√™ncias
from Bio.Seq import Seq 


Em Bioinform√°tica, nucleot√≠deos presentes em sequ√™ncias de DNA s√£o representados pelos caracteres A, T, C e G (adenina, timina, citosina e guanina).

Em Biopython, sequ√™ncias devem ser declaradas com o m√©todo `Seq( )`:

In [5]:
 # Declarando uma sequ√™ncia
seq1 = Seq("ACGTAGCTACGATCACAGCTA")
print("Minha sequ√™ncia √©", seq1)

Minha sequ√™ncia √© ACGTAGCTACGATCACAGCTA


 Assim, define-se como sequ√™ncia complementar a sequ√™ncia formada por bases que pareiam com bases de outra fita de DNA, ou seja, bases que realizam liga√ß√µes de hidrog√™nio na forma√ß√£o da dupla h√©lice do DNA

Ap√≥s declarada, a sequ√™ncia pode ser manipulada como um objeto do tipo Seq. Observe por exemplo, como obter o reverso complementar da sequ√™ncia declarada anteriormente:



In [None]:
rc = seq1.reverse_complement()
print("O reverso complementar √©", rc)

Podemos ainda obter a sequ√™ncia transcrita chamando o m√©todo `transcribe()`:

In [None]:
# Transcri√ß√£o
rna = seq1.transcribe()
print("A sequ√™ncia transcrita √©", rna)

Por fim, podemos obter a sequ√™ncia de amino√°cidos a partir da tradu√ß√£o da sequ√™ncia:



In [None]:
protein = seq1.translate()
print("A sequ√™ncia da prote√≠na √©", protein)

## TRANSCRI√á√ÉO 

O processo de transcri√ß√£o permite a forma√ß√£o do RNA mensageiro com base na regi√£o codificante do DNA. Computacionalmente falando podemos analisar a transcri√ß√£o como um processo de modifica√ß√µes em strings.

In [None]:
from Bio.Seq import Seq

dna = Seq("ATGGCCATTCGCAAGGGTGCCCGATAG")
print("DNA: "+dna)
# DNA: ATGGCCATTCGCAAGGGTGCCCGATAG

rna = dna.transcribe()
print("RNA: "+rna)
#RNA: AUGGCCAUUCGCAAGGGUGCCCGAUAG

dna2 = rna.back_transcribe()
print("DNA: "+dna2)
#DNA: ATGGCCATTCGCAAGGGTGCCCGATAG

# <center> Exemplo simples de an√°lise FASTA

[exemplo](http://biopython.org/DIST/docs/tutorial/Tutorial.html)

Se voc√™ abrir o arquivo FASTA de orqu√≠deas **ls_orchid.fasta** em seu editor de texto favorito, ver√° que o arquivo come√ßa assim:

`>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene e ITS1 e ITS2 DNA
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTG AATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGG`
...

Acesse o [arquivo fasta](https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/ls_orchid.fasta)

ARQUIVO FASTA:

* Come√ßa sempre com ‚Äú >‚Äù (s√≠mbolo de maior que) seguido pela sequ√™ncia em uma ou mais linhas.
* FASTA √© o formato preferido para armazenar genomas de refer√™ncia.
* FASTA √© usado para armazenar todos os tipos de sequ√™ncias de DNA, RNA ou prote√≠nas 

Formato b√°sico
Aqui est√° o formato b√°sico:


    >sequence1_short_name with optional additional info after whitespace
    ACATCACCCCATAAACAAATAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAA
    GCATCCCCGTTCCAGTGAGTTCACCCTCTAAATCACCACGATCAAAAGGAACAAGCATCAAGCACGCAGC
    AATGCAGCTCAAAACGCTTAGCCTAGCCACACCCCCACGGGAAACAGCAGTGAT
    >sequence2_short_name with optional additional info after whitespace
    GCCCCAAACCCACTCCACCTTACTACCAGACAACCTTAGCCAAACCATTTACCCAAATAAAGTATAGGCG
    ATAGAAATTGAAACCTGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTATAACCAAGCATA
    ATATAG

___





[O artigo FASTA original de Bill Pearson. Esta √© a ferramenta de software que tornou o formato popular](https://www.sciencedirect.com/science/article/abs/pii/007668799083007V)

In [None]:
#Instalar o Biopython
!pip3 install biopython

In [7]:
#importar biblioteca 

from Bio import SeqIO

 **Aqui est√° uma sequ√™ncia de refer√™ncia do mundo real (o genoma mitocondrial humano ) no formato FASTA:**

https://colab.research.google.com/drive/1BwXFamKpKIhE5k2nFR8HpPvD4-00Z58s#scrollTo=uU3JCNKwMKgA

https://biopython.org/wiki/SeqIO

In [None]:
import gzip
import urllib.request
url = 'ftp://ftp.ncbi.nlm.nih.gov/genomes/archive/old_genbank/Eukaryotes/vertebrates_mammals/Homo_sapiens/GRCh38/non-nuclear/assembled_chromosomes/FASTA/chrMT.fa.gz'
response = urllib.request.urlopen(url)
print(gzip.decompress(response.read()).decode('UTF8'))

Este arquivo FASTA mostrado acima possui apenas uma sequ√™ncia. Como vimos no primeiro exemplo acima, tamb√©m √© poss√≠vel que um arquivo FASTA contenha v√°rias sequ√™ncias. Estes s√£o √†s vezes chamados de arquivos multi-FASTA. Quando voc√™ escreve c√≥digo para interpretar arquivos FASTA, √© uma boa ideia sempre permitir a possibilidade de que o arquivo FASTA possa conter v√°rias sequ√™ncias.

Os arquivos FASTA geralmente s√£o armazenados com a `.fa` extens√£o do nome do arquivo, mas isso n√£o √© uma regra. `.fasta` √© outra extens√£o popular. Voc√™ tamb√©m pode ver `.fas`, `.fna`, `.mfa`(para multi-FASTA) e outros.

---
**Analisando o FASTA** ü§ì

Aqui est√° uma fun√ß√£o simples para analisar um arquivo FASTA em um dicion√°rio Python. O dicion√°rio mapeia nomes curtos para cadeias de nucleot√≠deos correspondentes (com espa√ßos em branco removidos).

In [13]:
def parse_fasta(fh):
    fa = {}
    current_short_name = None
    # Part 1: compile list of lines per sequence
    for ln in fh:
        if ln[0] == '>':
            # new name line; remember current sequence's short name
            long_name = ln[1:].rstrip()
            current_short_name = long_name.split()[0]
            fa[current_short_name] = []
        else:
            # append nucleotides to current sequence
            fa[current_short_name].append(ln.rstrip())
    # Part 2: join lists into strings
    for short_name, nuc_list in fa.items():
        # join this sequence's lines into one long string
        fa[short_name] = ''.join(nuc_list)
    return fa

In [14]:
from io import StringIO
fasta_example = StringIO()
parsed_fa = parse_fasta(fasta_example)
parsed_fa

{}

**Indexado FASTA**

Digamos que voc√™ tenha um ou mais arquivos FASTA grandes (por exemplo, todo o genoma de refer√™ncia humano) e gostaria de acessar esses arquivos "aleatoriamente", espiando substrings aqui e ali sem nenhum padr√£o de acesso regular. 

Talvez voc√™ esteja imitando uma m√°quina de sequenciamento, lendo trechos de DNA aqui e ali.

Voc√™ pode come√ßar usando a parse_fastafun√ß√£o definida acima para analisar os arquivos FASTA. Ent√£o, para acessar uma substring, fa√ßa o seguinte:

In [None]:
parsed_fa['sequence1'][100:130]

#Agora Vamos explorar outro conjunto de Dados

Observe que o arquivo cont√©m 94 registros, cada um com uma linha come√ßando com ‚Äú >‚Äù (s√≠mbolo de maior que) seguido pela sequ√™ncia em uma ou mais linhas. 


Agora tente isso em Python:

In [None]:
#instalar
!pip3 install pyfaidx

In [None]:
#importar o arquivo FASTA
from google.colab import files
files.upload()

In [None]:
from pyfaidx import Fasta
orquideas = Fasta('orquidea.fasta')

In [None]:
orquideas.keys()

In [None]:
#explorar o index em uma sequ√™ncia espec√≠fica
orquideas['gi|2765657|emb|Z78532.1|CCZ78532'][10:50]

In [None]:
orquideas['gi|2765657|emb|Z78532.1|CCZ78532'][10:50].seq

'TTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACA'

In [None]:
orquideas['gi|2765657|emb|Z78532.1|CCZ78532'][10:50].name

'gi|2765657|emb|Z78532.1|CCZ78532'

In [None]:
orquideas['gi|2765657|emb|Z78532.1|CCZ78532'][10:50].start

11

In [None]:
orquideas['gi|2765657|emb|Z78532.1|CCZ78532'][10:50].end

50

In [None]:
orquideas['gi|2765657|emb|Z78532.1|CCZ78532'][10:50].fancy_name

'gi|2765657|emb|Z78532.1|CCZ78532:11-50'

In [None]:
len(orquideas['gi|2765657|emb|Z78532.1|CCZ78532'][10:50])

40

https://github.com/mdshw5/pyfaidx

##Revisando

In [None]:
sequence = Seq('ATGGCAAAAGAGTGA')

print('Sequence      (DNA):  ', str(sequence))
print('Transcription (RNA):  ', str(sequence.transcribe()))
print('Translation (Protein):', str(sequence.translate()))

Sequence      (DNA):   ATGGCAAAAGAGTGA
Transcription (RNA):   AUGGCAAAAGAGUGA
Translation (Protein): MAKE*
