<a href="https://colab.research.google.com/github/Julibio7/bioinformatics/blob/main/2_Biopython.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <center> Iniciando o Biopython

- [tutorial oficial Biopython](http://biopython.org/DIST/docs/tutorial/Tutorial.html#sec7)
- [Cookbook](https://biopython.org/wiki/Category%3ACookbook)
-[Biopython.org](https://biopython.org/)




Primeiro é necessário instalar o Biopython no Colab usando o comando:

In [None]:
#Instalar o Biopython
!pip3 install biopython

In [3]:
#importar Bio.seq
import Bio
from Bio.Seq import Seq

In [None]:
#Declarando minha primeira sequência
minha_sequencia = Seq("AGTACACTGGT")
print(minha_sequencia)

##Manipulando sequências
Uma das funções básicas do Biopython é a análise de sequências. Para isso, é necessário importar o módulo Seq com o comando:

In [None]:
 # Manipulação básica de sequências
from Bio.Seq import Seq 


Em Bioinformática, nucleotídeos presentes em sequências de DNA são representados pelos caracteres A, T, C e G (adenina, timina, citosina e guanina).

Em Biopython, sequências devem ser declaradas com o método `Seq( )`:

In [5]:
 # Declarando uma sequência
seq1 = Seq("ACGTAGCTACGATCACAGCTA")
print("Minha sequência é", seq1)

Minha sequência é ACGTAGCTACGATCACAGCTA


 Assim, define-se como sequência complementar a sequência formada por bases que pareiam com bases de outra fita de DNA, ou seja, bases que realizam ligações de hidrogênio na formação da dupla hélice do DNA

Após declarada, a sequência pode ser manipulada como um objeto do tipo Seq. Observe por exemplo, como obter o reverso complementar da sequência declarada anteriormente:



In [None]:
rc = seq1.reverse_complement()
print("O reverso complementar é", rc)

Podemos ainda obter a sequência transcrita chamando o método `transcribe()`:

In [None]:
# Transcrição
rna = seq1.transcribe()
print("A sequência transcrita é", rna)

Por fim, podemos obter a sequência de aminoácidos a partir da tradução da sequência:



In [None]:
protein = seq1.translate()
print("A sequência da proteína é", protein)

## TRANSCRIÇÃO 

O processo de transcrição permite a formação do RNA mensageiro com base na região codificante do DNA. Computacionalmente falando podemos analisar a transcrição como um processo de modificações em strings.

In [None]:
from Bio.Seq import Seq

dna = Seq("ATGGCCATTCGCAAGGGTGCCCGATAG")
print("DNA: "+dna)
# DNA: ATGGCCATTCGCAAGGGTGCCCGATAG

rna = dna.transcribe()
print("RNA: "+rna)
#RNA: AUGGCCAUUCGCAAGGGUGCCCGAUAG

dna2 = rna.back_transcribe()
print("DNA: "+dna2)
#DNA: ATGGCCATTCGCAAGGGTGCCCGATAG

# <center> Exemplo simples de análise FASTA

[exemplo](http://biopython.org/DIST/docs/tutorial/Tutorial.html)

Se você abrir o arquivo FASTA de orquídeas **ls_orchid.fasta** em seu editor de texto favorito, verá que o arquivo começa assim:

`>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene e ITS1 e ITS2 DNA
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTG AATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGG`
...

Acesse o [arquivo fasta](https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/ls_orchid.fasta)

ARQUIVO FASTA:

* Começa sempre com “ >” (símbolo de maior que) seguido pela sequência em uma ou mais linhas.
* FASTA é o formato preferido para armazenar genomas de referência.
* FASTA é usado para armazenar todos os tipos de sequências de DNA, RNA ou proteínas 

Formato básico
Aqui está o formato básico:


    >sequence1_short_name with optional additional info after whitespace
    ACATCACCCCATAAACAAATAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAA
    GCATCCCCGTTCCAGTGAGTTCACCCTCTAAATCACCACGATCAAAAGGAACAAGCATCAAGCACGCAGC
    AATGCAGCTCAAAACGCTTAGCCTAGCCACACCCCCACGGGAAACAGCAGTGAT
    >sequence2_short_name with optional additional info after whitespace
    GCCCCAAACCCACTCCACCTTACTACCAGACAACCTTAGCCAAACCATTTACCCAAATAAAGTATAGGCG
    ATAGAAATTGAAACCTGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTATAACCAAGCATA
    ATATAG

___





[O artigo FASTA original de Bill Pearson. Esta é a ferramenta de software que tornou o formato popular](https://www.sciencedirect.com/science/article/abs/pii/007668799083007V)

In [None]:
#Instalar o Biopython
!pip3 install biopython

In [7]:
#importar biblioteca 

from Bio import SeqIO

 **Aqui está uma sequência de referência do mundo real (o genoma mitocondrial humano ) no formato FASTA:**

https://colab.research.google.com/drive/1BwXFamKpKIhE5k2nFR8HpPvD4-00Z58s#scrollTo=uU3JCNKwMKgA

https://biopython.org/wiki/SeqIO

In [None]:
import gzip
import urllib.request
url = 'ftp://ftp.ncbi.nlm.nih.gov/genomes/archive/old_genbank/Eukaryotes/vertebrates_mammals/Homo_sapiens/GRCh38/non-nuclear/assembled_chromosomes/FASTA/chrMT.fa.gz'
response = urllib.request.urlopen(url)
print(gzip.decompress(response.read()).decode('UTF8'))

Este arquivo FASTA mostrado acima possui apenas uma sequência. Como vimos no primeiro exemplo acima, também é possível que um arquivo FASTA contenha várias sequências. Estes são às vezes chamados de arquivos multi-FASTA. Quando você escreve código para interpretar arquivos FASTA, é uma boa ideia sempre permitir a possibilidade de que o arquivo FASTA possa conter várias sequências.

Os arquivos FASTA geralmente são armazenados com a `.fa` extensão do nome do arquivo, mas isso não é uma regra. `.fasta` é outra extensão popular. Você também pode ver `.fas`, `.fna`, `.mfa`(para multi-FASTA) e outros.

---
**Analisando o FASTA** 🤓

Aqui está uma função simples para analisar um arquivo FASTA em um dicionário Python. O dicionário mapeia nomes curtos para cadeias de nucleotídeos correspondentes (com espaços em branco removidos).

In [13]:
def parse_fasta(fh):
    fa = {}
    current_short_name = None
    # Part 1: compile list of lines per sequence
    for ln in fh:
        if ln[0] == '>':
            # new name line; remember current sequence's short name
            long_name = ln[1:].rstrip()
            current_short_name = long_name.split()[0]
            fa[current_short_name] = []
        else:
            # append nucleotides to current sequence
            fa[current_short_name].append(ln.rstrip())
    # Part 2: join lists into strings
    for short_name, nuc_list in fa.items():
        # join this sequence's lines into one long string
        fa[short_name] = ''.join(nuc_list)
    return fa

In [14]:
from io import StringIO
fasta_example = StringIO()
parsed_fa = parse_fasta(fasta_example)
parsed_fa

{}

**Indexado FASTA**

Digamos que você tenha um ou mais arquivos FASTA grandes (por exemplo, todo o genoma de referência humano) e gostaria de acessar esses arquivos "aleatoriamente", espiando substrings aqui e ali sem nenhum padrão de acesso regular. 

Talvez você esteja imitando uma máquina de sequenciamento, lendo trechos de DNA aqui e ali.

Você pode começar usando a parse_fastafunção definida acima para analisar os arquivos FASTA. Então, para acessar uma substring, faça o seguinte:

In [None]:
parsed_fa['sequence1'][100:130]

#Agora Vamos explorar outro conjunto de Dados

Observe que o arquivo contém 94 registros, cada um com uma linha começando com “ >” (símbolo de maior que) seguido pela sequência em uma ou mais linhas. 


Agora tente isso em Python:

In [None]:
#instalar
!pip3 install pyfaidx

In [None]:
#importar o arquivo FASTA
from google.colab import files
files.upload()

In [None]:
from pyfaidx import Fasta
orquideas = Fasta('orquidea.fasta')

In [None]:
orquideas.keys()

In [None]:
#explorar o index em uma sequência específica
orquideas['gi|2765657|emb|Z78532.1|CCZ78532'][10:50]

In [None]:
orquideas['gi|2765657|emb|Z78532.1|CCZ78532'][10:50].seq

'TTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACA'

In [None]:
orquideas['gi|2765657|emb|Z78532.1|CCZ78532'][10:50].name

'gi|2765657|emb|Z78532.1|CCZ78532'

In [None]:
orquideas['gi|2765657|emb|Z78532.1|CCZ78532'][10:50].start

11

In [None]:
orquideas['gi|2765657|emb|Z78532.1|CCZ78532'][10:50].end

50

In [None]:
orquideas['gi|2765657|emb|Z78532.1|CCZ78532'][10:50].fancy_name

'gi|2765657|emb|Z78532.1|CCZ78532:11-50'

In [None]:
len(orquideas['gi|2765657|emb|Z78532.1|CCZ78532'][10:50])

40

https://github.com/mdshw5/pyfaidx

##Revisando

In [None]:
sequence = Seq('ATGGCAAAAGAGTGA')

print('Sequence      (DNA):  ', str(sequence))
print('Transcription (RNA):  ', str(sequence.transcribe()))
print('Translation (Protein):', str(sequence.translate()))

Sequence      (DNA):   ATGGCAAAAGAGTGA
Transcription (RNA):   AUGGCAAAAGAGUGA
Translation (Protein): MAKE*
