# **Ambientes de Computação para Bioinformática - Portifólio**

* **Docente:** Raquel Cardoso de Melo Minardi
* **Discente:** Madson A. de Luna Aragão
* **Semestre:** 2025.1


---

## **Aula 1: Conceitos Introdutórios** (OK)

### **Visão Geral**

Nesta aula fundamental, estabelecemos as bases para nossa jornada. Mais do que apenas programar, vamos aprender a "pensar como um cientista da computação", transformando problemas complexos em soluções estruturadas e eficientes.

### **Lógica de Programação e Algoritmos**

Um algoritmo é mais do que uma simples lista de tarefas; é um roteiro formal e inequívoco para resolver um problema. A beleza de um algoritmo reside em sua precisão: ele deve ser claro o suficiente para que uma máquina, que não possui intuição, possa executá-lo e chegar ao resultado correto.

A lógica de programação é a habilidade de construir esse roteiro. Envolve decompor um problema em partes menores, identificar padrões e organizar as instruções em uma sequência lógica que considera todas as possíveis condições e casos. É a ponte entre um problema do mundo real e uma solução que um computador pode implementar.



---



## **Aula 2: Python - Primeiros Passos** (OK)

### **Visão Geral**

Iniciamos com Python, uma linguagem escolhida por sua simplicidade e legibilidade.

### **Por que Python? Características e Vantagens**

* **Alto Nível:** Python abstrai os detalhes complexos do hardware (gerenciamento de memória, registradores do processador). Isso permite que você se concentre na lógica do problema, e não na arquitetura do computador.

* **Interpretada:** Um programa chamado "interpretador" lê seu código fonte linha por linha e o executa imediatamente. Isso acelera o ciclo de desenvolvimento (escrever-executar-depurar) em comparação com linguagens compiladas, que exigem uma etapa de compilação separada.

* **Tipagem Dinâmica:** Esta é uma característica poderosa e flexível. Você pode atribuir um número a uma variável e, mais tarde, uma string à mesma variável. O interpretador Python descobre o tipo em tempo de execução. Isso torna o código mais conciso, mas exige atenção do programador.

* **Sintaxe Limpa:** O código Python é frequentemente descrito como "executável". A ausência de chaves `{}` ou `begin`/`end` para delimitar blocos e o uso obrigatório de indentação forçam um estilo de codificação limpo e universalmente legível.

### **O Primeiro Programa: "Olá, Mundo!"**

O programa ```"Olá, Mundo!"``` é considerado o primeiro passo na iniciação em Python. Ele confirma que seu ambiente de programação está configurado corretamente e demonstra a sintaxe mais básica da linguagem.

In [None]:
# A função print() é tipo o "imprima isso" do Python, ela mostra mensagens na tela.
# "Olá, Mundo!" é o que a gente quer que ela mostre, tipo o argumento da conversa.
# Esse texto entre aspas é uma 'string', que é como o Python chama um pedaço de texto.
print("Olá, Mundo! ;) ")

Olá, Mundo!


---

## **Aula 3: Variáveis** (OK)

### **Visão Geral**

Variáveis são os "tijolos" fundamentais de qualquer programa. Elas nos permitem nomear e armazenar dados para uso posterior.

### **Como as Variáveis Funcionam**

Quando você cria uma variável, o Python realiza duas ações principais:

1. Aloca um espaço na memória do computador grande o suficiente para armazenar o dado.

2. Cria uma "etiqueta" ou "rótulo" (o nome da variável) e a associa a esse local na memória.

Diferente de outras linguagens, o tipo de dado pertence ao valor, não à variável. A variável é apenas um nome.

In [None]:
# Aqui, o Python guarda o texto "Alan Turing" na memória e a variável 'nome' grava...
nome = "Alan Turing"  # Isso é uma 'string', pra guardar texto.

# Mesma coisa pro número 41, a 'idade' agora aponta pra ele.
idade = 41 # Isso é um 'int' (inteiro), pra números sem vírgula.

# E pro 1.75, que é um número com vírgula.
altura = 1.75 # Isso é um 'float', pra números com casas decimais.

# E aqui pra True (verdadeiro).
cientista = True # Isso é um 'bool' (booleano), que só pode ser True ou False.

# A função type() dá uma olhada no que a variável está guardando e conta pra gente qual é o tipo.
print("A variável 'nome' está guardando um:", type(nome))
print("A variável 'idade' está guardando um:", type(idade))
print("A variável 'altura' está guardando um:", type(altura))
print("A variável 'cientista' está guardando um:", type(cientista))

A variável 'nome' está guardando um: <class 'str'>
A variável 'idade' está guardando um: <class 'int'>
A variável 'altura' está guardando um: <class 'float'>
A variável 'cientista' está guardando um: <class 'bool'>


---

## **Aula 4: Sequências e Indexação** (OK)

### **Visão Geral**

Uma **sequência** é uma estrutura de dados que armazena uma coleção ordenada de itens. "Ordenada" significa que os itens mantêm uma posição específica, que pode ser acessada através de um índice.

### **Indexação**

A capacidade de acessar partes específicas de uma sequência é uma das operações mais poderosas em Python.

* **Indexação Baseada em Zero:** O primeiro elemento de qualquer sequência está sempre no índice `0`. Isso é uma convenção comum em muitas linguagens de programação.

* **Fatiamento `[start:stop:step]`:** Permite extrair subsequências em determiandos pontos.

  * `start`: O índice onde a fatia começa (inclusivo).

  * `stop`: O índice onde a fatia termina (exclusivo).

  * `step`: O intervalo entre os elementos (padrão é 1).

In [None]:
# Vamos criar uma lista de números. Listas são tipo coleções que a gente pode mudar depois.
minha_lista = [10, 20, 30, 40, 50, 60, 70]

# Pra pegar o primeiro item, a gente usa o índice 0.
print("Primeiro elemento:", minha_lista[0]) # Vai mostrar 10

# E se quiser o último? O índice -1 é um atalho pra isso!
print("Último elemento:", minha_lista[-1]) # Vai mostrar 70

# Quer do segundo ao quarto item? É só fatiar!
# Lembra que o primeiro índice (1) entra, mas o último (4) não.
print("Do segundo ao quarto elemento:", minha_lista[1:4]) # Resultado: [20, 30, 40]

# Se não falar onde começa, ele pega desde o início.
print("Os três primeiros elementos:", minha_lista[:3]) # Resultado: [10, 20, 30]

# E se não falar onde termina, ele vai até o final.
print("Do quarto elemento em diante:", minha_lista[3:]) # Resultado: [40, 50, 60, 70]

# A função len() conta quantos itens tem na lista. Bem útil!
print("Tamanho da lista:", len(minha_lista)) # Vai mostrar 7

Primeiro elemento: 10
Último elemento: 70
Do segundo ao quarto elemento: [20, 30, 40]
Os três primeiros elementos: [10, 20, 30]
Do quarto elemento em diante: [40, 50, 60, 70]
Tamanho da lista: 7


---

## **Aula 5: Strings** (OK)

### **Visão Geral**

Strings são a forma principal de manipular texto. Em Python, elas são **imutáveis**, um conceito crucial que garante que uma string, uma vez criada, nunca pode ser alterada no mesmo local da memória. Qualquer "modificação" (como usar `.upper()` ou `.replace()`) na verdade cria e retorna uma *nova* string.

### **Métodos Comuns e Formatação**

In [None]:
# Uma frase meio bagunçada, com espaços sobrando e letras maiúsculas e minúsculas misturadas.
frase = "  a Bioinformática é Incrível!  "

# Corrigindo coisas na minha string

# O .strip() cria uma nova frase sem os espaços do começo e do fim. A 'frase' original continua igual.
frase_limpa = frase.strip()
print(f"Frase original: '{frase}'")
print(f"Frase depois do .strip(): '{frase_limpa}'") # Mostra 'a Bioinformática é Incrível!'

# O .capitalize() cria uma nova frase com a primeira letra maiúscula e o resto minúsculo.
print(f"Capitalizada: '{frase_limpa.capitalize()}'") # Mostra 'A bioinformática é incrível!'

# O .upper() cria uma nova frase com tudo maiúsculo.
print(f"Tudo maiúsculo: '{frase_limpa.upper()}'") # Mostra 'A BIOINFORMÁTICA É INCRÍVEL!'


# Fazenod algumas mudanças

# O .replace('item_antigo', 'item_novo') cria uma nova frase trocando uma parte por outra.
frase_modificada = frase_limpa.replace("Incrível", "Essencial")
print(f"Depois de trocar 'Incrível' por 'Essencial': '{frase_modificada}'")


# Montando frases com variáveis (f-strings)

# f-strings são o jeito mais bacana e fácil de colocar variáveis dentro de um texto.
# É só colocar um 'f' antes das aspas e as variáveis entre chaves {}.
nome_area = "Bioinformática"
ano = 2025
print(f"A área de '{nome_area}' é super importante em {ano}.")

Frase original: '  a Bioinformática é Incrível!  '
Frase depois do .strip(): 'a Bioinformática é Incrível!'
Capitalizada: 'A bioinformática é incrível!'
Tudo maiúsculo: 'A BIOINFORMÁTICA É INCRÍVEL!'
Depois de trocar 'Incrível' por 'Essencial': 'a Bioinformática é Essencial!'
A área de 'Bioinformática' é super importante em 2025.


---

## **Aula 6: Estruturas de Dados - Conjuntos e Tuplas** (OK)

### **Visão Geral**

Além das listas, Python oferece outras estruturas de dados com propriedades e casos de uso distintos.

### **Tuplas: Sequências Imutáveis e Eficientes**

Tuplas são usadas para agrupar dados relacionados que não devem ser modificados. Sua imutabilidade as torna ligeiramente mais eficientes em termos de memória e processamento do que as listas.

**Casos de uso comuns:**

* Retornar múltiplos valores de uma função.

* Chaves de dicionário (dicionários exigem chaves imutáveis).

* Armazenar registros de dados que devem ser consistentes (ex: um registro de um banco de dados).

In [None]:
# Criando uma tupla pra guardar as coordenadas de um ponto (x, y, z).
# Uma vez criada, essa tupla não muda mais!
ponto3D = (10.5, -3.0, 4.2)
print("Minha tupla de coordenadas:", ponto3D)

# A aqui é possível acessar os itens do mesmo jeito que nas listas.
print("Coordenada X:", ponto3D[0]) # Acessa o primeiro item

# Se tentar mudar um item da tupla, o Python vai dar erro (TypeError).
# ponto3D[0] = 11.0 # Essa linha daria erro!

Minha tupla de coordenadas: (10.5, -3.0, 4.2)
Coordenada X: 10.5


### **Conjuntos e Operações Matemáticas**

Conjuntos são coleções não ordenadas de elementos **únicos**. Eles são implementados usando uma estrutura de dados chamada *hash table*, o que torna operações como verificar se um elemento existe no conjunto (`in`) extremamente rápidas, com complexidade de tempo $O(1)$ em média.

In [None]:
# Aqui é criado conjuntos com bases nitrogenadas.
# Se tiver itens repetidos, o conjunto ignora e guarda só uma vez.
bases_dna = {'A', 'T', 'C', 'G', 'T', 'A'} # O 'T' e 'A' repetidos são ignorados
bases_rna = {'A', 'U', 'G', 'C', 'U', 'G'} # Mesma coisa pro 'U' e 'G'

# A ordem que os itens aparecem pode variar, porque conjuntos não são ordenados.
print("Bases únicas de DNA:", bases_dna) # Vai mostrar {'A', 'C', 'T', 'G'} (a ordem pode mudar)
print("Bases únicas de RNA:", bases_rna) # Vai mostrar {'A', 'U', 'C', 'G'} (a ordem pode mudar)

# Usando operações de conjunto

# União (| ou .union()): junta tudo que tem nos dois conjuntos, sem repetir.
uniao = bases_dna | bases_rna
print("União (todas as bases juntas):", uniao)

# Interseção (& ou .intersection()): pega só o que tem ambos os conjuntos.
intersecao = bases_dna & bases_rna
print("Interseção (bases que DNA e RNA têm em comum):", intersecao)

# Diferença (- ou .difference()): pega o que tem no primeiro conjunto mas não tem no segundo.
diferenca_dna_rna = bases_dna - bases_rna
print("Diferença (só o que tem no DNA e não no RNA):", diferenca_dna_rna)

Bases únicas de DNA: {'T', 'G', 'A', 'C'}
Bases únicas de RNA: {'U', 'A', 'G', 'C'}
União (todas as bases juntas): {'G', 'C', 'A', 'T', 'U'}
Interseção (bases que DNA e RNA têm em comum): {'G', 'A', 'C'}
Diferença (só o que tem no DNA e não no RNA): {'T'}


---

## **Aula 7: Listas (Sequências Mutáveis)** (OK)

### **Visão Geral**

Listas são o "canivete suíço" das estruturas de dados em Python. Sua **mutabilidade** significa que podemos alterar seu conteúdo dinamicamente, adicionando, removendo e modificando itens após sua criação.

### **Manipulação Dinâmica de Listas**

In [None]:
# Nossa lista de genes...
genes_importantes = ["BRCA1", "TP53", "MYC"]
print("Lista original de genes:", genes_importantes)

# Adicionando mais genes

# .append(item) coloca um novo item no final da lista
genes_importantes.append("EGFR")
print("Depois de adicionar 'EGFR' no final:", genes_importantes)

# .insert(posicao, item) coloca um item onde a gente quiser.
# Os outros itens são "empurrados" pra frente.
# Pode ser um pouco mais lento se a lista for grande...
genes_importantes.insert(1, "APC") # Coloca 'APC' na segunda posição (índice 1)
print("Depois de inserir 'APC' na segunda posição:", genes_importantes)


# Removendo genes da lista

# .pop() tira o último item da lista e mostra qual foi.
gene_que_saiu = genes_importantes.pop()
print(f"O gene '{gene_que_saiu}' foi tirado do final.")
print("Lista depois do .pop():", genes_importantes)

# .remove(valor) procura um item específico e tira a primeira vez que ele aparece.
genes_importantes.remove("BRCA1") # Removendo o BRCA1
print("Depois de remover 'BRCA1':", genes_importantes)


# Colocando em ordem alfabética

# O método .sort() arruma a lista em ordem (alfabética pra texto, numérica pra números).
# Ele muda a lista original
genes_importantes.sort()
print("Lista ordenada com .sort():", genes_importantes)

# Se quiser uma cópia ordenada sem mexer na original, é possível utilizar a função sorted().
outra_lista_genes = ["KRAS", "AKT1", "BRAF"]
copia_ordenada = sorted(outra_lista_genes)
print("Lista original de 'outra_lista_genes':", outra_lista_genes) # Não mudou
print("Cópia ordenada criada com sorted():", copia_ordenada)

Lista original de genes: ['BRCA1', 'TP53', 'MYC']
Depois de adicionar 'EGFR' no final: ['BRCA1', 'TP53', 'MYC', 'EGFR']
Depois de inserir 'APC' na segunda posição: ['BRCA1', 'APC', 'TP53', 'MYC', 'EGFR']
O gene 'EGFR' foi tirado do final.
Lista depois do .pop(): ['BRCA1', 'APC', 'TP53', 'MYC']
Depois de remover 'BRCA1': ['APC', 'TP53', 'MYC']
Lista ordenada com .sort(): ['APC', 'MYC', 'TP53']
Lista original de 'outra_lista_genes': ['KRAS', 'AKT1', 'BRAF']
Cópia ordenada criada com sorted(): ['AKT1', 'BRAF', 'KRAS']


---

## **Aula 8: Dicionários (Chave-Valor)** (OK)

### **Visão Geral**

Dicionários são estruturas de dados incrivelmente eficientes que mapeiam **chaves** únicas a **valores**. Assim como os conjuntos, eles usam *hash tables* internamente, permitindo acesso, inserção e remoção de itens em tempo médio constante ($O(1)$). Eles são ideais para modelar objetos do mundo real e suas propriedades.

### **Trabalhando com Dicionários**

In [None]:
# Criando um dicionário com informações sobre um gene...
# É como ter várias "gavetas" (chaves) com "coisas" (valores) dentro...
info_gene_tp53 = {
    "nome_gene": "TP53",
    "cromossomo": 17,
    "funcao_principal": "Supressor de tumor",
    "tamanho_pb": 20000
}

# Acessando e mudando informações

# Para pegar um valor, se usa a chave entre colchetes []
print(f"O gene {info_gene_tp53['nome_gene']} fica no cromossomo {info_gene_tp53['cromossomo']}.")

# Adicionar uma nova informação (chave-valor)
info_gene_tp53["organismo"] = "Homo sapiens"
print("Dicionário depois de adicionar o organismo:", info_gene_tp53)

# Mudar um valor que já existe
info_gene_tp53["tamanho_pb"] = 20253 # Corrigindo o tamanho
print("Tamanho em pares de base atualizado:", info_gene_tp53["tamanho_pb"])


# Verificando todas as informações do dicionário

# O método .items() é prático e é utilizado pra passar por cada chave e valor de uma vez
print("\n--- Detalhes do Gene TP53 ---")
for chave, valor in info_gene_tp53.items():
    # .capitalize() deixa a primeira letra da chave maiúscula
    print(f"-> {chave.replace('_', ' ').capitalize()}: {valor}")

O gene TP53 fica no cromossomo 17.
Dicionário depois de adicionar o organismo: {'nome_gene': 'TP53', 'cromossomo': 17, 'funcao_principal': 'Supressor de tumor', 'tamanho_pb': 20000, 'organismo': 'Homo sapiens'}
Tamanho em pares de base atualizado: 20253

--- Detalhes do Gene TP53 ---
-> Nome gene: TP53
-> Cromossomo: 17
-> Funcao principal: Supressor de tumor
-> Tamanho pb: 20253
-> Organismo: Homo sapiens


---

## **Aulas 9-11: Operadores + Estruturas Condicionais e de Repetição** (OK)

### **Visão Geral**

Até agora, nosso código executou de forma linear, de cima para baixo. Com operadores, condicionais e laços, podemos criar programas dinâmicos que tomam decisões e executam tarefas repetitivas.

### **Aula 9: Operadores**

In [None]:
# Operadores são ferramentas importantes para cálculos matemáticos
# // (divisão inteira) joga fora a parte decimal do resultado
# % (módulo) resulta no que sobre da divisão
print(f"10 dividido por 3 é: {10 / 3}") # Divisão normal, com vírgula
print(f"10 dividido por 3 (só a parte inteira) é: {10 // 3}") # Só o 3
print(f"O resto de 10 dividido por 3 é: {10 % 3}") # O resto é 1
print(f"2 elevado a 4 é: {2 ** 4}") # Potência, 2*2*2*2 = 16

# Operadores para comparar e tomar decisões (Lógicos e de Comparação)
# Eles sempre respondem com True (verdadeiro) ou False (falso).
temperatura_celula = 37.0
ph_ideal = 7.4

# O 'and' só é True se ambos os itens comparados forem verdadeiros
# Ex: A célula está saudável se a temperatura é 37 e o pH está entre 7.0 e 7.5
celula_saudavel = (temperatura_celula == 37.0) and (7.0 < ph_ideal < 7.5)
print(f"A célula está em condições ideais? {celula_saudavel}")

# O 'or' é True se pelo menos um dos itens for verdadeiro
# Ex: Alerta se a temperatura for muito baixa ou muito alta
alerta_critico_temperatura = (temperatura_celula < 35.0) or (temperatura_celula > 40.0)
print(f"Há alerta crítico de temperatura? {alerta_critico_temperatura}")

# O 'not' inverte o resultado. Se era True, vira False, e vice-versa...
print(f"O contrário de 'alerta_critico_temperatura' é: {not alerta_critico_temperatura}")

10 dividido por 3 é: 3.3333333333333335
10 dividido por 3 (só a parte inteira) é: 3
O resto de 10 dividido por 3 é: 1
2 elevado a 4 é: 16
A célula está em condições ideais? True
Há alerta crítico de temperatura? False
O contrário de 'alerta_critico_temperatura' é: True


### **Aula 10: Estruturas Condicionais (`if`/`elif`/`else`)**

Permitem que o programa siga caminhos diferentes com base nos resultados das condições lógicas.

In [None]:
# Vamos classificar um gene pela sua taxa de expressão
taxa_expressao_gene = 85

print(f"Analisando a taxa de expressão de {taxa_expressao_gene}:")

# O Python vai testando as condições uma por uma, de cima pra baixo
if taxa_expressao_gene > 100:
    # Esse bloco só roda se a condição for True
    print("Nível de Expressão: ALTO.")
elif taxa_expressao_gene >= 50: # 'elif' é tipo um "senão, se..."
    # Se o 'if' de cima foi False, ele testa essa condição aqui
    # Como 85 é >= 50, esse bloco vai rodar
    print("Nível de Expressão: MÉDIO.")
elif taxa_expressao_gene > 0:
    # Esse nem vai ser testado, porque o 'elif' de cima já foi True
    print("Nível de Expressão: BAIXO.")
else:
    # O 'else' é o "último caso", se nada antes for True
    print("Nível de Expressão: NÃO DETECTADO ou ZERO.")

Analisando a taxa de expressão de 85:
Nível de Expressão: MÉDIO.


### **Aula 11: Estruturas de Repetição (Laços `for` e `while`)**

**Laço `for`:** Perfeito pra passar por cada item de uma coleção (lista, string, etc.). Você usa quando sabe *quantas vezes* quer repetir algo (uma vez para cada item).

In [None]:
# Usando um laço 'for' para contar quantas vezes cada base aparece numa sequência de DNA
sequencia_dna_curta = "AGCTTAGC"
contagem_bases = {'A': 0, 'T': 0, 'C': 0, 'G': 0} # Dicionário para guardar as contagens

# O laço vai pegar cada letra (base) da 'sequencia_dna_curta' uma por vez.
for base_atual in sequencia_dna_curta:
    if base_atual in contagem_bases: # Checa se a base é uma das que a gente quer contar
        contagem_bases[base_atual] += 1 # Aumenta a contagem daquela base

print(f"Sequência de DNA: {sequencia_dna_curta}")
print(f"Contagem de cada base: {contagem_bases}")

Sequência de DNA: AGCTTAGC
Contagem de cada base: {'A': 2, 'T': 2, 'C': 2, 'G': 2}


**Laço `while`:** Fica repetindo um bloco de código **enquanto** uma condição for verdadeira. Você usa quando não sabe exatamente quantas vezes vai repetir, mas sabe quando deve parar.

In [None]:
# Simulando o crescimento de uma cultura de bactérias até atingir um certo número
numero_bacterias_inicial = 100
limite_populacao = 1000
horas_passadas = 0

# O laço continua enquanto o número de bactérias for menor que o nosso limite.
while numero_bacterias_inicial < limite_populacao:
    print(f"Hora {horas_passadas}: {numero_bacterias_inicial} bactérias.")

    # Vamos supor que a população dobra a cada hora
    numero_bacterias_inicial = numero_bacterias_inicial * 2

    horas_passadas += 1 # Importante: tem que mudar algo que afete a condição, senão o laço fica infinito!

print(f"\nCultura atingiu (ou passou de) {limite_populacao} bactérias após {horas_passadas} horas.")
print(f"Número final de bactérias: {numero_bacterias_inicial}")

Hora 0: 100 bactérias.
Hora 1: 200 bactérias.
Hora 2: 400 bactérias.
Hora 3: 800 bactérias.

Cultura atingiu (ou passou de) 1000 bactérias após 4 horas.
Número final de bactérias: 1600


---

## **Aula 12: Entrada e Saída (I/O) de Arquivos** (OK)

### **Visão Geral**

Na bioinformática, raramente digitamos dados diretamente. Em vez disso, trabalhamos com arquivos que contêm sequências, anotações ou resultados de análises. Aprender a ler e escrever nesses arquivos é uma habilidade essencial. O formato **FASTA** é um dos mais comuns para armazenar sequências. Ele consiste em uma linha de cabeçalho iniciada por `>` seguida por linhas contendo a sequência.

### **Manipulação de Arquivos de Bioinformática**

A maneira mais segura e recomendada de trabalhar com arquivos em Python é usando o gerenciador de contexto `with`. Ele garante que o arquivo seja devidamente fechado ao final do bloco, mesmo que ocorram erros, prevenindo corrupção de dados e vazamento de recursos.

In [None]:
# Escrevendo um arquivo no formato FASTA

# Dados de uma proteína que se quer salvar
id_proteina_exemplo = "P0DP23|TRFE_HUMAN"
descricao_proteina = "Serotransferrin OS=Homo sapiens OX=9606 GN=TF PE=1 SV=4"
sequencia_proteina = "MRPSGTAGAAGATGPLACTLVLLLSLLLLPAGSLGAMDPLNVSVLYYTASQNLWCKPVALVAFDQ" # Só um pedacinho

# O 'w' significa 'write' (escrever). Se o arquivo não existe, ele cria. Se existe, apaga e escreve por cima.
# 'as arquivo_saida' dá um "nickname" pro arquivo aberto, para poder usar
with open("proteina_exemplo.fasta", "w") as arquivo_saida:
    # A primeira linha do FASTA é o cabeçalho, começando com '>'.
    # O '\n' no final quer dizer "pula uma linha".
    arquivo_saida.write(f">{id_proteina_exemplo} {descricao_proteina}\n")

    # Depois vem a sequência... Em arquivos FASTA, a sequência é quebrada em várias linhas...
    # Aqui, para simplificar, vamos colocar tudo numa linha só
    arquivo_saida.write(sequencia_proteina + "\n")

print("Arquivo 'proteina_exemplo.fasta' foi criado!")


# Lendo e processando o arquivo FASTA que foi criado

# O 'r' significa 'read' (ler). Aqui só vai poder ler, não escreve nada novo...
try: # É uma boa prática usar try/except pra lidar com erros, tipo "arquivo não encontrado"...
    with open("proteina_exemplo.fasta", "r") as arquivo_entrada:
        # .readlines() lê todas as linhas do arquivo e coloca numa lista. Cada linha é um item da lista...
        todas_as_linhas = arquivo_entrada.readlines()

        # A primeira linha (índice 0) é o cabeçalho. O .strip() tira espaços e pulos de linha do começo e fim...
        cabecalho_lido_do_arquivo = todas_as_linhas[0].strip()

        # As outras linhas (do índice 1 em diante) são a sequência...
        # O .join() junta todas elas numa string só...
        sequencia_lida_do_arquivo = "".join([linha.strip() for linha in todas_as_linhas[1:]])

        print("\n--- O que a gente leu do arquivo ---")
        print(f"Cabeçalho: {cabecalho_lido_do_arquivo}")
        print(f"Sequência: {sequencia_lida_do_arquivo}")
        print(f"A sequência tem {len(sequencia_lida_do_arquivo)} aminoácidos.")

except FileNotFoundError: # Se o arquivo não existir, esse bloco aqui que roda.
    print("\nOps! O arquivo 'proteina_exemplo.fasta' não foi encontrado. Você rodou a primeira parte pra criar ele?")

Arquivo 'proteina_exemplo.fasta' foi criado!

--- O que a gente leu do arquivo ---
Cabeçalho: >P0DP23|TRFE_HUMAN Serotransferrin OS=Homo sapiens OX=9606 GN=TF PE=1 SV=4
Sequência: MRPSGTAGAAGATGPLACTLVLLLSLLLLPAGSLGAMDPLNVSVLYYTASQNLWCKPVALVAFDQ
A sequência tem 65 aminoácidos.


---

## **Aula 13: Modularização, Funções e Expressões Regulares** (OK)

### **Visão Geral**

À medida que os programas crescem, a organização se torna vital. **Funções** nos permitem empacotar a lógica em blocos reutilizáveis e com nomes descritivos (abstração). **Módulos** nos permitem organizar funções relacionadas em arquivos separados. **Expressões Regulares (Regex)** são uma ferramenta poderosa para encontrar padrões complexos em texto, como sítios de restrição em DNA.

### **Funções: Criando Ferramentas Reutilizáveis**

Uma boa função tem uma única responsabilidade, um nome claro e documentação (docstring) explicando o que ela faz.

In [None]:
# Vamos criar uma função pra calcular o peso molecular de uma proteína
# É como criar uma nova "ferramenta" que podemos usar várias vezes

def calcular_peso_proteina(sequencia_aminoacidos: str) -> float:
    """
    Calcula o peso molecular aproximado de uma proteína.
    Usa pesos médios dos aminoácidos.

    Como usar:
        peso = calcular_peso_proteina("PEPTIDE")
    """
    # Um dicionário com os pesos aproximados de cada aminoácido.
    pesos_aa = {
        'A': 89.1, 'C': 121.2, 'D': 133.1, 'E': 147.1, 'F': 165.2,
        'G': 75.1, 'H': 155.2, 'I': 131.2, 'K': 146.2, 'L': 131.2,
        'M': 149.2, 'N': 132.1, 'P': 115.1, 'Q': 146.1, 'R': 174.2,
        'S': 105.1, 'T': 119.1, 'V': 117.1, 'W': 204.2, 'Y': 181.2
    }

    peso_total_calculado = 0.0
    # Passa por cada aminoácido na sequência que foi recebida...
    for aminoacido_atual in sequencia_aminoacidos.upper(): # .upper() pra garantir que seja maiúscula
        # Soma o peso do aminoácido atual ao peso total.
        # O .get(aminoacido, 0) é interessante porque se o aminoácido não estiver no dicionário (tipo um 'X')
        # ele usa 0 e não dá erro...
        peso_total_calculado += pesos_aa.get(aminoacido_atual, 0)

    return peso_total_calculado # A função "devolve" o resultado final...

# Agora vamos usar nossa função!
sequencia_exemplo = "MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN" # Insulina (um pedaço maior)
peso_calculado_insulina = calcular_peso_proteina(sequencia_exemplo)
# O :.2f formata o número pra mostrar só duas casas decimais.
print(f"O peso molecular aproximado da proteína de exemplo é: {peso_calculado_insulina:.2f} Da")

O peso molecular aproximado da proteína de exemplo é: 13944.80 Da


### **Expressões Regulares: Encontrando Padrões em Sequências**

Imagine que você precisa encontrar todos os locais onde a enzima de restrição *EcoRI* (sítio de reconhecimento `G`**AATTC**) pode cortar uma sequência de DNA. Regex é perfeito para isso.

In [None]:
import re # Para usar expressões regulares, é necessário importar o módulo 're'

# Uma sequência de DNA para se realizar as operaçãoes...
dna_para_analise = "AGCTAGCTGAATTCGCTAGCTAGCTGAATTCGATTACGCTAGAATTCCC"

# O padrão que a gente quer achar (EcoRI) é "GAATTC".
# O 'r' antes da string é uma boa prática pra expressões regulares, evita problemas com barras invertidas...
padrao_enzima_ecori = r"GAATTC"

# re.finditer() acha TODAS as vezes que o padrão aparece e devolve um "iterador"...
# Interessante pra quando tem muitas ocorrências, porque não guarda tudo na memória de uma vez...
locais_encontrados = re.finditer(padrao_enzima_ecori, dna_para_analise)

print(f"Procurando por sítios de corte da EcoRI ({padrao_enzima_ecori}) na sequência...")
contador_sitios = 0
for achado in locais_encontrados:
    contador_sitios += 1
    # .start() diz onde o padrão começou a ser encontrado (o índice do 'G')...
    # A enzima EcoRI corta depois do primeiro 'G'
    indice_inicio_sitio = achado.start()
    ponto_exato_do_corte = indice_inicio_sitio + 1 # O corte é entre G e A
    print(f"-> Sítio {contador_sitios} encontrado! Começa no índice {indice_inicio_sitio}.")
    print(f"   A enzima vai cortar entre o G (índice {indice_inicio_sitio}) e o A (índice {ponto_exato_do_corte}).")

if contador_sitios == 0:
    print("Nenhum sítio de corte para EcoRI foi encontrado nesta sequência.")

Procurando por sítios de corte da EcoRI (GAATTC) na sequência...
-> Sítio 1 encontrado! Começa no índice 8.
   A enzima vai cortar entre o G (índice 8) e o A (índice 9).
-> Sítio 2 encontrado! Começa no índice 25.
   A enzima vai cortar entre o G (índice 25) e o A (índice 26).
-> Sítio 3 encontrado! Começa no índice 41.
   A enzima vai cortar entre o G (índice 41) e o A (índice 42).


---

## **Aula 14: Programação Orientada a Objetos (POO)** (OK)

### **Visão Geral**

POO é um paradigma que nos permite modelar o mundo em termos de **objetos**. Um objeto agrupa **dados (atributos)** e **comportamentos (métodos)**. A **classe** é a planta ou o molde para criar esses objetos. Em bioinformática, podemos modelar uma sequência de DNA, uma proteína ou um cromossomo como um objeto.

### **Modelando uma Sequência de DNA como uma Classe**

Vamos criar uma classe `DNASequence` que não apenas armazena a sequência, mas também "sabe" como realizar operações biológicas relevantes sobre si mesma.

In [None]:
# Criando um "molde" (classe) para representar sequências de DNA...
class DNASequence:
    """
    Essa classe representa uma sequência de DNA.
    Ela guarda a sequência e sabe fazer algumas coisas com ela.
    """
    # O __init__ é tipo o "construtor". Ele roda toda vez que a gente cria um novo objeto DNASequence...
    # 'self' é uma referência pro próprio objeto que está sendo criado...
    def __init__(self, id_da_sequencia: str, sequencia_bruta: str):
        # Atributos (as características do objeto)
        self.id = id_da_sequencia # Um nome ou identificador pra sequência
        self.seq = sequencia_bruta.upper() # A sequência de DNA em si, sempre guardada em maiúsculas

    # Métodos (as "ações" que o objeto sabe fazer)

    def calcular_gc_content(self) -> float:
        """Calcula a porcentagem de Gs e Cs na sequência."""
        contagem_g = self.seq.count('G')
        contagem_c = self.seq.count('C')

        tamanho_total = len(self.seq)
        if tamanho_total == 0: # Importante para não dar erro de divisão por zero se a sequência for vazia
            return 0.0

        return ((contagem_g + contagem_c) / tamanho_total) * 100

    def transcrever_para_rna(self) -> str:
        """Converte a sequência de DNA para RNA (troca T por U)."""
        # O método .replace() das strings é indicado para essa situacoes
        return self.seq.replace('T', 'U')

    # O __repr__ diz como o objeto deve ser "mostrado" se um print for executa nele. Ajuda a debugar a localizar erros...
    def __repr__(self) -> str:
        return f"DNA(ID='{self.id}', Tamanho={len(self.seq)}pb)"

# Usando nossa classe pra criar objetos

# Criando um objeto do tipo DNASequence para um pedacinho do gene BRCA1.
# Isso chama o __init__ lá de cima...
dna_brca1_promotor = DNASequence(
    id_da_sequencia="BRCA1_HUMAN_promotor_regiaoX",
    sequencia_bruta="ggcgcagcgctccagggtctcag" # Sequência de exemplo
)

# Agora podemos usar os métodos que definimos no início
print(f"Objeto DNA criado: {dna_brca1_promotor}") # Vai usar o __repr__
print(f"O conteúdo GC de '{dna_brca1_promotor.id}' é: {dna_brca1_promotor.calcular_gc_content():.2f}%")
print(f"A sequência de RNA correspondente é: {dna_brca1_promotor.transcrever_para_rna()}")

Objeto DNA criado: DNA(ID='BRCA1_HUMAN_promotor_regiaoX', Tamanho=23pb)
O conteúdo GC de 'BRCA1_HUMAN_promotor_regiaoX' é: 73.91%
A sequência de RNA correspondente é: GGCGCAGCGCUCCAGGGUCUCAG


---

## **Aula 15: Tratamento de Exceções** (OK)

### **Visão Geral**

"Lixo entra, lixo sai." Programas robustos devem prever e lidar com entradas inválidas. Por exemplo, o que acontece se tentarmos criar nosso objeto `DNASequence` com caracteres inválidos como 'X' ou 'Z'? O tratamento de exceções nos permite capturar esses erros e responder adequadamente, em vez de deixar o programa quebrar.

### **Tornando nossa Classe mais Robusta**

In [None]:
# Melhorando nossa classe DNASequence pra ela ser mais espertinha com erros.
class DNASequenceMelhorada:
    """
    Uma versão da DNASequence que checa se a sequência é válida.
    """
    def __init__(self, id_da_sequencia: str, sequencia_bruta: str):
        self.id = id_da_sequencia

        # Quais letras são permitidas numa sequência de DNA?
        alfabeto_dna_valido = "ATCG"
        sequencia_maiuscula = sequencia_bruta.upper() # Converte pra maiúscula pra facilitar a checagem

        # Vamos checar cada letra da sequência
        for letra_base in sequencia_maiuscula:
            if letra_base not in alfabeto_dna_valido:
                # Se achar uma letra que não é A, T, C, ou G, a gente "levanta um erro".
                # ValueError é um tipo de erro que diz que o valor do argumento não é bom.
                raise ValueError(f"Sequência '{id_da_sequencia}' tem uma base inválida: '{letra_base}'. Só ATCG são permitidas.")

        # Se passou por todas as letras e não deu erro... Ok
        self.seq = sequencia_maiuscula

    def calcular_gc_content(self) -> float: # Copiando os métodos da classe anterior
        contagem_g = self.seq.count('G')
        contagem_c = self.seq.count('C')
        tamanho_total = len(self.seq)
        if tamanho_total == 0: return 0.0
        return ((contagem_g + contagem_c) / tamanho_total) * 100

    def transcrever_para_rna(self) -> str:
        return self.seq.replace('T', 'U')

    def __repr__(self) -> str:
        return f"DNA_Validado(ID='{self.id}', Tamanho={len(self.seq)}pb)"

# Testando o tratamento de erros com try...except

# 1. Tentando criar uma sequência válida
try:
    dna_ok = DNASequenceMelhorada("Gene_Correto", "ATGCGATCGATCG")
    print(f"Deu certo! Objeto criado: {dna_ok}")
    print(f"Conteúdo GC: {dna_ok.calcular_gc_content():.2f}%")
except ValueError as erro_capturado:
    # Esse bloco só roda se o 'try' der um ValueError.
    print(f"Xiii, deu ruim aqui (não deveria): {erro_capturado}")

print("-" * 30) # Apenas para separar visualmente...

# 2. Tentando criar uma sequência com letras inválidas
try:
    # A sequência "ATGCXGATZ" tem 'X' e 'Z', que não são DNA
    dna_ruim = DNASequenceMelhorada("Gene_Com_Erro", "ATGCXGATZCGAT")
    print(f"Eita, se chegou aqui, algo deu errado no nosso teste de erro!") # Não deve chegar aqui
except ValueError as erro_capturado:
    # Como o __init__ da DNASequenceMelhorada vai levantar um ValueError
    # A variável 'erro_capturado' guarda a mensagem de erro que definimos na classe
    print(f"Deu erro como esperado! Mensagem: '{erro_capturado}'")

Deu certo! Objeto criado: DNA_Validado(ID='Gene_Correto', Tamanho=13pb)
Conteúdo GC: 53.85%
------------------------------
Deu erro como esperado! Mensagem: 'Sequência 'Gene_Com_Erro' tem uma base inválida: 'X'. Só ATCG são permitidas.'


---

## **Aulas 16-25: Complexidade + Algoritmos de Alinhamento** (OK)

### **Visão Geral**

Esta é a seção central do curso, onde aplicamos nosso conhecimento de programação para resolver problemas fundamentais da bioinformática. Começamos entendendo *como medir* a eficiência de um algoritmo (Análise de Complexidade) e depois mergulhamos nos algoritmos clássicos de alinhamento de sequências, que são a base para comparar genes e proteínas.

### **Aulas 16-21: Análise de Complexidade (Notação Big-O)**

Não basta um algoritmo funcionar; ele precisa ser **eficiente**. A notação Big-O nos dá uma linguagem para descrever como o tempo de execução (ou uso de memória) de um algoritmo cresce à medida que o tamanho da entrada (`n`) aumenta. Em genômica, `n` pode ser o comprimento de uma sequência, que pode ter bilhões de bases.

* $O(n)$ **- Tempo Linear:** A melhor forma de contar os códons em uma sequência de RNA é percorrê-la uma vez do início ao fim. Se a sequência dobrar de tamanho, o tempo também dobrará.

* $O(n^2)$ **- Tempo Quadrático:** Uma forma ingênua de encontrar repetições em uma sequência seria comparar cada base com todas as outras bases. Se a sequência dobrar de tamanho, o tempo quadruplicará. Isso se torna inviável muito rapidamente.

* **Programação Dinâmica:** Uma técnica poderosa, usada nos algoritmos abaixo, que frequentemente nos permite transformar problemas que parecem exponenciais em soluções polinomiais (como $O(n^2)$), tornando-os tratáveis.

*SEMINÁRIOS (DISCUTIMOS ISSO BEM MAIS A FUNDO!) ;)*

### **Aula 23 & 24: Alinhamento Global (Needleman-Wunsch)**

**Objetivo:** Encontrar o melhor alinhamento possível entre **duas sequências inteiras**.

**Aplicação Biológica:** Comparar dois genes ou proteínas de tamanho semelhante para avaliar sua relação evolutiva global.


**Como Funciona:** Usa programação dinâmica para construir uma matriz. Cada célula $(i, j)$ da matriz armazena a pontuação do melhor alinhamento possível entre o início da sequência 1 até a posição $i$ e o início da sequência 2 até a posição $j$. A pontuação final na última célula da matriz nos dá a pontuação do melhor alinhamento global.

In [None]:
# De forma básica o Needleman-Wunsch funciona assim...
# Uma forma bem simplificada

seq_dna1 = "GATTACA"
seq_dna2 = "GCATGC" # Uma sequência um pouco diferente e menor

# O Needleman-Wunsch tentaria alinhar assim, usando gaps ('-') pra maximizar a semelhança:
# Alinhamento possível 1:
# G-ATTACA
# GCA-TGC-
#
# Alinhamento possível 2:
# GATTACA
# GCATGC-
#
# O algoritmo escolhe o que dá a maior "pontuação" (baseado em matches, mismatches e gaps).
print("Exemplo de como o Alinhamento Global (Needleman-Wunsch) poderia parecer:")
print(f"Sequência 1: {seq_dna1}")
print(f"Sequência 2: {seq_dna2}")
print("Um alinhamento possível (entre muitos):")
print("G-ATTACA")
print("GCA-TGC-")
print("O algoritmo acha o 'melhor' alinhamento baseado em um sistema de pontuação.")

Exemplo de como o Alinhamento Global (Needleman-Wunsch) poderia parecer:
Sequência 1: GATTACA
Sequência 2: GCATGC
Um alinhamento possível (entre muitos):
G-ATTACA
GCA-TGC-
O algoritmo acha o 'melhor' alinhamento baseado em um sistema de pontuação.


### **Aula 25: Alinhamento Local (Smith-Waterman)**

**Objetivo:** Encontrar a região de maior similaridade entre duas sequências.


**Aplicação Biológica:** É muito mais comum e útil. Serve para encontrar um domínio funcional conservado (ex: um sítio de ligação) dentro de duas proteínas longas e, no geral, diferentes.


**Como Funciona:** Uma modificação inteligente do Needleman-Wunsch. As principais diferenças são:

1. **Pontuações não podem ser negativas:** Se a pontuação de uma célula se tornaria negativa, ela é zerada. Isso permite que um novo alinhamento "comece" em qualquer lugar da matriz.

2. **Rastreamento (ou Traceback) diferente:** O rastreamento não começa do canto inferior direito, mas sim da célula com a **maior pontuação em toda a matriz**, e termina quando atinge uma célula com pontuação zero.

In [None]:
# Uma simplificação do Smith-Waterman

seq_proteina_longa1 = "AGCTAGCTACGTAGCTACGATCGATCATAGCTAGCTAGCTAGCATCGA" # DNA como exemplo
seq_proteina_longa2 = "XXXXXXYYYYYYZZZZZZAGCTAGCTAGCTAAAAABBBBBCCCCC"   # DNA como exemplo

# O Smith-Waterman iria focar só na porção que é igual ou muito parecido:
#  AGCTAGCTAGC
#  |||||||||||  (as barras mostram onde deu match entre os pb)
#  AGCTAGCTAGC
# E ignoraria o resto que é diferente ("XXXXXX...", "AAAAA...").
print("\nExemplo de como o Alinhamento Local (Smith-Waterman) encontraria a melhor parte:")
print(f"Sequência Longa 1 (pedaço): ...{seq_proteina_longa1[20:35]}...")
print(f"Sequência Longa 2 (pedaço): ...{seq_proteina_longa2[15:30]}...")
print("Ele acharia algo como:")
print("  AGCTAGCTAGC")
print("  |||||||||||")
print("  AGCTAGCTAGC")
print("Focando só na região de maior similaridade.")


Exemplo de como o Alinhamento Local (Smith-Waterman) encontraria a melhor parte:
Sequência Longa 1 (pedaço): ...TCGATCATAGCTAGC...
Sequência Longa 2 (pedaço): ...ZZZAGCTAGCTAGCT...
Ele acharia algo como:
  AGCTAGCTAGC
  |||||||||||
  AGCTAGCTAGC
Focando só na região de maior similaridade.


### **Aula 26: Heurísticas (BLAST) e Alinhamento Múltiplo**

**O Problema:** Alinhar dezenas ou centenas de sequências (Alinhamento Múltiplo de Sequências - MSA) ou pesquisar um genoma inteiro em um banco de dados de bilhões de bases (como o GenBank) com os algoritmos de programação dinâmica seria computacionalmente impossível (levaria anos ou séculos).

**A Solução: Heurísticas.**
Uma heurística é um "atalho inteligente". Ela troca a **garantia** de encontrar a melhor resposta possível por uma **velocidade drástica**.

**BLAST (Basic Local Alignment Search Tool):** É a heurística mais famosa da bioinformática. Em vez de preencher uma matriz inteira, ele funciona de forma mais inteligente:

1. **Quebra** a sua sequência de busca em pequenas "palavras".

2. **Busca** por correspondências exatas dessas palavras no banco de dados (isso é muito rápido).

3. **Estende** essas correspondências iniciais em ambas as direções para ver se elas estão dentro de uma região maior de alta similaridade.

4. **Avalia** os alinhamentos encontrados e os classifica por significância estatística.

O BLAST pode não encontrar o alinhamento matematicamente perfeito, mas ele encontra os alinhamentos biologicamente significativos em questão de segundos, não séculos.