# Fundamentos de Python

*Em* Python, assim como em outras linguagens de programação, os termos **sintaxe** e **semântica (ou lógica)** se referem a aspectos distintos de como o código é escrito e como ele é interpretado e executado. Vamos definir cada um deles:

**Sintaxe em Python:**

* **Definição:** A sintaxe de Python se refere ao conjunto de regras que governam a estrutura e a forma como os símbolos, palavras-chave e outros elementos são combinados para formar um programa válido. É como a gramática de uma linguagem natural. Se a sintaxe estiver incorreta, o interpretador Python não conseguirá entender o código e reportará um erro de sintaxe.

* **Analogia:** Pense na sintaxe como as regras gramaticais da língua portuguesa. Uma frase precisa ter sujeito, verbo e complementos (dependendo do verbo) dispostos de uma maneira específica para ser considerada gramaticalmente correta. Se você escrever algo como "gato come rato o", a frase está sintaticamente incorreta.

* **Exemplos de Regras de Sintaxe em Python:**
    * **Indentação:** Blocos de código (como dentro de loops `for`, `while`, condicionais `if`, e definições de funções) são definidos por indentação (geralmente 4 espaços). A indentação inconsistente causa erros de sintaxe.

    * **Dois pontos (`:`):** Muitas estruturas de controle (como `if`, `for`, `while`, `def`, `class`) terminam com dois pontos, indicando o início de um bloco de código indentado.

    * **Uso correto de palavras-chave:** Palavras reservadas como `if`, `else`, `for`, `while`, `def`, `class`, `return`, etc., devem ser usadas em seus contextos apropriados.
    * **Estrutura de expressões e comandos:** A forma como operadores, variáveis e valores são combinados em expressões e como os comandos são estruturados (atribuições, chamadas de função, etc.).
    
    * **Delimitação de strings:** Strings devem ser delimitadas por aspas simples (`'`) ou duplas (`"`).

**Semântica (ou Lógica) em Python:**

* **Definição:** A semântica (ou lógica) de um programa Python se refere ao significado e ao comportamento do código quando ele é executado. Envolve a interpretação do que cada parte do código faz e como essas partes interagem para produzir um resultado. Um código pode estar sintaticamente correto, mas sua semântica (lógica) pode estar errada, fazendo com que ele não funcione da maneira esperada ou produza resultados incorretos.

* **Analogia:** Voltando à língua portuguesa, a semântica seria o significado da frase. Uma frase pode estar gramaticalmente correta ("O rato comeu o queijo"), mas pode não corresponder à realidade (se não houver queijo). Da mesma forma, um código Python pode estar sintaticamente perfeito, mas sua lógica pode estar falha.

* **Exemplos de Erros Semânticos (Lógicos) em Python:**
    * **Usar a variável errada:**

    * **Erro na lógica de um algoritmo:** Um código pode seguir todas as regras de sintaxe, mas o algoritmo implementado pode estar incorreto para resolver o problema desejado. Por exemplo, uma função para calcular a média pode somar os números corretamente, mas dividir pela quantidade errada.

**Em resumo:**

* **Sintaxe:** Diz respeito a *como* o código é escrito (a forma correta). Erros de sintaxe impedem que o programa seja executado.
* **Semântica (Lógica):** Diz respeito a *o que* o código faz (o significado e o comportamento). Erros semânticos fazem com que o programa execute de forma inesperada ou produza resultados incorretos, mesmo que não haja erros de sintaxe.

É crucial entender ambos os aspectos ao programar em Python (ou qualquer outra linguagem). Um bom programador escreve código que é tanto sintaticamente correto quanto logicamente válido para resolver o problema em questão. O interpretador Python primeiro verifica a sintaxe e, se estiver correta, então executa o código de acordo com sua semântica.    

**Primeiro programa em Python:**

In [None]:
print("Olá")

Olá


O programa consiste em uma chamada a uma função (ainda estudaremos funções ao longo do curso). A função print é uma função nativa do Python que imprime o valor recebido como entrada, no caso, a cadeia de caracteres "Olá".

**Variáveis - Definições e Tipos:**

***Variáveis*** são **blocos de memória** em que **valores** de determinados **tipos** podem ser armazenados e que recebem nomes.

Os nomes de variáveis em Python seguem as seguintes regras básicas:
Regras básicas:

- Nomes de variáveis podem conter letras (a-z, A-Z), números (0-9) e sublinhados (_).
- Não são permitidos outros caracteres especiais, como !, @, #, $, %, etc.
- O nome de uma variável deve começar com uma letra ou um sublinhado (_).
- Não pode começar com um número.

Não é adequado usar palavras reservadas da linguagem Python como nomes de variáveis. Palavras reservadas são palavras que têm um significado especial em Python, como "if", "else", "for", "while", "def", "class", etc.

Python diferencia maiúsculas e minúsculas. Portanto, "variavel", "Variavel" e "VARIAVEL" são consideradas variáveis diferentes.

Em relação aos **tipos de variáveis** **simples** em Python, temos:
- Numéricas: como int, float e complex
- Cadeias de carateres: str
- Valores lógicos: bool

Há também as variáveis **compostas** que estudaremos em breve. Estas podem ser homogêneas ou heterogêneas. Em Python, não há como garantir que uma variável composto seja homogênea.

Seguem alguns exemplos de variáveis simples de diversos tipos em Python:

In [None]:
numero_aminoacidos = 250
print(type(numero_aminoacidos))

taxa_mutacao = 0.1
print(type(taxa_mutacao))

eProteina = False
print(type(eProteina))

sequencia_dna = "ATGCGACTAGCTAGCTAGCATG"
print(type(sequencia_dna))

<class 'int'>
<class 'float'>
<class 'bool'>
<class 'str'>


In [None]:
# Cuidado com a declaração de variáveis com nomes de palavras reservadas.
# Isto certamente trará efeitos indesejados de difícil correção, especialmente
# no Colab

print = 1
#print("teste")
del print
print("teste")

teste


# Sequências

Em Python, uma **sequência imutável** é um tipo de dado que representa uma coleção ordenada de itens, com a característica fundamental de que **não pode ser modificada após sua criação**. Isso significa que você não pode alterar os elementos existentes, adicionar novos elementos ou remover elementos de uma sequência imutável depois que ela é definida.

**Características principais de sequências imutáveis em Python:**

* **Ordenadas:** Os elementos dentro da sequência mantêm uma ordem específica, e essa ordem é preservada. Você pode acessar os elementos por meio de seus índices (posição).
* **Não Modificáveis:** Uma vez criada, a estrutura e o conteúdo da sequência não podem ser alterados. Qualquer tentativa de modificar uma sequência imutável resultará em um erro.
* **Acessíveis por índice:** Você pode acessar elementos individuais da sequência usando sua posição (índice), começando do índice 0 para o primeiro elemento.
* **Suportam operações de sequência:** Assim como outras sequências (mutáveis), sequências imutáveis suportam operações como indexação, fatiamento (`slicing`), concatenação (`+`), repetição (`*`), e podem ser usadas com funções como `len()`, `count()`, e `index()`.

**Tipos de sequências imutáveis em Python:**

Os dois principais tipos de sequências imutáveis em Python são Strings e Tuplas.

**Por que usar sequências imutáveis?**

* **Segurança e Integridade de Dados:** A imutabilidade garante que os dados permaneçam inalterados ao longo do programa, evitando modificações acidentais.
* **Eficiência:** Em alguns casos, sequências imutáveis podem ser mais eficientes em termos de uso de memória e desempenho em comparação com sequências mutáveis.
* **Uso como Chaves em Dicionários:** Tuplas podem ser usadas como chaves em dicionários Python, pois as chaves de dicionários precisam ser imutáveis (hashable). Listas não podem ser usadas como chaves.
* **Retorno Seguro de Funções:** Se uma função retorna uma sequência imutável, você tem a garantia de que essa sequência não será alterada por outras partes do código.

Em resumo, são uma forma de armazenar coleções ordenadas de dados que não podem ser alterados após a criação, proporcionando segurança, integridade e, em certos cenários, benefícios de desempenho. Os principais exemplos são strings (`str`) e tuplas (`tuple`).

**String (str):**
  * **Definição:** Uma sequência imutável de caracteres.
  * **Criação de Strings:**

In [None]:
# Usando aspas simples
sequencia_dna = 'ATGCAGTAGC'
sequencia_rna = 'AUGCAGUAGC'

# Usando aspas duplas
nome_gene = "BRCA1"
proteina = "MIOGLOBINA"

# Usando aspas triplas (para strings multi-linha)
descricao = """Esta é uma sequência
de DNA importante para
estudos de câncer."""

print(sequencia_dna)
print(nome_gene)
print(descricao)

ATGCAGTAGC
BRCA1
Esta é uma sequência
de DNA importante para
estudos de câncer.


* Funcionalmente, aspas simples e duplas são quase idênticas para definir strings em Python.
* A principal diferença prática reside na facilidade de incluir um tipo de aspa dentro de uma string delimitada pelo outro tipo, sem a necessidade de usar o caractere de escape (`\`).
* A escolha entre elas é geralmente uma questão de preferência pessoal ou convenção de estilo do projeto.

In [None]:
citacao = 'Ele disse: "Olá!"'
print(citacao)

citacao = "Ele disse: \"Olá!\""
print(citacao)

citacao = "Ele disse: 'Olá!'"
print(citacao)

Ele disse: "Olá!"
Ele disse: "Olá!"
Ele disse: 'Olá!'


**Operações Básicas com Strings:**
        
- **Indexação:** Acessando caracteres individuais (lembrar que a indexação começa em 0).

In [None]:
dna = 'ACGT'
print(dna[0])  # Saída: A
print(dna[2])  # Saída: G

# Tentar acessar um índice fora do alcance gera um erro!

A
G


- **Fatiamento:** Obtendo substrings.

In [None]:
dna = 'ATGCAGTAGC'
print(dna[0:3])   # Saída: ATG (do índice 0 até o 2)
print(dna[3:])    # Saída: CAGTAGC (do índice 3 até o final)
print(dna[:5])    # Saída: ATGCA (do início até o índice 4)
print(dna[::2])   # Saída: AGATG (pegando de 2 em 2)
print(dna[::-1])  # Saída: CGATGACGTA (reverte a string)

ATG
CAGTAGC
ATGCA
AGATG
CGATGACGTA


- **Concatenação:** Combinando strings.

In [None]:
parte1 = 'ATG'
parte2 = 'CGC'
sequencia_completa = parte1 + parte2
print(sequencia_completa) # Saída: ATGCGC

ATGCGC


- **Repetição:** Multiplicando strings.

In [None]:
alanina = 'A'
poli_A = alanina * 10
print(poli_A) # Saída: AAAAAAAAAA

print(len(poli_A))

seq = "ABCD"
seq = seq.replace('A', 'X')
print(id(seq))

print(seq)


AAAAAAAAAA
10
134613412216176
134613412213616
XBCD


- **Funções e Métodos Úteis:**
  * `len()`: Obtém o comprimento da string.
  * `.count(substring)`: Conta ocorrências de uma substring.
  * `.find(substring)`: Encontra a primeira ocorrência de uma substring (retorna o índice).
  * `.replace(old, new)`: Substitui uma substring por outra.
  * `.upper()`: Converte para maiúsculas.
  * `.lower()`: Converte para minúsculas.

- **Aplicação em Bioinformática:**
  * Representação de sequências de DNA, RNA e Proteínas.
  * Contagem de bases nitrogenadas ou aminoácidos.
  * Localização de padrões (motivos) em sequências.
  * Substituição de bases / aminoácidos (simulação de mutações simples).

**Lista (list) - Sequências Mutáveis:**
  * **Definição:** Uma sequência ordenada e *mutável* de itens (que podem ser de diferentes tipos).
  * **Criação de Listas:**

In [None]:
nucleotideos = ['A', 'T', 'G', 'C']
aminoacidos = ['Ala', 'Gly', 'Ser']
misturada = [1, 'DNA', 3.14, True]
lista_vazia = []

print(nucleotideos)
print(aminoacidos)
print(misturada)
print(lista_vazia)

print(id(misturada[2]))
misturada[2] = 3.14
print(id(misturada[2]))
print(misturada)


['A', 'T', 'G', 'C']
['Ala', 'Gly', 'Ser']
[1, 'DNA', 3.14, True]
[]
134613151559664
134613151554832
[1, 'DNA', 3.14, True]


* **Operações Básicas com Listas:**
  * **Indexação e Fatiamento:** Similar às strings.

In [None]:
nucleotideos = ['A', 'T', 'G', 'C']

print(nucleotideos[1])   # Saída: T
print(nucleotideos[1:3]) # Saída: ['T', 'G']

T
['T', 'G']


* **Mutabilidade:** Alterando elementos da lista.

In [None]:
nucleotideos = ['A', 'T', 'G', 'C']
nucleotideos[1] = 'U'  # Mudando T para U (RNA)

print(nucleotideos)    # Saída: ['A', 'U', 'G', 'C']

['A', 'U', 'G', 'C']


* **Adicionando Elementos:**
  * `.append(item)`: Adiciona ao final da lista.
  * `.insert(index, item)`: Insere em um índice específico.
  * `.extend(outra_lista)`: Adiciona os elementos de outra lista ao final.

In [None]:
aminoacidos = ['Ala', 'Gly', 'Ser']
aminoacidos.append('Pro')

print(aminoacidos) # Saída: ['Ala', 'Gly', 'Ser', 'Pro']

aminoacidos.insert(0, 'Met')

print(aminoacidos) # Saída: ['Met', 'Ala', 'Gly', 'Ser', 'Pro']

mais_aminoacidos = ['Val', 'Leu']

aminoacidos.extend(mais_aminoacidos)

print(aminoacidos) # Saída: ['Met', 'Ala', 'Gly', 'Ser', 'Pro', 'Val', 'Leu']

['Ala', 'Gly', 'Ser', 'Pro']
['Met', 'Ala', 'Gly', 'Ser', 'Pro']
['Met', 'Ala', 'Gly', 'Ser', 'Pro', 'Val', 'Leu']


* **Removendo Elementos:**

  * `.remove(item)`: Remove a primeira ocorrência de um valor.
  * `.pop(index)`: Remove e retorna o elemento em um índice (o último se nenhum índice for especificado).
  * `del lista[index]`: Remove o elemento em um índice (não retorna valor).

In [None]:
nucleotideos = ['A', 'U', 'G', 'C', 'U']
nucleotideos.remove('U') # Remove a primeira 'U'

print(nucleotideos)      # Saída: ['A', 'G', 'C', 'U']

nucleotideos_removido = nucleotideos.pop(2)

print(nucleotideos)      # Saída: ['A', 'G', 'U']
print(nucleotideos_removido) # Saída: C

del nucleotideos[0]
print(nucleotideos)      # Saída: ['G', 'U']

print((id(nucletideos))))

['A', 'G', 'C', 'U']
['A', 'G', 'U']
C
['G', 'U']


* **Outras Funções Úteis:**
  * `len()`: Comprimento da lista.
  * `.count(item)`: Conta ocorrências de um item.
  * `.index(item)`: Retorna o índice da primeira ocorrência de um item.
  * `.sort()`: Ordena a lista (in-place).
  * `sorted(lista)`: Retorna uma nova lista ordenada (sem modificar a original).

* **Aplicação em Biologia Computacional:**
  * Armazenamento de múltiplos resultados de análises.
  * Manipulação de listas de genes ou proteínas.
  * Implementação de algoritmos que envolvem ordenação (ex: alinhamento de sequências).
  * Representação de caminhos metabólicos como listas de enzimas ou metabólitos.

**Tupla (tuple) - Sequências Imutáveis:**
  * **Definição:** Uma sequência ordenada e *imutável* de itens (similar à lista, mas não pode ser modificada após a criação).
  * **Criação de Tuplas:**

In [None]:
coordenadas = (3, 4, 5)
purinas = ('A', 'G')
tupla_vazia = ()
tupla_um_elemento = ('A',) # A vírgula é importante!
print(type(tupla_um_elemento))

print(coordenadas)
print(purinas)
print(tupla_vazia)
print(tupla_um_elemento)

<class 'tuple'>
(3, 4, 5)
('A', 'G')
()
('A',)


* **Operações Básicas com Tuplas:**
  * **Indexação e Fatiamento:** Funcionam da mesma forma que em strings e listas.

In [None]:
coordenadas = (3, 4, 5)
print(coordenadas[0]) # Saída: 10
print(coordenadas[1:]) # Saída: (20,)

3
(4, 5)


* **Imutabilidade:** Tentar modificar um elemento de uma tupla gera um erro.

In [None]:
#coordenadas[0] = 15 # Isso causará um TypeError!

TypeError: 'tuple' object does not support item assignment

* **Concatenação e Repetição:** Funcionam como em strings.

In [None]:
tupla1 = ('A', 'T')
tupla2 = ('G', 'C')
tupla_completa = tupla1 + tupla2
print(tupla_completa) # Saída: ('A', 'T', 'G', 'C')
repeticao = ('X',) * 3
print(repeticao)      # Saída: ('X', 'X', 'X')

('A', 'T', 'G', 'C')
('X', 'X', 'X')


* **Funções Úteis:**
  * `len()`: Comprimento da tupla.
  * `.count(item)`: Conta ocorrências de um item.
  * `.index(item)`: Retorna o índice da primeira ocorrência de um item.

* **Aplicações em Biologia Computacional:**
  * Representação de dados que não devem ser alterados (ex: códons genéticos).
  * Chaves em dicionários (que veremos em aulas futuras).
  * Retorno de múltiplos valores de funções.

**Cenário:**

Imagine que você está analisando um pequeno genoma representado como uma longa string. Você quer identificar todas as ocorrências de um conjunto de motivos de DNA (sequências curtas de DNA que podem ter significado biológico, como sítios de ligação de proteínas).

**Que tipo de sequências você usaria para representar?**
  * A sequência de DNA?
  * Os motivos a serem procurados?
  * As ocorrências encontradas?

In [None]:
# Representando um pequeno genoma como uma string
genoma = "ATTAGGCAGTAGCGGTAGAAAACGTGCAGGTATATG"

# Definindo uma tupla de motivos de DNA que estamos procurando
motivos = ('AGCG', 'AAAA', 'GGTA')

# Ainda não aprendemos as estruturas de controle abaixo
# Não se preocupem com seus detalhes
def encontrar_motivos_tuplas(dna, motivos):
  ocorrencias = [] # Definindo uma lista de ocorrências de motivos
  for i in range(len(dna)):  # Itera até o ponto onde ainda há espaço para um motivo de 4 bases
    sequencia = dna[i:i+4] # Extrai uma subsequência de 4 bases
    if sequencia in motivos:
      ocorrencias.append((sequencia, i)) # Armazena o motivo (como tupla) e sua posição
  return ocorrencias

ocorrencias = encontrar_motivos_tuplas(genoma, motivos)
print(f"Ocorrências dos motivos: {ocorrencias}")

Ocorrências dos motivos: [('AGCG', 10), ('GGTA', 13), ('AAAA', 18), ('GGTA', 28)]


**Usando Tuplas para Representar Motivos de DNA:**

* **Natureza Fixa dos Motivos:** Um motivo de DNA específico (por exemplo, "ATCG") é uma sequência constante. Uma vez definido, sua composição não muda. Representá-los como tuplas reflete essa natureza **imutável**.

* **Busca Eficiente:** Podemos armazenar os motivos que estamos procurando em uma tupla. A iteração sobre uma tupla para comparar com substrings do genoma é eficiente e clara.

**Usando Listas para Representar Ocorrências Mutáveis:**

* **Flexibilidade para Anotações:** Se, em etapas posteriores da análise, você precisar anotar as ocorrências dos motivos no genoma (por exemplo, marcando suas posições ou adicionando informações contextuais), representar essas anotações como uma lista de informações mutáveis (como a posição inicial e final) pode ser útil.

* **Construção Dinâmica de Resultados:** A lista `ocorrencias` no exemplo abaixo é construída dinamicamente à medida que os motivos são encontrados.

**A Diferença:**

1.  **Modelagem Natural:** Os motivos de DNA, sendo sequências fixas para a busca, são naturalmente representados como tuplas imutáveis. O genoma, embora grande, é uma sequência de caracteres (string). As ocorrências, que podem precisar ser anotadas ou modificadas em etapas futuras, são representadas como listas mutáveis.

2.  **Clareza de Intenção:** O uso de tuplas para os motivos comunica que essas sequências são tratadas como constantes durante a busca. O uso de listas para as ocorrências sugere que essas informações podem ser estendidas ou modificadas.

3.  **Eficiência e Segurança:** A comparação de tuplas dentro de um loop pode ser ligeiramente mais eficiente em alguns casos. A imutabilidade das tuplas para os motivos evita alterações acidentais.

4.  **Flexibilidade para Evolução da Análise:** Se, posteriormente, você precisar armazenar mais informações sobre cada ocorrência (por exemplo, a fita do DNA, a probabilidade de ser um sítio real), a lista de ocorrências pode ser facilmente estendida para acomodar esses novos dados (mantendo a estrutura como uma lista de listas).

Este exemplo demonstra como a escolha entre strings (para a sequência principal), tuplas (para representar elementos fixos a serem buscados) e listas (para armazenar e potencialmente modificar os resultados da busca) deve ser feita. Ele destaca a semântica da imutabilidade e da mutabilidade em relação à natureza dos dados que estão sendo representados e manipulados.

**Prática e Exercícios:**
  * **Exercício 1 (Strings):** Dada a sequência de DNA `"ATGCGTAGCTAG"`, escreva um código para:
    * Imprimir o primeiro e o último nucleotídeo.
    * Imprimir a subsequência do 3º ao 7º nucleotídeo (inclusive).
    * Contar quantas vezes a base 'G' aparece.
    * Substituir todas as ocorrências de 'T' por 'U'.
  * **Exercício 2 (Listas):** Dada uma lista de nomes de proteínas `["Hemoglobina", "Insulina", "Colágeno"]`, escreva um código para:
    * Adicionar a proteína "Miosina" ao final da lista.
    * Inserir a proteína "Albumina" no início da lista.
    * Remover a proteína "Insulina".
    * Imprimir o número total de proteínas na lista final.
  * **Exercício 3 (Tuplas):** Crie uma tupla representando os códons de início comuns `("AUG", "GUG")`. Verifique se o códon "UAG" está presente nesta tupla.

In [None]:
# Solução do Exercício 1

# Solução do Exercício 2

# Solução do Exercício 3

**Conjuntos (sets)**.

Imagine que você está analisando um conjunto de genes que foram identificados em diferentes experimentos de sequenciamento de RNA. Às vezes, você vai querer saber quais genes apareceram em todos os experimentos, quais são exclusivos de um experimento ou a combinação de genes encontrados em diferentes condições. Conjuntos de Python são úteis neste contexto.

**Definição e Propriedades:**

Em Python, um **conjunto** é uma coleção não ordenada de itens **únicos**. Isso significa que:

* **Não ordenado:** A ordem dos elementos em um conjunto não é garantida e pode mudar. Você não pode acessar os elementos de um conjunto por um índice como faria em uma lista.
* **Único:** Um conjunto não pode conter elementos duplicados. Se você tentar adicionar um elemento que já existe, ele será ignorado.

Pense em um conjunto como uma sacola onde você coloca itens, e a ordem em que eles estão dentro da sacola não importa, e se você tentar colocar o mesmo item duas vezes, só um deles ficará lá dentro.

**Exemplo de código em Python:**

In [None]:
# Genes identificados em dois experimentos
experimento1_genes = {"TP53", "BRCA1", "EGFR", "ALK"}
experimento2_genes = {"BRCA1", "EGFR", "PIK3CA", "MET"}

print(f"Genes no experimento 1: {experimento1_genes}")
print(f"Genes no experimento 2: {experimento2_genes}")

lista = [1, 2, 3, 4, 5, 2, 4, 6]
conjunto = set(lista)
print(lista)
print(conjunto)

Genes no experimento 1: {'ALK', 'BRCA1', 'TP53', 'EGFR'}
Genes no experimento 2: {'PIK3CA', 'BRCA1', 'MET', 'EGFR'}
[1, 2, 3, 4, 5, 2, 4, 6]
{1, 2, 3, 4, 5, 6}


Neste exemplo, `experimento1_genes` e `experimento2_genes` são conjuntos contendo os nomes dos genes identificados em cada experimento. Note que as chaves `{}` são usadas para definir conjuntos, assim como nos dicionários, mas sem a estrutura de chave-valor.

**Operações Básicas com Conjuntos:**

Assim como podemos realizar operações matemáticas com números, também podemos realizar operações lógicas com conjuntos. As principais são:

* **União (`union()` ou `|`)**: Retorna um novo conjunto contendo todos os elementos de ambos os conjuntos. Pense em juntar o conteúdo de duas sacolas em uma nova, sem duplicar os itens. Pode ser útil para encontrar o conjunto total de genes que foram relevantes em diferentes estudos sobre uma doença, por exemplo.


In [None]:
# Genes encontrados em ambos os experimentos
todos_os_genes = experimento1_genes.union(experimento2_genes)
# Ou, de forma mais concisa:
# todos_os_genes = experimento1_genes | experimento2_genes
print(f"Todos os genes identificados: {todos_os_genes}")

Todos os genes identificados: {'ALK', 'MET', 'TP53', 'PIK3CA', 'EGFR', 'BRCA1'}


* **Interseção (`intersection()` ou `&`)**: Retorna um novo conjunto contendo apenas os elementos que estão presentes em ambos os conjuntos. Imagine encontrar os itens que estão presentes em ambas as sacolas ao mesmo tempo. Pode ser útil para identificar genes que são específicos de uma determinada condição ou tratamento.

In [None]:
# Genes encontrados em ambos os experimentos
todos_os_genes = experimento1_genes.intersection(experimento2_genes)
# Ou, de forma mais concisa:
# todos_os_genes = experimento1_genes & experimento2_genes
print(f"Todos os genes identificados: {todos_os_genes}")

Todos os genes identificados: {'BRCA1', 'EGFR'}


In [None]:
# Genes exclusivos do experimento 1
genes_exclusivos_experimento1 = experimento1_genes.difference(experimento2_genes)
# Ou:
genes_exclusivos_experimento1 = experimento1_genes - experimento2_genes
print(f"Genes exclusivos do experimento 1: {genes_exclusivos_experimento1}")

# Genes exclusivos do experimento 2
genes_exclusivos_experimento2 = experimento2_genes.difference(experimento1_genes)
# Ou:
genes_exclusivos_experimento2 = experimento2_genes - experimento1_genes
print(f"Genes exclusivos do experimento 2: {genes_exclusivos_experimento2}")

Genes exclusivos do experimento 1: {'ALK', 'TP53'}
Genes exclusivos do experimento 2: {'PIK3CA', 'MET'}


* **Verificação de subconjunto e superconjunto (`issubset()`, `issuperset()`):** Permitem verificar se um conjunto está contido dentro de outro ou se contém todos os elementos de outro. Pode ser usado para verificar se um conjunto de **marcadores** genéticos está presente em um painel genético maior.



In [None]:
# Definindo um conjunto menor de genes
subset_genes = {"BRCA1", "EGFR"}
if "BRCA1" in subset_genes:
  subset_genes.remove("BRCA1")

# Verificando se subset_genes é um subconjunto de experimento1_genes
eSubconjunto = subset_genes.issubset(experimento1_genes)
print(f"'{subset_genes}' é um subconjunto de '{experimento1_genes}'.")

# Verificando se experimento1_genes é um superconjunto de subset_genes
eSuperconjunto = experimento1_genes.issuperset(subset_genes)
print(f"'{experimento1_genes}' é um superconjunto de '{subset_genes}'.")

'{'EGFR'}' é um subconjunto de '{'ALK', 'BRCA1', 'TP53', 'EGFR'}'.
'{'ALK', 'BRCA1', 'TP53', 'EGFR'}' é um superconjunto de '{'EGFR'}'.


**Outros Métodos Úteis:**

* `add(elemento)`: Adiciona um elemento ao conjunto.
* `remove(elemento)`: Remove um elemento do conjunto. Se o elemento não existir, causa um erro.
* `discard(elemento)`: Remove um elemento do conjunto se ele estiver presente. Não causa erro se o elemento não existir.
* `pop()`: Remove e retorna um elemento arbitrário do conjunto. Como os conjuntos não são ordenados, não há garantia de qual elemento será removido.
* `clear()`: Remove todos os elementos do conjunto, tornando-o vazio.

**Exemplo com `add()` e `remove()`:**

In [None]:
# Criando um conjunto de proteínas de interesse
proteinas_interesse = {"TP53", "VEGF"}
print(f"Conjunto inicial de proteínas: {proteinas_interesse}")

# Adicionando uma nova proteína
proteinas_interesse.add("AKT1")
print(f"Conjunto após adicionar AKT1: {proteinas_interesse}")

# Removendo uma proteína
proteinas_interesse.remove("TP53")
print(f"Conjunto após remover TP53: {proteinas_interesse}")

# Tentando remover uma proteína que não existe (causará um erro)
# proteinas_interesse.remove("ERBB2")

# Usando discard para remover (sem erro se não existir)
proteinas_interesse.discard("ERBB2")
print(f"Conjunto após tentar remover ERBB2 com discard: {proteinas_interesse}")

Conjunto inicial de proteínas: {'VEGF', 'TP53'}
Conjunto após adicionar AKT1: {'AKT1', 'VEGF', 'TP53'}
Conjunto após remover TP53: {'AKT1', 'VEGF'}
Conjunto após tentar remover ERBB2 com discard: {'AKT1', 'VEGF'}


**Dicionários (dict)**

Imagine que você tem informações detalhadas sobre diferentes proteínas, como seus nomes, sequências de aminoácidos, funções e os genes que as codificam. Uma forma eficiente de organizar e acessar essas informações é usando um dicionário.

**Definição e Estrutura:**

Em Python, um **dicionário** é uma coleção de pares **chave-valor**. Cada chave em um dicionário é única e é usada para acessar o valor associado a ela. Pense em um dicionário como um catálogo onde você procura uma palavra (a chave) para encontrar sua definição (o valor).

* **Chave (Key):** A chave é um **identificador único** para um valor. Geralmente, as chaves são strings (texto), números ou tuplas (uma sequência imutável de itens).
* **Valor (Value):** O valor é a informação associada à chave. Os valores podem ser de qualquer tipo em Python: strings, números, listas, outros dicionários, etc.

A estrutura de um dicionário em Python é definida por chaves `{}` contendo pares chave-valor separados por dois pontos `:` e os pares são separados por vírgulas `,`.

**Exemplo de código em Python:**

In [None]:
# Informações sobre uma proteína
proteina_info = {
  "nome": "Insulina",
  "sequencia": "MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN",
  "funcao": "Regulação do metabolismo da glicose",
  "gene": "INS"
}

print(proteina_info['localização'])

print(f"Informações da proteína: {proteina_info}")
print(f"Nome da proteína: {proteina_info['nome']}")
print(f"Sequência da proteína: {proteina_info['sequencia'][:20]}...") # Imprimindo apenas os 20 primeiros aminoácidos

KeyError: 'localização'

Neste exemplo, `proteina_info` é um dicionário onde as chaves são "nome", "sequencia", "funcao" e "gene", e os valores correspondentes são as informações da proteína Insulina. Usamos colchetes `[]` com a chave para acessar o valor associado.

Você consegue imaginar outras informações sobre uma proteína que poderíamos armazenar em um dicionário?

***

A seguir, vamos explorar os **principais métodos de dicionários** em Python e como eles podem ser aplicados em bioinformática.

**Métodos Principais de Dicionários:**

* **`keys()`**: Retorna uma visão (view object) que exibe uma lista de todas as chaves do dicionário. Podemos usar isso para obter rapidamente a lista de diferentes tipos de informações que temos sobre um conjunto de genes ou proteínas.

In [None]:
chaves = proteina_info.keys()
print(f"Chaves do dicionário: {chaves}")
# Podemos converter a visão para uma lista se precisarmos de uma lista
# explícita:
lista_de_chaves = list(chaves)
print(f"Lista de chaves: {lista_de_chaves}")

NameError: name 'proteina_info' is not defined

* **`values()`**: Retorna uma visão que exibe uma lista de todos os valores do dicionário. Pode ser útil para coletar todas as sequências de aminoácidos de um conjunto de proteínas armazenadas em um dicionário.

In [None]:
valores = proteina_info.values()
print(f"Valores do dicionário: {valores}")

# Podemos converter a visão para uma lista:
lista_de_valores = list(valores)
print(f"Lista de valores: {lista_de_valores}")

NameError: name 'proteina_info' is not defined

* **bold text** **`items()`**: Retorna uma visão que exibe uma lista de todos os pares chave-valor do dicionário (como tuplas). É muito útil para processar todos os dados associados a cada gene ou proteína de uma vez.

In [None]:
itens = proteina_info.items()

print(itens)

print(f"Pares chave-valor do dicionário: {itens}")

# Podemos iterar sobre os itens: Ainda não estudamos estruturas de repetição,
# então, voltaremos nisto a seguir.
for chave, valor in proteina_info.items():
  print(f"{chave}: {valor[:20]}...") # Imprimindo os primeiros 20 caracteres do valor

NameError: name 'proteina_info' is not defined

* **`get(chave, valor_padrao)`**: Retorna o valor associado à chave. Se a chave não existir, retorna o `valor_padrao` especificado (se fornecido) ou `None`. Isso é mais seguro do que acessar diretamente com `[]`, pois não causa um erro se a chave não for encontrada. Útil para acessar informações que podem ou não estar presentes em diferentes entradas de um banco de dados biológicos.

In [None]:
print(proteina_info)

nome = proteina_info.get("nome")
print(f"Nome da proteína: {nome}")

funcao = proteina_info.get("funcao", "Função desconhecida")
print(f"Função da proteína: {funcao}")

# Tentando acessar uma chave que não existe com get
localizacao = proteina_info.get("localizacao")
print(f"Localização da proteína: {localizacao}") # Retorna None

localizacao_com_padrao = proteina_info.get("localizacao", "Não especificada")
print(f"Localização da proteína: {localizacao_com_padrao}")

{'nome': 'Insulina', 'sequencia': 'MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN', 'funcao': 'Regulação do metabolismo da glicose', 'gene': 'INS'}
Nome da proteína: Insulina
Função da proteína: Regulação do metabolismo da glicose
Localização da proteína: None
Localização da proteína: Não especificada


* **`update(outro_dicionario)`**: Atualiza o dicionário com os pares chave-valor de outro dicionário. Se uma chave já existir, seu valor é atualizado; caso contrário, um novo par chave-valor é adicionado. Podemos usar isso para combinar informações de diferentes fontes de dados sobre a mesma entidade biológica.

In [None]:
outras_info = {"tamanho": "30 kDa", "organismo": "Homo sapiens"}
proteina_info.update(outras_info)
print(f"Dicionário atualizado: {proteina_info}")

Dicionário atualizado: {'nome': 'Insulina', 'sequencia': 'MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN', 'funcao': 'Regulação do metabolismo da glicose', 'gene': 'INS', 'tamanho': '30 kDa', 'organismo': 'Homo sapiens'}


* **`pop(chave, valor_padrao)`**: Remove e retorna o valor associado à chave. Se a chave não for encontrada, retorna o `valor_padrao` especificado (se fornecido) ou levanta um erro `KeyError`. Útil para processar informações e remover aquelas que já foram utilizadas ou que não são mais necessárias.

In [None]:
gene_removido = proteina_info.pop("gene")
print(f"Gene removido: {gene_removido}")
print(f"Dicionário após pop: {proteina_info}")

# Tentando usar pop com uma chave que não existe sem valor padrão (causará erro)
# proteina_info.pop("localizacao")

localizacao_removida = proteina_info.pop("localizacao", "Não encontrado")
print(f"Localização removida (com padrão): {localizacao_removida}")
print(f"Dicionário após pop com padrão: {proteina_info}")

Gene removido: INS
Dicionário após pop: {'nome': 'Insulina', 'sequencia': 'MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN', 'funcao': 'Regulação do metabolismo da glicose', 'tamanho': '30 kDa', 'organismo': 'Homo sapiens'}
Localização removida (com padrão): Não encontrado
Dicionário após pop com padrão: {'nome': 'Insulina', 'sequencia': 'MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN', 'funcao': 'Regulação do metabolismo da glicose', 'tamanho': '30 kDa', 'organismo': 'Homo sapiens'}


* **`popitem()`**: Remove e retorna um par (chave, valor) arbitrário do dicionário. É útil para remover itens um por um quando a ordem não importa. Em versões recentes do Python (3.7+), os itens são retornados na ordem em que foram inseridos (semelhante a um LIFO - Last In, First Out). Pode ser usado em cenários onde você precisa processar itens de um dicionário sequencialmente sem se preocupar com uma ordem específica.

In [None]:
item_removido = proteina_info.popitem()
print(f"Item removido: {item_removido}")
print(f"Dicionário após popitem: {proteina_info}")

Item removido: ('organismo', 'Homo sapiens')
Dicionário após popitem: {'nome': 'Insulina', 'sequencia': 'MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN', 'funcao': 'Regulação do metabolismo da glicose', 'tamanho': '30 kDa'}


* **`clear()`**: Remove todos os itens do dicionário, tornando-o vazio. Útil para limpar estruturas de dados após o uso, liberando memória.

In [None]:
proteina_info.clear()
print(f"Dicionário após clear: {proteina_info}")

Dicionário após clear: {}


# Estruturas condicionais

1. Introdução às Estruturas Condicionais: Explicar o conceito de tomada de decisão em programação e a importância das estruturas condicionais.

2. `if`, `else` e `elif` em Python: Detalhar a sintaxe e o funcionamento de cada uma dessas palavras-chave com exemplos simples.

3. Aplicações em Bioinformática: Mostrar como as estruturas condicionais podem ser usadas para resolver problemas práticos em biologia computacional.


Imagine que você está analisando sequências de DNA. Muitas vezes, você precisa **verificar se** uma determinada sequência começa com um códon específico (como 'ATG', que geralmente indica o início de um gene). Se a sequência começar com 'ATG', você pode querer realizar uma ação (como iniciar a tradução para proteína). Caso contrário, você pode ignorar essa sequência.

Em programação, as **estruturas condicionais** nos permitem fazer exatamente isso: executar diferentes blocos de código dependendo se uma determinada condição é verdadeira ou falsa. É como se o programa pudesse tomar decisões!

Pense nisso como um "`se`... `então`... `senão`..." da vida real. Por exemplo:

- Se estiver chovendo, então leve um guarda-chuva. Senão, não precisa.
- Se a temperatura estiver alta, então beba mais água. Senão, continue se hidratando normalmente.

Na programação, usamos estruturas condicionais para **controlar o fluxo do nosso programa**, permitindo que ele se adapte a diferentes situações e dados. Isso é crucial em bioinformática, onde lidamos com uma grande variedade de dados biológicos que precisam ser analisados de maneiras diferentes dependendo de suas características.

**Exemplo: Decisões em Sequências Genéticas**

Imagine que você está desenvolvendo um pequeno programa para analisar sequências genéticas. Para simplificar, vamos trabalhar com sequências de três letras (trincas de nucleotídeos). Algumas dessas trincas podem ser códons de parada, que sinalizam o fim de um gene. Vamos considerar que as trincas 'UAA', 'UAG' e 'UGA' são códons de parada.

Eu vou te dar algumas trincas de nucleotídeos. Para cada uma, você deve me dizer qual ação o seu programa tomaria, usando a lógica condicional. A lógica seria:

- Se a trinca for um códon de parada ('UAA', 'UAG' ou 'UGA'), então o programa deve imprimir "Fim da tradução!".
- Senão, o programa deve imprimir "A sequência continua...".
Pronto para começar?

In [None]:
stop_codons = {'UAA', 'UAG', 'UGA'}

codon = 'UGA'

if codon in stop_codons:
    print("Fim da tradução!")
else:
    print("A sequência continua...")

Fim da tradução!


**Exercício 1: Verificação de Sítio de Restrição**

Dada uma sequência de DNA, determine se ela contém o sítio de restrição 'GAATTC'.

- Se contiver, imprima "Sítio de restrição encontrado!". - Caso contrário, imprima "Sítio de restrição não encontrado.".

In [None]:
sequencia_dna = "AATTAGAGCCCGATGGGCACCGGTGC"
sito_restricao = "TTGAC"

if sito_restricao in sequencia_dna:
  print("Sítio de restrição encontrado!")
else:
  print("Sítio de restrição não encontrado.")

Sítio de restrição não encontrado.


**Exercício 2: Verificação de Qualidade de Leitura de Sequenciamento**

Dada uma pontuação de qualidade de uma leitura de sequenciamento (um valor numérico), determine se a leitura é de alta qualidade (pontuação >= 30), qualidade média (20 <= pontuação < 30) ou baixa qualidade (pontuação < 20).

In [None]:
pontuacao_qualidade = 35

if pontuacao_qualidade >= 30:
  qualidade = "alta"
#elif pontuacao_qualidade >=20 and pontuacao_qualidade < 30:
#elif 20 <= pontuacao_qualidade < 30:
elif pontuacao_qualidade >=20:
  qualidade = "média"
else:
  qualidade = "baixa"

print(f"A qualidade da leitura é: {qualidade}")

A qualidade da leitura é: alta


**Exercício 3: Identificação de Domínios Proteicos com Sobreposição**

Você tem informações sobre as posições de dois domínios proteicos em uma sequência de aminoácidos. Cada domínio é definido por um intervalo inicial e final (inclusive). Determine se esses dois domínios se sobrepõem.

- Se houver sobreposição, imprima "Os domínios se sobrepõem.";
- Caso contrário, imprima "Os domínios não se sobrepõem.".

In [None]:
inicio1 = 10
fim1 = 25
inicio2 = 20
fim2 = 30

if inicio1 <= fim2 and inicio2 <= fim1:
  print("Os domínios se sobrepõem.")
else:
  print("Os domínios não se sobrepõem.")

Os domínios se sobrepõem.


**Exercício 4: Análise de Variações Genéticas (SNPs)**

Você tem um banco de dados simples de SNPs (*Single Nucleotide Polymorphisms*) em um determinado gene.

Para cada SNP, você tem a posição e os alelos (a base original e a base variante).

Dada uma posição e uma base de referência, determine se existe um SNP nessa posição e, se existir, qual é a base variante.

In [None]:
snps = {
  100: {'ref': 'G', 'alt': 'A'},
  150: {'ref': 'C', 'alt': 'T'},
  200: {'ref': 'A', 'alt': 'G'}
}

posicao_alvo = 150
base_referencia = 'C'

In [None]:
if posicao_alvo in snps:
  if snps[posicao_alvo]['ref'] == base_referencia:
    base_variante = snps[posicao_alvo]['alt']
    print(f"Na posição {posicao_alvo}, existe um SNP com base variante '{base_variante}'.")
  else:
    print(f"Na posição {posicao_alvo}, existe um SNP, mas a base de referência esperada ('{base_referencia}') não corresponde à encontrada ('{snps[posicao_alvo]['ref']}').")
else:
  print(f"Não foi encontrado nenhum SNP na posição {posicao_alvo}.")

Na posição 150, existe um SNP com base variante 'T'.


**Exercício 5: Filtragem de Sequências com Base no Conteúdo de GC**

Dada uma sequência de DNA, determine se o seu conteúdo de GC (a porcentagem de guanina 'G' e citosina 'C') está dentro de uma faixa aceitável (por exemplo, entre 40% e 60%, inclusive).

In [None]:
sequencia_dna = "AGGGATTAGGCACCACCGATTGTATTGAACAGTGAC"

gc = sequencia_dna.count('G') + sequencia_dna.count('C')
conteudo_gc = (gc / len(sequencia_dna)) * 100

limite_inferior = 40
limite_superior = 60

if limite_inferior <= conteudo_gc <= limite_superior:
  print(f"O conteúdo de GC ({conteudo_gc:.2f}%) está dentro da faixa aceitável.")
else:
  print(f"O conteúdo de GC ({conteudo_gc:.2f}%) está fora da faixa aceitável.")

O conteúdo de GC (47.22%) está dentro da faixa aceitável.


**Exercício 6: Identificação de Genes com Múltiplos Critérios**

Você está analisando anotações de genes. Para ser considerado um "gene candidato de alta prioridade", ele deve satisfazer todas as seguintes condições:

1. Seu comprimento deve ser maior que 1000 bases.
2. Deve conter o motivo 'TATA' na região promotora (vamos simplificar e dizer que os primeiros 200 bases da sequência representam a região promotora).
3. Não deve ter nenhuma anotação indicando "pseudogene".
Dada a sequência do gene, seu comprimento e suas anotações, determine se ele é um "gene candidato de alta prioridade".

In [None]:
sequencia_gene = "ATGCGTAGCTAGCATCG"
comprimento_gene = len(sequencia_gene)
regiao_promotora = sequencia_gene[:200]
anotacoes = ["proteina_estrutural", "fator_de_transcricao"]
#anotacoes = ["proteina_estrutural", "fator_de_transcricao", "pseudogene"]

if comprimento_gene > 1000 and 'TATA' in regiao_promotora \
and 'pseudogene' not in anotacoes:
  print("Este gene é um candidato de alta prioridade.")
else:
  print("Este gene não atende a todos os critérios de alta prioridade.")

Este gene não atende a todos os critérios de alta prioridade.


**Exercício 7: Filtragem de Proteínas por Tamanho e Presença de Domínio Específico**

Você tem uma lista de proteínas e cada proteína é representada por:
- seu nome,
- comprimento (em aminoácidos)
- uma lista de domínios funcionais identificados.

Você quer filtrar as proteínas que atendam a um dos seguintes critérios:

1. Seu comprimento é maior que 500 aminoácidos e contém o domínio 'Kinase'.
2. Seu comprimento é menor que 200 aminoácidos ou contém o domínio 'Ligase'.

In [None]:
proteina = {'nome': 'ProteinaA', 'comprimento': 600, 'dominios': ['Kinase', 'ATPase']}

In [None]:
if (proteina['comprimento'] > 500 and 'Kinase' in proteina['dominios']) \
or (proteina['comprimento'] < 200 or 'Ligase' in proteina['dominios']):
  print(f"A proteína '{proteina['nome']}' passou no filtro.")
else:
  print(f"A proteína '{proteina['nome']}' não passou no filtro.")

A proteína 'ProteinaA' passou no filtro.


In [None]:
import math

p1 = (1, 2, 3)
p2 = (1, 2, 3)

deltaX = p2[0] - p1[0]
deltaY = p2[1] - p1[1]
deltaZ = p2[2] - p1[2]

distancia = math.sqrt(deltaX**2 + deltaY**2 + deltaZ**2)
print(distancia)

0.0


In [None]:
#Gere um código python para cálculo da distância euclideana entre dois pontos p1 e p1


**Exercício 9: Análise de Sequências de DNA em Busca de Padrões Aninhados**

Dada uma sequência de DNA, você quer verificar se ela contém um padrão específico e outro nas proximidades.

Especificamente, você quer saber se a sequência contém 'GATC' e, se contiver, verificar se existe a subsequência 'AT' até 3 nucletídeos para a esquerda ou direita.

In [None]:
#sequencia_dna = "AGCTAGATCGATTCCGATC"
sequencia_dna = "AGCTAGATCATTTCCGATC"

if 'GATC' in sequencia_dna:
  indice_gatc = sequencia_dna.find('GATC')
  print(indice_gatc)
  # Vamos verificar uma pequena janela ao redor de 'GATC'
  janela_analise = sequencia_dna[indice_gatc-3:indice_gatc+len('GATC')+3]
  print(janela_analise)
  #print(janela_analise)
  if 'AT' in janela_analise:
    print("A sequência contém 'GATC' e 'AT' está presente em sua proximidade.")
  else:
    print("A sequência contém 'GATC', mas 'AT' não foi encontrado em sua proximidade.")
else:
  print("A sequência não contém 'GATC'.")

5
CTAGATCATT
A sequência contém 'GATC' e 'AT' está presente em sua proximidade.


**Exercício 10: Classificação de Vírus com Base em Tipo de Genoma e Envoltório**

Você tem informações sobre diferentes tipos de vírus, incluindo o tipo de material genético ('DNA' ou 'RNA') e se eles possuem um envoltório lipídico ('sim' ou 'não'). Classifique os vírus nas seguintes categorias:

1. Vírus de DNA envelopados.
2. Vírus de RNA não envelopados.
3. Outros vírus.

In [None]:
tipo_genoma = 'DNA'
envelopado = 'sim'

#tipo_genoma = 'RNA'
#envelopado = 'não'

if tipo_genoma == 'DNA':
  if envelopado == 'sim':
    categoria = "Vírus de DNA envelopados"
  else:
    categoria = "Outros vírus" # Poderia ser uma categoria mais específica
elif tipo_genoma == 'RNA':
  if envelopado == 'não':
    categoria = "Vírus de RNA não envelopados"
  else:
    categoria = "Outros vírus" # Poderia ser uma categoria mais específica
else:
  categoria = "Tipo de genoma desconhecido"

print(f"A categoria do vírus é: {categoria}")

A categoria do vírus é: Vírus de DNA envelopados


**Exercício 11: Tomada de Decisão em um Pipeline de Análise de Sequenciamento de Nova Geração (NGS)**

Em um pipeline de análise de NGS, após o alinhamento das leituras ao genoma de referência, você precisa decidir qual ferramenta de chamada de variantes (*variant calling*) usar com base na profundidade de cobertura média.

- Se a profundidade média for maior ou igual a 30x, use a ferramenta 'GATK'.
- Se a profundidade média estiver entre 15x e 29x (inclusive), use a ferramenta 'FreeBayes'.
- Se a profundidade média for menor que 15x, imprima uma mensagem de alerta indicando baixa cobertura.

In [None]:
profundidade_media = 25

if profundidade_media >= 30:
    ferramenta = 'GATK'
    print(f"Profundidade de cobertura: {profundidade_media}x. Usando a ferramenta: {ferramenta}")
elif 15 <= profundidade_media <= 29:
    ferramenta = 'FreeBayes'
    print(f"Profundidade de cobertura: {profundidade_media}x. Usando a ferramenta: {ferramenta}")
else:
    print(f"Alerta: Baixa profundidade de cobertura ({profundidade_media}x). Considere revisar os dados.")

Profundidade de cobertura: 25x. Usando a ferramenta: FreeBayes


Em Python, não existe uma declaração **switch** diretamente como em algumas outras linguagens de programação (como C++, Java, etc.).

No entanto, Python oferece outras maneiras de implementar a mesma lógica de um switch de forma clara e eficiente. As formas mais comuns são usando a estrutura `if-elif-else` que já estamos praticando, ou utilizando dicionários para mapear valores a ações (o que pode ser muito elegante em certos casos).

- Usando `if-elif-else (a maneira mais comum)`:

Como vimos nos exercícios, a cadeia `if-elif-else` permite verificar múltiplas condições em sequência. Essa é a forma mais idiomática e geralmente a mais legível para implementar lógica de "escolha múltipla" em Python.

In [None]:
tipo_rna = "mRNA"

if tipo_rna == "mRNA":
  print("RNA mensageiro")
elif tipo_rna == "tRNA":
  print("RNA transportador")
elif tipo_rna == "rRNA":
  print("RNA ribossômico")
else:
  print("Tipo de RNA desconhecido")

RNA mensageiro


In [None]:
tipo_rna = "mRNA"

match tipo_rna:
  case "mRNA":
    print("RNA mensageiro")
  case "tRNA":
    print("RNA transportador")
  case "rRNA":
    print("RNA ribossômico")
  case _:
    print("Tipo de RNA desconhecido")

RNA mensageiro


- Usando Dicionários (para casos mais específicos):

Quando você tem um valor que precisa ser comparado com várias opções e cada opção leva a uma ação específica (como uma função a ser chamada ou um valor a ser retornado), um dicionário pode ser uma alternativa interessante e, às vezes, mais concisa.

In [None]:
def processar_mRNA():
  print("Processando mRNA...")

def processar_tRNA():
  print("Processando tRNA...")

def processar_rRNA():
  print("Processando rRNA...")

processadores_rna = {
  "mRNA": processar_mRNA,
  "tRNA": processar_tRNA,
  "rRNA": processar_rRNA
}

tipo_rna = "tRNA"

processador = processadores_rna.get(tipo_rna) # O .get() evita erros se a chave não existir
if processador:
  #print(processador)
  processador()
else:
  print("Tipo de RNA não reconhecido para processamento.")

Processando tRNA...


# Estruturas de repetição

Você está analisando uma longa sequência de DNA com milhares de nucleotídeos (A, T, C, G). Se você quisesse contar quantas vezes a base 'A' aparece nessa sequência, você poderia, teoricamente, verificar cada posição manualmente. Mas isso seria extremamente demorado e propenso a erros, concorda?

As **estruturas de repetição** são úteis neste contexto. Elas nos permitem automatizar essa tarefa, dizendo ao computador para percorrer cada elemento da sequência e verificar se ele corresponde à base 'A'. Isso não só economiza um tempo precioso na bioinformática, ao lidarmos com quantidades massivas de dados, mas também torna a análise muito mais precisa e eficiente.

**Outro exemplo:** pense em um experimento de expressão gênica onde você tem dados para milhares de genes em diferentes condições. Para encontrar os genes que são significativamente superexpressos em uma determinada condição, você precisaria comparar o nível de expressão de cada gene com um certo limiar. Uma estrutura de repetição permite que você faça essa comparação para todos os genes de forma rápida e automatizada.

Em resumo, as **estruturas de repetição** são ferramentas poderosas que nos permitem realizar **tarefas repetitivas** de maneira eficiente e precisa, o que é essencial para a análise de dados complexos. Sem elas, muitas das análises que fazemos hoje seriam praticamente impossíveis de realizar em um tempo razoável.

**Definição:**
Em programação, uma **estrutura de repetição** (ou ***loop***) é um comando que permite executar um **bloco de código** repetidamente, até que uma determinada **condição** seja satisfeita. Pense nisso como dar uma instrução ao computador para fazer algo várias vezes sem que você precise escrever o mesmo código repetidamente.

**Laços Definidos**

Um **laço definido** é aquele em que o número de vezes que o bloco de código dentro do laço será executado é conhecido *antes* do laço começar. Em outras palavras, sabemos de antemão quantas iterações o laço fará.

**Características dos Laços Definidos:**

* O número de iterações é determinado antes do início do laço.
* Geralmente usados para percorrer coleções de itens.
* Em Python, o `for` (na iteração sobre sequências) é o principal exemplo.

**Laços Indefinidos (Indefinite Loops)**

Um **laço indefinido** é aquele em que o número de vezes que o bloco de código será executado não é conhecido *antes* do laço começar. A execução do laço continua até que uma determinada condição se torne falsa.

**Características dos Laços Indefinidos:**

* O número de iterações não é fixo e depende de uma condição.
* Continuam a executar até que uma condição específica seja atendida (ou não atendida).
* Em Python, o `while` loop é o principal exemplo.
* É crucial garantir que a condição do laço `while` eventualmente se torne falsa para evitar **laços infinitos**.

Em resumo, a principal diferença é se você sabe de antemão quantas vezes o laço vai rodar (definido) ou se a execução depende de uma condição que pode levar um número desconhecido de iterações para ser satisfeita (indefinido).

Em Python, existem principalmente dois tipos de estruturas de repetição:

- `for`: É usado para iterar sobre uma sequência (como uma lista, uma string ou um intervalo de números) ou outros objetos iteráveis. Ele executa o bloco de código para cada item da sequência. Você tem uma lista de sequências de proteínas e quer aplicar uma função a cada uma delas. O `for` é perfeito para isso, pois ele pega cada sequência da lista, uma por vez, e executa o código que você definiu.

- `while`: É usado para executar um bloco de código enquanto uma determinada condição for verdadeira. Ele continua repetindo o bloco de código até que a condição se torne falsa. Pense em um experimento de simulação onde você quer que ele continue rodando até que um certo número de passos seja alcançado ou até que uma determinada variável atinja um valor específico. O `while` loop é ideal para situações onde você não sabe de antemão quantas vezes o laço precisará ser executado.

A ideia central por trás das estruturas de repetição é a **iteração**. Iterar significa percorrer os elementos de uma coleção (no caso do `for`) ou repetir um processo (no caso do `while`).

No caso do `while`, é crucial ter uma **condição de parada**. Essa condição é uma expressão *booleana* (verdadeira ou falsa) que é verificada no início de cada iteração. Se a condição for falsa, o laço é encerrado e o programa continua a execução após o bloco de código do laço. Se você não definir uma condição de parada que eventualmente se torne falsa, você criará um **laço infinito**, que fará seu programa rodar para sempre (ou até ser interrompido manualmente).

No caso do `for`, a repetição acontece para cada elemento da sequência que você está iterando. O laço termina automaticamente quando todos os elementos da sequência foram processados.

**Sintaxe**

**1. `for`:**

A sintaxe básica do `for` em Python é a seguinte:

In [None]:
for elemento in sequencia:
    # Bloco de código a ser executado para cada elemento
    # Você pode usar a variável 'elemento' dentro deste bloco

* **`for`:** Palavra-chave que indica o início do loop `for`.
* **`elemento`:** Uma variável que assume o valor de cada item na `sequencia` durante cada iteração do laço. Você pode escolher qualquer nome significativo para essa variável.
* **`in`:** Palavra-chave que indica que estamos iterando sobre os elementos da `sequencia`.
* **`sequencia`:** Pode ser uma lista, uma string, uma tupla, um dicionário (iterando sobre as chaves por padrão), um conjunto ou qualquer outro objeto iterável.
* **`:`:** Indica o fim da linha de cabeçalho do laço.
* **Bloco de código indentado:** As instruções que serão executadas repetidamente para cada `elemento` na `sequencia`. A indentação (geralmente 4 espaços ou um tab) é crucial em Python para definir o bloco de código pertencente ao laço.

**Exemplos de iteração com `for`:**

* **Iterando sobre uma lista de sequências de DNA:**

In [None]:
sequencias = ["ATGC", "CGTA", "TTTT"]
for seq in sequencias:
    print("Sequência:", seq)

Sequência: ATGC
Sequência: CGTA
Sequência: TTTT


* **Iterando sobre uma string (cada caractere):**

In [None]:
dna = "AGCT"
for base in dna:
    print("Base:", base)

Base: A
Base: G
Base: C
Base: T


* **Iterando sobre um dicionário (chaves):**

In [None]:
tamanhos = {"geneA": 1500, "geneB": 2200, "geneC": 950}
for gene in tamanhos:
    print(t)
    print("Gene:", gene)
    print("Tamanho:", tamanhos[gene])

950
Gene: geneA
Tamanho: 1500
950
Gene: geneB
Tamanho: 2200
950
Gene: geneC
Tamanho: 950


In [None]:
tamanhos = {"geneA": 1500, "geneB": 2200, "geneC": 950}
for c,v in tamanhos.items():
    print(c,v)


geneA 1500
geneB 2200
geneC 950


* **Usando a função `range()` para iterar sobre um intervalo de números:**

In [None]:
for i in range(5):  # Itera de 0 a 4
    print("Número:", i)
print()

for i in range(2, 7):  # Itera de 2 a 6
    print("Número:", i)
print()

for i in range(0, 10, 2):  # Itera de 0 a 9 com passo de 2 (0, 2, 4, 6, 8)
    print("Número par:", i)

Número: 0
Número: 1
Número: 2
Número: 3
Número: 4

Número: 2
Número: 3
Número: 4
Número: 5
Número: 6

Número par: 0
Número par: 2
Número par: 4
Número par: 6
Número par: 8


**2. `while` loop:**

A sintaxe básica do `while` loop em Python é:

In [None]:
while condicao:
    # Bloco de código a ser executado enquanto a 'condicao' for True
    # É importante que algo dentro do bloco de código eventualmente
    # torne a 'condicao' False para evitar um loop infinito.

* **`while`:** Palavra-chave que indica o início do loop `while`.
* **`condicao`:** Uma expressão booleana que é avaliada no início de cada iteração. Se for `True`, o bloco de código é executado. Se for `False`, o loop termina.
* **`:`:** Indica o fim da linha de cabeçalho do loop.
* **Bloco de código indentado:** As instruções que serão executadas repetidamente enquanto a `condicao` for verdadeira. É crucial que este bloco contenha alguma lógica que eventualmente modifique as variáveis envolvidas na `condicao`, de modo que ela se torne `False` em algum ponto.

**Exemplo de iteração com `while`:**

In [None]:
contador = 0
while contador < 5:
    print("Contador:", contador)
    contador += 1  # Incrementa o contador para eventualmente tornar a condição False

Contador: 0
Contador: 1
Contador: 2
Contador: 3
Contador: 4


In [None]:
resposta = ""
while resposta != "sim":
    resposta = input("Você entendeu? (sim/não): ").lower()
print("Ótimo!")

Você entendeu? (sim/não): sim
Ótimo!


Aqui, o `while` continua pedindo a resposta do usuário até que ele digite "sim". O número de vezes que o laço roda é indefinido até que a condição seja satisfeita.

**3. `break` e `continue`:**

Dentro de um laço (`for` ou `while`), podemos usar as declarações `break` e `continue` para controlar o fluxo da execução:

* **`break`:** Termina imediatamente o loop e a execução continua na próxima instrução após o loop.

In [None]:
dna = "ATATGGACGGTAGCAGTGACXGTAGCAGTGAAATGACGCG"
for base in dna:
    if base not in {"A", "C", "T", "G"}:
        print(f"Encontrei um {base}! Abandonando o laço...")
        break
    print("Base:", base)

Base: A
Base: T
Base: A
Base: T
Base: G
Base: G
Base: A
Base: C
Base: G
Base: G
Base: T
Base: A
Base: G
Base: C
Base: A
Base: G
Base: T
Base: G
Base: A
Base: C
Encontrei um X! Abandonando o laço...


* **`continue`:** Interrompe a iteração atual do loop e passa para a próxima iteração. O código restante dentro do bloco do loop para a iteração atual é ignorado.

In [None]:
dna = "ATATGGACGGTAGCAGTGACXGTAGCAGTGAAATGACGCG"

for i, base in enumerate(dna):
    if base not in {"A", "C", "T", "G"}:
        print(f"Encontrei um {base}! Ignorando a base não padrão...")
        continue
    print("Base:", base, "Posição:", i+1)

Base: A Posição: 1
Base: T Posição: 2
Base: A Posição: 3
Base: T Posição: 4
Base: G Posição: 5
Base: G Posição: 6
Base: A Posição: 7
Base: C Posição: 8
Base: G Posição: 9
Base: G Posição: 10
Base: T Posição: 11
Base: A Posição: 12
Base: G Posição: 13
Base: C Posição: 14
Base: A Posição: 15
Base: G Posição: 16
Base: T Posição: 17
Base: G Posição: 18
Base: A Posição: 19
Base: C Posição: 20
Encontrei um X! Ignorando a base não padrão...
Base: G Posição: 22
Base: T Posição: 23
Base: A Posição: 24
Base: G Posição: 25
Base: C Posição: 26
Base: A Posição: 27
Base: G Posição: 28
Base: T Posição: 29
Base: G Posição: 30
Base: A Posição: 31
Base: A Posição: 32
Base: A Posição: 33
Base: T Posição: 34
Base: G Posição: 35
Base: A Posição: 36
Base: C Posição: 37
Base: G Posição: 38
Base: C Posição: 39
Base: G Posição: 40


Para cada uma das seguintes situações, diga se você usaria um `for` ou um `while` e explique brevemente o porquê:

1. Ler cada linha de um arquivo de dados genômicos que contém um número desconhecido de linhas.
2. Iterar sobre todos os genes em uma lista predefinida para verificar se eles pertencem a uma determinada via metabólica.
3. Simular a evolução de uma população de vírus até que ela atinja um determinado tamanho.

**Respostas**

**1. Ler cada linha de um arquivo de dados genômicos que contém um número desconhecido de linhas.**

- **Resposta**: `while`.
- **Justificativa**: Não sabemos de antemão quantas linhas o arquivo contém. Usamos um `while` que continua a ler as linhas até que o final do arquivo seja alcançado. A condição de parada seria algo como "enquanto ainda houver linhas para ler".

**2. Iterar sobre todos os genes em uma lista predefinida para verificar se eles pertencem a uma determinada via metabólica.**

- **Resposta**: `for`.
- **Justificativa**: Temos uma lista de genes, que é uma sequência bem definida.

**3. Simular a evolução de uma população de vírus até que ela atinja um determinado tamanho.**

- **Resposta**: `while`.
- **Justificativa**: Não sabemos quantas etapas de simulação serão necessárias para que a população de vírus atinja o tamanho desejado. A condição de parada do `while` seria "enquanto o tamanho da população for menor que o tamanho alvo". O laço continuará a simulação até que essa condição se torne falsa.

**Exercícios**

**Exercício 1: Contagem de Nucleotídeos**

**Problema:** Dada uma sequência de DNA, escreva um código que conte a frequência de cada nucleotídeo (A, T, C, G).

**Solução:**

In [None]:
sequencia_dna = "AXTGCGTAGJKKKLC"
#contagem = {'A': 0, 'T': 0, 'C': 0, 'G': 0}
contagem = {}

for base in sequencia_dna:
    if base in contagem:
        contagem[base] += 1
    else:
        contagem[base] = 1

print("Contagem de nucleotídeos:", contagem)

Contagem de nucleotídeos: {'A': 2, 'X': 1, 'T': 2, 'G': 3, 'C': 2, 'J': 1, 'K': 3, 'L': 1}


**Exercício 2: Complemento Reverso de uma Sequência de DNA**

**Problema:** Dada uma sequência de DNA, escreva um código que retorne o seu complemento reverso. O complemento de 'A' é 'T', 'T' é 'A', 'C' é 'G' e 'G' é 'C'. O reverso é a sequência na ordem inversa.

**Solução:**

In [None]:
sequencia_dna = "ATGC"
complemento = {'A': 'T', 'T': 'A', 'C': 'G', 'G': 'C'}
complemento_reverso = ""

for base in sequencia_dna[::-1]:
    print(sequencia_dna[::-1],"|",complemento_reverso,"|",sep='')
    complemento_reverso += complemento[base]

print("Sequência original:", sequencia_dna)
print("Complemento reverso:", complemento_reverso)

CGTA||
CGTA|G|
CGTA|GC|
CGTA|GCA|
Sequência original: ATGC
Complemento reverso: GCAT


**Exercício 3: Filtrando Sequências de Proteínas por Tamanho**

**Problema:** Dada uma lista de sequências de proteínas e um tamanho mínimo, filtre a lista para incluir apenas as sequências que têm um comprimento maior ou igual ao tamanho mínimo.

**Solução:**

In [None]:
sequencias_proteinas = ["MVSA", "MKLLPV", "M", "MKKLL"]
tamanho_minimo = 4
tamanho_maximo = 50
sequencias_filtradas = []

for seq in sequencias_proteinas:
    if 5 <= len(seq) <= tamanho_maximo:
        sequencias_filtradas.append(seq)

print("Sequências de proteínas originais:", sequencias_proteinas)
print("Sequências filtradas (tamanho mínimo: ", tamanho_minimo, "):", sequencias_filtradas, sep="")

Sequências de proteínas originais: ['MVSA', 'MKLLPV', 'M', 'MKKLL']
Sequências filtradas (tamanho mínimo: 4):['MKLLPV', 'MKKLL']


**Exercício 4: Encontrando um Motivo em Sequências de DNA**

**Problema:** Dada uma sequência de DNA e um motivo (uma pequena sequência), escreva um código que diga se o motivo foi encontrado na sequência e, se sim, em qual posição (índice) da primeira ocorrência.

**Solução:**

In [None]:
sequencia_dna = "ATGCGTAGC"
motivo = "GC"
motivo_encontrado = False
posicao = -1

print(sequencia_dna)
for i in range(len(sequencia_dna) - len(motivo) + 1):
    subsequencia = sequencia_dna[i:i+len(motivo)]
    print(subsequencia)
    if subsequencia == motivo:
        motivo_encontrado = True
        posicao = i
        break  # Paramos no primeiro encontro

if motivo_encontrado:
    print(f"O motivo '{motivo}' foi encontrado na posição {posicao}.")
else:
    print(f"O motivo '{motivo}' não foi encontrado na sequência.")

ATGCGTAGC
AT
TG
GC
O motivo 'GC' foi encontrado na posição 2.


**Exercício 5: Comparando Duas Sequências de DNA**

**Problema:** Dadas duas sequências de DNA de mesmo comprimento, compare-as e conte quantos nucleotídeos são iguais na mesma posição.

**Solução:**

In [None]:
sequencia1 = "ATGC"
sequencia2 = "AAGC"
matches = 0

if len(sequencia1) == len(sequencia2):
    for i in range(len(sequencia1)):
        if sequencia1[i] == sequencia2[i]:
            matches += 1
    print(f"Número de matches entre '{sequencia1}' e '{sequencia2}': {matches}")
else:
    print("As sequências têm comprimentos diferentes e não podem ser comparadas diretamente.")

Número de matches entre 'ATGC' e 'AAGC': 3


**Exercício 6: Encontrando Genes com Alta Expressão**

**Problema:** Dada uma lista de valores de expressão gênica para diferentes genes em uma condição, identifique os genes que têm um nível de expressão acima de um certo limiar. Assuma que a ordem na lista corresponde à ordem dos genes (por exemplo, o primeiro valor é para o gene 1, o segundo para o gene 2, etc.).

**Solução:**

In [None]:
expressoes_genicas = [1.2, 3.5, 0.8, 4.1, 2.9]
limiar = 3.0
genes_altamente_expressos = []

for i in range(len(expressoes_genicas)):
    if expressoes_genicas[i] > limiar:
        numero_gene = i + 1  # Adicionamos 1 porque os índices começam em 0
        genes_altamente_expressos.append(numero_gene)

if genes_altamente_expressos:
    print(f"Genes com expressão acima de {limiar}: {genes_altamente_expressos}")
else:
    print(f"Nenhum gene teve expressão acima de {limiar}.")

Genes com expressão acima de 3.0: [2, 4]
