# Projeto de Bioinformática


Este projeto foi criado para explorar análises de dados genéticos em arquivos no formato FASTA, um tipo de arquivo que guarda sequências de DNA de forma simples e fácil de ler. No formato FASTA, cada sequência começa com uma linha de descrição (iniciada com ">") que identifica a sequência, seguida por linhas com a própria sequência biológica, quebradas em blocos para facilitar a leitura.

O objetivo dessa atividade é resolver algumas tarefas básicas de bioinformática de forma eficiente usando programação paralela com MPI (para dividir o trabalho entre diferentes processos) e OpenMP (para dividir tarefas entre threads). Com essas técnicas, foi possível processar grandes arquivos mais rápido e explorar a performance em sistemas multicore.

## Obtenção dos dados

Os dados utilizados neste projeto correspondem às sequências do genoma humano. Para obtê-los, siga os passos abaixo:

Utilize o comando wget para baixar os arquivos comprimidos:
wget "ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/snp147Mask/chrX.subst.fa.gz"

Após o download, descompacte os arquivos utilizando o comando gunzip: "g"unzip chrX.subst.fa.gz"


## Processamento dos dados

Para realizar as análises, as sequências de DNA precisam ser padronizadas e limpas. O script process_genomes.sh cuida dessa tarefa automaticamente, garantindo que os dados estejam no formato ideal para os exercícios subsequentes. O processamento inclui:

Converter para Maiúsculas: Todas as letras nas sequências são convertidas para maiúsculas. Isso é necessário para manter um padrão, pois as letras podem aparecer em maiúsculas ou minúsculas dependendo da fonte dos dados. Padronizar facilita a contagem de bases e outras operações.

Remoção de Caracteres Indesejados: O script também elimina caracteres que não são bases de DNA (A, T, C, G), como o caractere N, que normalmente representa partes desconhecidas ou ambíguas da sequência. Outros caracteres não-biológicos também são removidos, deixando apenas as bases relevantes para análise.

Estrutura dos Diretórios:

Os arquivos originais dos cromossomos estão no diretório PreProcessamento.
Após o processamento, os arquivos limpos são salvos no diretório PosProcessamento, prontos para uso nos exercícios.

## Sobre as Tarefas
O projeto está dividido em uma série de exercícios que devem ser realizados na ordem apresentada, pois cada etapa viabiliza a próxima. 

#### Todos os códigos ficaram na pasta PosProcessamento porque eu estava tendo problema para acessar os arquivos pelo .slurm

## Exercício 1
Descrição: Implemente um programa paralelo que conte o número de ocorrências de
cada base (A, T, C, G) em uma grande cadeia de DNA.
- MPI: Divida a cadeia entre processos diferentes e agregue os resultados ao final.
Como dividir? Parte dos dados? Uma porção dos arquivos por máquina?
- OpenMP: Use paralelização em laços para distribuir a contagem entre threads.
Como consolidar a contagem? Um dicionário? Um array? Variáveis soltas?

Para executar o exercício 1 foi necessário:
- compilar o exercício 1 com o seguinte comando: "mpicxx -fopenmp -o exercicio1 Exercicio1.cpp"

- submeter o job ao cluster com o comando: "sbatch Exercicio1.slurm"

### Resultado do Exercício 1:
Contagem total de bases:

A: 763517118

C: 511685713

G: 511971484

T: 764606176


## Exercício 2
Descrição: 
Desenvolva um programa que converta sequências de DNA em RNA. Lembre-se de que na transcrição, a base T (Timina) é substituída pela base U (Uracila).

- MPI: Distribua a conversão entre diferentes processos e una as partes convertidas. Avalie a possibilidade de salvar o RNA em arquivos separados. É possível ignorar partes dos dados para otimizar o processo?
- OpenMP: Paralelize a substituição dentro de loops, dividindo as tarefas entre threads.

Para executar o exercício 2 foi necessário:
- compilar o exercício 2 com o seguinte comando: "mpicxx -fopenmp -o exercicio2 Exercicio2.cpp"

- submeter o job ao cluster com o comando: "sbatch Exercicio2.slurm"

 


### Resultado do Exercício 2:
Após a execução, os arquivos RNA devem ser gerados com o sufixo _processed.rna.fa no diretório PosProcessamento.

## Exercício 3
Descrição: Desenvolva um programa que conte o número de proteínas que começam com o códon de início AUG em sequências de RNA. A contagem deve identificar o início das sequências de proteínas, facilitando a análise genética.

- MPI: Distribua a busca e contagem do códon AUG entre processos e agregue o resultado final. Considere salvar resultados intermediários em arquivos separados, se necessário.
- OpenMP: Paralelize a busca por AUG dentro de loops, dividindo a tarefa entre threads para agilizar a contagem.

Para executar o exercício 3 foi necessário:
- Compilar o programa com o comando: "mpicxx -fopenmp -o exercicio3 Exercicio3.cpp"

- Submeter o job ao cluster com o comando: "sbatch Exercicio3.slurm"



### Resultado do Exercício 3:
Processo 3 concluiu a contagem no cromossomo 4

Processo 0 concluiu a contagem no cromossomo 1

Processo 2 concluiu a contagem no cromossomo 3

Processo 1 concluiu a contagem no cromossomo 2

Processo 3 concluiu a contagem no cromossomo 8

Processo 0 concluiu a contagem no cromossomo 5

Processo 2 concluiu a contagem no cromossomo 7

Processo 3 concluiu a contagem no cromossomo 12

Processo 1 concluiu a contagem no cromossomo 6

Processo 0 concluiu a contagem no cromossomo 9

Processo 3 concluiu a contagem no cromossomo 16

Processo 2 concluiu a contagem no cromossomo 11

Processo 3 concluiu a contagem no cromossomo 20

Processo 0 concluiu a contagem no cromossomo 13

Processo 1 concluiu a contagem no cromossomo 10

Processo 2 concluiu a contagem no cromossomo 15

Processo 0 concluiu a contagem no cromossomo 17

Processo 0 concluiu a contagem no cromossomo 21

Processo 2 concluiu a contagem no cromossomo 19

Processo 1 concluiu a contagem no cromossomo 14

Processo 1 concluiu a contagem no cromossomo 18

Processo 1 concluiu a contagem no cromossomo 22

Número total de proteínas inicializadas (códons 'AUG'): 43682434


## Exercício 4
Descrição: Desenvolva um programa que conte as ocorrências de diferentes aminoácidos em sequências de RNA. O programa deve traduzir os códons correspondentes e manter uma contagem de cada aminoácido, exceto ao encontrar o códon STOP.

- MPI: Divida a tarefa de leitura e tradução entre processos e, ao final, agregue as contagens. Considere salvar as contagens intermediárias para otimizar a execução.
- OpenMP: Paralelize a tradução dos códons dentro dos loops, permitindo que cada thread conte as ocorrências dos aminoácidos.

Para executar o exercício 4 foi necessário:

- Compilar o programa com o comando: mpicxx -fopenmp -o exercicio4 Exercicio4.cpp
- Submeter o job ao cluster com o comando: sbatch Exercicio4.slurm



### Resultado do Exercício 4:


Processo 3 concluiu a contagem no cromossomo 4

Processo 0 concluiu a contagem no cromossomo 1

Processo 2 concluiu a contagem no cromossomo 3

Processo 1 concluiu a contagem no cromossomo 2

Processo 3 concluiu a contagem no cromossomo 8

Processo 0 concluiu a contagem no cromossomo 5

Processo 2 concluiu a contagem no cromossomo 7

Processo 3 concluiu a contagem no cromossomo 12

Processo 1 concluiu a contagem no cromossomo 6

Processo 0 concluiu a contagem no cromossomo 9

Processo 3 concluiu a contagem no cromossomo 16

Processo 2 concluiu a contagem no cromossomo 11

Processo 3 concluiu a contagem no cromossomo 20

Processo 0 concluiu a contagem no cromossomo 13

Processo 1 concluiu a contagem no cromossomo 10

Processo 2 concluiu a contagem no cromossomo 15

Processo 0 concluiu a contagem no cromossomo 17

Processo 0 concluiu a contagem no cromossomo 21

Processo 2 concluiu a contagem no cromossomo 19

Processo 1 concluiu a contagem no cromossomo 14

Processo 1 concluiu a contagem no cromossomo 18

Processo 1 concluiu a contagem no cromossomo 22


Contagem total de aminoácidos antes do códon STOP:

Cisteína: 19256862

Glutamina: 21194944

Metionina: 39774729

Prolina: 25661140

Serina: 31599843

Treonina: 25681318

Valina: 28073053
