# README

Este projeto implementa um algoritmo de compressão de dados utilizando o Run-Length Encoding (RLE). O objetivo é comprimir sequências de nucleotídeos a partir de um arquivo de texto e gerar um arquivo comprimido, além de fornecer um relatório detalhado sobre o processo de compressão.

### Pré-requisitos

Antes de executar o programa, você precisará garantir que os seguintes requisitos estejam instalados e configurados:

- Java 11 ou superior: O projeto foi desenvolvido em Java e requer o JDK 11 ou uma versão mais recente para compilação e execução.
- Maven: Usado para gerenciamento de dependências e construção do projeto (se você quiser construir o projeto a partir do código-fonte).

### Instalação

1. Clonando o Repositório
Se você ainda não tem o repositório em sua máquina, pode cloná-lo usando o comando:
```
git clone https://github.com/gabitrevisan/java-cp1-2sem.git
```
```
cd libunclepresser
```


### Executando o Programa

Após ter o arquivo JAR pronto (ou se você já tiver um arquivo JAR pronto), você pode executar o programa a partir da linha de comando, fornecendo os caminhos para os arquivos de entrada e saída como argumentos.

1. Sintaxe para Execução
```
java -jar <caminho/para/jar/file> <caminho/para/entrada> <caminho/para/saida>
```

2. Exemplo de Execução
> Coloque o arquivo de entrada (um arquivo .txt contendo a sequência de nucleotídeos) na pasta inputs ou em qualquer outro diretório de sua escolha.
> Exemplo de arquivo de entrada (input.txt):
```
AAAACCCTTG
```

3. Para executar o programa, use o comando abaixo. O arquivo input.txt será lido, a compressão será realizada e o arquivo comprimido será gerado no arquivo de saída output.txt.
```
java -jar target/libunclepresser-1.0-SNAPSHOT.jar inputs/input.txt outputs/output.txt
```

> Neste exemplo:
>> inputs/input.txt: Caminho para o arquivo de entrada contendo a sequência de nucleotídeos.
>> outputs/output.txt: Caminho para o arquivo de saída, onde os dados comprimidos serão salvos.






### Formato de Entrada
O arquivo de entrada deve ser um arquivo de texto com extensão .txt.
O conteúdo do arquivo deve ser uma sequência de nucleotídeos (A, C, G, T), podendo ter quebras de linha, mas o programa irá ignorá-las.

### Formato de Saída
O arquivo de saída será um arquivo .txt com a sequência comprimida no formato Run-Length Encoding (RLE), onde sequências repetidas de caracteres são representadas pelo caractere seguido pela quantidade de repetições.

> Exemplo de saída para a entrada "AAAACCCTTG":
```
A4C3T2G1
```



### Relatório de Compressão
Após a execução, o programa gera um relatório com informações detalhadas sobre o processo de compressão, como:

Tamanho do arquivo de entrada.
Frequência de cada caractere (nucleotídeo).
Tamanho do arquivo comprimido.
Taxa de compressão.
O relatório será exibido no terminal, contendo os seguintes detalhes:
```
 -----------------------------------------------------------
| INPUT  FILENAME: input.txt                                 |
| OUTPUT FILENAME: output.txt                                |
|                                                           |
| INPUT FILE SIZE: 1024KB                                   |
| TOTAL INPUT CHARACTERS: 1.048.576                         |
|                                                           |
| FREQUENCIES:                                              |
| A: 262_144.0  (25.00%)                                    |
| C: 524_288.0  (50.00%)                                    |
| T: 131_072.0  (12.50%)                                    |
| G: 131_072.0  (12.50%)                                    |
|                                                           |
| OPTIONS:                                                  |
|                                                           |
| ALGORITHM: Run-Length Encoding (RLE)                      |
| TEXT-CODIFICATION: UTF-8                                  |
| COMPRESSION RATE: ~70%                                    |
|                                                           |
| OUTPUT FILE SIZE: 314,572.8 BYTES                         |
 -----------------------------------------------------------
| SCORE: WELL-DONE                                          |
 -----------------------------------------------------------
```


### FileHandler.java

Esta classe gerencia as operações de leitura e escrita de arquivos. Ela usa a API de arquivos do Java (java.nio.file) para ler o conteúdo do arquivo de entrada e escrever os dados comprimidos no arquivo de saída.

```
public class FileHandler {
    public static String readFile(String filePath) throws IOException {
        return new String(Files.readAllBytes(Paths.get(filePath)), "UTF-8").replaceAll("\\s+", "");
    }

    public static void writeFile(String filePath, String data) throws IOException {
        Files.write(Paths.get(filePath), data.getBytes("UTF-8"));
    }
}
```

### Testes Automatizados
O projeto inclui testes automatizados para validar a implementação do algoritmo RLE. Você pode executar os testes usando o framework JUnit.

> Executando os Testes
Para rodar os testes automatizados, use o seguinte comando Maven:
```
mvn test
```
> Os testes irão verificar se a compressão de sequências de nucleotídeos está funcionando corretamente.



### Considerações Finais
Run-Length Encoding (RLE) é um algoritmo de compressão simples e eficiente para dados com muitas repetições. No entanto, ele não é ideal para dados sem repetições, pois pode até aumentar o tamanho do arquivo.

O sistema permite a compressão de arquivos grandes de até 1024KB e pode ser adaptado para outros tipos de dados.