# Pré-processamento


- Facilita o posterior uso de algoritmos de aprendizado de máquina;
- Adequa os dados para serem consumidos pela técnica escolhida;
- Ajuda a obter modelos mais fiéis à distribuição dos dados;
- Melhora a qualidade dos modelos;
- Reduz a complexidade de tempo e custo;
- Torna mais fáceis e rápidos ajustes de parâmetros;
- Facilita a interpretação dos padrões extraídos;
- Visa minimizar ou eliminar qualquer problema que o conjunto possa ter;

O pré-processamento é um tópico que necessita de ser aprofundado à parte. Aqui se encontra o maior gargalo dentro dos projetos de aprendizado de máquina.

Nesse exemplo abaixo, temos uma quantidade pequena de registros para uma apresentação, Porém, nem sempre é assim que os cojuntos estão. Muitas vezes é possível ter um número altíssimo de registros.

Para uma quantidade imensa de dados, é preciso ter inteligência quando os mesmos forem passados para o treino, pois o desempenho dos algoritmos de aprendizado de máquina é afetado pela qualidade dos dados impostos.

**Exemplo:** O nome e o id de cada paciente de nada influencia o resultado do seu diagnóstico. Assim, os mesmos podem ser ignorados tanto pelo motivo de economizar espaço e ganhar velocidade quanto para não gerar correlações erradas (como descobrir que 90% dos Joãos podem estar doentes, mesmo sabendo que adoecer não tem uma influência direta do nome do paciente).

![limpeza](./images/limpeza.png)

Dados faltantes podem se tornar um outro problema quando o assunto é treino. Existem algumas maneiras de burlar problemas do tipo, onde os mesmo serão citados nesse notebook.

Recapitulando sobre conjunto de dados: "os conjuntos podem diferir entre características, dimensões e formatos:
   - Pode ser composto por números o símbolos;
   - Pode ou não conter ruídos, erros, inconsistências, duplicações e dados ausentes;
   - Pode ter atributos que podem ou não se relacionar;
   - Pode ser comprido (muitas colunas, atributos) ou largo (muitas amostras)."

## Grupos de tarefas

Existem algumas tarefas que são categorizadas como pré-processamento. Não necessariamente precisam seguir a ordem dos tópicos durante a aplicação, mas são importantes como um checklist antes de enviar os dados para o algoritmo:

### Eliminação manual de atributos

Excluir colunas que não são importantes para a solução do problema. Algumas dessas colunas podem parecer óbvias, porém outras podem enganar parecendo ser importantes mas que não alteram o resultado final. Existem técnicas para seleção de atributos que auxiliam na identificação dessas.
- **Exemplo:** O nome e ID dos pacientes de nada interfere no diagnostico do mesmo.

### Integração de dados

Os dados necessários para solucionar o problema podem estar em fontes de dados diferentes. Isso pode trazer inconsistências e rendundâncias;
- **Exemplo:** A coluna com o estado onde mora o paciente é necessária para verificar um surto de alguma doença dentro de uma região, mas o banco de dados do hospital apenas continha os dados referentes aos sintomas. Um segundo banco de dados foi necessário ser cruzado com o primeiro para adquirir tais informações, mas com ela foi possível descobrir que um paciente foi duplicado. Essa integração é feita sempre partindo de um dos valor em comum entre os dois bancos.

### Amostragem de dados e redução de dimensionalidade

Os algoritmos de aprendizado de máquina podem ter dificuldade para lidar com uma grande quantidade de dados (conjuntos *wide* ou *long*). Pode surgir problemas com uso excessivo de memória e custo computacional alto para ajustar parâmetros do modelo (claro que quanto mais dados, melhor pode ser a acurácia do modelo, por isso, é necessário a busca entre um meio eficiente e acurado). 

A amostragem de dados resultante deve ser representativa (ou seja, ter valores próximos aos dados originais, fornecer estimativas que refletem a população original e seu uso deve permitir a conclusão do todo a partir de uma parte).

#### Técnicas de amostragem

- **Amostragem aleatória simples:**  Com ou sem reposição de exemplos;
- **Amostragem estratificada:** Mantém o mesmo número de objetos de cada classe ou mantém proporcional aos dados originais. Usado quando as classes têm números de objetos diferentes;
- **Amostragem progressiva** Usa uma amostra pequena que cresce enquanto a acurácia preditiva continuar melhorando.

### Balanceamento de dados

Um conjunto de dados desbalanceado pode trazer inconsistências para o modelo final.
- **Exemplo:** A base de dados do hospital possui 3/4 de amostras saudáveis e apenas 1/4 de amostras doentes.

### Limpeza de dados

Remoção de dados ruidosos, faltantes, inconsistentes e redundantes.
- **Exemplo:** Na tabela dos pacientes, um deles não possui o peso.

### Transformação de dados

Os dados nem sempre chegam em um formato próprio para consumo do algoritmo. Assim, é necessário alguns ajustes para sanar esse problema.
- **Exemplo:** Transformar dados categóricos para numéricos, discretizar valores, normalização, etc. 

``` diff
- CONTINUA
```

## Referências

- Apresentações de:
    - Prof. Dr. André C. P. L. F. Carvalho