# Manipulação de Dados

Após a aquisição dos dados, geralmente há muito esforço envolvido na manipulação destes para o facilitar/melhorar o processamento.

## Numpy

O [Numpy](https://numpy.org/) fornece [ferramentas eficientes](https://medium.com/ensina-ai/entendendo-a-biblioteca-numpy-4858fde63355) para manipulação em memória de dados. Isso é feito pela "reestruturação" da forma como os vetores multidimensionais são tratados.

In [9]:
num_items = 1000

python_array = range(num_items)
%timeit -n 100 [i**2 for i in python_array]

100 loops, best of 5: 203 µs per loop


In [10]:
import numpy as np

numpy_array = np.arange(num_items)
print('\nNumpy')
%timeit -n 100 numpy_array**2


Numpy
The slowest run took 10.03 times longer than the fastest. This could mean that an intermediate result is being cached.
100 loops, best of 5: 1 µs per loop


## Pandas

[Pandas](https://pandas.pydata.org/) fornece implementações eficientes de estruturas de dados, especialmente [séries](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series) e [dataframes](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame). A [documentação](https://pandas.pydata.org/pandas-docs/stable/) é bem completa, e pode-se ter boas noções em apenas [10 minutos](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html).

Algumas das principais vantagens dessa estrutura de dados são:
* indexação;
* ferramentas de:
  * manipulação de dados em memória e arquivo;
  * manipulação de valores ausentes;
  * manipulação de registros (colunas/linhas);
  * agregação de dados;

* [How NOT to write pandas code](https://towardsdatascience.com/how-not-to-write-pandas-code-ef88599c6e8f)

# Pré-processamento

O pré-processamento dos dados geralmente é a parte mais trabalhosa do processo de mineração. Não só pelo esforço de formatar os dados para que possam ser aplicados em alguma ferramenta (como o tratamento de valores ausentes, normalização de valores, etc.), mas também pela busca pela [engenharia de características](https://heartbeat.fritz.ai/a-practical-guide-to-feature-engineering-in-python-8326e40747c8) mais adequada ao seu caso.