# Pre-Processamento de Dados em Python

Prof. Daniel de Abreu Pereira Uhr

### Conteúdo

* Limpeza de dados
  * Remoção de linhas ou colunas.
  * Imputação (média, mediana, moda, regressão, imputação múltipla).
  * Tratamento de valores duplicados: Identificação e remoção de registros redundantes.
  * Correção de inconsistências:
    * Normalização de formatos
    * Remoção de caracteres especiais ou erros de digitação.
  * Tratamento de outliers:
    * Substituição, remoção ou transformação com base em regras ou análises (e.g., IQR, z-score).
* Transformação de dados
  * Normalização e padronização de variáveis
    * Normalização: Escala para um intervalo fixo
    * Padronização: Escala baseada em média e desvio padrão (z-score).
  * Transformações matemáticas: Logaritmo, raiz quadrada, exponencial para estabilizar variância ou tratar assimetrias.
  * Discretização: Conversão de variáveis contínuas para categorias (e.g., faixa etária, faixas de renda).
  * Encoding de variáveis categóricas: Conversão de variáveis categóricas em numéricas.
  * Redução de dimensionalidade: PCA, LDA, t-SNE.
* Integração de dados
  * Fusão de bases de dados: Join (inner, outer, left, right). Concatenar tabelas ou adicionar colunas/linhas.
  * Tratamento de dados heterogêneos: Combinar dados estruturados e não estruturados (e.g., tabelas e texto).
  * Resolução de inconsistências: Padronização de variáveis entre fontes distintas.
* Tratamento de Dados Espaciais: Conversão de coordenadas, cálculo de distâncias, geocodificação.
* Divisão de dados
  * Separação de dados de treino e teste: Randomização, estratificação.
  * Validação cruzada: K-fold, leave-one-out, bootstrap.



### Referências

* Géron, Aurélien. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O'Reilly Media, 2019.
* Athey, S., & Imbens, G. (2017). "The State of Applied Econometrics: Causality and Policy Evaluation." *Journal of Economic Perspectives*.
* Mullainathan, S., & Spiess, J. (2017). "Machine Learning: An Applied Econometric Approach." *Journal of Economic Perspectives*.
* Varian, H. R. (2014). "Big Data: New Tricks for Econometrics." *Journal of Economic Perspectives*.

  * **Pré-processamento de Dados**
    * Tratamento de missing values
    * Tratamento de outliers
    * Tratamento de variáveis categóricas
    * Tratamento de variáveis contínuas
    * Normalização de variáveis
    * Redução de dimensionalidade