# Aula 6 - EDA - Tratamento de Dados

Nessa aula, iremos tratar dos seguintes conteúdos:
- Análise Exploratória dos Dados
- Redundância dos Dados
- Detecção de Outliers
- Informações Faltantes
- Preenchimento de Dados Faltantes

<img src="https://i0.wp.com/www.r-exercises.com/wp-content/uploads/2017/05/monitor.png?resize=275%2C140" width=600>

## 

## Análise Exploratória dos Dados (EDA)

 A Análise Exploratória dos Dados é o __principal processo no projeto de Data Science__, onde iremos __conhecer os dados__ e tirar __conclusões e hipóteses__ a partir de observações levantadas.<br>
 <br>
Mas vale lembrar também que devemos __avaliar a consistência dos dados__, pois se existirem qualquer tipo de problema com os dados e tirarmos conclusões e insights encima deles, assumiremos conclusões erroneamente. Dado isso vamos aprender algumas técnicas para lidarmos com os seguintes problemas com os dados:
- Redudância dos Dados (Dados Duplicados);
- Detecção de Outliers;
- Informações Faltantes.

## Redundância dos Dados

Redundância dos Dados é qualquer tipo de repetição deles que não agregam informações adicionais para a análise exploratória dos dados. Vamos ver alguns exemplos de redundâncias de dados:

**Redundância em dados não-estruturados**

Muito comum pois dados binários e textuais possuem elementos que não auxiliam na análise, temos os seguintes exemplos:

- o fundo de imagens e documentos;

- timbre em documentos e cartas;

- tipos de palavras em textos: artigos, conjunções, etc.


**Redundância em dados estruturados**

Já para esse caso, as redundâncias estÂo diretamente relacionadas a:

- linhas com valores repetidos (duplicados);

- colunas com valores constantes (iguais para todas as instâncias);

- colunas com alta correlação.

## 

### Dados duplicados ou constantes

Bases de dados que contém informações repetidas ou atributos irrelevantes para obter as respostas que se espera da análise.

A redundância pode atrapalhar no projeto de modelos de aprendizado e estatísticos pois a quantidade de exemplos pode influenciar no viés do modelo.

#### Redundância em bases de dados estruturadas:

* Registros duplicados

* Atributos com valores iguais em todas as observacoes


Vamos carregar uma base de dados para mostrar exemplos

#### Linhas/registros duplicados

O tipo mais comum de dados redundantes são as linhas ou registros duplicados, ou seja, aquelas que possuem todos os valores de atributos iguais.

Podemos usar a opção `keep` para manter todas as duplicatas, mostrando seus valores

Felizmente, temos uma funcão pronta para remover duplicatas de dataframes, `drop_duplicates()`, na qual podemos manter a primeira ocorrência da linha duplicada: `first`, a última: `last`, ou remover todas as que aparecem duplicadas: `False`.

#### Duplicidade em atributos

A duplicidade pode gerar problemas quando aparece isolada em determinado atributo. Nessa base de dados um atributo que pode ser sensível a isso é o nome:

Notamos que, apesar de ter o mesmo nome, sexo e ano de nascimento, as duas pessoas nasceram em países diferentes e portanto não há redundância ou dados duplicados a remover.

#### Atributos constantes

Apesar do valor informativo, ao construir modelos computacionais, por exemplo classificadores, esses atributos representam um aumento na dimensionalidade sem contribuir para a tarefa principal, classificação.

Podemos usar o método `nunique()` para obter a contagem de valores distintos

### E quando temos dados errôneos?


As vezes temos um caso onde um dado é adicionado erroneamente, nesse caso, podemos usar o método loc

## 

### Atributos correlacionados

Alguns atributos podem estar altamente correlacionados com outros. Esses atributos oferecem pouca contribuição no sentido de melhorar o que sabemos sobre o conjunto de dados. 

Ainda, quando se trata de treinar modelos podemos incorrer em maior custo computacional ou problemas de convergência.

Uma ferramenta interessante para entender *dependências lineares* entre atributos é a correlação.

No entanto, a correlação só é computada com valores numéricos.

Características da matriz de correlação:
- valores negativos indicam correlação inversa
- tem diagonal igual a 1 (auto-correlação)
- é simétrica

Vamos considerar como alta correlação atributos com valores iguais ou superiores a 0.95

Para facilitar:
- pegamos o valor absoluto da correlação, 
- consideramos apenas a matriz triangular superior - devido a simetria, e
- não incluimos a diagonal principal (para a qual todos os valores são 1)

## Exercícios

A base de dados a ser utilizada durante todos os exercícios desta aula é `houses_to_rent.csv`.

As alterações feitas em um exercício devem ser mantidas para o próximo exercício, a não ser que expressamente indicado

__1)__ Inspecione o tipo dos atributos e seus valores, em particular, `city` e `country`. A seguir padronize valores dos atributos do tipo `object` que apareçam como distintos mas que deveriam ser os mesmos. Considere para a correção o valor mais frequente nesse atributo. Por exemplo: se tivermos escrito a seguinte sigla em 3 formas diferentes: `S.P`, `São Paulo`, `S. PAulo.`, todas devem ser convertidas para `São Paulo`

Quantas linhas relativas a valores da coluna `city` e `country`, respectivamente, estavam fora do padrão e foram corrigidas?

__2)__ Vamos analisar possíveis atributos redundantes na base de dados. Inspecione as colunas imprimindo quantos valores únicos cada uma possui. Considerando o tamanho da base de dados e esses resultados, quais atributos são redundantes e podem ser removidos sem perda de informação?

## Dados Faltantes

Problemas com dados do tipo: faltantes (e errôneas as quais também ocasionam perdas) podem levar a impactos nos modelos estatísticos e de aprendizado.

A primeira etapa é **detectar corretamente** as informações faltantes, em quais atributos ocorrem, separando em:
- Dados faltantes: no Python `NaN`, sendo indefinidos ou não encontrados
- Dados errôneos: valores que devem ser removidos para não prejudicar a análise. Comumente não são *outliers* mas dados corrompidos no armazenamento, transmissão ou inputação.

A seguir, temos como opções
- Remover as linhas/instâncias contendo valores faltantes
- Preencher valores faltantes utilizando algum método

Note que:
* `city` e `type` são do tipo object contendo strings (palavras), 
* `floor` e `tax` aparecem como object mas contendo números!

Precisamos procurar por problemas e remover os valores não numéricos como `-`. 

Uma forma fácil é simplesmente forçar a **conversão para numérico** e atribuir `NaN` aos elementos não convertidos.

1. `floor` possui um único valor não numérico `-`:

Esse valor parece estar relacionado ao `0` (térreo)

## 

##  Preenchimento de Dados Faltantes

No experimento anterior lidamos com dados faltantes **removendo linhas**, 

Agora vamos carregar novamente os dados e para **preencher os dados**, mantendo o tratamento de remoção de duplicatas, dos atributos string e de remoção de outliers

Há várias formas de se preencher dados faltantes:
- **com zeros**: 
    para manter a instância e permitir o uso dos outros atributos (utilizando a função _fillna_)
<br>    

-  **pela média / mediana / moda**: similar ao anterior, mas aqui preenchemos com alguma métrica do atributo para os valores observados
<br>    

## 

## Exercícios

__3)__ Explore o dataset de Penguins do Seaborn, identifique problemas com os dados e faça as correções adequadas

__4)__ Inspecione os valores dos atributos `floor` e `tax`, realizando a conversão dos mesmos para o tipo adequado. Para evitar gerar dados faltantes desnecessariamente, verifique primeiro o padrão dos dados errôneos e faltantes, e se possível preencha corretamente alguns desses valores (conforme feito em aula para o atributo `floor`).

OBS: uma forma de inspecionar valores de uma coluna do tipo `object` que podem ser convertidos para dígitos numéricos é executar `dataframe[atributo].astype(str).str.isnumeric()`

Após esse processo, quandos valores faltantes restaram em `floor` e `tax`, respectivamente?

## Links, Artigos e Referências:

- [7 Must know Data Wrangling operations with Python Pandas](https://towardsdatascience.com/7-must-know-data-wrangling-operations-with-python-pandas-849438a90d15), artigo publicado pelo Towards Data Science;
- [Data Wrangling in Pandas](https://towardsdatascience.com/data-wrangling-in-pandas-a-downloadable-cheatsheet-84326d255a7b), artigo publicado pelo Towards Data Science;
- [A Checklist for Data Wrangling](https://towardsdatascience.com/a-checklist-for-data-wrangling-8f106c093fef), artigo publicado pelo Towards Data Science;
- [The ultimate Guide to Data Cleaning](https://towardsdatascience.com/the-ultimate-guide-to-data-cleaning-3969843991d4), artigo publicado pelo Towards Data Science.