# Aula 6 - EDA - Tratamento de Dados

Nessa aula, iremos tratar dos seguintes conteúdos:
- Análise Exploratória dos Dados
- Redundância dos Dados
- Detecção de Outliers
- Informações Faltantes
- Preenchimento de Dados Faltantes

## IDWT

<img src="https://i0.wp.com/www.r-exercises.com/wp-content/uploads/2017/05/monitor.png?resize=275%2C140" width=600>

## 

## Análise Exploratória dos Dados (EDA)

 A Análise Exploratória dos Dados é o __principal processo no projeto de Data Science__, onde iremos __conhecer os dados__ e tirar __conclusões e hipóteses__ a partir de observações levantadas.<br>
 <br>
Mas vale lembrar também que devemos __avaliar a consistência dos dados__, pois se existirem qualquer tipo de problema com os dados e tirarmos conclusões e insights encima deles, assumiremos conclusões erroneamente. Dado isso vamos aprender algumas técnicas para lidarmos com os seguintes problemas com os dados:
- Redudância dos Dados (Dados Duplicados);
- Detecção de Outliers;
- Informações Faltantes.

## Redundância dos Dados

Redundância dos Dados é qualquer tipo de repetição deles que não agregam informações adicionais para a análise exploratória dos dados. Vamos ver alguns exemplos de redundâncias de dados:

**Redundância em dados não-estruturados**

Muito comum pois dados binários e textuais possuem elementos que não auxiliam na análise, temos os seguintes exemplos:

- o fundo de imagens e documentos;

- timbre em documentos e cartas;

- tipos de palavras em textos: artigos, conjunções, etc.


**Redundância em dados estruturados**

Já para esse caso, as redundâncias estÂo diretamente relacionadas a:

- linhas com valores repetidos (duplicados);

- colunas com valores constantes (iguais para todas as instâncias);

- colunas com alta correlação.

Vamos nessa aula focar no processo de tratar de dados estruturados (posteriormente iremos falar mais a respeito de dados não estruturados na aula de NLP). Vamos utilizar de uma base de dados _people_prof_relig.csv_:

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
df_dup = pd.read_csv('../NeoEvolution/people_prof_relig.csv')

In [4]:
## Visualizando o Datasetabs
df_dup

Unnamed: 0,Name,Sex,Year of Birth,Country of Birth,Religion,City,Profession,Age,Experience,Salary
0,Eugenio Ewell,M,1968,USA,Christian,New Orleans,Nurse,53,21,4140
1,Ivo Izidro,M,1988,Mexico,Christian,Acapulco,Nurse,33,2,2709
2,Lindsey Lever,M,1965,USA,Christian,New Orleans,Nurse,56,37,7896
3,Desiree Dardar,F,1995,USA,Christian,New Orleans,Nurse,26,1,2580
4,Mariann Mulero,F,1973,USA,Christian,New Orleans,Nurse,48,16,3668
...,...,...,...,...,...,...,...,...,...,...
95,Paityn Hale,M,1963,Peru,Christian,Arequipa,Nurse,58,25,7470
96,Petra Cruz,F,1976,Mexico,Christian,Acapulco,Nurse,45,17,602
97,Margaret Keith,F,1970,USA,Christian,New Orleans,Nurse,51,18,2917
98,Diego Colque,M,1958,Peru,Christian,Arequipa,Nurse,63,33,5725


In [5]:
## Observando as informações
df_dup.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Name              100 non-null    object
 1   Sex               100 non-null    object
 2   Year of Birth     100 non-null    int64 
 3   Country of Birth  100 non-null    object
 4   Religion          100 non-null    object
 5   City              100 non-null    object
 6   Profession        100 non-null    object
 7   Age               100 non-null    int64 
 8   Experience        100 non-null    int64 
 9   Salary            100 non-null    int64 
dtypes: int64(4), object(6)
memory usage: 7.9+ KB


## 

### Dados duplicados ou constantes

Bases de dados que contém informações repetidas ou atributos irrelevantes para obter as respostas que se espera da análise.

A redundância pode atrapalhar no projeto de modelos de aprendizado e estatísticos pois a quantidade de exemplos pode influenciar no viés do modelo.

#### Redundância em bases de dados estruturadas:

* Registros duplicados

* Atributos com valores iguais em todas as observacoes


Vamos carregar uma base de dados para mostrar exemplos

In [8]:
df_dup.head()

Unnamed: 0,Name,Sex,Year of Birth,Country of Birth,Religion,City,Profession,Age,Experience,Salary
0,Eugenio Ewell,M,1968,USA,Christian,New Orleans,Nurse,53,21,4140
1,Ivo Izidro,M,1988,Mexico,Christian,Acapulco,Nurse,33,2,2709
2,Lindsey Lever,M,1965,USA,Christian,New Orleans,Nurse,56,37,7896
3,Desiree Dardar,F,1995,USA,Christian,New Orleans,Nurse,26,1,2580
4,Mariann Mulero,F,1973,USA,Christian,New Orleans,Nurse,48,16,3668


#### Linhas/registros duplicados

O tipo mais comum de dados redundantes são as linhas ou registros duplicados, ou seja, aquelas que possuem todos os valores de atributos iguais.

In [6]:
## verificando os redundantes
df_dup.duplicated()

0     False
1     False
2     False
3     False
4     False
      ...  
95    False
96    False
97    False
98    False
99    False
Length: 100, dtype: bool

In [7]:
## Conferindo os dados duplicados
df_dup[df_dup.duplicated()]

Unnamed: 0,Name,Sex,Year of Birth,Country of Birth,Religion,City,Profession,Age,Experience,Salary
33,Apolonia Abler,F,1967,Canada,Christian,Vancouver,Nurse,54,35,7141
51,Carlos Cobre,M,1983,Brazil,Christian,São Paulo,Nurse,38,15,6300
61,Apolonia Abler,F,1967,Canada,Christian,Vancouver,Nurse,54,35,7141
68,Ricardo Rima,M,1977,Peru,Christian,Arequipa,Nurse,44,16,6677


A consulta acima mostra apenas as linhas __extras__, ou seja, as duplicadas encontradas após a ocorrência da primeira linha original.

Assim, ao consultar por um dos nomes que temos acima duplicados, veremos que há duas linhas para ele, sendo a duplicada considerada a linha 51.

In [8]:
## Vamos consultar um dos duplicados
df_dup[df_dup['Name'] == 'Carlos Cobre']

Unnamed: 0,Name,Sex,Year of Birth,Country of Birth,Religion,City,Profession,Age,Experience,Salary
13,Carlos Cobre,M,1983,Brazil,Christian,São Paulo,Nurse,38,15,6300
51,Carlos Cobre,M,1983,Brazil,Christian,São Paulo,Nurse,38,15,6300


Podemos usar a opção `keep` para manter todas as duplicatas, mostrando seus valores

In [11]:
## Agora vendo todos
df_dup[df_dup.duplicated(keep=False)]

Unnamed: 0,Name,Sex,Year of Birth,Country of Birth,Religion,City,Profession,Age,Experience,Salary
13,Carlos Cobre,M,1983,Brazil,Christian,São Paulo,Nurse,38,15,6300
18,Ricardo Rima,M,1977,Peru,Christian,Arequipa,Nurse,44,16,6677
19,Apolonia Abler,F,1967,Canada,Christian,Vancouver,Nurse,54,35,7141
33,Apolonia Abler,F,1967,Canada,Christian,Vancouver,Nurse,54,35,7141
51,Carlos Cobre,M,1983,Brazil,Christian,São Paulo,Nurse,38,15,6300
61,Apolonia Abler,F,1967,Canada,Christian,Vancouver,Nurse,54,35,7141
68,Ricardo Rima,M,1977,Peru,Christian,Arequipa,Nurse,44,16,6677


In [12]:
df_dup[df_dup.duplicated(subset=['Name'])]

Unnamed: 0,Name,Sex,Year of Birth,Country of Birth,Religion,City,Profession,Age,Experience,Salary
33,Apolonia Abler,F,1967,Canada,Christian,Vancouver,Nurse,54,35,7141
51,Carlos Cobre,M,1983,Brazil,Christian,São Paulo,Nurse,38,15,6300
61,Apolonia Abler,F,1967,Canada,Christian,Vancouver,Nurse,54,35,7141
68,Ricardo Rima,M,1977,Peru,Christian,Arequipa,Nurse,44,16,6677
93,Apolonia Abler,F,1967,Australia,Christian,Brisbane,Nurse,54,23,5496


Felizmente, temos uma funcão pronta para remover duplicatas de dataframes, `drop_duplicates()`, na qual podemos manter a primeira ocorrência da linha duplicada: `first`, a última: `last`, ou remover todas as que aparecem duplicadas: `False`.

In [14]:
## Limpando os dados duplicados
df_dup.drop_duplicates()


Unnamed: 0,Name,Sex,Year of Birth,Country of Birth,Religion,City,Profession,Age,Experience,Salary
0,Eugenio Ewell,M,1968,USA,Christian,New Orleans,Nurse,53,21,4140
1,Ivo Izidro,M,1988,Mexico,Christian,Acapulco,Nurse,33,2,2709
2,Lindsey Lever,M,1965,USA,Christian,New Orleans,Nurse,56,37,7896
3,Desiree Dardar,F,1995,USA,Christian,New Orleans,Nurse,26,1,2580
4,Mariann Mulero,F,1973,USA,Christian,New Orleans,Nurse,48,16,3668
...,...,...,...,...,...,...,...,...,...,...
95,Paityn Hale,M,1963,Peru,Christian,Arequipa,Nurse,58,25,7470
96,Petra Cruz,F,1976,Mexico,Christian,Acapulco,Nurse,45,17,602
97,Margaret Keith,F,1970,USA,Christian,New Orleans,Nurse,51,18,2917
98,Diego Colque,M,1958,Peru,Christian,Arequipa,Nurse,63,33,5725


In [15]:
df_nao_dup = df_dup.drop_duplicates()

In [9]:
## Passando parametro para optar pelo primeiro

In [16]:
df_nao_dup[df_nao_dup.duplicated()]

Unnamed: 0,Name,Sex,Year of Birth,Country of Birth,Religion,City,Profession,Age,Experience,Salary


#### Duplicidade em atributos

A duplicidade pode gerar problemas quando aparece isolada em determinado atributo. Nessa base de dados um atributo que pode ser sensível a isso é o nome:

In [11]:
## Vamos analisar duplicidade entre nomes


In [17]:
df_nao_dup[df_nao_dup.duplicated('Name')]

Unnamed: 0,Name,Sex,Year of Birth,Country of Birth,Religion,City,Profession,Age,Experience,Salary
93,Apolonia Abler,F,1967,Australia,Christian,Brisbane,Nurse,54,23,5496


Notamos que, apesar de ter o mesmo nome, sexo e ano de nascimento, as duas pessoas nasceram em países diferentes e portanto não há redundância ou dados duplicados a remover.

#### Atributos constantes

Investigando os atributos Profession e Religion, mostrando seus histogramas, notamos que todas as linhas tem o mesmo valor para esses atributos.

Apesar do valor informativo, ao construir modelos computacionais, por exemplo classificadores, esses atributos representam um aumento na dimensionalidade sem contribuir para a tarefa principal, classificação.

Podemos usar o método `nunique()` para obter a contagem de valores distintos

In [18]:
## Verificando os unicos
df_nao_dup.nunique()

Name                95
Sex                  2
Year of Birth       39
Country of Birth    11
Religion             1
City                10
Profession           1
Age                 39
Experience          37
Salary              95
dtype: int64

In [19]:
## Construindo um grafico com o atributo constante

df_nao_dup['Religion']

0     Christian
1     Christian
2     Christian
3     Christian
4     Christian
        ...    
95    Christian
96    Christian
97    Christian
98    Christian
99    Christian
Name: Religion, Length: 96, dtype: object

In [14]:
## Visualizando


In [15]:
## Em formato tabular


In [16]:
## O metodo drop 


In [17]:
## Amostrando o dataset


### E quando temos dados errôneos?


As vezes temos um caso onde um dado é adicionado erroneamente, nesse caso, podemos usar o método loc

## 

### Atributos correlacionados

Alguns atributos podem estar altamente correlacionados com outros. Esses atributos oferecem pouca contribuição no sentido de melhorar o que sabemos sobre o conjunto de dados. 

Ainda, quando se trata de treinar modelos podemos incorrer em maior custo computacional ou problemas de convergência.

Uma ferramenta interessante para entender *dependências lineares* entre atributos é a correlação.

No entanto, a correlação só é computada com valores numéricos.

Unnamed: 0,Year of Birth,Age,Experience,Salary
Year of Birth,1.0,-1.0,-0.908208,-0.362197
Age,-1.0,1.0,0.908208,0.362197
Experience,-0.908208,0.908208,1.0,0.432904
Salary,-0.362197,0.362197,0.432904,1.0


Características da matriz de correlação:
- valores negativos indicam correlação inversa
- tem diagonal igual a 1 (auto-correlação)
- é simétrica

Vamos considerar como alta correlação atributos com valores iguais ou superiores a 0.95

Para facilitar:
- pegamos o valor absoluto da correlação, 
- consideramos apenas a matriz triangular superior - devido a simetria, e
- não incluimos a diagonal principal (para a qual todos os valores são 1)

Para cada coluna das colunas da matriz triangular nas quais qualquer valor seja maior ou igual a 0.95

In [68]:
## Vamos remover correlação maiorque 45%

## Exercícios

## 

A base de dados a ser utilizada durante todos os exercícios desta aula é `houses_to_rent_exercises.csv`.

As alterações feitas em um exercício devem ser mantidas para o próximo exercício, a não ser que expressamente indicado

In [21]:
# carregando as bibliotecas necessárias
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# carregando dados
data = pd.read_csv("../NeoEvolution/houses_to_rent_exercises.csv", index_col=0)

__1)__ Inspecione o tipo dos atributos e seus valores, em particular, `city` e `country`. A seguir padronize valores dos atributos do tipo `object` que apareçam como distintos mas que deveriam ser os mesmos. Considere para a correção o valor mais frequente nesse atributo. Por exemplo: se tivermos escrito a seguinte sigla em 3 formas diferentes: `S.P`, `São Paulo`, `S. PAulo.`, todas devem ser convertidas para `São Paulo`

Quantas linhas relativas a valores da coluna `city` e `country`, respectivamente, estavam fora do padrão e foram corrigidas?

In [25]:
data[data.duplicated()]

Unnamed: 0,city,area,rooms,bathroom,parking spaces,floor,hoa,rent,tax,insurance,total,page hits,days available,interactions,weeks available,type,country
139,São Paulo,70.0,2.0,1,,-,0,2100,134,32,2266.0,1152,71,384,10,house,Brazil
143,São Paulo,73.0,2.0,2,1.0,7,1100,3500,100,45,4745.0,504,37,168,5,flat,Brazil
144,São Paulo,155.0,3.0,4,2.0,4,1500,2000,150,26,3676.0,972,49,324,7,flat,Brazil
145,São Paulo,63.0,2.0,2,1.0,15,357,3200,50,41,3648.0,936,59,312,8,flat,Brazil
174,São Paulo,149.0,2.0,3,3.0,21,1603,4500,883,58,7044.0,756,58,252,8,flat,Brazil
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6163,São Paulo,63.0,1.0,1,1.0,3,298,650,0,9,957.0,108,16,36,2,flat,Brazil
6164,São Paulo,140.0,2.0,3,1.0,3,1306,5000,250,64,6620.0,180,37,60,5,flat,Brazil
6165,São Paulo,220.0,5.0,4,3.0,-,0,8000,425,121,8546.0,396,22,132,3,house,Brazil
6166,São Paulo,90.0,3.0,2,2.0,5,1478,2500,355,32,4365.0,612,51,204,7,flat,Brazil


In [26]:
print(data.nunique())

city                  7
area                508
rooms                10
bathroom             12
parking spaces        9
floor                38
hoa                1620
rent               1172
tax                1230
insurance           218
total              6132
page hits           290
days available      157
interactions        217
weeks available      51
type                  2
country               3
dtype: int64


In [48]:
data['city'].value_counts()

São Paulo         7146
Rio de Janeiro    1452
Belo Horizonte    1199
Porto Alegre      1148
Campinas           816
Brotas               7
Name: city, dtype: int64

In [47]:
data.loc[data['city'] == 'Sao Paulo', 'city'] ='São Paulo'

__2)__ Vamos analisar possíveis atributos redundantes na base de dados. Inspecione as colunas imprimindo quantos valores únicos cada uma possui. Considerando o tamanho da base de dados e esses resultados, quais atributos são redundantes e podem ser removidos sem perda de informação?

In [49]:
data['country'].value_counts()

Brazil    11768
Name: country, dtype: int64

In [42]:
data.loc[data['country'] == 'Brasil', 'country'] ='Brazil'

In [43]:
data['country'].value_counts()

Brazil    11768
Name: country, dtype: int64

In [44]:
data.loc[data['country'] == 'BR', 'country'] ='Brazil'

In [45]:
data['country'].value_counts()

Brazil    11768
Name: country, dtype: int64

In [46]:
print(data.nunique())

city                  6
area                508
rooms                10
bathroom             12
parking spaces        9
floor                38
hoa                1620
rent               1172
tax                1230
insurance           218
total              6132
page hits           290
days available      157
interactions        217
weeks available      51
type                  2
country               1
dtype: int64


In [50]:
houses_clean = data.drop(columns=['country'])

In [51]:
houses_clean

Unnamed: 0,city,area,rooms,bathroom,parking spaces,floor,hoa,rent,tax,insurance,total,page hits,days available,interactions,weeks available,type
0,São Paulo,70.0,2.0,1,1.0,7,2065,3300,211,42,5618.0,324,23,108,3,flat
1,São Paulo,320.0,4.0,4,2.0,20,1200,4960,1750,63,7973.0,720,78,240,11,flat
2,Porto Alegre,80.0,1.0,1,1.0,6,1000,2800,nr,41,3841.0,64,269,128,38,flat
3,Porto Alegre,51.0,1.0,1,,2,270,1112,22,17,1421.0,46,73,92,10,flat
4,São Paulo,25.0,1.0,1,,1,0,800,25,11,836.0,1548,78,516,11,flat
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11763,Brotas,100.0,1.0,2,1.0,-,0,800,116,39,955.0,148,127,148,18,house
11764,Brotas,200.0,4.0,2,1.0,-,0,1450,226,75,1751.0,104,85,104,12,house
11765,São Paulo,600.0,4.0,5,6.0,0,0,12000,9500,181,21681.0,180,42,60,6,house
11766,São Paulo,650.0,3.0,3,7.0,0,0,8000,834,121,8955.0,396,66,132,9,house


## Dados Faltantes

Problemas com dados do tipo: faltantes (e errôneas as quais também ocasionam perdas) podem levar a impactos nos modelos estatísticos e de aprendizado.

A primeira etapa é **detectar corretamente** as informações faltantes, em quais atributos ocorrem, separando em:
- Dados faltantes: no Python `NaN`, sendo indefinidos ou não encontrados
- Dados errôneos: valores que devem ser removidos para não prejudicar a análise. Comumente não são *outliers* mas dados corrompidos no armazenamento, transmissão ou inputação.

A seguir, temos como opções
- Remover as linhas/instâncias contendo valores faltantes
- Preencher valores faltantes utilizando algum método

In [52]:
data = pd.read_csv("../datasets/houses_to_rent.csv")
## NaN -> Not a Number

FileNotFoundError: [Errno 2] No such file or directory: '../datasets/houses_to_rent.csv'

Vamos avaliar agora se de todas as variáveis na nossa base de dados, se elas fazem sentido com o tipo dela e se precisar  arrumar alguma coisa na base:

In [133]:
data.dtypes

city                object
area               float64
rooms              float64
bathroom             int64
parking spaces     float64
floor               object
hoa                  int64
rent                 int64
tax                 object
insurance            int64
total              float64
page hits            int64
days available       int64
interactions         int64
weeks available      int64
type                object
dtype: object

Note que:
* `city` e `type` são do tipo object contendo strings (palavras), 
* `floor` e `tax` aparecem como object mas contendo números!

Precisamos procurar por problemas e remover os valores não numéricos como `-`. 

Uma forma fácil é simplesmente forçar a **conversão para numérico** e atribuir `NaN` aos elementos não convertidos.

1. `floor` possui um único valor não numérico `-`:

Esse valor parece estar relacionado ao `0` (térreo)

In [136]:
data_orig = data.copy()

# substituir `-` por `0`

# coerce obriga a conversão, jogando para NaN o que não foi convertido

# tax será convertido diretamente


Vamos agora remover as duplicatas:

## 

##  Preenchimento de Dados Faltantes

No experimento anterior lidamos com dados faltantes **removendo linhas**, 

Agora vamos carregar novamente os dados e para **preencher os dados**, mantendo o tratamento de remoção de duplicatas, dos atributos string e de remoção de outliers

Há várias formas de se preencher dados faltantes:
- **com zeros**: 
    para manter a instância e permitir o uso dos outros atributos (utilizando a função _fillna_)
<br>    

-  **pela média / mediana / moda**: similar ao anterior, mas aqui preenchemos com alguma métrica do atributo para os valores observados
<br>    

In [146]:
data = pd.read_csv("../datasets/houses_to_rent.csv")

data_orig = data.copy()

Dados originais: 11765, após remocao duplicatas: 10484
Após remocao outliers: 8728


area - faltantes: 65
rooms - faltantes: 63
parking spaces - faltantes: 2523


### Preenchimento pela média

## 

## Exercícios

__3)__ Explore o dataset de Penguins do Seaborn, identifique problemas com os dados e faça as correções adequadas

__4)__ Inspecione os valores dos atributos `floor` e `tax`, realizando a conversão dos mesmos para o tipo adequado. Para evitar gerar dados faltantes desnecessariamente, verifique primeiro o padrão dos dados errôneos e faltantes, e se possível preencha corretamente alguns desses valores (conforme feito em aula para o atributo `floor`).

OBS: uma forma de inspecionar valores de uma coluna do tipo `object` que podem ser convertidos para dígitos numéricos é executar `dataframe[atributo].astype(str).str.isnumeric()`

Após esse processo, quandos valores faltantes restaram em `floor` e `tax`, respectivamente?

## Links, Artigos e Referências:

- [7 Must know Data Wrangling operations with Python Pandas](https://towardsdatascience.com/7-must-know-data-wrangling-operations-with-python-pandas-849438a90d15), artigo publicado pelo Towards Data Science;
- [Data Wrangling in Pandas](https://towardsdatascience.com/data-wrangling-in-pandas-a-downloadable-cheatsheet-84326d255a7b), artigo publicado pelo Towards Data Science;
- [A Checklist for Data Wrangling](https://towardsdatascience.com/a-checklist-for-data-wrangling-8f106c093fef), artigo publicado pelo Towards Data Science;
- [The ultimate Guide to Data Cleaning](https://towardsdatascience.com/the-ultimate-guide-to-data-cleaning-3969843991d4), artigo publicado pelo Towards Data Science.