# Processamento dos Dados e Análise Exploratória dos Dados

Nessa aula, iremos tratar dos seguintes conteúdos:
- Processamento de Dados;
- Análise Exploratória dos Dados;
- Exercícios.

## 

## 1. Processamento dos Dados

O processamento dos dados é uma fundamental etapa que impacta diretamente a __qualidade dos resultados da modelagem__. A princípio vamos imaginar um modelo de _Machine Learning_ como uma __caixa preta__ (em inglês _black-box_), onde ele irá receber dados, vai ocorrer algum processo matemático ali dentro do modelo e depois será devolvido um resultado para avaliarmos.

<br>

<img src = "https://qph.cf2.quoracdn.net/main-qimg-cdc82f8af6f096331ae790ace3352541" width = 500>

fonte: [Quora](https://www.quora.com/Are-most-machine-learning-models-black-boxes)

<br>

Se o modelo receber dados ruins ou com qualidade duvidosa, os resultados serão de mesma magnitude ruins ou duvidosos. Então, é importante que seja feito um trabalho de limpeza e processamento dos dados para garantir que estão apropriados para o uso.

Abaixo, vamos listar alguns tópicos sobre pontos relevantes a se avaliar nos dados, não necessariamente vão precisar fazer todos eles e também não são os únicos procedimnetos que podem serem feitos! Mas no geral, resolvem boa parte dos problemas que os dados podem apresentar.

<br><br>

### 1.1 Remoção de Duplicatas

<br>

A redundância no conjunto de dados pode acontecer por diversos fatores como por exemplo problemas na aquisição e armazenamento deste dados, alta correlação entre uma ou mais variáveis entre outras. No caso de tabelas (ou generalizando, em conjunto de dados estruturados), quando fala-se sobre dados __duplicados__ indica-se que um ou mais rgistros (linhas) têm valores nos atributos que coincidem (ou seja, todos valores nas colunas são iguais entre estas linhas).

O efeito que dados duplicados podem causar nos modelos de _Machine Learning_ tendencionar o resultado do modelo em uma direção, em outras palavras, adicionar um __viés__ que possa impactar no resultado do modelo.

<br>

Vamos avaliar a questão de dados duplicado na base de dados `COVID.csv`, sobre casos de COVID registrados no México em 2020:

In [4]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [6]:
covid = pd.read_csv("covid.csv")

In [7]:
covid.head()

Unnamed: 0.1,Unnamed: 0,sex,patient_type,intubed,pneumonia,age,pregnancy,diabetes,copd,asthma,inmsupr,hypertension,other_disease,cardiovascular,obesity,renal_chronic,tobacco,contact_other_covid,covid_res,icu
0,0,0,1,,0.0,27,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,
1,1,0,1,,0.0,24,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,1,
2,2,1,0,0.0,0.0,54,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,,1,0.0
3,3,0,0,0.0,1.0,30,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,1,0.0
4,4,1,0,0.0,0.0,60,0.0,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,,1,0.0


In [13]:
covid.shape

(499692, 20)

In [11]:
covid.duplicated().count()

499692

In [10]:
covid[covid.duplicated()].head()

Unnamed: 0.1,Unnamed: 0,sex,patient_type,intubed,pneumonia,age,pregnancy,diabetes,copd,asthma,inmsupr,hypertension,other_disease,cardiovascular,obesity,renal_chronic,tobacco,contact_other_covid,covid_res,icu


Uma forma de identificar as duplicadas é a partir da função `duplicated` do _Pandas_:

Para __remover__ os dados duplicados basta utilizar a função `drop_duplicates` do _Pandas_:

A pergunta agora é, neste caso deveria ser removido os dados duplicados?

Vamos acompanhar as bases antes e depois da remocão:

Este exemplo é bom para salientar que para fazer qualquer tipo de procedimento nos dados, deve-se __conhecer bem os dados__, como eles foram concebidos e suas peculiaridades!

No caso dessa base de dados sobre o COVID, os registros são de pacientes distintos e por mais que tenha dados duplicados isso se deve por boa parte dos atributos serem dados categóricos.

<br><br>

### 1.2 Remoção e/ou Preenchimento de Dados Faltantes

<br>

Ao se trabalhar com dados, um ods principais problemas no processo de tratamento e limpeza dos dados é lidar com dados faltantes. Muito desses dados faltantes surgiram devido a alguma falha de transposição dos dados (de um banco de dados a outro), falha no preenchimento destes dados ou até mesmo a faltam de preenchimento.

Vamos discutir aqui sobre alguns casos que ocorrem no conjunto de dados `COVID.csv`:

<br>

<br><br>

### 1.3 Análise de Outliers

<br>

Os __Outliers__ (também como pontos fora da curva em português) são os pontos discrepantes em relação ao conjunto de dados, sendo identificados como valores muito extremos entre relação ao restante da distribuição. Assim como os casos anteriores é importante avaliar se o _outlier_ deve ser removido do conjunto de dados ou por mais que sejam muito discrepante, ainda sim faz sentido em relação a natureza dos dados. 

Por isso também, é importante existir uma sinergia com a equipe de Ciência de Dados e a área solicitante das análises, pois eles devem conhecer intimamente os dados!

Vamos avaliar os outliers a partir das idades no _dataset_ `COVID.csv`:


## 

## 2. Análise Exploratória dos Dados

A análise exploratória dos dados (também conhecida como EDA) é um ponto crucial no sentido de conhecer intimamente o conjunto de dados, justamente onde a estatística serve como uma ferramenta poderosa no entendimento dos dados sendo:

<br>

- Levantando as estatísticas sobre os atributos do conjunto de dados;
- Criando gráficos, box-plots e visualizações que auxiliem no entendimento;
- Testes de Hipóteses para avaliar alguma condição específica (por exemplo separabilidade dos dados).

<br>

Não existe receita de bolo para a questão da EDA, dependendo muito dos dados e também do tipo de abordagem que o cientista de dados gosta de seguir. Vamos colocar um pouco em prática isso.

<br><br>

## 3. Exercícios

<br>

Utilizando o conjunto de dados `COVID.csv`, desenvolva os itens abaixo:

- __1)__ Faça a limpeza e eventuais preenchimentos, remoções de dados duplicados e outliers de todas os atributos do conjunto de dados;

- __2)__ Desenvolva uma análise exploratória dos dados e tire insights sobre o conjunto de dados.