# Limpeza e Tratamento de Dados

Durante o processo de construção de um modelo temos diversas etapas como coleta de dados, pré-processamento, modelagem, avaliação e, finalmente, implantação de modelos. Destes o pré-processamento de dados é aquele com maior volume de trabalho e valor agregado. Se perguntarmos a um cientista de dados sobre seu processo de modelagem, ele dirá que é uma proporção de 60:40, o que significa que 60% do trabalho está relacionado ao pré-processamento e o resto com as técnicas de Machine Learning.
  
A limpeza de dados faz parte do pré-processamento e se caracteriza pela fixação ou remoção de dados incorretos, corrompidos, formatados incorretamente, duplicados ou incompletos dentro de um conjunto de dados. Ao combinar várias fontes de dados, há muitas oportunidades para que os dados sejam duplicados ou mal rotulados. Se os dados estiverem incorretos, os resultados e algoritmos não são confiáveis, mesmo que possam parecer corretos. Não há uma maneira absoluta de prescrever as etapas exatas do processo de limpeza de dados, pois os processos variam de conjunto de dados para conjunto de dados. 

## Dados Ausentes (Missing - NaN)
  
Os dados do tipo missing/ausente podem ser classificados em função do padrão
  
**1. Missing Completely at Random (MCAR)**  
Os dados são ditos do tipo MCAR quando “a probabilidade de estarem ausentes é independente de qualquer observação no dataset”. Essa abordagem assume que tanto os dados observados como os não observados são amostras aleatórias do mesmo mecanismo de geração de dados. Ou seja, não conseguimos encontrar uma correlação entre as classes que possuem dados ausentes e as classes que não possuem dados ausentes.
  
**2. Missing at Random (MAR)**  
A abordagem de dados do tipo MAR assume que as observações com dados faltantes não respeitam uma distribuição aleatória como as amostras com dados observados. Isso significa que precisamos modelar o comportamento das amostras com dados faltantes. Há uma relação sistemática entre os dados ausentes e alguma informação coletada sobre os dados
  
**3. Missing not at Random (MNAR)**  
Esse é o tipo mais geral e mais complexo. No modelo MNAR, a probabilidade é que os valores faltantes dependam não só dos dados observados assim como dos dados não observados. Não há como ignorar o mecanismo que levou os dados a estarem ausentes. Para esse tipo de dado, não podemos somente ignorar a situação, um tratamento precisa ser realizado.
  
fonte: https://ealexbarros.medium.com/principais-tipos-de-dados-faltantes-missing-em-um-dataset-49aa35cf18c8

In [None]:
import pandas as pd
import numpy as np

### Trabalhando com dados ausentes

Vamos ler a base **IT_Salary_Survey_EU_2020** que está na pasta dados, utilizando o método **pd.read_excel()**

### OPENPYXL

Para descobrir quantas ocorrências de dados ausentes existem

In [None]:
# % do Dataset com NaN


### Tratamento dos dados

1) Eliminando

2) Inserindo valores em seu lugar
  
a) Média

b) Mediana

c) Moda (categóricas)

## Exploratory Data Analysis (EDA)

Conforme dicutimos na primeira aula, uma habilidade **MUITO** importante que cientistas de dados devem ter é a de **olha pros dados**, que quer dizer explorar os dados, ver do que eles se tratam, se habituar com eles.

Essa etapa é muitíssimo importante para que as etapas seguintes, em especial a de modelagem, funcionem adequadamente!

Dentro do jargão da área, essa etapa se chama **Exploratory Data Analysis** (**Análise Exploratória dos Dados**), ou simplesmente EDA. Quando dizemos "olhar pros dados", é a isso que nos referimos!

A etapa de EDA é muitíssimo importante, e deve tomar grande parte de um projeto de ciência de dados, como já discutimos, e ela comumente feita também com o auxílio de **gráficos** e outras ferramentas visuais. Faremos isso no próximo módulo, depois que aprendermos sobre ferramentas importantíssimas de **visualização de dados** (*dataviz*).

Por hora, faremos a EDA apenas utilizando o pandas, utilizando diversos métodos e funções específicas.

Lembre-se: o objetivo é que exploremos os dados o máximo possível! 

Então, essa é a etapa em que:

- Formulamos as perguntas importantes;
- E tentamos respondê-las com base nos dados!

Vamos lá?

### Dataset: Titanic

Agora exploraremos um pouco mais a fundo o dataset do <a href="https://www.kaggle.com/c/titanic">Titanic</a>.

Faremos a leitura da base, e também os primeiros passos da EDA, respondendo diversas perguntas muito interessantes.

Semana que vem, após aprendermos como fazer gráficos, avançaremos na EDA de forma visual!

![Screenshot 2024-01-17 at 21.40.50.png](<attachment:Screenshot 2024-01-17 at 21.40.50.png>)

### Variable Notes
* pclass: A proxy for socio-economic status (SES)
* 1st = Upper
* 2nd = Middle
* 3rd = Lower
age: Age is fractional if less than 1. If the age is estimated, is it in the form of xx.5
sibsp: The dataset defines family relations in this way...
Sibling = brother, sister, stepbrother, stepsister
Spouse = husband, wife (mistresses and fiancés were ignored)
parch: The dataset defines family relations in this way...
Parent = mother, father
Child = daughter, son, stepdaughter, stepson
Some children travelled only with a nanny, therefore parch=0 for them.

In [None]:
# dimensão do dataframe
# é uma tupla na forma ( numero_de_linhas, numero_de_colunas)


Não vamos esquecer do nosso objetivo

**Bora praticar!**
  
Taxa de sobrevivência por:  
  
1) idade?  
2) faixa etária?  
3) sexo?  
4) classe?   
5) porto de embarque?  
6) preço medio por classe?  
7) fare?  


(Dos que sobreviveram:)

- qtos parentes tinham no navio?
- qtos da mesma família sobreviveram?

**Qual a taxa de sobrevivência entre os gêneros (homens e mulheres) e classe do navio?**

In [None]:
# Por Idade


**O local de embarque também afeta a taxa de sobrevivência? E há relação com a classe?**