# Limpeza e Tratamento de Dados

Durante o processo de construção de um modelo temos diversas etapas como coleta de dados, pré-processamento, modelagem, avaliação e, finalmente, implantação de modelos. Destes o pré-processamento de dados é aquele com maior volume de trabalho e valor agregado. Se perguntarmos a um cientista de dados sobre seu processo de modelagem, ele dirá que é uma proporção de 60:40, o que significa que 60% do trabalho está relacionado ao pré-processamento e o resto com as técnicas de Machine Learning.
  
A limpeza de dados faz parte do pré-processamento e se caracteriza pela fixação ou remoção de dados incorretos, corrompidos, formatados incorretamente, duplicados ou incompletos dentro de um conjunto de dados. Ao combinar várias fontes de dados, há muitas oportunidades para que os dados sejam duplicados ou mal rotulados. Se os dados estiverem incorretos, os resultados e algoritmos não são confiáveis, mesmo que possam parecer corretos. Não há uma maneira absoluta de prescrever as etapas exatas do processo de limpeza de dados, pois os processos variam de conjunto de dados para conjunto de dados. 

## Dados Ausentes (Missing - NaN)
  
Os dados do tipo missing/ausente podem ser classificados em função do padrão
  
**1. Missing Completely at Random (MCAR)**  
Os dados são ditos do tipo MCAR quando “a probabilidade de estarem ausentes é independente de qualquer observação no dataset”. Essa abordagem assume que tanto os dados observados como os não observados são amostras aleatórias do mesmo mecanismo de geração de dados. Ou seja, não conseguimos encontrar uma correlação entre as classes que possuem dados ausentes e as classes que não possuem dados ausentes.
  
**2. Missing at Random (MAR)**  
A abordagem de dados do tipo MAR assume que as observações com dados faltantes não respeitam uma distribuição aleatória como as amostras com dados observados. Isso significa que precisamos modelar o comportamento das amostras com dados faltantes. Há uma relação sistemática entre os dados ausentes e alguma informação coletada sobre os dados
  
**3. Missing not at Random (MNAR)**  
Esse é o tipo mais geral e mais complexo. No modelo MNAR, a probabilidade é que os valores faltantes dependam não só dos dados observados assim como dos dados não observados. Não há como ignorar o mecanismo que levou os dados a estarem ausentes. Para esse tipo de dado, não podemos somente ignorar a situação, um tratamento precisa ser realizado.
  
fonte: https://ealexbarros.medium.com/principais-tipos-de-dados-faltantes-missing-em-um-dataset-49aa35cf18c8

In [1]:
import pandas as pd
import numpy as np

### Trabalhando com dados ausentes

Vamos ler a base **IT_Salary_Survey_EU_2020** que está na pasta dados, utilizando o método **pd.read_excel()**

In [3]:
df_salary = pd.read_excel('./dados/IT_salary_survey_EU_2020.xlsx')
df_salary.head()

Unnamed: 0,Age,Gender,City,Position,Years of experience,Seniority level,Main technology,Other technologies,Yearly salary,Vacation days,Employment status,Ð¡ontract duration,Language at work,Company size,Company type
0,26,Male,Munich,Software Engineer,5,Senior,TypeScript,"Kotlin, Javascript / Typescript",80000.0,30.0,Full-time employee,Unlimited contract,English,51-100,Product
1,26,Male,Berlin,Backend Developer,7,Senior,Ruby,,80000.0,28.0,Full-time employee,Unlimited contract,English,101-1000,Product
2,29,Male,Berlin,Software Engineer,12,Lead,Javascript / Typescript,"Javascript / Typescript, Docker",120000.0,30.0,Self-employed (freelancer),Temporary contract,English,101-1000,Product
3,28,Male,Berlin,Frontend Developer,4,Junior,Javascript,,54000.0,24.0,Full-time employee,Unlimited contract,English,51-100,Startup
4,37,Male,Berlin,Backend Developer,17,Senior,C# .NET,".NET, SQL, AWS, Docker",62000.0,29.0,Full-time employee,Unlimited contract,English,101-1000,Product


In [None]:
df_salary.tail()

Para descobrir quantas ocorrências de dados ausentes existem

In [None]:
len(df_salary) # qtde de linhas

In [None]:
df_salary.shape

In [None]:
df_salary.columns

In [None]:
df_salary.info()

In [None]:
df_salary.isnull() # Me traz verdadeiro ou falso (0 = falso, 1 - verdadeiro)

In [None]:
df_salary.isnull().sum() # Agora quando eu somo ele me contabiliza quantos nulos tem em cada coluna

# Muito bom para ver os nulos

In [None]:
df_salary.shape # Me traz a qtde de linhas e colunas
df_salary.shape[0] # me traz só as  linhas

In [None]:
# % do Dataset
df_salary.isnull().sum() / df_salary.shape[0] * 100 

# Estou pegando tudo que está faltando e dividindo por tudo que tem de linhas, e o x100 é para ficar em %

### Tratamento dos dados

1) Eliminando

In [None]:
df_salary.dropna() # Elimina todas as linhas com nulo.

In [None]:
df_salary.dropna(subset = ['Yearly salary', 'Age']) 
# Eu posso especificar onde eu quero que veja se tem nulo para eliminar, eu posso passar como argumento 

2) Inserindo valores em seu lugar
  
a) Média

In [18]:

# Estou pegando a coluna, e substituindo onde o NaN do Numpy existe, pelo valor médio da coluna.
df_salary['Yearly salary'].replace(np.NaN, df_salary['Yearly salary'].mean()) # Eu não estou alterando

# df_salary['Yearly salary'].replace(np.NaN, df_salary['Yearly salary'].mean(), inplace = True)
# variavel = df_salary['Yearly salary'].replace(np.NaN, df_salary['Yearly salary'].mean())

0       8.000000e+04
1       8.000000e+04
2       1.200000e+05
3       5.400000e+04
4       6.200000e+04
            ...     
1248    7.000000e+04
1249    6.000000e+04
1250    1.100000e+05
1251   -1.244314e+06
1252    6.500000e+04
Name: Yearly salary, Length: 1253, dtype: float64

In [29]:
#df_salary.iloc(1251,8) # Tentando localizar o ponto que está negativo o salario anual

indice_linha_1251 = df[df['Yearly salary'] == -1.244314e+06].index[0]


NameError: name 'df' is not defined

b) Mediana

In [23]:
df_salary['Yearly salary'].replace(np.NaN, df_salary['Yearly salary'].median())

0        80000.0
1        80000.0
2       120000.0
3        54000.0
4        62000.0
          ...   
1248     70000.0
1249     60000.0
1250    110000.0
1251     70000.0
1252     65000.0
Name: Yearly salary, Length: 1253, dtype: float64

c) Moda (categóricas)

In [26]:
# Calculando a moda
import statistics

statistics.mode(df_salary['Seniority level'])

'Senior'

In [28]:
df_salary['Seniority level'].replace(np.NaN, statistics.mode(df_salary['Seniority level']))

0       Senior
1       Senior
2         Lead
3       Junior
4       Senior
         ...  
1248    Senior
1249    Senior
1250      Lead
1251    Middle
1252    Middle
Name: Seniority level, Length: 1253, dtype: object

## Exploratory Data Analysis (EDA)

Conforme dicutimos na primeira aula, uma habilidade **MUITO** importante que cientistas de dados devem ter é a de **olha pros dados**, que quer dizer explorar os dados, ver do que eles se tratam, se habituar com eles.

Essa etapa é muitíssimo importante para que as etapas seguintes, em especial a de modelagem, funcionem adequadamente!

Dentro do jargão da área, essa etapa se chama **Exploratory Data Analysis** (**Análise Exploratória dos Dados**), ou simplesmente EDA. Quando dizemos "olhar pros dados", é a isso que nos referimos!

A etapa de EDA é muitíssimo importante, e deve tomar grande parte de um projeto de ciência de dados, como já discutimos, e ela comumente feita também com o auxílio de **gráficos** e outras ferramentas visuais. Faremos isso no próximo módulo, depois que aprendermos sobre ferramentas importantíssimas de **visualização de dados** (*dataviz*).

Por hora, faremos a EDA apenas utilizando o pandas, utilizando diversos métodos e funções específicas.

Lembre-se: o objetivo é que exploremos os dados o máximo possível! 

Então, essa é a etapa em que:

- Formulamos as perguntas importantes;
- E tentamos respondê-las com base nos dados!

Vamos lá?

### Dataset: Titanic

Agora exploraremos um pouco mais a fundo o dataset do <a href="https://www.kaggle.com/c/titanic">Titanic</a>.

Faremos a leitura da base, e também os primeiros passos da EDA, respondendo diversas perguntas muito interessantes.

Semana que vem, após aprendermos como fazer gráficos, avançaremos na EDA de forma visual!

In [4]:
df_titanic = pd.read_csv('./dados/titanic_completa_oficial.csv')
df_titanic.replace('?', np.NaN, inplace= True)

In [5]:
# dimensão do dataframe
# é uma tupla na forma (numero_de_linhas, numero_de_colunas)
df_titanic.shape

(1309, 14)

In [6]:
# uma lista com as colunas
df_titanic.columns

Index(['pclass', 'survived', 'name', 'sex', 'age', 'sibsp', 'parch', 'ticket',
       'fare', 'cabin', 'embarked', 'boat', 'body', 'home.dest'],
      dtype='object')

In [7]:
df_titanic.describe()

Unnamed: 0,pclass,survived,sibsp,parch
count,1309.0,1309.0,1309.0,1309.0
mean,2.294882,0.381971,0.498854,0.385027
std,0.837836,0.486055,1.041658,0.86556
min,1.0,0.0,0.0,0.0
25%,2.0,0.0,0.0,0.0
50%,3.0,0.0,0.0,0.0
75%,3.0,1.0,1.0,0.0
max,3.0,1.0,8.0,9.0


In [40]:
# informações sobre o df
df_titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   pclass     1309 non-null   int64 
 1   survived   1309 non-null   int64 
 2   name       1309 non-null   object
 3   sex        1309 non-null   object
 4   age        1046 non-null   object
 5   sibsp      1309 non-null   int64 
 6   parch      1309 non-null   int64 
 7   ticket     1309 non-null   object
 8   fare       1308 non-null   object
 9   cabin      295 non-null    object
 10  embarked   1307 non-null   object
 11  boat       486 non-null    object
 12  body       121 non-null    object
 13  home.dest  745 non-null    object
dtypes: int64(4), object(10)
memory usage: 143.3+ KB


In [8]:
df_titanic.isnull().sum() / len(df_titanic) *100

pclass        0.000000
survived      0.000000
name          0.000000
sex           0.000000
age          20.091673
sibsp         0.000000
parch         0.000000
ticket        0.000000
fare          0.076394
cabin        77.463713
embarked      0.152788
boat         62.872422
body         90.756303
home.dest    43.086325
dtype: float64

Não vamos esquecer do nosso objetivo

In [9]:
df_titanic['survived'].value_counts()

survived
0    809
1    500
Name: count, dtype: int64

In [45]:
df_titanic['survived'].value_counts(normalize = True)

survived
0    0.618029
1    0.381971
Name: proportion, dtype: float64

In [46]:
df_titanic['survived'].mean()

0.3819709702062643

**Bora praticar!**
  
Taxa de sobrevivência por:  
  
1) idade?  
2) faixa etária?  
3) sexo?  
4) classe?   
5) porto de embarque?  
6) preço medio por classe?  
7) fare?  


(Dos que sobreviveram:)

- qtos parentes tinham no navio?
- qtos da mesma família sobreviveram?

1. Idade
2. Sexo

Dos que sobreviveram, quantos parentes em media tinham no navio?

In [48]:
df_titanic.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


In [50]:
# 1 taxa de sobrevivencia por idade
df_titanic.groupby('age')['survived'].mean()


age
0.1667    1.000000
0.3333    0.000000
0.4167    1.000000
0.6667    1.000000
0.75      0.666667
            ...   
74        0.000000
76        1.000000
8         0.666667
80        1.000000
9         0.400000
Name: survived, Length: 98, dtype: float64

In [54]:
# Outra forma

df_titanic.pivot_table(index='age', values='survived', aggfunc='mean')

Unnamed: 0_level_0,survived
age,Unnamed: 1_level_1
0.1667,1.000000
0.3333,0.000000
0.4167,1.000000
0.6667,1.000000
0.75,0.666667
...,...
74,0.000000
76,1.000000
8,0.666667
80,1.000000


In [15]:
# Taxa de sobreviventes por faixa etária
# Outra forma ( por apply + por função)

def age_range(age):
    try:
        age = float(age)
        if age < 18.0:
            return 'minor: 0-17'
        elif 18.0 <= age <= 30.0:
            return 'young: 18 - 30'
        elif 31.0 <= age <= 50.0:
            return 'adult: 31-50'
        else:
            return 'elderly: 51+'
    except ValueError:
        return np.NaN

df_titanic['age_range'] = df_titanic['age'].apply(age_range)

df_titanic.head()


Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,age_range
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO",young: 18 - 30
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON",minor: 0-17
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON",minor: 0-17
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON",young: 18 - 30
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON",young: 18 - 30


In [19]:
df_titanic.pivot_table(index='age_range', values='survived', aggfunc='mean')
#df_titanic.groupby('age_range')['survived'].mean()

Unnamed: 0_level_0,survived
age_range,Unnamed: 1_level_1
adult: 31-50,0.414706
elderly: 51+,0.308333
minor: 0-17,0.525974
young: 18 - 30,0.367033


In [51]:
# 3 Taxa de sobrevivencia por sexo

df_titanic.groupby('sex')['survived'].mean()

sex
female    0.727468
male      0.190985
Name: survived, dtype: float64

In [56]:
# Outro jeito
df_titanic.pivot_table(index='sex', values='survived', aggfunc='mean') * 100

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,72.746781
male,19.098458


In [59]:
# Dos que sobreviveram, quantos parentes em media tinham no navio?
#df_titanic[df_titanic['survived'] == 1][['sibsp', 'parch']].mean()


df_titanic[df_titanic['survived']== 1][['parch']].mean()

parch    0.476
dtype: float64

In [58]:
# Outro jeito
df_titanic.pivot_table(index='survived', values='parch', aggfunc='mean').loc[1]

parch    0.476
Name: 1, dtype: float64

In [22]:
# 4 Taxa de sobrevivencia por classe

df_titanic.pivot_table(index='pclass', values='survived', aggfunc='mean')
#df_titanic.groupby('pclass')['survived'].mean()

Unnamed: 0_level_0,survived
pclass,Unnamed: 1_level_1
1,0.619195
2,0.429603
3,0.255289


**Qual a taxa de sobrevivência entre os gêneros (homens e mulheres) e classe do navio?**

**O local de embarque também afeta a taxa de sobrevivência? E há relação com a classe?**

## Mini tarefa

A partir do dataset Titanic, caso retiremos todos os missing values considerando apenas as 10 primeiras colunas, responda no [link](https://forms.gle/JZNUVw3qpkmJNfui9) quantos registros nos sobrarão?