# Limpeza e Tratamento de Dados

Durante o processo de construção de um modelo temos diversas etapas como coleta de dados, pré-processamento, modelagem, avaliação e, finalmente, implantação de modelos. Destes o pré-processamento de dados é aquele com maior volume de trabalho e valor agregado. Se perguntarmos a um cientista de dados sobre seu processo de modelagem, ele dirá que é uma proporção de 60:40, o que significa que 60% do trabalho está relacionado ao pré-processamento e o resto com as técnicas de Machine Learning.
  
A limpeza de dados faz parte do pré-processamento e se caracteriza pela fixação ou remoção de dados incorretos, corrompidos, formatados incorretamente, duplicados ou incompletos dentro de um conjunto de dados. Ao combinar várias fontes de dados, há muitas oportunidades para que os dados sejam duplicados ou mal rotulados. Se os dados estiverem incorretos, os resultados e algoritmos não são confiáveis, mesmo que possam parecer corretos. Não há uma maneira absoluta de prescrever as etapas exatas do processo de limpeza de dados, pois os processos variam de conjunto de dados para conjunto de dados. 

## Dados Ausentes (Missing - NaN)
  
Os dados do tipo missing/ausente podem ser classificados em função do padrão
  
**1. Missing Completely at Random (MCAR)**  
Os dados são ditos do tipo MCAR quando “a probabilidade de estarem ausentes é independente de qualquer observação no dataset”. Essa abordagem assume que tanto os dados observados como os não observados são amostras aleatórias do mesmo mecanismo de geração de dados. Ou seja, não conseguimos encontrar uma correlação entre as classes que possuem dados ausentes e as classes que não possuem dados ausentes.
  
**2. Missing at Random (MAR)**  
A abordagem de dados do tipo MAR assume que as observações com dados faltantes não respeitam uma distribuição aleatória como as amostras com dados observados. Isso significa que precisamos modelar o comportamento das amostras com dados faltantes. Há uma relação sistemática entre os dados ausentes e alguma informação coletada sobre os dados
  
**3. Missing not at Random (MNAR)**  
Esse é o tipo mais geral e mais complexo. No modelo MNAR, a probabilidade é que os valores faltantes dependam não só dos dados observados assim como dos dados não observados. Não há como ignorar o mecanismo que levou os dados a estarem ausentes. Para esse tipo de dado, não podemos somente ignorar a situação, um tratamento precisa ser realizado.
  
fonte: https://ealexbarros.medium.com/principais-tipos-de-dados-faltantes-missing-em-um-dataset-49aa35cf18c8

In [96]:
import pandas as pd
import numpy as np

### Trabalhando com dados ausentes

Vamos ler a base **IT_Salary_Survey_EU_2020** que está na pasta dados, utilizando o método **pd.read_excel()**

In [97]:
df_salary = pd.read_excel('../Pasta Geral/dados/IT_salary_survey_EU_2020.xlsx')
df_salary.head()

Unnamed: 0,Age,Gender,City,Position,Years of experience,Seniority level,Main technology,Other technologies,Yearly salary,Vacation days,Employment status,Ð¡ontract duration,Language at work,Company size,Company type
0,26,Male,Munich,Software Engineer,5,Senior,TypeScript,"Kotlin, Javascript / Typescript",80000.0,30.0,Full-time employee,Unlimited contract,English,51-100,Product
1,26,Male,Berlin,Backend Developer,7,Senior,Ruby,,80000.0,28.0,Full-time employee,Unlimited contract,English,101-1000,Product
2,29,Male,Berlin,Software Engineer,12,Lead,Javascript / Typescript,"Javascript / Typescript, Docker",120000.0,30.0,Self-employed (freelancer),Temporary contract,English,101-1000,Product
3,28,Male,Berlin,Frontend Developer,4,Junior,Javascript,,54000.0,24.0,Full-time employee,Unlimited contract,English,51-100,Startup
4,37,Male,Berlin,Backend Developer,17,Senior,C# .NET,".NET, SQL, AWS, Docker",62000.0,29.0,Full-time employee,Unlimited contract,English,101-1000,Product


In [98]:
df_salary.tail()

Unnamed: 0,Age,Gender,City,Position,Years of experience,Seniority level,Main technology,Other technologies,Yearly salary,Vacation days,Employment status,Ð¡ontract duration,Language at work,Company size,Company type
1248,31,Male,Berlin,Backend Developer,9,Senior,Java,"Python, Javascript / Typescript, Java / Scala,...",70000.0,26.0,Full-time employee,Unlimited contract,English,51-100,Product
1249,33,Male,Berlin,Researcher/ Consumer Insights Analyst,10,Senior,consumer analysis,,60000.0,0.0,Full-time employee,Unlimited contract,English,1000+,Product
1250,39,Male,Munich,IT Operations Manager,15,Lead,PHP,"Python, C/C++, Javascript / Typescript, Java /...",110000.0,28.0,Full-time employee,Unlimited contract,English,101-1000,eCommerce
1251,26,Male,SaarbrÃ¼cken,Frontend Developer,7,Middle,JavaScript,"Javascript / Typescript, Docker, HTML, CSS",,,,,,,
1252,26,Male,Berlin,DevOps,2,Middle,yaml,"Python, AWS, Kubernetes, Docker, terraform, an...",65000.0,30.0,Full-time employee,Unlimited contract,English,51-100,Startup


Para descobrir quantas ocorrências de dados ausentes existem

In [99]:
# Contando linhas
len(df_salary)

1253

In [100]:
# Contando linhas e colunas
df_salary.shape

(1253, 15)

In [101]:
# Verificando colunas em lista
df_salary.columns

Index(['Age', 'Gender', 'City', 'Position', 'Years of experience',
       'Seniority level', 'Main technology', 'Other technologies',
       'Yearly salary', 'Vacation days', 'Employment status',
       'Ð¡ontract duration', 'Language at work', 'Company size',
       'Company type'],
      dtype='object')

In [102]:
df_salary.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1253 entries, 0 to 1252
Data columns (total 15 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Age                  1253 non-null   int64  
 1   Gender               1243 non-null   object 
 2   City                 1253 non-null   object 
 3   Position             1247 non-null   object 
 4   Years of experience  1253 non-null   int64  
 5   Seniority level      1241 non-null   object 
 6   Main technology      1126 non-null   object 
 7   Other technologies   1096 non-null   object 
 8   Yearly salary        1252 non-null   float64
 9   Vacation days        1252 non-null   float64
 10  Employment status    1235 non-null   object 
 11  Ð¡ontract duration   1223 non-null   object 
 12  Language at work     1236 non-null   object 
 13  Company size         1234 non-null   object 
 14  Company type         1227 non-null   object 
dtypes: float64(2), int64(2), object(11)
me

In [103]:
# df_salary.isnull() ## Criando mascara booleana
valores_nulos = df_salary.isnull().sum() # Somando todos os valores nulos em cada coluna
valores_nulos

Age                      0
Gender                  10
City                     0
Position                 6
Years of experience      0
Seniority level         12
Main technology        127
Other technologies     157
Yearly salary            1
Vacation days            1
Employment status       18
Ð¡ontract duration      30
Language at work        17
Company size            19
Company type            26
dtype: int64

In [104]:
# % do Dataset
(valores_nulos / df_salary.shape[0])*100

Age                     0.000000
Gender                  0.798085
City                    0.000000
Position                0.478851
Years of experience     0.000000
Seniority level         0.957702
Main technology        10.135674
Other technologies     12.529928
Yearly salary           0.079808
Vacation days           0.079808
Employment status       1.436552
Ð¡ontract duration      2.394254
Language at work        1.356744
Company size            1.516361
Company type            2.075020
dtype: float64

### Tratamento dos dados

1) Eliminando ( utilizar somente em último caso )

In [105]:
# Eliminando a linha inteira onde existam valores nulo em qualquer uma das colunas
df_salary.dropna()

Unnamed: 0,Age,Gender,City,Position,Years of experience,Seniority level,Main technology,Other technologies,Yearly salary,Vacation days,Employment status,Ð¡ontract duration,Language at work,Company size,Company type
0,26,Male,Munich,Software Engineer,5,Senior,TypeScript,"Kotlin, Javascript / Typescript",80000.0,30.0,Full-time employee,Unlimited contract,English,51-100,Product
2,29,Male,Berlin,Software Engineer,12,Lead,Javascript / Typescript,"Javascript / Typescript, Docker",120000.0,30.0,Self-employed (freelancer),Temporary contract,English,101-1000,Product
4,37,Male,Berlin,Backend Developer,17,Senior,C# .NET,".NET, SQL, AWS, Docker",62000.0,29.0,Full-time employee,Unlimited contract,English,101-1000,Product
5,32,Male,Berlin,DevOps,5,Senior,"AWS, GCP, Python,K8s","Python, AWS, Google Cloud, Kubernetes, Docker",76000.0,30.0,Full-time employee,Unlimited contract,English,1950-11-01 00:00:00,Startup
7,24,Male,Berlin,Frontend Developer,5,Senior,Typescript,Javascript / Typescript,65000.0,27.0,Full-time employee,Unlimited contract,English,1000+,Product
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1245,28,Male,Berlin,Frontend Developer,5,Middle,JavaScript,Javascript / Typescript,55000.0,30.0,Full-time employee,Unlimited contract,English,101-1000,Product
1247,34,Male,Zurich,Software Engineer,7,Senior,PHP,PHP,108500.0,25.0,Full-time employee,Unlimited contract,English,1950-11-01 00:00:00,Startup
1248,31,Male,Berlin,Backend Developer,9,Senior,Java,"Python, Javascript / Typescript, Java / Scala,...",70000.0,26.0,Full-time employee,Unlimited contract,English,51-100,Product
1250,39,Male,Munich,IT Operations Manager,15,Lead,PHP,"Python, C/C++, Javascript / Typescript, Java /...",110000.0,28.0,Full-time employee,Unlimited contract,English,101-1000,eCommerce


In [106]:
# Eliminando linhas somente onde os dados nulos estão em colunas específicas

df_salary.dropna(subset=['Yearly salary', 'Age'])

Unnamed: 0,Age,Gender,City,Position,Years of experience,Seniority level,Main technology,Other technologies,Yearly salary,Vacation days,Employment status,Ð¡ontract duration,Language at work,Company size,Company type
0,26,Male,Munich,Software Engineer,5,Senior,TypeScript,"Kotlin, Javascript / Typescript",80000.0,30.0,Full-time employee,Unlimited contract,English,51-100,Product
1,26,Male,Berlin,Backend Developer,7,Senior,Ruby,,80000.0,28.0,Full-time employee,Unlimited contract,English,101-1000,Product
2,29,Male,Berlin,Software Engineer,12,Lead,Javascript / Typescript,"Javascript / Typescript, Docker",120000.0,30.0,Self-employed (freelancer),Temporary contract,English,101-1000,Product
3,28,Male,Berlin,Frontend Developer,4,Junior,Javascript,,54000.0,24.0,Full-time employee,Unlimited contract,English,51-100,Startup
4,37,Male,Berlin,Backend Developer,17,Senior,C# .NET,".NET, SQL, AWS, Docker",62000.0,29.0,Full-time employee,Unlimited contract,English,101-1000,Product
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1247,34,Male,Zurich,Software Engineer,7,Senior,PHP,PHP,108500.0,25.0,Full-time employee,Unlimited contract,English,1950-11-01 00:00:00,Startup
1248,31,Male,Berlin,Backend Developer,9,Senior,Java,"Python, Javascript / Typescript, Java / Scala,...",70000.0,26.0,Full-time employee,Unlimited contract,English,51-100,Product
1249,33,Male,Berlin,Researcher/ Consumer Insights Analyst,10,Senior,consumer analysis,,60000.0,0.0,Full-time employee,Unlimited contract,English,1000+,Product
1250,39,Male,Munich,IT Operations Manager,15,Lead,PHP,"Python, C/C++, Javascript / Typescript, Java /...",110000.0,28.0,Full-time employee,Unlimited contract,English,101-1000,eCommerce


2) Inserindo valores em seu lugar
  
a) Média

In [107]:
inserindo_media = df_salary[['Yearly salary']].replace(np.NaN, df_salary['Yearly salary'].mean())
inserindo_media

Unnamed: 0,Yearly salary
0,8.000000e+04
1,8.000000e+04
2,1.200000e+05
3,5.400000e+04
4,6.200000e+04
...,...
1248,7.000000e+04
1249,6.000000e+04
1250,1.100000e+05
1251,-1.244314e+06


b) Mediana

In [108]:
inserindo_mediana = df_salary[['Yearly salary']].replace(np.NaN, df_salary['Yearly salary'].median())
inserindo_mediana

Unnamed: 0,Yearly salary
0,80000.0
1,80000.0
2,120000.0
3,54000.0
4,62000.0
...,...
1248,70000.0
1249,60000.0
1250,110000.0
1251,70000.0


c) Moda (categóricas)

In [109]:
import statistics

estatistica = statistics.mode(df_salary['Seniority level'])

In [110]:
df_salary['Seniority level'].replace(np.NaN, statistics.mode(df_salary['Seniority level']))

0       Senior
1       Senior
2         Lead
3       Junior
4       Senior
         ...  
1248    Senior
1249    Senior
1250      Lead
1251    Middle
1252    Middle
Name: Seniority level, Length: 1253, dtype: object

## Exploratory Data Analysis (EDA)

Conforme dicutimos na primeira aula, uma habilidade **MUITO** importante que cientistas de dados devem ter é a de **olha pros dados**, que quer dizer explorar os dados, ver do que eles se tratam, se habituar com eles.

Essa etapa é muitíssimo importante para que as etapas seguintes, em especial a de modelagem, funcionem adequadamente!

Dentro do jargão da área, essa etapa se chama **Exploratory Data Analysis** (**Análise Exploratória dos Dados**), ou simplesmente EDA. Quando dizemos "olhar pros dados", é a isso que nos referimos!

A etapa de EDA é muitíssimo importante, e deve tomar grande parte de um projeto de ciência de dados, como já discutimos, e ela comumente feita também com o auxílio de **gráficos** e outras ferramentas visuais. Faremos isso no próximo módulo, depois que aprendermos sobre ferramentas importantíssimas de **visualização de dados** (*dataviz*).

Por hora, faremos a EDA apenas utilizando o pandas, utilizando diversos métodos e funções específicas.

Lembre-se: o objetivo é que exploremos os dados o máximo possível! 

Então, essa é a etapa em que:

- Formulamos as perguntas importantes;
- E tentamos respondê-las com base nos dados!

Vamos lá?

### Dataset: Titanic

Agora exploraremos um pouco mais a fundo o dataset do <a href="https://www.kaggle.com/c/titanic">Titanic</a>.

Faremos a leitura da base, e também os primeiros passos da EDA, respondendo diversas perguntas muito interessantes.

Semana que vem, após aprendermos como fazer gráficos, avançaremos na EDA de forma visual!

In [111]:
df = pd.read_csv('../Pasta Geral/dados/titanic_completa_oficial.csv')
df.replace('?', np.NaN, inplace=True)
df

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30,1,2,113781,151.55,C22 C26,S,,135,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,14.5,1,0,2665,14.4542,,C,,328,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5,0,0,2656,7.225,,C,,304,
1307,3,0,"Zakarian, Mr. Ortin",male,27,0,0,2670,7.225,,C,,,


In [112]:
# dimensão do dataframe
# é uma tupla na forma (numero_de_linhas, numero_de_colunas)
df.shape

(1309, 14)

In [113]:
# uma lista com as colunas
df.columns

Index(['pclass', 'survived', 'name', 'sex', 'age', 'sibsp', 'parch', 'ticket',
       'fare', 'cabin', 'embarked', 'boat', 'body', 'home.dest'],
      dtype='object')

In [114]:
df.describe()

Unnamed: 0,pclass,survived,sibsp,parch
count,1309.0,1309.0,1309.0,1309.0
mean,2.294882,0.381971,0.498854,0.385027
std,0.837836,0.486055,1.041658,0.86556
min,1.0,0.0,0.0,0.0
25%,2.0,0.0,0.0,0.0
50%,3.0,0.0,0.0,0.0
75%,3.0,1.0,1.0,0.0
max,3.0,1.0,8.0,9.0


In [115]:
# informações sobre o df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   pclass     1309 non-null   int64 
 1   survived   1309 non-null   int64 
 2   name       1309 non-null   object
 3   sex        1309 non-null   object
 4   age        1046 non-null   object
 5   sibsp      1309 non-null   int64 
 6   parch      1309 non-null   int64 
 7   ticket     1309 non-null   object
 8   fare       1308 non-null   object
 9   cabin      295 non-null    object
 10  embarked   1307 non-null   object
 11  boat       486 non-null    object
 12  body       121 non-null    object
 13  home.dest  745 non-null    object
dtypes: int64(4), object(10)
memory usage: 143.3+ KB


In [116]:
valores_nulos = df.isnull().sum()
(valores_nulos / len(df))*100

pclass        0.000000
survived      0.000000
name          0.000000
sex           0.000000
age          20.091673
sibsp         0.000000
parch         0.000000
ticket        0.000000
fare          0.076394
cabin        77.463713
embarked      0.152788
boat         62.872422
body         90.756303
home.dest    43.086325
dtype: float64

Não vamos esquecer do nosso objetivo

In [117]:
#Verificando quantidade de sobreviventes
df[['survived']].value_counts()

survived
0           809
1           500
dtype: int64

In [118]:
#Verificando percentual de sobreviventes
df[['survived']].value_counts(normalize=True)

survived
0           0.618029
1           0.381971
dtype: float64

In [119]:
#Verificando média de sobreviventes
df[['survived']].mean()

survived    0.381971
dtype: float64

**Bora praticar!**
  
Taxa de sobrevivência por:  
  
1) idade?  
2) faixa etária?  
3) sexo?  
4) classe?   
5) porto de embarque?  
6) preço medio por classe?  
7) fare?  


(Dos que sobreviveram:)

- qtos parentes tinham no navio?
- qtos da mesma família sobreviveram?

In [120]:
df

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30,1,2,113781,151.55,C22 C26,S,,135,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,14.5,1,0,2665,14.4542,,C,,328,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5,0,0,2656,7.225,,C,,304,
1307,3,0,"Zakarian, Mr. Ortin",male,27,0,0,2670,7.225,,C,,,


In [128]:
# Taxa de sobrevivencia por idade
df.pivot_table(index='age', values='survived', aggfunc='mean') *100

Unnamed: 0_level_0,survived
age,Unnamed: 1_level_1
0.1667,100.000000
0.3333,0.000000
0.4167,100.000000
0.6667,100.000000
0.75,66.666667
...,...
74,0.000000
76,100.000000
8,66.666667
80,100.000000


In [126]:
# Calculando a média dos sobreviventes por idade
df_age_survived = df.groupby('age')[['survived']].mean()
df_age_survived

Unnamed: 0_level_0,survived
age,Unnamed: 1_level_1
0.1667,1.000000
0.3333,0.000000
0.4167,1.000000
0.6667,1.000000
0.75,0.666667
...,...
74,0.000000
76,1.000000
8,0.666667
80,1.000000


In [127]:
# Calculando a média dos sobreviventes por sexo
df.pivot_table(index='sex', values='survived', aggfunc='mean') * 100


Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,72.746781
male,19.098458


In [129]:
# Dos sobrevivnetes, qual a média da quantidade de parentes que a pessoa tinha no navio
df.pivot_table(index='survived', values='parch', aggfunc='mean').loc[1]


parch    0.476
Name: 1, dtype: float64

In [131]:
df_surv = df[df['survived'] ==1]['parch']
df_surv.mean()


0.476

**Qual a taxa de sobrevivência entre os gêneros (homens e mulheres) e classe do navio?**

**O local de embarque também afeta a taxa de sobrevivência? E há relação com a classe?**

## Mini tarefa

A partir do dataset Titanic, caso retiremos todos os missing values considerando apenas as 10 primeiras colunas, responda no [link](https://forms.gle/JZNUVw3qpkmJNfui9) quantos registros nos sobrarão?