## Setup

In [2]:
import pandas as pd
import numpy as np

#### Vamos trabalhar com o Dataset de Diabetes de Índios Pina

Colunas:

* 0. Número de vezes grávidas
* 1. Concentração de glicose a 2h de um teste de tolerância a glicose.
* 2. Pressão sanguínea diastólica (mm Hg).
* 3. Mensuração da espessura da pregas cutâneas Tricipital (mm).
* 4. Nível sérico de Insulina após 2h (mu U/ml).
* 5. Body mass index (peso em kg/(altura em m)^2).
* 6. Função Pedigree Diabetes.
* 7. Idade (anos).
* 8. Variável Classe (0 ou 1).

In [3]:
dataset = pd.read_csv('../dados/pima-indians-diabetes.data.txt', header=None)

In [4]:
dataset.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [5]:
dataset.describe()

Unnamed: 0,0,1,2,3,4,5,6,7,8
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


In [6]:
#Número de valores faltantes
print((dataset[[1,2,3,4,5]] == 0).sum())

1      5
2     35
3    227
4    374
5     11
dtype: int64


In [7]:
dataset.loc[:,1:5] = dataset.loc[:,1:5].replace(0,np.nan)

In [8]:
print(dataset.isnull().sum())

0      0
1      5
2     35
3    227
4    374
5     11
6      0
7      0
8      0
dtype: int64


In [9]:
print(dataset.head(20))

     0      1     2     3      4     5      6   7  8
0    6  148.0  72.0  35.0    NaN  33.6  0.627  50  1
1    1   85.0  66.0  29.0    NaN  26.6  0.351  31  0
2    8  183.0  64.0   NaN    NaN  23.3  0.672  32  1
3    1   89.0  66.0  23.0   94.0  28.1  0.167  21  0
4    0  137.0  40.0  35.0  168.0  43.1  2.288  33  1
5    5  116.0  74.0   NaN    NaN  25.6  0.201  30  0
6    3   78.0  50.0  32.0   88.0  31.0  0.248  26  1
7   10  115.0   NaN   NaN    NaN  35.3  0.134  29  0
8    2  197.0  70.0  45.0  543.0  30.5  0.158  53  1
9    8  125.0  96.0   NaN    NaN   NaN  0.232  54  1
10   4  110.0  92.0   NaN    NaN  37.6  0.191  30  0
11  10  168.0  74.0   NaN    NaN  38.0  0.537  34  1
12  10  139.0  80.0   NaN    NaN  27.1  1.441  57  0
13   1  189.0  60.0  23.0  846.0  30.1  0.398  59  1
14   5  166.0  72.0  19.0  175.0  25.8  0.587  51  1
15   7  100.0   NaN   NaN    NaN  30.0  0.484  32  1
16   0  118.0  84.0  47.0  230.0  45.8  0.551  31  1
17   7  107.0  74.0   NaN    NaN  29.6  0.254 

## Lidando com Dados Faltantes

### Remover linhas com dados faltantes

In [10]:
print(dataset.shape)

(768, 9)


In [11]:
dataset_clean = dataset.dropna()
print(dataset_clean.shape)

(392, 9)


### Imputar Dados Faltantes

#### Usando a função fillna() do Pandas

* Um valor constante que tem significado dentro do domínio (ex: 0), distinto de todos os outros valores
* Um valor de outro registro selecionado aleatoriamente
* A média, mediana ou moda da coluna
* Um valor estimado por um modelo preditivo

In [12]:
dataset_imputted = dataset.fillna(dataset.mean())

In [13]:
print(dataset_imputted.isnull().sum())

0    0
1    0
2    0
3    0
4    0
5    0
6    0
7    0
8    0
dtype: int64


#### Usando o SimpleImputer() do scikit-learn

In [14]:
from sklearn.impute import SimpleImputer

In [15]:
dataset.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,6,148.0,72.0,35.0,,33.6,0.627,50,1
1,1,85.0,66.0,29.0,,26.6,0.351,31,0
2,8,183.0,64.0,,,23.3,0.672,32,1
3,1,89.0,66.0,23.0,94.0,28.1,0.167,21,0
4,0,137.0,40.0,35.0,168.0,43.1,2.288,33,1


In [16]:
imputer = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
transformed_values = pd.DataFrame(imputer.fit_transform(dataset))
print(np.isnan(transformed_values).sum())

0    0
1    0
2    0
3    0
4    0
5    0
6    0
7    0
8    0
dtype: int64


In [17]:
transformed_values.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,6.0,148.0,72.0,35.0,105.0,33.6,0.627,50.0,1.0
1,1.0,85.0,66.0,29.0,105.0,26.6,0.351,31.0,0.0
2,8.0,183.0,64.0,32.0,105.0,23.3,0.672,32.0,1.0
3,1.0,89.0,66.0,23.0,94.0,28.1,0.167,21.0,0.0
4,0.0,137.0,40.0,35.0,168.0,43.1,2.288,33.0,1.0


#### Usando o InteractiveImputer() do scikit-learn

In [18]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

In [19]:
imp = IterativeImputer(max_iter=10, random_state=0)
transformed_values_multi = pd.DataFrame(imp.fit_transform(dataset))
# the model learns that the second feature is double the first
print(np.isnan(transformed_values_multi).sum())

0    0
1    0
2    0
3    0
4    0
5    0
6    0
7    0
8    0
dtype: int64


In [20]:
transformed_values_multi.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,6.0,148.0,72.0,35.0,218.90355,33.6,0.627,50.0,1.0
1,1.0,85.0,66.0,29.0,70.314665,26.6,0.351,31.0,0.0
2,8.0,183.0,64.0,21.542952,268.50728,23.3,0.672,32.0,1.0
3,1.0,89.0,66.0,23.0,94.0,28.1,0.167,21.0,0.0
4,0.0,137.0,40.0,35.0,168.0,43.1,2.288,33.0,1.0


#### [InteractiveInput com outros estimatores](https://scikit-learn.org/stable/auto_examples/impute/plot_iterative_imputer_variants_comparison.html#sphx-glr-auto-examples-impute-plot-iterative-imputer-variants-comparison-py)

### Obs: É comum aplicar diferentes técnicas de imputação e replicar o pipeline de análise de dados para ver qual funciona melhor

## Sua vez!

### Dataset: Titanic

#### Dados

* PassengerId: Número de identificação do passageiro;
* Survived: Indica se o passageiro sobreviveu ao desastre. É atribuído o valor de 0 para aqueles que não sobreviveram, e 1 para quem sobreviveu;
* Pclass: Classe na qual o passageiro viajou. É informado 1 para primeira classe; 2 para segunda; e 3 para terceira;
* Name: Nome do passageiro;
* Sex: Sexo do passageiro;
* Age: Idade do passageiro em anos;
* SibSp: Quantidade de irmãos e cônjuges a bordo ;
* Parch: Quantidade de pais e filhos a bordo;
* Ticket: Número da passagem;
* Fare: Preço da passagem;
* Cabin: Número da cabine do passageiro;
* Embarked: Indica o porto no qual o passageiro embarcou. Há apenas três valores possíveis: Cherbourg, Queenstown e Southampton, indicados pelas letras “C”, “Q” e “S”, respectivamente.

In [21]:
titanic_dataset = pd.read_csv('../dados/titanic_train.csv')

#### Faça um sumário descritivo dos dados

#### Quais colunas possuem dados nulos/faltantes?

#### Quantos valores faltantes há em cada coluna?

#### Quantos registros teremos se removermos os registros com dados faltantes?

#### Faça a imputação de dados com a média utilizando Pandas e descreva a distribuição dos dados novamente

#### Faça a imputação de dados com o valor mais comum utilizando Scikit-Learn e descreva a distribuição dos dados novamente

#### Faça a imputação de dados utilizando a Imputação Multivariada e descreva a distribuição dos dados novamente

#### Extra: Faça a imputação de dados utilizando a Imputação Multivariada (aplicando o modelo ExtraTreesRegressor) e descreva a distribuição dos dados novamente