O tratamento dos dados é uma das tarefas mais árduas e exige um certo esforço e dedicação para que o resultado do trabalho final seja mais acertivo.
Nesse material, vou demonstrar algumas possibilidades de como podem ser tratados os dados, dentro elas o preenchimento com a moda, com dados randômicos seguindo uma maioria dos casos e outros.

## Informações do conjunto de dados:

Para esse exercício irei utilizar um banco de dados relacionado com campanhas de marketing direto de uma instituição bancária portuguesa. As campanhas de marketing foram baseadas em chamadas telefônicas. Muitas vezes, era necessário mais de um contato para o mesmo cliente, a fim de acessar se o produto (depósito a prazo bancário) seria ('sim') ou não ('não') subscrito.

Neste exercício não irei demonstrar o uso deste dataset em machine learning, pois o foco aqui é apenas o tratamento dos dados. Em outro exercício irei demonstrar os resultados da classificação onde será possível prever se o cliente irá assinar (sim / não) um depósito a um termo (variável y).

Começamos importando as bibliotecas e o dataset

In [None]:
import pandas as pd
import numpy as np

In [None]:
# Run this cell to mount your Google Drive.
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
dataset = pd.read_csv('/content/drive/My Drive/Colab Notebooks/callcenter_marketing.csv', sep=",")

#As taxas Euribor baseiam-se na média das taxas de juros praticadas em empréstimos interbancários em euros 
#por cerca 25/40 bancos proeminentes europeus (o painel de Bancos)

Vamos dar uma olhada rápida em como estão distribuídos os dados:

In [None]:
dataset.head()

Unnamed: 0,idade,profissao,estado_civil,educacao,inadimplente,emprestimo_moradia,emprestimo_pessoal,meio_contato,mes,dia_da_semana,duracao,qtd_contatos_campanha,dias_ultimo_contato,qtd_contatos_total,campanha_anterior,indice_precos_consumidor,indice_confianca_consumidor,euribor3m,resultado
0,56,dona_casa,casado,fundamental_4a,nao,nao,nao,telefone,mai,seg,261,1,999,0,nao_existente,93.994,-36.4,4.857,nao
1,57,servicos,casado,ensino_medio,,nao,nao,telefone,mai,seg,149,1,999,0,nao_existente,93.994,-36.4,4.857,nao
2,37,servicos,casado,ensino_medio,nao,sim,nao,telefone,mai,seg,226,1,999,0,nao_existente,93.994,-36.4,4.857,nao
3,40,admin.,casado,fundamental_6a,nao,nao,nao,telefone,mai,seg,151,1,999,0,nao_existente,93.994,-36.4,4.857,nao
4,56,servicos,casado,ensino_medio,nao,nao,sim,telefone,mai,seg,307,1,999,0,nao_existente,93.994,-36.4,4.857,nao


In [None]:
dataset.shape

(41188, 19)

Podemos verificar que este dataset tem aproximadamente 40 mil linhas em 17 variáveis.

As variáveis são: 

idade (númerico)

profissao (categórico)

estado_civil (categórico)

educacao (categórico)

inadimplente (categórico)

emprestimo_moradia (categórico)

emprestimo_pessoal (categórico)

meio_contato (categórico)

mes (categórico)

dia_da_semana (categórico)

duracao (numérico)

qtd_contatos_campanha (categórico)

dias_ultimo_contato (numérico)

qtd_contatos_total (numérico)

campanha_anterior (categórico)

indice_precos_consumidor (numérico)

indice_confianca_consumidor (numérico)

euribor3m (numérico)

resultado (binário)

Antes de iniciar o tratamento, devemos saber se temos dados faltantes e, caso sim, onde estão os mesmos:

In [None]:
dataset.isnull().sum()

idade                             0
profissao                       330
estado_civil                     80
educacao                       1731
inadimplente                   8597
emprestimo_moradia              990
emprestimo_pessoal              990
meio_contato                      0
mes                               0
dia_da_semana                     0
duracao                           0
qtd_contatos_campanha             0
dias_ultimo_contato               0
qtd_contatos_total                0
campanha_anterior                 0
indice_precos_consumidor          0
indice_confianca_consumidor       0
euribor3m                         0
resultado                         0
dtype: int64

Agora ficou claro que existem dados faltantes nas variáveis profissao, educacao, inadimplente, emprestimo_moradia e emprestimo_pessoal. Como esse exemplo trata-se apenas de tratamento de dados, será utilizada apenas as variáveis emprestimo_pessoal e estado_civil.

In [None]:
#Aqui visualizamos como estão distribuídos os dados originais:
dataset['emprestimo_pessoal'].value_counts()

nao    33950
sim     6248
Name: emprestimo_pessoal, dtype: int64

Como será feito diferentes formas de tratamento, crio diferentes dataset's para facilitar a visualização do resultado de cada exemplo.

In [None]:
df_ep_mode = dataset['emprestimo_pessoal']

In [None]:
df_ep_porcentagem = dataset['emprestimo_pessoal']

In [None]:
df_ep_del = dataset['emprestimo_pessoal']

## Tratamento utilizando números randômicos com base na porcentagem da distribuição dos dados válidos.

Primeiro precisamos calcular qual a porcentagem dos dados no dataset. Pegamos os valores por categoria e dividimos pela diferença entre o total de dados e os dados faltantes da variável.

In [None]:
dataset['emprestimo_pessoal'].value_counts()/(dataset.shape[0]-990)

nao    0.844569
sim    0.155431
Name: emprestimo_pessoal, dtype: float64

86% dos dados estão concentrados em usuários que não possuem empréstimos. Abaixo foi é chamada uma função randômica com números de 1 a 100, definindo que os números menores ou igual a 86, serão classificados como não e para os demais números randômicos, sera definido como sim. Ao final é feito a alteração no dataset utilizando um apply.

In [None]:
def define_pessoal(valor):
    numero = np.random.randint(1,100)    
    if pd.isnull(valor):
        if numero<=85:
            return 'nao'
        else:
            return 'sim'
    else:
        return valor
#Chamamos o resultado da função e aplicamos no dataset, confirmando a alteração.
df_ep_porcentagem = df_ep_porcentagem.apply(define_pessoal)

Veja abaixo como ficaram os dados após esse exemplo de tratamento:

In [None]:
df_ep_porcentagem.value_counts()

nao    33950
sim     6248
Name: emprestimo_pessoal, dtype: int64

In [None]:
df_ep_porcentagem.isnull().sum()

0

## Tratamento utilizando a moda da variável:

In [None]:
df_ep_mode.fillna(df_ep_mode.mode()[0], inplace=True)
df_ep_mode.value_counts()

nao    33950
sim     6248
Name: emprestimo_pessoal, dtype: int64

In [None]:
df_ep_mode.isnull().sum()

0

##Tratamento apenas para excluir os dados faltantes

Neste exemplo separamos apenas uma coluna para exemplo, mas caso esse método fosse utilizado no dateset completo, poderíamos excluir apenas as linhas de uma determinada variável ou até mesmo toda a variável.

In [None]:
df_ep_del.dropna(inplace=True)

In [None]:
df_ep_del.isnull().sum()

0

##Classificar em uma nova categoria da variável: 

Ao preencher as informações categóricas como genêro, estado civil, educação (neste exemplo) com valores randômicos, pela moda, média ou algum especifico, pode gerar uma leitura errada na análise exploratória. Por isso o ideal é classificar os missing values  para uma nova categoria.

In [None]:
df_ec = dataset['estado_civil']

In [None]:
df_ec.value_counts()

casado        24928
solteiro      11568
divorciado     4612
Name: estado_civil, dtype: int64

In [None]:
df_ec.isnull().sum()

80

In [None]:
df_ec.fillna('não definido', inplace=True)

In [None]:
df_ec.value_counts()

casado          24928
solteiro        11568
divorciado       4612
não definido       80
Name: estado_civil, dtype: int64