# Exploração e limpeza de dados

### Diferentes tipos de problemas da ciência de dados

- problema de regressão

Por exemplo, prever o preço de uma casa. O esperado é que fique perto do preço real

- problema de classificação

Por exemplo, prever uma resposta sim ou não para uma pergunta. O esperado é a resposta correta.

Ambos problemas são chamados de **aprendizado supervisionado**, um tipo de problema que depende de dados rotulados

### DataFrame

DataFrame é uma classe básica do pandas. Funciona como um template para uma estrutura de dados.

Exemplo de um DataFarme:

|    | ID | Sex | Name |
|----|----|-----|------|
| 1  | 001|M    | Pedro|
| 2  | 002|F    | Ana  |

Tabela: *Exemplo de DataFrame do pandas com um ímdice de linha inteiro à esquerda e um índice de coluna na forma de strings*

In [1]:
# Carregando os dados do estudo de caso em um jupyter notebook

## importar pandas

import pandas as pd

In [2]:
# importando o dataset usando o método pd.read_excel

df = pd.read_excel('C:/Users/Renato/OneDrive/github/Data_science_for_architecture/projetos_de_ciencias_de_dados_com_python/Data/default_of_credit_card_clients__courseware_version_1_21_19.xls')

In [9]:
# testando a importação do dataset via pandas
# Use o método .info() para ver todas as colunas com os tipos de dados

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   ID                          30000 non-null  object
 1   LIMIT_BAL                   30000 non-null  int64 
 2   SEX                         30000 non-null  int64 
 3   EDUCATION                   30000 non-null  int64 
 4   MARRIAGE                    30000 non-null  int64 
 5   AGE                         30000 non-null  int64 
 6   PAY_1                       30000 non-null  object
 7   PAY_2                       30000 non-null  int64 
 8   PAY_3                       30000 non-null  int64 
 9   PAY_4                       30000 non-null  int64 
 10  PAY_5                       30000 non-null  int64 
 11  PAY_6                       30000 non-null  int64 
 12  BILL_AMT1                   30000 non-null  int64 
 13  BILL_AMT2                   30000 non-null  in

### O problema da empresa

Cliente é uma empresa de cartão de crédito. O dataset inclui dados demográficos e financeiros recentes (6 últimos meses) de uma amostra de 30.000 titulares.

As linhas são rotuladas de acordo com se no mês seguinte ao período de dados histórico de seis meses um proprietário de conta ficou inadimplente, ou seja, não fez o pagamento mínimo.

### Objetivo

Desenvolver um modelo que preveja se uma conta ficará inadimplente no próximo mês.

# Etapa de exploração de dados

Algumas etapas úteis para a exploração de dados:  

- saber quantas colunas os dados contêm (características, resposta ou metadados);
- quantas linhas (amostras);
- que tipos de características existem (categóricas (sim/não/talvez) ou númericas);
- qual é a aparência dos dados segundo essas características;
- há dados faltando?
    

In [17]:
# Verificando a integridade básica dos dados

# Empregar o método .columns do DataFrame para examinar os nomes de todas as colunas.

df.columns

Index(['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_1',
       'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
       'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
       'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6',
       'default payment next month'],
      dtype='object')

Como podemos ver, os nomes de todas as colunas estão listadas na saída. A coluna IDs de contas chama-se ID. As outras colunas parecem ser as **características**, com a última coluna sendo a **variável de resposta**.

Resumo das informações do dataset que nos foi dado pela clinte:

- 'ID - coluna de IDs de contas'; 
- 'LIMIT_BAL' - valor do crédito fornecido inclusive o crédito do consumidor individual e familiar (complementar); 
- 'SEX' - gênero (1=masculino; 2=feminino); 
- 'EDUCATION' - instrução (1=pós-graduação; 2=universidade; 3=ensino médio; 4=outros); 
- 'MARRIAGE' - estado civil (1=casado; 2=solteiro; 3=outros), 
- 'AGE' - idade (ano); 
- 'PAY_1'-'PAY_6' - registro de pagamentos passados.  Pagamentos mensais passados, registrados de abril a setembro, são armazenados nessas colunas;
- 'PAY_1' - representa o status de reembolso em setembro;
- 'PAY_2', - status de reembolso em agosto;
- 'PAY_3', - status de reembolso em julho;
- 'PAY_4', - status de reembolso em junho;
- 'PAY_5', - status de reembolso em maio;
- 'PAY_6', - status de reembolso em abril;

A escala de medida do status de reembolso é a seguinte: -1 = pagamento pontual; 1 = atraso de um mês no pagamento; 2 = atraso de dois meses no pagamento; e assim por diante até 8 = atraso de oito meses no pagamento; 9 = atraso de nove meses ou mais no pagamento.

- 'BILL_AMT1'-'PAY_AMT6', - valorda fatura; 
- 'BILL_AMT1' - representa o valor da fatura em setembro;
- 'BILL_AMT2' - representa o valor da fatura em agosto;
- 'BILL_AMT3' - representa o valor da fatura em julho; 
- 'BILL_AMT4' - representa o valor da fatura em junho; 
- 'BILL_AMT5' - representa o valor da fatura em maio; 
- 'BILL_AMT6' - representa o valor da fatura em abril; 
- 'PAY_AMT1'-'PAY_AMT6' - valor de pagamentos anteriores;
- 'PAY_AMT1' - representa o valor pago em setembro;
- 'PAY_AMT2' - representa o valor pago em agosto; 
- 'PAY_AMT3' - representa o valor pago em julho; 
- 'PAY_AMT4' - representa o valor pago em junho; 
- 'PAY_AMT5' - representa o valor pago em maio; 
- 'PAY_AMT6' - representa o valor pago em abril;
- 'default payment next month'

Notas: 
- não usaremos os dados de gênero para tomar decisões de solvibilidade devido a cosiderações éticas;
- valores em novos dólares taiwaneses; 

In [6]:
# Use o método .head() para ver as primeiras linhas do DataFrame

df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,798fc410-45c1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,0,689,0,0,0,0,1
1,8a8c8f3b-8eb4,120000,2,2,2,26,-1,2,0,0,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,85698822-43f5,90000,2,2,2,34,0,0,0,0,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,0737c11b-be42,50000,2,2,1,37,0,0,0,0,...,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,3b7f77cc-dbc0,50000,1,2,1,57,-1,0,-1,0,...,20940,19146,19131,2000,36681,10000,9000,689,679,0


A coluna ID parece conter identificadores exclusivos. Para verificar se isso ocorre realmente em todo o dataset, podemos contar o número de valores exclusivos usando o método **.nunique()** da **série** (ou seja, coluna) ID. Primeiro, selecionaremos a coluna usando colchetes.

In [7]:
# descobrindo um problema de qualidade de dados
# A função pandas .nunique() retorna o número de elementos únicos no objeto.

df['ID'].nunique()

29687

Agora, vamos executar o comando **.shape** para descobrir o número de linhas do dataset

In [8]:
# descobrindo o números de linhas do dataset

df.shape

(30000, 25)

Identificamos que o número de IDs exclusivos é menor do que o número de linhas. Isso significa que o **ID não é um identificador exclusivo** para as linhas de dados.

Sabemos então que há alguma duplicação de IDs. No entanto, em que quantidades? Um único ID está sendo duplicado várias vezes? Quantos IDs estão sendo duplicados?

Podemos usar o método **.value_counts()** na série ID para começar a responder a essas perguntas. Ele é semelhante a um procedimento **group by/count** em SQL e listará os IDs exclusivos e a frequência com que ocorrem. Executaremos essa operação na próxima etapa e armazenaremos as contagens de valores em uma variável **id_counts**.

In [10]:
# armazene as contagens de valores em uma variável definida como id_counts e exiba os valores armazenados usando o método .head()

id_counts = df['ID'].value_counts()

In [11]:
id_counts.head()

ca3910f2-92ca    2
0a8272b2-78aa    2
85bd7f39-2e9b    2
7be61027-a493    2
0ab4e6e8-69e5    2
Name: ID, dtype: int64

Observe que o **.head()** retorna, por padrão, as cinco primeiras linhas. Podemos especificar o número de itens a serem exibidos passando o número desejado nos parênteses, ().

In [12]:
id_counts.head(15)

ca3910f2-92ca    2
0a8272b2-78aa    2
85bd7f39-2e9b    2
7be61027-a493    2
0ab4e6e8-69e5    2
424e8a3c-0377    2
62608fd2-d7fb    2
b1c90397-5fb2    2
0170086d-7472    2
5ce60722-dbd1    2
b6ca3733-7459    2
7dbc4ebf-4b4f    2
b557f3c2-ebec    2
7b6e060a-97a0    2
9a75e346-c849    2
Name: ID, dtype: int64

In [13]:
# exiba o número de entradas duplicadas agrupadas executando outra contagem de valores

id_counts.value_counts()

1    29374
2      313
Name: ID, dtype: int64

Na saída acima podemos ver que a maioria dos IDs ocorre exatamente uma única vez, como esperado. No entanto, 313 IDs ocorrem duas vezes. Logo, nenhum ID ocorre mais do que duas vezes.

De posse dessas informações, estamos prontos para começar a examinar mais detalhadamente esse problema de qualidade de dados e corrigi-lo. Criaremos máscaras booleanas para limpar melhor os dados.