# Análise da qualidade dos dados - Empresa de cartão de crédito. Verificação de itens repetidos no dataset

Dados demográficos e financeiros de 30 mil contas. 
Dataset: http://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients

Objetivo: eliminar linhas duplicadas, após encontrá-las no dataset.

Análise para treino de exercício indicado por Klosterman, Stephen (2019)

In [34]:
import pandas as pd

In [35]:
df = pd.read_excel('default_of_credit_card_clients__courseware_version_1_21_19.xls')

In [36]:
df.columns

Index(['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_1',
       'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
       'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
       'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6',
       'default payment next month'],
      dtype='object')

In [37]:
df.head() #Qual a configuração do data set? (Configuração das primeiras linhas)
#Cada linha apresenta dados de um cliente, no período de seis meses.

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,798fc410-45c1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,0,689,0,0,0,0,1
1,8a8c8f3b-8eb4,120000,2,2,2,26,-1,2,0,0,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,85698822-43f5,90000,2,2,2,34,0,0,0,0,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,0737c11b-be42,50000,2,2,1,37,0,0,0,0,...,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,3b7f77cc-dbc0,50000,1,2,1,57,-1,0,-1,0,...,20940,19146,19131,2000,36681,10000,9000,689,679,0


In [30]:
df.shape  #Qual o total de linhas e colunas?

(30000, 25)

In [31]:
df['ID'].nunique() #Qual o total de itens únicos na coluna "ID"? (identificação)

29687

29687 do total de 30000 são dados únicos na coluna de identificação (ID).

In [9]:
import numpy as  #Importando a biblioteca Numpy

In [32]:
id_counts = df['ID'].value_counts()     #Contagem de IDs têm mais de uma entrada (repetidos)?
id_counts.head

<bound method NDFrame.head of 6353fd55-d66e    2
5ce60722-dbd1    2
91c69d1a-8732    2
bae9475e-7cad    2
9c53fb07-9b73    2
                ..
75b27b0d-8a56    1
70e7b8b0-3e7f    1
f5b88b98-61a8    1
b5fd6b02-4ac7    1
f9d3332c-1ab1    1
Name: ID, Length: 29687, dtype: int64>

Para encontrar as linhas duplicadas, criaremos uma máscara booleana que encontrará e contará as duplicatas na coluna ID.

In [41]:
dupe_mask = id_counts == 2
dupe_mask[0:5]

6353fd55-d66e    True
5ce60722-dbd1    True
91c69d1a-8732    True
bae9475e-7cad    True
9c53fb07-9b73    True
Name: ID, dtype: bool

Uma nova variável que denominaremos dupe_ids será criada para selecionar e armazenas os IDs duplicados.

In [43]:
dupe_ids = id_counts.index[dupe_mask]

O próximo comando converterá a variável criada acima (dupe_id) em uma lista, cujo tamanho verificaremos.

In [44]:
dupe_ids = list(dupe_ids)   #Criação da lista 'dupe_ids'
len(dupe_ids)

313

Verificamos acima que há 313 repetições de IDs, que deverão ser eliminados

In [45]:
dupe_ids[0:8]  #Listar com exemplos de IDs duplicados

['6353fd55-d66e',
 '5ce60722-dbd1',
 '91c69d1a-8732',
 'bae9475e-7cad',
 '9c53fb07-9b73',
 '04299d54-61d4',
 '56126c14-b5b8',
 '33b2b726-61a8']

O comando a seguir fará várias operações, incluindo criar nova máscara lógica, indexação e seleção do local das linhas 

In [52]:
df.loc[df['ID'].isin(dupe_ids[0:3]),:].head(6)

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
12769,91c69d1a-8732,70000,2,2,2,22,0,-1,0,0,...,50716,48862,49850,68209,2081,2000,2000,1828,1518,0
12869,91c69d1a-8732,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
21205,5ce60722-dbd1,150000,1,2,1,40,0,0,0,0,...,28265,25402,21514,35749,3016,1201,601,2002,1020,0
21305,5ce60722-dbd1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
28499,6353fd55-d66e,260000,2,2,2,34,-2,-2,-2,-1,...,27500,27500,33880,2985,11247,27500,0,21380,0,0
28599,6353fd55-d66e,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


A segunda linha repete o ID da primeira com zeros em todas as colunas. Para eliminar as duplicadas, utilizaremos uma matriz booleana

In [54]:
df_máscara_zeros = df == 0  #Criação da matriz booleana

In [55]:
características_máscara_zero = df_máscara_zeros.iloc[:,1:].all(axis=1) #

In [56]:
sum(características_máscara_zero) #Soma da série booleana

315

# Apagar as linhas que tinham ID repetido e demais colunas com zeros. Criação de novo dataframe (copy).

In [58]:
df_limpo_1 = df.loc[~características_máscara_zero,:].copy()

Estamos agora operando com o df_limpo_1

Estão selecionados todos que não são zero (~)

In [59]:
df_limpo_1.shape

(29685, 25)

In [60]:
df_limpo_1['ID'].nunique()

29685