# Predição de bons pagadores de cartão de crédito

## 1. Bibliotecas

In [86]:
import pandas as pd

## 2. Carregando Dados

In [87]:
URL = 'https://github.com/TrainingByPackt/Data-Science-Projects-with-Python/raw/refs/heads/master/Data/default_of_credit_card_clients__courseware_version_1_21_19.xls'
df = pd.read_excel(URL)

## 3. Verificando a integridade dos dados

### 3.1 Verificando as colunas
1) Examine os nomes das colunas executando o comando a seguir na célula: df.columns

In [88]:
print(f'Total de colunas: {len(df.columns)}', '\n')
df.columns

Total de colunas: 25 



Index(['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_1',
       'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
       'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
       'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6',
       'default payment next month'],
      dtype='object')

#### 3.1.1 Dicionário de dados

# 📊 Dicionário de Dados

## Variável Resposta
| Nome | Tipo | Descrição |
|------|------|-----------|
| **default_payment** | Binária (0/1) | Indica inadimplência do pagamento: 1 = Sim, 0 = Não |

---

## Variáveis Explicativas

### 1. Informações Demográficas e de Crédito
| Código | Descrição | Tipo / Escala |
|--------|-----------|---------------|
| **X1** | Montante de crédito concedido (NT dólar), incluindo crédito individual e suplementar da família | Numérica contínua |
| **X2** | Gênero: 1 = Masculino; 2 = Feminino | Categórica |
| **X3** | Escolaridade: 1 = Pós-graduação; 2 = Universidade; 3 = Ensino Médio; 4 = Outros | Categórica |
| **X4** | Estado civil: 1 = Casado; 2 = Solteiro; 3 = Outros | Categórica |
| **X5** | Idade (anos) | Numérica inteira |

---

### 2. Histórico de Pagamentos (Abril a Setembro/2005)
Escala de medição:
- **-1** = Pagamento em dia  
- **1** = Atraso de 1 mês  
- **2** = Atraso de 2 meses  
- ...  
- **8** = Atraso de 8 meses  
- **9** = Atraso de 9 meses ou mais  

| Código | Mês/Ano | Descrição |
|--------|---------|-----------|
| **X6** | Set/2005 | Status do pagamento |
| **X7** | Ago/2005 | Status do pagamento |
| **X8** | Jul/2005 | Status do pagamento |
| **X9** | Jun/2005 | Status do pagamento |
| **X10** | Mai/2005 | Status do pagamento |
| **X11** | Abr/2005 | Status do pagamento |

---

### 3. Valor da Fatura (NT dólar)
| Código | Mês/Ano | Descrição |
|--------|---------|-----------|
| **X12** | Set/2005 | Valor da fatura |
| **X13** | Ago/2005 | Valor da fatura |
| **X14** | Jul/2005 | Valor da fatura |
| **X15** | Jun/2005 | Valor da fatura |
| **X16** | Mai/2005 | Valor da fatura |
| **X17** | Abr/2005 | Valor da fatura |

---

### 4. Valor do Pagamento Anterior (NT dólar)
| Código | Mês/Ano | Descrição |
|--------|---------|-----------|
| **X18** | Set/2005 | Valor do pagamento anterior |
| **X19** | Ago/2005 | Valor do pagamento anterior |
| **X20** | Jul/2005 | Valor do pagamento anterior |
| **X21** | Jun/2005 | Valor do pagamento anterior |
| **X22** | Mai/2005 | Valor do pagamento anterior |
| **X23** | Abr/2005 | Valor do pagamento anterior |


### 3.2 Dando uma olhada nos nossos dados.
2) Digite o comando a seguir na célula subsequente e execute-o usando
Shift + Enter: `df.head()`

In [89]:
df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,798fc410-45c1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,0,689,0,0,0,0,1
1,8a8c8f3b-8eb4,120000,2,2,2,26,-1,2,0,0,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,85698822-43f5,90000,2,2,2,34,0,0,0,0,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,0737c11b-be42,50000,2,2,1,37,0,0,0,0,...,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,3b7f77cc-dbc0,50000,1,2,1,57,-1,0,-1,0,...,20940,19146,19131,2000,36681,10000,9000,689,679,0


### 3.3 Verificando se todos os IDs são únicos
3) Selecione a coluna alvo (ID) e conte os valores exclusivos usando o
comando a seguir: `df['ID'].nunique()`


In [90]:
df['ID'].nunique()

29687

Como foi retornado um valor menor que 30000, então há linhas que estão se repetindo.

### 3.4 Verificando o total de linhas

In [91]:
df.shape[0] # Retorna apenas a primeira posição da tupla - linhas

30000

### 3.5 Contagem de IDs
5) Armazene as contagens de valores em uma variável denida como
`id_counts` e exiba os valores armazenados usando o método `.head()`,
como mostrado:

In [92]:
id_counts = df['ID'].value_counts()
id_counts.head()

Unnamed: 0_level_0,count
ID,Unnamed: 1_level_1
89f8f447-fca8,2
7c9b7473-cc2f,2
90330d02-82d9,2
75938fec-e5ec,2
2a793ecf-05c6,2


### 3.6 Contagem de repetições
6) Exiba o número de entradas duplicadas agrupadas executando outra
contagem de valores:

`id_counts.value_counts()`

In [93]:
id_counts.value_counts()

Unnamed: 0_level_0,count
count,Unnamed: 1_level_1
1,29374
2,313


A primeira linha mostra quantos números aparecem apenas uma vez, já a segunda mostra quantos números apareceram duas vezes.
`1*29374+2*313 = 30000`

## 4. Análise de Dados Duplicados
1) Continuando onde paramos no Exercício 3, queremos os índices da
série id_counts cuja contagem é 2 para localizar as duplicatas.
Atribuiremos os IDs duplicados a uma variável chamada dupe_mask e
exibiremos os cinco primeiros IDs duplicados usando os comandos a
seguir:
`dupe_mask = id_counts == 2`

`dupe_mask[0:5]`

### 4.1 IDs que se repetem

In [94]:
dupe_mask = id_counts == 2
dupe_mask[0:5]

Unnamed: 0_level_0,count
ID,Unnamed: 1_level_1
89f8f447-fca8,True
7c9b7473-cc2f,True
90330d02-82d9,True
75938fec-e5ec,True
2a793ecf-05c6,True


### 4.2 Exibindo os 5 primeiros índices

2) Acesse o índice de id_count e exiba as cinco primeiras linhas como
contexto usando o comando a seguir:

`id_counts.index[0:5]`


In [95]:
id_counts.index[:5] # .index retorna apenas o índice, sem o valor associado a ele (que é o número de ocorrências de casa índice).

Index(['89f8f447-fca8', '7c9b7473-cc2f', '90330d02-82d9', '75938fec-e5ec',
       '2a793ecf-05c6'],
      dtype='object', name='ID')

### 4.3 Selecionar os IDs duplicados.

3) Selecione e armazene os IDs duplicados em uma nova variável chamada
dupe_ids usando o comando a seguir:

`dupe_ids = id_counts.index[dupe_mask]`

In [96]:
dupe_ids = id_counts.index[dupe_mask] # Retorna os índices que estão duplicados baseada na máscara que está entre colchetes (verdadeiro e falso)
dupe_ids

Index(['89f8f447-fca8', '7c9b7473-cc2f', '90330d02-82d9', '75938fec-e5ec',
       '2a793ecf-05c6', 'b44b81b2-7789', '7be61027-a493', '998fa9b2-b341',
       'a3a5c0fc-fdd6', '4e2380e6-a8cf',
       ...
       'b6ca3733-7459', '4f249cbc-5e9c', '3fddeb07-b7f0', '63338f74-01be',
       '327d06d5-ce7f', '71b5009c-75c8', 'b4937915-ad67', 'fc73f07e-eb96',
       '2a8ad33f-fa9c', '841ae407-dc4c'],
      dtype='object', name='ID', length=313)

### 4.4 Converter para lista
4) Converta dupe_ids em uma lista e obtenha seu tamanho usando os
seguintes comandos:

`dupe_ids = list(dupe_ids)`

`len(dupe_ids)`

In [97]:
dupe_ids = list(dupe_ids)
len(dupe_ids)

313

### 4.5 Verificando os 5 primeiros itens

5) Verificaremos os dados de dupe_ids exibindo as cinco primeiras
entradas com o comando a seguir:

`dupe_ids[0:5]`

In [98]:
dupe_ids[0:5]

['89f8f447-fca8',
 '7c9b7473-cc2f',
 '90330d02-82d9',
 '75938fec-e5ec',
 '2a793ecf-05c6']

### 4.6 Selecionando linhas com IDs duplicados

6) Execute o comando a seguir em seu Notebook para pôr em prática o
plano que formulamos na etapa anterior:

`df.loc[df['ID'].isin(dupe_ids[0:3]),:].head(10)`

In [99]:
# Seleciona as 10 primeiras linhas em que a coluna 'ID' está entre os 3 primeiros valores da lista dupe_ids
df.loc[df['ID'].isin(dupe_ids[0:3]),:].head(10)

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
5033,89f8f447-fca8,320000,2,2,1,32,0,0,0,0,...,169371,172868,150827,8000,8000,5500,6100,6000,5000,0
5133,89f8f447-fca8,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
15879,7c9b7473-cc2f,90000,2,1,1,29,0,0,0,0,...,27751,20292,14937,2967,2007,1429,1092,412,263,0
15979,7c9b7473-cc2f,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
29646,90330d02-82d9,70000,1,2,1,29,0,0,0,0,...,10694,27908,11192,2009,1404,3016,20001,2000,5002,0
29746,90330d02-82d9,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


### 4.7 Preparando a matriz booleana para a filtragem do DataFrame

7) Crie uma matriz booleana com o mesmo tamanho do DataFrame
inteiro usando ==, como mostrado:

`df_zero_mask = df == 0`

In [100]:
df_zero_mask = df == 0
df_zero_mask

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,False,False,False,False,False,False,False,False,False,False,...,True,True,True,True,False,True,True,True,True,False
1,False,False,False,False,False,False,False,False,True,True,...,False,False,False,True,False,False,False,True,False,False
2,False,False,False,False,False,False,True,True,True,True,...,False,False,False,False,False,False,False,False,False,True
3,False,False,False,False,False,False,True,True,True,True,...,False,False,False,False,False,False,False,False,False,True
4,False,False,False,False,False,False,False,True,False,True,...,False,False,False,False,False,False,False,False,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29995,False,False,False,False,False,False,True,True,True,True,...,False,False,False,False,False,False,False,False,False,True
29996,False,False,False,False,False,False,False,False,False,False,...,False,False,True,False,False,False,False,True,True,True
29997,False,False,False,False,False,False,False,False,False,False,...,False,False,False,True,True,False,False,False,False,False
29998,False,False,False,False,False,False,False,False,True,True,...,False,False,False,False,False,False,False,False,False,False


### 4.8 Criando uma série booleana

8) Crie a série booleana `feature_zero_mask`, como mostrado aqui:

`feature_zero_mask = df_zero_mask.iloc[:,1:].all(axis=1)`

In [101]:
# Seleciona todas as linhas e colunas (com exceção de ID) e verifica se os valores das colunas é igual a 0. Retorna False se o valor for diferente de 0 e True se for 0.
feature_zero_mask = df_zero_mask.iloc[:,1:].all(axis=1)
feature_zero_mask

Unnamed: 0,0
0,False
1,False
2,False
3,False
4,False
...,...
29995,False
29996,False
29997,False
29998,False


### 4.9 Soma de linhas com todas as colunas zeradas (exceto ID)
9) Calcule a soma da série booleana usando este comando:

`sum(feature_zero_mask)`

In [102]:
sum(feature_zero_mask)

315

### 4.10 Eliminar as linhas com todas as colunas zeradas

10) Limpe o DataFrame eliminando as linhas só com zeros, exceto pelo ID,
usando o código a seguir:

`df_clean_1 = df.loc[~feature_zero_mask,:].copy()`

In [103]:
#O uso do ~ é pra transformas os false em true e mostrar apenas as linhas que não estão zeradas
df_clean_1 = df.loc[~feature_zero_mask,:].copy()
df_clean_1

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,798fc410-45c1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,0,689,0,0,0,0,1
1,8a8c8f3b-8eb4,120000,2,2,2,26,-1,2,0,0,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,85698822-43f5,90000,2,2,2,34,0,0,0,0,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,0737c11b-be42,50000,2,2,1,37,0,0,0,0,...,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,3b7f77cc-dbc0,50000,1,2,1,57,-1,0,-1,0,...,20940,19146,19131,2000,36681,10000,9000,689,679,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29995,ecff42d0-bdc6,220000,1,3,1,39,0,0,0,0,...,88004,31237,15980,8500,20000,5003,3047,5000,1000,0
29996,99d1fa0e-222b,150000,1,3,2,43,-1,-1,-1,-1,...,8979,5190,0,1837,3526,8998,129,0,0,0
29997,95cdd3e7-4f24,30000,1,2,2,37,4,3,2,-1,...,20878,20582,19357,0,0,22000,4200,2000,3100,1
29998,00d03f02-04cd,80000,1,3,1,41,1,-1,0,0,...,52774,11855,48944,85900,3409,1178,1926,52964,1804,1


### 4.11 Verificando o shape do DataFrame

11) Verifique o número de linhas e colunas de df_clean_1 executando o
código a seguir:

`df_clean_1.shape`

In [104]:
# Tamanho do novo dataframe
df_clean_1.shape

(29685, 25)

In [105]:
# Número de IDs exclusivos/únicos
df_clean_1['ID'].nunique()

29685

Como o número de linhas do novo DataFrame é igual ao número de IDs exclusivos, então a exclusão dos IDs duplicados em linhas zeradas foi concluída com sucesso.