# Predição de bons pagadores de cartão de crédito

## 1. Bibliotecas

In [4]:
import pandas as pd

## 2. Carregando Dados

In [5]:
URL = 'https://github.com/TrainingByPackt/Data-Science-Projects-with-Python/raw/refs/heads/master/Data/default_of_credit_card_clients__courseware_version_1_21_19.xls'
df = pd.read_excel(URL)

## 3. Verificando a integridade dos dados

### 3.1 Verificando as colunas
1) Examine os nomes das colunas executando o comando a seguir na célula: df.columns

In [10]:
print(f'Total de colunas: {len(df.columns)}', '\n')
df.columns

Total de colunas: 25 



Index(['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_1',
       'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
       'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
       'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6',
       'default payment next month'],
      dtype='object')

#### 3.1.1 Dicionário de dados

# 📊 Dicionário de Dados

## Variável Resposta
| Nome | Tipo | Descrição |
|------|------|-----------|
| **default_payment** | Binária (0/1) | Indica inadimplência do pagamento: 1 = Sim, 0 = Não |

---

## Variáveis Explicativas

### 1. Informações Demográficas e de Crédito
| Código | Descrição | Tipo / Escala |
|--------|-----------|---------------|
| **X1** | Montante de crédito concedido (NT dólar), incluindo crédito individual e suplementar da família | Numérica contínua |
| **X2** | Gênero: 1 = Masculino; 2 = Feminino | Categórica |
| **X3** | Escolaridade: 1 = Pós-graduação; 2 = Universidade; 3 = Ensino Médio; 4 = Outros | Categórica |
| **X4** | Estado civil: 1 = Casado; 2 = Solteiro; 3 = Outros | Categórica |
| **X5** | Idade (anos) | Numérica inteira |

---

### 2. Histórico de Pagamentos (Abril a Setembro/2005)
Escala de medição:
- **-1** = Pagamento em dia  
- **1** = Atraso de 1 mês  
- **2** = Atraso de 2 meses  
- ...  
- **8** = Atraso de 8 meses  
- **9** = Atraso de 9 meses ou mais  

| Código | Mês/Ano | Descrição |
|--------|---------|-----------|
| **X6** | Set/2005 | Status do pagamento |
| **X7** | Ago/2005 | Status do pagamento |
| **X8** | Jul/2005 | Status do pagamento |
| **X9** | Jun/2005 | Status do pagamento |
| **X10** | Mai/2005 | Status do pagamento |
| **X11** | Abr/2005 | Status do pagamento |

---

### 3. Valor da Fatura (NT dólar)
| Código | Mês/Ano | Descrição |
|--------|---------|-----------|
| **X12** | Set/2005 | Valor da fatura |
| **X13** | Ago/2005 | Valor da fatura |
| **X14** | Jul/2005 | Valor da fatura |
| **X15** | Jun/2005 | Valor da fatura |
| **X16** | Mai/2005 | Valor da fatura |
| **X17** | Abr/2005 | Valor da fatura |

---

### 4. Valor do Pagamento Anterior (NT dólar)
| Código | Mês/Ano | Descrição |
|--------|---------|-----------|
| **X18** | Set/2005 | Valor do pagamento anterior |
| **X19** | Ago/2005 | Valor do pagamento anterior |
| **X20** | Jul/2005 | Valor do pagamento anterior |
| **X21** | Jun/2005 | Valor do pagamento anterior |
| **X22** | Mai/2005 | Valor do pagamento anterior |
| **X23** | Abr/2005 | Valor do pagamento anterior |


### 3.2 Dando uma olhada nos nossos dados.
2) Digite o comando a seguir na célula subsequente e execute-o usando
Shift + Enter: `df.head()`

In [12]:
df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,798fc410-45c1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,0,689,0,0,0,0,1
1,8a8c8f3b-8eb4,120000,2,2,2,26,-1,2,0,0,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,85698822-43f5,90000,2,2,2,34,0,0,0,0,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,0737c11b-be42,50000,2,2,1,37,0,0,0,0,...,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,3b7f77cc-dbc0,50000,1,2,1,57,-1,0,-1,0,...,20940,19146,19131,2000,36681,10000,9000,689,679,0


### 3.3 Verificando se todos os IDs são únicos
3) Selecione a coluna alvo (ID) e conte os valores exclusivos usando o
comando a seguir: `df['ID'].nunique()`


In [16]:
df['ID'].nunique()

29687

Como foi retornado um valor menor que 30000, então há linhas que estão se repetindo.

### 3.4 Verificando o total de linhas

In [24]:
df.shape[0] # Retorna apenas a primeira posição da tupla - linhas

30000

### 3.5 Contagem de IDs
5) Armazene as contagens de valores em uma variável denida como
`id_counts` e exiba os valores armazenados usando o método `.head()`,
como mostrado:

In [28]:
id_counts = df['ID'].value_counts()
id_counts.head()

Unnamed: 0_level_0,count
ID,Unnamed: 1_level_1
89f8f447-fca8,2
7c9b7473-cc2f,2
90330d02-82d9,2
75938fec-e5ec,2
2a793ecf-05c6,2


### 3.6 Contagem de repetições
6) Exiba o número de entradas duplicadas agrupadas executando outra
contagem de valores:
`id_counts.value_counts()`

In [29]:
id_counts.value_counts()

Unnamed: 0_level_0,count
count,Unnamed: 1_level_1
1,29374
2,313


A primeira linha mostra quantos números aparecem apenas uma vez, já a segunda mostra quantos números apareceram duas vezes.
`1*29374+2*313 = 30000`