# Predição de pagadores de cartão de crédito

## Entendendo o problema

Sempre entender o que cada linha nos está nos dizendo, verificar o que cada linha significa.
Esses dados, de acordo com o problema, é de 6 meses. O objetivo é prever se uma conta ficará inadiplente no próximo mês.



*   Primeiro passo: Entender o contexto/problema
*   Cliente: Empresa de cartão de crédito
*   Dados históricos: 6 meses de 30k de clientes
*   Objetivo: Modelo capaz de prever se uma conta/cliente ficará inadimplente no próximo mês



## 1. Bibliotecas

In [3]:
import pandas as pd

## 2. Carregando Dados

In [8]:
URL = 'https://github.com/TrainingByPackt/Data-Science-Projects-with-Python/raw/master/Data/default_of_credit_card_clients__courseware_version_1_21_19.xls'
df = pd.read_excel(URL)

In [None]:
df.shape

In [None]:
df.head()

## 3. Verificando a integridade dos dados

### 3.1 Verificando as colunas

In [13]:
print('Total de colunas', len(df.columns), '\n')
df.columns

Total de colunas 25 



Index(['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_1',
       'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
       'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
       'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6',
       'default payment next month'],
      dtype='object')

#### 3.1.1 Dicionário de Dados

Ficar atento caso haja informações desatualizadas ou informações diferentes.

Este dicionário de dados descreve as variáveis utilizadas nesta pesquisa, onde uma variável binária, "default payment" (Sim = 1, Não = 0), é a variável de resposta. A revisão da literatura orientou a escolha de 23 variáveis explicativas:

1. **X1: Montante do crédito concedido (Dólar NT):** Inclui tanto o crédito individual do consumidor quanto o crédito familiar (suplementar).

2. **X2: Gênero (1 = masculino; 2 = feminino).**

3. **X3: Educação (1 = pós-graduação; 2 = universidade; 3 = ensino médio; 4 = outros).**

4. **X4: Estado civil (1 = casado; 2 = solteiro; 3 = outros).**

5. **X5: Idade (ano).**

6. **X6 - X11: Histórico de pagamento passado.** Registros mensais de pagamento passado foram rastreados de abril a setembro de 2005, onde X6 = status de pagamento em setembro de 2005; X7 = status de pagamento em agosto de 2005; ...; X11 = status de pagamento em abril de 2005. A escala de medição para o status de pagamento é: -1 = pagamento pontual; 1 = atraso de um mês; 2 = atraso de dois meses; ...; 8 = atraso de oito meses; 9 = atraso de nove meses ou mais.

7. **X12-X17: Valor do extrato de conta (Dólar NT).** X12 = valor do extrato de conta em setembro de 2005; X13 = valor do extrato de conta em agosto de 2005; ...; X17 = valor do extrato de conta em abril de 2005.

8. **X18-X23: Valor do pagamento anterior (Dólar NT).** X18 = valor pago em setembro de 2005; X19 = valor pago em agosto de 2005; ...; X23 = valor pago em abril de 2005.


### 3.2 Dando uma olhada nos nossos dados

In [17]:
df.shape

(30000, 25)

In [14]:
df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,798fc410-45c1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,0,689,0,0,0,0,1
1,8a8c8f3b-8eb4,120000,2,2,2,26,-1,2,0,0,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,85698822-43f5,90000,2,2,2,34,0,0,0,0,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,0737c11b-be42,50000,2,2,1,37,0,0,0,0,...,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,3b7f77cc-dbc0,50000,1,2,1,57,-1,0,-1,0,...,20940,19146,19131,2000,36681,10000,9000,689,679,0


### 3.3 Verificando se todos IDs são únicos

Cada linha se trata de uma conta portanto não pode haver ids repetidos

In [15]:
df['ID'].nunique()

29687

### 3.4 Verificando o total de linhas

In [21]:
df.shape[0] # O '0' especifica apenas as linhas do Dataframe

30000

### 3.5 Contagem de IDs

In [23]:
id_counts = df['ID'].value_counts()
id_counts.head()

ad23fe5c-7b09    2
1fb3e3e6-a68d    2
89f8f447-fca8    2
7c9b7473-cc2f    2
90330d02-82d9    2
Name: ID, dtype: int64

### 3.6 Contagem de repetições de IDs

In [26]:
id_counts.value_counts() # irá mostrar quantos 2 e 1 aparecem

1    29374
2      313
Name: ID, dtype: int64

In [28]:
29374+313*2 # Conferência do tamanho do shape

30000

## 4.0