### Imports

In [6]:
import pandas as pd

### Configurações

In [7]:
pd.set_option('display.max_columns', 500)

# Predição de bons pagadores (Crédito)

##### **Contexto**:
Uma empresa de cartões de crédito disponibilizou uma base de dados, contendo informações demográficas e financiais, de seus clientes. Cada linha representa uma conta bancária.

##### **Objetivo**:
Criar um modelo capaz de captar a inadimplência dos clientes no próximo mês.

### Iniciando o projeto

#### Leitura e análise inicial dos dados

In [3]:
df = pd.read_excel('data/default_of_credit_card_clients__courseware_version_1_21_19.xls')

In [4]:
df.head(5)

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,798fc410-45c1,20000,2,2,1,24,2,2,-1,-1,-2,-2,3913,3102,689,0,0,0,0,689,0,0,0,0,1
1,8a8c8f3b-8eb4,120000,2,2,2,26,-1,2,0,0,0,2,2682,1725,2682,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,85698822-43f5,90000,2,2,2,34,0,0,0,0,0,0,29239,14027,13559,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,0737c11b-be42,50000,2,2,1,37,0,0,0,0,0,0,46990,48233,49291,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,3b7f77cc-dbc0,50000,1,2,1,57,-1,0,-1,0,0,0,8617,5670,35835,20940,19146,19131,2000,36681,10000,9000,689,679,0


In [28]:
print(f'Esse conjunto de dados possui {df.shape[0]} observações e {df.shape[1]} variáveis.')

Esse conjunto de dados possui 30000 observações e 25 variáveis.


In [92]:
colunas = ''

for coluna in df.columns:
    colunas += coluna + ', '
    
print(f'Esse conjunto de dados possui {df.shape[0]} observações e {df.shape[1]} variáveis. Sendo elas:\n\n{colunas}')

Esse conjunto de dados possui 30000 observações e 25 variáveis. Sendo elas:

ID, LIMIT_BAL, SEX, EDUCATION, MARRIAGE, AGE, PAY_1, PAY_2, PAY_3, PAY_4, PAY_5, PAY_6, BILL_AMT1, BILL_AMT2, BILL_AMT3, BILL_AMT4, BILL_AMT5, BILL_AMT6, PAY_AMT1, PAY_AMT2, PAY_AMT3, PAY_AMT4, PAY_AMT5, PAY_AMT6, default payment next month, 


In [93]:
colunas_numericas = [column for column in df.columns if df[column].dtype == 'int64']
colunas_categoricas = [column for column in df.columns if df[column].dtype == 'object']

print(f'Das colunas presentes, {len(colunas_numericas)} são numéricas e {len(colunas_categoricas)} são categóricas')

Das colunas presentes, 23 são numéricas e 2 são categóricas


##### Podemos encontrar um pequeno problema. A coluna "**PAY_1**" está sendo classificada como categórica, porém, seus dados são numéricos.

In [78]:
df[colunas_categoricas].head()

Unnamed: 0,ID,PAY_1
0,798fc410-45c1,2
1,8a8c8f3b-8eb4,-1
2,85698822-43f5,0
3,0737c11b-be42,0
4,3b7f77cc-dbc0,-1


In [80]:
df.isna().sum()

ID                            0
LIMIT_BAL                     0
SEX                           0
EDUCATION                     0
MARRIAGE                      0
AGE                           0
PAY_1                         0
PAY_2                         0
PAY_3                         0
PAY_4                         0
PAY_5                         0
PAY_6                         0
BILL_AMT1                     0
BILL_AMT2                     0
BILL_AMT3                     0
BILL_AMT4                     0
BILL_AMT5                     0
BILL_AMT6                     0
PAY_AMT1                      0
PAY_AMT2                      0
PAY_AMT3                      0
PAY_AMT4                      0
PAY_AMT5                      0
PAY_AMT6                      0
default payment next month    0
dtype: int64

In [87]:
df.query('ID == ""')

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month


In [88]:
df.query('PAY_1 == ""')

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
