# Predição de pagadores de cartão de crédito

## Entendendo o problema

Sempre entender o que cada linha nos está nos dizendo, verificar o que cada linha significa.
Esses dados, de acordo com o problema, é de 6 meses. O objetivo é prever se uma conta ficará inadiplente no próximo mês.



*   Primeiro passo: Entender o contexto/problema
*   Cliente: Empresa de cartão de crédito
*   Dados históricos: 6 meses de 30k de clientes
*   Objetivo: Modelo capaz de prever se uma conta/cliente ficará inadimplente no próximo mês



## 1. Bibliotecas

In [1]:
import pandas as pd

## 2. Carregando Dados

In [3]:
URL = "https://github.com/TrainingByPackt/Data-Science-Projects-with-Python/raw/master/Data/default_of_credit_card_clients__courseware_version_1_21_19.xls"
df = pd.read_excel(URL)

ImportError: Missing optional dependency 'xlrd'. Install xlrd >= 2.0.1 for xls Excel support Use pip or conda to install xlrd.

In [None]:
df.shape

In [None]:
df.head()

## 3. Verificando a integridade dos dados

### 3.1 Verificando as colunas

In [None]:
print('Total de colunas', len(df.columns), '\n')
df.columns

#### 3.1.1 Dicionário de Dados

Ficar atento caso haja informações desatualizadas ou informações diferentes.

Este dicionário de dados descreve as variáveis utilizadas nesta pesquisa, onde uma variável binária, "default payment" (Sim = 1, Não = 0), é a variável de resposta. A revisão da literatura orientou a escolha de 23 variáveis explicativas:

1. **X1: Montante do crédito concedido (Dólar NT):** Inclui tanto o crédito individual do consumidor quanto o crédito familiar (suplementar).

2. **X2: Gênero (1 = masculino; 2 = feminino).**

3. **X3: Educação (1 = pós-graduação; 2 = universidade; 3 = ensino médio; 4 = outros).**

4. **X4: Estado civil (1 = casado; 2 = solteiro; 3 = outros).**

5. **X5: Idade (ano).**

6. **X6 - X11: Histórico de pagamento passado.** Registros mensais de pagamento passado foram rastreados de abril a setembro de 2005, onde X6 = status de pagamento em setembro de 2005; X7 = status de pagamento em agosto de 2005; ...; X11 = status de pagamento em abril de 2005. A escala de medição para o status de pagamento é: -1 = pagamento pontual; 1 = atraso de um mês; 2 = atraso de dois meses; ...; 8 = atraso de oito meses; 9 = atraso de nove meses ou mais.

7. **X12-X17: Valor do extrato de conta (Dólar NT).** X12 = valor do extrato de conta em setembro de 2005; X13 = valor do extrato de conta em agosto de 2005; ...; X17 = valor do extrato de conta em abril de 2005.

8. **X18-X23: Valor do pagamento anterior (Dólar NT).** X18 = valor pago em setembro de 2005; X19 = valor pago em agosto de 2005; ...; X23 = valor pago em abril de 2005.


### 3.2 Dando uma olhada nos nossos dados

In [None]:
df.shape

In [None]:
df.head()

### 3.3 Verificando se todos IDs são únicos

Cada linha se trata de uma conta portanto não pode haver ids repetidos

In [None]:
df['ID'].nunique()

### 3.4 Verificando o total de linhas

In [None]:
df.shape[0] # O '0' especifica apenas as linhas do Dataframe

### 3.5 Contagem de IDs

In [None]:
id_counts = df['ID'].value_counts()
id_counts.head()

### 3.6 Contagem de repetições de IDs

In [None]:
id_counts.value_counts() # irá mostrar quantos 2 e 1 aparecem

In [None]:
29374+313*2 # Conferência do tamanho do shape

## 4.0 Análise de Dados Duplicados

### 4.1 IDs que se repetem

In [None]:
id_counts == 2

In [None]:
 dupe_mask = id_counts == 2 # Verificando quais são os duplicados e colocando em uma variável
 print(type(dupe_mask)) # É uma "series" ou seja, uma coluna
 dupe_mask[:5]

### 4.2 Exibindo os 5 primeiros índices

In [None]:
id_counts.index[:5] # O índice são os IDs!

### Selecionar os IDs duplicados

In [None]:
dupe_ids = id_counts.index[dupe_mask] #