# Problema

- Um exercício sobre o problema de uma empresa de cartão de crédito, com um dataset de dados demográficos e financeiros dos últimos 6 meses (amostra de 30.000 linhas). Cada conta é uma linha).

- As linhas são rotuladas de acordo com como se no mês seguinte ao período de dados histórico de seis meses um proprietário da conta ficou inadimplente no próximo mês.

-> **Arquivo original: http://archive.ics.edu/ml**

## Objetivo

Prever se uma conta ficará inadimplente no próximo mês, de acordo com os dados demográficos e históricos.

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.read_excel('E:\Proj_cartaocredito\default_of_credit_card_clients__courseware_version_1_21_19.xls')

In [3]:
df = pd.DataFrame(df)

In [5]:
df.columns

Index(['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_1',
       'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
       'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
       'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6',
       'default payment next month'],
      dtype='object')

### Observações 

- **LIMIT_BAL:** Valor de Crédito fornecido.
- **SEX: Gênero** (1=masculino; 2=feminino) - Não será levado em consideração para decisão por motivos éticos.
- **EDUCATION:** (1=Pós Graduação; 2=Universidade; 3=Ensino mèdio; 4= outros)
- **MARRIAGE:** Estado Civil (1=casado; 2 = Solteiro; 3 = outros)
- **AGE:** Idade (ano)
- **PAY_1-PAy_6:** Registro de pagamentos passados, registrados de abril a setembro;
- **PAY_1:** Representa o status de reembolso em setembro;
- **PAY_2:** Representa o status de reembolso em agosto;
...
- **PAY_6:** Representa o status de reembolso em abril;
- **BILL_AMT5:** Valor da fatura;
- **PAY_AMT1--PAY_AMT6:** Valor de Pagamentos Anteriores

In [6]:
df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,798fc410-45c1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,0,689,0,0,0,0,1
1,8a8c8f3b-8eb4,120000,2,2,2,26,-1,2,0,0,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,85698822-43f5,90000,2,2,2,34,0,0,0,0,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,0737c11b-be42,50000,2,2,1,37,0,0,0,0,...,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,3b7f77cc-dbc0,50000,1,2,1,57,-1,0,-1,0,...,20940,19146,19131,2000,36681,10000,9000,689,679,0


In [7]:
#Entradas exclusivas
df['ID'].nunique()

29687

In [8]:
#quando verificamos os registros unicos e o total de linhas identificamos que há divergencia.
#Diferença entre o numero de linhas e registros unicos sugere id duplicado
df.shape

(30000, 25)

In [9]:
id_counts = df['ID'].value_counts()
id_counts.head()

ID
ad23fe5c-7b09    2
1fb3e3e6-a68d    2
89f8f447-fca8    2
7c9b7473-cc2f    2
90330d02-82d9    2
Name: count, dtype: int64

In [10]:
#Exibindo as entradas duplicadas
id_counts.value_counts()

count
1    29374
2      313
Name: count, dtype: int64

In [11]:
#Travando o seed para obter os mesmos resultados
np.random.seed(seed=24)
#Gerando 100 inteiros aleatórios, selecionados entre 1 a 5
random_integers = np.random.randint(low=1,high=5,size=100)

In [12]:
#vamos gerar 100 inteiros aleatórios, de 1 a 5.
random_intergers = np.random.randint(low=1,high=5, size=100)
random_intergers[:5]

array([1, 4, 3, 2, 3])

In [13]:
#Examinando os 5 rimeiros
random_integers[:5]

array([3, 4, 1, 4, 2])

In [14]:
#Caso precise encontrar a localização de algum específico temos 
is_equal_to_3 = random_integers == 3
is_equal_to_3[:5]

array([ True, False, False, False, False])

In [15]:
#Exemplo de soma das mascaras
sum(is_equal_to_3)

22

In [16]:
#Faz sentido, ja que uma seleção aleatória igualmente e provável que apareça 20% para cada valor.
random_integers[is_equal_to_3]

array([3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3])

In [17]:
#Esses aspectos basicos poderam ser utilizados para idexar e em seguida utilizar .loc.

## Cotinuação de Verificação dos dados

In [18]:
#Vamos verificar a qualidade das linhas duplicadas e verificar se podem ser excluídas