# Introdução ao Pandas

- O objetivo é desenvolver um modelo que preveja se uma conta ficará inadimplente no próximo mês, de acordo com dados demográficos e históricos.

In [5]:
import pandas as pd

In [7]:
df = pd.read_excel("default_of_credit_card_clients__courseware_version_1_21_19.xls")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   ID                          30000 non-null  object
 1   LIMIT_BAL                   30000 non-null  int64 
 2   SEX                         30000 non-null  int64 
 3   EDUCATION                   30000 non-null  int64 
 4   MARRIAGE                    30000 non-null  int64 
 5   AGE                         30000 non-null  int64 
 6   PAY_1                       30000 non-null  object
 7   PAY_2                       30000 non-null  int64 
 8   PAY_3                       30000 non-null  int64 
 9   PAY_4                       30000 non-null  int64 
 10  PAY_5                       30000 non-null  int64 
 11  PAY_6                       30000 non-null  int64 
 12  BILL_AMT1                   30000 non-null  int64 
 13  BILL_AMT2                   30000 non-null  in

## Perguntas a serem respondidas com o dataset:
1. Saber quantas colunas os dados contém (características, respostas ou metadadas);
2. Quantas linhas (amostras);
3. Que tipos de características existem. Quais são categóricas e quais são numéricas;
4. Qual é a aparência dos dados segundo essas características;
5. Se existem dados faltando.

_Vale ressaltar que as perguntas 1 e 2 já foram respondidas._

In [10]:
df.columns

Index(['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_1',
       'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
       'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
       'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6',
       'default payment next month'],
      dtype='object')

_Com essas informações é possível responder a pergunta nº 3._

- **LIMIT_BAL:** Valor do crédito fornecido (em novos dólares taiwaneses (NT)) inclusive o crédito do consumidor individual e familiar (complementar).
- **SEX:** Gênero (1 = masculino; 2 = feminino).
- **EDUCATION:** Instrução (1 = pós-graduação; 2 = universidade; 3 = ensino médio; 4 = outros).
- **MARRIAGE:** Estado civil (1 = casado; 2 = solteiro; 3 = outros).
- **AGE:** Idade (ano).
- **PAY_1 - PAY_6:** Registro de pagamentos passados. Pagamentos mensais passados, registrados de abril a setembro (PAY_6 = abril; PAY_1 = setembro), com escala: -1 = pagamento pontual; 1 = atraso de um mês; 2 = atraso de dois meses; ...; 8 = atraso de oito meses; 9 = atraso de nove meses ou mais.
- **BILL_AMT1 - BILL_AMT6:** Valor da fatura (em novos dólares taiwaneses).  BILL_AMT6 representa o valor da fatura em abril; BILL_AMT1 representa o valor da fatura em setembro.
- **PAY_AMT1 - PAY_AMT6:** Valor de pagamentos anteriores (novos dólares taiwaneses). PAY_AMT6 representa o valor pago em abril; PAY_AMT1 representa o valor pago em setembro.

_(os códigos foram fornecidos junto com a planilha do excel)_

In [12]:
df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,798fc410-45c1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,0,689,0,0,0,0,1
1,8a8c8f3b-8eb4,120000,2,2,2,26,-1,2,0,0,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,85698822-43f5,90000,2,2,2,34,0,0,0,0,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,0737c11b-be42,50000,2,2,1,37,0,0,0,0,...,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,3b7f77cc-dbc0,50000,1,2,1,57,-1,0,-1,0,...,20940,19146,19131,2000,36681,10000,9000,689,679,0


In [13]:
# Identificando valores exclusivos no dataset
df["ID"].nunique()

29687

In [18]:
id_counts = df['ID'].value_counts()
id_counts.head()

ID
7d5f3242-e1df    2
1b22b0ab-aba3    2
4cb27699-fe3f    2
91c69d1a-8732    2
bf23c70b-bf12    2
Name: count, dtype: int64

In [20]:
id_counts.value_counts()

count
1    29374
2      313
Name: count, dtype: int64

**Podemos notar que possuem 313 valores duplicados**

_Esses valores duplicados ocorrem duas vezes, ou seja, de acordo com o 'id_counts.head()' nenhum ID ocorre mais do que duas vezes._

## Máscara lógica ou máscara booleana
A técnica será utilizada para ajudar a limpar os dados

In [24]:
import numpy as np

In [26]:
np.random.seed(seed=24)
random_integers = np.random.randint(low=1, high=5, size=100)

In [28]:
random_integers[:5]

array([3, 4, 1, 4, 2], dtype=int32)

In [30]:
# Esquema para criar uma máscara booelana
is_equal_to_3 = random_integers == 3
is_equal_to_3[:5]

array([ True, False, False, False, False])

In [32]:
# Descobrir quantas vezes o valor aparece em toda a lista
sum(is_equal_to_3)

np.int64(22)

In [34]:
# Representação no array
random_integers[is_equal_to_3]

array([3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3],
      dtype=int32)

## Aplicando o conceito no Dataset

In [37]:
dupe_mask = id_counts == 2
dupe_mask[0:5]

ID
7d5f3242-e1df    True
1b22b0ab-aba3    True
4cb27699-fe3f    True
91c69d1a-8732    True
bf23c70b-bf12    True
Name: count, dtype: bool

In [41]:
# Armazenando os IDs duplicados em uma variável
dupe_ids = id_counts.index[dupe_mask]

In [43]:
dupe_ids = list(dupe_ids)
len(dupe_ids)

313

In [45]:
# Examinar os dados duplicados dentro do Dataframe
df.loc[df['ID'].isin(dupe_ids[0:3]),:].head(10)

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
5374,1b22b0ab-aba3,30000,2,1,2,30,0,0,0,0,...,32389,33142,33999,1600,2000,1500,1200,1330,2500,0
5474,1b22b0ab-aba3,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5583,7d5f3242-e1df,60000,1,1,2,22,Not available,0,2,0,...,29137,29900,30069,4400,304,1100,1216,1300,589,0
5683,7d5f3242-e1df,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
11848,4cb27699-fe3f,60000,2,6,1,39,-1,-1,-1,-1,...,2248,0,449,1419,3541,2248,0,449,0,0
11948,4cb27699-fe3f,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


_Nessa consulta fica claro que os valores duplicados (da saída em questão) possuem valores igual a 0. Esses valores não são úteis e devem ser removidos_

In [53]:
# Criando variável para armazenar linhas contendo 0
df_zero_mask = df == 0
feature_zero_mask = df_zero_mask.iloc[:,1:].all(axis=1)
sum(feature_zero_mask)

315

In [57]:
# Limpreza do Dataframe
df_clean_1 = df.loc[~feature_zero_mask,:].copy()
df_clean_1.shape

(29685, 25)

Pag 44