<a href="https://colab.research.google.com/github/Luandersonsouza/DU-starter/blob/main/DU_learning_datas_chapter_one.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Dicionário dos Dados

Esta pesquisa empregou uma variável binária, pagamento padrão (Sim = 1, Não = 0), como a variável de resposta. Este estudo revisou a literatura e utilizou as seguintes 23 variáveis como variáveis explicativas:

- X1: Valor do crédito concedido (dólar NT): inclui tanto o crédito individual do consumidor quanto o crédito familiar (suplementar).
- X2: Gênero (1 = masculino; 2 = feminino).
- X3: Educação (1 = pós-graduação; 2 = universidade; 3 = ensino médio; 4 = outros).
- X4: Estado civil (1 = casado; 2 = solteiro; 3 = outros).
- X5: Idade (ano).
- X6 - X11: Histórico de pagamentos anteriores. Acompanhamos os registros mensais de pagamento passado (de abril a setembro de 2005) da seguinte forma: X6 = status de pagamento em setembro de 2005; X7 = status de pagamento em agosto de 2005; . . .; X11 = status de pagamento em abril de 2005. A escala de medição para o status de pagamento é: -1 = pagar pontualmente; 1 = atraso no pagamento por um mês; 2 = atraso no pagamento por dois meses; . . .; 8 = atraso no pagamento por oito meses; 9 = atraso no pagamento por nove meses ou mais.
- X12-X17: Valor do extrato de conta (dólar NT). X12 = valor do extrato de conta em setembro de 2005; X13 = valor do extrato de conta em agosto de 2005; . . .; X17 = valor do extrato de conta em abril de 2005.
- X18-X23: Valor do pagamento anterior (dólar NT). X18 = valor pago em setembro de 2005; X19 = valor pago em agosto de 2005; . . .; X23 = valor pago em abril de 2005.


#Importando Bibliotecas

In [None]:
import pandas as pd

## Carregando Dados

In [None]:
url = 'https://github.com/TrainingByPackt/Data-Science-Projects-with-Python/raw/master/Data/default_of_credit_card_clients__courseware_version_1_21_19.xls'
df = pd.read_excel(url)

In [None]:
df.head()

# Verificação da integridade dos dados


##Verificando a não repetição dos identificadores

In [None]:
df['ID'].nunique()

## Verificando o total de Linhas

In [None]:
df.shape[0]

# Contagem de IDs

In [None]:
id_counts = df['ID'].value_counts()
id_counts.head()

## Contagem de repetições

In [None]:
id_counts.value_counts()

## Analisando dados duplicados


In [None]:
id_counts == 2
dupe_mask = id_counts

## IDs que se repetem


In [None]:
dupe_mask  = id_counts == 2
id_counts.index

## Selecionando IDs duplicados

In [None]:
dupe_ids = id_counts.index[dupe_mask]
dupe_ids = list(dupe_ids)
len(dupe_ids)

## Verificando os primeiros 5 itens de `dupe_ids`

In [None]:
dupe_ids[:5]

## Verificando linhas com IDs duplicados

In [None]:
df.loc[df['ID'].isin(dupe_ids[0:3]), :].head(10)

##Preparando a matriz booleana para a filtragem do DataFrame

In [None]:
df_zero_mask = df == 0

##Criando uma série booleana

In [None]:
feature_zero_mask = df_zero_mask.iloc[:,1:].all(axis = 1)

##Soma de linhas com todas as colunas zeradas (menos o ID)

In [None]:
sum(feature_zero_mask)

## Eliminando todas as linhas com as colunas zeradas

In [None]:
df.loc[~feature_zero_mask, :]

### Criando uma cópia da tabela já limpa


In [None]:
df_clean_1 = df.loc[~feature_zero_mask, :].copy()

###Verificando o shape do dataframe

In [None]:
df_clean_1.shape

### Verificando se o problema foi resolvido

In [None]:
df_clean_1['ID'].nunique()

#Explorando e limpando dados

## Informações sobre o dataset

In [None]:
df_clean_1.info()

## Visualizando as 5 primeiras linhas

In [None]:
df_clean_1['PAY_1'].head()

## Contagem de valores únicos

In [None]:
df_clean_1['PAY_1'].value_counts()

## Criação da máscara booleana para remover valores ausentes

In [None]:
valid_pay_1_mask = df_clean_1['PAY_1'] != 'Not available'
valid_pay_1_mask.head()

## Verificando se a Máscara booleana funcionou


In [None]:
sum(valid_pay_1_mask)

## Criando um dataframe novo após a aplicação da máscara booleana

In [None]:
df_clean_2 = df_clean_1.loc[valid_pay_1_mask, :].copy()

## Verificando o shape do dataframe

In [None]:
df_clean_2.shape

In [None]:
df_clean_2['PAY_1'] = df_clean_2['PAY_1'].astype(int)

In [None]:
df_clean_2[['PAY_1', 'PAY_2']].info()

**Explicações adicionais sobre as colunas feitas pelo sócio da empresa**

* -2: significa que começou o mês sem valor a ser pago e o crédito não foi usado.
* -1: significa que um valor foi inteiramente pago.
*  0: significa que o pagamento mínimo foi feito, mas o saldo total devedor não foi pago.

# Importando bibliotecas e configurando Matplotlib


In [None]:
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

## Gerando histogramas para `AGE` e `LIMIT_BAL`

In [None]:
df_clean_2[['AGE', 'LIMIT_BAL']].hist();

## Estatísca descritiva para `AGE` e `LIMIT_BAL`


In [None]:
df_clean_2[['AGE', 'LIMIT_BAL']].describe()

## Contagem de ocorrências por categoria em `EDUCATION`

In [None]:
df_clean_2['EDUCATION'].value_counts()

## Transformando 0, 5 e 6 em outros (4)

In [None]:
df_clean_2['EDUCATION'].replace(to_replace = (0,5,6), value = 4, inplace = True)
df_clean_2['EDUCATION'].value_counts()

## Contagem de ocorrências por categoria em `MARRIAGE`

In [None]:
df_clean_2['MARRIAGE'].value_counts()

## Transformando 0 em outros (3)

In [None]:
df_clean_2['MARRIAGE'].replace(to_replace =(0), value = 3, inplace = True)

#Características Categoricas

In [None]:
df_clean_2.groupby('EDUCATION').agg({'default payment next month': 'mean'}).plot.bar(legend = False);
plt.ylabel('Default Rate');
plt.xlabel('Educational level: ordinal enconding');

# Implementando a OHE para uma característica categórica

*OHE significa ONE HOT ENCODING é uma técnica que usamos para representar variáveis categóricas como valores numéricos em um modelo de aprendizado de máquina.

## Criando uma coluna vazia para teste

In [None]:
df_clean_2['EDUCATION_CAT'] = 'none'

## Examinando as 10 primeiras linhas

In [None]:
df_clean_2[['EDUCATION', 'EDUCATION_CAT']].head(10)

## Criando um dicionário de mapeamento de categorias

In [None]:
cat_mapping = {
1 : 'graduate school',
2 : 'university',
3 : 'high school',
4 : 'others'
}

## Aplicando o mapeamento de categorias

In [None]:
df_clean_2['EDUCATION_CAT'] = df_clean_2['EDUCATION'].map(cat_mapping)
df_clean_2[['EDUCATION', 'EDUCATION_CAT']].head(10)

## Codificação de características com OHE

In [None]:
edu_ohe = pd.get_dummies(df_clean_2['EDUCATION_CAT'])
edu_ohe.head(10)

## Concatenando o Dataframe Original com OHE

In [None]:
df_with_ohe = pd.concat([df_clean_2, edu_ohe], axis = 1)
df_with_ohe[['EDUCATION_CAT', 'graduate school','university','high school','others']]
df_with_ohe.shape

In [None]:
df_with_ohe.to_csv('chapter_1_cleaned_data.csv', index= False)