# Pré-processamento

In [1]:
import numpy as np
import pandas as pd

from pathlib import Path

## importando dados

Arquivo: `../data/german.data`

In [2]:
datapath = Path('../data')  # defining absolute path to database (it's meant to work across different OS)

In [3]:
data = pd.read_table(f'{datapath}/german.data', sep=' ', header=None)

# opcional: import diretamente do repositório UCL
#data = pd.read_table('https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/german.data', 
#                     sep=' ', header=None)

data.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,11,12,13,14,15,16,17,18,19,20
0,A11,6,A34,A43,1169,A65,A75,4,A93,A101,...,A121,67,A143,A152,2,A173,1,A192,A201,1
1,A12,48,A32,A43,5951,A61,A73,2,A92,A101,...,A121,22,A143,A152,1,A173,1,A191,A201,2
2,A14,12,A34,A46,2096,A61,A74,2,A93,A101,...,A121,49,A143,A152,1,A172,2,A191,A201,1
3,A11,42,A32,A42,7882,A61,A74,2,A93,A103,...,A122,45,A143,A153,1,A173,2,A191,A201,1
4,A11,24,A33,A40,4870,A61,A73,3,A93,A101,...,A124,53,A143,A153,2,A173,2,A191,A201,2


### conferindo dimensões do dataset

In [4]:
assert data.shape[0] == 1000, 'o dataset não contém o número correto de registros. Esperado: 1000 linhas'
assert data.shape[1] == 21, 'o dataset não contém o número correto de colunas. Esperado: 20 features + resposta'

## nomeando colunas

In [5]:
col_names = [
    'status_check_acc',
    'duration',
    'cred_history',
    'purpose',
    'cred_amount',
    'savings',
    'employment_since',
    'installment',
    'status_sex',
    'other_deb',
    'resid_since',
    'property',
    'age',
    'other_installment',
    'housing',
    'n_creds',
    'job',
    'n_liable_people',
    'tel',
    'foreign',
    'cred_score'   # Y variable (1 = Good, 2 = Bad)
]

In [6]:
data.columns = col_names

## conferindo dtypes

In [7]:
data.dtypes

status_check_acc     object
duration              int64
cred_history         object
purpose              object
cred_amount           int64
savings              object
employment_since     object
installment           int64
status_sex           object
other_deb            object
resid_since           int64
property             object
age                   int64
other_installment    object
housing              object
n_creds               int64
job                  object
n_liable_people       int64
tel                  object
foreign              object
cred_score            int64
dtype: object

As colunas numéricas foram corretamente identificadas como `int`. No entanto, as colunas de tipo `object` precisam ser convertidas para `category` a fim de otimizar seu tempo de processamento (formato mais otimizado pelo pandas para variáveis categóricas).

**obs:** também vamos converter o formato da coluna cred_score por se tratar de uma categoria.

In [8]:
for col in data.columns:
    if data[col].dtype == 'object' or col == 'cred_score':
        data[col] = data[col].astype('category')
        
data.dtypes

status_check_acc     category
duration                int64
cred_history         category
purpose              category
cred_amount             int64
savings              category
employment_since     category
installment             int64
status_sex           category
other_deb            category
resid_since             int64
property             category
age                     int64
other_installment    category
housing              category
n_creds                 int64
job                  category
n_liable_people         int64
tel                  category
foreign              category
cred_score           category
dtype: object

## conferindo *missing values*

In [17]:
missing_vals = data.isna().sum().reset_index().rename(columns={'index':'feature', 0:'n_missing'})

for idx, row in missing_vals.iterrows():
    if row['n_missing'] > 0:
        print(f'Warning: há {row.n_missing} valores faltantes na coluna {row.feature}.')

**OBS:** Não foram identificados valores faltantes.

## exportando em csv

Por fins de organização, vou exportar a base de dados em CSV para uso em outros notebooks.

In [18]:
data.to_csv(f'{datapath}/data.csv')

**Fim!**

<font color='red'>Confira os demais notebooks para visualizar análises descritivas/preditivas.</font>