# 2-Engenharia de atributos

Feature Engineering é o processo de criar, transformar e selecionar variáveis (atributos/features) a partir dos dados brutos para que o modelo de machine learning consiga aprender melhor.


In [1]:
import sys
import os

# Caminho da raiz do projeto
ROOT_DIR = os.path.abspath(os.path.join(os.getcwd(), ".."))
if ROOT_DIR not in sys.path:
    sys.path.append(ROOT_DIR)

In [2]:
import pandas as pd
from src.utils.paths import data_path
import plotly.graph_objects as go
import plotly.express as px
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings("ignore")

In [3]:
csv_file = data_path("credit_risk_dataset.csv")
dados = pd.read_csv(csv_file, sep=",")

In [4]:
dados.head()

Unnamed: 0,person_age,person_income,person_home_ownership,person_emp_length,loan_intent,loan_grade,loan_amnt,loan_int_rate,loan_status,loan_percent_income,cb_person_default_on_file,cb_person_cred_hist_length
0,22,59000,RENT,123.0,PERSONAL,D,35000,16.02,1,0.59,Y,3
1,21,9600,OWN,5.0,EDUCATION,B,1000,11.14,0,0.1,N,2
2,25,9600,MORTGAGE,1.0,MEDICAL,C,5500,12.87,1,0.57,N,3
3,23,65500,RENT,4.0,MEDICAL,C,35000,15.23,1,0.53,N,2
4,24,54400,RENT,8.0,MEDICAL,C,35000,14.27,1,0.55,Y,4


In [5]:
credit_risk_dict = {
    "person_age": "Idade do indivíduo (anos)",
    "person_income": "Renda anual do indivíduo",
    "person_home_ownership": "Tipo de posse da residência",
    "person_emp_length": "Tempo de emprego (em anos)",
    "loan_intent": "Finalidade do empréstimo",
    "loan_grade": "Grau de risco do empréstimo",
    "loan_amnt": "Valor total do empréstimo solicitado",
    "loan_int_rate": "Taxa de juros do empréstimo (%)",
    "loan_status": "Situação do empréstimo (inadimplente ou não)",
    "loan_percent_income": "Percentual da renda comprometida com o empréstimo",
    "cb_person_default_on_file": "Histórico de inadimplência anterior",
    "cb_preson_cred_hist_length": "Tempo de histórico de crédito (em anos)"
}

In [6]:
# Faixa etaria
bins = [20, 30, 40, 50, 60, 65, 95]
labels = ['20-29', '30-39', '40-49', '50-59', '60-64', '65+']
dados['faixa_etaria'] = pd.cut(dados['person_age'], bins=bins, labels=labels, right=False)
dados.head()

Unnamed: 0,person_age,person_income,person_home_ownership,person_emp_length,loan_intent,loan_grade,loan_amnt,loan_int_rate,loan_status,loan_percent_income,cb_person_default_on_file,cb_person_cred_hist_length,faixa_etaria
0,22,59000,RENT,123.0,PERSONAL,D,35000,16.02,1,0.59,Y,3,20-29
1,21,9600,OWN,5.0,EDUCATION,B,1000,11.14,0,0.1,N,2,20-29
2,25,9600,MORTGAGE,1.0,MEDICAL,C,5500,12.87,1,0.57,N,3,20-29
3,23,65500,RENT,4.0,MEDICAL,C,35000,15.23,1,0.53,N,2,20-29
4,24,54400,RENT,8.0,MEDICAL,C,35000,14.27,1,0.55,Y,4,20-29


In [7]:
# Como temos faixa etaria, nao precisamos mais da coluna de idade
dados = dados.drop('person_age', axis = 1)

In [8]:
novo_csv = data_path("dados_novos.csv")
dados.to_csv(novo_csv, index=False)