# Preparação dos dados
_Feature Engineering_

---

## Sumário

1. **Importação de bibliotecas**
2. **Carregamento da base**
3. **Feature Engineering**
    - 3.1. Criando novas variáveis numéricas
    - 3.2. Criando novas variáveis categóricas
4. **Salvando o DataFrame em formato csv**

<br>

---

<br>

## 1. Importação de bibliotecas

In [31]:
# Importação de pacotes e definição de parâmetros globais

import pandas as pd
import numpy as np
import seaborn as sns
import warnings
import gc

from pathlib import Path

In [32]:
# Configurações para exibição de dados no Jupyter Notebook

# Configurar para exibir todas as colunas do Dataframe
pd.set_option('display.max_columns', None)

# Configurar para exibir o conteúdo completo das colunas
pd.set_option('display.max_colwidth', None)

# Configurar a supressão de mensagens de aviso durante a execução
warnings.filterwarnings('ignore')

# Configurar estilo dos gráficos do seaborn
sns.set_style('whitegrid')

## 2. Carregamento da base

In [33]:
# Efetuando a limpeza da memória antes do carregamento dos dados
print(f'\nQuantidade de objetos removidos da memória {gc.collect()}')


Quantidade de objetos removidos da memória 0


In [34]:
# Criando um dataframe a partir do aquivo .csv
df = pd.read_csv('dados/Car_Purchasing_Data.csv', sep=',')
df.head()

Unnamed: 0,Customer Name,Customer e-mail,Country,Gender,Age,Annual Salary,Credit Card Debt,Net Worth,Car Purchase Amount
0,Martina Avila,cubilia.Curae.Phasellus@quisaccumsanconvallis.edu,USA,0,42,62812.09301,11609.38091,238961.2505,35321.45877
1,Harlan Barnes,eu.dolor@diam.co.uk,USA,0,41,66646.89292,9572.957136,530973.9078,45115.52566
2,Naomi Rodriquez,vulputate.mauris.sagittis@ametconsectetueradipiscing.co.uk,USA,1,43,53798.55112,11160.35506,638467.1773,42925.70921
3,Jade Cunningham,malesuada@dignissim.com,USA,1,58,79370.03798,14426.16485,548599.0524,67422.36313
4,Cedric Leach,felis.ullamcorper.viverra@egetmollislectus.net,USA,1,57,59729.1513,5358.712177,560304.0671,55915.46248


In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Customer Name        500 non-null    object 
 1   Customer e-mail      500 non-null    object 
 2   Country              500 non-null    object 
 3   Gender               500 non-null    int64  
 4   Age                  500 non-null    int64  
 5   Annual Salary        500 non-null    float64
 6   Credit Card Debt     500 non-null    float64
 7   Net Worth            500 non-null    float64
 8   Car Purchase Amount  500 non-null    float64
dtypes: float64(4), int64(2), object(3)
memory usage: 35.3+ KB


## 3. Feature Engineering

### 3.1. Criando novas variáveis numéricas

In [36]:
# Relação de endividamento relativo e salário anual
df['debt_to_annual_salary'] = df['Credit Card Debt'] / df['Annual Salary']

# Relação entre patrimônio líquido e salário anual
df['net_worth_to_annual_salary'] = df['Net Worth'] / df['Annual Salary']

# Relação entre endividamento líquido e patrimônio líquido
df['debt_to_net_worth'] = df['Credit Card Debt'] / df['Net Worth']

# Renda líquida disponível, descontado a dívida
df['disposable_income'] = df['Annual Salary'] - df['Credit Card Debt']

# Índice de liquidez, sobra financeira
df['liquidity_ratio'] = (df['Annual Salary'] - df['Credit Card Debt']) / df['Net Worth']

# Índice de alavancagem financeira, saúde financeira
df['financial_leverage_index'] = (df['Annual Salary'] + df['Net Worth']) / df['Credit Card Debt']

# Relação entre idade e patrimônio líquido
df['age-to-wealth_ratio'] = df['Net Worth'] / df['Age']

# Proporção entre idade e salário anual
df['age-to-income_ratio'] = df['Annual Salary'] / df['Age']

# Índice de poder de compra
df['purchasing_power_index_PPI'] = (df['Net Worth'] + df['Annual Salary'] - df['Credit Card Debt']
                                    ) / df['Age']

# Percentual do comprometimento financeiro
df['relative_debt_pressure_RDP'] = (df['Credit Card Debt'] / (df['Annual Salary'] + 
                                                              df['Net Worth'])) * 100

# Mede eficiência de acumulação de patrimônio
df['net_asset_efficiency'] = df['Net Worth'] / (df['Annual Salary'] * df['Age'])

# Estimativa de capacidade de compra
df['potential_purchase_capacity_PPC'] = (df['disposable_income'] * df['net_worth_to_annual_salary'])

# Proporção de salário anual ajustada pela idade
df['age_adjusted_income'] = df['Annual Salary'] / (df['Age'] ** 0.5)

# Taxa de crescimento patrimonial estimada
df['wealth_growth_rate'] = (df['Net Worth'] / df['Age']) / df['Annual Salary']

# Índice de maturidade financeira ajustado
df['financial_maturity_index'] = (df['net_worth_to_annual_salary']) / (df['Age'] / 30)

In [37]:
df[['debt_to_annual_salary', 'net_worth_to_annual_salary', 'debt_to_net_worth',
    'disposable_income', 'liquidity_ratio', 'financial_leverage_index', 
    'age-to-wealth_ratio', 'age-to-income_ratio', 'purchasing_power_index_PPI', 
    'relative_debt_pressure_RDP', 'net_asset_efficiency', 'potential_purchase_capacity_PPC',
    'age_adjusted_income', 'wealth_growth_rate', 'financial_maturity_index']].head()

Unnamed: 0,debt_to_annual_salary,net_worth_to_annual_salary,debt_to_net_worth,disposable_income,liquidity_ratio,financial_leverage_index,age-to-wealth_ratio,age-to-income_ratio,purchasing_power_index_PPI,relative_debt_pressure_RDP,net_asset_efficiency,potential_purchase_capacity_PPC,age_adjusted_income,wealth_growth_rate,financial_maturity_index
0,0.184827,3.804383,0.048583,51202.7121,0.214272,25.993922,5689.553583,1495.526024,6908.665776,3.847053,0.090581,194794.720667,9692.11637,0.090581,2.717416
1,0.143637,7.966972,0.018029,57073.935784,0.107489,62.428024,12950.583117,1625.533974,14342.630331,1.601845,0.194316,454706.429498,10408.495986,0.194316,5.829491
2,0.207447,11.867739,0.01748,42638.19606,0.066782,62.029006,14848.073891,1251.129096,15839.659846,1.612149,0.275994,506018.99339,8204.202132,0.275994,8.279818
3,0.181758,6.911916,0.026296,64943.87313,0.118381,43.529871,9458.604352,1368.448931,10578.326302,2.297273,0.119171,448886.609671,10421.796563,0.119171,3.575129
4,0.089717,9.380747,0.009564,54370.439123,0.097037,115.705639,9829.895914,1047.879847,10783.763267,0.864262,0.164575,510035.343004,7911.319356,0.164575,4.937235


### 3.2. Criando novas variáveis categóricas

In [38]:
# Extraindo o sufixo do domínio (.br, .us, .uk)

df['email_tld'] = df['Customer e-mail'].str.extract(r'\.(\w+)$')

In [39]:
# Agrupar idades numéricas em faixas etárias

# Faixas etárias (limites)
bins = [0, 24, 34, 44, 54, 64, 74]

# Agrupar idades numéricas em faixas etárias
labels = [
    'under 25',
    '25 to 34',
    '35 to 44',
    '45 to 54',
    '55 to 64',
    'over 65'
]

# Criando a coluna de faixa etária
df['age_range'] = pd.cut(df['Age'], bins=bins, labels=labels, right=True, include_lowest=True)

In [40]:
# Cliente de alta renda
df['high_income_flag'] = (df['Annual Salary'] > df['Annual Salary'].mean() + 
                          df['Annual Salary'].std()).astype(int)

# Cliente altamente endividado
df['high_debt_flag'] = (df['debt_to_annual_salary'] > 0.4).astype(int)

# Cliente de alto patrimônio
df['high_net_worth_flag'] = (df['Net Worth'] > df['Net Worth'].median()).astype(int)

# Cliente com alto poder de compra
df['high_ppi_flag'] = (df['purchasing_power_index_PPI'] > 
                       df['purchasing_power_index_PPI'].quantile(0.75)).astype(int)


In [41]:
def classify_financial_status(row):
    '''
    Classifica o status financeiro qualitativo de um cliente com base
    nos indicadores de renda e endividamento, utilizando as colunas 
    'high_income_flag' e 'high_debt_flag' para categorizar o cliente 
    em quatro perfis de situação financeira:

        - 'High Income - Low Debt'  → Alta renda e baixa dívida
        - 'High Income - High Debt' → Alta renda e alta dívida
        - 'Low Income - High Debt'  → Baixa renda e alta dívida
        - 'Moderate'                → Baixa renda e baixa dívida

    :param row: DataFrame
        DataFrame contendo as colunas 'high_income_flag' e 'high_debt_flag'

    :return: col, str
        Categoria representando o status financeiro do cliente.
    '''
    if row['high_income_flag'] == 1 and row['high_debt_flag'] == 0:
        return 'High Income - Low Debt'
    elif row['high_income_flag'] == 1 and row['high_debt_flag'] == 1:
        return 'High Income - High Debt'
    elif row['high_income_flag'] == 0 and row['high_debt_flag'] == 1:
        return 'Low Income - High Debt'
    else:
        return 'Moderate'
    
# Status financeiro qualitativo   
df['financial_status_category'] = df.apply(classify_financial_status, axis=1)


In [42]:
df[['email_tld', 'age_range', 'high_income_flag', 'high_debt_flag', 
    'high_net_worth_flag', 'high_ppi_flag', 'financial_status_category']].head()

Unnamed: 0,email_tld,age_range,high_income_flag,high_debt_flag,high_net_worth_flag,high_ppi_flag,financial_status_category
0,edu,35 to 44,0,0,0,0,Moderate
1,uk,35 to 44,0,0,1,1,Moderate
2,uk,35 to 44,0,0,1,1,Moderate
3,com,55 to 64,1,0,1,0,High Income - Low Debt
4,net,55 to 64,0,0,1,0,Moderate


## 4. Salvando o DataFrame em formato csv

In [43]:
# Efetuando a limpeza da memória após o processamento
print(f'\nQuantidade de objetos removidos da memória {gc.collect()}')


Quantidade de objetos removidos da memória 14


In [44]:
# Novo nome do arquivo
novo_nome_arquivo = 'Car_Purchasing_Data_Atualizado.csv'

# Caminho completo do arquivo
caminho_arquivo = Path('dados') / novo_nome_arquivo

# Cria o diretório se não existir
caminho_arquivo.parent.mkdir(parents=True, exist_ok=True)

# Salva o DataFrame atualizado em CSV
try:
    df.to_csv(caminho_arquivo, index=False, sep=';', encoding='utf-8')
    print(f'Arquivo salvo com sucesso em: {caminho_arquivo}')
except Exception as e:
    print(f'Erro ao salvar o arquivo: {e}')


Arquivo salvo com sucesso em: dados\Car_Purchasing_Data_Atualizado.csv


In [45]:
# Exibição da volumetria
print('\nVOLUMETRIA')
print(f'\n{novo_nome_arquivo}')
print('-' * 45)
print(f'Quantidade de linhas (registros):  {df.shape[0]:,}')
print(f'Quantidade de colunas (variáveis): {df.shape[1]:,}')


VOLUMETRIA

Car_Purchasing_Data_Atualizado.csv
---------------------------------------------
Quantidade de linhas (registros):  500
Quantidade de colunas (variáveis): 31
