# Transformações Avançadas de Atributos

#### Neste notebook, aplicamos técnicas de transformação de variáveis numéricas e categóricas, além de criar interações entre atributos. Essas estratégias são fundamentais para melhorar a qualidade dos dados e a performance dos modelos.

## 1. Leitura dos Dados

Importamos bibliotecas e carregamos o dataset tratado.

In [None]:
import pandas as pd
import numpy as np
from scipy import stats
from pathlib import Path

pd.set_option('display.width', None)

data_path = Path('../data/clientes-v2-tratados.csv')
df = pd.read_csv(data_path)

print(df.head())

## 2. Transformação Logarítmica (salario)

- A transformação logarítmica reduz a assimetria de distribuições enviesadas.
- log1p(x) = log(1 + x), evita problemas com valores zero.

In [None]:
df['salario_log'] = np.log1p(df['salario'])

print("\nDataFrame após transformação logarítmica no 'salario':\n", df.head())

## 3. Transformação Box-Cox (salario)

- Box-Cox transforma dados para aproximar uma distribuição normal.
- Adicionamos +1 para evitar problemas com valores zero.

In [None]:
df['salario_boxcox'], _ = stats.boxcox(df['salario'] + 1)

print("\nDataFrame após transformação Box-Cox no 'salario':\n", df.head())

## 4. Codificação de Frequência (estado)

- A codificação de frequência substitui cada categoria pela sua frequência relativa.
- Útil para modelos que se beneficiam de informações de prevalência.

In [None]:
estado_freq = df['estado'].value_counts() / len(df)
df['estado_freq'] = df['estado'].map(estado_freq)

print("\nDataFrame após codificação de frequência para 'estado':\n", df.head())

## 5. Criação de Interações (idade × numero_filhos)

- Interações entre variáveis podem capturar relações não lineares.
- Aqui, multiplicamos idade pelo número de filhos.

In [None]:
df['interacao_idade_filhos'] = df['idade'] * df['numero_filhos']

print("\nDataFrame após criação de interações entre 'idade' e 'numero_filhos':\n", df.head())


## Considerações Técnicas

- Transformações como log e Box-Cox ajudam a normalizar distribuições, o que é útil para modelos sensíveis à escala e à normalidade (ex: regressão linear).
- Codificação de frequência pode ser mais informativa do que LabelEncoder em variáveis categóricas.
- Interações entre variáveis são especialmente úteis em modelos lineares, pois capturam efeitos combinados.
> Sempre visualize a distribuição antes e depois das transformações para garantir
que o efeito desejado foi alcançado.
