In [1]:
# 1. Codificação de atributos categóricos

import sklearn
import pandas as pd
import category_encoders as ce
sklearn.set_config(transform_output="pandas")

In [2]:
# Importando arquivo CSV
credtrain = pd.read_csv(r'Arquivos/credtrain.txt', sep='\t', index_col=False,
                       names=['ESCT', 'NDEP', 'RENDA', 'TIPOR', 'VBEM', 'NPARC',
                       'VPARC', 'TEL', 'IDADE','RESMS', 'ENTRADA', 'CLASSE'])

# Separar o target
y = credtrain['CLASSE']
X = credtrain.drop(columns={'CLASSE'})

In [3]:
# Colunas que precisam de codificação
categorical = ['ESCT', 'NDEP']

In [4]:
# One hot Encoder
encoder = ce.OneHotEncoder(cols=categorical)
onehot = encoder.fit_transform(X)

In [5]:
# Ordinal
encoder = ce.OrdinalEncoder(cols=categorical)
ordinal = encoder.fit_transform(X)

In [7]:
# Target Encoder
encoder = ce.TargetEncoder(cols=categorical)
target = encoder.fit_transform(X, y)

In [36]:
# Backward Difference Coding
# Captura a diferença entre cada categoria e a anterior.
# O uso faz mais sentido quando a ordem das categorias tem significao ou há uma sequência natural entre elas

encoder = ce.BackwardDifferenceEncoder(cols=categorical)
bdc = encoder.fit_transform(X)



In [39]:
# BaseN
# Tranforma a caetegoria em númerica, da mesma forma que a ordinal, mas nesse caso é possível escolher a base numérica (padrão = 2)
# Cada coluna representa um digito do numero total

encoder = ce.BaseNEncoder(cols=categorical)
basen = encoder.fit_transform(X)

In [10]:
# Binary
# Mesma coisa da Base N com base 2
encoder = ce.BinaryEncoder(cols=categorical)
binary = encoder.fit_transform(X)

In [12]:
# CatBoost Encoder
# A técnica de codificação do CatBoost Encoder consiste em atribuir a cada categoria um valor com base na média da variável de destino (target) para essa categoria. 
encoder  = ce.CatBoostEncoder(cols=categorical)
boost = encoder.fit_transform(X, y)

In [13]:
# Count Encoder
# Substitui cada categoria pelo número de vezes que ela aparece no conjunto de dados.
encoder = ce.CountEncoder(cols=categorical)
count = encoder.fit_transform(X)

In [15]:
# Generalized Linear Mixed Model Encoder
#  GLMM Encoder calcula a média da variável alvo para cada categoria, considerando não 
# apenas a média global, mas também a variabilidade entre diferentes categorias e grupos, levando em conta a estrutura hierárquica ou de agrupamento dos dados.
encoder = ce.GLMMEncoder(cols=categorical)
genlinear = encoder.fit_transform(X, y)

In [17]:
# Gray
# Na codificação Gray, a transição entre números consecutivos ocorre alterando apenas um bit por vez. Isso é útil para reduzir a possibilidade de erros de leitura ou transmissão em sistemas digitais, 
# pois reduz a chance de interpretação incorreta entre dois valores adjacentes.
encoder = ce.GrayEncoder(cols=categorical)
gray = encoder.fit_transform(X)

In [51]:
# Hashing
# Gera um numero binário através do cálculo de função de hash
# Tomar cuidado. Essa funcao demora bastante
encoder = ce.HashingEncoder(cols=categorical)
hashing = encoder.fit_transform(X)

In [35]:
# Helmert Coding
# cria uma representação numérica que reflete a diferença entre cada nível e a média dos níveis subsequentes.
encoder = ce.HelmertEncoder(cols=categorical)
helmert = encoder.fit_transform(X)



In [53]:
# E o James-Stein Encoder
# Combina informações da média da variável alvo para cada categoria com informações globais
encoder = ce.JamesSteinEncoder(cols=categorical)
james = encoder.fit_transform(X, y)

In [24]:
# utiliza a média da variável alvo, excluindo o exemplo atual (o "leave one out"), para codificar as categorias.
encoder = ce.LeaveOneOutEncoder(cols=categorical)
loe = encoder.fit_transform(X, y)

In [27]:
# Essa técnica é semelhante ao TargetEncoder, que também usa a média da variável alvo para codificar variáveis categóricas. 
# No entanto, o MEstimateEncoder introduz um parâmetro de suavização (smoothing) para ajudar a mitigar o efeito de overfitting,
# especialmente em situações onde há uma contagem baixa de exemplos para determinadas categorias.
encoder = ce.MEstimateEncoder(cols=categorical)
mestimate = encoder.fit_transform(X, y)

In [28]:
# o PolynomialEncoder gera colunas baseadas em polinômios para representar as categorias.
encoder = ce.PolynomialEncoder(cols=categorical)
polinomial = encoder.fit_transform(X)



In [30]:
# A ideia principal por trás de um codificador baseado em quantis é mapear as categorias de uma variável categórica 
# para valores numéricos contínuos, levando em consideração a distribuição dos dados em percentis ou quantis.
encoder = ce.QuantileEncoder(cols=categorical)
quantile = encoder.fit_transform(X, y)

In [31]:
# A ideia por trás de um RankHotEncoder poderia ser criar uma codificação para variáveis categóricas que refletisse a ordem de classificação das categorias em uma variável.
encoder = ce.RankHotEncoder(cols=categorical)
rhe = encoder.fit_transform(X)

In [32]:
# compara cada nível de uma variável categórica com a média de todos os níveis
encoder = ce.SumEncoder(cols=categorical)
sum = encoder.fit_transform(X)



In [34]:
# O WoE calcula a relação entre a taxa de eventos positivos (por exemplo, aprovação de crédito) 
# e a taxa de eventos negativos (por exemplo, rejeição de crédito) para cada categoria.
# WoE=ln(Taxa de eventos negativos/Taxa de eventos positivos)
encoder = ce.WOEEncoder(cols=categorical)
woe = encoder.fit_transform(X, y)