
# TIM AI Academy

## Demonstração 12 - A partir do dataset fictício, explanação a respeito de tarnsformação de dados categóricos (encoding).

### Prof. Dr. Ahirton Lopes (https://github.com/ahirtonlopes)

In [7]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
import numpy as np

Para este exemplo, temos informações de clientes de uma operadora, como Plano de Assinatura, Status de Pagamento e Segmento de Cliente.

Esses são dados categóricos que precisam ser convertidos para valores numéricos para serem usados em modelos de machine learning.

In [8]:

# Exemplo de dataset simulado do mundo de telecomunicações
data = {
    'Plano': ['Fixo', 'Móvel', 'Fixo', 'Móvel', 'Fixo', 'Fixo', 'Móvel', 'Móvel'],
    'Status_Pagamento': ['Pago', 'Não Pago', 'Pago', 'Não Pago', 'Pago', 'Pago', 'Não Pago', 'Pago'],
    'Segmento_Cliente': ['Residencial', 'Corporativo', 'Residencial', 'Corporativo', 'Residencial', 'Corporativo', 'Corporativo', 'Residencial'],
    'Churn': [0, 1, 0, 1, 0, 0, 1, 0]  # 0 = Não Churn, 1 = Churn
}

df = pd.DataFrame(data)

Label Encoding:

Utilizado para variáveis que possuem uma ordem natural, como 'Plano' ou 'Status de Pagamento'. Esse método substitui cada categoria por um valor numérico. O "Plano" Fixo será transformado em 0, Móvel em 1, e assim por diante.

One-Hot Encoding:

Cria colunas binárias para cada categoria (sem relação de ordem). Por exemplo, criamos colunas separadas para o "Plano Fixo" e "Plano Móvel", onde a presença de cada categoria é indicada por 1 ou 0.

Count Encoding:

Substitui cada categoria pela frequência de sua ocorrência. No exemplo, 'Fixo' ocorre 4 vezes, então a categoria 'Fixo' recebe o valor 4. Isso pode ser útil quando se quer capturar a "popularidade" de cada categoria.

Target Encoding:

Substitui cada categoria pela média da variável target ('Churn' nesse caso). Se a média de 'Churn' para o "Plano Fixo" for 0.25, todas as instâncias de "Plano Fixo" terão esse valor. Esse método pode capturar relações mais profundas entre a variável categórica e o target.

In [9]:
# 1. Label Encoding - Para variáveis ordinais ou categóricas com uma ordem
label_encoder = LabelEncoder()
df['Plano_Encoded'] = label_encoder.fit_transform(df['Plano'])
df['Status_Pagamento_Encoded'] = label_encoder.fit_transform(df['Status_Pagamento'])
df['Segmento_Cliente_Encoded'] = label_encoder.fit_transform(df['Segmento_Cliente'])

print("Label Encoding:")
print(df[['Plano', 'Plano_Encoded', 'Status_Pagamento', 'Status_Pagamento_Encoded', 'Segmento_Cliente', 'Segmento_Cliente_Encoded']])

Label Encoding:
   Plano  Plano_Encoded Status_Pagamento  Status_Pagamento_Encoded  \
0   Fixo              0             Pago                         1   
1  Móvel              1         Não Pago                         0   
2   Fixo              0             Pago                         1   
3  Móvel              1         Não Pago                         0   
4   Fixo              0             Pago                         1   
5   Fixo              0             Pago                         1   
6  Móvel              1         Não Pago                         0   
7  Móvel              1             Pago                         1   

  Segmento_Cliente  Segmento_Cliente_Encoded  
0      Residencial                         1  
1      Corporativo                         0  
2      Residencial                         1  
3      Corporativo                         0  
4      Residencial                         1  
5      Corporativo                         0  
6      Corporativo      

In [10]:
# 2. One-Hot Encoding - Para variáveis categóricas nominais
df_one_hot = pd.get_dummies(df[['Plano', 'Status_Pagamento', 'Segmento_Cliente']], prefix=['Plano', 'Status_Pagamento', 'Segmento_Cliente'])
print("\nOne-Hot Encoding:")
print(df_one_hot)


One-Hot Encoding:
   Plano_Fixo  Plano_Móvel  Status_Pagamento_Não Pago  Status_Pagamento_Pago  \
0        True        False                      False                   True   
1       False         True                       True                  False   
2        True        False                      False                   True   
3       False         True                       True                  False   
4        True        False                      False                   True   
5        True        False                      False                   True   
6       False         True                       True                  False   
7       False         True                      False                   True   

   Segmento_Cliente_Corporativo  Segmento_Cliente_Residencial  
0                         False                          True  
1                          True                         False  
2                         False                          True  
3   

In [11]:
# 3. Count Encoding - Substitui categorias pela frequência de sua ocorrência
count_encoding_plano = df['Plano'].value_counts()
count_encoding_segmento = df['Segmento_Cliente'].value_counts()

df['Plano_Count_Encoded'] = df['Plano'].map(count_encoding_plano)
df['Segmento_Count_Encoded'] = df['Segmento_Cliente'].map(count_encoding_segmento)

print("\nCount Encoding:")
print(df[['Plano', 'Plano_Count_Encoded', 'Segmento_Cliente', 'Segmento_Count_Encoded']])


Count Encoding:
   Plano  Plano_Count_Encoded Segmento_Cliente  Segmento_Count_Encoded
0   Fixo                    4      Residencial                       4
1  Móvel                    4      Corporativo                       4
2   Fixo                    4      Residencial                       4
3  Móvel                    4      Corporativo                       4
4   Fixo                    4      Residencial                       4
5   Fixo                    4      Corporativo                       4
6  Móvel                    4      Corporativo                       4
7  Móvel                    4      Residencial                       4


In [12]:
# 4. Target Encoding - Usando a variável 'Churn' como target
df['Plano_Target_Encoded'] = df.groupby('Plano')['Churn'].transform('mean')
df['Segmento_Target_Encoded'] = df.groupby('Segmento_Cliente')['Churn'].transform('mean')

print("\nTarget Encoding:")
print(df[['Plano', 'Plano_Target_Encoded', 'Segmento_Cliente', 'Segmento_Target_Encoded']])


Target Encoding:
   Plano  Plano_Target_Encoded Segmento_Cliente  Segmento_Target_Encoded
0   Fixo                  0.00      Residencial                     0.00
1  Móvel                  0.75      Corporativo                     0.75
2   Fixo                  0.00      Residencial                     0.00
3  Móvel                  0.75      Corporativo                     0.75
4   Fixo                  0.00      Residencial                     0.00
5   Fixo                  0.00      Corporativo                     0.75
6  Móvel                  0.75      Corporativo                     0.75
7  Móvel                  0.75      Residencial                     0.00
