   <img src = "https://drive.google.com/uc?id=1JCGXq-eLDEqIh-MIeEEs7VLfde6GFP2q" width = 240/>


## Tratamento de Dados Categóricos

##Autor

Kevin Vinicius Carvalho de Brito

Grupo de Preparação de Dados


---



## Introdução

O tratamento de dados categóricos é uma etapa fundamental na ciência de dados, que se concentra na manipulação de variáveis não numéricas, como categorias e rótulos, em conjuntos de dados. Esse processo visa converter essas categorias em formatos apropriados para análise e modelos de aprendizado de máquina, assegurando a confiabilidade e a relevância dos insights e resultados obtidos, de maneira análoga à limpeza de dados na busca pela qualidade e integridade das informações.

##Importância do tratamento de dados categóricos na área de Dados


O tratamento de dados categóricos desempenha um papel igualmente crucial na excelência dos projetos de ciência de dados. As variáveis categóricas são ubíquas em conjuntos de dados, mas sua presença exige uma abordagem cuidadosa. O tratamento adequado dessas categorias, através de codificação, agrupamento ou outras estratégias, é essencial para evitar viés, melhorar a acurácia das previsões e garantir que os modelos sejam robustos e generalizáveis. Assim como a limpeza de dados, o tratamento adequado de variáveis categóricas contribui para a confiabilidade das análises e para a tomada de decisões embasadas em insights sólidos, sustentando a integridade do projeto como um todo.

##Codificação de variáveis categóricas

##One-hot encoding

 Técnica usada para transformar variáveis categóricas em um formato numérico. Cada categoria única é transformada em uma nova coluna binária (0 ou 1), indicando a presença ou ausência da categoria na observação original. Essa técnica é útil quando não há uma ordem natural nas categorias e todas as categorias são independentes umas das outras.


In [None]:
import pandas as pd

data = {'Animal': ['Gato', 'Cachorro', 'Pássaro', 'Peixe', 'Gato'],
        'Cor': ['Preto', 'Marrom', 'Azul', 'Laranja', 'Branco']}

df = pd.DataFrame(data)

one_hot_encoded = pd.get_dummies(df, columns=['Cor'], prefix='Cor')
print(one_hot_encoded)

     Animal  Cor_Azul  Cor_Branco  Cor_Laranja  Cor_Marrom  Cor_Preto
0      Gato         0           0            0           0          1
1  Cachorro         0           0            0           1          0
2   Pássaro         1           0            0           0          0
3     Peixe         0           0            1           0          0
4      Gato         0           1            0           0          0


##Label Encoding
Envolve a atribuição de um número único a cada categoria. Esse número representa a posição da categoria na lista de todas as categorias únicas. Essa técnica é usada quando as categorias têm uma ordem ou relação intrínseca entre elas. No entanto, o label encoding pode criar uma falsa relação de ordem ou importância entre as categorias, já que os números atribuídos são arbitrários. Portanto, o label encoding é mais apropriado quando há uma relação ordinal entre as categorias, como tamanhos (pequeno, médio, grande) ou níveis educacionais (ensino fundamental, ensino médio, ensino superior).

In [None]:
from sklearn.preprocessing import LabelEncoder

data = {'Animal': ['Gato', 'Cachorro', 'Pássaro', 'Peixe', 'Gato']}

df = pd.DataFrame(data)

label_encoder = LabelEncoder()
df['Animal_LabelEncoded'] = label_encoder.fit_transform(df['Animal'])
print(df)

     Animal  Animal_LabelEncoded
0      Gato                    1
1  Cachorro                    0
2   Pássaro                    3
3     Peixe                    2
4      Gato                    1


##Target Encoding
É uma técnica que envolve a substituição de cada categoria pela média da variável alvo correspondente àquela categoria. Essa técnica é frequentemente usada em problemas de regressão, onde a variável alvo é contínua, mas também pode ser aplicada a problemas de classificação. O target encoding aproveita a relação entre a variável categórica e a variável alvo para criar uma representação numérica mais significativa. No entanto, é importante ter cuidado ao aplicar o target encoding para evitar vazamento de informações do conjunto de treinamento para o conjunto de teste.

In [None]:
import pandas as pd

# Criando um DataFrame de exemplo
data = {
    'Localizacao': ['A', 'B', 'A', 'C', 'B'],
    'Preco': [200000, 250000, 220000, 280000, 260000]
}

df = pd.DataFrame(data)

# Calculando as médias dos preços para cada localização
mean_prices = df.groupby('Localizacao')['Preco'].mean()

# Mapeando as médias de preços de volta para o DataFrame com base na localização
df['Media'] = df['Localizacao'].map(mean_prices)

print(df)

  Localizacao   Preco     Media
0           A  200000  210000.0
1           B  250000  255000.0
2           A  220000  210000.0
3           C  280000  280000.0
4           B  260000  255000.0


#Lidando com categorias raras ou desconhecidas


##Tratamento de Categorias Raras

Refere-se a lidar com categorias que possuem uma frequência muito baixa em um conjunto de dados. Essas categorias raras podem ser problemáticas durante a análise de dados ou o treinamento de modelos, uma vez que podem introduzir ruído ou instabilidade nos resultados. O tratamento envolve a identificação dessas categorias e a aplicação de uma estratégia para agrupá-las ou substituí-las por uma categoria mais geral, como "Raro" ou "Outro". Isso ajuda a simplificar os dados e a reduzir a complexidade do modelo, garantindo que as categorias mais comuns recebam maior atenção.

In [None]:
import pandas as pd

# Dados de exemplo
data = {'Animal': ['Cachorro', 'Gato', 'Cachorro', 'Pássaro', 'Gato', 'Cachorro', 'Peixe', 'Cachorro']}

df = pd.DataFrame(data)

# Tratamento de Categorias Raras
threshold = 2
value_counts = df['Animal'].value_counts()
rare_categories = value_counts[value_counts <= threshold].index

df['Animal'] = df['Animal'].apply(lambda x: 'Raro' if x in rare_categories else x)

print("Conjunto de dados após o tratamento de categorias raras:")
print(df)

Conjunto de dados após o tratamento de categorias raras:
     Animal
0  Cachorro
1      Raro
2  Cachorro
3      Raro
4      Raro
5  Cachorro
6      Raro
7  Cachorro


*   **Substituição pela categoria mais frequente:** substitui as categorias raras por uma categoria mais comum, tornando-as menos impactantes no modelo.
*   **Agrupamento em categoria "Outros":** substitui as categorias raras por uma categoria mais comum, tornando-as menos impactantes no modelo.
*   **Agrupamento em categoria "Outros":** agrupa as categorias raras em uma categoria chamada "Outros" ou "RARE".
*   **Codificação por frequência:** codifica as categorias raras com base em sua frequência relativa.
*   **Remoção das categorias raras:** remove as linhas que contêm categorias raras do conjunto de dados.







##Tratamento de Categoria Desconhecida
Quando você está lidando com novos dados ou observações que possuem categorias que não foram vistas durante o treinamento do modelo. Essas categorias desconhecidas não podem ser diretamente usadas pelo modelo, e uma estratégia é necessária para atribuir valores apropriados a essas categorias não vistas. Geralmente, a abordagem mais comum é substituir categorias desconhecidas por categorias conhecidas com base na distribuição das categorias no conjunto de treinamento.

In [None]:
import pandas as pd

# Dados de treinamento
data_train = {'Animal': ['Cachorro', 'Gato', 'Pássaro', 'Cachorro', 'Gato']}

# Dados de teste com categoria desconhecida
data_test = {'Animal': ['Cachorro', 'Peixe', 'Desconhecido']}

df_train = pd.DataFrame(data_train)
df_test = pd.DataFrame(data_test)

# Tratamento de Categoria Desconhecida
most_frequent_category = df_train['Animal'].mode()[0]
df_test['Animal'] = df_test['Animal'].apply(lambda x: most_frequent_category if x not in df_train['Animal'].unique() else x)

print("Conjunto de teste após o tratamento de categoria desconhecida:")
print(df_test)

Conjunto de teste após o tratamento de categoria desconhecida:
     Animal
0  Cachorro
1  Cachorro
2  Cachorro


*   **Substituição pela categoria mais frequente:** substitui as categorias desconhecido por uma categoria mais comum, tornando-as menos impactantes no modelo.
*   **Agrupamento em categoria "Outros":** substitui as categorias desconhecido por uma categoria mais comum, tornando-as menos impactantes no modelo.
*   **Agrupamento em categoria "Outros":** agrupa as categorias desconhecido em uma categoria chamada "Outros" ou "RARE".
*   **Codificação por frequência:** codifica as categorias desconhecido com base em sua frequência relativa.
*   **Remoção das categorias desconhecido:** remove as linhas que contêm categorias desconhecido do conjunto de dados.







##Tratamento de variáveis ordinais
O tratamento de variáveis ordinais é importante quando você tem variáveis categóricas com uma ordem ou hierarquia natural entre as categorias. Aqui está um exemplo simples de tratamento de variáveis ordinais usando o conjunto de dados de classificação de tamanhos de camisetas.

In [None]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Dados de exemplo
data = {'Tamanho': ['Pequeno', 'Médio', 'Grande', 'Médio', 'Pequeno', 'Grande', 'Médio', 'Grande', 'Pequeno']}

df = pd.DataFrame(data)

# Usar Label Encoding para tratar variável ordinal
label_encoder = LabelEncoder()
df['Tamanho_Encoded'] = label_encoder.fit_transform(df['Tamanho'])

# Mapear os valores numéricos de volta para os rótulos originais
df['Tamanho_Decoded'] = label_encoder.inverse_transform(df['Tamanho_Encoded'])

print(df)

   Tamanho  Tamanho_Encoded Tamanho_Decoded
0  Pequeno                2         Pequeno
1    Médio                1           Médio
2   Grande                0          Grande
3    Médio                1           Médio
4  Pequeno                2         Pequeno
5   Grande                0          Grande
6    Médio                1           Médio
7   Grande                0          Grande
8  Pequeno                2         Pequeno


In [None]:
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder

# Dados de exemplo
data = {'Educação': ['Graduação', 'Pós-Graduação', 'Ensino Médio', 'Graduação', 'Pós-Graduação']}

df = pd.DataFrame(data)

# Usar Ordinal Encoding para tratar variável ordinal
ordinal_encoder = OrdinalEncoder(categories=[['Ensino Médio', 'Graduação', 'Pós-Graduação']])
df['Educação_Encoded'] = ordinal_encoder.fit_transform(df[['Educação']])

# Mapear os valores numéricos de volta para os rótulos originais
df['Educação_Decoded'] = ordinal_encoder.inverse_transform(df[['Educação_Encoded']])

print(df)

        Educação  Educação_Encoded Educação_Decoded
0      Graduação               1.0        Graduação
1  Pós-Graduação               2.0    Pós-Graduação
2   Ensino Médio               0.0     Ensino Médio
3      Graduação               1.0        Graduação
4  Pós-Graduação               2.0    Pós-Graduação


In [None]:
import pandas as pd

# Dados de exemplo
data = {'Classe Social': ['Média', 'Alta', 'Baixa', 'Média', 'Média', 'Alta']}

df = pd.DataFrame(data)

# Definir um mapeamento personalizado
class_mapping = {'Baixa': 1, 'Média': 2, 'Alta': 3}
df['Classe Social_Encoded'] = df['Classe Social'].map(class_mapping)

print(df)

  Classe Social  Classe Social_Encoded
0         Média                      2
1          Alta                      3
2         Baixa                      1
3         Média                      2
4         Média                      2
5          Alta                      3


#Tópicos Avançados Relacionados

##Impacto na Performance de Modelos de Machine Learning
Utilizando One-Hot Encoding para codificar a variável categórica "Gênero" permite que a Árvore de Decisão se adapte melhor aos dados categóricos, resultando em uma melhor acurácia.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Criando um DataFrame fictício com dados categóricos
data = {
    'Gênero': ['Masculino', 'Feminino', 'Feminino', 'Masculino', 'Masculino'],
    'Idade': [25, 30, 28, 22, 24],
    'Compra': ['Sim', 'Não', 'Sim', 'Não', 'Sim']
}

df = pd.DataFrame(data)

# Codificando o Gênero com One-Hot Encoding
df_encoded = pd.get_dummies(df, columns=['Gênero'])

# Dividindo os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(df_encoded.drop('Compra', axis=1), df_encoded['Compra'], test_size=0.2, random_state=42)

# Treinando um modelo de Árvore de Decisão
model = DecisionTreeClassifier()
model.fit(X_train, y_train)

# Fazendo previsões e calculando a acurácia
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia usando One-Hot Encoding: {accuracy:.2f}')


Acurácia usando One-Hot Encoding: 0.00


#Conclusão

A escolha das técnicas de tratamento de variáveis categóricas depende da natureza dos dados e do objetivo do projeto. Ao lidar com dados categóricos, é fundamental considerar a natureza das categorias, a relação com a variável alvo e o impacto nas métricas de avaliação do modelo. Uma abordagem criteriosa e adaptada a cada situação contribuirá para a construção de modelos mais robustos e interpretações mais confiáveis em projetos de ciência de dados. Portanto, o tratamento adequado de variáveis categóricas é um passo crucial na jornada rumo a insights valiosos e tomada de decisões informadas.