# Handling Categorical Data


## Encoding Nominal Categorical Features

### Problema  
Possui uma variável categórica **nominal** (sem ordenação intrínseca), como tipos de frutas: *apple, pear, banana*.

### Solução  
Utilizar **one-hot encoding** com `LabelBinarizer` do `scikit-learn`, transformando cada categoria em uma nova variável binária.

In [5]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelBinarizer, MultiLabelBinarizer

In [3]:
feature = np.array([["Texas"],
                    ["California"],
                    ["Texas"],
                    ["Delaware"],
                    ["Texas"]])
feature

array([['Texas'],
       ['California'],
       ['Texas'],
       ['Delaware'],
       ['Texas']], dtype='<U10')

In [4]:
one_hot = LabelBinarizer()
encoding = one_hot.fit_transform(feature)

encoding

array([[0, 0, 1],
       [1, 0, 0],
       [0, 0, 1],
       [0, 1, 0],
       [0, 0, 1]])

#### Se cada item tem apenas um rótulo, usar LabelBinarizer.
#### Se cada item pode ter múltiplos rótulos, usar MultiLabelBinarizer

In [None]:
multiclass_feature = [("Texas", "Florida"), 
                        ("California", "Alabama"),
                        ("Texas", "Florida"),
                        ("Delware", "Florida"),
                        ("Texas", "Alabama")]
multiclass_feature

[('Texas', 'Florida'),
 ('California', 'Alabama'),
 ('Texas', 'Florida'),
 ('Delware', 'Florida'),
 ('Texas', 'Alabama')]

In [8]:
one_hot_multiclass = MultiLabelBinarizer()

multilabel = one_hot_multiclass.fit_transform(multiclass_feature)
multilabel

array([[0, 0, 0, 1, 1],
       [1, 1, 0, 0, 0],
       [0, 0, 0, 1, 1],
       [0, 0, 1, 1, 0],
       [1, 0, 0, 0, 1]])

## Handling Imbalanced Classes

Quando um conjunto de dados tem uma **distribuição desigual entre classes**, os modelos de machine learning podem ficar tendenciosos para a classe majoritária. Exemplo:

| Classe | Quantidade |
|--------|-----------|
| 0 (Negativo) | 950 |
| 1 (Positivo) | 50  |

Se um modelo prever sempre **0**, ele ainda terá **95% de acurácia**, mas falha em identificar a minoria.

---

### Estratégias para Lidar com Desbalanceamento

#### **Reamostragem dos Dados**
- **Oversampling** (aumentar a classe minoritária)
- **Undersampling** (reduzir a classe majoritária)
