# Atividade 4 - Atributos Categóricos e Valores Faltantes

## A base de dados

Neste exercício, usei a base de dados "Mushrooms", que possui exclusivamente atributos categóricos. Cada entrada descreve uma amostra de cogumelo com 22 características. O propósito é desenvolver um classificador capaz de determinar se um cogumelo é adequado para consumo (edible) ou se é tóxico (poisonous)."

In [2]:
import pandas as pd
df = pd.read_csv('agaricus_lepiota_small_c.csv')
df.head()

Unnamed: 0,class,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,e,x,s,y,t,a,f,w,b,g,...,s,w,w,p,w,o,p,n,v,d
1,e,f,s,y,f,n,f,c,b,p,...,s,w,w,p,w,o,f,n,y,g
2,e,k,s,w,f,c,f,w,b,g,...,s,w,n,p,w,t,e,w,n,g
3,e,f,f,n,t,n,f,c,b,w,...,s,g,w,p,w,o,p,k,v,d
4,p,x,s,w,t,p,f,c,n,w,...,s,w,w,p,w,o,p,n,s,u


Primeiramente, codifiquei a classe $e$ como 0 e $p$ como 1. Isso pode ser feito aplicando um simples mapeamento com o método `map` à coluna `class`

In [3]:
print('valores contidos na coluna class antes da codificacao:', df['class'].unique())

df["class"] = df["class"].map({"e": 0, "p": 1})

print('valores contidos na coluna class depois da codificacao:', df['class'].unique())

valores contidos na coluna class antes da codificacao: ['e' 'p']
valores contidos na coluna class depois da codificacao: [0 1]


Sabe-se que há alguns valores faltantes na base, na coluna `stalk-root`. Podemos contabiliza-los com `df.isnull().sum().sum()`:

In [4]:
print('numero de valores faltantes:', df.isnull().sum().sum())
print('valores contidos na coluna stalk-root:', df['stalk-root'].unique())

numero de valores faltantes: 310
valores contidos na coluna stalk-root: ['b' 'e' nan 'c' 'r']


Abaixo, estão listados os atributos presentes na base de dados, seguido do significado de cada categoria:

| Tipo de Atributo  | Atributo                 | Valores                                      |
| ----------------- | ------------------------ | -------------------------------------------- |
| Nominal           | cap-shape                | bell=b, conical=c, convex=x, flat=f, knobbed=k, sunken=s |
| Nominal           | cap-surface              | fibrous=f, grooves=g, scaly=y, smooth=s       |
| Nominal           | cap-color                | brown=n, buff=b, cinnamon=c, gray=g, green=r, pink=p, purple=u, red=e, white=w, yellow=y |
| *Ordinal*           | *bruises?*                | *bruises=t, no=f*                             |
| Nominal           | odor                     | almond=a, anise=l, creosote=c, fishy=y, foul=f, musty=m, none=n, pungent=p, spicy=s |
| Nominal           | gill-attachment          | attached=a, descending=d, free=f, notched=n  |
| Nominal           | gill-spacing             | close=c, crowded=w, distant=d                |
| *Ordinal*           | *gill-size*                | *broad=b, narrow=n*                           |
| Nominal           | gill-color               | black=k, brown=n, buff=b, chocolate=h, gray=g, green=r, orange=o, pink=p, purple=u, red=e, white=w, yellow=y |
| *Ordinal*           | *stalk-shape*             | *enlarging=e, tapering=t*                   |
| **Nominal**       | **stalk-root**           | **bulbous=b, club=c, cup=u, equal=e, rhizomorphs=z, rooted=r, missing=?** |
| Nominal           | stalk-surface-above-ring | fibrous=f, scaly=y, silky=k, smooth=s    |
| Nominal           | stalk-surface-below-ring | fibrous=f, scaly=y, silky=k, smooth=s    |
| Nominal           | stalk-color-above-ring   | brown=n, buff=b, cinnamon=c, gray=g, orange=o, pink=p, red=e, white=w, yellow=y |
| Nominal           | stalk-color-below-ring   | brown=n, buff=b, cinnamon=c, gray=g, orange=o, pink=p, red=e, white=w, yellow=y |
| *Ordinal*          | *veil-type*                | *partial=p, universal=u*                      |
| Nominal           | veil-color               | brown=n, orange=o, white=w, yellow=y         |
| *Ordinal*          | *ring-number*              | *none=n, one=o, two=t*                        |
| Nominal           | ring-type                | cobwebby=c, evanescent=e, flaring=f, large=l, none=n, pendant=p, sheathing=s, zone=z |
| Nominal           | spore-print-color        | black=k, brown=n, buff=b, chocolate=h, green=r, orange=o, purple=u, white=w, yellow=y |
| Nominal           | population               | abundant=a, clustered=c, numerous=n, scattered=s, several=v, solitary=y |
| Nominal           | habitat                  | grasses=g, leaves=l, meadows=m, paths=p, urban=u, waste=w, woods=d |

A coluna "Tipo de Atributo" desempenha o papel de indicar se um atributo categórico deve ser categorizado como ordinal ou nominal. No processo de preparação dos dados, os atributos nominais serão posteriormente submetidos ao OneHotEncoder, presente na biblioteca scikit-learn, transformando-os em representações binárias distintas. Nesse cenário, cada categoria é convertida em uma coluna binária separada, onde o valor '1' é atribuído à coluna correspondente à categoria observada, enquanto todas as outras colunas têm o valor '0'. Por outro lado, para os atributos que possuem uma relação ordinal, o OrdinalEncoder será aplicado, mapeando cada categoria única para um número inteiro sequencial.

É importante observar que alguns atributos possuem uma ordem natural e distinta entre suas categorias, como é o caso de 'ring-number'. Por outro lado, atributos que possuem apenas duas categorias possíveis, como 'bruises', 'gill-size', 'stalk-shape' e 'veil-type', eu tratei como ordinais, uma vez que podem ser facilmente representados de maneira binária. Isso evita a necessidade de adicionar uma coluna extra para a segunda categoria.

Nota-se que a coluna 'stalk-root' é claramente nominal. Para lidar com os valores ausentes nessa coluna, uma estratégia viável é substituir as entradas nulas por 'm', representando a categoria 'missing'. Essa imputação pode ser facilmente realizada utilizando o SimpleImputer disponível na biblioteca scikit-learn.

In [5]:
from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy='constant', fill_value='m')
df['stalk-root'] = imputer.fit_transform(df[['stalk-root']])

print('numero de valores faltantes:', df.isnull().sum().sum())
print('valores contidos na coluna stalk-root apos a imputacao:', df['stalk-root'].unique())

numero de valores faltantes: 0
valores contidos na coluna stalk-root apos a imputacao: ['b' 'e' 'm' 'c' 'r']


Agora, separei o atributo de saída dos demais:

In [6]:
y = df[['class']].values.ravel()
X = df.drop('class', axis=1)

y.shape, X.shape

((1000,), (1000, 22))

É interessante observar o formato de `X`, pois os atributos serão transformados com os encoders mencionados anteriormente, o que alterará seu número de colunas:

In [7]:
import numpy as np
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder

# listas de colunas para diferentes tipos de atributos
binarios = ['bruises', 'gill-size', 'stalk-shape', 'veil-type']
ordinais = ['ring-number']
nominais = [col for col in X.columns.tolist() if col not in binarios and col not in ordinais]

# lista de transformadores para aplicar às diferentes colunas
transformers = [
    ('oh', OneHotEncoder(), nominais),  # codificação one-hot para atributos nominais
    ('od', OrdinalEncoder(), binarios),  # codificação ordinal para atributos binários
    ('or', OrdinalEncoder(categories=[['n', 'o', 't']]), ordinais)  # codificação ordinal para atributos ordinais
]

# ColumnTransformer que aplica os transformadores especificados
ct = ColumnTransformer(transformers, remainder='drop')

# aplica a transformação e converte a saída para uma matriz densa
X_enc = np.asarray(ct.fit_transform(X).todense())

# imprime as dimensões dos dataframes original e transformado
print(f'Dimensões do dataframe original: {X.shape}')
print(f'Dimensões do dataframe transformado: {X_enc.shape}')


Dimensões do dataframe original: (1000, 22)
Dimensões do dataframe transformado: (1000, 108)


Veja que, por conta do elevado número de atributos nominais, a quantidade de colunas foi de 22 para 108.

# Testando os classificadores

In [8]:
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, f1_score
from sklearn.model_selection import GridSearchCV, train_test_split, StratifiedKFold

In [9]:
def calcular_estatisticas(resultados):
    return np.mean(resultados), np.std(resultados), np.min(resultados), np.max(resultados)

In [10]:
def imprimir_estatisticas(resultados):
    media, desvio, mini, maxi = calcular_estatisticas(resultados)
    print("Resultados: %.2f +- %.2f, min: %.2f, max: %.2f" %
          (media, desvio, mini, maxi))

In [11]:
from sklearn.metrics import make_scorer

# função customizada para uso do parâmetro scoring no GridSearchCV
# calcula a acurácia da classe positiva
def acuracia_classe_positiva(y_true, y_pred):
    return accuracy_score(y_true[y_true == 1], y_pred[y_true == 1])

sc_acuracia_classe_positiva = make_scorer(acuracia_classe_positiva)

## KNN

Para avaliação do desempenho do KNN, fiz a validação cruzada em dois níveis. No primeiro nível, os dados são dividos entre treino e teste usando estratificação e escalona as características. Em seguida, realiza-se uma busca em grade com validação cruzada para encontrar o melhor valor de $k$ (número de vizinhos) para o KNN. No segundo nível, o algoritmo avalia o desempenho do KNN com o melhor $k$ encontrado na etapa anterior, calculando a acurácia da classe positiva nos dados de teste. O processo é repetido para diferentes divisões dos dados e valores de $k$, resultando em uma lista de acurácias da classe positiva.

In [12]:
from sklearn.neighbors import KNeighborsClassifier

def do_cv_knn(X, y, kfolds_first, kfolds_second, c_scorer, ks=[1]):
    scores = []

    # cria as partições de validação cruzada no primeiro nível
    skf = StratifiedKFold(n_splits=kfolds_first, shuffle=True, random_state=1)

    for idx_treino, idx_teste in skf.split(X, y):
        X_treino = X[idx_treino]
        y_treino = y[idx_treino]
        X_teste = X[idx_teste]
        y_teste = y[idx_teste]

        # padroniza os dados de treinamento e teste
        scaler = StandardScaler()
        X_treino = scaler.fit_transform(X_treino)
        X_teste = scaler.transform(X_teste)

        params = {"n_neighbors": ks}
        knn = KNeighborsClassifier()

        # realiza a otimização do hiperparâmetro k no segundo nível com GridSearchCV
        knn_grid_search = GridSearchCV(estimator=knn,
                                       param_grid=params,
                                       cv=StratifiedKFold(kfolds_second),
                                       scoring=c_scorer)

        knn_grid_search.fit(X_treino, y_treino)

        # calcula o desempenho usando a métrica específica fornecida (c_scorer)
        score = knn_grid_search.score(X_teste, y_teste)
        scores.append(score)

    return scores


In [13]:
accs_knn = do_cv_knn(X_enc, y, 10, 5, sc_acuracia_classe_positiva, range(1,30,2))

In [14]:
imprimir_estatisticas(accs_knn)

Resultados: 0.96 +- 0.02, min: 0.92, max: 1.00


## SVM

A validação cruzada da SVM é muito similar à do KNN, com diferença apenas nos parâmetros otimizados no segundo nível da validação, em que são testados diferentes combinações dos parâmetros $C$ e $gamma$.

In [15]:
from sklearn.svm import SVC

def do_cv_svm(X, y, kfolds_first, kfolds_second, c_scorer):

    scores = []

    # cria as partições de validação cruzada no primeiro nível
    skf = StratifiedKFold(n_splits=kfolds_first, shuffle=True, random_state=1)

    for idx_treino, idx_teste in skf.split(X, y):
        X_treino = X[idx_treino]
        y_treino = y[idx_treino]
        X_teste = X[idx_teste]
        y_teste = y[idx_teste]

        # padroniza os dados de treinamento e teste
        scaler = StandardScaler()
        X_treino = scaler.fit_transform(X_treino)
        X_teste = scaler.transform(X_teste)

        params = {
            "C" : np.logspace(0, 4, 5, base=10),
            "gamma" : list(np.logspace(-5, -2, 4, base=2)) + ["auto", "scale"]
        }

        svm = SVC(kernel='rbf')

        # realiza a otimização dos hiperparâmetros C e gamma no segundo nível com GridSearchCV
        svm_grid_search = GridSearchCV(estimator=svm,
                                       param_grid=params,
                                       cv=StratifiedKFold(kfolds_second),
                                       scoring=c_scorer)

        svm_grid_search.fit(X_treino, y_treino)

        # calcula o desempenho usando a métrica específica fornecida (c_scorer)
        score = svm_grid_search.score(X_teste, y_teste)
        scores.append(score)

    return scores

In [16]:
accs_svm = do_cv_svm(X_enc, y, 10, 5, sc_acuracia_classe_positiva)

In [17]:
imprimir_estatisticas(accs_svm)

Resultados: 0.94 +- 0.03, min: 0.88, max: 0.98


# Teste da hipotese nula

Comparando as estatísticas dos resultados do KNN e do SVM lado a lado, podemos observar que o KNN apresentou uma ligeira vantagem em termos de acurácia em relação ao SVM. No entanto, é importante destacar que não podemos afirmar com certeza que o KNN é realmente superior ao SVM para esta base de dados. Isso ocorre porque não temos evidências de que a diferença entre as médias dos resultados obtidos pelos dois classificadores seja estatisticamente significativa.

In [18]:
imprimir_estatisticas(accs_knn)
imprimir_estatisticas(accs_svm)

Resultados: 0.96 +- 0.02, min: 0.92, max: 1.00
Resultados: 0.94 +- 0.03, min: 0.88, max: 0.98


Para determinar se a diferença entre as médias de duas distribuições estatísticas, como o desempenho de dois classificadores, é estatisticamente significativa, normalmente se recorre ao teste t de Student. Esse teste envolve o cálculo do p-valor, que representa a probabilidade de que a diferença nas médias seja devida ao acaso. Um valor de p baixo, geralmente definido como menor ou igual a 0.05, sugere que a diferença é estatisticamente significativa, permitindo-nos rejeitar a hipótese nula de que não há diferença real. Por outro lado, um valor de p alto indica que a diferença pode ser devida ao acaso, e a hipótese nula não é rejeitada. Portanto, quanto menor o valor de p, maior é a confiança de que a diferença nas médias é significativa, o que é amplamente aceito na avaliação de modelos estatísticos, como no campo de aprendizado de máquina, com um nível de confiança geralmente definido como α=0.05

In [19]:
from scipy.stats import ttest_ind_from_stats

med_svm, desv_svm, _, _ = calcular_estatisticas(accs_svm)
med_knn, desv_knn, _, _ = calcular_estatisticas(accs_knn)

_, pvalor = ttest_ind_from_stats(med_svm, desv_svm, 10, med_knn, desv_knn, 10)

pvalor, pvalor <= 0.05

(0.07591277911493036, False)

O valor de $p$ obtido a partir do teste t de Student foi um pouco maior do que o nível de significância 0.05. Portanto, como a diferença nas médias das acurácias entre o KNN e o SVM não é estatisticamente significativa, pode-se afirmar que a diferença entre as acurácias dos classificadores ocorreu ao acaso, o que indica que ambos os classificadores tiveram desempenhos estatisticamente equivalentes.

In [20]:
counts = np.bincount(y)
print(f'Número de instâncias negativas (comestíveis): {counts[0]}\nNúmero de instâncias positivas (venenosos): {counts[1]}')

Número de instâncias negativas (comestíveis): 518
Número de instâncias positivas (venenosos): 482


O resultado de ambos os classificadores foi muito bom, mas a base de dados é relativamente desbalanceada, e neste caso como dito pelo professor em sala de aula, a acurácia não é a melhor métrica para avaliar o desempenho de um classificador. Para isso, usei o f1-score como função do scoring:

In [25]:
from sklearn.metrics import f1_score

def f1_classe_negativa(y_true, y_pred):
    return f1_score(y_true, y_pred, pos_label=0)

sc_f1_classe_negativa = make_scorer(f1_classe_negativa)

In [22]:
f1_knn = do_cv_knn(X_enc, y, 10, 5, sc_f1_classe_negativa, range(1,30,2))
f1_svm = do_cv_svm(X_enc, y, 10, 5, sc_f1_classe_negativa)

In [23]:
imprimir_estatisticas(f1_knn)
imprimir_estatisticas(f1_svm)

Resultados: 0.96 +- 0.02, min: 0.91, max: 0.98
Resultados: 0.95 +- 0.02, min: 0.91, max: 0.98


In [24]:
med_svm, desv_svm, _, _ = calcular_estatisticas(f1_svm)
med_knn, desv_knn, _, _ = calcular_estatisticas(f1_knn)

_, pvalor = ttest_ind_from_stats(med_svm, desv_svm, 10, med_knn, desv_knn, 10)

pvalor, pvalor <= 0.05

(0.3472039145689282, False)

A acurácia das classes positivas pode ser enganadora em cenários desbalanceados, onde uma classe é muito menor que a outra. Isso acontece porque um classificador que prevê apenas a classe majoritária pode ter uma alta acurácia, mas ainda errar na identificação da classe minoritária. O F1-Score leva em conta tanto a precisão quanto a capacidade do modelo de encontrar corretamente as instâncias da classe minoritária, sendo uma métrica mais confiável.

Neste caso, onde decidimos se um cogumelo é venenoso, é mais crítico evitar falsos negativos (classificar cogumelos comestíveis como venenosos) do que falsos positivos, já que um erro nesse sentido pode levar a envenenamento. Embora o F1-Score seja usado para avaliação, os resultados são semelhantes à acurácia, e os classificadores apresentam desempenho estatisticamente equivalente.

É importante notar que, apesar de o classificador estar geralmente correto, a incerteza resultante pode fazer com que comer um cogumelo classificado por ele seja arriscado, e sabendo a sorte que eu tenho, eu não me arriscaria comendo o cogumelo.