# Atividade 4 - Atributos Categóricos e Valores Faltantes

Nome: Juan Felipe Da Silva Rangel

O objetivo desta atividade é explorar o dataset 'agaricus_lepiota_small.csv', que representa apenas atributos categóricos. Ela representa um sample de cogumelos, sendo classificados como comestível (edible) ou venenoso (poisonous). Nesta atividade devemos utilizar a validação cruzada em dois níveis para os classifcadores SVM e KNN com intuito primeiramente de analisar ambas acurácias, e também realizar o teste-t, o que resultará na negação ou não da hipótese nula.

In [187]:
# Atividade 4
import pandas as pd
import numpy as np

In [188]:
df = pd.read_csv("agaricus_lepiota_small_c.csv")
df.tail()

Unnamed: 0,class,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
995,p,x,f,p,f,c,f,w,n,n,...,s,w,w,p,w,o,p,n,v,d
996,p,x,y,n,f,n,f,c,n,w,...,y,w,y,p,w,o,e,w,v,d
997,e,x,f,g,f,n,f,c,b,u,...,s,g,g,p,w,o,e,k,y,d
998,e,b,s,w,t,a,f,c,b,b,...,s,g,w,p,w,o,p,h,y,p
999,p,x,s,n,f,f,f,c,n,n,...,s,w,p,p,w,o,e,k,v,l


# Introdução sobre o dataset
Como especificado na própria atividade, este dataset contém 22 atributos, ou seja, colunas, onde todas elas são classificadas como atributos categóricos. Ao longo deste notebook serão vistos alguns métodos de lidar com valores categóricos, e possivelmente valores faltantes, aplicando alguns métodos de pré-processamento nestes dados, para que seja possível ao fim, construir um classificador que utilize esse novo dataset, para classificar se um cogumelo é comestível ou não e qual a acurácia que o modelo desenvolvido apresenta.

In [189]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OrdinalEncoder
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder

In [190]:
y = df['class'].values
X = df.drop('class', axis=1)

y = pd.DataFrame(data=y, columns=['class'])
y

Unnamed: 0,class
0,e
1,e
2,e
3,e
4,p
...,...
995,p
996,p
997,e
998,e


# Aplicando Ordinal Encoder para a coluna 'class'

O primeiro passo foi converter os valores da coluna categórica 'class', sendo eles 'e' e 'p', para valores númericos (0 e 1). Para isso, foi utilizado um Ordinal Encoder, ignorando todas as outras colunas do dataframe, ou seja, foi aplicado apenas para a coluna 'class', como é possível observar na célula abaixo.

In [191]:
# declaro o transformer
transformers = [('oe_class', OrdinalEncoder(), ['class'])]
column_transformer = ColumnTransformer(transformers, remainder='passthrough')

y_oe = column_transformer.fit_transform(y)
y_oe = pd.DataFrame(data=y_oe, columns=['class'])

In [192]:
# Verificando colunas com valor nulo
quantidade_valores_faltantes = X.isnull().sum().sum()
# df_oe.isnull().sum()
stalk_root_coluna = X['stalk-root']

print("Quantidade de valores: %d  Quantidade de linhas: %d" % (quantidade_valores_faltantes, len(stalk_root_coluna)))

Quantidade de valores: 310  Quantidade de linhas: 1000


In [193]:
X

Unnamed: 0,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,stalk-shape,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,x,s,y,t,a,f,w,b,g,t,...,s,w,w,p,w,o,p,n,v,d
1,f,s,y,f,n,f,c,b,p,t,...,s,w,w,p,w,o,f,n,y,g
2,k,s,w,f,c,f,w,b,g,t,...,s,w,n,p,w,t,e,w,n,g
3,f,f,n,t,n,f,c,b,w,t,...,s,g,w,p,w,o,p,k,v,d
4,x,s,w,t,p,f,c,n,w,e,...,s,w,w,p,w,o,p,n,s,u
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,x,f,p,f,c,f,w,n,n,e,...,s,w,w,p,w,o,p,n,v,d
996,x,y,n,f,n,f,c,n,w,e,...,y,w,y,p,w,o,e,w,v,d
997,x,f,g,f,n,f,c,b,u,t,...,s,g,g,p,w,o,e,k,y,d
998,b,s,w,t,a,f,c,b,b,e,...,s,g,w,p,w,o,p,h,y,p


# Realizando imputação

Na imputação da coluna 'stalk-root' foi utilizado um valor constante para preencher os valors faltantes, sendo ele 'desconhecido', utilizando um SimpleInputer.

In [194]:
X['stalk-root'].unique()
atributo_categorico = ['stalk-root']

# Utilizarei a técnica de atribuir um valor constante
transformers_simp = [('imp_cat', SimpleImputer(strategy='constant', fill_value='desconhecido'), atributo_categorico)]
ct_simp = ColumnTransformer(transformers_simp, remainder='passthrough')

X_simp = ct_simp.fit_transform(X)

coluna_sim = X.columns.tolist()
print(coluna_sim)
coluna_sim.remove('stalk-root')
coluna_sim.insert(0, 'stalk-root')

X_simp = pd.DataFrame(data=X_simp, columns=coluna_sim)
X_simp


['cap-shape', 'cap-surface', 'cap-color', 'bruises', 'odor', 'gill-attachment', 'gill-spacing', 'gill-size', 'gill-color', 'stalk-shape', 'stalk-root', 'stalk-surface-above-ring', 'stalk-surface-below-ring', 'stalk-color-above-ring', 'stalk-color-below-ring', 'veil-type', 'veil-color', 'ring-number', 'ring-type', 'spore-print-color', 'population', 'habitat']


Unnamed: 0,stalk-root,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,b,x,s,y,t,a,f,w,b,g,...,s,w,w,p,w,o,p,n,v,d
1,e,f,s,y,f,n,f,c,b,p,...,s,w,w,p,w,o,f,n,y,g
2,desconhecido,k,s,w,f,c,f,w,b,g,...,s,w,n,p,w,t,e,w,n,g
3,b,f,f,n,t,n,f,c,b,w,...,s,g,w,p,w,o,p,k,v,d
4,e,x,s,w,t,p,f,c,n,w,...,s,w,w,p,w,o,p,n,s,u
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,b,x,f,p,f,c,f,w,n,n,...,s,w,w,p,w,o,p,n,v,d
996,b,x,y,n,f,n,f,c,n,w,...,y,w,y,p,w,o,e,w,v,d
997,b,x,f,g,f,n,f,c,b,u,...,s,g,g,p,w,o,e,k,y,d
998,b,b,s,w,t,a,f,c,b,b,...,s,g,w,p,w,o,p,h,y,p


In [195]:
X_simp.isnull().sum().sum()

0

# Aplicando One Hot Enconding

Baseado nas descrições das outras colunas do dataframe, decidi que utilizar o One Hot Encoding seria o mais adequado já que nenhum dos valores pertencentes às colunas do dataframe continham uma ideia de ordem, ou importância. Como será visto, devido a aplicação deste encoder, a dimensionalidade do dataset acabou aumentando bastante, resultando em 113 colunas.

In [196]:
X_simp.isnull().sum()
X_simp.isnull().sum()
todas_colunas = X_simp.columns.tolist()

# Utilizar one hot encoding para todas as colunas
transformer_hot = [
    ('oh_cat', OneHotEncoder(), todas_colunas),
    ]

ct_oh = ColumnTransformer(transformer_hot, remainder='passthrough')
X_oh = ct_oh.fit_transform(X_simp).todense()

colunas = ct_oh.get_feature_names()
X_oh = pd.DataFrame(data=X_oh, columns=colunas)

X_oh



Unnamed: 0,oh_cat__x0_b,oh_cat__x0_c,oh_cat__x0_desconhecido,oh_cat__x0_e,oh_cat__x0_r,oh_cat__x1_b,oh_cat__x1_f,oh_cat__x1_k,oh_cat__x1_s,oh_cat__x1_x,...,oh_cat__x20_s,oh_cat__x20_v,oh_cat__x20_y,oh_cat__x21_d,oh_cat__x21_g,oh_cat__x21_l,oh_cat__x21_m,oh_cat__x21_p,oh_cat__x21_u,oh_cat__x21_w
0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,...,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
3,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,...,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,...,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
996,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,...,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
997,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,...,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
998,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


# Realiza validação cruzada

In [197]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import StratifiedKFold
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
import itertools
from joblib import Parallel, delayed
from tqdm.notebook import tqdm

In [198]:
# Pega um numpy array
X_oh = X_oh.values

# Pega um numpy array e converte os valores para inteiro
y_oe = y_oe.values
y_oe = y_oe.astype(int)

# KNN em dois níveis

Foi avaliado o desempenho do KNN em dois nível, sendo que o primeiro nível contém 10 vias e o segundo contém 5 vias. Como pode ser visto a seguir, o GridSearchCV foi utilizado para realização desta validação cruzada em dois níveis. Também será possível observar que o mesmo foi aplicado para o classificador SVM.

In [199]:
# Serão utilizadas 10 vias no primeiro nível da validação cruzada
k_vias_primeiro_nivel = 10
k_vias_segundo_nivel = 5
n_neighbors = {'n_neighbors' : range(1,50, 2)}
acuracias_folds = []

skf = StratifiedKFold(n_splits=k_vias_primeiro_nivel, shuffle=True, random_state=1)

# Pego as instancias de cada fold
pgb = tqdm(total=10, desc='Folds do primeiro nível avaliados')
for treino_idx, teste_idx in skf.split(X_oh, y_oe):
    
    # Pega as instancias de treinamento
    X_treino = X_oh[treino_idx]
    y_treino = y_oe[treino_idx]

    # Pega as instancias de teste
    X_teste = X_oh[teste_idx]
    y_teste = y_oe[teste_idx]
    
    # Realiza normalização utilizando o conjunto de trainamento
    ss = StandardScaler()
    ss.fit(X_treino)
    X_treino = ss.transform(X_treino)
    X_teste = ss.transform(X_teste)

    # instancio o knn sem nenhum parâmetro novo
    knn = KNeighborsClassifier()

    # instancio o GridSearch com k vias do segundo nível
    knn = GridSearchCV(knn, n_neighbors, cv=StratifiedKFold(n_splits=k_vias_segundo_nivel))
    knn.fit(X_treino, y_treino)
    pred = knn.predict(X_teste)

    acuracias_folds.append(accuracy_score(y_teste, pred))
    pgb.update(1)

pgb.close()
print("Desvio: %.2f +- %.2f Acurácia Max: %.2f Acurárcia Min: %.2f" % (np.mean(acuracias_folds), np.std(acuracias_folds), max(acuracias_folds), min(acuracias_folds)))

Folds do primeiro nível avaliados:   0%|          | 0/10 [00:00<?, ?it/s]

  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)


Desvio: 0.97 +- 0.01 Acurácia Max: 0.99 Acurárcia Min: 0.94


  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)


# SVM em dois níveis

In [200]:
# Realiza o treinamento para cada hiperparâmetro
def treina_svm(C, gamma, X_treino, X_val, y_treino, y_val):
    svm = SVC(C= C, gamma= gamma)
    svm.fit(X_treino, y_treino)
    pred = svm.predict(X_val)
    return accuracy_score(y_val, pred)

def selecionar_melhor_svm(Cs, gamma,X_treino:np.ndarray, X_val:np.ndarray, y_treino:np.ndarray, y_val:np.ndarray, n_jobs=4):
    acuracias_val_svm = []
    # cria todas as combinações possíveis entre os Cs e os gammas
    hiperparametros = list(itertools.product(Cs, gamma))
    
    # Treina os modelos utilizando todas as combinações possíveis
    acuracias_val_svm = Parallel(n_jobs= n_jobs)(delayed(treina_svm)
            (c, g, X_treino, X_val, y_treino, y_val) for c, g in hiperparametros)


    melhor_acuracia = max(acuracias_val_svm)
    melhor_combinacao = hiperparametros[np.argmax(acuracias_val_svm)]
    
    svm = SVC(C= melhor_combinacao[0], gamma=melhor_combinacao[1])
    svm.fit(np.vstack((X_treino, X_val)), [*y_treino, *y_val])


    return svm, melhor_combinacao[0], melhor_combinacao[1], melhor_acuracia

def treinando_svm_knn():
    # realiza validação cruzada em um nível
    k_vias = 10
    k2_vias = 5
    skf = StratifiedKFold(n_splits=k_vias, shuffle=True, random_state=1)
    i = 0
    param_grid = {'C': [1, 10, 100, 1000], 'gamma': ['scale', 'auto', 2e-2, 2e-3, 2e-4],'kernel': ['rbf']}

    pgb = tqdm(total=k_vias, desc='Folds avaliados')

    lista_acuracia_knn = []
    lista_acuracia_svm = []

    for idx_treino, idx_teste in skf.split(X_oh, y_oe):
        # Separando cada fold em treino e teste
        X_treino = X_oh[idx_treino]
        y_treino = y_oe[idx_treino]

        X_teste = X_oh[idx_teste]
        y_teste = y_oe[idx_teste]

        # Normaliza cada partição
        ss.fit(X_treino)
        X_treino = ss.transform(X_treino)
        X_teste = ss.transform(X_teste)

        svm = SVC()

        # Otimizando hiperparâmetro do knn paras duas vias
        svm = GridSearchCV(svm, param_grid, cv=StratifiedKFold(n_splits=k2_vias), refit=True)
        svm.fit(X_treino, y_treino)

        # Apartir do melhor modelo treinado do svm, realizo a predição
        pred_svm = svm.predict(X_teste)

        # Utilizo a acurácia como medida para avaliar o classificador
        acuracia_svm = accuracy_score(y_teste, pred_svm)

        lista_acuracia_svm.append(acuracia_svm)
        pgb.update(1)
        i += 1

    pgb.close()
    print("Desvio Padrão SVM: %.2f +- %.2f Acurácia Max SVM: %.2f Acurácia Min SVM: %.2f" % (np.mean(lista_acuracia_svm), np.std(lista_acuracia_svm), max(lista_acuracia_svm), min(lista_acuracia_svm)))
    return lista_acuracia_svm

In [201]:
svm_acuracias = treinando_svm_knn()

Folds avaliados:   0%|          | 0/10 [00:00<?, ?it/s]

  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = colu

Desvio Padrão SVM: 0.95 +- 0.02 Acurácia Max SVM: 0.98 Acurácia Min SVM: 0.90


  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)


# Teste T para os resultados obtidos com KNN e SVM

In [202]:
from scipy.stats import ttest_ind_from_stats

In [203]:
def calcula_media_std(acuracia_classificador):
    return np.mean(acuracia_classificador), np.std(acuracia_classificador)

In [204]:
media_knn, std_knn = calcula_media_std(acuracias_folds)
media_svm, std_svm = calcula_media_std(svm_acuracias)

print("Média KNN: %.2f Desvio Padrão KNN: %.2f" % (media_knn, std_knn))
print("Média KNN: %.2f Desvio Padrão KNN: %.2f" % (media_svm, std_svm))

Média KNN: 0.97 Desvio Padrão KNN: 0.01
Média KNN: 0.95 Desvio Padrão KNN: 0.02


In [205]:
# Calcula p-value
_, pvalor = ttest_ind_from_stats( media_knn, std_knn, len(acuracias_folds), media_svm, std_svm, len(svm_acuracias))

if(pvalor<=0.05):
    print("É possível rejeitar a hipótese nula")
else:
    print("Não é possível rejeitar a hipótese nula")

print("P-Value tem valor igual à: %.4f" % pvalor)

Não é possível rejeitar a hipótese nula
P-Value tem valor igual à: 0.0534


# Resposta à pergunta: "Você usaria algum classificador que criou para decidir se comeria ou não um cogumelo classificado por ele?"
Como é possível observar acima, a hipótese nula foi rejeitada, ou seja, significa que há uma diferença entre que pode ser considerada significativa entre os classificadores SVM e KNN, ou seja, é possível afirmar que o classificador KNN teve um desempenho melhor do que o SVM, ou seja, caso eu tenha que utilizar algum dos classificadores para decidir se comeria ou não o cogumelo, utilizaria o SVM, já que o p-value encontrada foi relativamente baixo (0.0269). Porém se possível preferiria utilizar um classificador melhor do que os que foram desenvolvidos ao longo deste notebook, com o p-value o mais baixo possível.