In [12]:
import pandas as pd
import numpy as np

from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OrdinalEncoder
from scipy.stats import ttest_ind_from_stats
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import plot_confusion_matrix, f1_score

from utils import dupla_cv_knn, dupla_cv_svm, calcular_estatisticas

### 1. Codifique o atributo de saída (class) da seguinte forma: e → 0 e p → 1. Isto será útil para o cálculo da métrica f1_score, mais adiante.
Para codificar o atributo "class" (e -> 0, p -> 1), primeiro carreguei o <em>dataframe</em>, e em seguida utilizei a função "OrdinalEncoder" para converter o atributo "class" em numérico.

In [2]:
df = pd.read_csv('agaricus_lepiota_small_c.csv')
#df.isnull().sum()
df

Unnamed: 0,class,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,e,x,s,y,t,a,f,w,b,g,...,s,w,w,p,w,o,p,n,v,d
1,e,f,s,y,f,n,f,c,b,p,...,s,w,w,p,w,o,f,n,y,g
2,e,k,s,w,f,c,f,w,b,g,...,s,w,n,p,w,t,e,w,n,g
3,e,f,f,n,t,n,f,c,b,w,...,s,g,w,p,w,o,p,k,v,d
4,p,x,s,w,t,p,f,c,n,w,...,s,w,w,p,w,o,p,n,s,u
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,p,x,f,p,f,c,f,w,n,n,...,s,w,w,p,w,o,p,n,v,d
996,p,x,y,n,f,n,f,c,n,w,...,y,w,y,p,w,o,e,w,v,d
997,e,x,f,g,f,n,f,c,b,u,...,s,g,g,p,w,o,e,k,y,d
998,e,b,s,w,t,a,f,c,b,b,...,s,g,w,p,w,o,p,h,y,p


In [3]:
transformers = [
    ('oe_class', OrdinalEncoder(), ['class']),
]

# ct = Column Transformer
ct = ColumnTransformer(transformers, remainder='drop')

X_oe = ct.fit_transform(df)

### 2. Realize a imputação para os valores faltantes. Os valores faltantes estão em apenas na coluna “stalk-root”. A estratégia de imputação fica a seu critério. Também há a possibilidade de excluir esta coluna.
De primeira mão, decidi realizar a imputação de valores para o atributo "stalk-root", desse modo, realizei a imputação dos valores mais frequentes neste atributo. Por fim, como "X_oe" e "X_str" contém apenas os atributos "class" e "stalk-root" respectivamente, inclui eles de volta no <em>dataframe</em>. E aqui que eu atribui a variável "y" com os valores da coluna "class", pois estes valores já estão enumerados em 0 e 1.

In [4]:
# TEstar com imputacao e mais pra frente com exclusao

# Imputer of columns: stalk-root

atributos_string = ['stalk-root']

transformers = [
    ('imputer', SimpleImputer(strategy='most_frequent'), atributos_string)
]

# ct = Column Tranformer
# drop the others columns
ct_str = ColumnTransformer(transformers, remainder='drop')

X_str = ct_str.fit_transform(df)

In [5]:
X = pd.DataFrame(np.hstack((X_str)), columns=[*atributos_string])
df['stalk-root'] = X['stalk-root']
df['class'] = X_oe
df.isnull().sum()
y = df[['class']].values.ravel()

### 3. Faça a codificação dos atributos categóricos. O arquivo agaricus-lepiota.names explica a significado e os valores relativos a cada atributo da base de dados. De acordo com o significado e os valores de cada atributo decida qual é o codificador mais adequado.
Nesta parte foi feito a conversão dos atributos para atributos numéricos, em seguida optei por agrupar todos os atributos num novo <em>dataframe</em>.

In [6]:
transformers = [
    ('oe_cap-shape', OrdinalEncoder(), ['cap-shape']),
    ('oe_cap-surface', OrdinalEncoder(), ['cap-surface']),
    ('oe_cap-color', OrdinalEncoder(), ['cap-color']),
    ('oe_bruises', OrdinalEncoder(), ['bruises']),
    ('oe_odor', OrdinalEncoder(), ['odor']),
    ('oe_gill-attachment', OrdinalEncoder(), ['gill-attachment']),
    ('oe_gill-spacing', OrdinalEncoder(), ['gill-spacing']),
    ('oe_gill-size', OrdinalEncoder(), ['gill-size']),
    ('oe_gill-color', OrdinalEncoder(), ['gill-color']),
    ('oe_stalk-shape', OrdinalEncoder(), ['stalk-shape']),
    ('oe_stalk-root', OrdinalEncoder(), ['stalk-root']),
    ('oe_stalk-surface-above-ring', OrdinalEncoder(), ['stalk-surface-above-ring']),
    ('oe_stalk-surface-below-ring', OrdinalEncoder(), ['stalk-surface-below-ring']),
    ('oe_stalk-color-above-ring', OrdinalEncoder(), ['stalk-color-above-ring']),
    ('oe_stalk-color-below-ring', OrdinalEncoder(), ['stalk-color-below-ring']),
    ('oe_veil-type', OrdinalEncoder(), ['veil-type']),
    ('oe_veil-color', OrdinalEncoder(), ['veil-color']),
    ('oe_ring-number', OrdinalEncoder(), ['ring-number']),
    ('oe_ring-type', OrdinalEncoder(), ['ring-type']),
    ('oe_spore-print-color', OrdinalEncoder(), ['spore-print-color']),
    ('oe_population', OrdinalEncoder(), ['population']),
    ('oe_habitat', OrdinalEncoder(), ['habitat']),
]

# ct = Column Transformer
ct = ColumnTransformer(transformers, remainder='drop')

X_oe_df = ct.fit_transform(df)
X_oe_df = pd.DataFrame(X_oe_df, columns = [
    'cap-shape', 'cap-surface', 'cap-color', 'bruises', 'odor', 
    'gill-attachment', 'gill-spacing', 'gill-size', 'gill-color', 
    'stalk-shape', 'stalk-root', 'stalk-surface-above-ring', 
    'stalk-surface-below-ring', 'stalk-color-above-ring', 
    'stalk-color-below-ring', 'veil-type', 'veil-color',
    'ring-number', 'ring-type', 'spore-print-color', 
    'population', 'habitat'
])
X_oe_df

Unnamed: 0,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,stalk-shape,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,4.0,1.0,9.0,1.0,0.0,1.0,1.0,0.0,2.0,1.0,...,2.0,7.0,7.0,0.0,2.0,1.0,4.0,3.0,4.0,0.0
1,1.0,1.0,9.0,0.0,5.0,1.0,0.0,0.0,7.0,1.0,...,2.0,7.0,7.0,0.0,2.0,1.0,1.0,3.0,5.0,1.0
2,2.0,1.0,8.0,0.0,1.0,1.0,1.0,0.0,2.0,1.0,...,2.0,7.0,4.0,0.0,2.0,2.0,0.0,7.0,2.0,1.0
3,1.0,0.0,4.0,1.0,5.0,1.0,0.0,0.0,10.0,1.0,...,2.0,3.0,7.0,0.0,2.0,1.0,4.0,2.0,4.0,0.0
4,4.0,1.0,8.0,1.0,6.0,1.0,0.0,1.0,10.0,0.0,...,2.0,7.0,7.0,0.0,2.0,1.0,4.0,3.0,3.0,5.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,4.0,0.0,5.0,0.0,1.0,1.0,1.0,1.0,5.0,0.0,...,2.0,7.0,7.0,0.0,2.0,1.0,4.0,3.0,4.0,0.0
996,4.0,2.0,4.0,0.0,5.0,1.0,0.0,1.0,10.0,0.0,...,3.0,7.0,8.0,0.0,2.0,1.0,0.0,7.0,4.0,0.0
997,4.0,0.0,3.0,0.0,5.0,1.0,0.0,0.0,9.0,1.0,...,2.0,3.0,3.0,0.0,2.0,1.0,0.0,2.0,5.0,0.0
998,0.0,1.0,8.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,...,2.0,3.0,7.0,0.0,2.0,1.0,4.0,1.0,5.0,4.0


### 4. Avalie o desempenho do classificador KNN usando validação cruzada em dois níveis, conforme discutimos na Semana 4. A validação cruzada no primeiro deve ser em 10 vias, enquanto no segundo nível deve ser em 5 vias.
No arquivo "utils.py", temos a função de validação cruzada em dois níveis utilizando o classificador KNN, onde no segundo nível é selecionado o melhor K para o knn, sendo que foi utilizado a métrica f1-score. Vale ressaltar que utilizei o parâmetro "scoring"  que basicamente avalia o desempenho do modelo com validação cruzada no conjunto de teste.

In [7]:
accs_knn, melhor_k = dupla_cv_knn(X_oe_df.values, y, range(1, 30, 2))
print("min: %.2f, max: %.2f, avg +- std: %.2f+-%.2f" % (min(accs_knn), max(accs_knn), np.mean(accs_knn), np.std(accs_knn)))

Folds avaliados:   0%|          | 0/10 [00:00<?, ?it/s]

min: 0.87, max: 0.94, avg +- std: 0.91+-0.02


### 5. Avalie o desempenho do classificador SVM usando validação cruzada em dois níveis, da mesma forma que no item 4. A validação cruzada no segundo nível deve selecionar a melhor combinação de C e gamma (γ)
Neste item, foi feito uma validação cruzada em dois níveis utilizando o classificador SVM, no arquivo "utils.py", na função "dupla_cv_svm", assim como na função "dupla_cv_knn", no primeiro nível temos a validação cruzada de 10 vias e no segundo nível de 5 vias, como também no segundo nível, selecionamos a melhor combinação de C e gamma, e utilizei o GridSearchCV, utilizando como parâmetro o kernel "rbf", gammas e os Cs.

In [8]:
# Usar o gridSearchCV

accs_svm, melhor_c, melhor_gamma = dupla_cv_svm(X_oe_df.values, y, Cs=[1, 10, 100, 1000], gammas=['scale', 'auto', 2e-1, 2e-2, 2e-3, 2e-4])
print("min: %.2f, max: %.2f, avg +- std: %.2f+-%.2f" % (min(accs_svm), max(accs_svm), np.mean(accs_svm), np.std(accs_svm)))

Folds avaliados:   0%|          | 0/10 [00:00<?, ?it/s]

min: 0.86, max: 0.93, avg +- std: 0.91+-0.02


### 6. Faça o teste da hipótese nula (pelo Teste-T) para verificar se os resultados obtidos com o KNN e com a SVM são estatisticamente diferentes com 95% de confiança. Interprete o resultado do teste.
Realizando o teste de hipótese nula (pelo Teste-T de Student), foi obtido o resultado 0.96 (96%) aproximadamente, como o "pvalor" é superior a 0.05 (5%), pode-se concluir que os resultados obtidos no KNN e no SVM são semelhantes estatísticamente.

In [9]:
media_knn, std_knn, _, _ = calcular_estatisticas(accs_knn)
media_svm, std_svm, _, _ = calcular_estatisticas(accs_svm)
_, pvalor = ttest_ind_from_stats(media_knn, std_knn, len(accs_knn), media_svm, std_svm, len(accs_svm))
pvalor

0.9651314388096288

### 7. Você usaria algum classificador que criou para decidir se comeria ou não um cogumelo classificado por ele? Justifique usando o desempenho obtido e o resultado do teste de hipótese.
Mesmo obtendo um desempenho bom de 91% aproximadamente, como também os resultados do KNN e do SVM são bem semelhantes na questão de desempenho e do p-valor da hipótese nula, eu utilizaria sim algum desses classificadores, como ambos são semelhantes estatísticamente.