# Atividade 2 - Atributos Categóricos e Valores Faltantes

Nesta atividade será utilizado o conjunto de dados *Mushrooms*, uma base cheio de dados categóricos. Nosso objetivo será classificar as amostras de cogumelo como comestível (*edible*) ou venenoso (*poisonous*).

#### Importando as bibliotecas que vamos utilizar

In [1]:
import pandas as pd
import numpy as np 
import imblearn as ibl
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler, OrdinalEncoder, OneHotEncoder
from sklearn.metrics import accuracy_score, classification_report, f1_score, recall_score, precision_score, confusion_matrix, plot_confusion_matrix
from sklearn.model_selection import GridSearchCV, train_test_split, StratifiedKFold
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.svm import SVC
import itertools

from scipy.stats import ttest_ind_from_stats

%matplotlib inline

#### Carregando os dados

In [2]:
df = pd.read_csv('dados/agaricus_lepiota_small_c.csv')
df.head(3)

Unnamed: 0,class,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,e,x,s,y,t,a,f,w,b,g,...,s,w,w,p,w,o,p,n,v,d
1,e,f,s,y,f,n,f,c,b,p,...,s,w,w,p,w,o,f,n,y,g
2,e,k,s,w,f,c,f,w,b,g,...,s,w,n,p,w,t,e,w,n,g


Separando os atributos de entrada do atributo de saída

In [3]:
X = df.drop('class', axis=1)
y = df[['class']]

#### Codificando o atributo de saída

Nessa etapa alteramos o atributo de saída, de um valor categórico para um valor numérico, pois nos próximos passos isso será útil, e irá nos ajudar.

In [4]:
y = y.replace('e', 0)
y = y.replace('p', 1)

#### Imputação dos valores faltates

Os valores que estão faltando serão substituídos por ***uk**, abreviação de *unknown*.

In [5]:
atributos = X.drop('stalk-root', axis=1).columns
atributo_categorico = ['stalk-root']

transformers = [
    ('imp_stalk-root', SimpleImputer(strategy='constant', fill_value='uk'), atributo_categorico)
]

ct_imp = ColumnTransformer(
    transformers, remainder='passthrough'
)

X_imp_val = ct_imp.fit_transform(X)

X_imputed = pd.DataFrame(X_imp_val, columns=[*atributo_categorico, *atributos])

#### Codificando os atributos categóricos

Para realizar uma averiguação sobre o desempenho na classificação, todos os atributos categóricos foram transformados utilizando *One-Hot Encoding*. Porém, isso pode gerar uma consequência na execução nos próximos passos, deixando um pouco lento, visto que o número de colunas aumentará em mais de 5 vezes. Mas, mesmo assim foi escolhido essa transformação, para podermos fazer alguns teste e verificarmos se o fato de ter muitas colunas pode prejudicar o *kNN* e fazer com que o *SVM* tenham um resultado melhor. Ou se isso pode gerar diferenças entre eles. 

In [6]:
atributo_categorico = X_imputed.columns

transformers = [('oh_'+col, OneHotEncoder(), [col]) for col in atributo_categorico]

ct_oh = ColumnTransformer(transformers, sparse_threshold=0, remainder='passthrough')
X_oh = ct_oh.fit_transform(X_imputed)

Verificando a quantidade de colunas e constatamos que realmente o número aumente em quase 5 vezes.

In [7]:
X_oh.shape, X.shape

((1000, 113), (1000, 22))

#### Funções genéricas para validação cruzada

Essas funções nos ajudaram na avaliação e na validação cruzada de dois níveis para os dois classificadores. Como essa é uma função genérica ele pode ser reaproveitado e utilizado pelos dois.

In [8]:
def selecionar_melhor_modelo(classificador, X_treino, X_val, y_treino, y_val, n_jobs=4, 
                             cv_folds=None, params={}):
    
    def treinar_ad(X_treino, X_val, y_treino, y_val, params):
        clf = classificador(**params)
        clf.fit(X_treino, y_treino)
        pred = clf.predict(X_val)
        
        if len(set(y_treino)) > 2:
            return f1_score(y_val, pred, average='weighted')
        else:
            return f1_score(y_val, pred)
    
    
    if cv_folds is not None:
        #Se for pra usar validação cruzada, usar GridSearchCV
        score_fn = 'f1' if len(set(y_treino)) < 3 else 'f1_weighted'
        
        clf = GridSearchCV(classificador(), params, cv=cv_folds, n_jobs=n_jobs, scoring=score_fn)
        #Passar todos os dados (Treino e Validação) para realizar a seleção dos parâmetros.
        clf.fit(np.vstack((X_treino, X_val)), [*y_treino, *y_val])
        
        melhor_comb = clf.best_params_
        melhor_val = clf.best_score_
        
    else:
        param_grid = list(ParameterGrid(params))
        
        f1s_val = Parallel(n_jobs=n_jobs)(delayed(treinar_ad)
                                         (X_treino, X_val, y_treino, y_val, p) for p in param_grid)

        melhor_val = max(f1s_val)
        melhor_comb = param_grid[np.argmax(f1s_val)]
        
        clf = classificador(**melhor_comb)
        
        clf.fit(np.vstack((X_treino, X_val)), [*y_treino, *y_val])
    
    return clf, melhor_comb, melhor_val

def do_cv(classificador, X, y, cv_splits, param_cv_folds=None, n_jobs=8, scale=False, params={}):

    skf = StratifiedKFold(n_splits=cv_splits, shuffle=True, random_state=1)

    f1s = []
    preds = []
    
    for treino_idx, teste_idx in skf.split(X, y):

        X_treino = X[treino_idx]
        y_treino = y[treino_idx]

        X_teste = X[teste_idx]
        y_teste = y[teste_idx]

        X_treino, X_val, y_treino, y_val = train_test_split(X_treino, y_treino, stratify=y_treino, test_size=0.2, random_state=1)
        
        if scale:
            ss = StandardScaler()
            X_treino = ss.fit_transform(X_treino)
            X_teste = ss.transform(X_teste)
            X_val = ss.transform(X_val)        

        ad, melhor_comb, _ = selecionar_melhor_modelo(classificador, X_treino, X_val, y_treino, y_val, 
                                                      n_jobs=n_jobs, cv_folds=param_cv_folds, params=params)
        pred = ad.predict(X_teste)

        if len(set(y_treino)) > 2:
            f1 = f1_score(y_teste, pred, average='weighted')
        else:
            f1 = f1_score(y_teste, pred)
        f1s.append(f1)
        preds.append(pred)
        
    
    return [f1s, preds]

#### Funções genéricas de estatísticas

Aqui estão as funções que nos ajudaram na avaliação dos resultados obtidos.

In [9]:
def calcular_estatisticas(resultados):
    return np.mean(resultados), np.std(resultados), np.min(resultados), np.max(resultados)

def imprimir_estatisticas(resultados):
    media, desvio, mini, maxi = calcular_estatisticas(resultados)
    print("Resultados: %.2f +- %.2f, min: %.2f, max: %.2f" % (media, desvio, mini, maxi))

def rejeitar_hip_nula(amostra1, amostra2, alpha=0.05):
    media_amostral1, desvio_padrao_amostral1, _, _ = calcular_estatisticas(amostra1)
    media_amostral2, desvio_padrao_amostral2, _, _ = calcular_estatisticas(amostra2)
    
    _, pvalor = ttest_ind_from_stats(media_amostral1, desvio_padrao_amostral1, len(amostra1), media_amostral2, desvio_padrao_amostral2, len(amostra2))
    return (pvalor <= alpha, pvalor)

#### Classificador *kNN*

Classificador *kNN* que será realizado utilizando validação cruzado em dois níveis, sendo no primeiro nível de 10 vias, e já no segundo de 5. E dentro do classificador será realizado uma padronização dos valores.

In [10]:
knn_ = ('knn', KNeighborsClassifier, True, {'n_neighbors' : range(1,30,2)})
knn = [knn_]

In [11]:
resultados = {}
pred = {}
for nome, classificador, scale, params in knn:
    r = do_cv(classificador, X_oh, y.values.ravel(), 10, 5, 8, scale, params)
    resultados[nome] = r[0]
    pred[nome] = [1]

#### Classificador *SVM*

Classificador *SVM* que será realizado utilizando validação cruzado em dois níveis, sendo no primeiro nível de 10 vias, e já no segundo de 5. E dentro do classificador será realizado uma padronização dos valores.

In [12]:
svm_ = ('svm', SVC, True, {'C' : [1, 10, 100, 1000], 'gamma' : ['auto', 'scale']})
svm = [svm_]

In [13]:
for nome, classificador, scale, params in svm:
    r = do_cv(classificador, X_oh, y.values.ravel(), 10, 5, 8, scale, params)
    resultados[nome] = r[0]
    pred[nome] = [1]

#### Visualizando estatísticas para os dois classificadores

Avaliação do desempenhos dos dois classificadores:

In [14]:
for res in resultados:
    print(res.rjust(1), end=' - ')
    imprimir_estatisticas(resultados[res])

knn - Resultados: 0.97 +- 0.01, min: 0.94, max: 0.99
svm - Resultados: 0.95 +- 0.03, min: 0.88, max: 0.98


#### Teste hipótese nula

In [15]:
def rejeitar_hip_nula(amostra1, amostra2, alpha=0.05):
    media_amostral1, desvio_padrao_amostral1, _, _ = calcular_estatisticas(amostra1)
    media_amostral2, desvio_padrao_amostral2, _, _ = calcular_estatisticas(amostra2)
    
    _, pvalor = ttest_ind_from_stats(media_amostral1, desvio_padrao_amostral1, len(amostra1), media_amostral2, desvio_padrao_amostral2, len(amostra2))
    return (pvalor <= alpha, pvalor)

##### Verificando se os resultados obtidos pelo *kNN* e *SVM* são estatisticamente diferentes com 95% de confiança.

In [16]:
largura = max(map(len,resultados.keys()))+7
print(" " * largura , end="")
      
for t in resultados:
    print(t.center(largura), end='')
print()

for t in resultados:
    print(t.center(largura), end='')
    for t2 in resultados:
        d, p = rejeitar_hip_nula(resultados[t], resultados[t2], alpha=0.05)
        print(("%.02f%s" % (p, ' (*)' if d else '')).center(largura), end='')
    print()

             knn       svm    
   knn       1.00      0.07   
   svm       0.07      1.00   


Pela analise do resultados obtidos, não podemos afirmar com 95% de confiança, que os resultados obtidos pelo *kNN* e *SVM* são estatisticamente diferentes.

#### Você usaria algum classificador que criou para decidir se comeria ou não um cogumelo classificado por ele?

Sim, usaria um classificador criado por mim para decidir se comeria ou não determinado cogumelo. Pois se observarmos os resultados obtidos pelos classificadores, conseguimos averiguar que possuem uma taxa de acerto relativamente alta. E, quando comparamos um classificador com o outro, percebemos que não conseguimos afirmar que exista uma diferença em relação aos resultados obtidos por ele. Com isso, reafirmo que sim, comeria um cogumelo classificado por um desses classificadores.