# Classificando exemplos com k-nn

In [6]:
# baseado no exemplo de: 
# https://scikit-learn.org/0.19/auto_examples/text/document_classification_20newsgroups.html#sphx-glr-auto-examples-text-document-classification-20newsgroups-py
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import KNeighborsClassifier

In [2]:
data_train = fetch_20newsgroups(subset='train')
data_test = fetch_20newsgroups(subset='test')

In [4]:
# colocando nomes mais compreensiveis para os rótulos de treino e teste
y_train, y_test = data_train.target, data_test.target

# extraindo as features de treino, eliminando stop_words em inglês
vectorizer = TfidfVectorizer(stop_words='english')
X_train = vectorizer.fit_transform(data_train.data)

In [5]:
# agora extrair as features do teste
X_test = vectorizer.transform(data_test.data)

In [7]:
# nosso classificador
clf = KNeighborsClassifier(n_neighbors=10)

In [8]:
# treinamento
clf.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=None, n_neighbors=10, p=2,
           weights='uniform')

In [9]:
# predição do meu conjunto de teste
 pred = clf.predict(X_test)

# Métricas de classificação

In [12]:
from sklearn import metrics

In [14]:
# aqui temos 20 classes, então teremos 20 linhas e 20 colunas!
print(metrics.confusion_matrix(y_test, pred))

[[237   2   0   3   0   2   3   0   2   1   0   3   0  11   5  24   1   3
    1  21]
 [  4 245  22  12  15  23   5   8   7   9   5  10   4   0   5   2   3   5
    5   0]
 [  2  27 258  25  10  12  14   4   2  10   2   9   2   0   9   2   1   2
    0   3]
 [  6  19  28 235  27   7  19   4   4   6   0   6  15   0   6   0   2   2
    4   2]
 [  3  14  18  44 210   6  19   7   3  11   5   4   7   2  11   3   4   8
    3   3]
 [  2  44  37  13  12 235   6   0   6   9   2   3   7   1   9   2   2   3
    2   0]
 [  7   9  22  49  33  11 168  10   7  14   9   3  21   7   3   3   3   3
    4   4]
 [  2  18   4  11  13   8   9 275   8   6   4   5  10   1   4   4   5   1
    6   2]
 [  1   3   2   2   4   3   4  16 339   3   3   3   4   2   1   1   1   2
    3   1]
 [  9   9   3   3   5   0  10  12   5 302  23   1   3   0   3   0   4   2
    2   1]
 [  3   5   2   3   2   4   4   1   1  10 353   1   3   0   1   1   0   1
    1   3]
 [  3   5   5   6   7   3   1   0   3   4   3 329   1   3   3   2

In [15]:
target_names = data_train.target_names # o nome das classes

In [16]:
# existem módulos dentro do scikit que mostram apenas a precisão, recall e f1. Aqui
# tudo é apresentado de uma vez só

# O suporte é o número de ocorrências de cada classe em y_true
print(metrics.classification_report(y_test, pred,
                                            target_names=target_names))

                          precision    recall  f1-score   support

             alt.atheism       0.60      0.74      0.66       319
           comp.graphics       0.53      0.63      0.58       389
 comp.os.ms-windows.misc       0.59      0.65      0.62       394
comp.sys.ibm.pc.hardware       0.51      0.60      0.55       392
   comp.sys.mac.hardware       0.57      0.55      0.56       385
          comp.windows.x       0.69      0.59      0.64       395
            misc.forsale       0.52      0.43      0.47       390
               rec.autos       0.74      0.69      0.71       396
         rec.motorcycles       0.78      0.85      0.82       398
      rec.sport.baseball       0.68      0.76      0.72       397
        rec.sport.hockey       0.80      0.88      0.84       399
               sci.crypt       0.78      0.83      0.81       396
         sci.electronics       0.64      0.49      0.55       393
                 sci.med       0.84      0.58      0.68       396
         