# Projeto #2 - Classificador supervisionado

Antes de começar, leia as [Instruções](https://github.com/thvmm/pos-ds-ia/tree/master/projeto_2#instru%C3%A7%C3%B5es) e os [Critérios de Avaliação](https://github.com/thvmm/pos-ds-ia/tree/master/projeto_2#crit%C3%A9rios-de-avalia%C3%A7%C3%A3o)


### 1) Qual a base escolhida?

[Reuters Corpus Volume I - RCV1](https://scikit-learn.org/stable/datasets/index.html#rcv1-dataset)

Reuters Corpus Volume I é um dataset com mais de 800.000 artigos e notícias manualmente categorizados e disponibilizados pela empresa Reuters Ltda para fins de pesquisa.

<img src="rcv1-settings.png" style="width: 300px;"/>

In [23]:
from sklearn.datasets import fetch_rcv1
rcv1 = fetch_rcv1()

### 2) **(10%)** Pré-processamento: entendimento do conjunto de dados
- Quais são minhas features?
- Quais são minhas classes?
- Como estão distribuidas minhas classes?
- Checagem se os valores estão dentro de um limite permitido ou razoável.
- Tratamento de valores ausentes por eliminação ou substituição.
- Conversão do tipo de dados.


### Features
Cada feature do RCV1 representa uma palavra do vocabulário conhecido por toda sua coleção de documentos. Essa técnica de vetorização das palavras é conhecida por Bag of Words.

Os valores das features em cada linha (documento) são representados pelo resultado da fórmula TF-IDF (Term frequency - Inverse Document Frequency). Essa fórmula é utilizada para metrificar a importância da palavra no documento em relação à coleção total de documentos a partir do número de ocorrências.
    
    
    
<img src="tf-idf.png" style="width: 450px;"/>

### Classes

As classes do RCV1 são os 103 categorias possíveis de artigos e notícias, que possuem posições hierárquicas distribuídas em 3 grandes conjuntos: 
* Tópicos
* Indústrias
* Regiões

In [24]:
print(rcv1.target_names[:].tolist())

['C11', 'C12', 'C13', 'C14', 'C15', 'C151', 'C1511', 'C152', 'C16', 'C17', 'C171', 'C172', 'C173', 'C174', 'C18', 'C181', 'C182', 'C183', 'C21', 'C22', 'C23', 'C24', 'C31', 'C311', 'C312', 'C313', 'C32', 'C33', 'C331', 'C34', 'C41', 'C411', 'C42', 'CCAT', 'E11', 'E12', 'E121', 'E13', 'E131', 'E132', 'E14', 'E141', 'E142', 'E143', 'E21', 'E211', 'E212', 'E31', 'E311', 'E312', 'E313', 'E41', 'E411', 'E51', 'E511', 'E512', 'E513', 'E61', 'E71', 'ECAT', 'G15', 'G151', 'G152', 'G153', 'G154', 'G155', 'G156', 'G157', 'G158', 'G159', 'GCAT', 'GCRIM', 'GDEF', 'GDIP', 'GDIS', 'GENT', 'GENV', 'GFAS', 'GHEA', 'GJOB', 'GMIL', 'GOBIT', 'GODD', 'GPOL', 'GPRO', 'GREL', 'GSCI', 'GSPO', 'GTOUR', 'GVIO', 'GVOTE', 'GWEA', 'GWELF', 'M11', 'M12', 'M13', 'M131', 'M132', 'M14', 'M141', 'M142', 'M143', 'MCAT']


### Split Data (Train / Test)

Essa divisão do dado em conjunto de treino e teste seguiu a proporção sugerida por:

Lewis, D. D., Yang, Y., Rose, T. G., & Li, F. (2004). RCV1: A new benchmark collection for text categorization research. The Journal of Machine Learning Research, 5, 361-397.

In [25]:
from sklearn.model_selection import train_test_split

# rcv1_data_train, rcv1_data_test, rcv1_target_train, rcv1_target_test = train_test_split(rcv1.data, rcv1.target, test_size=0.5)

rcv1_data_train = rcv1.data[0:23150]
rcv1_target_train = rcv1.target[0:23150]

rcv1_data_test = rcv1.data[23150:]
rcv1_target_test = rcv1.target[23150:]

print(f'Data Train: {rcv1_data_train.shape}')
print(f'Target Train: {rcv1_target_train.shape}')

Data Train: (23150, 47236)
Target Train: (23150, 103)


### 3) **(80%)** Nos blocos seguintes implemente seus classificadores (serão implementados 2 métodos diferentes).

#### 3.1) Qual método escolhido?

Logistic Regression

#### 3.2) **(10%)** Baseline - Implemente seu classificador da forma mais simples possível para esse ser seu baseline

In [26]:
# from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
# from sklearn.naive_bayes import MultinomialNB
from sklearn.multiclass import OneVsRestClassifier
log_reg = OneVsRestClassifier(LogisticRegression())
# clf = OneVsRestClassifier(MultinomialNB())


log_reg.fit(rcv1_data_train, rcv1_target_train)

  str(classes[c]))
  str(classes[c]))


OneVsRestClassifier(estimator=LogisticRegression(C=1.0, class_weight=None,
                                                 dual=False, fit_intercept=True,
                                                 intercept_scaling=1,
                                                 l1_ratio=None, max_iter=100,
                                                 multi_class='warn',
                                                 n_jobs=None, penalty='l2',
                                                 random_state=None,
                                                 solver='warn', tol=0.0001,
                                                 verbose=0, warm_start=False),
                    n_jobs=None)

In [27]:
log_reg_prediction = log_reg.predict(rcv1_data_test)

In [34]:
from sklearn.metrics import accuracy_score, hamming_loss, f1_score

print('Accuracy Score is {}'.format(accuracy_score(rcv1_target_test.toarray(), log_reg_prediction.toarray())))
print('F1 Score is {}'.format(f1_score(rcv1_target_test.toarray(), log_reg_prediction.toarray(), average='samples')))
print('Hamming Loss is {}'.format(hamming_loss(rcv1_target_test.toarray(), log_reg_prediction.toarray())))

Accuracy Score is 0.4096937782874931
F1 Score is 0.728982029945038
Hamming Loss is 0.013604814065809611


#### 3.3) **(20%)** Versão 1 - O que podemos fazer para melhorar nosso baseline? Aplique técnicas como redução de dimensionalidade, normalização ou outras. Compare os resultados.

In [8]:
# from sklearn.preprocessing import Normalize
# from sklearn.pipeline import Pipeline
from sklearn.decomposition import TruncatedSVD

svd = TruncatedSVD(n_components=500)
rcv1_data_train_reduced = svd.fit_transform(rcv1_data_train)
rcv1_data_test_reduced = svd.fit_transform(rcv1_data_test)

In [15]:
from sklearn.linear_model import LogisticRegression
from sklearn.multiclass import OneVsRestClassifier

log_reg_reduced = OneVsRestClassifier(LogisticRegression())
log_reg_reduced.fit(rcv1_data_train_reduced, rcv1_target_train)

ValueError: Input X must be non-negative

In [10]:
log_reg_reduced_prediction = log_reg_reduced.predict(rcv1_data_test_reduced)

In [35]:
from sklearn.metrics import accuracy_score, hamming_loss, f1_score

print('Accuracy Score is {}'.format(accuracy_score(rcv1_target_test, log_reg_reduced_prediction)))
print('F1 Score is {}'.format(f1_score(rcv1_target_test, log_reg_reduced_prediction, average='samples')))
print('Hamming Loss is {}'.format(hamming_loss(rcv1_target_test.toarray(), log_reg_reduced_prediction.toarray())))

Accuracy Score is 0.025456183825185854
F1 Score is 0.2145734215827645
Hamming Loss is 0.03076902065798476


In [21]:
import random

random_index = random.randint(0, 23150)

print(f'Random Index: {random_index}\n')
print(f'a: {log_reg_reduced_prediction[random_index]}\n')
print(f'b: {rcv1_target_test[random_index]}')

Random Index: 6496

a:   (0, 4)	1
  (0, 5)	1
  (0, 33)	1
  (0, 70)	1

b:   (0, 4)	1
  (0, 5)	1
  (0, 33)	1


#### 3.4) **(10%)** Tunning - Agora que temos um resultado promissor, vamos tentar melhorar o resultado alterando um ou mais hiper-parametro. Compare os resultados.

TODO: Grid Search, Multilabel Confusion Matrix

[Multilabel Confusion Matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.multilabel_confusion_matrix.html#sklearn.metrics.multilabel_confusion_matrix)

#### 3.5) Qual método escolhido?

Indique o método escolhido

#### 3.6) **(10%)** Baseline - Implemente seu classificador da forma mais simples possível para esse ser seu baseline

In [37]:
from sklearn.svm import LinearSVC

svm = OneVsRestClassifier(LinearSVC())
svm.fit(rcv1_data_train, rcv1_target_train)

OneVsRestClassifier(estimator=LinearSVC(C=1.0, class_weight=None, dual=True,
                                        fit_intercept=True, intercept_scaling=1,
                                        loss='squared_hinge', max_iter=1000,
                                        multi_class='ovr', penalty='l2',
                                        random_state=None, tol=0.0001,
                                        verbose=0),
                    n_jobs=None)

In [38]:
svm_prediction = svm.predict(rcv1_data_test)

In [42]:
from sklearn.metrics import accuracy_score, hamming_loss, f1_score

print('Accuracy Score is {}'.format(accuracy_score(rcv1_target_test, svm_prediction)))
print('F1 Score is {}'.format(f1_score(rcv1_target_test, svm_prediction, average='samples')))
print('Hamming Loss is {}'.format(hamming_loss(rcv1_target_test.toarray(), svm_prediction.toarray())))

Accuracy Score is 0.5143293432181695
F1 Score is 0.8056262790335532
Hamming Loss is 0.011129027752288698


#### 3.7) **(20%)** Versão 1 - O que podemos fazer para melhorar nosso baseline? Aplique técnicas como redução de dimensionalidade, normalização ou outras. Compare os resultados.

In [None]:
# from sklearn.decomposition import TruncatedSVD

# svd = TruncatedSVD(n_components=100)
# rcv1_data_train_reduced = svd.fit_transform(rcv1_data_train)
# rcv1_data_test_reduced = svd.fit_transform(rcv1_data_test)

In [31]:
from sklearn.svm import LinearSVC

svm_reduced = OneVsRestClassifier(LinearSVC())
svm_reduced.fit(rcv1_data_train_reduced, rcv1_target_train)

  str(classes[c]))
  str(classes[c]))


OneVsRestClassifier(estimator=LinearSVC(C=1.0, class_weight=None, dual=True,
                                        fit_intercept=True, intercept_scaling=1,
                                        loss='squared_hinge', max_iter=1000,
                                        multi_class='ovr', penalty='l2',
                                        random_state=None, tol=0.0001,
                                        verbose=0),
                    n_jobs=None)

In [39]:
svm_reduced_prediction = svm_reduced.predict(rcv1_data_test_reduced)

In [40]:
from sklearn.metrics import accuracy_score, hamming_loss


print('Accuracy Score is {}'.format(accuracy_score(rcv1_target_test, svm_reduced_prediction)))
print('Hamming Loss is {}'.format(hamming_loss(rcv1_target_test.toarray(), svm_reduced_prediction.toarray())))

Accuracy Score is 0.023899731716807635
Hamming Loss is 0.03243757638853403


#### 3.8) **(10%)** Tunning - Agora que temos um resultado promissor, vamos tentar melhorar o resultado alterando um ou mais hiper-parametro. Compare os resultados.

In [None]:
# TODO: Grid Search

### 5) **(10%)** Conclusões

*Compare seus resultados. Imaginando que sua solução fosse para produção, qual deles você escolheria? Por que? Quais os riscos você enxerga? O que recomendaria de próximos passos para melhorar os resultados?*