Curso de Especialização de Inteligência Artificial Aplicada

Setor de Educação Profissional e Tecnológica - SEPT

Universidade Federal do Paraná - UFPR

---

**IAA003 - Linguagem de Programação Aplicada**

Prof. Alexander Robert Kutzke

Estudante: Clístenes Grizafis Bento


# Implementação com Scikit-Learn

Utilizando a base de dados presente no repositório:

1. Escreva *pipeline de classificação de texto* para classificar reviews de filmes como positivos e negativos;
2. Encontre um bom conjunto de parâmetros utilizando `GridSearchCV`;
3. Avalie o classificador utilizando parte do conjunto de dados (previamente separado para testes).
4. Repita os passos 1, 2 e 3 utilizando um algoritmo de classificação diferente;
5. Escreva um pequeno texto comparando os resultados obtidos para cada algoritmo.

O texto pode ser escrito em um "Jupyter Notebook" juntamente com o código. Ou qualquer outro tipo de documento.


### 1 Escreva pipeline de classificação de texto para classificar reviews de filmes como positivos e negativos

#### 1.1 Importando Bibliotecas

In [26]:
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import load_files
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import GaussianNB, MultinomialNB
import numpy as np

#### 1.2 Iniciando o método principal e importando os dados

In [27]:
if __name__ == "__main__":    
    movie_reviews_data_folder = r"./data"
    dataset = load_files(movie_reviews_data_folder, shuffle=False)
    print("n_samples: %d" % len(dataset.data))  

n_samples: 2000


#### 1.3 Separando dados de treino e de teste

In [28]:
docs_train, docs_test, y_train, y_test = train_test_split(
        dataset.data, dataset.target, test_size=0.25, random_state=None)

#### 1.4 Criando Pipeline de classificação utilizando algoritmo MultinomialNB

In [29]:
text_clf = Pipeline([('vect', CountVectorizer()),
                         ('tfidf', TfidfTransformer()),
                         ('clf', MultinomialNB()),
    ])

### 2 Encontre um bom conjunto de parâmetros utilizando GridSearchCV

#### 2.1 Aplicando GridSearchCV

In [30]:
parameters = {'vect__ngram_range': [(1, 1), (1, 2)],
                  'tfidf__use_idf': (True, False),
                  'clf__alpha': (1e-2, 1e-3),
                  }
    

In [31]:
gs_clf = GridSearchCV(text_clf, parameters, n_jobs=-1)

In [32]:
gs_clf.fit(docs_train, y_train)

GridSearchCV(estimator=Pipeline(steps=[('vect', CountVectorizer()),
                                       ('tfidf', TfidfTransformer()),
                                       ('clf', MultinomialNB())]),
             n_jobs=-1,
             param_grid={'clf__alpha': (0.01, 0.001),
                         'tfidf__use_idf': (True, False),
                         'vect__ngram_range': [(1, 1), (1, 2)]})

#### 2.2 Verificando o melhor resultado

In [33]:
gs_clf.best_score_

0.8246666666666668

#### 2.3 verificando um bom conjunto de parâmetros

In [34]:
for param_name in sorted(parameters.keys()):
    print("%s: %r" % (param_name, gs_clf.best_params_[param_name]))


clf__alpha: 0.01
tfidf__use_idf: False
vect__ngram_range: (1, 2)


### 3 Avalie o classificador utilizando parte do conjunto de dados (previamente separado para testes)

#### 3.1 Realizando teste

In [35]:
predicted = gs_clf.predict(docs_test)

#### 3.2 Imprimindo avaliação de classificação

In [36]:
print(metrics.classification_report(y_test, predicted,
                                        target_names=dataset.target_names))

              precision    recall  f1-score   support

         neg       0.84      0.83      0.83       260
         pos       0.82      0.83      0.82       240

    accuracy                           0.83       500
   macro avg       0.83      0.83      0.83       500
weighted avg       0.83      0.83      0.83       500



#### 3.3 Imprimindo matrix de confusão

In [38]:
cm = metrics.confusion_matrix(y_test, predicted)
print(cm)

[[215  45]
 [ 41 199]]


### 4 Repita os passos 1, 2 e 3 utilizando um algoritmo de classificação diferente;