In [1]:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)

# Classificação de texto

Vamos começar lendo o dataset "20 newsgroups". Um conjunto de documentos é chamado de **corpus**.

In [2]:
from sklearn.datasets import fetch_20newsgroups

data = fetch_20newsgroups(subset='train', shuffle=True)
print("{} documents, {} categories".format(len(data.filenames), len(data.target_names)))

11314 documents, 20 categories


In [3]:
for k in range(6, 10):
    print(data.target_names[data.target[k]])
    print('-' * 3)
    print(data.data[k])
    print('-' * 15)

sci.med
---
From: bmdelane@quads.uchicago.edu (brian manning delaney)
Subject: Brain Tumor Treatment (thanks)
Reply-To: bmdelane@midway.uchicago.edu
Organization: University of Chicago
Lines: 12

There were a few people who responded to my request for info on
treatment for astrocytomas through email, whom I couldn't thank
directly because of mail-bouncing probs (Sean, Debra, and Sharon).  So
I thought I'd publicly thank everyone.

Thanks! 

(I'm sure glad I accidentally hit "rn" instead of "rm" when I was
trying to delete a file last September. "Hmmm... 'News?' What's
this?"....)

-Brian

---------------
comp.sys.ibm.pc.hardware
---
From: bgrubb@dante.nmsu.edu (GRUBB)
Subject: Re: IDE vs SCSI
Organization: New Mexico State University, Las Cruces, NM
Lines: 44
Distribution: world
NNTP-Posting-Host: dante.nmsu.edu

DXB132@psuvm.psu.edu writes:
>In article <1qlbrlINN7rk@dns1.NMSU.Edu>, bgrubb@dante.nmsu.edu (GRUBB) says:
>>In PC Magazine April 27, 1993:29 "Although SCSI is twice as fasst 

Vamos processar os documentos para remover pontuação, espaços em branco, etc.

In [4]:
import string

def normalize_string(s):
    table_punct = str.maketrans({key: None for key in string.punctuation})
    return s.strip().lower().translate(table_punct)

def process_doc(doc):
    return ' '.join([normalize_string(line) for line in doc.split('\n')])

X = [process_doc(doc) for doc in data.data]
y = data.target

Vamos agora aplicar um "Vectorizer" para transformar os textos em vetores (esparsos) de *features*:

In [5]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X_vec = vectorizer.fit_transform(X)

In [6]:
X_vec.shape

(11314, 138727)

In [7]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

Observe que o resultado da aplicação do vectorizer é uma matriz de 11314 linhas por 138727 colunas. Cada linha é um documento. Cada coluna é uma palavra do vocabulário. Essa matriz é chamada **matriz documento-termo** (*document-term matrix*).

Qual a palavra correspondente a cada coluna? Essa pergunta está normalmente respondida na forma reversa: qual a coluna correspondente a cada palavra? O dicionário {palavra: num_coluna} é chamado de **vocabulário** do corpus.

In [8]:
vectorizer.vocabulary_

{'from': 53426,
 'lerxstwamumdedu': 71090,
 'wheres': 134119,
 'my': 93613,
 'thing': 125208,
 'subject': 121733,
 'what': 134046,
 'car': 32625,
 'is': 64814,
 'this': 125281,
 'nntppostinghost': 96170,
 'rac3wamumdedu': 107784,
 'organization': 99096,
 'university': 129438,
 'of': 98012,
 'maryland': 78932,
 'college': 36225,
 'park': 100723,
 'lines': 71758,
 '15': 4594,
 'was': 133183,
 'wondering': 135127,
 'if': 62053,
 'anyone': 23034,
 'out': 99456,
 'there': 125062,
 'could': 38649,
 'enlighten': 48253,
 'me': 82319,
 'on': 98480,
 'saw': 113975,
 'the': 124909,
 'other': 99366,
 'day': 41266,
 'it': 65079,
 '2door': 10785,
 'sports': 119741,
 'looked': 72493,
 'to': 126160,
 'be': 27020,
 'late': 70317,
 '60s': 14878,
 'early': 46499,
 '70s': 15920,
 'called': 32215,
 'bricklin': 30021,
 'doors': 45058,
 'were': 133850,
 'really': 108803,
 'small': 118105,
 'in': 62770,
 'addition': 20024,
 'front': 53439,
 'bumper': 30728,
 'separate': 115677,
 'rest': 110659,
 'body': 29058

Portanto, o documento abaixo...

In [9]:
X[0]

'from lerxstwamumdedu wheres my thing subject what car is this nntppostinghost rac3wamumdedu organization university of maryland college park lines 15  i was wondering if anyone out there could enlighten me on this car i saw the other day it was a 2door sports car looked to be from the late 60s early 70s it was called a bricklin the doors were really small in addition the front bumper was separate from the rest of the body this is all i know if anyone can tellme a model name engine specs years of production where this car is made history or whatever info you have on this funky looking car please email  thanks  il  brought to you by your neighborhood lerxst      '

... é transformado no seguinte vetor:

In [10]:
X_vec[0]

<1x138727 sparse matrix of type '<class 'numpy.int64'>'
	with 86 stored elements in Compressed Sparse Row format>

In [11]:
from scipy.sparse import find

_, word_num, word_count = find(X_vec[0])

for w, c in sorted(zip(word_num, word_count), key=lambda x: x[1], reverse=True):
    print('palavra #{} aparece {} vezes'.format(w, c))

palavra #124909 aparece 6 vezes
palavra #32625 aparece 5 vezes
palavra #125281 aparece 5 vezes
palavra #133183 aparece 4 vezes
palavra #53426 aparece 3 vezes
palavra #64814 aparece 3 vezes
palavra #98012 aparece 3 vezes
palavra #23034 aparece 2 vezes
palavra #62053 aparece 2 vezes
palavra #65079 aparece 2 vezes
palavra #98480 aparece 2 vezes
palavra #126160 aparece 2 vezes
palavra #137927 aparece 2 vezes
palavra #4594 aparece 1 vezes
palavra #10785 aparece 1 vezes
palavra #14878 aparece 1 vezes
palavra #15920 aparece 1 vezes
palavra #20024 aparece 1 vezes
palavra #21397 aparece 1 vezes
palavra #27020 aparece 1 vezes
palavra #29058 aparece 1 vezes
palavra #30021 aparece 1 vezes
palavra #30245 aparece 1 vezes
palavra #30728 aparece 1 vezes
palavra #31096 aparece 1 vezes
palavra #32215 aparece 1 vezes
palavra #32365 aparece 1 vezes
palavra #36225 aparece 1 vezes
palavra #38649 aparece 1 vezes
palavra #41266 aparece 1 vezes
palavra #45058 aparece 1 vezes
palavra #46499 aparece 1 vezes
pala

In [12]:
cw = [(vectorizer.vocabulary_[w] if w in vectorizer.vocabulary_ else -1, w) for w in X[0].split()]

for c, w in sorted(cw):
    if c != -1:
        print('{}: {}'.format(w, c))
    else:
        print('{}: huh?'.format(w))

a: huh?
a: huh?
a: huh?
i: huh?
i: huh?
i: huh?
15: 4594
2door: 10785
60s: 14878
70s: 15920
addition: 20024
all: 21397
anyone: 23034
anyone: 23034
be: 27020
body: 29058
bricklin: 30021
brought: 30245
bumper: 30728
by: 31096
called: 32215
can: 32365
car: 32625
car: 32625
car: 32625
car: 32625
car: 32625
college: 36225
could: 38649
day: 41266
doors: 45058
early: 46499
email: 47663
engine: 48176
enlighten: 48253
from: 53426
from: 53426
from: 53426
front: 53439
funky: 53904
have: 58656
history: 59952
if: 62053
if: 62053
il: 62259
in: 62770
info: 63343
is: 64814
is: 64814
is: 64814
it: 65079
it: 65079
know: 68998
late: 70317
lerxst: 71089
lerxstwamumdedu: 71090
lines: 71758
looked: 72493
looking: 72498
made: 77630
maryland: 78932
me: 82319
model: 87830
my: 93613
name: 94398
neighborhood: 95036
nntppostinghost: 96170
of: 98012
of: 98012
of: 98012
on: 98480
on: 98480
or: 98969
organization: 99096
other: 99366
out: 99456
park: 100723
please: 103399
production: 105517
rac3wamumdedu: 107784
real

Agora podemos usar **qualquer classificador** para determinar o newsgroup de um documento a partir de seu conteudo. Vamos testar o classificador ``MultinomialNB``:

In [13]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_predict
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline

pipeline = Pipeline([
    ('vec', CountVectorizer()),
    ('clf', MultinomialNB())
])

y_pred = cross_val_predict(pipeline, X, y=y, cv=3, n_jobs=-1, verbose=1)
accuracy = accuracy_score(data.target, y_pred)
print(accuracy)

0.8248188085557716


[Parallel(n_jobs=-1)]: Done   3 out of   3 | elapsed:    3.5s finished


**Atividade:**

O que são:
- stemming
- TF-IDF
- Laplacian smoothing
- n-gramas
- análise de sentimento

**R:**
  - Stemming (ou stemização) é o nome dado ao processo de reduzir uma palavra ao seu "tronco" (stem) ou raíz, por exemplo, as palavras "gatos, gatinhos e gatão" iriam todas para a raíz "gato"
  - O TFIDF (term frequency–inverse document frequency) busca refletir em termo de importância o valor de cada palavra em uma frase ou contexto. A ideia consiste em aumentar proporcionalmente conforme o número de aparições da mesma em um dado texto.
  - Laplacian Smoothing é um sistema para "amenizar vértices". Em modelos naive-bayes, isso serve para amenizar os eveitos contrários de encontrar uma palavra não conhecida em uma frase. Dessa forma, quando os valores forem multiplicados, a probabilidade desta palavra não conhecida não será zero e, portanto, a probabilidade da frase em geral será diferente de zero (dando valor às palavras conhecidas na frase).
  - Um n-grama é uma sequência de caractéres conhecidos e restritos à um dado conjunto, usado, por exemplo, para o estudo de cadeias genéticas (ATGC).
  - Análise de sentimento é um modelo de classificação textual que busca classificar as frases entre positivas e negativas, podendo também dar um grau de "neutralidade" da mesma.

**Atividade:**

- Explore os hiperparâmetros do vectorizer e do classificador para melhorar a acurácia do sistema. Um simples parâmetro de regularização no MultinomialNB pode facilmente elevar a acurácia para quase 90%!
- Teste também um vectorizer do tipo ``TfidfVectorizer``
- Teste também um classificador que não seja naive-Bayes. SVMs costumam ser populares neste meio.

In [17]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfid_clf = Pipeline([
    ('vec', TfidfVectorizer()),
    ('clf', MultinomialNB())
])

y_pred = cross_val_predict(tfid_clf, X, y=y, cv=3, 
                           n_jobs=-1, verbose=1)
accuracy = accuracy_score(data.target, y_pred)
print(accuracy)

0.8283542513699841


[Parallel(n_jobs=-1)]: Done   3 out of   3 | elapsed:    3.8s finished


In [None]:
from sklearn.model_selection import GridSearchCV
print('im working')

gscv = GridSearchCV(pipeline, {
#     'vec__ngram_range': [(1, 1), (1, 2), (1, 3)],
    'clf__alpha': [.3, .5, .7, 1]
})

gscv.fit(X, y)

accuracy = accuracy_score(gscv.predict(X), y_pred)
print(accuracy)

im working


  'setting alpha = %.1e' % _ALPHA_MIN)
  'setting alpha = %.1e' % _ALPHA_MIN)
  'setting alpha = %.1e' % _ALPHA_MIN)
