# Processamento de Linguagem Natural

## Bag of Words


O modelo de "saco de palavras" é uma representação simplificada usada no processamento de linguagem natural e recuperação de informação. Neste modelo, um texto (como uma sentença ou um documento) é representado como o saco (multiset) de suas palavras, desconsiderando a gramática e até a ordem das palavras, mas mantendo a multiplicidade.

Na classificação de documentos, um saco de palavras é um vetor esparso de ocorrência de contagens de palavras; Ou seja, um histograma esparso sobre o vocabulário.

### Carregando um Dataset de um Site de E-commerce (em português)

In [1]:
import gzip
import json

In [2]:
# Carregando o dataset
corpus = list()
with gzip.open('ecommerce.json.gz') as fp:
    for line in fp:
        entry = line.decode('utf8')
        corpus.append(json.loads(entry))

In [3]:
from pprint import pprint
pprint(corpus[0])

{'_id': 120008322,
 'cat': ' Automotivo',
 'descr': 'Chegou o kit que junta resistência e conforto, além de níveis '
          'máximos de segurança. São 4 pneus para seu carro ficar completo e '
          'com a qualificação que você precisa.\n'
          'Com os conhecimentos avançados de hoje e um entusiasmo pela '
          'direção, os engenheiros da Pirelli puderam dar grandes passos. Cada '
          'pneu da Pirelli é responsável não só pelo desempenho, mas também '
          'por uma "vontade de ir pra estrada", comunicando-se com o motorista '
          'e gerando um melhor entendimento do desempenho do veículo, ou seja, '
          'a Pirelli transforma a sua viagem em uma aventura divertida e livre '
          'de problemas. Pneu Pirelli para carros com rodas aro 16, modelo '
          'high performance Phanthon, perfil baixo proporcionando maior '
          'estabilidade nas curvas, excelente qualidade e durabilidade para '
          'pistas.\n'
          '\n'
          'I

In [4]:
print (corpus[0]['descr'])

Chegou o kit que junta resistência e conforto, além de níveis máximos de segurança. São 4 pneus para seu carro ficar completo e com a qualificação que você precisa.
Com os conhecimentos avançados de hoje e um entusiasmo pela direção, os engenheiros da Pirelli puderam dar grandes passos. Cada pneu da Pirelli é responsável não só pelo desempenho, mas também por uma "vontade de ir pra estrada", comunicando-se com o motorista e gerando um melhor entendimento do desempenho do veículo, ou seja, a Pirelli transforma a sua viagem em uma aventura divertida e livre de problemas. Pneu Pirelli para carros com rodas aro 16, modelo high performance Phanthon, perfil baixo proporcionando maior estabilidade nas curvas, excelente qualidade e durabilidade para pistas.

Imagens meramente ilustrativas.
Todas as informações divulgadas são de responsabilidade do fabricante/fornecedor.


In [5]:
len(corpus)

65875

## Gensim - Modelagem de Tópicos

https://github.com/RaRe-Technologies/gensim

In [6]:
# Por enquanto disponíve, apenas para Python 2.7
#!pip install pattern

In [7]:
import warnings
warnings.filterwarnings("ignore")

In [10]:
!pip install gensim==3.6.0

Collecting gensim==3.6.0
  Using cached gensim-3.6.0-cp39-cp39-win_amd64.whl
Collecting smart-open>=1.2.1
  Downloading smart_open-6.0.0-py3-none-any.whl (58 kB)
Installing collected packages: smart-open, gensim
Successfully installed gensim-3.6.0 smart-open-6.0.0




In [11]:
from gensim.summarization.summarizer import summarize

In [12]:
import gensim
print (gensim.summarization.summarize(corpus[0]['descr']))

São 4 pneus para seu carro ficar completo e com a qualificação que você precisa.


In [13]:
len(corpus)

65875

In [14]:
# Construindo um classificador para produtos e categorias (considerando apenas os 10 mil primeiros produtos)
dataset = list()
for entry in corpus:
    if 'cat' in entry:
        dataset.append( (entry['name'], entry['cat'].lower().strip()) )

In [15]:
len(dataset)

65465

In [16]:
# Quantas categorias distintas nós temos e quantos itens por categoria?
from collections import Counter
counter = Counter([cat for prod, cat in dataset])
pprint(counter.most_common())

[('livros', 18021),
 ('ferramentas e jardim', 5672),
 ('música', 4784),
 ('móveis e decoração', 4749),
 ('esporte e lazer', 3340),
 ('cama, mesa e banho', 2683),
 ('relógios', 2666),
 ('informática', 2479),
 ('suplementos e vitaminas', 2440),
 ('perfumaria', 2421),
 ('bebês', 2359),
 ('dvds e blu-ray', 1944),
 ('eletroportáteis', 1587),
 ('games', 1504),
 ('papelaria', 1301),
 ('automotivo', 920),
 ('utilidades domésticas', 858),
 ('instrumentos musicais', 807),
 ('brinquedos', 779),
 ('ar-condicionado e aquecedores', 754),
 ('tv e home theater', 644),
 ('celulares e telefones', 550),
 ('malas e acessórios', 513),
 ('beleza e saúde', 500),
 ('pet shop', 394),
 ('câmeras e filmadoras', 326),
 ('eletrodomésticos', 217),
 ('áudio', 129),
 ('alimentos e bebidas', 96),
 ('livros importados', 11),
 ('blu-ray', 10),
 ('moda', 6),
 ('linha industrial', 1)]


# Construindo um Classificador SVM com Bag of Words

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

In [17]:
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer

In [18]:
import nltk
stopwords = nltk.corpus.stopwords.words('portuguese')

In [19]:
# Construindo o modelo SVM com Pipeline
modelo = Pipeline([('vect', TfidfVectorizer()), ('clf', SVC(kernel = 'linear', probability = True))])

In [20]:
?LabelEncoder

[1;31mInit signature:[0m [0mLabelEncoder[0m[1;33m([0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
Encode target labels with value between 0 and n_classes-1.

This transformer should be used to encode target values, *i.e.* `y`, and
not the input `X`.

Read more in the :ref:`User Guide <preprocessing_targets>`.

.. versionadded:: 0.12

Attributes
----------
classes_ : ndarray of shape (n_classes,)
    Holds the label for each class.

Examples
--------
`LabelEncoder` can be used to normalize labels.

>>> from sklearn import preprocessing
>>> le = preprocessing.LabelEncoder()
>>> le.fit([1, 2, 2, 6])
LabelEncoder()
>>> le.classes_
array([1, 2, 6])
>>> le.transform([1, 1, 2, 6])
array([0, 0, 1, 2]...)
>>> le.inverse_transform([0, 0, 1, 2])
array([1, 1, 2, 6])

It can also be used to transform non-numerical labels (as long as they are
hashable and comparable) to numerical labels.

>>> le = preprocessing.LabelEncoder()
>>> le.fit(["paris", "paris", "tokyo", "amsterd

In [21]:
# Objeto para Normalização dos labels
encoder = LabelEncoder()

In [22]:
# Obtendo dados e labels
data = [prod for prod, cat in dataset]
labels = [cat for prod, cat in dataset]
len(data)

65465

In [23]:
# Normalização dos labels
target = encoder.fit_transform(labels)

In [24]:
# Items
encoder.classes_.item(1)

'ar-condicionado e aquecedores'

In [47]:
# Fit do modelo
modelo.fit(data, target)

Pipeline(steps=[('vect', TfidfVectorizer()),
                ('clf', SVC(kernel='linear', probability=True))])

In [82]:
# Prevendo a categoria a partir da descrição
classeId = modelo.predict(["Piano Steinway and songs spirio"])[0]

In [83]:
# Prevendo a categoria a partir da descrição
print (encoder.classes_[classeId])

instrumentos musicais


In [84]:
encoder.classes_

array(['alimentos e bebidas', 'ar-condicionado e aquecedores',
       'automotivo', 'bebês', 'beleza e saúde', 'blu-ray', 'brinquedos',
       'cama, mesa e banho', 'celulares e telefones',
       'câmeras e filmadoras', 'dvds e blu-ray', 'eletrodomésticos',
       'eletroportáteis', 'esporte e lazer', 'ferramentas e jardim',
       'games', 'informática', 'instrumentos musicais',
       'linha industrial', 'livros', 'livros importados',
       'malas e acessórios', 'moda', 'móveis e decoração', 'música',
       'papelaria', 'perfumaria', 'pet shop', 'relógios',
       'suplementos e vitaminas', 'tv e home theater',
       'utilidades domésticas', 'áudio'], dtype='<U29')

In [88]:
# Probabilidades de um produto
probs = modelo.predict_proba(["Samsung"])

In [91]:
# Probabidades de categorias para o objeto Ventilador
guess = [(class_, probs.item(n)) for n, class_ in enumerate(encoder.classes_)]
#pprint(guess)

In [92]:
# Probabidade ajustada de categorias para o objeto Ventilador
from operator import itemgetter
for cat, proba in sorted(guess, key = itemgetter(1), reverse = True):
    print ('{}: {:.4f}'.format(cat, proba))

informática: 0.5205
tv e home theater: 0.1231
celulares e telefones: 0.1088
eletrodomésticos: 0.0688
livros: 0.0240
áudio: 0.0186
esporte e lazer: 0.0169
ferramentas e jardim: 0.0134
câmeras e filmadoras: 0.0113
suplementos e vitaminas: 0.0097
música: 0.0090
bebês: 0.0086
dvds e blu-ray: 0.0054
papelaria: 0.0052
instrumentos musicais: 0.0050
perfumaria: 0.0047
móveis e decoração: 0.0046
moda: 0.0046
beleza e saúde: 0.0042
automotivo: 0.0039
brinquedos: 0.0037
games: 0.0036
eletroportáteis: 0.0035
pet shop: 0.0035
alimentos e bebidas: 0.0031
malas e acessórios: 0.0024
cama, mesa e banho: 0.0022
utilidades domésticas: 0.0021
ar-condicionado e aquecedores: 0.0018
livros importados: 0.0012
relógios: 0.0011
blu-ray: 0.0007
linha industrial: 0.0007
