# <font color='blue'>Processamento de Linguagem Natural</font>

## Bag of Words


O modelo de "saco de palavras" é uma representação simplificada usada no processamento de linguagem natural e recuperação de informação. Neste modelo, um texto (como uma sentença ou um documento) é representado como o saco (multiset) de suas palavras, desconsiderando a gramática e até a ordem das palavras, mas mantendo a multiplicidade.

Na classificação de documentos, um saco de palavras é um vetor esparso de ocorrência de contagens de palavras; Ou seja, um histograma esparso sobre o vocabulário.

### Carregando um Dataset de um Site de E-commerce (em português)

In [1]:
import gzip
import json

In [2]:
%%time
# Carregando o dataset
corpus = list()
with gzip.open('ecommerce.json.gz') as fp:
    for line in fp:
        entry = line.decode('utf8')
        corpus.append(json.loads(entry))

CPU times: user 2.91 s, sys: 277 ms, total: 3.19 s
Wall time: 4.18 s


In [3]:
from pprint import pprint
pprint(corpus[0])

{'_id': 120008322,
 'cat': ' Automotivo',
 'descr': 'Chegou o kit que junta resistência e conforto, além de níveis '
          'máximos de segurança. São 4 pneus para seu carro ficar completo e '
          'com a qualificação que você precisa.\n'
          'Com os conhecimentos avançados de hoje e um entusiasmo pela '
          'direção, os engenheiros da Pirelli puderam dar grandes passos. Cada '
          'pneu da Pirelli é responsável não só pelo desempenho, mas também '
          'por uma "vontade de ir pra estrada", comunicando-se com o motorista '
          'e gerando um melhor entendimento do desempenho do veículo, ou seja, '
          'a Pirelli transforma a sua viagem em uma aventura divertida e livre '
          'de problemas. Pneu Pirelli para carros com rodas aro 16, modelo '
          'high performance Phanthon, perfil baixo proporcionando maior '
          'estabilidade nas curvas, excelente qualidade e durabilidade para '
          'pistas.\n'
          '\n'
          'I

In [4]:
len(corpus)

65875

In [5]:
print (corpus[0]['descr'])

Chegou o kit que junta resistência e conforto, além de níveis máximos de segurança. São 4 pneus para seu carro ficar completo e com a qualificação que você precisa.
Com os conhecimentos avançados de hoje e um entusiasmo pela direção, os engenheiros da Pirelli puderam dar grandes passos. Cada pneu da Pirelli é responsável não só pelo desempenho, mas também por uma "vontade de ir pra estrada", comunicando-se com o motorista e gerando um melhor entendimento do desempenho do veículo, ou seja, a Pirelli transforma a sua viagem em uma aventura divertida e livre de problemas. Pneu Pirelli para carros com rodas aro 16, modelo high performance Phanthon, perfil baixo proporcionando maior estabilidade nas curvas, excelente qualidade e durabilidade para pistas.

Imagens meramente ilustrativas.
Todas as informações divulgadas são de responsabilidade do fabricante/fornecedor.


In [6]:
print (corpus[0]['cat'])

 Automotivo


## Gensim - Modelagem de Tópicos (Sumarização, etc)

https://github.com/RaRe-Technologies/gensim

In [7]:
#!pip install gensim

In [8]:
print (corpus[0]['descr'])

Chegou o kit que junta resistência e conforto, além de níveis máximos de segurança. São 4 pneus para seu carro ficar completo e com a qualificação que você precisa.
Com os conhecimentos avançados de hoje e um entusiasmo pela direção, os engenheiros da Pirelli puderam dar grandes passos. Cada pneu da Pirelli é responsável não só pelo desempenho, mas também por uma "vontade de ir pra estrada", comunicando-se com o motorista e gerando um melhor entendimento do desempenho do veículo, ou seja, a Pirelli transforma a sua viagem em uma aventura divertida e livre de problemas. Pneu Pirelli para carros com rodas aro 16, modelo high performance Phanthon, perfil baixo proporcionando maior estabilidade nas curvas, excelente qualidade e durabilidade para pistas.

Imagens meramente ilustrativas.
Todas as informações divulgadas são de responsabilidade do fabricante/fornecedor.


In [9]:
import gensim
print (gensim.summarization.summarize(corpus[0]['descr']))

São 4 pneus para seu carro ficar completo e com a qualificação que você precisa.


In [11]:
len(corpus)

65875

# Pegar 1 texto na web e resumir usando o gensim

In [15]:
url_texto = 'https://biblioo.cartacapital.com.br/bacurau-filme-e-bacurau-povoado-que-brasil-voce-ve-no-cinema/'

In [21]:
import requests

url = url_texto
r = requests.get(url)
texto = r.text
texto[:90]

'<!DOCTYPE HTML>\n<!--[if lte IE 9]>         <html class="no-js lt-ie9 lt-ie10"  itemscope i'

In [22]:
print (gensim.summarization.summarize(texto))

'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);
WebFontConfig['google'] = {families: ['Oswald:300,400,700', 'Open+Sans:300,400,600,700,800,300italic,400italic,600italic,700italic,800italic']};
<meta property="og:title" content="Bacurau-filme e Bacurau-povoado: que Brasil você vê no cinema?
<meta name="twitter:title" content="Bacurau-filme e Bacurau-povoado: que Brasil você vê no cinema?
!function(a,b,c){function d(a,b){var c=String.fromCharCode;l.clearRect(0,0,k.width,k.height),l.fillText(c.apply(this,a),0,0);var d=k.toDataURL();l.clearRect(0,0,k.width,k.height),l.fillText(c.apply(this,b),0,0);var e=k.toDataURL();return d===e}function e(a){var b;if(!l||!l.fillText)return!1;switch(l.textBaseline="top",l.font="600 32px Arial",a){case"flag":return!(b=d([55356,56826,55356,56819],[55356,56826,8203,55356,56819]))&&(b=d([55356,57332,56128,56423,56128,56418,56128,56421,56128,56430,56128,56423,56128,56447],[55356,57332,8203,56128,56423,8203,56128,56418,8203,56

# Construindo um classificador para produtos e categorias (considerando apenas os 10 mil primeiros produtos)

In [13]:
# Construindo um classificador para produtos e categorias (considerando apenas os 10 mil primeiros produtos)
import pandas as pd
dataset = list()
df = pd.DataFrame()

for entry in corpus[:10000]:
    if 'cat' in entry:
        dataset.append( (entry['name'], entry['cat'].lower().strip()) )
        df2 = pd.DataFrame()
        df2['name'] = [ entry['name'] ]
        df2['categ'] = [ entry['cat'].lower().strip() ]
        df = df.append(df2)
df.head()

Unnamed: 0,name,categ
0,Kit com 4 Pneus de Alta Performance Pirelli Ar...,automotivo
0,Chandon Brut Rosé 750 ml,alimentos e bebidas
0,Kit com 2 Vodkas Sueca Absolut Vanilia 1000ml,alimentos e bebidas
0,Kit - Livros de Colorir: Jardim Secreto + Flo...,livros
0,Livro - Assassin's Creed: Submundo,livros


In [22]:
df.head()

Unnamed: 0,name,categ


In [11]:
len(dataset)

9953

In [13]:
pprint(dataset[:10])

[('Kit com 4 Pneus de Alta Performance Pirelli Aro 16 205/55R16 Phantom',
  'automotivo'),
 ('Chandon Brut Rosé 750 ml', 'alimentos e bebidas'),
 ('Kit com 2 Vodkas Sueca Absolut Vanilia 1000ml', 'alimentos e bebidas'),
 ('Kit  - Livros de Colorir: Jardim Secreto + Floresta Encantada + Reino '
  'Animal',
  'livros'),
 ("Livro - Assassin's Creed: Submundo", 'livros'),
 ('BCAA 2400 - 100 Cápsulas - Nitech Nutrition', 'suplementos e vitaminas'),
 ('100% Whey - 900g - Baunilha - Nitech Nutrition', 'suplementos e vitaminas'),
 ('Whey Protein Isolate - 900g - Morango - Nitech Nutrition',
  'suplementos e vitaminas'),
 ('100% Whey - 900g - Chocolate - Nitech Nutrition', 'suplementos e vitaminas'),
 ('BCAA 2400 - 200 Cápsulas - Nitech Nutrition', 'suplementos e vitaminas')]


In [14]:
dataset.cat.unique()

AttributeError: 'list' object has no attribute 'cat'

In [23]:
# Quantas categorias distintas nós temos e quantos itens por categoria?
from collections import Counter
counter = Counter([cat for prod, cat in dataset])
pprint(counter.most_common())

[('bebês', 1208),
 ('eletroportáteis', 1052),
 ('automotivo', 915),
 ('utilidades domésticas', 857),
 ('suplementos e vitaminas', 787),
 ('ar-condicionado e aquecedores', 754),
 ('informática', 706),
 ('cama, mesa e banho', 670),
 ('tv e home theater', 644),
 ('perfumaria', 532),
 ('beleza e saúde', 497),
 ('dvds e blu-ray', 433),
 ('relógios', 410),
 ('pet shop', 391),
 ('instrumentos musicais', 44),
 ('celulares e telefones', 18),
 ('eletrodomésticos', 16),
 ('áudio', 13),
 ('alimentos e bebidas', 2),
 ('livros', 2),
 ('brinquedos', 1),
 ('linha industrial', 1)]


# Construindo um Classificador SVM com Bag of Words

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

In [None]:
#!pip install nltk

In [24]:
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer

In [25]:
import nltk
stopwords = nltk.corpus.stopwords.words('portuguese')

In [26]:
# Construindo o modelo SVM com Pipeline
modelo = Pipeline([('vect', TfidfVectorizer()), ('clf', SVC(kernel = 'linear', probability = True))])

In [None]:
?LabelEncoder

In [27]:
# Objeto para Normalização dos labels
encoder = LabelEncoder()

In [28]:
dataset[0]

('Kit com 4 Pneus de Alta Performance Pirelli Aro 16 205/55R16 Phantom',
 'automotivo')

In [29]:
# Obtendo dados e labels
data = [prod for prod, cat in dataset]
labels = [cat for prod, cat in dataset]
len(data)

9953

In [30]:
# Normalização dos labels
target = encoder.fit_transform(labels)

In [31]:
target[:10]

array([ 2,  0,  0, 14, 14, 18, 18, 18, 18, 18])

In [33]:
# Items
encoder.classes_.item(2)

'automotivo'

In [34]:
%%time
# Fit do modelo
modelo.fit(data, target)

CPU times: user 20.8 s, sys: 104 ms, total: 20.9 s
Wall time: 21.2 s


Pipeline(memory=None,
         steps=[('vect',
                 TfidfVectorizer(analyzer='word', binary=False,
                                 decode_error='strict',
                                 dtype=<class 'numpy.float64'>,
                                 encoding='utf-8', input='content',
                                 lowercase=True, max_df=1.0, max_features=None,
                                 min_df=1, ngram_range=(1, 1), norm='l2',
                                 preprocessor=None, smooth_idf=True,
                                 stop_words=None, strip_accents=None,
                                 sublinear_tf=False,
                                 token_pattern='(?u)\\b\\w\\w+\\b',
                                 tokenizer=None, use_idf=True,
                                 vocabulary=None)),
                ('clf',
                 SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
                     decision_function_shape='ovr', degree=3,
            

In [35]:
# Prevendo a categoria a partir da descrição
modelo.predict(["Refrigerador Brastemp com função frostfree"])

array([9])

In [36]:
# Prevendo a categoria a partir da descrição
print (encoder.classes_[9])

eletrodomésticos


In [40]:
# Prevendo a categoria a partir da descrição
modelo.predict(["sanduíche de queijo e presunto"])

array([20])

In [41]:
print (encoder.classes_[20])

utilidades domésticas


In [37]:
# Probabilidades de um produto
probs = modelo.predict_proba(["Ventilador"])

In [38]:
# Probabidades de categorias para o objeto Ventilador
guess = [(class_, '{:.10f}'.format(probs.item(n)))  for n, class_ in enumerate(encoder.classes_)]
pprint(guess)

[('alimentos e bebidas', '0.0000371752'),
 ('ar-condicionado e aquecedores', '0.0000009883'),
 ('automotivo', '0.0000004546'),
 ('bebês', '0.0000009003'),
 ('beleza e saúde', '0.0000004576'),
 ('brinquedos', '0.0000180192'),
 ('cama, mesa e banho', '0.0000007258'),
 ('celulares e telefones', '0.0000123844'),
 ('dvds e blu-ray', '0.0000005439'),
 ('eletrodomésticos', '0.0000008741'),
 ('eletroportáteis', '0.9998985127'),
 ('informática', '0.0000006386'),
 ('instrumentos musicais', '0.0000010859'),
 ('linha industrial', '0.0000149544'),
 ('livros', '0.0000013790'),
 ('perfumaria', '0.0000010260'),
 ('pet shop', '0.0000006175'),
 ('relógios', '0.0000015931'),
 ('suplementos e vitaminas', '0.0000011151'),
 ('tv e home theater', '0.0000013127'),
 ('utilidades domésticas', '0.0000007501'),
 ('áudio', '0.0000044913')]


In [39]:
# Probabidade ajustada de categorias para o objeto Ventilador
from operator import itemgetter
for cat, proba in sorted(guess, key = itemgetter(1), reverse = True):
    print (cat, '{} : {:.10f}'.format(cat, float(proba)))

eletroportáteis eletroportáteis : 0.9998985127
alimentos e bebidas alimentos e bebidas : 0.0000371752
brinquedos brinquedos : 0.0000180192
linha industrial linha industrial : 0.0000149544
celulares e telefones celulares e telefones : 0.0000123844
áudio áudio : 0.0000044913
relógios relógios : 0.0000015931
livros livros : 0.0000013790
tv e home theater tv e home theater : 0.0000013127
suplementos e vitaminas suplementos e vitaminas : 0.0000011151
instrumentos musicais instrumentos musicais : 0.0000010859
perfumaria perfumaria : 0.0000010260
ar-condicionado e aquecedores ar-condicionado e aquecedores : 0.0000009883
bebês bebês : 0.0000009003
eletrodomésticos eletrodomésticos : 0.0000008741
utilidades domésticas utilidades domésticas : 0.0000007501
cama, mesa e banho cama, mesa e banho : 0.0000007258
informática informática : 0.0000006386
pet shop pet shop : 0.0000006175
dvds e blu-ray dvds e blu-ray : 0.0000005439
beleza e saúde beleza e saúde : 0.0000004576
automotivo automotivo : 0.000