# <font color='blue'>Data Science Academy - Machine Learning</font>

# <font color='blue'>Capítulo 10 - Processamento de Linguagem Natural</font>

****** Este Jupyter Notebook foi atualizado para a versão 3.6.1. da Linguagem Python em 05/07/2017 ******

## Similaridade de Texto

Como computar a similaridade entre duas strings?

In [1]:
import warnings
warnings.filterwarnings("ignore")
from nltk.cluster.util import cosine_distance
from nltk import sent_tokenize, word_tokenize
from gensim.models import Word2Vec
import codecs

Using TensorFlow backend.


In [2]:
a = 'Refrigerador Brastemp CFR45 20L frostfree'
b = 'Geladeira Brastemp CFR45 20L com desgelo automático'

In [3]:
# Tokens similares
tokensA = a.split()
tokensB = b.split()
set(tokensA).intersection(tokensB)

{'20L', 'Brastemp', 'CFR45'}

In [4]:
similar = len(set(tokensA).intersection(tokensB))
total = len(set(tokensA).union(tokensB))
print ('{} tokens similares de {} tokens: {:0.2f}% de similaridade'.format(similar, total, similar/total*100))

3 tokens similares de 9 tokens: 33.33% de similaridade


In [5]:
!pip install jellyfish



In [6]:
!pip install fuzzywuzzy



In [7]:
!pip install metaphone



In [8]:
# Outras métricas usadas para similaridade de texto
import jellyfish
import fuzzywuzzy
import metaphone

In [9]:
print (metaphone.doublemetaphone('caza'))
print (metaphone.doublemetaphone('casa'))

('KS', '')
('KS', '')


In [10]:
# A "jaro-distance" é uma métrica para comparar strings curtas, como nomes de pessoas
jellyfish.jaro_distance(a,b)

0.6568129284234019

## Outras Possibilidades

* Extrair recursos nomeados para medir a importância de cada token
* Usar algum texto básico para preprocessing (lowecase, stemming, etc)
* Remover palavra-chave
* Peso das palavras usando uma medida de importância (TF / IDF, por exemplo)

## Usando word2vec Para Computar Similaridades entre Vetores
https://radimrehurek.com/gensim/models/word2vec.html

Word2vec é um grupo de modelos relacionados que são usados para produzir word embeddings. Esses modelos são redes neurais artificiais de duas camadas que são treinadas para reconstruir contextos linguísticos de palavras. O Word2vec toma como entrada um grande corpus de texto e produz um espaço vetorial, tipicamente de várias centenas de dimensões, com cada palavra única no corpus sendo atribuída um vetor correspondente no espaço. Os vetores de palavras são posicionados no espaço vetorial de tal forma que as palavras que compartilham contextos comuns no corpus estão localizadas próximas umas das outras no espaço.

O Word2vec foi criado por uma equipe de pesquisadores liderada por Tomas Mikolov no Google. O algoritmo foi posteriormente analisado e explicado por outros pesquisadores. Incorporar vetores criados usando o algoritmo Word2vec tem muitas vantagens em comparação com algoritmos anteriores como Latent Semantic Analysis.

In [11]:
# Leitura do Corpus
import codecs

In [12]:
# Carregando o conteúdo do Corpus para um objeto Python
with codecs.open('corpus.txt', encoding = 'utf8') as fp:
    corpus = fp.read()

In [13]:
type(corpus)

str

In [14]:
from nltk import sent_tokenize, word_tokenize

In [15]:
# Tokenization com NLTK - este processo é demorado!!!
sentences = [[w.lower() for w in word_tokenize(sentence, language = 'portuguese')] for sentence in sent_tokenize(corpus, language = 'portuguese')]

In [16]:
from gensim.models import Word2Vec

In [17]:
?Word2Vec

In [18]:
# Treinando o modelo
modelo = Word2Vec(sentences, size = 100, window = 5, min_count = 5, workers = 8)
modelo.init_sims(replace = True)

In [19]:
modelo.most_similar('geladeira')

[('brastemp', 0.5971542000770569),
 ('torneira', 0.5934094190597534),
 ('cozinha', 0.5842926502227783),
 ('facilite', 0.5711125135421753),
 ('frost', 0.55544114112854),
 ('bebida', 0.5471072793006897),
 ('cerveja', 0.5417832136154175),
 ('inverse', 0.5413452386856079),
 ('cafeteira', 0.5392649173736572),
 ('estação', 0.5364927053451538)]

In [20]:
tokensA = [t.lower() for t in tokensA]
vectorsA = sum([modelo[token] for token in tokensA if token in modelo.raw_vocab])

In [21]:
tokensB = [t.lower() for t in tokensB]
vectorsB = sum([modelo[token] for token in tokensB if token in modelo.raw_vocab])

In [22]:
from nltk.cluster.util import cosine_distance
print ('Similaridade: {}'.format(abs(1 - cosine_distance(vectorsA, vectorsB))))

Similaridade: nan


### Fim

### Obrigado - Data Science Academy - <a href=http://facebook.com/dsacademy>facebook.com/dsacademybr</a>