### Expressões Regulares

Exemplo de um chatbot utilizando uma máquina de estados finitos que utiliza expressões regulares para entender várias saudações

In [1]:
# Biblioteca em Python para expressões regulares
import re 

# LISTA DE OPERADORES
# https://docs.python.org/pt-br/3/library/re.html

In [2]:
#Expressão regular: [a-z]* classe de caracteres entre colchetes. O traço (-) indica um intervalo de caracteres. (*) significa 
#uma, várias, ou nenhuma ocorrência da expressão dentro dos colchetes

#hi|hello|hey): “|” significa “or”. Ou seja, qualquer uma das palavras “hi”, “hello” e “hey” podem ocorrer uma única vez na 
#frase (começando a frase por uma delas).

# Em seguida, [ ]* significa um espaço em branco pode ocorrer várias vezes.

# Assim, esta expressão regular pode representar qualquer sentença que comece com “hi”, “hello” ou “hey”, seguida de zero ou 
# mais white spaces e uma palavra com qualquer combinação de “a” a “z” minúsculos.

r = "(hi|hello|hey)[ ]*([a-z]*)"  

# Ignora caracteres maiúsculos e minúsculos (para simplificar)
resp=re.match(r, 'Hello Rosa', flags=re.IGNORECASE) 
print("RESP1: ",resp)
resp=re.match(r, 'Hi andre', flags=re.IGNORECASE) 
print("RESP2: ",resp)
resp=re.match(r, 'Hi andre desenvolveu o software: 12/01/2055', flags=re.IGNORECASE) 
print("RESP3: ",resp)

r = "(hi|hello|hey)([ ]*([a-z]*))*"  
resp=re.match(r, 'Hi andre desenvolveu o software: 12/01/2055', flags=re.IGNORECASE) 
print("RESP4: ",resp)

RESP1:  <re.Match object; span=(0, 10), match='Hello Rosa'>
RESP2:  <re.Match object; span=(0, 8), match='Hi andre'>
RESP3:  <re.Match object; span=(0, 8), match='Hi andre'>
RESP4:  <re.Match object; span=(0, 31), match='Hi andre desenvolveu o software'>


In [3]:
r = "(hi|hello|hey)([ ]*([a-z]*)[,]*)*"  
print(re.match(r, "hi ho, hi ho, it s off to work ...", flags=re.IGNORECASE))
r = "(hi|hello|hey)([ ]*([a-z]*)[,]*)*"  
print(re.match(r, "hi ho, hi ho, it s2 off to work ...", flags=re.IGNORECASE))
r = "(hi|hello|hey)([ ]*([a-z,0-9]*)[,]*)*"  
print(re.match(r, "hi ho, hi ho, it s2 off to work ...", flags=re.IGNORECASE))

<re.Match object; span=(0, 31), match='hi ho, hi ho, it s off to work '>
<re.Match object; span=(0, 18), match='hi ho, hi ho, it s'>
<re.Match object; span=(0, 32), match='hi ho, hi ho, it s2 off to work '>


In [4]:
print(re.match(r, "Oi, hi, what's up?", flags=re.IGNORECASE))

None


O r antes da sentença indica um texto bruto (não uma expressão regular)

O compilador da expressão regular irá traduzir “r” para uma expressão regular.

In [26]:
r = r"[a-z]*"
re_greeting = re.compile(r, flags=re.IGNORECASE)
print(re_greeting.match('Hello Rosa Maria 1234'))


<re.Match object; span=(0, 5), match='Hello'>


In [28]:
r = r"([a-z]*[ ]*)*"
re_greeting = re.compile(r, flags=re.IGNORECASE)
print("TESTE1: ",re_greeting.match('Hello Rosa Maria 1234'))
# A VÍRGULA NÃO ESTÁ DEFINIDA NA REGRA
print("TESTE2: ",re_greeting.match('Hello, Rosa Maria 1234'))

TESTE1:  <re.Match object; span=(0, 17), match='Hello Rosa Maria '>
TESTE2:  <re.Match object; span=(0, 5), match='Hello'>


In [29]:
r = r"([a-z]*[ ]*[,]*)*"
re_greeting = re.compile(r, flags=re.IGNORECASE)
print("TESTE1: ",re_greeting.match('Hello Rosa Maria 1234'))
# A VÍRGULA ESTÁ DEFINIDA NA REGRA
print("TESTE2: ",re_greeting.match('Hello, Rosa Maria 1234'))

TESTE1:  <re.Match object; span=(0, 17), match='Hello Rosa Maria '>
TESTE2:  <re.Match object; span=(0, 18), match='Hello, Rosa Maria '>


In [31]:
# ^ Corresponde ao INÍCIO da string
r = r"(^[a-z]*[ ]*)*"
re_greeting = re.compile(r, flags=re.IGNORECASE)
# NÚMERO NÃO ESTÁ DEFINIDO NA REGRA
print("TESTE1: ",re_greeting.match('Hello Rosa Maria 1234'))
print("TESTE2: ",re_greeting.match('Hello Rosa Maria 1234 Hi'))

TESTE1:  <re.Match object; span=(0, 6), match='Hello '>
TESTE2:  <re.Match object; span=(0, 6), match='Hello '>


In [33]:
# ^ Corresponde ao INÍCIO da string
r = r"([a-z]*[ ]*[0-9]*)*"
re_greeting = re.compile(r, flags=re.IGNORECASE)
# NÚMERO ESTÁ DEFINIDO NA REGRA
print("TESTE1: ",re_greeting.match('Hello Rosa Maria 1234'))
print("TESTE2: ",re_greeting.match('Hello Rosa Maria 1234 Hi'))

TESTE1:  <re.Match object; span=(0, 21), match='Hello Rosa Maria 1234'>
TESTE2:  <re.Match object; span=(0, 24), match='Hello Rosa Maria 1234 Hi'>


In [36]:
# ^ Corresponde ao início da string
r = r"(^[0-9]*)[ ,-]([a-z]*[ ]*)*"
re_greeting = re.compile(r, flags=re.IGNORECASE)
print("TESTE1: ",re_greeting.match('Hello Rosa Maria 1234'))
print("TESTE2: ",re_greeting.match('56 Hello Rosa Maria 1234'))
print("TESTE3: ",re_greeting.match('56Hello Rosa Maria 1234'))
print("TESTE4: ",re_greeting.match('56,Hello Rosa Maria 1234'))
print("TESTE5: ",re_greeting.match('56-Hello Rosa Maria 1234'))
print("TESTE6: ",re_greeting.match('-Hello Rosa Maria 1234'))

TESTE1:  None
TESTE2:  <re.Match object; span=(0, 20), match='56 Hello Rosa Maria '>
TESTE3:  None
TESTE4:  <re.Match object; span=(0, 20), match='56,Hello Rosa Maria '>
TESTE5:  <re.Match object; span=(0, 20), match='56-Hello Rosa Maria '>
TESTE6:  <re.Match object; span=(0, 18), match='-Hello Rosa Maria '>


In [38]:
# ^ Corresponde ao início da string
r = r"(^[0-9]*)[ ,-]([a-z]*[ ]*[0-9]*)*"
re_greeting = re.compile(r, flags=re.IGNORECASE)
# NÃO IMPRIME POIS NÃO INICIA COM NÚMERO
print("TESTE1: ",re_greeting.match('Hello Rosa Maria 1234'))
print("TESTE2: ",re_greeting.match('56 Hello Rosa Maria 1234'))
print("TESTE3: ",re_greeting.match('56Hello Rosa Maria 1234'))
print("TESTE4: ",re_greeting.match('56,Hello Rosa Maria 1234'))
print("TESTE5: ",re_greeting.match('$Hello Rosa Maria 1234'))

TESTE1:  None
TESTE2:  <re.Match object; span=(0, 24), match='56 Hello Rosa Maria 1234'>
TESTE3:  None
TESTE4:  <re.Match object; span=(0, 24), match='56,Hello Rosa Maria 1234'>
TESTE5:  None


In [39]:
r = r"[^a-z]*([y]o|[h']?ello|ok|hey|(good[ ])?(morn[ing']{0,3}|afternoon|even[ing']{0,3}))[\s,;:]{1,3}([a-z]{1,20})"
re_greeting = re.compile(r, flags=re.IGNORECASE)
print("TESTE1: ",re_greeting.match('Hello Rosa'))
print("TESTE2: ",re_greeting.match('ok Hello Rosa'))
print("TESTE3: ",re_greeting.match('Hello Good Morming Rosa'))

TESTE1:  <re.Match object; span=(0, 10), match='Hello Rosa'>
TESTE2:  <re.Match object; span=(0, 8), match='ok Hello'>
TESTE3:  <re.Match object; span=(0, 10), match='Hello Good'>


In [40]:
 re_greeting.match("Good morning Rosa")

<re.Match object; span=(0, 17), match='Good morning Rosa'>

In [41]:
re_greeting.match("Good Morn'n Rosa")

<re.Match object; span=(0, 16), match="Good Morn'n Rosa">

In [42]:
# COMPLETANDO FRASE COM DATASETs
# DATASET DE NOMES
my_names = set(['rosa', 'rose', 'chatty', 'chatbot', 'bot', 'chatterbot'])
curt_names = set(['hal', 'you', 'u'])

greeter_name = ''
#match = re_greeting.match(input())
# FRASE:  rose in DATASET my_names
match = re_greeting.match("Good Afternoon rose mary")
print("MATCH: ",match)
if match:
    print("RE GROUPs: ",match.groups())
    # SELECIONA O ÚLTIMO ITEM DA LISTA
    at_name = match.groups()[-1]
    print("NAME: ",at_name)
    # VERIFICAR CURT NAMES
    if at_name in curt_names:
        print("Good one.")
    # VERIFICAR NAMES    
    elif at_name.lower() in my_names:
        greeter_name = at_name
        print("Hi {}, How are you?".format(greeter_name))

MATCH:  <re.Match object; span=(0, 19), match='Good Afternoon rose'>
RE GROUPs:  ('Good Afternoon', 'Good ', 'Afternoon', 'rose')
NAME:  rose
Hi rose, How are you?


### Tokenizador


In [43]:
# TOKEN SÃO OS COMPONENTES DE UMA FRASE
sentence = "Thomas Jefferson began building Monticello at the age of 26."
# SEPARAR TOKENs
sentence.split()

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26.']

Vamos resolver o primeiro problema da NLP, transformar palavras em números:

In [47]:
import numpy as np
import pandas as pd

sentence = "Thomas Jefferson began building Monticello at the age of 26."

# SEPARAR TOKENs
token_sequence = str.split(sentence)
print("TOKENS: \n",token_sequence)

# ORDENAR OS TOKENs
vocab = sorted(set(token_sequence))
print("TOKENS ORDENADOS: \n",vocab)

# NÚMERO DE TOKENs
num_tokens = len(token_sequence)
print("NÚMERO DE TOKENS: \n",num_tokens)

vocab_size = len(vocab)
print("VOCAB SIZE: \n",vocab_size)

# GERAR MATRIZ DE 0
onehot_vectors = np.zeros((num_tokens, vocab_size), int)
print("MATRIZ DE TOKENs : \n",onehot_vectors)

# 
for i, word in enumerate(token_sequence):
    onehot_vectors[i, vocab.index(word)] = 1
    ' '.join(vocab)
    
# SEGUNDA MATRIZ:  linha indica o TOKENS não ordenado x coluna indica a posição do mesmo TOKEN após ordenação    
print("\nMATRIZ onehot_vectors: \n",onehot_vectors)

# CONSTRUINDO UM DATAFRAME COM OS DADOS DE onehot_vectors
DF=pd.DataFrame(onehot_vectors, columns=vocab)
print("\nDATAFRAME COM OS TOKENS ORDENADOS: \n",DF)


TOKENS: 
 ['Thomas', 'Jefferson', 'began', 'building', 'Monticello', 'at', 'the', 'age', 'of', '26.']
TOKENS ORDENADOS: 
 ['26.', 'Jefferson', 'Monticello', 'Thomas', 'age', 'at', 'began', 'building', 'of', 'the']
NÚMERO DE TOKENS: 
 10
VOCAB SIZE: 
 10
MATRIZ DE TOKENs : 
 [[0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0]]

MATRIZ onehot_vectors: 
 [[0 0 0 1 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 1 0 0 0]
 [0 0 0 0 0 0 0 1 0 0]
 [0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 1 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 1]
 [0 0 0 0 1 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 0]
 [1 0 0 0 0 0 0 0 0 0]]

DATAFRAME COM OS TOKENS ORDENADOS: 
    26.  Jefferson  Monticello  Thomas  age  at  began  building  of  the
0    0          0           0       1    0   0      0         0   0    0
1    0          1           0       0    0   0      0

Nesta representação do seu documento, cada linha é um vetor para uma única palavra.

Podemos usar o vetor [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0] para representar a palavra “age” no pipeline.

Um "1" em uma coluna indica uma palavra de vocabulário que estava presente nessa posição no documento.


### Bag of Words

Até aqui criamos uma representação com apenas um único documento (a frase utilizada)

Para ficar mais clara a ideia de bag-of-words precisamos trabalhar com vários documentos para termos um vocabulário (conjunto de palavras) significativamente maior.

In [66]:
# UNINDO ALGUMAS FRASES
sentences = """Thomas Jefferson began building Monticello at the age of 26.\n"""
sentences += """Construction was done mostly by local masons and carpenters.\n"""
sentences += """He moved into the South Pavilion in 1770.\n"""
sentences += """Turning Monticello into a neoclassical masterpiece was Jefferson's obsession."""
print("\nTEXTO:\n",sentences)

corpus = {}
# RECORTANDO AS LINHAS DO TEXTO  i: linha    sent: conteúdo 
for i,sent in enumerate(sentences.split('\n')):
    print("\ni: ",i)
    print("sent: ",sent)  
    #ESTRUTURANDO UM dic ASSOCIANDO 1 AOS ELEMENTOS
    corpus['sent{}'.format(i)] = dict((tok, 1) for tok in sent.split())
    print("corpus: ",corpus)

print("\ncorpus: ")
for i in corpus:
  print("\n",i,"\n",corpus[i])

# GERANDO UM DATAFRAME    
df = pd.DataFrame.from_records(corpus).fillna(0).astype(int).T
print("\n***************** DATAFRAME:")
print("\nRÓTULOS DO DATAFRAME:\n",df.columns)
print("\nDATAFRAME COM TODAS PALAVRAS x LINHAS:\n",df[df.columns[:]])



TEXTO:
 Thomas Jefferson began building Monticello at the age of 26.
Construction was done mostly by local masons and carpenters.
He moved into the South Pavilion in 1770.
Turning Monticello into a neoclassical masterpiece was Jefferson's obsession.

i:  0
sent:  Thomas Jefferson began building Monticello at the age of 26.
corpus:  {'sent0': {'Thomas': 1, 'Jefferson': 1, 'began': 1, 'building': 1, 'Monticello': 1, 'at': 1, 'the': 1, 'age': 1, 'of': 1, '26.': 1}}

i:  1
sent:  Construction was done mostly by local masons and carpenters.
corpus:  {'sent0': {'Thomas': 1, 'Jefferson': 1, 'began': 1, 'building': 1, 'Monticello': 1, 'at': 1, 'the': 1, 'age': 1, 'of': 1, '26.': 1}, 'sent1': {'Construction': 1, 'was': 1, 'done': 1, 'mostly': 1, 'by': 1, 'local': 1, 'masons': 1, 'and': 1, 'carpenters.': 1}}

i:  2
sent:  He moved into the South Pavilion in 1770.
corpus:  {'sent0': {'Thomas': 1, 'Jefferson': 1, 'began': 1, 'building': 1, 'Monticello': 1, 'at': 1, 'the': 1, 'age': 1, 'of': 1, '2

In [67]:
# MOSTRANDO A FUNCIONALIDADE DE:  df = pd.DataFrame.from_records(corpus).fillna(0).astype(int).T
TESTEdata = [{'col_1': 3, 'col_2': 'a'},
             {'col_1': 2, 'col_2': 'b'},
             {'col_1': 1, 'col_2': 'c'},
             {'col_1': 0, 'col_2': 'd'}]
TESTEDF=pd.DataFrame.from_records(TESTEdata)
print("DATAFRAME ORIGINAL:\n",TESTEDF)

TESTEdata2 = [{'col_1': 3, 'col_2': 'a', 'col_3': 'k'},
              {'col_1': 2, 'col_2': 'b'},
              {'col_1': 1, 'col_2': 'c'},
              { 'col_1': 0, 'col_2': 'd'}]
TESTEDF2=pd.DataFrame.from_records(TESTEdata2)
print("DATAFRAME ASSIMÉTRICO:\n",TESTEDF2)

TESTEDF3=pd.DataFrame.from_records(TESTEdata2).fillna(0)
print("DATAFRAME ASSIMÉTRICO COMPLETANDO ZERO:\n",TESTEDF3)

TESTEDF4=pd.DataFrame.from_records(TESTEdata2).fillna(0).T
print("DATAFRAME ASSIMÉTRICO TRANSPOSTO:\n",TESTEDF4)

DATAFRAME ORIGINAL:
    col_1 col_2
0      3     a
1      2     b
2      1     c
3      0     d
DATAFRAME ASSIMÉTRICO:
    col_1 col_2 col_3
0      3     a     k
1      2     b   NaN
2      1     c   NaN
3      0     d   NaN
DATAFRAME ASSIMÉTRICO COMPLETANDO ZERO:
    col_1 col_2 col_3
0      3     a     k
1      2     b     0
2      1     c     0
3      0     d     0
DATAFRAME ASSIMÉTRICO TRANSPOSTO:
        0  1  2  3
col_1  3  2  1  0
col_2  a  b  c  d
col_3  k  0  0  0


Na resposta anterior, notamos pouca sobreposição no uso de palavras para os documentos (poucas palavras aparecem em mais de uma sentença). Agora iremos calcular essa sobreposição no pipeline para comparar documentos ou procurar documentos semelhantes, contando o número de tokens sobrepostos usando um produto escalar

### Produto Escalar

In [68]:
df = df.T
print("\nDF TRANSPOSTO: \n",df)


DF TRANSPOSTO: 
               sent0  sent1  sent2  sent3
Thomas            1      0      0      0
Jefferson         1      0      0      0
began             1      0      0      0
building          1      0      0      0
Monticello        1      0      0      1
at                1      0      0      0
the               1      0      1      0
age               1      0      0      0
of                1      0      0      0
26.               1      0      0      0
Construction      0      1      0      0
was               0      1      0      1
done              0      1      0      0
mostly            0      1      0      0
by                0      1      0      0
local             0      1      0      0
masons            0      1      0      0
and               0      1      0      0
carpenters.       0      1      0      0
He                0      0      1      0
moved             0      0      1      0
into              0      0      1      1
South             0      0      1      

In [69]:
# SOBREPOSIÇÕES DE PALAVRAS
print("SOBREPOSIÇÃO DE sent0 e sent1: ",df.sent0.dot(df.sent1),"  ",end="")
print([(k, v) for (k, v) in (df.sent0 & df.sent1).items() if v])

print("SOBREPOSIÇÃO DE sent0 e sent2: ",df.sent0.dot(df.sent2),"  ",end="")
print([(k, v) for (k, v) in (df.sent0 & df.sent2).items() if v])

print("SOBREPOSIÇÃO DE sent0 e sent3: ",df.sent0.dot(df.sent3),"  ",end="")
print([(k, v) for (k, v) in (df.sent0 & df.sent3).items() if v])

print("\nSOBREPOSIÇÃO DE sent2 e sent3: ",df.sent2.dot(df.sent3),"  ",end="")
print([(k, v) for (k, v) in (df.sent2 & df.sent3).items() if v])

SOBREPOSIÇÃO DE sent0 e sent1:  0   []
SOBREPOSIÇÃO DE sent0 e sent2:  1   [('the', 1)]
SOBREPOSIÇÃO DE sent0 e sent3:  1   [('Monticello', 1)]

SOBREPOSIÇÃO DE sent2 e sent3:  1   [('into', 1)]


Veja que um palavra foi usada em sent0 e sent2 (resposta 1).

Da mesma forma, uma das palavras do vocabulário foi usada em sent0 e sent3.

Essa sobreposição de palavras é uma medida de similaridade.

A frase sent1 foi a única que não mencionou Jefferson ou Monticello diretamente, mas usou um conjunto de palavras completamente
diferente

Além de produtos escalares, outras operações de vetores podem ser usadas nestes casos: adição, subtração, OR, AND e assim por
diante. Ou até mesmo distância euclidiana ou distância dos cossenos entre esses vetores.

**Agora podemos melhorar a extração de tokens separando melhor as palavras usando expressão regular**

In [74]:
#sentence = """Thomas Jefferson, an old man, began; building Monticello at the age of 26 : 00."""
sentence = """Thomas Jefferson, an old man, began building Monticello at the age of 26 : 00."""

# ()+ Faz com que a ER resultante corresponda a 1 ou mais repetições da ER anterior.
pattern = re.compile(r"([-\s.,;!?])+")
tokens = pattern.split(sentence)
print(tokens)

# REMOVER ESPAÇOS EM BRANCO E OUTROS CARACTERES
tokens = [x for x in tokens if x and x not in '- \t\n.,;!?']
print("\nTOKENs: ",tokens)


['Thomas', ' ', 'Jefferson', ' ', 'an', ' ', 'old', ' ', 'man', ' ', 'began', ' ', 'building', ' ', 'Monticello', ' ', 'at', ' ', 'the', ' ', 'age', ' ', 'of', ' ', '26', ' ', ':', ' ', '00', '.', '']

TOKENs:  ['Thomas', 'Jefferson', 'an', 'old', 'man', 'began', 'building', 'Monticello', 'at', 'the', 'age', 'of', '26', ':', '00']


In [78]:
sentence = """Thomas Jefferson, an old man, began building Monticello at the age of 26:00."""

# ()+ Faz com que a ER resultante corresponda a 1 ou mais repetições da ER anterior.
pattern = re.compile(r"([-\s.,;:!?])+")
tokens = pattern.split(sentence)
print(tokens)
# REMOVER ESPAÇOS EM BRANCO E OUTROS CARACTERESS ESPECIAIS
tokens = [x for x in tokens if x and x not in '- \t\n.,;:!?']
print("\nTOKENs: ",tokens)

['Thomas', ' ', 'Jefferson', ' ', 'an', ' ', 'old', ' ', 'man', ' ', 'began', ' ', 'building', ' ', 'Monticello', ' ', 'at', ' ', 'the', ' ', 'age', ' ', 'of', ' ', '26', ':', '00', '.', '']

TOKENs:  ['Thomas', 'Jefferson', 'an', 'old', 'man', 'began', 'building', 'Monticello', 'at', 'the', 'age', 'of', '26', '00']


In [79]:
sentence = """Thomas Jefferson, an old man, began building Monticello at the age of 26:00."""

# ()+ Faz com que a ER resultante corresponda a 1 ou mais repetições da ER anterior.
pattern = re.compile(r"([-\s.,;:!?])+")
tokens = pattern.split(sentence)
print(tokens)
# REMOVER ESPAÇOS EM BRANCO E OUTROS CARACTERESS ESPECIAIS
tokens = [x for x in tokens if x and x not in '- \t\n.,;:!?']
print("\nTOKENs: ",tokens)

['Thomas', ' ', 'Jefferson', ' ', 'an', ' ', 'old', ' ', 'man', ' ', 'began', ' ', 'building', ' ', 'Monticello', ' ', 'at', ' ', 'the', ' ', 'age', ' ', 'of', ' ', '26', ':', '00', '.', '']

TOKENs:  ['Thomas', 'Jefferson', 'an', 'old', 'man', 'began', 'building', 'Monticello', 'at', 'the', 'age', 'of', '26', '00']


Vamos a mais um exemplo, agora usando a biblioteca NLTK para extração de texto informais (como textos de rede sociais).


In [83]:
from nltk.tokenize.casual import casual_tokenize

message = """RT @TJMonticello Best day everrrrrrr at Monticello. Awesommmmmmeeeeeeee day :*)"""
#message = """RT @TJMonticello @Best day Best everrrrrrr at Monticello. Awesommmmmmeeeeeeee day :*)"""
tokens = casual_tokenize(message)
print(tokens)

tokens = casual_tokenize(message, reduce_len=True, strip_handles=True)
print("\nTOKENs: ",tokens)


['RT', '@TJMonticello', 'Best', 'day', 'everrrrrrr', 'at', 'Monticello', '.', 'Awesommmmmmeeeeeeee', 'day', ':*)']

TOKENs:  ['RT', 'Best', 'day', 'everrr', 'at', 'Monticello', '.', 'Awesommmeee', 'day', ':*)']


### N-grams - CADEIA CONTÍNUAS DE PALAVRAS, SÍMBOLOS, TOKENS

In [84]:
import re
from nltk.util import ngrams
sentence = """Thomas Jefferson began building Monticello at the age of 26."""
pattern = re.compile(r"([-\s.,;!?])+")
tokens = pattern.split(sentence)
print("\nTOKENs ORIGINAIS: ",tokens)

tokens = [x for x in tokens if x and x not in '- \t\n.,;!?']
print("\nTOKENs: ",tokens)

tokens = list(ngrams(tokens, 2))
print("\nN-grams: ",tokens)



TOKENs ORIGINAIS:  ['Thomas', ' ', 'Jefferson', ' ', 'began', ' ', 'building', ' ', 'Monticello', ' ', 'at', ' ', 'the', ' ', 'age', ' ', 'of', ' ', '26', '.', '']

TOKENs:  ['Thomas', 'Jefferson', 'began', 'building', 'Monticello', 'at', 'the', 'age', 'of', '26']

N-grams:  [('Thomas', 'Jefferson'), ('Jefferson', 'began'), ('began', 'building'), ('building', 'Monticello'), ('Monticello', 'at'), ('at', 'the'), ('the', 'age'), ('age', 'of'), ('of', '26')]


In [85]:
#Strings
# UNINDO OS N-grams
tokens = [" ".join(x) for x in tokens]
print("\nTOKENs: ",tokens)



TOKENs:  ['Thomas Jefferson', 'Jefferson began', 'began building', 'building Monticello', 'Monticello at', 'at the', 'the age', 'age of', 'of 26']


### StopWords

In [86]:
# DEFININDO ALGUNS STOPWORDS
stop_words = ['a', 'an', 'the', 'on', 'of', 'off', 'this', 'is']
# DATASET
tokens = ['the', 'house', 'is', 'on', 'fire']
print("DATASET ORIGINAL: ",tokens)

#REMOVENDO STOPWORDS DO DATSET
tokens_without_stopwords = [x for x in tokens if x not in stop_words]
print("DATASET SEM STOPWORDS: ",tokens_without_stopwords)


DATASET ORIGINAL:  ['the', 'house', 'is', 'on', 'fire']
DATASET SEM STOPWORDS:  ['house', 'fire']


In [87]:
# Para obter uma lista completa de stopwords, a biblioteca NLTK é provavelmente uma lista mais aplicável. 
import nltk

# OBTENDO UM CONJUNTO DE STOPWORDS
nltk.download('stopwords')
# EM INGLÊS
stop_words = nltk.corpus.stopwords.words('english')
#stop_words = nltk.corpus.stopwords.words('portuguese')

print("NÚMERO DE STOPWORDS: ",len(stop_words))
stopwords = stop_words[:7]
print(stopwords)

NÚMERO DE STOPWORDS:  179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours']


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\AM\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [88]:
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS as sklearn_stop_words

print("NÚMERO DE STOPWORDS SKLEARN: ",len(sklearn_stop_words))
print("\nNÚMERO DE STOPWORDS SKLEARN: \n",sklearn_stop_words)

NÚMERO DE STOPWORDS SKLEARN:  318

NÚMERO DE STOPWORDS SKLEARN: 
 frozenset({'is', 'not', 'to', 'eg', 'bottom', 'if', 'please', 'eleven', 'do', 'whereafter', 'without', 'hundred', 'becomes', 'cry', 'during', 'about', 'seem', 'sincere', 'always', 'where', 'much', 'anyway', 'until', 'ourselves', 'him', 'into', 'seeming', 'than', 'as', 'nobody', 'down', 'last', 'eight', 'its', 'empty', 'few', 'most', 'never', 'becoming', 'their', 'three', 'already', 'sixty', 'con', 'interest', 'them', 'now', 'through', 'still', 'formerly', 'such', 'therein', 'his', 'nowhere', 'this', 'done', 'nor', 'against', 'thick', 'hereafter', 'so', 'beyond', 'there', 'that', 'your', 'indeed', 'yet', 'am', 'will', 'found', 'no', 'since', 'whither', 'must', 'we', 'ie', 'describe', 'one', 'least', 're', 'be', 'in', 'within', 'top', 'moreover', 'anywhere', 'ten', 'hasnt', 'thin', 'beforehand', 'sometimes', 'full', 'seemed', 'everyone', 'mine', 'very', 'have', 'except', 'everything', 'elsewhere', 'nevertheless', 'whatever

### Normalização - UPPER ou LOWER


In [89]:
tokens = ['House', 'Visitor', 'Center']
normalized_tokens = [x.lower() for x in tokens]

print(normalized_tokens)

['house', 'visitor', 'center']


### Stemming - REDUZIR UMA PALAVRA AO SEU RADICAL 

In [112]:
# . INDICA QUALQUER CARACTER MENOS NO FINAL DA LINHA
# ^ INÍCIO DA STRING
# * ZERO OU MAIS REPETIÇÕES
# $ FINAL DA STRING OU LOGO ANTES DE UMA NOVA LINHA NO FINAL DA STRING
# ? FAZ COM QUE A ER RESULTANTE CORRESPONDA A 0 ou 1 REPETIÇÃO DA ER ANTERIOR
#      EXEMPLO: ab? irá corresponder a ‘a’ ou ‘ab’.
# *?, +?, ?? OS QUANTIFICADORES '*', '+' e '?' SÃO TODOS GULOSOS, INCORPORANDO O MÁXIMO DE TEXTO POSSÍVEL

def stem(phrase):
    return ' '.join([re.findall('^(.*ss|.*?)(s)?$', word)[0][0].strip("'") for word in phrase.lower().split()])

print(stem('houses'))
print(stem('hots goodnes levels'))
print(stem('hots goodness levelss'))
print(stem("Doctor House's calls"))


hous
ho goodn leve
ho goodness levelss
doctor house's cal


In [115]:
from nltk.stem.porter import PorterStemmer

# UTILIZANDO UM MÉTODO DISPONÍVEL NO NLTK
stemmer = PorterStemmer()

text = ' '.join([stemmer.stem(w).strip("'") for w in "dish washer's washed dishes".split()])
print(text)


dish washer wash dish


### Lemmatization - REDUZIR UMA PALAVRA NA SUA FORMA CANÔNICA DO DICIONÁRIO

In [116]:
nltk.download('wordnet')
nltk.download('omw-1.4')
from nltk.stem import WordNetLemmatizer

[nltk_data] Error loading wordnet: <urlopen error [Errno 11001]
[nltk_data]     getaddrinfo failed>
[nltk_data] Error loading omw-1.4: <urlopen error [Errno 11001]
[nltk_data]     getaddrinfo failed>


# Observe que devemos informar ao WordNetLemmatizer em qual POS você está interessado (substantivo, adjetivo, etc.)

In [130]:
# "a", "s", "r", "n", "v"
lemmatizer = WordNetLemmatizer()
print("1. ",lemmatizer.lemmatize("betters")) # Por default, usa-se ‘n’ para os substantivos
print("2. ",lemmatizer.lemmatize("bettering", pos="v"))
print("3. ",lemmatizer.lemmatize("goodly", pos="a"))
print("4. ",lemmatizer.lemmatize("goods", pos="a"))
print("5. ",lemmatizer.lemmatize("goods", pos="n"))
print("6. ",lemmatizer.lemmatize("goodness", pos="a"))
print("7. ",lemmatizer.lemmatize("bests", pos="v"))

1.  better
2.  better
3.  goodly
4.  goods
5.  good
6.  goodness
7.  best


### Contagem de Palavras

In [141]:
from nltk.tokenize import TreebankWordTokenizer
from collections import Counter
sentence = """The faster Harry got to the store, the faster Harry, the faster, would get home."""

tokenizer = TreebankWordTokenizer()
tokens = tokenizer.tokenize(sentence.lower())
print("\nTOKENS: ",tokens)

bag_of_words = Counter(tokens)
print("\nBAG OF WORDs: ",bag_of_words)

bag_of_words_most_common = bag_of_words.most_common(4)
print("\nBAG OF WORDs MAIS COMUNS: ",bag_of_words_most_common)

times_harry_appears = bag_of_words['harry']
print("\ntimes_harry_appears: ",times_harry_appears)

num_unique_words = len(bag_of_words)
print("\nNÚMERO DE ÚNICAS PALAVRAS: ",num_unique_words)

lensplit=len(sentence.split())
print("\nLEN SPLIT WORD SENTENSE: ",lensplit)
tf = times_harry_appears / lensplit
print("\nPERCENTUAL DA PALAVRA harry NA FRASE: ",round(tf, 4)*100," %")


TOKENS:  ['the', 'faster', 'harry', 'got', 'to', 'the', 'store', ',', 'the', 'faster', 'harry', ',', 'the', 'faster', ',', 'would', 'get', 'home', '.']

BAG OF WORDs:  Counter({'the': 4, 'faster': 3, ',': 3, 'harry': 2, 'got': 1, 'to': 1, 'store': 1, 'would': 1, 'get': 1, 'home': 1, '.': 1})

BAG OF WORDs MAIS COMUNS:  [('the', 4), ('faster', 3), (',', 3), ('harry', 2)]

times_harry_appears:  2

NÚMERO DE ÚNICAS PALAVRAS:  11

LEN SPLIT WORD SENTENSE:  15

PERCENTUAL DA PALAVRA harry NA FRASE:  13.33  %


Este número de vezes em que uma palavra aparece em um documento é chamado (em inglês) de term frequency (TF).

Se normalizado, ela será dividido pelo número de termos no documento. Seu resultado será no máximo 1, se todas as palavras do documento forem iguais)

In [144]:
from nltk.tokenize import TreebankWordTokenizer
import nltk
from collections import Counter

kite_text = """A kite is a tethered heavier-than-air or lighter-than-air craft with wing surfaces that react against the air to create lift and drag forces. A kite consists of wings, tethers and anchors. Kites often have a bridle and tail to guide the face of the kite so the wind can lift it. Some kite designs don't need a bridle; box kites can have a single attachment point. A kite may have fixed or moving anchors that can balance the kite. The name is derived from the kite, the hovering bird of prey. The lift that sustains the kite in flight is generated when air moves around the kite's surface, producing low pressure above and high pressure below the wings. The interaction with the wind also generates horizontal drag along the direction of the wind. The resultant force vector from the lift and drag force components is opposed by the tension of one or more of the lines or tethers to which the kite is attached. The anchor point of the kite line may be static or moving (e.g., the towing of a kite by a running person, boat, free-falling anchors as in paragliders and fugitive parakites or vehicle).The same principles of fluid flow apply in liquids, so kites can be used in underwater currents. Paravanes and otter boards operate underwater on an analogous principle. Man-lifting kites were made for reconnaissance, entertainment and during development of the first practical aircraft, the biplane. Kites have a long and varied history and many different types are flown individually and at festivals worldwide. Kites may be flown for recreation, art or other practical uses. Sport kites can be flown in aerial ballet, sometimes as part of a competition. Power kites are multi-line steerable kites designed to generate large forces which can be used to power activities such as kite surfing, kite landboarding, kite buggying and snow kiting."""
tokenizer = TreebankWordTokenizer()
# GERAR TOKENS
tokens = tokenizer.tokenize(kite_text.lower())
print("\nTOKENS: \n",tokens)

token_counts = Counter(tokens)
print("\n\nOCORRENCIAS DO TOKEN: \n",token_counts)


TOKENS: 
 ['a', 'kite', 'is', 'a', 'tethered', 'heavier-than-air', 'or', 'lighter-than-air', 'craft', 'with', 'wing', 'surfaces', 'that', 'react', 'against', 'the', 'air', 'to', 'create', 'lift', 'and', 'drag', 'forces.', 'a', 'kite', 'consists', 'of', 'wings', ',', 'tethers', 'and', 'anchors.', 'kites', 'often', 'have', 'a', 'bridle', 'and', 'tail', 'to', 'guide', 'the', 'face', 'of', 'the', 'kite', 'so', 'the', 'wind', 'can', 'lift', 'it.', 'some', 'kite', 'designs', 'do', "n't", 'need', 'a', 'bridle', ';', 'box', 'kites', 'can', 'have', 'a', 'single', 'attachment', 'point.', 'a', 'kite', 'may', 'have', 'fixed', 'or', 'moving', 'anchors', 'that', 'can', 'balance', 'the', 'kite.', 'the', 'name', 'is', 'derived', 'from', 'the', 'kite', ',', 'the', 'hovering', 'bird', 'of', 'prey.', 'the', 'lift', 'that', 'sustains', 'the', 'kite', 'in', 'flight', 'is', 'generated', 'when', 'air', 'moves', 'around', 'the', 'kite', "'s", 'surface', ',', 'producing', 'low', 'pressure', 'above', 'and', 'h

In [146]:
nltk.download('stopwords', quiet=True)
stopwords = nltk.corpus.stopwords.words('english')

# REMOVER STOPWORDS
tokens = [x for x in tokens if x not in stopwords]
print("\nTOKENS: \n",tokens)

kite_counts = Counter(tokens)
#print(kite_counts)
print("\n\nOCORRENCIAS DO TOKEN: \n",kite_counts)



TOKENS: 
 ['kite', 'tethered', 'heavier-than-air', 'lighter-than-air', 'craft', 'wing', 'surfaces', 'react', 'air', 'create', 'lift', 'drag', 'forces.', 'kite', 'consists', 'wings', ',', 'tethers', 'anchors.', 'kites', 'often', 'bridle', 'tail', 'guide', 'face', 'kite', 'wind', 'lift', 'it.', 'kite', 'designs', "n't", 'need', 'bridle', ';', 'box', 'kites', 'single', 'attachment', 'point.', 'kite', 'may', 'fixed', 'moving', 'anchors', 'balance', 'kite.', 'name', 'derived', 'kite', ',', 'hovering', 'bird', 'prey.', 'lift', 'sustains', 'kite', 'flight', 'generated', 'air', 'moves', 'around', 'kite', "'s", 'surface', ',', 'producing', 'low', 'pressure', 'high', 'pressure', 'wings.', 'interaction', 'wind', 'also', 'generates', 'horizontal', 'drag', 'along', 'direction', 'wind.', 'resultant', 'force', 'vector', 'lift', 'drag', 'force', 'components', 'opposed', 'tension', 'one', 'lines', 'tethers', 'kite', 'attached.', 'anchor', 'point', 'kite', 'line', 'may', 'static', 'moving', '(', 'e.g.'

### Vetorização

In [153]:
document_vector = []

print("\nTOKENS: \n",tokens)
doc_length = len(tokens)
print("\n\nNÚMERO DE TOKENS: \n",doc_length)

# CALCULAR O % DE CONTRINUIÇÃO DO TOKEN NA FRASE
vtcommon=kite_counts.most_common()
for key, value in vtcommon :
    document_vector.append(value / doc_length)
    
print(document_vector)

for i in range(len(vtcommon)-1):
    print(vtcommon[i],": \t",float(document_vector[i])*100," %")



TOKENS: 
 ['kite', 'tethered', 'heavier-than-air', 'lighter-than-air', 'craft', 'wing', 'surfaces', 'react', 'air', 'create', 'lift', 'drag', 'forces.', 'kite', 'consists', 'wings', ',', 'tethers', 'anchors.', 'kites', 'often', 'bridle', 'tail', 'guide', 'face', 'kite', 'wind', 'lift', 'it.', 'kite', 'designs', "n't", 'need', 'bridle', ';', 'box', 'kites', 'single', 'attachment', 'point.', 'kite', 'may', 'fixed', 'moving', 'anchors', 'balance', 'kite.', 'name', 'derived', 'kite', ',', 'hovering', 'bird', 'prey.', 'lift', 'sustains', 'kite', 'flight', 'generated', 'air', 'moves', 'around', 'kite', "'s", 'surface', ',', 'producing', 'low', 'pressure', 'high', 'pressure', 'wings.', 'interaction', 'wind', 'also', 'generates', 'horizontal', 'drag', 'along', 'direction', 'wind.', 'resultant', 'force', 'vector', 'lift', 'drag', 'force', 'components', 'opposed', 'tension', 'one', 'lines', 'tethers', 'kite', 'attached.', 'anchor', 'point', 'kite', 'line', 'may', 'static', 'moving', '(', 'e.g.'

Cada dimensão deste vetor é o TF normalizado de cada palavra neste (específico) documento. Mas observe que, como estamos tratando de apenas um único documento, todas as posições correspondem às palavras que aparecem no documento. Normalmente, com vários documentos, como que nosso vetor se comportaria?

In [158]:
tokenizer = TreebankWordTokenizer()
docs = ["The faster Harry got to the store, the faster and faster Harry would get home."]
docs.append("Harry is hairy and faster than Jill.")
docs.append("Jill is not as hairy as Harry.")
doc_tokens = []
for doc in docs:
    doc_tokens += [sorted(tokenizer.tokenize(doc.lower()))]
    
for i in range(len(docs)):    
  print("\nLINHA [",i,"]:",docs[i],"\n\t",doc_tokens[i],"\n\tNÚMERO DE TOKENS: ",len(doc_tokens[i]))


LINHA [ 0 ]: The faster Harry got to the store, the faster and faster Harry would get home. 
	 [',', '.', 'and', 'faster', 'faster', 'faster', 'get', 'got', 'harry', 'harry', 'home', 'store', 'the', 'the', 'the', 'to', 'would'] 
	NÚMERO DE TOKENS:  17

LINHA [ 1 ]: Harry is hairy and faster than Jill. 
	 ['.', 'and', 'faster', 'hairy', 'harry', 'is', 'jill', 'than'] 
	NÚMERO DE TOKENS:  8

LINHA [ 2 ]: Jill is not as hairy as Harry. 
	 ['.', 'as', 'as', 'hairy', 'harry', 'is', 'jill', 'not'] 
	NÚMERO DE TOKENS:  8


In [159]:
all_doc_tokens = sum(doc_tokens, [])
print("\nALL DOC TOKENS: ",all_doc_tokens)
print("\nNÚMERO TOTAL DE TOKENS: ", len(all_doc_tokens))


ALL DOC TOKENS:  [',', '.', 'and', 'faster', 'faster', 'faster', 'get', 'got', 'harry', 'harry', 'home', 'store', 'the', 'the', 'the', 'to', 'would', '.', 'and', 'faster', 'hairy', 'harry', 'is', 'jill', 'than', '.', 'as', 'as', 'hairy', 'harry', 'is', 'jill', 'not']

NÚMERO TOTAL DE TOKENS:  33


In [160]:
lexicon = sorted(set(all_doc_tokens))
print("\nTOKENS ORDENADOS - LEXICO: ",lexicon)
print("\nNÚMERO DE TOKENS ORDENADOS - LEXICO: ",len(lexicon))



TOKENS ORDENADOS:  [',', '.', 'and', 'as', 'faster', 'get', 'got', 'hairy', 'harry', 'home', 'is', 'jill', 'not', 'store', 'than', 'the', 'to', 'would']

NÚMERO DE TOKENS ORDENADOS:  18


In [32]:
print(lexicon)

[',', '.', 'and', 'as', 'faster', 'get', 'got', 'hairy', 'harry', 'home', 'is', 'jill', 'not', 'store', 'than', 'the', 'to', 'would']


In [164]:
# calculando o vetor de mesma dimensão para cada documento
from collections import OrderedDict

zero_vector = OrderedDict((token, 0) for token in lexicon)
print(zero_vector)
        


OrderedDict([(',', 0), ('.', 0), ('and', 0), ('as', 0), ('faster', 0), ('get', 0), ('got', 0), ('hairy', 0), ('harry', 0), ('home', 0), ('is', 0), ('jill', 0), ('not', 0), ('store', 0), ('than', 0), ('the', 0), ('to', 0), ('would', 0)])


In [168]:
import copy
# CALCULANDO A CONTRIBUIÇÃO DE CADA LEXICO NO VETOR LEXICO
doc_vectors = []
for linha,doc in enumerate(docs):
    vec = copy.copy(zero_vector)
    print("\nLINHA [",linha,"]: ",doc,"\nZERO VECTOR: ",vec)
    tokens = tokenizer.tokenize(doc.lower())
    token_counts = Counter(tokens)
    for key, value in token_counts.items():
        vec[key] = value / len(lexicon)
    doc_vectors.append(vec)
    print("\nCONTRIBUIÇÃO ZERO VECTOR: ",vec)
        
print ("\n\n",len(doc_vectors))
print (doc_vectors[0])


LINHA [ 0 ]:  The faster Harry got to the store, the faster and faster Harry would get home. 
ZERO VECTOR:  OrderedDict([(',', 0), ('.', 0), ('and', 0), ('as', 0), ('faster', 0), ('get', 0), ('got', 0), ('hairy', 0), ('harry', 0), ('home', 0), ('is', 0), ('jill', 0), ('not', 0), ('store', 0), ('than', 0), ('the', 0), ('to', 0), ('would', 0)])

CONTRIBUIÇÃO ZERO VECTOR:  OrderedDict([(',', 0.05555555555555555), ('.', 0.05555555555555555), ('and', 0.05555555555555555), ('as', 0), ('faster', 0.16666666666666666), ('get', 0.05555555555555555), ('got', 0.05555555555555555), ('hairy', 0), ('harry', 0.1111111111111111), ('home', 0.05555555555555555), ('is', 0), ('jill', 0), ('not', 0), ('store', 0.05555555555555555), ('than', 0), ('the', 0.16666666666666666), ('to', 0.05555555555555555), ('would', 0.05555555555555555)])

LINHA [ 1 ]:  Harry is hairy and faster than Jill. 
ZERO VECTOR:  OrderedDict([(',', 0), ('.', 0), ('and', 0), ('as', 0), ('faster', 0), ('get', 0), ('got', 0), ('hairy', 0)

In [169]:
# calculando a distância dos cossenos para os vetores de cada documento
# A distância dos cossenos é uma medida de similaridade  entre dois vetores num espaço vetorial 
#    retornando o valor do cosseno do ângulo compreendido entre eles.
# A similaridade do cosseno fornece um valor no intervalo [-1,1]
#    para contexto onde os valores são positivos, o valor está entre [0,1].
# Permite definir uma métrica de semalhança entre textos.
import math
        
def cosine_sim(vec1, vec2):
    #Converte os vetores em listas
    vec1 = [val for val in vec1.values()]
    vec2 = [val for val in vec2.values()]
        
    dot_prod = 0
    for i, v in enumerate(vec1):
        #Cálculo do produto escalar. (multiplicaçaõ de cada elmentos dos vetores em pares)
        dot_prod += v * vec2[i]
        
    mag_1 = math.sqrt(sum([x**2 for x in vec1]))
    mag_2 = math.sqrt(sum([x**2 for x in vec2]))
    
    #Como a saída da função cosseno, terá um valor entre -1 e + 1.
    return dot_prod / (mag_1 * mag_2)
# CALCULANDO A SIMILARIDADE ENTRE AS LINHAS 
d = cosine_sim(doc_vectors[0], doc_vectors[1])
print("\nSIMILARIDADE ENTRE AS LINHAS 0 e 1: ",d)
d = cosine_sim(doc_vectors[0], doc_vectors[2])
print("\nSIMILARIDADE ENTRE AS LINHAS 0 e 2: ",d)
d = cosine_sim(doc_vectors[1], doc_vectors[2])
print("\nSIMILARIDADE ENTRE AS LINHAS 1 e 2: ",d)
# Para vetores de documentos de linguagem natural que têm uma similaridade do cosseno próxima a 1, significa que os
# documentos estão usando palavras semelhantes em proporção semelhante



SIMILARIDADE ENTRE AS LINHAS 0 e 1:  0.4445004445006667

SIMILARIDADE ENTRE AS LINHAS 0 e 2:  0.17038855027411942

SIMILARIDADE ENTRE AS LINHAS 1 e 2:  0.5590169943749475


Observe os três vetores, um para cada documento. Todos eles possuem o mesmo número de dimensões. Além disso, observe que em várias destas dimensões os valores para alguns vetores é zero. Ou seja, a palavra correspondente à aquela dimensão não aparece naquele vetor.


### TF_IDF



A contagem de palavras, apesar de útil, ainda não informa muito sobre a importância dessa palavra naquele documento em relação ao restante dos documentos do corpus (coleção de documentos). Vamos analisar o IDF (Inverse Document Frequency). Para calcular esta medida, vamos contar tokens e agrupá-los de duas maneiras:por documento e em todo o corpus.

In [172]:
kite_history = """Kites were invented in Asia, though their exact origin can only be speculated. The oldest depiction of a kite is from a mesolithic period cave painting in Muna island, southeast Sulawesi, Indonesia, which has been dated from 9500 to 9000 years B.C. It depicts a type of kite called kaghati, which are still used by modern Muna people. The kite is made from kolope (forest tuber) leaf for the mainsail, bamboo skin as the frame, and twisted forest pineapple fiber as rope, though modern kites use string. In China, the kite has been claimed as the invention of the 5th-century BC Chinese philosophers Mozi (also Mo Di, or Mo Ti) and Lu Ban (also Gongshu Ban, or Kungshu Phan). Materials ideal for kite building were readily available including silk fabric for sail material; fine, high-tensile-strength silk for flying line; and resilient bamboo for a strong, lightweight framework. By 549 AD paper kites were certainly being flown, as it was recorded that in that year a paper kite was used as a message for a rescue mission. Ancient and medieval Chinese sources describe kites being used for measuring distances, testing the wind, lifting men, signaling, and communication for military operations. The earliest known Chinese kites were flat (not bowed) and often rectangular. Later, tailless kites incorporated a stabilizing bowline. Kites were decorated with mythological motifs and legendary figures; some were fitted with strings and whistles to make musical sounds while flying. After its introduction into India, the kite further evolved into the fighter kite, known as the patang in India, where thousands are flown every year on festivals such as Makar Sankranti.Kites were known throughout Polynesia, as far as New Zealand, with the assumption being that the knowledge diffused from China along with the people. Anthropomorphic kites made from cloth and wood were used in religious ceremonies to send prayers to the gods. Polynesian kite traditions are used by anthropologists to get an idea of early "primitive" Asian traditions that are believed to have at one time existed in Asia. Kites were late to arrive in Europe, although windsock-like banners were known and used by the Romans. Stories of kites were first brought to Europe by Marco Polo towards the end of the 13th century, and kites were brought back by sailors from Japan and Malaysia in the 16th and 17th centuries. Konrad Kyeser described dragon kites in Bellifortis about 1400 AD. Although kites were initially regarded as mere curiosities, by the 18th and 19th centuries they were being used as vehicles for scientific research. Boys flying a kite. Engraving published in Germany in 1828 by Johann Michael Voltz. In 1752, Benjamin Franklin published an account of a kite experiment to prove that lightning was caused by electricity. Kites were also instrumental in the research of the Wright brothers, and others, as they developed the first airplane in the late 1800s. Several different designs of man-lifting kites were developed. The period from 1860 to about 1910 became the European "golden age of kiting". In the 20th century, many new kite designs are developed. These included Eddy's tailless diamond, the tetrahedral kite, the Rogallo wing, the sled kite, the parafoil, and power kites. Kites were used for scientific purposes, especially in meteorology, aeronautics, wireless communications and photography. The Rogallo wing was adapted for stunt kites and hang gliding and the parafoil was adapted for parachuting and paragliding. The rapid development of mechanically powered aircraft diminished interest in kites. World War II saw a limited use of kites for military purposes (survival radio, Focke Achgelis Fa 330, military radio antenna kites). Kites are now mostly used for recreation. Lightweight synthetic materials (ripstop nylon, plastic film, carbon fiber tube and rod) are used for kite making. Synthetic rope and cord (nylon, polyethylene, kevlar and dyneema) are used as bridle and kite line."""
print(kite_history)

Kites were invented in Asia, though their exact origin can only be speculated. The oldest depiction of a kite is from a mesolithic period cave painting in Muna island, southeast Sulawesi, Indonesia, which has been dated from 9500 to 9000 years B.C. It depicts a type of kite called kaghati, which are still used by modern Muna people. The kite is made from kolope (forest tuber) leaf for the mainsail, bamboo skin as the frame, and twisted forest pineapple fiber as rope, though modern kites use string. In China, the kite has been claimed as the invention of the 5th-century BC Chinese philosophers Mozi (also Mo Di, or Mo Ti) and Lu Ban (also Gongshu Ban, or Kungshu Phan). Materials ideal for kite building were readily available including silk fabric for sail material; fine, high-tensile-strength silk for flying line; and resilient bamboo for a strong, lightweight framework. By 549 AD paper kites were certainly being flown, as it was recorded that in that year a paper kite was used as a mess

In [173]:
kite_intro = kite_text.lower()
print("\nTEXTO - kite_intro: \n",kite_intro)
intro_tokens = tokenizer.tokenize(kite_intro)


kite_history = kite_history.lower()
print("\nTEXTO - kite_history: \n",kite_history)
history_tokens = tokenizer.tokenize(kite_history)

intro_total = len(intro_tokens)
print("\nN TOKENS - kite_intro: \n", intro_total)
history_total = len(history_tokens)
print("\nN TOKENS - kite_history: \n",history_total)


TEXTO - kite_intro: 
 a kite is a tethered heavier-than-air or lighter-than-air craft with wing surfaces that react against the air to create lift and drag forces. a kite consists of wings, tethers and anchors. kites often have a bridle and tail to guide the face of the kite so the wind can lift it. some kite designs don't need a bridle; box kites can have a single attachment point. a kite may have fixed or moving anchors that can balance the kite. the name is derived from the kite, the hovering bird of prey. the lift that sustains the kite in flight is generated when air moves around the kite's surface, producing low pressure above and high pressure below the wings. the interaction with the wind also generates horizontal drag along the direction of the wind. the resultant force vector from the lift and drag force components is opposed by the tension of one or more of the lines or tethers to which the kite is attached. the anchor point of the kite line may be static or moving (e.g., t

In [174]:
# calculando o TF de "kite" em cada documento
from collections import Counter
intro_tf = {}
history_tf = {}
intro_counts = Counter(intro_tokens)
intro_tf['kite'] = intro_counts['kite'] / intro_total
history_counts = Counter(history_tokens)
history_tf['kite'] = history_counts['kite'] / history_total
print('Term Frequency of "kite" in intro is: {:.4f}'.format(intro_tf['kite']))
print('Term Frequency of "kite" in history is: {:.4f}'.format(history_tf['kite']))

Term Frequency of "kite" in intro is: 0.0422
Term Frequency of "kite" in history is: 0.0212


Ao analisar o resultado vimos um número duas vezes maior do que o outro.
A palavra “kite” é duas vezes mais relevante na seção de “intro”? Não é.
Então, vamos ver como esses números se relacionam com alguma outra palavra, tipo “and":

In [175]:
# calculando o TF da palavra "and"
intro_tf['and'] = intro_counts['and'] / intro_total
history_tf['and'] = history_counts['and'] / history_total
print('Term Frequency of "and" in intro is: {:.4f}'.format(intro_tf['and']))
print('Term Frequency of "and" in history is: {:.4f}'.format(history_tf['and']))

Term Frequency of "and" in intro is: 0.0361
Term Frequency of "and" in history is: 0.0339


Ao analisar o resultado, veja que não ajuda muito saber sobre o que o documento se trata, pois “and” parece ser altamente relevante.
Ideia da frequência inversa (IDF): Quão estranho é esse token neste documento? Se um termo aparece em um documento várias vezes, mas ocorre raramente no restante do corpus, pode-se supor que seja importante para este documento especificamente.

O IDF de um termo é proporção do: (n) número total de documentos para o (m) número de documentos em que o termo aparece (n/m).

No caso de “and" e “kite" no exemplo atual, a resposta é a mesma para ambos:

```
2 (documentos no total) / 2 (documentos que contêm “and“) = 2/2 = 1

2 (documentos no total) / 2 (documentos contêm “kite“) = 2/2 = 1
```
Não ajuda muito. Então, vamos olhar para outra palavra "China".
```
2 (documentos no total) / 1 (documento contém "China“) = 2/1 = 2
```

In [176]:
# calculando o número de documentos em que cada um dos três termos aparecem
num_docs_containing_and = 0
for doc in [intro_tokens, history_tokens]:
    if 'and' in doc:
        num_docs_containing_and += 1
        
num_docs_containing_kite = 0
for doc in [intro_tokens, history_tokens]:
    if 'kite' in doc:
        num_docs_containing_kite += 1
        
num_docs_containing_china = 0
for doc in [intro_tokens, history_tokens]:
    if 'china' in doc:
        num_docs_containing_china += 1
        
print(num_docs_containing_and)
print(num_docs_containing_kite)
print(num_docs_containing_china)

2
2
1


In [177]:
# calculando TF de "china"
intro_tf['china'] = intro_counts['china'] / intro_total
history_tf['china'] = history_counts['china'] / history_total
print('Term Frequency of "china" in intro is: {:.4f}'.format(intro_tf['china']))
print('Term Frequency of "china" in history is: {:.4f}'.format(history_tf['china']))

Term Frequency of "china" in intro is: 0.0000
Term Frequency of "china" in history is: 0.0028


In [42]:
# calculando o IDF para todos os três termos nos dois documentos
num_docs = 2
intro_idf = {}
history_idf = {}
intro_idf['and'] = num_docs / num_docs_containing_and
history_idf['and'] = num_docs / num_docs_containing_and
intro_idf['kite'] = num_docs / num_docs_containing_kite
history_idf['kite'] = num_docs / num_docs_containing_kite
intro_idf['china'] = num_docs / num_docs_containing_china
history_idf['china'] = num_docs / num_docs_containing_china
print(intro_idf['and'])
print(history_idf['and'])
print(intro_idf['kite'])
print(history_idf['kite'])
print(intro_idf['china'])
print(history_idf['china'])


1.0
1.0
1.0
1.0
2.0
2.0


In [43]:
# calculando o resultado para o documento "intro"
intro_tfidf = {}
intro_tfidf['and'] = intro_tf['and'] * intro_idf['and']
intro_tfidf['kite'] = intro_tf['kite'] * intro_idf['kite']
intro_tfidf['china'] = intro_tf['china'] * intro_idf['china']
# calculando o resultado para o documento "history"
history_tfidf = {}
history_tfidf['and'] = history_tf['and'] * history_idf['and']
history_tfidf['kite'] = history_tf['kite'] * history_idf['kite']
history_tfidf['china'] = history_tf['china'] * history_idf['china']
print(intro_tfidf['and'])
print(intro_tfidf['kite'])
print(intro_tfidf['china'])
print(history_tfidf['and'])
print(history_tfidf['kite'])
print(history_tfidf['china'])

0.03614457831325301
0.04216867469879518
0.0
0.03385049365303244
0.021156558533145273
0.005641748942172073


O IDF é muito útil, pois se pensarmos em um corpus de 1000 documentos e se a palavra ocorresse em todos (ou quase todos) os documentos, o valor de seu IDF seria próximo de 1.

Uma palavra mais rara, teria o IDF mais próximo de 1000.

Observe que temos uma forma de penalizar palavras que ocorrem em quase todos os documentos e, portanto, ajudam muito pouco a discriminar um documento do outro.

Assim, a métrica TF-IDF leva em consideração tanto a frequência de ocorrência de um termo em um documento bem como a frequência de ocorrência do termo em todos os documentos (o quão raro um
termo é). Ou seja, quanto mais vezes uma palavra aparecer no documento, o TF (e, portanto, o TF-IDF) aumentará. Ao passo que, à medida que o número de documentos que contêm essa palavra aumenta, o IDF (e, portanto, o TF-IDF) dessa palavra diminui.


### Análise de Sentimentos

Suponha que o objetivo seja medir o quão positivo um texto pode ser (texto sobre um determinado produto).
* Este algoritmo pode produzir um número de ponto flutuante entre +1 e -1 (+1 para texto com sentimentos positivos como "Absolutamente perfeito! Adoro! :-) :-) :-). ”
* E -1 para texto com sentimentos negativos como “Horrível! Completamente inútil. :(. 

In [44]:
!pip install vaderSentiment



In [179]:
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
# procedimento que exibe a pontuação do dicionário de palavras
sa = SentimentIntensityAnalyzer()
print(sa.lexicon)



In [180]:
# procedimento que exibe a pontuação de palavras com espaço " "
score = [(tok, score) for tok, score in sa.lexicon.items() if " " in tok]
# print(score)
print(sa.polarity_scores(text="Python is very readable and it's great for NLP."))
# print(sa.polarity_scores(text="Python is not a bad choice for most applications."))

{'neg': 0.0, 'neu': 0.661, 'pos': 0.339, 'compound': 0.6249}


In [181]:
corpus = ["Absolutely perfect! Love it! :-) :-) :-)", "Horrible! Completely useless. :(", "It was OK. Some good and some bad things."]
for doc in corpus:
    scores = sa.polarity_scores(doc)
    print('{:+}: {}'.format(scores['compound'], doc))

+0.9428: Absolutely perfect! Love it! :-) :-) :-)
-0.8768: Horrible! Completely useless. :(
-0.1531: It was OK. Some good and some bad things.


Uma desvantagem do VADER é não analisar todas as palavras de um documento, apenas cerca de 7.500.
* Seria possível criar o próprio dicionário, no entanto, seria muito difícil sem entender todo o idioma (praticamente impossível)


### Nuvem de Palavras


In [182]:
!pip install wordcloud



In [183]:
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
from nltk.corpus import stopwords

from wordcloud import WordCloud, ImageColorGenerator
from PIL import Image
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

In [184]:
                      # font_path="D:\\PUC-CAMPINAS\\CURSO CPQD\AULAS\\AULA024 NLP\\remachine-script\\Droid Sans Mono Regular.ttf",
                      #font_path="D:\\PUC-CAMPINAS\\CURSO CPQD\\AULAS\\AULA024 NLP\\droid-sans-mono\\DroidSansMono.ttf",
                      #font_path="Droid Sans Mono Regular.ttf",
stop_words = nltk.corpus.stopwords.words('english')
print("STOP WORDS: ",stop_words)
wordcloud = WordCloud(stopwords = stop_words,
                      background_color = 'white', # cor de fundo
                      width = 1000, # largura
                      height = 500, # altura
                      contour_width = 2, # espessura do contorno
                      contour_color = 'lightblue') # cor do contorno
#kite_intro=[]
#kite_intro.append("como você está se sentido")
#kite_intro=stop_words
print(kite_intro)
wordcloud.generate(kite_intro)
#wordcloud.generate(kite_intro)
#wordcloud=WordCloud().generate(kite_intro)

plt.figure(figsize=(8,6), dpi=120)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

STOP WORDS:  ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 's

ValueError: Only supported for TrueType fonts