# Introdução a Técnicas de Processamento de Texto

In [1]:
import pandas as pd

df = pd.DataFrame({
    'text': [
        'Eu gosto de assistir jogos de futebol',
        'Já eu, prefiro assistir jogos de basquete'
    ]})

In [2]:
df.head()

Unnamed: 0,text
0,Eu gosto de assistir jogos de futebol
1,"Já eu, prefiro assistir jogos de basquete"


In [3]:
# tonekização dos dados
from sklearn.feature_extraction.text import CountVectorizer

In [4]:
vect = CountVectorizer(ngram_range=(1,1))
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out()).T.to_string())

          0  1
assistir  1  1
basquete  0  1
de        2  1
eu        1  1
futebol   1  0
gosto     1  0
jogos     1  1
já        0  1
prefiro   0  1


In [5]:
# podemos criar bigramas e trigramas apenas alterando os valores do parâmetro ngram_range
vect = CountVectorizer(ngram_range=(2,2))
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out()).T.to_string())

                  0  1
assistir jogos    1  1
de assistir       1  0
de basquete       0  1
de futebol        1  0
eu gosto          1  0
eu prefiro        0  1
gosto de          1  0
jogos de          1  1
já eu             0  1
prefiro assistir  0  1


In [6]:
vect = CountVectorizer(ngram_range=(3,3))
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out()).T.to_string())

                        0  1
assistir jogos de       1  1
de assistir jogos       1  0
eu gosto de             1  0
eu prefiro assistir     0  1
gosto de assistir       1  0
jogos de basquete       0  1
jogos de futebol        1  0
já eu prefiro           0  1
prefiro assistir jogos  0  1


In [7]:
import ssl
ssl._create_default_https_context = ssl._create_stdlib_context

In [8]:
import nltk
#nltk.download('punkt')

In [9]:
from nltk.tokenize import word_tokenize
exemplo = 'O futebol brasileiro é o melhor do mundo. Você concorda?'
words = word_tokenize(exemplo)
words

['O',
 'futebol',
 'brasileiro',
 'é',
 'o',
 'melhor',
 'do',
 'mundo',
 '.',
 'Você',
 'concorda',
 '?']

In [10]:
#regex
import re
rex = re.compile('\w+') 
bandas = 'Queen, Aerosmith & Beatles'
print (bandas, '->', rex.findall(bandas))
phone = "2004-959-559 # This is Phone Number"
num = re.sub('#.*$', "", phone) 
print ("Phone Num : ", num)
num = re.sub(r'\D', "", phone)
print ("Phone Num : ", num)

Queen, Aerosmith & Beatles -> ['Queen', 'Aerosmith', 'Beatles']
Phone Num :  2004-959-559 
Phone Num :  2004959559


In [11]:
#stopwords
import nltk
#nltk.download('stopwords')
nltk.corpus.stopwords.words('portuguese')

['a',
 'à',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'às',
 'até',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 'é',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'éramos',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'está',
 'estamos',
 'estão',
 'estar',
 'estas',
 'estava',
 'estavam',
 'estávamos',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estivéramos',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéssemos',
 'estou',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'fôramos',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fôssemos',
 'fui',
 'há',
 'haja',
 'hajam',
 'hajamos',
 'hão',
 'havemos',
 'haver',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houverá',
 'houveram',
 'houvéramos',
 'houverão',
 'houverei',
 'houverem',
 'hou

In [12]:
ex1 = 'O carro que estava quebrado voltou a funcionar'
ex2 = 'Meu carro quebrou e não está funcionando'

print(word_tokenize(ex1))
print(word_tokenize(ex2))

['O', 'carro', 'que', 'estava', 'quebrado', 'voltou', 'a', 'funcionar']
['Meu', 'carro', 'quebrou', 'e', 'não', 'está', 'funcionando']


In [13]:
df = pd.DataFrame({'text':[ex1,ex2]})

vect = CountVectorizer(ngram_range=(1,1))
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out()).T.to_string())

             0  1
carro        1  1
estava       1  0
está         0  1
funcionando  0  1
funcionar    1  0
meu          0  1
não          0  1
que          1  0
quebrado     1  0
quebrou      0  1
voltou       1  0


In [14]:
# redução de dimensionalidade de dados
stops = nltk.corpus.stopwords.words('portuguese')

vect = CountVectorizer(ngram_range=(1,1), stop_words=stops)
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out()).T.to_string())

             0  1
carro        1  1
funcionando  0  1
funcionar    1  0
quebrado     1  0
quebrou      0  1
voltou       1  0


In [15]:
# stemming & lemmatization
#nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer

In [16]:
examples = ['go', 'going', 'goes', 'gone', 'went']

wnl = WordNetLemmatizer() 
for word in examples:
    print(wnl.lemmatize(word, 'v'))

go
go
go
go
go


In [17]:
from nltk.stem import PorterStemmer

examples = ['connection', 'connections', 'connective', 'connecting', 'connected']

ps = PorterStemmer()
for word in examples:
    print(ps.stem(word))

connect
connect
connect
connect
connect


In [18]:
# porém em português os resultados não são bons 

examples = ['conecta', 'conectado', 'conectamos', 'desconectados', 'conectividade']

for word in examples:
    print(ps.stem(word))

conecta
conectado
conectamo
desconectado
conectividad


In [19]:
# a alternativa é usar o RSLPStemmer, que produz melhores resultados
# nltk.download('rslp')
from nltk.stem.rslp import RSLPStemmer

rslp = RSLPStemmer()

In [20]:
for word in examples: 
    print(rslp.stem(word))

conect
conect
conect
desconect
conect


In [21]:
print(ex1)
print(ex2)

O carro que estava quebrado voltou a funcionar
Meu carro quebrou e não está funcionando


In [22]:
stem1 = " ".join([rslp.stem(x) for x in word_tokenize(ex1)])
stem2 = " ".join([rslp.stem(x) for x in word_tokenize(ex2)])

In [26]:
print(stem1)
print(stem2)

o carr que est quebr volt a funcion
meu carr quebr e não est funcion


In [27]:
df = pd.DataFrame({'text':[stem1,stem2]})
stops = nltk.corpus.stopwords.words('portuguese')

vect = CountVectorizer(ngram_range=(1,1), stop_words=stops)
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out()).T.to_string())

         0  1
carr     1  1
est      1  1
funcion  1  1
quebr    1  1
volt     1  0


# POS-Tagger

In [34]:
# separando as palavras pelas classes gramaticais 

In [28]:
text1 = nltk.word_tokenize("They refuse to permit us to obtain the refuse permit")
nltk.pos_tag(text1)

[('They', 'PRP'),
 ('refuse', 'VBP'),
 ('to', 'TO'),
 ('permit', 'VB'),
 ('us', 'PRP'),
 ('to', 'TO'),
 ('obtain', 'VB'),
 ('the', 'DT'),
 ('refuse', 'NN'),
 ('permit', 'NN')]

In [32]:
nltk.download('brown')
text = nltk.Text(word.lower() for word in nltk.corpus.brown.words())

[nltk_data] Downloading package brown to /Users/giuliana/nltk_data...
[nltk_data]   Package brown is already up-to-date!


In [33]:
text.similar('woman')

man time day year car moment world house family child country boy
state job place way war girl work word


In [31]:
text.similar('bought')

made said done put had seen found given left heard was been brought
set got that took in told felt


In [35]:
# corpus floresta
nltk.download('floresta')
from nltk.corpus import floresta

[nltk_data] Downloading package floresta to
[nltk_data]     /Users/giuliana/nltk_data...
[nltk_data]   Unzipping corpora/floresta.zip.


In [36]:
floresta.tagged_words()

[('Um', '>N+art'), ('revivalismo', 'H+n'), ...]

In [37]:
def simplify_tag(t):
  if "+" in t:
    return t.split("+")[1]
  return t 

twords = nltk.corpus.floresta.tagged_words()
twords = [(w.lower(),simplify_tag(t)) for (w,t) in twords]
twords[:10]

[('um', 'art'),
 ('revivalismo', 'n'),
 ('refrescante', 'adj'),
 ('o', 'art'),
 ('7_e_meio', 'prop'),
 ('é', 'v-fin'),
 ('um', 'art'),
 ('ex-libris', 'n'),
 ('de', 'prp'),
 ('a', 'art')]

In [38]:
# default tagger
tags = [tag for (word, tag) in twords]
nltk.FreqDist(tags).max()

'n'

In [39]:
raw = 'Esse é um exemplo utilizando o marcador padrão'
tokens = nltk.word_tokenize(raw)
default_tagger = nltk.DefaultTagger('n')
default_tagger.tag(tokens)

[('Esse', 'n'),
 ('é', 'n'),
 ('um', 'n'),
 ('exemplo', 'n'),
 ('utilizando', 'n'),
 ('o', 'n'),
 ('marcador', 'n'),
 ('padrão', 'n')]

In [40]:
tsents = floresta.tagged_sents()
tsents = [[(w.lower(), simplify_tag(t)) for (w,t) in sent] for sent in tsents if sent]
train = tsents[1000:]
test = tsents[:1000]
tsents[1:3]

[[('o', 'art'),
  ('7_e_meio', 'prop'),
  ('é', 'v-fin'),
  ('um', 'art'),
  ('ex-libris', 'n'),
  ('de', 'prp'),
  ('a', 'art'),
  ('noite', 'n'),
  ('algarvia', 'adj'),
  ('.', '.')],
 [('é', 'v-fin'),
  ('uma', 'num'),
  ('de', 'prp'),
  ('as', 'art'),
  ('mais', 'adv'),
  ('antigas', 'adj'),
  ('discotecas', 'n'),
  ('de', 'prp'),
  ('o', 'art'),
  ('algarve', 'prop'),
  (',', ','),
  ('situada', 'v-pcp'),
  ('em', 'prp'),
  ('albufeira', 'prop'),
  (',', ','),
  ('que', 'pron-indp'),
  ('continua', 'v-fin'),
  ('a', 'prp'),
  ('manter', 'v-inf'),
  ('os', 'art'),
  ('traços', 'n'),
  ('decorativos', 'adj'),
  ('e', 'conj-c'),
  ('as', 'art'),
  ('clientelas', 'n'),
  ('de', 'prp'),
  ('sempre', 'adv'),
  ('.', '.')]]

In [41]:
tagger0 = nltk.DefaultTagger('n')
print(tagger0.accuracy(test))

0.17800040072129833


In [42]:
# unigram tagger 
tagger1 = nltk.UnigramTagger(train)
print(tagger1.accuracy(test))

0.8522139851733119


In [43]:
# bigram tagger
tagger2 = nltk.BigramTagger(train)
print(tagger2.accuracy(test))

0.14626327389300742


In [45]:
# combinando o resultado dos taggers usando o backoff
tagger1 = nltk.UnigramTagger(train, backoff=tagger0)
print('tagger1: ', tagger1.accuracy(test))
tagger2 = nltk.BigramTagger(train, backoff=tagger1)
print('tagger2: ', tagger2.accuracy(test))

tagger1:  0.8740532959326788
tagger2:  0.8900420757363254


In [46]:
# salvando tagger
from pickle import dump
output = open('tagger.pkl', 'wb')
dump(tagger2, output, -1)
output.close()

In [47]:
# importando tagger
from pickle import load
input = open('tagger.pkl', 'rb')
tagger = load(input)
input.close()

In [48]:
text1 = "Isso é para você."
text2 = "para com isso"
tokens1 = text1.split()
tokens2 = text2.split()
print('text1: ',tagger.tag(tokens1))
print('text2: ',tagger.tag(tokens2))

text1:  [('Isso', 'n'), ('é', 'v-fin'), ('para', 'prp'), ('você.', 'n')]
text2:  [('para', 'prp'), ('com', 'prp'), ('isso', 'pron-indp')]
