#**Processamento de Linguagem Natural**

---


## DOCUMENTO / CORPUS


---

In [1]:
import pandas as pd

# Documento e Corpus
df = pd.DataFrame({
    'text': [
      'Sobre MBA? Eu gostei muito do MBA da FIAP',
      'O MBA da FIAP pode melhorar, não gostei muito'
    ],
    'class': [
        'positivo',
        'negativo'
    ]})

df.head()

Unnamed: 0,text,class
0,Sobre MBA? Eu gostei muito do MBA da FIAP,positivo
1,"O MBA da FIAP pode melhorar, não gostei muito",negativo


## TOKENIZAÇÃO

---

In [2]:
# aplica em uma string
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')

nome = 'Anderson Vieira Dourado'

print(word_tokenize(nome))
print(nome.split(' '))

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
['Anderson', 'Vieira', 'Dourado']
['Anderson', 'Vieira', 'Dourado']


In [3]:
# Aplica em uma lista
texto = ['Anderson Vieira Dourado','um dois, três']
type(texto)

# usando o split
print(texto[1].split())
[t.split() for t in texto]

['um', 'dois,', 'três']


[['Anderson', 'Vieira', 'Dourado'], ['um', 'dois,', 'três']]

In [4]:
#from nltk.tokenize import word_tokenize
#import nltk
#nltk.download('punkt')

[word_tokenize(t) for t in texto]

[['Anderson', 'Vieira', 'Dourado'], ['um', 'dois', ',', 'três']]

In [5]:
# Em um dataframe
#from nltk.tokenize import word_tokenize
#import nltk
#nltk.download('punkt')

print(df.text.apply(word_tokenize))

df['tokens'] = df.text.apply(word_tokenize)

0    [Sobre, MBA, ?, Eu, gostei, muito, do, MBA, da...
1    [O, MBA, da, FIAP, pode, melhorar, ,, não, gos...
Name: text, dtype: object


In [6]:
# Em uma sentança (representada pelo ponto final)
from nltk.tokenize import sent_tokenize, word_tokenize

s = 'Anderson Vieira.\nDourado'

print(sent_tokenize(s))
print([word_tokenize(t) for t in sent_tokenize(s)])

['Anderson Vieira.', 'Dourado']
[['Anderson', 'Vieira', '.'], ['Dourado']]


In [None]:
#from nltk.tokenize import wordpunct_tokenize (separa por qualquer pontuação, inclusive números R$3,50 = 'R','$','3',',','50')

## UNIGRAMA

---

In [7]:
df.text

0        Sobre MBA? Eu gostei muito do MBA da FIAP
1    O MBA da FIAP pode melhorar, não gostei muito
Name: text, dtype: object

In [8]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(ngram_range=(1,1))
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names()).to_string())

   da  do  eu  fiap  gostei  mba  melhorar  muito  não  pode  sobre
0   1   1   1     1       1    2         0      1    0     0      1
1   1   0   0     1       1    1         1      1    1     1      0


In [9]:
text_vect

<2x11 sparse matrix of type '<class 'numpy.int64'>'
	with 16 stored elements in Compressed Sparse Row format>

## BIGRAMA

---

In [10]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(ngram_range=(2,2))
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names()).to_string())

   da fiap  do mba  eu gostei  fiap pode  gostei muito  mba da  mba eu  melhorar não  muito do  não gostei  pode melhorar  sobre mba
0        1       1          1          0             1       1       1             0         1           0              0          1
1        1       0          0          1             1       1       0             1         0           1              1          0


## TRIGRAMA

---

In [11]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(ngram_range=(3,3))
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names()).T.to_string())

                     0  1
da fiap pode         0  1
do mba da            1  0
eu gostei muito      1  0
fiap pode melhorar   0  1
gostei muito do      1  0
mba da fiap          1  1
mba eu gostei        1  0
melhorar não gostei  0  1
muito do mba         1  0
não gostei muito     0  1
pode melhorar não    0  1
sobre mba eu         1  0


## REGEX

---

In [12]:
email = "dourado@gmail.com"

In [13]:
# função split do Python
email.split("@")[1].split(".")[0]

#"dourado@gmail.com".split("@")[1].split('.')[0]

'gmail'

In [14]:
"dourado @ gmail . com".split("@")[1].split(".")[0]

' gmail '

In [15]:
# importa pacote de regular expression
import re

regex = r"(?<=@)[^.]+(?=\.)"
re.findall(regex, email)

['gmail']

In [16]:
# mede o tempo de execução de um trecho de código
import timeit

timeit.Timer(
 're.findall(regex, "dourado@gmail.com")',
 'import re; regex = r"(?<=@)[^.]+(?=\.)"'
).repeat(2)

[1.251617834000001, 1.2387737389999955]

In [17]:
import timeit

timeit.Timer(
 '"dourado@gmail.com".split("@")[1].split(".")[0]'
).repeat(2)

[0.3680243539999992, 0.3791753710000023]

In [18]:
import antigravity

#Abrir o site: https://xkcd.com/353/

In [19]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


    Bonito é melhor que feio.
    Explícito é melhor que implícito.
    Simples é melhor que Complexo.
    Complexo é melhor que complicado.
    Achatado é melhor que aninhado.
    Disperso é melhor que compacto.
    Legibilidade conta.
    Casos especiais não são especiais o suficiente para quebrar as regras.
    Apesar de praticidade vencer a pureza.
    Erros nunca devem passar despercebidos.
    A menos que passem explicitamente "despercebidos".
    Diante de ambiguidades, recuse a tentação de deduzir.
    Deve haver uma --e preferencialmente só uma-- maneira fácil de fazer isto.
    Apesar de que a maneira não pode ser óbvia de primeira, a não ser que você seja "asiático".
    Agora é melhor do que nunca.
    Porém, muitas vezes nunca é melhor do que *agora*.
    Se a implementação é difícil de explicar, é uma péssima ideia.
    Se a implementação é fácil de explicar, pode ser uma boa ideia.
    Namespaces são uma grande ideia gritante -- vamos fazer mais dessas!

Caracteres ou metacaracteres

    meta - O que faz?
    ---------------------
    . - Qualquer caractere
    [] - Lista de caracteres
    [^] - Lista negada
    ? - Anterior pode existir ou não
    .* - Qualquer coisa
    {x} - Anterior aparece x vezes
    $ - Fim da linha
    + - Anterior ao menos ums vez
    (xy) - Cria grupos
    ^ - Começo da linha
    \ - escapa o meta (ignora)
    | - ou
    


In [37]:
import re
#email
re.findall(r'.',email)
re.findall(r'[a-z]',email)
re.findall(r'[0-9]',email)
re.findall(r'.*',email)
re.findall(r'$',email)

re.findall(r'[a-z]+',email)

re.findall(r'^.',email)
re.findall(r'^d',email)

['d']

## STOPWORDS

In [38]:
import nltk
nltk.download('stopwords')

stops = nltk.corpus.stopwords.words('english')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [39]:
# remove uma stopword da lista
stops.pop(3)

'myself'

In [40]:
# lista as 10 primeiras stopwords
stops[:10]

['i', 'me', 'my', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've"]

In [41]:
# podemos criar nossa propria lista
stops = stops + ["anderson", "fiap"]

In [42]:
# lista todas as stopwords
stops

['i',
 'me',
 'my',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each',
 'few',


In [43]:
len(stops)

180

In [44]:
# Aplicando a utilização das stopwords
from sklearn.feature_extraction.text import CountVectorizer

stops = nltk.corpus.stopwords.words('portuguese') + ["fiap"]

vect = CountVectorizer(ngram_range=(1,1), stop_words=stops)
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names()).T.to_string())

          0  1
gostei    1  1
mba       2  1
melhorar  0  1
pode      0  1
sobre     1  0


In [45]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [46]:
print(nltk.corpus.stopwords.words('portuguese')[:10])

['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um']


In [47]:
len(stops)

205

## PART-OF-SPEECH TAGGER (POS-Tag)

In [48]:
# Tokenizxação
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('universal_tagset')

doc = word_tokenize("John's big idea isn't all that bad.")
doc_tag = pos_tag(doc)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package universal_tagset to /root/nltk_data...
[nltk_data]   Unzipping taggers/universal_tagset.zip.


In [49]:
pos_tag(word_tokenize("John's big idea isn't all that bad."),tagset='universal')

[('John', 'NOUN'),
 ("'s", 'PRT'),
 ('big', 'ADJ'),
 ('idea', 'NOUN'),
 ('is', 'VERB'),
 ("n't", 'ADV'),
 ('all', 'DET'),
 ('that', 'DET'),
 ('bad', 'ADJ'),
 ('.', '.')]

De/Para do POS Tag com o tagset='universal':

- NOUN (nouns / substantivos)
- VERB (verbs / verbos)
- ADJ (adjectives / adjetivos)
- ADV (adverbs / advérbios)
- PRON (pronouns / pronomes)
- DET (determiners and articles / determinantes e artigos)
- ADP (adpositions - prepositions and postpositions / adições - preposições e postposições)
- NUM (numerals / numerais)
- CONJ (conjunctions / conjunções)
- PRT (particles / partículas)
- . (punctuation marks / sinais de pontuação)
- X (a catch-all for other categories such as abbreviations or foreign words / um exemplo geral para outras categorias, como abreviações ou palavras estrangeiras)

In [50]:
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('universal_tagset')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package universal_tagset to /root/nltk_data...
[nltk_data]   Package universal_tagset is already up-to-date!


True

In [51]:
# Tokenizxação
from nltk.tokenize import word_tokenize

#df['tokens'] = df.text.apply(word_tokenize)
df[["tokens","text"]]

Unnamed: 0,tokens,text
0,"[Sobre, MBA, ?, Eu, gostei, muito, do, MBA, da...",Sobre MBA? Eu gostei muito do MBA da FIAP
1,"[O, MBA, da, FIAP, pode, melhorar, ,, não, gos...","O MBA da FIAP pode melhorar, não gostei muito"


In [52]:
# Rotular parte do discurso
from nltk.tag import pos_tag

df['tags'] = df.tokens.apply(pos_tag, tagset='universal')
df.tags[1]

[('O', 'NOUN'),
 ('MBA', 'NOUN'),
 ('da', 'NOUN'),
 ('FIAP', 'NOUN'),
 ('pode', 'NOUN'),
 ('melhorar', 'NOUN'),
 (',', '.'),
 ('não', 'ADJ'),
 ('gostei', 'NOUN'),
 ('muito', 'NOUN')]