# Processamento de Linguagem Natural

## Instalação do pacote NLTK
http://www.nltk.org/index.html

http://www.nltk.org/book/

In [1]:
# Instalação do módulo NLTK
!pip install nltk



In [2]:
import nltk

In [4]:
# Instalando os arquivos de dados do NLTK
#nltk.download('all')

## Tokenization

Processo de dividir uma string em listas de pedaços ou "tokens". Um token é uma parte inteira. Por exemplos: uma palavra é um token em uma sentença. Uma sentença é um token em um parágrafo.

### Dividindo um parágrafo em frases

In [1]:
paragrafo = "O processamento de linguagem natural é um campo da ciência da computação, inteligência artificial e computação linguística, cujo foco está nos computadores e na linguagem natural humana."

In [2]:
from nltk.tokenize import sent_tokenize

In [3]:
?sent_tokenize

[1;31mSignature:[0m [0msent_tokenize[0m[1;33m([0m[0mtext[0m[1;33m,[0m [0mlanguage[0m[1;33m=[0m[1;34m'english'[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Return a sentence-tokenized copy of *text*,
using NLTK's recommended sentence tokenizer
(currently :class:`.PunktSentenceTokenizer`
for the specified language).

:param text: text to split into sentences
:param language: the model name in the Punkt corpus
[1;31mFile:[0m      c:\programdata\anaconda3\lib\site-packages\nltk\tokenize\__init__.py
[1;31mType:[0m      function


In [4]:
# Dividindo o parágrafo em frases
sent_tokenize(paragrafo)

['O processamento de linguagem natural é um campo da ciência da computação, inteligência artificial e computação linguística, cujo foco está nos computadores e na linguagem natural humana.']

In [5]:
import nltk.data

In [6]:
# Utilizando dados do pacote NLTK
tokenizer = nltk.data.load('tokenizers/punkt/portuguese.pickle')

In [7]:
tokenizer.tokenize(paragrafo)

['O processamento de linguagem natural é um campo da ciência da computação, inteligência artificial e computação linguística, cujo foco está nos computadores e na linguagem natural humana.']

In [8]:
# Dados em espanhol
spanish_tokenizer = nltk.data.load('tokenizers/punkt/spanish.pickle')

In [9]:
spanish_tokenizer.tokenize('Hola amigo. Estoy bien.')

['Hola amigo.', 'Estoy bien.']

### Dividindo uma frase em palavras

In [10]:
from nltk.tokenize import word_tokenize

In [11]:
word_tokenize('Processamento de linguagem natural')

['Processamento', 'de', 'linguagem', 'natural']

In [12]:
from nltk.tokenize import TreebankWordTokenizer

In [13]:
tokenizer = TreebankWordTokenizer()

In [14]:
tokenizer.tokenize('Inteligência Artificial')

['Inteligência', 'Artificial']

In [15]:
word_tokenize("can't")

['ca', "n't"]

In [16]:
from nltk.tokenize import WordPunctTokenizer

In [17]:
tokenizer = WordPunctTokenizer()

In [18]:
tokenizer.tokenize("Can't is a contraction.")

['Can', "'", 't', 'is', 'a', 'contraction', '.']

In [19]:
from nltk.tokenize import RegexpTokenizer

In [20]:
?RegexpTokenizer

[1;31mInit signature:[0m
[0mRegexpTokenizer[0m[1;33m([0m[1;33m
[0m    [0mpattern[0m[1;33m,[0m[1;33m
[0m    [0mgaps[0m[1;33m=[0m[1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mdiscard_empty[0m[1;33m=[0m[1;32mTrue[0m[1;33m,[0m[1;33m
[0m    [0mflags[0m[1;33m=[0m[0mre[0m[1;33m.[0m[0mUNICODE[0m[1;33m|[0m[0mre[0m[1;33m.[0m[0mMULTILINE[0m[1;33m|[0m[0mre[0m[1;33m.[0m[0mDOTALL[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
A tokenizer that splits a string using a regular expression, which
matches either the tokens or the separators between tokens.

    >>> tokenizer = RegexpTokenizer('\w+|\$[\d\.]+|\S+')

:type pattern: str
:param pattern: The pattern used to build this tokenizer.
    (This pattern must not contain capturing parentheses;
    Use non-capturing parentheses, e.g. (?:...), instead)
:type gaps: bool
:param gaps: True if this tokenizer's pattern should be used
    to find separators betw

In [21]:
tokenizer = RegexpTokenizer("[\w']+")

In [22]:
tokenizer.tokenize("Can't is a contraction.")

["Can't", 'is', 'a', 'contraction']

In [23]:
from nltk.tokenize import regexp_tokenize

In [24]:
?regexp_tokenize

[1;31mSignature:[0m
[0mregexp_tokenize[0m[1;33m([0m[1;33m
[0m    [0mtext[0m[1;33m,[0m[1;33m
[0m    [0mpattern[0m[1;33m,[0m[1;33m
[0m    [0mgaps[0m[1;33m=[0m[1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mdiscard_empty[0m[1;33m=[0m[1;32mTrue[0m[1;33m,[0m[1;33m
[0m    [0mflags[0m[1;33m=[0m[0mre[0m[1;33m.[0m[0mUNICODE[0m[1;33m|[0m[0mre[0m[1;33m.[0m[0mMULTILINE[0m[1;33m|[0m[0mre[0m[1;33m.[0m[0mDOTALL[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Return a tokenized copy of *text*.  See :class:`.RegexpTokenizer`
for descriptions of the arguments.
[1;31mFile:[0m      c:\programdata\anaconda3\lib\site-packages\nltk\tokenize\regexp.py
[1;31mType:[0m      function


In [25]:
regexp_tokenize("Can't is a contraction.", "[\w']+")

["Can't", 'is', 'a', 'contraction']

In [26]:
tokenizer = RegexpTokenizer('\s+', gaps = True)

In [27]:
tokenizer.tokenize("Can't is a contraction.")

["Can't", 'is', 'a', 'contraction.']

### Treinando um Tokenizer

In [28]:
from nltk.tokenize import PunktSentenceTokenizer
from nltk.corpus import webtext

In [29]:
# /Users/dmpm/nltk_data/corpora/webtext
texto = webtext.raw('overheard.txt')

In [30]:
?PunktSentenceTokenizer

[1;31mInit signature:[0m
[0mPunktSentenceTokenizer[0m[1;33m([0m[1;33m
[0m    [0mtrain_text[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mverbose[0m[1;33m=[0m[1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mlang_vars[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mtoken_cls[0m[1;33m=[0m[1;33m<[0m[1;32mclass[0m [1;34m'nltk.tokenize.punkt.PunktToken'[0m[1;33m>[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
A sentence tokenizer which uses an unsupervised algorithm to build
a model for abbreviation words, collocations, and words that start
sentences; and then uses that model to find sentence boundaries.
This approach has been shown to work well for many European
languages.
[1;31mInit docstring:[0m
train_text can either be the sole training text for this sentence
boundary detector, or can be a PunktParameters object.
[1;31mFile:[0m           c:\programdata\anaconda3\lib\site-packages\nltk\tok

In [31]:
sent_tokenizer = PunktSentenceTokenizer(texto)

In [32]:
sents1 = sent_tokenizer.tokenize(texto)

In [33]:
sents1[0]

'White guy: So, do you have any plans for this evening?'

In [34]:
from nltk.tokenize import sent_tokenize

In [35]:
sents2 = sent_tokenize(texto)

In [36]:
sents2[0]

'White guy: So, do you have any plans for this evening?'

In [37]:
sents1[678]

'Girl: But you already have a Big Mac...'

In [38]:
sents2[678]

'Girl: But you already have a Big Mac...\nHobo: Oh, this is all theatrical.'

In [39]:
with open('C:/Users/krupc/AppData/Roaming/nltk_data/corpora/webtext/overheard.txt', encoding = 'ISO-8859-2') as f:
    texto = f.read()

In [40]:
sent_tokenizer = PunktSentenceTokenizer(texto)

In [41]:
sents = sent_tokenizer.tokenize(texto)

In [42]:
sents[0]

'White guy: So, do you have any plans for this evening?'

In [43]:
sents[678]

'Girl: But you already have a Big Mac...'

## Stopwords

Stopwords são palavras comuns que normalmente não contribuem para o significado de uma frase, pelo menos com relação ao propósito da informação e do processamento da linguagem natural. São palavras como "The" e "a" ((em inglês) ou "O/A" e "Um/Uma" ((em português). Muitos mecanismos de busca filtram estas palavras (stopwords), como forma de economizar espaço em seus índices de pesquisa.

In [44]:
from nltk.corpus import stopwords

In [45]:
english_stops = set(stopwords.words('english'))

In [46]:
words = ["Can't", 'is', 'a', 'contraction']

In [47]:
[word for word in words if word not in english_stops]

["Can't", 'contraction']

In [48]:
portuguese_stops = set(stopwords.words('portuguese'))

In [49]:
palavras = ["Aquilo", 'é', 'uma', 'ferrari']

In [50]:
[palavra for palavra in palavras if palavra not in portuguese_stops]

['Aquilo', 'ferrari']

In [51]:
stopwords.fileids()

['arabic',
 'azerbaijani',
 'bengali',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'slovene',
 'spanish',
 'swedish',
 'tajik',
 'turkish']

In [52]:
stopwords.words('portuguese')

['de',
 'a',
 'o',
 'que',
 'e',
 'é',
 'do',
 'da',
 'em',
 'um',
 'para',
 'com',
 'não',
 'uma',
 'os',
 'no',
 'se',
 'na',
 'por',
 'mais',
 'as',
 'dos',
 'como',
 'mas',
 'ao',
 'ele',
 'das',
 'à',
 'seu',
 'sua',
 'ou',
 'quando',
 'muito',
 'nos',
 'já',
 'eu',
 'também',
 'só',
 'pelo',
 'pela',
 'até',
 'isso',
 'ela',
 'entre',
 'depois',
 'sem',
 'mesmo',
 'aos',
 'seus',
 'quem',
 'nas',
 'me',
 'esse',
 'eles',
 'você',
 'essa',
 'num',
 'nem',
 'suas',
 'meu',
 'às',
 'minha',
 'numa',
 'pelos',
 'elas',
 'qual',
 'nós',
 'lhe',
 'deles',
 'essas',
 'esses',
 'pelas',
 'este',
 'dele',
 'tu',
 'te',
 'vocês',
 'vos',
 'lhes',
 'meus',
 'minhas',
 'teu',
 'tua',
 'teus',
 'tuas',
 'nosso',
 'nossa',
 'nossos',
 'nossas',
 'dela',
 'delas',
 'esta',
 'estes',
 'estas',
 'aquele',
 'aquela',
 'aqueles',
 'aquelas',
 'isto',
 'aquilo',
 'estou',
 'está',
 'estamos',
 'estão',
 'estive',
 'esteve',
 'estivemos',
 'estiveram',
 'estava',
 'estávamos',
 'estavam',
 'estivera'

### Wordnet

WordNet é um banco de dados léxico (em Inglês). É uma espécie de dicionário criado especificamente para processamento de linguagem natural.

In [53]:
from nltk.corpus import wordnet

In [54]:
?wordnet

[1;31mType:[0m           WordNetCorpusReader
[1;31mString form:[0m    <WordNetCorpusReader in 'C:\\Users\\krupc\\AppData\\Roaming\\nltk_data\\corpora\\wordnet'>
[1;31mFile:[0m           c:\programdata\anaconda3\lib\site-packages\nltk\corpus\reader\wordnet.py
[1;31mDocstring:[0m      A corpus reader used to access wordnet or its variants.
[1;31mInit docstring:[0m
Construct a new wordnet corpus reader, with the given root
directory.


In [55]:
syn = wordnet.synsets('cookbook')[0]

In [56]:
syn.name()

'cookbook.n.01'

In [57]:
syn.definition()

'a book of recipes and cooking directions'

In [58]:
wordnet.synsets('cooking')[0].examples()

['cooking can be a great art',
 'people are needed who have experience in cookery',
 'he left the preparation of meals to his wife']

## Collocations

Collocations são duas ou mais palavras que tendem a aparecer frequentemente juntas, como "Estados Unidos" ou "Rio Grande do Sul". Essas palavras podem gerar diversas combinações e por isso o contexto também é importante no processamento de linguagem natural.

In [59]:
from nltk.corpus import webtext
from nltk.collocations import BigramCollocationFinder
from nltk.metrics import BigramAssocMeasures

In [60]:
words = [w.lower() for w in webtext.words('grail.txt')]

In [61]:
bcf = BigramCollocationFinder.from_words(words)

In [62]:
bcf.nbest(BigramAssocMeasures.likelihood_ratio, 4)

[("'", 's'), ('arthur', ':'), ('#', '1'), ("'", 't')]

In [63]:
from nltk.corpus import stopwords

In [64]:
stopset = set(stopwords.words('english'))

In [65]:
filter_stops = lambda w: len(w) < 3 or w in stopset

In [66]:
bcf.apply_word_filter(filter_stops)

In [67]:
bcf.nbest(BigramAssocMeasures.likelihood_ratio, 4)

[('black', 'knight'),
 ('clop', 'clop'),
 ('head', 'knight'),
 ('mumble', 'mumble')]

## Stemming Words

Stemming é a técnica de remover sufixos e prefixos de uma palavra, chamada stem. Por exemplo, o stem da palavra cooking é cook. Um bom algoritmo sabe que "ing" é um sufixo e pode ser removido. Stemming é muito usado em mecanismos de buscas para indexação de palavras. Ao invés de armazenar todas as formas de uma palavras, um mecamismo de busca armazena apenas o stem da palavra, reduzindo o tamanho do índice e aumentando a performance do processo de busca.

In [68]:
from nltk.stem import PorterStemmer

In [69]:
?PorterStemmer

[1;31mInit signature:[0m [0mPorterStemmer[0m[1;33m([0m[0mmode[0m[1;33m=[0m[1;34m'NLTK_EXTENSIONS'[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
A word stemmer based on the Porter stemming algorithm.

    Porter, M. "An algorithm for suffix stripping."
    Program 14.3 (1980): 130-137.

See http://www.tartarus.org/~martin/PorterStemmer/ for the homepage
of the algorithm.

Martin Porter has endorsed several modifications to the Porter
algorithm since writing his original paper, and those extensions are
included in the implementations on his website. Additionally, others
have proposed further improvements to the algorithm, including NLTK
contributors. There are thus three modes that can be selected by
passing the appropriate constant to the class constructor's `mode`
attribute:

    PorterStemmer.ORIGINAL_ALGORITHM
    - Implementation that is faithful to the original paper.

      Note that Martin Porter has deprecated this version of the
      algorithm

In [70]:
stemmer = PorterStemmer()

In [71]:
stemmer.stem('cooking')

'cook'

In [72]:
stemmer.stem('cookery')

'cookeri'

In [73]:
from nltk.stem import LancasterStemmer

In [74]:
stemmer = LancasterStemmer()

In [75]:
stemmer.stem('cooking')

'cook'

In [76]:
stemmer.stem('cookery')

'cookery'

In [77]:
from nltk.stem import RegexpStemmer

In [78]:
stemmer = RegexpStemmer('ing')

In [79]:
stemmer.stem('cooking')

'cook'

In [80]:
from nltk.stem import SnowballStemmer

In [81]:
SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [82]:
spanish_stemmer = SnowballStemmer('portuguese')

In [83]:
spanish_stemmer.stem('Televisões')

'televisõ'

### Corpus

Corpus é uma coleção de documentos de texto e Corpora é o plural de Corpus. Esse termo vem da palavra em Latim para corpo (nesse caso, o corpo de um texto). Um Corpus customizado é uma coleção de arquivos de texto organizados em um diretório.

Se você for treinar seu próprio modelo como parte de um processo de classificação de texto (como análise de texto), você terá que criar seu próprio Corpus e treiná-lo.

In [84]:
from nltk.corpus.reader import WordListCorpusReader

In [85]:
# Criando um Corpus (arquivo palavras.txt no mesmo diretório do Jupyter Notebook)
reader = WordListCorpusReader('.', ['palavras.txt'])

In [86]:
reader.words()

['Big Data', 'Data Science', 'Inteligência Artificial', 'Deep Learning']

In [87]:
reader.fileids()

['palavras.txt']

In [88]:
reader.raw()

'Big Data\nData Science\nInteligência Artificial\nDeep Learning'

In [89]:
from nltk.tokenize import line_tokenize

In [90]:
line_tokenize(reader.raw())

['Big Data', 'Data Science', 'Inteligência Artificial', 'Deep Learning']

In [91]:
from nltk.corpus import brown

In [92]:
brown.categories()

['adventure',
 'belles_lettres',
 'editorial',
 'fiction',
 'government',
 'hobbies',
 'humor',
 'learned',
 'lore',
 'mystery',
 'news',
 'religion',
 'reviews',
 'romance',
 'science_fiction']