# Processamento de Linguagem Natural (PLN) - Básico 

SERPRO - SUPSS - DIVISÃO DE DESENVOLVIMENTO E SUSTENTAÇÃO DE PRODUTOS COGNITIVOS

## Parte 1 - Introdução e Pré-processamento

Esta é a primeira parte do curso básico sobre PLN. O curso está divido em 3 partes:
 - Introdução e pré-processamento
 - Modelagem Estatística dos Dados
 - Estratégias de Processamento utilizando Aprendizagem Profunda
 
Este jupyter notebook trás a parte introdutória sobre PLN. Serão abordados conceitos básicos e tarefas de baixo nível para pré processamento dos dados (textos). Essas tarefas são necessárias para a construção de um bom modelo de processamento de linguagem natural. Segue o conteúdo:
 
 - Introdução
    - Conceito de Corpus
    - Bibliotecas Python para PLN
 - Pré-processamento
    - Tokenização
    - Remoção de Stopwords
    - Part-Of-Speech Tagging (POS Tagging)
    - Stemming
    - Lemmatization

## Introdução

Processamento de linguagem natural (PLN) é uma subárea da inteligência artificial e da linguística que estuda os problemas da geração e compreensão automática de línguas humanas naturais.

Atualmente, PLN é baseada em Machine Learning, que examina e utiliza padrões em dados para melhor compreender a linguagem natural. PLN é a aplicação de computadores em diferentes variações da linguagem para construir aplicações capazes de processar a linguagem natural humana e extrair informações relevantes como análise de sentimentos.

PLN é uma das principais técnicas para sistemas inteligentes interagir com seres humanos, por exemplo, assistentes pessoais. Você utiliza PLN em aplicações como:
 - Corretores Ortográficos (Microsoft Word)
 - Engines de Reconhecimento de Voz (Siri, Google Voice)
 - Classificadores de Spam
 - Mecanismos de Busca (Google, Bing)
 - Sistemas de Inteligência Artificial como Assistentes Pessoais
 - Classificadores de documentos


### Bibliotecas Python para PLN

Existem várias bibliotecas para PLN, por exemplo UIMA, OpenNLP, Genism , NLTK etc. 
Nessa primeira parte iremos trabalhar com a NLTK (Natural Language Toolkit), uma das ferramentas mais completas para se trabalhar com PLN em Python. Com a [NLTK](#section_nltk) conseguimos: 
 - Separar as sentenças em um parágrafo
 - Separar as palavras dentro de cada sentença
 - Reconhecer padrões no texto e criar modelos de classificação

Então, vamos instalar a biblioteca:

In [1]:
#Instalar a biblioteca NLTK
!pip install nltk

Collecting nltk
Collecting singledispatch (from nltk)
  Using cached https://files.pythonhosted.org/packages/c5/10/369f50bcd4621b263927b0a1519987a04383d4a98fb10438042ad410cf88/singledispatch-3.4.0.3-py2.py3-none-any.whl
Installing collected packages: singledispatch, nltk
Successfully installed nltk-3.4 singledispatch-3.4.0.3


Além disso, a NLTK vem com conjunto de dados: textos, gramáticas, modelos treinados, etc. A lista completa está publicada em   http://www.nltk.org/nltk_data/. 

A seguir iremos baixar todos esses dados, pois vamos usá-los em breve. 

In [3]:
import nltk

# Instalando os arquivos de dados do NLTK
nltk.download('all')

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     /home/03662232677/nltk_data...
[nltk_data]    |   Package abc is already up-to-date!
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     /home/03662232677/nltk_data...
[nltk_data]    |   Package alpino is already up-to-date!
[nltk_data]    | Downloading package biocreative_ppi to
[nltk_data]    |     /home/03662232677/nltk_data...
[nltk_data]    |   Package biocreative_ppi is already up-to-date!
[nltk_data]    | Downloading package brown to
[nltk_data]    |     /home/03662232677/nltk_data...
[nltk_data]    |   Package brown is already up-to-date!
[nltk_data]    | Downloading package brown_tei to
[nltk_data]    |     /home/03662232677/nltk_data...
[nltk_data]    |   Package brown_tei is already up-to-date!
[nltk_data]    | Downloading package cess_cat to
[nltk_data]    |     /home/03662232677/nltk_data...
[nltk_data]    |   Package cess_cat is alrea

True

### Conceito de Corpus


Corpus é uma coleção de documentos de texto e Corpora é o plural de Corpus. Esse termo vem da palavra em Latim para corpo (nesse caso, o corpo de um texto). Um Corpus customizado é uma coleção de arquivos de texto organizados em um diretório.

Se você for treinar seu próprio modelo como parte de um processo de classificação de texto (como análise de texto), você terá que criar seu próprio Corpus e treiná-lo.

In [4]:
from nltk.corpus.reader import WordListCorpusReader

In [7]:
# Criando um Corpus (arquivo palavras.txt no mesmo diretório do Jupyter Notebook)
reader = WordListCorpusReader('.', ['data/palavras.txt'])

#Ler as palavras do Corpus
reader.words()

['Big Data',
 'Data Science',
 'Inteligência Artificial',
 'Deep Learning',
 'Processamento de Linguagem Natural']

In [8]:
#ler ids dos arquivos do Corpus
reader.fileids()

['data/palavras.txt']

In [9]:
#ler o texto de forma bruta
reader.raw()

'Big Data\nData Science\nInteligência Artificial\nDeep Learning\nProcessamento de Linguagem Natural\n'

In [10]:
from nltk.tokenize import line_tokenize
#Separa o arquivo em linhas
line_tokenize(reader.raw())

['Big Data',
 'Data Science',
 'Inteligência Artificial',
 'Deep Learning',
 'Processamento de Linguagem Natural']

In [11]:
from nltk.corpus import brown

#Categorias do Corpus brown. Ver https://www.nltk.org/book/ch02.html
brown.categories()

['adventure',
 'belles_lettres',
 'editorial',
 'fiction',
 'government',
 'hobbies',
 'humor',
 'learned',
 'lore',
 'mystery',
 'news',
 'religion',
 'reviews',
 'romance',
 'science_fiction']

In [19]:
palavras = brown.words(categories='news')
for palavra in palavras[:2000]:
    print(palavra)

The
Fulton
County
Grand
Jury
said
Friday
an
investigation
of
Atlanta's
recent
primary
election
produced
``
no
evidence
''
that
any
irregularities
took
place
.
The
jury
further
said
in
term-end
presentments
that
the
City
Executive
Committee
,
which
had
over-all
charge
of
the
election
,
``
deserves
the
praise
and
thanks
of
the
City
of
Atlanta
''
for
the
manner
in
which
the
election
was
conducted
.
The
September-October
term
jury
had
been
charged
by
Fulton
Superior
Court
Judge
Durwood
Pye
to
investigate
reports
of
possible
``
irregularities
''
in
the
hard-fought
primary
which
was
won
by
Mayor-nominate
Ivan
Allen
Jr.
.
``
Only
a
relative
handful
of
such
reports
was
received
''
,
the
jury
said
,
``
considering
the
widespread
interest
in
the
election
,
the
number
of
voters
and
the
size
of
this
city
''
.
The
jury
said
it
did
find
that
many
of
Georgia's
registration
and
election
laws
``
are
outmoded
or
inadequate
and
often
ambiguous
''
.
It
recommended
that
Fulton
legislators
act
``
to
have
th

### Pré-processamento

O Processamento de Linguagem Natural possuem tarefas básicas que tem por objetivos pegar o dataset/corpus aplicar algum tipo de análise e realizar transformações. Por exemplo, limpeza, normalização, tokenização, stemming, Lemmatization etc. Essas tarefas são necessárias para preparar os dados e gerar um modelo com a melhor acurácia possível. 

A seguir vamos mostrar as seguintes tarefas: tokenização, remoção de stopwords, Part-Of-Speech Tagging (POS Tagging) e Stemming Lemmatization.

#### Tokenização (_tokenization_)

Processo de dividir uma string em listas de pedaços ou _tokens_. Um _token_ é uma parte inteira. Por exemplos: uma palavra é um token em uma sentença. Uma sentença é um token em um parágrafo.

##### Dividindo um parágrafo em frases

In [41]:
paragrafo = "Você está começando o treinamento sobre PLN - Processamento de Texto em Linguagem Natural. Seja bem vindo! Obrigado por participar."

In [42]:
from nltk.tokenize import sent_tokenize

In [66]:
# Dividindo o parágrafo em frases
sentencas = sent_tokenize(paragrafo)
for sentenca in sentencas:
    print(sentenca)

Você está começando o treinamento sobre PLN - Processamento de Texto em Linguagem Natural.
Seja bem vindo!
Obrigado por participar.


In [44]:
import nltk.data

In [45]:
# Utilizando dados do pacote NLTK podemos selecionar um dicionário específico para cada linguagem
tokenizer = nltk.data.load('tokenizers/punkt/PY3/portuguese.pickle')
tokenizer.tokenize(paragrafo)

['Você está começando o treinamento sobre PLN - Processamento de Texto em Linguagem Natural.',
 'Seja bem vindo!',
 'Obrigado por participar.']

In [1]:
# Dados em espanhol
spanish_tokenizer = nltk.data.load('tokenizers/punkt/PY3/spanish.pickle')
spanish_tokenizer.tokenize('Hola amigo. Estoy bien.')

NameError: name 'nltk' is not defined

###### Dividindo uma frase em palavras

Após dividir o texto em sentenças, agora vamos dividí-las em palavras. Separar as sentenças em palavras é o principal objetivo para a partir daí aplicar técnicas de PLN. Existem diversas funções prontas na NLTK que podem ser utilizadas de acordo com a necessidade. A seguir mostraremos algumas. 

In [80]:
#Funções para separar uma frase em uma lista de palavras
from nltk.tokenize import word_tokenize
text = 'Curso Básico de Processamento d\'água de Linguagem Natural? Voltamos agora.\nCurso no Serpro.\r\nteste'
word_tokenize(text, language='portuguese', preserve_line=True)

['Curso',
 'Básico',
 'de',
 'Processamento',
 "d'água",
 'de',
 'Linguagem',
 'Natural',
 '?',
 'Voltamos',
 'agora.',
 'Curso',
 'no',
 'Serpro.',
 'teste']

In [75]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
tokenizer.tokenize('Processamento de Linguagem Natural. Curso de PLN no Serpro!')

['Processamento',
 'de',
 'Linguagem',
 'Natural.',
 'Curso',
 'de',
 'PLN',
 'no',
 'Serpro',
 '!']

In [52]:
word_tokenize("can't")

['ca', "n't"]

In [53]:
tokenizer.tokenize("can't")

['ca', "n't"]

In [57]:
# Tokenização por pontuação
from nltk.tokenize import WordPunctTokenizer
tokenizer = WordPunctTokenizer()
tokenizer.tokenize("Can't is a contraction. d'água")

['Can', "'", 't', 'is', 'a', 'contraction', '.', 'd', "'", 'água']

In [58]:
# Tokenização por expressões regulares
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w']+")
tokenizer.tokenize("Can't is a contraction. d'água")

["Can't", 'is', 'a', 'contraction', "d'água"]

In [56]:
from nltk.tokenize import regexp_tokenize
regexp_tokenize("Can't is a contraction.", "[\w']+")

["Can't", 'is', 'a', 'contraction']

In [22]:
tokenizer = RegexpTokenizer('\s+', gaps = True)
tokenizer.tokenize("Can't is a contraction.")

["Can't", 'is', 'a', 'contraction.']

##### Treinando um Tokenizer

Além disso, podemos realizar um treinamento do Tokenizer passando para ele um conjunto de dados com um padrão específico e depois que estiver treinado apresentar um novo conjunto de dados.

In [83]:
from nltk.tokenize import PunktSentenceTokenizer
from nltk.corpus import webtext

In [98]:
#Iremos usar a PunktSentenceTokenizer para treinar um modelo
#O PunktSentenceTokenizer utiliza um algoritmo não supervisionado para identificar padrões no texto
#Help para o PunktSentenceTokenizer
?PunktSentenceTokenizer

In [96]:
#Carregando um Corpus que vem no pacote de dados NLTK.
texto = webtext.raw('overheard.txt')
#Passando o texto para o PunktSentenceTokenizer. O algoritmo será treinado com base nos padrões do texto. 
sent_tokenizer = PunktSentenceTokenizer(texto)

In [93]:
sents1 = sent_tokenizer.tokenize(texto)
sents1

['White guy: So, do you have any plans for this evening?',
 'Asian girl: Yeah, being angry!',
 'White guy: Oh, that sounds good.',
 'Guy #1: So this Jack guy is basically the luckiest man in the world.',
 "Guy #2: Why, because he's survived like 5 attempts on his life and it's not even noon?",
 'Guy #1: No; he could totally nail those two chicks.',
 'Dad: Could you tell me where the auditorium is?',
 "Security guy: It's on the second floor.",
 "Dad: Wait, you mean it's actually in the building?",
 "Girl: But, I mean, it's not like I ever plan on giving birth.",
 "Guy: Well, if your mother gave birth, it's like your chances are good that you'll give birth too.",
 'Girl: ...Uh, dude, mother gave birth.',
 'Guy: Absolutely.',
 "Guy #1: I don't mind getting old; I love getting old.",
 "Guy #2: Yeah, just as long as you don't get pregnant.",
 'Hobo: Can you spare any change?',
 'Man: Sorry, no.',
 'Hobo: Who the hell you saying no to?',
 "I wasn't asking you anyway, asshole!",
 'Hobo: Excus

In [99]:
#Função padrão do NLTK
from nltk.tokenize import sent_tokenize
sents2 = sent_tokenize(texto)

# Neste caso não houve diferença entre as funções
sents2[0] 

'White guy: So, do you have any plans for this evening?'

In [101]:
#Sentença 678 do texto usando o PunktSentenceTokenizer
sents1[678]

'Girl: But you already have a Big Mac...'

In [102]:
#Sentença 678 do texto usando o sent_tokenize
#Aqui houve uma pequena diferença, onde tokenizer treinado apresentou um resultado mais preciso
sents2[678] 

'Girl: But you already have a Big Mac...\nHobo: Oh, this is all theatrical.'

Tokenização geralmente é uma das primeiras etapas da limpeza do texto. Isso ajuda na próxima etapa do processo de limpeza que é a remoção das “stop words (palavras que não afetam o significado do texto)”

#### Remoção de Stopwords

Stopwords são palavras comuns que normalmente não contribuem para o significado de uma frase, pelo menos com relação ao propósito da informação e do processamento da linguagem natural. São palavras como "The" e "a" ((em inglês) ou "O/A" e "Um/Uma" (em português). Muitos mecanismos de busca filtram essas palavras (stopwords), como forma de economizar espaço em seus  índices de pesquisa.

In [1]:
# Imports
from nltk.corpus import stopwords

In [3]:
# Stop words em inglês
english_stops = set(stopwords.words('english'))

print(english_stops)

# Lista de palavras
words = ["Can't", 'is', 'a', 'contraction']

# List comprehension para aplicar as english_stop words a lista de palavras
words_without_stop_words = [word for word in words if word not in english_stops]
print(words_without_stop_words)

{'me', 'from', 'just', 're', 'it', 'these', 'once', 'is', 'she', 'other', 'couldn', 'or', 'this', 'in', "hasn't", 'then', 'above', 'themselves', 'i', "should've", 'ain', 'against', 'an', 'you', 'yourself', 'my', 'only', "wasn't", 'the', 'if', 'that', "haven't", 'on', 'more', 'over', "you're", "hadn't", "that'll", 'ma', 'down', 'at', 'should', 'as', "you'd", 'both', 't', 'of', 'yourselves', 'had', 'mightn', 'himself', 'd', 'than', 'where', 'are', 'same', 'by', 'for', 'further', 'been', 'out', 'off', "you'll", 'myself', 'most', "didn't", 'have', 'who', 'am', 'doing', 'while', 'does', 'his', 'can', 'before', "isn't", 'won', 'to', "doesn't", "you've", 'hasn', "it's", 'no', 'those', 've', 'few', 'y', 'your', 'what', 'because', 'don', 'and', 'how', 'too', 'them', 'up', "don't", 'wasn', 'each', 'aren', 'shan', 'now', 'after', 'o', "won't", "wouldn't", 'a', 'haven', 'not', 'here', 'wouldn', 'weren', 'needn', "shan't", 'there', 'we', "mustn't", 'during', 'below', 'about', "needn't", 'very', 'sh

### Resposta Exercício 1

In [11]:
#Stop words em português
portuguese_stops = set(stopwords.words('portuguese'))

# Lista de palavras
palavras = ["Estou", 'estudando', 'um', 'tema', 'interesante', 'em', 'PLN']

# List comprehension para transofmrar em minúsculo
palavras_minusculo = [word.lower() for word in palavras]
print('Palavras em minúsculo',palavras_minusculo)

# List comprehension para aplicar as portuguese_stop words a lista de palavras
palavras_sem_stopwords = [palavra for palavra in palavras_minusculo if palavra not in portuguese_stops]
print(palavras_sem_stopwords)

['estou', 'estudando', 'um', 'tema', 'interesante', 'em', 'pln']
['estudando', 'tema', 'interesante', 'pln']


In [7]:
# IDs das Stop Words
stopwords.fileids()

['arabic',
 'azerbaijani',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish',
 'turkish']

In [34]:
# Lista de stop words
stopwords.words('portuguese')

['de',
 'a',
 'o',
 'que',
 'e',
 'do',
 'da',
 'em',
 'um',
 'para',
 'com',
 'não',
 'uma',
 'os',
 'no',
 'se',
 'na',
 'por',
 'mais',
 'as',
 'dos',
 'como',
 'mas',
 'ao',
 'ele',
 'das',
 'à',
 'seu',
 'sua',
 'ou',
 'quando',
 'muito',
 'nos',
 'já',
 'eu',
 'também',
 'só',
 'pelo',
 'pela',
 'até',
 'isso',
 'ela',
 'entre',
 'depois',
 'sem',
 'mesmo',
 'aos',
 'seus',
 'quem',
 'nas',
 'me',
 'esse',
 'eles',
 'você',
 'essa',
 'num',
 'nem',
 'suas',
 'meu',
 'às',
 'minha',
 'numa',
 'pelos',
 'elas',
 'qual',
 'nós',
 'lhe',
 'deles',
 'essas',
 'esses',
 'pelas',
 'este',
 'dele',
 'tu',
 'te',
 'vocês',
 'vos',
 'lhes',
 'meus',
 'minhas',
 'teu',
 'tua',
 'teus',
 'tuas',
 'nosso',
 'nossa',
 'nossos',
 'nossas',
 'dela',
 'delas',
 'esta',
 'estes',
 'estas',
 'aquele',
 'aquela',
 'aqueles',
 'aquelas',
 'isto',
 'aquilo',
 'estou',
 'está',
 'estamos',
 'estão',
 'estive',
 'esteve',
 'estivemos',
 'estiveram',
 'estava',
 'estávamos',
 'estavam',
 'estivera',
 'es

#### Part-of-Speech Tagging (_POS Tagging_)

As operações anteriores (tokenização  e remoção de stopwords) são normalmente as atividades iniciais em um processo de limpeza de um conjunto de dados. Entretanto, essas operações não levam em consideração o contexto. Para poder trabalhar com PLN precisamos levar em consideração o contexto e para isso existe o conceito de Part-of-Speech Tagging (_POS Tagging_).

O POS Tagging é o processo de rotulação de elementos textuais - tipicamente palavras e pontuação - com o fim de evidenciar a estrutura gramatical de um determinado trecho de texto. Ou seja, definir dentro de um conjunto de dados os verbos, pronomes, nomes, substantivos, conjunções etc. Essa rotulação depende do contexto.

Em reconhecimento e síntese de fala, seu uso é útil para extração de termos, desambiguação, composição de novas frases e pesquisa lexicográfica.

OBS: É preciso tokenizar o texto antes de aplicar o POS Tagging.

In [13]:
#imports
import nltk
from nltk.tag import pos_tag
from nltk.tokenize import sent_tokenize, word_tokenize

In [14]:
# Texto
frase = "Time to start with natural language processing. Python will make our life easier!"

# Tokenization em sentenças
sent_tokens = sent_tokenize(frase)
sent_tokens

['Time to start with natural language processing.',
 'Python will make our life easier!']

In [15]:
# Tokenization em palavras
word_tokens = word_tokenize(frase)
word_tokens

['Time',
 'to',
 'start',
 'with',
 'natural',
 'language',
 'processing',
 '.',
 'Python',
 'will',
 'make',
 'our',
 'life',
 'easier',
 '!']

In [16]:
# Aplicando pos_tag aos tokens
tags = pos_tag(word_tokens)
tags

[('Time', 'NNP'),
 ('to', 'TO'),
 ('start', 'VB'),
 ('with', 'IN'),
 ('natural', 'JJ'),
 ('language', 'NN'),
 ('processing', 'NN'),
 ('.', '.'),
 ('Python', 'NNP'),
 ('will', 'MD'),
 ('make', 'VB'),
 ('our', 'PRP$'),
 ('life', 'NN'),
 ('easier', 'JJR'),
 ('!', '.')]

In [18]:
# Visualizando o significado de cada código do POS Tag.
# Nesse caso, visualizando VB
nltk.help.upenn_tagset('VB')

VB: verb, base form
    ask assemble assess assign assume atone attention avoid bake balkanize
    bank begin behold believe bend benefit bevel beware bless boil bomb
    boost brace break bring broil brush build ...


In [19]:
# Definição para cada definição de código
list_of_tags = []
for pair in tags:
    list_of_tags.append(pair[1])
list_of_tags = list(set(list_of_tags))
for pos in list_of_tags:
    print(nltk.help.upenn_tagset(pos))

VB: verb, base form
    ask assemble assess assign assume atone attention avoid bake balkanize
    bank begin behold believe bend benefit bevel beware bless boil bomb
    boost brace break bring broil brush build ...
None
.: sentence terminator
    . ! ?
None
PRP$: pronoun, possessive
    her his mine my our ours their thy your
None
MD: modal auxiliary
    can cannot could couldn't dare may might must need ought shall should
    shouldn't will would
None
IN: preposition or conjunction, subordinating
    astride among uppon whether out inside pro despite on by throughout
    below within for towards near behind atop around if like until below
    next into if beside ...
None
JJR: adjective, comparative
    bleaker braver breezier briefer brighter brisker broader bumper busier
    calmer cheaper choosier cleaner clearer closer colder commoner costlier
    cozier creamier crunchier cuter ...
None
JJ: adjective or numeral, ordinal
    third ill-mannered pre-war regrettable oiled calamitous

__POS Tagging em português com o NLTK__

Vamos utilizar um corpus da NLTK em português já 'taggeado' para treinar um POS Tagging default ([Exemplos de Processamento em português](#section_pt_tag)).

In [20]:
import nltk
from nltk.corpus import floresta
floresta.tagged_words()

[('Um', '>N+art'), ('revivalismo', 'H+n'), ...]

In [21]:
#As tags consistem de algumas informações sintáticas, seguidas por um sinal de mais,seguidas pela POS tag. 
#Apenas nos interessa a informação da tag. Este método serve para simplificar as tags do corpus
def simplify_tag(t):
     if "+" in t:
        return t[t.index("+")+1:]
     else:
        return t

twords = floresta.tagged_words()
twords = [(w.lower(), simplify_tag(t)) for (w,t) in twords]    
print('Exemplos de tags:',twords[:10])

tsents = floresta.tagged_sents()
tsents = [[(w.lower(),simplify_tag(t)) for (w,t) in sent] for sent in tsents if sent]

Exemplos de tags: [('um', 'art'), ('revivalismo', 'n'), ('refrescante', 'adj'), ('o', 'art'), ('7_e_meio', 'prop'), ('é', 'v-fin'), ('um', 'art'), ('ex-libris', 'n'), ('de', 'prp'), ('a', 'art')]


Com as tags obtidas vamos treinar o tagger em português

In [27]:
#Divisão dos dados de treinamento e testes
train = tsents[100:]
test = tsents[:100]

#Cria um DefaultTagger: tudo será "n"-> "noum"
tagger0 = nltk.DefaultTagger('n')
print('Default Tagger',tagger0.tag(['é','um','árvore','cortar','ao','a']))

#Vamos treinar um UnigramTagger a partir dos dados de treinamento
tagger1 = nltk.UnigramTagger(train, backoff=tagger0)
print('UnigramTagger treinado',tagger1.tag(['é','um','árvore','cortar','cortado','ao','a']))

Default Tagger [('é', 'n'), ('um', 'n'), ('árvore', 'n'), ('cortar', 'n'), ('ao', 'n'), ('a', 'n')]
UnigramTagger treinado [('é', 'v-fin'), ('um', 'art'), ('árvore', 'n'), ('cortar', 'v-inf'), ('cortado', 'v-pcp'), ('ao', 'prp'), ('a', 'art')]


#### Stemming

Stemming é a técnica de __remover sufixos e prefixos__ de uma palavra, chamada stem. Por exemplo, o stem da palavra cooking é cook. Um bom algoritmo sabe que "ing" é um sufixo e pode ser removido. 

Stemming é muito usado em mecanismos de buscas para indexação de palavras. Ao invés de armazenar todas as formas de uma palavras, um mecanismo de busca armazena apenas o stem da palavra, reduzindo o tamanho do índice e aumentando a performance do processo de busca.

A seguir iremos apresentar alguns Stemmer e seus comportamentos para algumas palavras.

In [28]:
# Imports
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer
from nltk.stem import RegexpStemmer
from nltk.stem import SnowballStemmer

In [29]:
#Cria o Stemmer
stemmer = PorterStemmer()

#Aplica o Stemmer
print("\nPorterStemmer:")
print("cooking ->", stemmer.stem('cooking'))
print("cookery ->", stemmer.stem('cookery'))


PorterStemmer:
cooking -> cook
cookery -> cookeri


In [30]:
#Cria o Stemmer
stemmer2 = LancasterStemmer()

#Aplica o Stemmer
print("\nLancasterStemmer:")
print("cooking ->",stemmer2.stem('cooking'))
print("cookery ->",stemmer2.stem('cookery'))


LancasterStemmer:
cooking -> cook
cookery -> cookery


In [31]:
#Cria o Stemmer
stemmer3 = RegexpStemmer('ing')

#Aplica o Stemmer
print("\nRegexpStemmer:")
print("cooking ->",stemmer3.stem('cooking'))
print("cookery ->",stemmer3.stem('cookery'))


RegexpStemmer:
cooking -> cook
cookery -> cookery


In [37]:
#Cria o Stemmer
stemmer3 = SnowballStemmer('english')

#Aplica o Stemmer
print("\nSnowballStemmer:")
print("cooking ->",stemmer3.stem('cooking'))
print("cookery ->",stemmer3.stem('cookery'))


SnowballStemmer:
cooking -> cook
cookery -> cookeri


### Resposta Exercício 2

In [40]:
#Linguagens suportadas pelo SnowballStemmer
print("SnowballStemmer Languages:",SnowballStemmer.languages)

#Cria o Stemmer para a linguagem em português
portuguese_stemmer = SnowballStemmer('portuguese')

#Aplica o Stemmer
print("\nSnowballStemmer:")
print("Conzinhando -> ",portuguese_stemmer.stem('Conzinhando'))
print("Culinária -> ",portuguese_stemmer.stem('Culinária'))
print("Computação -> ",portuguese_stemmer.stem('Computação'))
print("Computando -> ",portuguese_stemmer.stem('Computando'))
print("Computar -> ",portuguese_stemmer.stem('Computar'))
print(portuguese_stemmer.stem('Pedreiro'))
print(portuguese_stemmer.stem('Pedra'))
print(portuguese_stemmer.stem('Pedregulho'))

SnowballStemmer Languages: ('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')

SnowballStemmer:
Conzinhando ->  conzinh
Culinária ->  culinár
Computação ->  comput
Computando ->  comput
Computar ->  comput
pedreir
pedr
pedregulh


### Resposta Exercício 3

In [46]:
from nltk.stem import RSLPStemmer
#Cria o Stemmer para a linguagem em português
portuguese_stemmer = RSLPStemmer()

#Aplica o Stemmer
print("\nSnowballStemmer:")
print("Conzinhando -> ",portuguese_stemmer.stem('Conzinhando'))
print("Culinária -> ",portuguese_stemmer.stem('Culinária'))
print("Computação -> ",portuguese_stemmer.stem('Computação'))
print("Computando -> ",portuguese_stemmer.stem('Computando'))
print("Computar -> ",portuguese_stemmer.stem('Computar'))
print(portuguese_stemmer.stem('Pedreira'))
print(portuguese_stemmer.stem('Pedra'))
print(portuguese_stemmer.stem('Pedregulho'))


SnowballStemmer:
Conzinhando ->  conzinh
Culinária ->  culinár
Computação ->  comput
Computando ->  comput
Computar ->  comput
pedr
pedr
pedregulh


#### Lemmatization

Lemmatização na linguística, é o processo de agrupar as diferentes formas flexionadas de uma palavra para que possam ser analisadas como um único item. Na linguística computacional, a Lemmatização é o processo algorítmico de determinação do lema para uma determinada palavra. Uma vez que o processo pode envolver tarefas complexas, como entender o contexto e determinar a parte da fala de uma palavra em uma frase (requerendo, por exemplo, conhecimento da gramática de uma linguagem), pode ser uma tarefa difícil implementar um lematizador para uma nova língua.

Em muitas línguas, as palavras aparecem em várias formas inflexíveis. Por exemplo, em inglês, o verbo 'to walk' pode aparecer como 'walk', 'walks', 'walking'. A forma base, 'walk', que se poderia procurar em um dicionário, é chamado de lema para a palavra. A combinação da forma base com a parte da fala geralmente é chamada de lexema da palavra.

A Lemmatização está intimamente relacionada com o Stemming. A diferença é que um stemmer opera em uma única palavra sem conhecimento do contexto e, portanto, não pode discriminar entre palavras que têm diferentes significados, dependendo da parte da fala. No entanto, os stemmers são geralmente mais fáceis de implementar e executar mais rapidamente, e a precisão reduzida pode não ser importante para algumas aplicações. Assim o Stemming é mais rápido enquanto que o Lemmatization é mais preciso.

De forma geral, Stemming e Lemmatization são operações parecidas. A principal diferença entre eles é que o __Stemmning pode gerar palavras inexistentes, enquanto os lemas são palavras reais__. A escolha então será com base no problema o qual pretende-se resolver.

Assim, sua root stem pode não ser algo que você pode procurar em um dicionário, mas você pode procurar um lema. Algumas vezes você terminará com uma palavra muito semelhante, mas as vezes, você terminará com uma palavra completamente diferente. Vamos ver alguns exemplos.

In [47]:
# Imports
from nltk.stem import WordNetLemmatizer

# Criar um Lemmatizer
wordnet_lemmatizer = WordNetLemmatizer()

# Com argumentos default
print("cooking ->",wordnet_lemmatizer.lemmatize('cooking'))
print("dogs ->",wordnet_lemmatizer.lemmatize('dogs'))
print("churches ->",wordnet_lemmatizer.lemmatize('churches'))
print("are ->",wordnet_lemmatizer.lemmatize('are'))
print("is ->",wordnet_lemmatizer.lemmatize('is'))

cooking -> cooking
dogs -> dog
churches -> church
are -> are
is -> is


__Lemmatization e POS tagging__

No exemplo acima vimos que o lema para 'are', 'is' e cooking não foi achado corretamente. Para corrigir  precisamos iremos passar o POS Tagging. 

Além disso,  a mesma palavra pode ter múltiplos lemas com base no contexto. Para isso o também utilizaremos o POS Tagging.

In [48]:
#Passando a classe gramatical da palavra através do parâmetro pos
#pos = v => Verbo
print("is ->",wordnet_lemmatizer.lemmatize('is', pos='v'))
print("are ->",wordnet_lemmatizer.lemmatize('are', pos='v'))
print("cooking ->",wordnet_lemmatizer.lemmatize('cooking', pos='v'))

is -> be
are -> be
cooking -> cook


NameError: name 'nltk' is not defined


__Lemmatization e POS Tagging em português com o [spaCy](#section_spacy)__

Instalando a biblioteca e baixando o pacote com o modelo treinado em português

In [49]:
!pip install spacy
!pip install spacy-nightly
!spacy download pt_core_news_sm

Collecting spacy
  Using cached https://files.pythonhosted.org/packages/ae/6e/a89da6b5c83f8811e46e3a9270c1aed90e9b9ee6c60faf52b7239e5d3d69/spacy-2.0.18-cp36-cp36m-manylinux1_x86_64.whl
Collecting regex==2018.01.10 (from spacy)
Collecting ujson>=1.35 (from spacy)
Collecting murmurhash<1.1.0,>=0.28.0 (from spacy)
  Using cached https://files.pythonhosted.org/packages/a6/e6/63f160a4fdf0e875d16b28f972083606d8d54f56cd30cb8929f9a1ee700e/murmurhash-1.0.2-cp36-cp36m-manylinux1_x86_64.whl
Collecting plac<1.0.0,>=0.9.6 (from spacy)
  Using cached https://files.pythonhosted.org/packages/9e/9b/62c60d2f5bc135d2aa1d8c8a86aaf84edb719a59c7f11a4316259e61a298/plac-0.9.6-py2.py3-none-any.whl
Collecting preshed<2.1.0,>=2.0.1 (from spacy)
  Using cached https://files.pythonhosted.org/packages/20/93/f222fb957764a283203525ef20e62008675fd0a14ffff8cc1b1490147c63/preshed-2.0.1-cp36-cp36m-manylinux1_x86_64.whl
Collecting requests<3.0.0,>=2.13.0 (from spacy)
  Using cached https://files.pythonhosted.org/packages/

[?25l  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-2.1.0a7/pt_core_news_sm-2.1.0a7.tar.gz (12.8MB)
[K    100% |████████████████████████████████| 12.8MB 791kB/s ta 0:00:01
[?25hInstalling collected packages: pt-core-news-sm
  Running setup.py install for pt-core-news-sm ... [?25ldone
[?25hSuccessfully installed pt-core-news-sm-2.1.0a7
[38;5;2m✔ Linking successful[0m
/home/03662232677/anaconda3/envs/pln_basico2/lib/python3.6/site-packages/pt_core_news_sm
-->
/home/03662232677/anaconda3/envs/pln_basico2/lib/python3.6/site-packages/spacy/data/pt_core_news_sm
You can now load the model via spacy.load('pt_core_news_sm')


Import da biblioteca e carregar o modelo em português

In [59]:
import spacy
nlp = spacy.load('pt_core_news_sm')

Agora vamos pegar uma frase de exemplo, separar em tokens e imprimir seus respectivos lemmas e tags.

In [55]:
text = ""
pos = ""
lemma = ""
for token in nlp("Processamento textual é fácil? O pedreiro foi na pedreira pegar pedras."):
    text += token.text + "\t"
    pos += token.pos_ + "\t"
    lemma += token.lemma_ + "\t"

print("Texto:", text)
print("POS Tagging:", pos)
print("Lemmatization:", lemma)

Texto: Processamento	textual	é	fácil	?	O	pedreiro	foi	na	pedreira	pegar	pedras	.	
POS Tagging: NOUN	ADJ	VERB	ADJ	PUNCT	DET	NOUN	VERB	ADP	PROPN	VERB	NOUN	PUNCT	
Lemmatization: Processamento	textual	ser	fácil	?	O	pedreiro	ser	o	pedreiro	pegar	pedrar	.	


### Resposta Exercício 4

In [60]:
text = ''
pos = ''
lemma = ''
for token in nlp1("A pedreira foi na pedreira trabalhar com pedra."):
    text += token.text + "\t"
    pos += token.pos_ + "\t"
    lemma += token.lemma_ + "\t"

print("Texto:", text)
print("POS Tagging:", pos)
print("Lemmatization:", lemma)

Texto: A	pedreira	foi	na	pedreira	trabalhar	com	pedra	.	
POS Tagging: DET	NOUN	VERB	ADV	PROPN	VERB	ADP	NOUN	PUNCT	
Lemmatization: A	pedreiro	ser	o	pedreiro	trabalhar	com	pedrar	.	


## Referências

<a id="section_pt_tag">__How To: Examples for Portuguese Processing__ </a>
   - Contém vários exemplos de processamento de texto relacionado à língua portuguesa (http://www.nltk.org/howto/portuguese_en.html)
   
<a id="section_spacy">__spaCy__ </a>
   - spaCy  é uma biblioteca open-source para NLP em Python.  (https://spacy.io/)

<a id="section_nltk">__NLTK__ </a>
   - NLTK (Natural Language Toolkit), ferramenta para PLN em Python. 
       - http://www.nltk.org/index.html 
       - http://www.nltk.org/book/   

## Fim