# Apresentação de duas técnicas utilizadas em NLP.

* Rotuladores
* Stopwords

In [1]:
import nltk

In [2]:
texto = "Processamento de língua natural (PLN) é uma subárea da ciência da computação, inteligência artificial e da linguística que estuda os problemas da geração e compreensão automática de línguas humanas naturais. Sistemas de geração de língua natural convertem informação de bancos de dados de computadores em linguagem compreensível ao ser humano e sistemas de compreensão de língua natural convertem ocorrências de linguagem humana em representações mais formais, mais facilmente manipuláveis por programas de computador. Alguns desafios do PLN são compreensão de língua natural, fazer com que computadores extraiam sentido de linguagem humana ou natural e geração de língua natural."

In [3]:
texto

'Processamento de língua natural (PLN) é uma subárea da ciência da computação, inteligência artificial e da linguística que estuda os problemas da geração e compreensão automática de línguas humanas naturais. Sistemas de geração de língua natural convertem informação de bancos de dados de computadores em linguagem compreensível ao ser humano e sistemas de compreensão de língua natural convertem ocorrências de linguagem humana em representações mais formais, mais facilmente manipuláveis por programas de computador. Alguns desafios do PLN são compreensão de língua natural, fazer com que computadores extraiam sentido de linguagem humana ou natural e geração de língua natural.'

Quebrando o texto em tokens (palavras)

In [5]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [6]:
tokens = nltk.tokenize.word_tokenize(texto)


In [8]:
tokens[0:10]

['Processamento',
 'de',
 'língua',
 'natural',
 '(',
 'PLN',
 ')',
 'é',
 'uma',
 'subárea']

In [9]:
# Rotuladores => dar significado as palavras. 

Realizando a importação de conhecimento relacionado a rolutação de tokens/palavras
* mac/morpho é um banco de dados que armazena uma análise morfológica da lingua portuguesa em textos do autor Machado de Assis. 

In [10]:
nltk.download('mac_morpho')

[nltk_data] Downloading package mac_morpho to /root/nltk_data...
[nltk_data]   Unzipping corpora/mac_morpho.zip.


True

In [11]:
nltk.corpus.mac_morpho.tagged_words()

[('Jersei', 'N'), ('atinge', 'V'), ('média', 'N'), ...]

In [17]:
train = nltk.corpus.mac_morpho.tagged_sents()
train

[[('Jersei', 'N'), ('atinge', 'V'), ('média', 'N'), ('de', 'PREP'), ('Cr$', 'CUR'), ('1,4', 'NUM'), ('milhão', 'N'), ('em', 'PREP|+'), ('a', 'ART'), ('venda', 'N'), ('de', 'PREP|+'), ('a', 'ART'), ('Pinhal', 'NPROP'), ('em', 'PREP'), ('São', 'NPROP'), ('Paulo', 'NPROP')], [('Programe', 'V'), ('sua', 'PROADJ'), ('viagem', 'N'), ('a', 'PREP|+'), ('a', 'ART'), ('Exposição', 'NPROP'), ('Nacional', 'NPROP'), ('do', 'NPROP'), ('Zebu', 'NPROP'), (',', ','), ('que', 'PRO-KS-REL'), ('começa', 'V'), ('dia', 'N'), ('25', 'N|AP')], ...]

Criando um rotulador

In [15]:
# Atribuindo default para as palavras.
rotulador_padrao = nltk.DefaultTagger('desconhecido')

In [14]:
rotulador_padrao.tag(tokens)

[('Processamento', 'desconhecido'),
 ('de', 'desconhecido'),
 ('língua', 'desconhecido'),
 ('natural', 'desconhecido'),
 ('(', 'desconhecido'),
 ('PLN', 'desconhecido'),
 (')', 'desconhecido'),
 ('é', 'desconhecido'),
 ('uma', 'desconhecido'),
 ('subárea', 'desconhecido'),
 ('da', 'desconhecido'),
 ('ciência', 'desconhecido'),
 ('da', 'desconhecido'),
 ('computação', 'desconhecido'),
 (',', 'desconhecido'),
 ('inteligência', 'desconhecido'),
 ('artificial', 'desconhecido'),
 ('e', 'desconhecido'),
 ('da', 'desconhecido'),
 ('linguística', 'desconhecido'),
 ('que', 'desconhecido'),
 ('estuda', 'desconhecido'),
 ('os', 'desconhecido'),
 ('problemas', 'desconhecido'),
 ('da', 'desconhecido'),
 ('geração', 'desconhecido'),
 ('e', 'desconhecido'),
 ('compreensão', 'desconhecido'),
 ('automática', 'desconhecido'),
 ('de', 'desconhecido'),
 ('línguas', 'desconhecido'),
 ('humanas', 'desconhecido'),
 ('naturais', 'desconhecido'),
 ('.', 'desconhecido'),
 ('Sistemas', 'desconhecido'),
 ('de', '

Criando um rotulador "mais inteligente", que aprende a rotular palavras com base em um banco de dados previamente existente.

In [18]:
rotulador = nltk.UnigramTagger(train = train, backoff=rotulador_padrao)

In [20]:
tokens_rotulados = rotulador.tag(tokens)

In [23]:
tokens_rotulados[0:20]

[('Processamento', 'NPROP'),
 ('de', 'PREP'),
 ('língua', 'N'),
 ('natural', 'ADJ'),
 ('(', '('),
 ('PLN', 'desconhecido'),
 (')', ')'),
 ('é', 'V'),
 ('uma', 'ART'),
 ('subárea', 'desconhecido'),
 ('da', 'NPROP'),
 ('ciência', 'N'),
 ('da', 'NPROP'),
 ('computação', 'N'),
 (',', ','),
 ('inteligência', 'N'),
 ('artificial', 'ADJ'),
 ('e', 'KC'),
 ('da', 'NPROP'),
 ('linguística', 'ADJ')]

# Stopwords

In [26]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [28]:
palavras_proibidas = nltk.corpus.stopwords.words('portuguese')

In [58]:
palavras_proibidas.extend(['.',',','?','!', '(',')', ':','-','—'])

Eliminando palavras que não interessam, utilizando as stopwords. 

In [36]:
tokens = [token for token in tokens if token not in palavras_proibidas]

In [37]:
tokens

['Processamento',
 'língua',
 'natural',
 'PLN',
 'subárea',
 'ciência',
 'computação',
 'inteligência',
 'artificial',
 'linguística',
 'estuda',
 'problemas',
 'geração',
 'compreensão',
 'automática',
 'línguas',
 'humanas',
 'naturais',
 'Sistemas',
 'geração',
 'língua',
 'natural',
 'convertem',
 'informação',
 'bancos',
 'dados',
 'computadores',
 'linguagem',
 'compreensível',
 'humano',
 'sistemas',
 'compreensão',
 'língua',
 'natural',
 'convertem',
 'ocorrências',
 'linguagem',
 'humana',
 'representações',
 'formais',
 'facilmente',
 'manipuláveis',
 'programas',
 'computador',
 'Alguns',
 'desafios',
 'PLN',
 'compreensão',
 'língua',
 'natural',
 'fazer',
 'computadores',
 'extraiam',
 'sentido',
 'linguagem',
 'humana',
 'natural',
 'geração',
 'língua',
 'natural']

In [38]:
tokens_rotulados = rotulador.tag(tokens)

In [39]:
tokens_rotulados

[('Processamento', 'NPROP'),
 ('língua', 'N'),
 ('natural', 'ADJ'),
 ('PLN', 'desconhecido'),
 ('subárea', 'desconhecido'),
 ('ciência', 'N'),
 ('computação', 'N'),
 ('inteligência', 'N'),
 ('artificial', 'ADJ'),
 ('linguística', 'ADJ'),
 ('estuda', 'V'),
 ('problemas', 'N'),
 ('geração', 'N'),
 ('compreensão', 'N'),
 ('automática', 'ADJ'),
 ('línguas', 'N'),
 ('humanas', 'ADJ'),
 ('naturais', 'ADJ'),
 ('Sistemas', 'NPROP'),
 ('geração', 'N'),
 ('língua', 'N'),
 ('natural', 'ADJ'),
 ('convertem', 'V'),
 ('informação', 'N'),
 ('bancos', 'N'),
 ('dados', 'N'),
 ('computadores', 'N'),
 ('linguagem', 'N'),
 ('compreensível', 'ADJ'),
 ('humano', 'ADJ'),
 ('sistemas', 'N'),
 ('compreensão', 'N'),
 ('língua', 'N'),
 ('natural', 'ADJ'),
 ('convertem', 'V'),
 ('ocorrências', 'N'),
 ('linguagem', 'N'),
 ('humana', 'ADJ'),
 ('representações', 'N'),
 ('formais', 'ADJ'),
 ('facilmente', 'ADV'),
 ('manipuláveis', 'desconhecido'),
 ('programas', 'N'),
 ('computador', 'N'),
 ('Alguns', 'PROADJ'),
 ('d

Objetivo: Extrair as ações de um texto qualquer. 
* Lembrando que ação é sempre representada por um verbo da lingua portuguesa. 
* Solução está em identifiar os verbos no texto informado. 

In [40]:
for tokens_rotulado in tokens_rotulados: 
  if tokens_rotulado[1] == 'V': 
    print(tokens_rotulado[0])

estuda
convertem
convertem
fazer


In [59]:
fabula = "Enquanto a formiga trabalhava, recolhendo alimentos durante o verão inteiro, sua companheira cigarra estava mais preocupada em cantar.Quando chegou o frio e a chuva do inverno, a primeira tinha garantido o seu sustento. Já a segunda não tinha o que comer.Foi aí que a cigarra procurou a formiga, pedindo que dividisse com ela aquilo que recolheu. A formiga respondeu:— Você não passou o verão todo cantando, enquanto eu trabalhava? Então agora se vire sozinha.Moral: Precisamos ser independentes e garantir o nosso futuro, sem depender do trabalho dos outros."

In [60]:
tokens_fabula = nltk.tokenize.word_tokenize(fabula)

In [61]:
tokens_fabula = [token for token in tokens_fabula if token not in palavras_proibidas]

In [62]:
tokens_rotulados_fabula = rotulador.tag(tokens_fabula)

In [63]:
tokens_rotulados_fabula

[('Enquanto', 'KS'),
 ('formiga', 'N'),
 ('trabalhava', 'V'),
 ('recolhendo', 'V'),
 ('alimentos', 'N'),
 ('durante', 'PREP'),
 ('verão', 'N'),
 ('inteiro', 'ADJ'),
 ('companheira', 'N'),
 ('cigarra', 'desconhecido'),
 ('preocupada', 'PCP'),
 ('cantar.Quando', 'desconhecido'),
 ('chegou', 'V'),
 ('frio', 'N'),
 ('chuva', 'N'),
 ('inverno', 'N'),
 ('primeira', 'ADJ'),
 ('garantido', 'PCP'),
 ('sustento', 'N'),
 ('Já', 'ADV'),
 ('segunda', 'ADJ'),
 ('comer.Foi', 'desconhecido'),
 ('aí', 'ADV'),
 ('cigarra', 'desconhecido'),
 ('procurou', 'V'),
 ('formiga', 'N'),
 ('pedindo', 'V'),
 ('dividisse', 'desconhecido'),
 ('recolheu', 'V'),
 ('A', 'ART'),
 ('formiga', 'N'),
 ('respondeu', 'V'),
 ('Você', 'PROPESS'),
 ('passou', 'V'),
 ('verão', 'N'),
 ('todo', 'PROADJ'),
 ('cantando', 'V'),
 ('enquanto', 'KS'),
 ('trabalhava', 'V'),
 ('Então', 'ADV'),
 ('agora', 'ADV'),
 ('vire', 'V'),
 ('sozinha.Moral', 'desconhecido'),
 ('Precisamos', 'V'),
 ('independentes', 'ADJ'),
 ('garantir', 'V'),
 ('futu

Dado o texto, extraia os adjetivos. 

In [65]:
for tokens_rotulado in tokens_rotulados_fabula: 
  if tokens_rotulado[1] == 'ADJ': 
    print(tokens_rotulado[0])

inteiro
primeira
segunda
independentes
