<a href="https://colab.research.google.com/github/jscienciadados/ciencia-dados/blob/main/Intro_PLN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color="blue">Processamento de Linguagem Natural (PNL)</font>

# Introdução ao Processamento de Linguagem Natural
Tudo o que expressamos (verbalmente ou por escrito) carrega enormes quantidades de informação.

O tópico que escolhemos, nosso tom, nossa seleção de palavras, tudo acrescenta algum tipo de informação que pode ser interpretada e com o valor extraído dela. Em teoria, podemos entender e até prever o comportamento humano usando essas informações.

Mas há um problema: uma pessoa pode gerar centenas ou milhares de palavras em uma declaração, cada sentença com sua complexidade correspondente. Se você deseja dimensionar e analisar várias centenas, milhares ou milhões de pessoas ou declarações em uma determinada região, a situação é incontrolável.

Dados gerados a partir de conversas, declarações ou até tweets são exemplos de dados não estruturados. Os dados não estruturados não se encaixam perfeitamente na estrutura tradicional de linhas e colunas de bancos de dados relacionais e representam a grande maioria dos dados disponíveis no mundo real. É confuso e difícil de manipular.

No entanto, graças aos avanços em disciplinas como aprendizado de máquina, uma grande revolução está acontecendo em relação a esse tópico. Atualmente, não se trata mais de tentar interpretar um texto ou discurso com base em suas palavras-chave (a maneira mecânica antiquada), mas de entender o significado por trás dessas palavras (a maneira cognitiva). Dessa forma, é possível detectar figuras de linguagem como ironia, ou mesmo realizar análises de sentimentos.

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())


Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.7.10


In [2]:
!pip install -q -U watermark

# Instalação do pacote NLTK
http://www.nltk.org/index.html

http://www.nltk.org/book/

In [3]:
# Imports
import re
import nltk
import spacy
import string
import numpy as np
import pandas as pd


In [4]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "João Souza" --iversions


Author: João Souza

IPython: 5.5.0
nltk   : 3.2.5
re     : 2.2.1
numpy  : 1.19.5
spacy  : 2.2.4
pandas : 1.1.5



In [5]:
# Instalando os arquivos e de dados e dicionarios do nltk
nltk.download('all')

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/abc.zip.
[nltk_data]    | Downloading package alpino to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/alpino.zip.
[nltk_data]    | Downloading package biocreative_ppi to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping corpora/biocreative_ppi.zip.
[nltk_data]    | Downloading package brown to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/brown.zip.
[nltk_data]    | Downloading package brown_tei to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/brown_tei.zip.
[nltk_data]    | Downloading package cess_cat to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/cess_cat.zip.
[nltk_data]    | Downloading package cess_esp to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/cess_esp.zip.
[nltk_data]    | Downloading package chat80 to /root/nltk_data...
[nltk_data]    |   Unzipp

True

# Tokenization
Processo de dividir uma string em listas de pedaços ou "tokens". Um token é uma parte inteira. Por exemplos: uma palavra é um token em uma sentença. Uma sentença é um token em um parágrafo.

# Dividindo um parágrafo em frases

In [6]:
from nltk.tokenize import sent_tokenize

In [7]:
paragrafo = "Estudo de Processamento de Linguagem Natural. Campo de Data Science que explora o estudo da linguagem natural."

In [8]:
?sent_tokenize

In [9]:
# dividindo o paragrafo em frases
sent_tokenize(paragrafo)

['Estudo de Processamento de Linguagem Natural.',
 'Campo de Data Science que explora o estudo da linguagem natural.']

In [10]:
# utilizando um dicionario do nltk
tokenizer = nltk.data.load('tokenizers/punkt/portuguese.pickle')

In [11]:
tokenizer.tokenize(paragrafo)

['Estudo de Processamento de Linguagem Natural.',
 'Campo de Data Science que explora o estudo da linguagem natural.']

In [12]:
# dicionario em espanhol
spanish_tokenizer = nltk.data.load('tokenizers/punkt/spanish.pickle')

In [13]:
spanish_tokenizer.tokenize('Hola Luisa. estoy bien.')

['Hola Luisa.', 'estoy bien.']

# Divindo uma frase em palavras

In [14]:
from nltk.tokenize import word_tokenize

In [15]:
word_tokenize("Aprendizado de Maquina")

['Aprendizado', 'de', 'Maquina']

In [16]:
from nltk.tokenize import TreebankWordTokenizer

In [17]:
tokenizer = TreebankWordTokenizer()

In [18]:
tokenizer.tokenize('Inteligencia Artificial')

['Inteligencia', 'Artificial']

In [19]:
word_tokenize("can´t")

['can´t']

In [20]:
from nltk.tokenize import WordPunctTokenizer

In [21]:
tokenizer = WordPunctTokenizer()

In [22]:
tokenizer.tokenize("Can´t is a contraction")

['Can', '´', 't', 'is', 'a', 'contraction']

In [23]:
# Regex
from nltk.tokenize import RegexpTokenizer

In [24]:
?RegexpTokenizer

In [25]:
tokenizer = RegexpTokenizer("[\w']+")

In [26]:
tokenizer.tokenize("Can´t is a contraction")

['Can', 't', 'is', 'a', 'contraction']

In [27]:
from nltk.tokenize import regexp_tokenize

In [28]:
?regexp_tokenize

In [29]:
regexp_tokenize("Can´t is a contraction", "[\w']+")

['Can', 't', 'is', 'a', 'contraction']

In [32]:
texto = "Processamento de Linguagem Natural com Python – Por onde começar? A área de Processamento de Linguagem Natural (PLN) tem se tornado bastante presente atualmente, sendo voltada para a compreensão e geração automática de alguma língua natural."
# list comprehension
print([word_tokenize(frase) for frase in sent_tokenize(texto)])

[['Processamento', 'de', 'Linguagem', 'Natural', 'com', 'Python', '–', 'Por', 'onde', 'começar', '?'], ['A', 'área', 'de', 'Processamento', 'de', 'Linguagem', 'Natural', '(', 'PLN', ')', 'tem', 'se', 'tornado', 'bastante', 'presente', 'atualmente', ',', 'sendo', 'voltada', 'para', 'a', 'compreensão', 'e', 'geração', 'automática', 'de', 'alguma', 'língua', 'natural', '.']]


# Stopwords

Stopwords são palavras comuns que normalmente não contribuem para o significado de uma frase, pelo menos com relação ao propósito da informação e do processamento da linguagem natural. São palavras como "The" e "a" ((em inglês) ou "O/A" e "Um/Uma" ((em português). Muitos mecanismos de busca filtram estas palavras (stopwords), como forma de economizar espaço em seus índices de pesquisa.


In [33]:
from nltk.corpus import stopwords

In [34]:
english_stop = set(stopwords.words('english'))

In [35]:
print(english_stop)

{'we', "that'll", 'yours', 'being', 'up', 'its', 'how', 'same', 'those', 'aren', 'haven', 'hadn', "couldn't", 'as', "you'll", 'most', 'down', 'further', 'off', 'wouldn', 'that', 'his', 'themselves', "shouldn't", 'if', 'weren', 'their', 'is', 'about', 'again', 'where', 'myself', 'does', 'won', 'y', 'the', 'couldn', 'you', 'between', 's', 'with', 'such', 'other', 'can', 'm', 'what', 'he', 'both', 'under', 'into', 'has', "it's", 'all', 'be', 'not', 'itself', "hasn't", 'me', 'for', 'now', 'theirs', "haven't", 'why', 'had', 'll', 'do', 'below', "mightn't", 'which', "doesn't", 'and', 'hers', 'this', "won't", 'a', 'it', 'shouldn', 'but', 'needn', 'your', "she's", 'wasn', 'she', 'while', 'during', 'been', 'who', 'few', 'our', 'here', "should've", 'ma', 'doesn', 'himself', 'at', 'have', 'don', 'they', "wouldn't", 'having', 'i', "you'd", "needn't", 'was', "you're", 'doing', 'to', 'am', 'once', 'through', 'o', 'didn', 'are', 'these', 'herself', 'her', 'shan', 'an', 'each', 'from', 'yourselves', '

In [37]:
words = ["Can´t", "is", "a", "contraction"]
[word for word in words if word not in english_stop]

['Can´t', 'contraction']

In [38]:
portuguese_stops = set(stopwords.words('portuguese'))

In [41]:
palavras = ["Aquilo", "é", "uma", "Mercedes"]
[palavra for palavra in palavras if palavra not in portuguese_stops]

['Aquilo', 'Mercedes']

In [43]:
print(stopwords.fileids())

['arabic', 'azerbaijani', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'greek', 'hungarian', 'indonesian', 'italian', 'kazakh', 'nepali', 'norwegian', 'portuguese', 'romanian', 'russian', 'slovene', 'spanish', 'swedish', 'tajik', 'turkish']


In [44]:
print(stopwords.words('portuguese'))

['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estiv

#<font color="red">Wordnet</font>
WordNet é um banco de dados léxico (em Inglês). É uma espécie de dicionário criado especificamente para processamento de linguagem natural.

In [45]:
from nltk.corpus import wordnet

In [46]:
?wordnet

In [48]:
syn = wordnet.synsets('cookbook')[0]

In [49]:
syn.name()

'cookbook.n.01'

In [50]:
syn.definition()

'a book of recipes and cooking directions'

In [51]:
wordnet.synsets('cooking')[0].examples()

['cooking can be a great art',
 'people are needed who have experience in cookery',
 'he left the preparation of meals to his wife']

#<font color="orange">Stemming e Lemmatization</font>
Por razões gramaticais, os documentos usarão diferentes formas de uma palavra, como por exemplo:

organizar, organizado e organizando.

Além disso, existem famílias de palavras derivadamente relacionadas com significados semelhantes, como democracia, democrático e democratização. Em muitas situações, pode ser útil procurar uma dessas palavras para retornar documentos que contenham outra palavra no conjunto.

O objetivo da Derivação (Stemming) e da Lematização (Lemmatization) é reduzir as formas flexionadas e, às vezes, derivadas de uma palavra para uma base comum.

# <font color="blue">Stemming</font>
Stemming é a técnica de remover sufixos e prefixos de uma palavra, chamada stem. Por exemplo, o stem da palavra cooking é cook. Um bom algoritmo sabe que "ing" é um sufixo e pode ser removido. Stemming é muito usado em mecanismos de buscas para indexação de palavras. Ao invés de armazenar todas as formas de uma palavra, um mecamismo de busca armazena apenas o stem da palavra, reduzindo o tamanho do índice e aumentando a performance do processo de busca.

In [52]:
from nltk.stem import PorterStemmer

In [53]:
?PorterStemmer

In [54]:
porter_semer = PorterStemmer()

In [55]:
porter_semer.stem('cooking')

'cook'

In [56]:
porter_semer.stem('cookery')

'cookeri'

In [57]:
from nltk.stem import LancasterStemmer

In [58]:
lanc_stemer = LancasterStemmer()

In [59]:
lanc_stemer.stem('cooking')

'cook'

In [60]:
lanc_stemer.stem('cookery')

'cookery'

In [61]:
# usando Regex
from nltk.stem import RegexpStemmer

In [64]:
regexp_stemer = RegexpStemmer('ing')

In [65]:
regexp_stemer.stem('cooking')

'cook'

In [66]:
lista_palavras = ["cat", "cats", "know", "knowing", "time", "timing", "football", "footballers"]

In [71]:
porter_stemer = PorterStemmer()

In [72]:
for palavra in lista_palavras:
  print(palavra + ' -> ' + porter_stemer.stem(palavra))

cat -> cat
cats -> cat
know -> know
knowing -> know
time -> time
timing -> time
football -> footbal
footballers -> footbal


In [75]:
def SentenceStemmer(sentence):
    tokens = word_tokenize(sentence)
    stems = [porter_stemer.stem(token) for token in tokens]
    return " ".join(stems)

In [76]:
SentenceStemmer("The cats and dogs are running")

'the cat and dog are run'

#<font color="brown">Lemmatization</font>
Lemmatization leva em consideração a análise morfológica das palavras. Para fazer isso, é necessário ter dicionários detalhados nos quais o algoritmo possa procurar para vincular o formulário ao seu lema. Veja um exemplo:

Forma flexionada: organizando
Lema: organiza

Forma flexionada: organizado

Lema: organiza
Com Lemmatization as duas formas flexionadas organizando e organizado seria representadas somente pelo lema organiza.

In [77]:
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [78]:
wordnet_lemmatizer = WordNetLemmatizer()

In [79]:
print(wordnet_lemmatizer.lemmatize('mice'))
print(wordnet_lemmatizer.lemmatize('cacti'))  # plural da palavra cactus - cactuses (inglês) ou cacti (latin)
print(wordnet_lemmatizer.lemmatize('horses'))
print(wordnet_lemmatizer.lemmatize('wolves'))


mouse
cactus
horse
wolf


In [81]:
print(wordnet_lemmatizer.lemmatize('madeupwords'))
print(porter_stemer.stem('madeupwords'))

madeupwords
madeupword


Part-of-Speech Tag (PoS- Tag)

In [85]:
from nltk import pos_tag

In [86]:
def return_word_pos_tuples(sentence):
    return pos_tag(word_tokenize(sentence))

In [87]:
setence = "The cats and dogs are running"

In [88]:
return_word_pos_tuples(setence)

[('The', 'DT'),
 ('cats', 'NNS'),
 ('and', 'CC'),
 ('dogs', 'NNS'),
 ('are', 'VBP'),
 ('running', 'VBG')]

In [89]:
def get_pos_wordnet(pos_tag):
    pos_dict = {"N": wordnet.NOUN,
                "V": wordnet.VERB,
                "J": wordnet.ADJ,
                "R": wordnet.ADV}

    return pos_dict.get(pos_tag[0].upper(), wordnet.NOUN)


In [90]:
get_pos_wordnet('VBG')

'v'

In [91]:
def lemmatize_with_pos(sentence):
    new_sentence = []
    tuples = return_word_pos_tuples(sentence)
    for tup in tuples:
        pos = get_pos_wordnet(tup[1])
        lemma = wordnet_lemmatizer.lemmatize(tup[0], pos = pos)
        new_sentence.append(lemma)
    return new_sentence


In [92]:
print(lemmatize_with_pos(setence))

['The', 'cat', 'and', 'dog', 'be', 'run']


# Corpus
Corpus é uma coleção de documentos de texto e Corpora é o plural de Corpus. Esse termo vem da palavra em Latim para corpo (nesse caso, o corpo de um texto). Um Corpus customizado é uma coleção de arquivos de texto organizados em um diretório.

Se você for treinar seu próprio modelo como parte de um processo de classificação de texto (como análise de texto), você terá que criar seu próprio Corpus e treiná-lo.

In [93]:
import os
from nltk.corpus.reader.plaintext import PlaintextCorpusReader

O NLTK traz diversos Corpus e Corpora que podem ser usados para os mais variados fins. Vamos expermentar o Corpus do Projeto Gutenberg: https://www.gutenberg.org/

In [102]:
from nltk.corpus import gutenberg as gt

In [103]:
print(gt.fileids())

['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems.txt', 'bryant-stories.txt', 'burgess-busterbrown.txt', 'carroll-alice.txt', 'chesterton-ball.txt', 'chesterton-brown.txt', 'chesterton-thursday.txt', 'edgeworth-parents.txt', 'melville-moby_dick.txt', 'milton-paradise.txt', 'shakespeare-caesar.txt', 'shakespeare-hamlet.txt', 'shakespeare-macbeth.txt', 'whitman-leaves.txt']


In [104]:
shakespeare_macbeth = gt.words("shakespeare-macbeth.txt")
print(shakespeare_macbeth)


['[', 'The', 'Tragedie', 'of', 'Macbeth', 'by', ...]


In [105]:
raw = gt.raw("shakespeare-macbeth.txt")
print(raw)

[The Tragedie of Macbeth by William Shakespeare 1603]


Actus Primus. Scoena Prima.

Thunder and Lightning. Enter three Witches.

  1. When shall we three meet againe?
In Thunder, Lightning, or in Raine?
  2. When the Hurley-burley's done,
When the Battaile's lost, and wonne

   3. That will be ere the set of Sunne

   1. Where the place?
  2. Vpon the Heath

   3. There to meet with Macbeth

   1. I come, Gray-Malkin

   All. Padock calls anon: faire is foule, and foule is faire,
Houer through the fogge and filthie ayre.

Exeunt.


Scena Secunda.

Alarum within. Enter King Malcome, Donalbaine, Lenox, with
attendants,
meeting a bleeding Captaine.

  King. What bloody man is that? he can report,
As seemeth by his plight, of the Reuolt
The newest state

   Mal. This is the Serieant,
Who like a good and hardie Souldier fought
'Gainst my Captiuitie: Haile braue friend;
Say to the King, the knowledge of the Broyle,
As thou didst leaue it

   Cap. Doubtfull it stood,
As two spent Swimmers, t

In [106]:
sents = gt.sents("shakespeare-macbeth.txt")
print(sents)

[['[', 'The', 'Tragedie', 'of', 'Macbeth', 'by', 'William', 'Shakespeare', '1603', ']'], ['Actus', 'Primus', '.'], ...]


In [107]:
for fileid in gt.fileids():
    num_words = len(gt.words(fileid))
    num_sents = len(gt.sents(fileid))
    print("Dados do Arquivo:", fileid)
    print("Número de Palavras:", num_words)
    print("Número de Frases:", num_sents, end = "\n\n\n")


Dados do Arquivo: austen-emma.txt
Número de Palavras: 192427
Número de Frases: 7752


Dados do Arquivo: austen-persuasion.txt
Número de Palavras: 98171
Número de Frases: 3747


Dados do Arquivo: austen-sense.txt
Número de Palavras: 141576
Número de Frases: 4999


Dados do Arquivo: bible-kjv.txt
Número de Palavras: 1010654
Número de Frases: 30103


Dados do Arquivo: blake-poems.txt
Número de Palavras: 8354
Número de Frases: 438


Dados do Arquivo: bryant-stories.txt
Número de Palavras: 55563
Número de Frases: 2863


Dados do Arquivo: burgess-busterbrown.txt
Número de Palavras: 18963
Número de Frases: 1054


Dados do Arquivo: carroll-alice.txt
Número de Palavras: 34110
Número de Frases: 1703


Dados do Arquivo: chesterton-ball.txt
Número de Palavras: 96996
Número de Frases: 4779


Dados do Arquivo: chesterton-brown.txt
Número de Palavras: 86063
Número de Frases: 3806


Dados do Arquivo: chesterton-thursday.txt
Número de Palavras: 69213
Número de Frases: 3742


Dados do Arquivo: edgeworth