# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Big Data Real-Time Analytics com Python e Spark</font>

# <font color='blue'>Capítulo 9</font>

# Processamento de Linguagem Natural com Python - NLTK

## Instalação do pacote NLTK
http://www.nltk.org/install.html

In [1]:
# Instalação do módulo NLTK
!pip install nltk



In [2]:
import nltk

In [3]:
# Instalando os arquivos de dados do NLTK
# Clique em Download quando solicitado
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

### Leia a definição e execute as células para compreender o código de cada uma e o conceito que está sendo demonstrado

## Tokenization

Processo de dividir uma string em listas de pedaços ou "tokens". Um token é uma parte inteira. Por exemplos: uma palavra é um token em uma sentença. Uma sentença é um token em um parágrafo.

### Dividindo um parágrafo em frases

In [4]:
paragrafo = "Oi. Bom saber que você está aprendendo PLN. Obrigado por estar conosco."

In [5]:
from nltk.tokenize import sent_tokenize

In [6]:
# Dividindo o parágrafo em frases
sent_tokenize(paragrafo)

['Oi.',
 'Bom saber que você está aprendendo PLN.',
 'Obrigado por estar conosco.']

In [7]:
import nltk.data

In [8]:
# Utilizando dados do pacote NLTK
tokenizer = nltk.data.load('tokenizers/punkt/PY3/english.pickle')

# Load no windows
#tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

In [9]:
tokenizer.tokenize(paragrafo)

['Oi.',
 'Bom saber que você está aprendendo PLN.',
 'Obrigado por estar conosco.']

In [10]:
# Dados em espanhol
spanish_tokenizer = nltk.data.load('tokenizers/punkt/PY3/spanish.pickle')

# Load no windows
#spanish_tokenizer = nltk.data.load('tokenizers/punkt/spanish.pickle')

In [11]:
spanish_tokenizer.tokenize('Hola amigo. Estoy bien.')

['Hola amigo.', 'Estoy bien.']

In [12]:
spanish_tokenizer

<nltk.tokenize.punkt.PunktSentenceTokenizer at 0x1a1d2a4dd8>

### Dividindo uma frase em palavras

In [13]:
from nltk.tokenize import word_tokenize

In [14]:
word_tokenize('Data Science Academy')

['Data', 'Science', 'Academy']

In [15]:
from nltk.tokenize import TreebankWordTokenizer

In [16]:
tokenizer = TreebankWordTokenizer()

In [17]:
tokenizer.tokenize('Hello World.')

['Hello', 'World', '.']

In [18]:
word_tokenize("can't")

['ca', "n't"]

In [19]:
from nltk.tokenize import WordPunctTokenizer

In [20]:
tokenizer = WordPunctTokenizer()

In [21]:
tokenizer.tokenize("Can't is a contraction.")

['Can', "'", 't', 'is', 'a', 'contraction', '.']

In [22]:
from nltk.tokenize import RegexpTokenizer

In [23]:
tokenizer = RegexpTokenizer("[\w']+")

In [24]:
tokenizer.tokenize("Can't is a contraction.")

["Can't", 'is', 'a', 'contraction']

In [25]:
from nltk.tokenize import regexp_tokenize

In [26]:
regexp_tokenize("Can't is a contraction.", "[\w']+")

["Can't", 'is', 'a', 'contraction']

In [27]:
tokenizer = RegexpTokenizer('\s+', gaps = True)

In [28]:
tokenizer.tokenize("Can't is a contraction.")

["Can't", 'is', 'a', 'contraction.']

### Treinando um Tokenizer

In [29]:
from nltk.tokenize import PunktSentenceTokenizer
from nltk.corpus import webtext

In [30]:
# /Users/dmpm/nltk_data/corpora/webtext
texto = webtext.raw('overheard.txt')

In [31]:
sent_tokenizer = PunktSentenceTokenizer(texto)

In [32]:
sents1 = sent_tokenizer.tokenize(texto)

In [33]:
sents1[0]

'White guy: So, do you have any plans for this evening?'

In [34]:
from nltk.tokenize import sent_tokenize

In [35]:
sents2 = sent_tokenize(texto)

In [36]:
sents2[0]

'White guy: So, do you have any plans for this evening?'

In [37]:
sents1[678]

'Girl: But you already have a Big Mac...'

In [38]:
sents2[678]

'Girl: But you already have a Big Mac...\nHobo: Oh, this is all theatrical.'

In [39]:
# Inserindo caminho em sistema Windows
with open('/Users/dmpm/nltk_data/corpora/webtext/overheard.txt', encoding = 'ISO-8859-2') as f:
    texto = f.read()
    
# Path para o Windows
# with open('C:/Users/usuario/AppData/Roaming/nltk_data/corpora/webtext/overheard.txt', encoding = 'ISO-8859-2') as f:
#    texto = f.read()

In [40]:
sent_tokenizer = PunktSentenceTokenizer(texto)

In [41]:
sents = sent_tokenizer.tokenize(texto)

In [42]:
sents[0]

'White guy: So, do you have any plans for this evening?'

In [43]:
sents[678]

'Girl: But you already have a Big Mac...'

## Stopwords

Stopwords são palavras comuns que normalmente não contribuem para o significado de uma frase, pelo menos com relação ao propósito da informação e do processamento da linguagem natural. São palavras como "The" e "a" ((em inglês) ou "O/A" e "Um/Uma" ((em português). Muitos mecanismos de busca filtram estas palavras (stopwords), como forma de economizar espaço em seus índices de pesquisa.

In [44]:
from nltk.corpus import stopwords

In [45]:
english_stops = set(stopwords.words('english'))

In [46]:
words = ["Can't", 'is', 'a', 'contraction']

In [47]:
[word for word in words if word not in english_stops]

["Can't", 'contraction']

In [48]:
portuguese_stops = set(stopwords.words('portuguese'))

In [49]:
palavras = ["Aquilo", 'é', 'um', 'gato']

In [50]:
[palavra for palavra in palavras if palavra not in portuguese_stops]

['Aquilo', 'é', 'gato']

In [51]:
stopwords.fileids()

['arabic',
 'azerbaijani',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish',
 'turkish']

In [52]:
stopwords.words('portuguese')

['de',
 'a',
 'o',
 'que',
 'e',
 'do',
 'da',
 'em',
 'um',
 'para',
 'com',
 'não',
 'uma',
 'os',
 'no',
 'se',
 'na',
 'por',
 'mais',
 'as',
 'dos',
 'como',
 'mas',
 'ao',
 'ele',
 'das',
 'à',
 'seu',
 'sua',
 'ou',
 'quando',
 'muito',
 'nos',
 'já',
 'eu',
 'também',
 'só',
 'pelo',
 'pela',
 'até',
 'isso',
 'ela',
 'entre',
 'depois',
 'sem',
 'mesmo',
 'aos',
 'seus',
 'quem',
 'nas',
 'me',
 'esse',
 'eles',
 'você',
 'essa',
 'num',
 'nem',
 'suas',
 'meu',
 'às',
 'minha',
 'numa',
 'pelos',
 'elas',
 'qual',
 'nós',
 'lhe',
 'deles',
 'essas',
 'esses',
 'pelas',
 'este',
 'dele',
 'tu',
 'te',
 'vocês',
 'vos',
 'lhes',
 'meus',
 'minhas',
 'teu',
 'tua',
 'teus',
 'tuas',
 'nosso',
 'nossa',
 'nossos',
 'nossas',
 'dela',
 'delas',
 'esta',
 'estes',
 'estas',
 'aquele',
 'aquela',
 'aqueles',
 'aquelas',
 'isto',
 'aquilo',
 'estou',
 'está',
 'estamos',
 'estão',
 'estive',
 'esteve',
 'estivemos',
 'estiveram',
 'estava',
 'estávamos',
 'estavam',
 'estivera',
 'es

### Wordnet

WordNet é um banco de dados léxico (em Inglês). É uma espécie de dicionário criado especificamente para processamento de linguagem natural.

In [53]:
from nltk.corpus import wordnet

In [54]:
syn = wordnet.synsets('cookbook')[0]

In [55]:
syn.name()

'cookbook.n.01'

In [56]:
syn.definition()

'a book of recipes and cooking directions'

In [57]:
wordnet.synsets('cooking')[0].examples()

['cooking can be a great art',
 'people are needed who have experience in cookery',
 'he left the preparation of meals to his wife']

## Collocations

Collocations são duas ou mais palavras que tendem a aparecer frequentemente juntas, como "Estados Unidos" ou "Rio Grande do Sul". Essas palavras podem gerar diversas combinações e por isso o contexto também é importante no processamento de linguagem natural.

In [58]:
from nltk.corpus import webtext
from nltk.collocations import BigramCollocationFinder
from nltk.metrics import BigramAssocMeasures

In [59]:
words = [w.lower() for w in webtext.words('grail.txt')]

In [60]:
bcf = BigramCollocationFinder.from_words(words)

In [61]:
bcf.nbest(BigramAssocMeasures.likelihood_ratio, 4)

[("'", 's'), ('arthur', ':'), ('#', '1'), ("'", 't')]

In [62]:
from nltk.corpus import stopwords

In [63]:
stopset = set(stopwords.words('english'))

In [64]:
filter_stops = lambda w: len(w) < 3 or w in stopset

In [65]:
bcf.apply_word_filter(filter_stops)

In [66]:
bcf.nbest(BigramAssocMeasures.likelihood_ratio, 4)

[('black', 'knight'),
 ('clop', 'clop'),
 ('head', 'knight'),
 ('mumble', 'mumble')]

## Stemming Words

Stemming é a técnica de remover sufixos e prefixos de uma palavra, chamada stem. Por exemplo, o stem da palavra cooking é cook. Um bom algoritmo sabe que "ing" é um sufixo e pode ser removido. Stemming é muito usado em mecanismos de buscas para indexação de palavras. Ao invés de armazenar todas as formas de uma palavras, um mecamismo de busca armazena apenas o stem da palavra, reduzindo o tamanho do índice e aumentando a performance do processo de busca.

In [67]:
from nltk.stem import PorterStemmer

In [68]:
stemmer = PorterStemmer()

In [69]:
stemmer.stem('cooking')

'cook'

In [70]:
stemmer.stem('cookery')

'cookeri'

In [71]:
from nltk.stem import LancasterStemmer

In [72]:
stemmer = LancasterStemmer()

In [73]:
stemmer.stem('cooking')

'cook'

In [74]:
stemmer.stem('cookery')

'cookery'

In [75]:
from nltk.stem import RegexpStemmer

In [76]:
stemmer = RegexpStemmer('ing')

In [77]:
stemmer.stem('cooking')

'cook'

In [78]:
from nltk.stem import SnowballStemmer

In [79]:
SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [80]:
spanish_stemmer = SnowballStemmer('portuguese')

In [81]:
spanish_stemmer.stem('Tudo bem')

'tudo b'

### Corpus

Corpus é uma coleção de documentos de texto e Corpora é o plural de Corpus. Esse termo vem da palavra em Latim para corpo (nesse caso, o corpo de um texto). Um Corpus customizado é uma coleção de arquivos de texto organizados em um diretório.

Se você for treinar seu próprio modelo como parte de um processo de classificação de texto (como análise de texto), você ter;a que criar seu próprio Corpus e treiná-lo.

In [82]:
from nltk.corpus.reader import WordListCorpusReader

In [83]:
# Criando um Corpus (arquivo palavras.txt no mesmo diretório do Jupyter Notebook)
reader = WordListCorpusReader('.', ['palavras.txt'])

In [84]:
reader.words()

['Big Data', 'Data Science', 'Inteligência Artificial', 'Deep Learning']

In [85]:
reader.fileids()

['palavras.txt']

In [86]:
reader.raw()

'Big Data\nData Science\nInteligência Artificial\nDeep Learning'

In [87]:
from nltk.tokenize import line_tokenize

In [88]:
line_tokenize(reader.raw())

['Big Data', 'Data Science', 'Inteligência Artificial', 'Deep Learning']

In [89]:
from nltk.corpus import brown

In [90]:
brown.categories()

['adventure',
 'belles_lettres',
 'editorial',
 'fiction',
 'government',
 'hobbies',
 'humor',
 'learned',
 'lore',
 'mystery',
 'news',
 'religion',
 'reviews',
 'romance',
 'science_fiction']

# Fim

### Obrigado - Data Science Academy - <a href="http://facebook.com/dsacademybr">facebook.com/dsacademybr</a>