# Estudando NLP

O que eu pretendo usar: CSTNews Corpus


NLTK;

Portuguese Examples: http://www.nltk.org/howto/portuguese_en.html

In [1]:
import nltk

# 1. Tokenização

## 1.1 Tokenização em setenças

Token é um pedaço de um todo, então: 

- uma palavra é um token em uma sentença;
- uma sentença é um token em um paragrafo.

Logo separar um paragrafo em sentenças é tokenizar sentenças.

In [2]:
from nltk.tokenize import sent_tokenize

f = open('sample.txt')
dataset = f.read()

sentence_tokenized = sent_tokenize(dataset)
print(sentence_tokenized)

['Um acidente aéreo na localidade de Bukavu, no leste da República Democrática do Congo, matou 17 pessoas na quinta-feira à tarde, informou hoje um porta-voz das Nações Unidas.', 'As vítimas do acidente foram 14 passageiros e três membros da tripulação.', 'Todos morreram quando o avião, prejudicado pelo mau tempo, não conseguiu chegar à pista de aterrissagem e caiu numa floresta a 15 Km do aeroporto de Bukavu.', 'O avião explodiu e se incendiou, acrescentou o porta-voz da ONU em Kinshasa, Jean-Tobias Okala.', '"Não houve sobreviventes", disse Okala.', 'O porta-voz informou que o avião, um Soviet Antonov-28 de fabricação ucraniana e propriedade de uma companhia congolesa, a Trasept Congo, também levava uma carga de minerais.', 'Segundo fontes aeroportuárias, os membros da tripulação eram de nacionalidade russa.']


In [3]:
len(sentence_tokenized)

7

### Tokenização em Português!

In [4]:
import nltk.data
portuguese_tokenizer = nltk.data.load('tokenizers/punkt/PY3/portuguese.pickle')
portuguese_tokenizer.tokenize(dataset)

['Um acidente aéreo na localidade de Bukavu, no leste da República Democrática do Congo, matou 17 pessoas na quinta-feira à tarde, informou hoje um porta-voz das Nações Unidas.',
 'As vítimas do acidente foram 14 passageiros e três membros da tripulação.',
 'Todos morreram quando o avião, prejudicado pelo mau tempo, não conseguiu chegar à pista de aterrissagem e caiu numa floresta a 15 Km do aeroporto de Bukavu.',
 'O avião explodiu e se incendiou, acrescentou o porta-voz da ONU em Kinshasa, Jean-Tobias Okala.',
 '"Não houve sobreviventes", disse Okala.',
 'O porta-voz informou que o avião, um Soviet Antonov-28 de fabricação ucraniana e propriedade de uma companhia congolesa, a Trasept Congo, também levava uma carga de minerais.',
 'Segundo fontes aeroportuárias, os membros da tripulação eram de nacionalidade russa.']

## 1.2 Tokenização em palavras

In [5]:
from nltk.tokenize import word_tokenize

first_sentence_word_tokenized = word_tokenize(sentence_tokenized[0])
print(first_sentence_word_tokenized)## 1.3 Tokenização com expressão regular

['Um', 'acidente', 'aéreo', 'na', 'localidade', 'de', 'Bukavu', ',', 'no', 'leste', 'da', 'República', 'Democrática', 'do', 'Congo', ',', 'matou', '17', 'pessoas', 'na', 'quinta-feira', 'à', 'tarde', ',', 'informou', 'hoje', 'um', 'porta-voz', 'das', 'Nações', 'Unidas', '.']


## 1.3 Tokenização com expressão regular

Por exemplo para pegar apenas palavras em um texto

In [6]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w']+")

first_sentence_word_tokenized_without_punctuation = tokenizer.tokenize(sentence_tokenized[0])
print(first_sentence_word_tokenized_without_punctuation)

['Um', 'acidente', 'aéreo', 'na', 'localidade', 'de', 'Bukavu', 'no', 'leste', 'da', 'República', 'Democrática', 'do', 'Congo', 'matou', '17', 'pessoas', 'na', 'quinta', 'feira', 'à', 'tarde', 'informou', 'hoje', 'um', 'porta', 'voz', 'das', 'Nações', 'Unidas']


## 1.4 Treinando um tokenizador de sentenças

O tokenizador do NLTK é para uso geral, nem sempre é a melhor opção para textos, dependendo da formatação do texto. 

In [7]:
from nltk.tokenize import PunktSentenceTokenizer
from nltk.corpus import webtext

text = webtext.raw('overheard.txt')
sent_tokenizer = PunktSentenceTokenizer(text)

In [8]:
sents = sent_tokenizer.tokenize(text)
sents[0:10]

['White guy: So, do you have any plans for this evening?',
 'Asian girl: Yeah, being angry!',
 'White guy: Oh, that sounds good.',
 'Guy #1: So this Jack guy is basically the luckiest man in the world.',
 "Guy #2: Why, because he's survived like 5 attempts on his life and it's not even noon?",
 'Guy #1: No; he could totally nail those two chicks.',
 'Dad: Could you tell me where the auditorium is?',
 "Security guy: It's on the second floor.",
 "Dad: Wait, you mean it's actually in the building?",
 "Girl: But, I mean, it's not like I ever plan on giving birth."]

Como podemos observador, as sentenças são separadas (tokenizadas) em conversas, por que o `PunktSentenceTokenizer` usa um algorítmo de unsupervised learning para aprender o que constitui uma quebra de sentença. É não-supervisionado por que você não precisa dar nenhum texto para treinamento do algoritmo, apenas o texto em si.

## 1.5 Filtrando stopwords

Stopwords são palavras que geralmente não contribuem para o significado de uma sentença.

In [9]:
from nltk.corpus import stopwords

portuguese_stops = set(stopwords.words('portuguese'))
words = first_sentence_word_tokenized_without_punctuation

words_without_stop = [word for word in words if word not in portuguese_stops]
print(words_without_stop)

['Um', 'acidente', 'aéreo', 'localidade', 'Bukavu', 'leste', 'República', 'Democrática', 'Congo', 'matou', '17', 'pessoas', 'quinta', 'feira', 'tarde', 'informou', 'hoje', 'porta', 'voz', 'Nações', 'Unidas']


# 2. Substituindo e corrigindo palavras

## 1.1 Stemming 

Stemming é a técnica que remove os afixos das palavras, deixando apenas seu radical, existe uma versão em Português que é `RSLPStemmer`

In [10]:
from nltk.stem import RSLPStemmer

stemmer = RSLPStemmer()
stem_acidente = stemmer.stem(words_without_stop[1]) #acidente
print(stem_acidente)

acid


Outro stemmer que pode ser usado é o SnowballStemmer, que tem opção pt-br:

In [18]:
from nltk.stem import SnowballStemmer

stem_acidente = SnowballStemmer('portuguese')
stem_acidente.stem(words_without_stop[1]) #acidente

'acident'

Os resultados foram diferentes como podemos notar, então vale ver qual a aplicação, para decidir qual é o melhor.

## 3. Transformando texto raw no formato do NLTK

NLTK tem seu formato de texto padrão, para converter o que é preciso ser feito:

- Tokenizar o texto em palavras
- Usar método de conversão para `nltk.txt``

### 3.1 Tokenizando em palavras

In [12]:
text_tokenized = word_tokenize(dataset)
type(text_tokenized)

list

### 3.2 Convertendo

In [13]:
text_format = nltk.Text(text_tokenized)
type(text_format)

nltk.text.Text

By transforming a raw text into a text we can use more NLTK features

### Análise de estrutura de texto

A concordância nos permite ver palavras em contexto.

In [14]:
text_format.concordance('acidente')

Displaying 2 of 2 matches:
                                   acidente aéreo na localidade de Bukavu , no
 das Nações Unidas . As vítimas do acidente foram 14 passageiros e três membro


In [15]:
text_format.similar('um')




In [16]:
text_format.collocations()




Análisando a frequência relativa de palavras

In [17]:
from nltk import FreqDist

fd1 = FreqDist(text_format)
print(dict(fd1))

{'Um': 1, 'acidente': 2, 'aéreo': 1, 'na': 2, 'localidade': 1, 'de': 7, 'Bukavu': 2, ',': 12, 'no': 1, 'leste': 1, 'da': 4, 'República': 1, 'Democrática': 1, 'do': 3, 'Congo': 2, 'matou': 1, '17': 1, 'pessoas': 1, 'quinta-feira': 1, 'à': 2, 'tarde': 1, 'informou': 2, 'hoje': 1, 'um': 2, 'porta-voz': 3, 'das': 1, 'Nações': 1, 'Unidas': 1, '.': 7, 'As': 1, 'vítimas': 1, 'foram': 1, '14': 1, 'passageiros': 1, 'e': 4, 'três': 1, 'membros': 2, 'tripulação': 2, 'Todos': 1, 'morreram': 1, 'quando': 1, 'o': 3, 'avião': 3, 'prejudicado': 1, 'pelo': 1, 'mau': 1, 'tempo': 1, 'não': 1, 'conseguiu': 1, 'chegar': 1, 'pista': 1, 'aterrissagem': 1, 'caiu': 1, 'numa': 1, 'floresta': 1, 'a': 2, '15': 1, 'Km': 1, 'aeroporto': 1, 'O': 2, 'explodiu': 1, 'se': 1, 'incendiou': 1, 'acrescentou': 1, 'ONU': 1, 'em': 1, 'Kinshasa': 1, 'Jean-Tobias': 1, 'Okala': 2, '``': 1, 'Não': 1, 'houve': 1, 'sobreviventes': 1, "''": 1, 'disse': 1, 'que': 1, 'Soviet': 1, 'Antonov-28': 1, 'fabricação': 1, 'ucraniana': 1, 'prop