# NLTK - Text Mining

* Exploraremos recursos da nltk
* Manipulação de textos de recursos para trabalho com NLP

In [1]:
import nltk

In [2]:
from nltk.tokenize import word_tokenize, sent_tokenize # tokenização de palavras e sentenças
texto = "A casa era feita de Papel. Pablo ganhou na megasena. A baleia é azul"

## Word Tokenize e Sentence Tokenize

In [3]:
word_tokenize(texto)

['A',
 'casa',
 'era',
 'feita',
 'de',
 'Papel',
 '.',
 'Pablo',
 'ganhou',
 'na',
 'megasena',
 '.',
 'A',
 'baleia',
 'é',
 'azul']

In [4]:
sent_tokenize(texto)

['A casa era feita de Papel.', 'Pablo ganhou na megasena.', 'A baleia é azul']

## Trabalhando com a TextBlob

* Extensão da NLTK para trabalhos com NLP.
* Fácil usabilidade garantindo uma interface mais amigável.
* Documentação rica.
* Maior integrações com outros serviços e produtos.

In [5]:
#!pip install textblob

In [6]:
!python -m textblob.download_corpora

[nltk_data] Downloading package brown to /home/ls/nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package punkt to /home/ls/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /home/ls/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/ls/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package conll2000 to /home/ls/nltk_data...
[nltk_data]   Package conll2000 is already up-to-date!
[nltk_data] Downloading package movie_reviews to /home/ls/nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!
Finished.


In [None]:
# Baixa apenas poucos dados para o minimo necessário
#!python -m textblob.download_corpora lite

In [6]:
from textblob import TextBlob

In [7]:
frases = TextBlob("Python é uma ótima linguagem para Data Science. Minerando Dados é a sua comunidade")

In [12]:
frases

TextBlob("Python é uma ótima linguagem para Data Science. Minerando Dados é a sua comunidade")

In [13]:
frases.tokens

WordList(['Python', 'é', 'uma', 'ótima', 'linguagem', 'para', 'Data', 'Science', '.', 'Minerando', 'Dados', 'é', 'a', 'sua', 'comunidade'])

In [14]:
frases.sentences

[Sentence("Python é uma ótima linguagem para Data Science."),
 Sentence("Minerando Dados é a sua comunidade")]

In [15]:
# Explicitamente informando o idioma
frases.translate(from_lang='pt', to='en')

TextBlob("Python is a great language for data science. Mining data is your community")

In [16]:
frases.translate(from_lang='pt',to='es')

TextBlob("Python es un gran idioma para la ciencia de datos. Los datos mineros son su comunidad")

### Correção automática

In [17]:
frase = TextBlob('Eu tenhu que sair daqu hoji')

In [18]:
frase.correct()

TextBlob("U ten que said day how")

In [19]:
# Corrigindo frases em ingles
frase = TextBlob('I havv othyr idea, ok !! comi on')

In [20]:
frase.correct()

TextBlob("I have other idea, ok !! come on")

### Trabalhando com n-grams

#### Bigram

In [21]:
frase = TextBlob("Python is a great language for Data Science")
frase.ngrams(n=2)

[WordList(['Python', 'is']),
 WordList(['is', 'a']),
 WordList(['a', 'great']),
 WordList(['great', 'language']),
 WordList(['language', 'for']),
 WordList(['for', 'Data']),
 WordList(['Data', 'Science'])]

#### Trigram

In [22]:
frase = TextBlob("Python is a great language for Data Science")
frase.ngrams(n=3)

[WordList(['Python', 'is', 'a']),
 WordList(['is', 'a', 'great']),
 WordList(['a', 'great', 'language']),
 WordList(['great', 'language', 'for']),
 WordList(['language', 'for', 'Data']),
 WordList(['for', 'Data', 'Science'])]

#### Fourgram

In [23]:
frase = TextBlob("Python is a great language for Data Science")
frase.ngrams(n=4)

[WordList(['Python', 'is', 'a', 'great']),
 WordList(['is', 'a', 'great', 'language']),
 WordList(['a', 'great', 'language', 'for']),
 WordList(['great', 'language', 'for', 'Data']),
 WordList(['language', 'for', 'Data', 'Science'])]

### Análise de Sentimentos

* Análise de sentimentos usando a biblioteca **Pattern**.
* Por padrão o textblob utiliza base léxica.
* É possível alterar o classificador para utilizar Machine Learning.

In [24]:
frase = TextBlob("Python é uma ótima linguagem")

In [25]:
'''
The sentiment property returns a namedtuple of the form Sentiment(polarity, subjectivity). 
The polarity score is a float within the range [-1.0, 1.0]. If the polarity is 1.0 then it means that 
the sentence if probabily positive. If -1.0, then the sentence is probabily negative. 0.0 is neutral.
The subjectivity is a float within the range [0.0, 1.0] where 0.0 is very objective and 1.0 is 
very subjective
'''

frase.sentiment

Sentiment(polarity=0.0, subjectivity=0.0)

In [26]:
frase = TextBlob("Python is a great language for Data Science")

In [27]:
frase.sentiment

Sentiment(polarity=0.8, subjectivity=0.75)

In [28]:
frase = TextBlob("Python is a terrible language!")
frase.sentiment

Sentiment(polarity=-1.0, subjectivity=1.0)

In [29]:
# Alterando o Classificador utilizado para Análise de Sentimentos
from textblob.sentiments import NaiveBayesAnalyzer

In [30]:
frase = TextBlob("Python is a great language for Data Science", analyzer=NaiveBayesAnalyzer())
frase.sentiment

Sentiment(classification='pos', p_pos=0.6635684561319586, p_neg=0.33643154386804197)