# NLTK - Text Mining

* Exploraremos recursos da nltk
* Manipulação de textos de recursos para trabalho com NLP

In [1]:
import nltk

In [2]:
from nltk.tokenize import word_tokenize, sent_tokenize
texto = "A casa era feita de Papel. Pablo ganhou na megasena. A baleia é azul"

**Tokenization da frase**

In [3]:
word_tokenize(texto)

['A',
 'casa',
 'era',
 'feita',
 'de',
 'Papel',
 '.',
 'Pablo',
 'ganhou',
 'na',
 'megasena',
 '.',
 'A',
 'baleia',
 'é',
 'azul']

** Detectando sentenças**

In [4]:
sent_tokenize(texto)

['A casa era feita de Papel.', 'Pablo ganhou na megasena.', 'A baleia é azul']

## Trabalhando com a TextBlob

* Extensão da NLTK para trabalhos com NLP.
* Fácil usabilidade garantindo uma interface mais amigável.
* Documentação rica.
* Maior integrações com outros serviços e produtos.

**Instala a biblioteca**

In [5]:
!pip install textblob

Collecting textblob
  Downloading textblob-0.17.1-py2.py3-none-any.whl (636 kB)
     ------------------------------------- 636.8/636.8 kB 13.3 MB/s eta 0:00:00
Installing collected packages: textblob
Successfully installed textblob-0.17.1


** Baixando bases de dados utilizadas pela NLTK**

In [6]:
!python -m textblob.download_corpora

Finished.


[nltk_data] Downloading package brown to
[nltk_data]     C:\Users\marci\AppData\Roaming\nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\marci\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\marci\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\marci\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package conll2000 to
[nltk_data]     C:\Users\marci\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\conll2000.zip.
[nltk_data] Downloading package movie_reviews to
[nltk_data]     C:\Users\marci\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\movie_reviews.zip.


**Baixa apenas poucos dados para o minimo necessário**

In [7]:
# !python -m textblob.download_corpora lite

In [8]:
from textblob import TextBlob

In [9]:
frases = TextBlob("Python é uma ótima linguagem para Data Science. Minerando Dados a sua comunidade")

In [10]:
frases.tokens

WordList(['Python', 'é', 'uma', 'ótima', 'linguagem', 'para', 'Data', 'Science', '.', 'Minerando', 'Dados', 'a', 'sua', 'comunidade'])

**Detectando Sentenças**

In [11]:
frases.sentences

[Sentence("Python é uma ótima linguagem para Data Science."),
 Sentence("Minerando Dados a sua comunidade")]

**Traduzindo sentenças**

* Detecção automática de idioma

In [14]:
# frases.detect_language()

In [15]:
# frases.translate(to='en')

* Explicitamente informando o idioma

In [16]:
frases.translate(from_lang='pt',to='en')

TextBlob("Python is a great language for data science. Mining data to your community")

**Traduzindo sentenças para espanhol**

In [17]:
frases.translate(from_lang='pt',to='es')

TextBlob("Python es un gran idioma para la ciencia de datos. Datos mineros a su comunidad")

**Correção automática**

In [18]:
frase = TextBlob('Eu tenhu que sair daqu hoji')

In [19]:
frase.correct()

TextBlob("U ten que said day how")

**Corrigindo frases em Ingless**

In [20]:
frase = TextBlob('I havv othyr idea, ok !! comi on')

In [21]:
frase.correct()

TextBlob("I have other idea, ok !! come on")

**Trabalhando com n-grams**

* Bigram

In [22]:
frase = TextBlob("Python is a great language for Data Science")
frase.ngrams(n=2)

[WordList(['Python', 'is']),
 WordList(['is', 'a']),
 WordList(['a', 'great']),
 WordList(['great', 'language']),
 WordList(['language', 'for']),
 WordList(['for', 'Data']),
 WordList(['Data', 'Science'])]

* Trigram

In [23]:
frase = TextBlob("Python is a great language for Data Science")
frase.ngrams(n=3)

[WordList(['Python', 'is', 'a']),
 WordList(['is', 'a', 'great']),
 WordList(['a', 'great', 'language']),
 WordList(['great', 'language', 'for']),
 WordList(['language', 'for', 'Data']),
 WordList(['for', 'Data', 'Science'])]

* Fourgram

In [24]:
frase = TextBlob("Python is a great language for Data Science")
frase.ngrams(n=4)

[WordList(['Python', 'is', 'a', 'great']),
 WordList(['is', 'a', 'great', 'language']),
 WordList(['a', 'great', 'language', 'for']),
 WordList(['great', 'language', 'for', 'Data']),
 WordList(['language', 'for', 'Data', 'Science'])]

# **Análise de Sentimentos**

* Análise de sentimentos usando a biblioteca **Pattern**.
* Por padrão o textblob utiliza base léxica.
* É possível alterar o classificador para utilizar Machine Learning.

In [25]:
frase = TextBlob("Python é uma ótima linguagem")

In [26]:
frase.sentiment

Sentiment(polarity=0.0, subjectivity=0.0)

In [27]:
frase = TextBlob("Python is a great language for Data Science")

In [28]:
frase.sentiment

Sentiment(polarity=0.8, subjectivity=0.75)

In [29]:
frase = TextBlob("Python is a terrible language!")
frase.sentiment

Sentiment(polarity=-1.0, subjectivity=1.0)

* Alterando o Classificador utilizado para Análise de Sentimentos

In [30]:
from textblob.sentiments import NaiveBayesAnalyzer

In [31]:
frase = TextBlob("Python is a great language for Data Science", analyzer=NaiveBayesAnalyzer())
frase.sentiment

Sentiment(classification='pos', p_pos=0.6635684561319586, p_neg=0.33643154386804197)