# NLTK - Text Mining

* Exploraremos recursos da nltk
* Manipulação de textos de recursos para trabalho com NLP

In [2]:
import nltk

In [3]:
from nltk.tokenize import word_tokenize, sent_tokenize
texto = "A casa era feita de Papel. Pablo ganhou na megasena. A baleia é azul"

#### Tokenization da frase

In [5]:
word_tokenize(texto)

['A',
 'casa',
 'era',
 'feita',
 'de',
 'Papel',
 '.',
 'Pablo',
 'ganhou',
 'na',
 'megasena',
 '.',
 'A',
 'baleia',
 'é',
 'azul']

#### Detectando sentenças

In [6]:
sent_tokenize(texto)

['A casa era feita de Papel.', 'Pablo ganhou na megasena.', 'A baleia é azul']

## Trabalhando com TextBlob 

 * Extensão da NLTK para trabalhos com NLP.
* Fácil usabilidade garantindo uma interface mais amigável.
* Documentação rica.
* Maior integrações com outros serviços e produtos.

**Instala a biblioteca**

In [7]:
!pip install textblob

Collecting textblob
  Using cached https://files.pythonhosted.org/packages/60/f0/1d9bfcc8ee6b83472ec571406bd0dd51c0e6330ff1a51b2d29861d389e85/textblob-0.15.3-py2.py3-none-any.whl
Installing collected packages: textblob
Successfully installed textblob-0.15.3


**Baixando bases de dados utilizadas pela NLTK**

In [8]:
!python -m textblob.download_corpora

Finished.


[nltk_data] Downloading package brown to
[nltk_data]     C:\Users\JOSE\AppData\Roaming\nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\JOSE\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\JOSE\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\JOSE\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package conll2000 to
[nltk_data]     C:\Users\JOSE\AppData\Roaming\nltk_data...
[nltk_data]   Package conll2000 is already up-to-date!
[nltk_data] Downloading package movie_reviews to
[nltk_data]     C:\Users\JOSE\AppData\Roaming\nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!


**Baixa apenas poucos dados para o minimo necessário**

In [10]:
# !python -m textblob.download_corpora lite

In [11]:
from textblob import TextBlob

In [12]:
frases = TextBlob("Python é uma ótima linguagem para Data Science. Minerando Dados a sua comunidade")

In [13]:
frases.tokens

WordList(['Python', 'é', 'uma', 'ótima', 'linguagem', 'para', 'Data', 'Science', '.', 'Minerando', 'Dados', 'a', 'sua', 'comunidade'])

#### Detectando Sentenças

In [17]:
frases.sentences

[Sentence("Python é uma ótima linguagem para Data Science."),
 Sentence("Minerando Dados a sua comunidade")]

#### Traduzindo sentenças

* Detecção automática de idioma

In [18]:
frases.detect_language()

'pt'

In [20]:
frases.translate(to='en')

TextBlob("Python is a great language for Data Science. Mining Data to Your Community")

* Explicitamente informando o idioma English

In [22]:
frases.translate(from_lang='pt', to='en')

TextBlob("Python is a great language for Data Science. Mining Data to Your Community")

* Explicitamente informando o idioma Espanhol

In [23]:
frases.translate(from_lang='pt', to='es')

TextBlob("Python es un gran lenguaje para la ciencia de datos. Datos mineros a su comunidad")

**Correção automática Não recomendado para PORTUGUÊS**

In [28]:
frase = TextBlob('Eu tenhu que sair daqu hoji')

In [29]:
frase.correct()

TextBlob("U ten que said day how")

**Corrigindo frases em Ingles**

In [32]:
frase = TextBlob('I havv othrr idea, ok !! comi on')

In [33]:
frase.correct()

TextBlob("I have other idea, ok !! come on")

#### Trabalhando com n-grams

* Bigram

In [36]:
frase = TextBlob("Python is a great language for Data Science")
frase.ngrams(n=2)

[WordList(['Python', 'is']),
 WordList(['is', 'a']),
 WordList(['a', 'great']),
 WordList(['great', 'language']),
 WordList(['language', 'for']),
 WordList(['for', 'Data']),
 WordList(['Data', 'Science'])]

* Trigram

In [39]:
frase = TextBlob("Python is a great language for Data Science")
frase.ngrams(n=3)

[WordList(['Python', 'is', 'a']),
 WordList(['is', 'a', 'great']),
 WordList(['a', 'great', 'language']),
 WordList(['great', 'language', 'for']),
 WordList(['language', 'for', 'Data']),
 WordList(['for', 'Data', 'Science'])]

* Fourgram

In [40]:
frase = TextBlob("Python is a great language for Data Science")
frase.ngrams(n=4)

[WordList(['Python', 'is', 'a', 'great']),
 WordList(['is', 'a', 'great', 'language']),
 WordList(['a', 'great', 'language', 'for']),
 WordList(['great', 'language', 'for', 'Data']),
 WordList(['language', 'for', 'Data', 'Science'])]

# **Análise de Sentimentos**

* Análise de sentimentos usando a biblioteca **Pattern**.
* Por padrão o textblob utiliza base léxica.
* É possível alterar o classificador para utilizar Machine Learning.

In [41]:
frase = TextBlob("Python é uma ótima linguagem") # Limitado ao idioma Inglês

In [43]:
frase.sentiment

Sentiment(polarity=0.0, subjectivity=0.0)

In [44]:
frase = TextBlob("Python is a great language for Data Science")

In [49]:
frase.sentiment # Polatirity vai de -1 muito negagativa a 1 muito positiva

Sentiment(polarity=-1.0, subjectivity=1.0)

In [46]:
frase = TextBlob("Python is a terrible language")

In [47]:
frase.sentiment

Sentiment(polarity=-1.0, subjectivity=1.0)

* Alterando o Classificador utilizado para Análise de Sentimentos

In [48]:
from textblob.sentiments import NaiveBayesAnalyzer

In [70]:
frase = TextBlob("Python is a great language for Data Science", analyzer=NaiveBayesAnalyzer())
frase.sentiment # Retorna a classe 'pos' e as probabilidade de cada classe pos e neg

Sentiment(classification='pos', p_pos=0.6635684561319586, p_neg=0.33643154386804197)