## **Minerando Dados - A maior comunidade de Data Science do Brasil**
www.minerandodados.com.br

# NLTK - Text Mining

* Exploraremos recursos da nltk
* Manipulação de textos de recursos para trabalho com NLP

In [None]:
import nltk

In [None]:
from nltk.tokenize import word_tokenize, sent_tokenize
texto = "A casa era feita de Papel. Pablo ganhou na megasena. A baleia é azul"

**Tokenization da frase**

In [None]:
word_tokenize(texto)

** Detectando sentenças**

In [None]:
sent_tokenize(texto)

## Trabalhando com a TextBlob

* Extensão da NLTK para trabalhos com NLP.
* Fácil usabilidade garantindo uma interface mais amigável.
* Documentação rica.
* Maior integrações com outros serviços e produtos.

**Instala a biblioteca**

In [None]:
!pip install textblob

** Baixando bases de dados utilizadas pela NLTK**

In [None]:
!python -m textblob.download_corpora

**Baixa apenas poucos dados para o minimo necessário**

In [None]:
# !python -m textblob.download_corpora lite

In [None]:
from textblob import TextBlob

In [None]:
frases = TextBlob("Python é uma ótima linguagem para Data Science. Minerando Dados a sua comunidade")

In [None]:
frases.tokens

**Detectando Sentenças**

In [None]:
frases.sentences

**Traduzindo sentenças**

* Detecção automática de idioma

In [None]:
frases.detect_language()

In [None]:
frases.translate(to='en')

* Explicitamente informando o idioma

In [None]:
frases.translate(from_lang='pt',to='en')

**Traduzindo sentenças para espanhol**

In [None]:
frases.translate(from_lang='pt',to='es')

**Correção automática**

In [None]:
frase = TextBlob('Eu tenhu que sair daqu hoji')

In [None]:
frase.correct()

**Corrigindo frases em Ingless**

In [None]:
frase = TextBlob('I havv othyr idea, ok !! comi on')

In [None]:
frase.correct()

**Trabalhando com n-grams**

* Bigram

In [None]:
frase = TextBlob("Python is a great language for Data Science")
frase.ngrams(n=2)

* Trigram

In [None]:
frase = TextBlob("Python is a great language for Data Science")
frase.ngrams(n=3)

* Fourgram

In [None]:
frase = TextBlob("Python is a great language for Data Science")
frase.ngrams(n=4)

# **Análise de Sentimentos**

* Análise de sentimentos usando a biblioteca **Pattern**.
* Por padrão o textblob utiliza base léxica.
* É possível alterar o classificador para utilizar Machine Learning.

In [None]:
frase = TextBlob("Python é uma ótima linguagem")

In [None]:
frase.sentiment

In [None]:
frase = TextBlob("Python is a great language for Data Science")

In [None]:
frase.sentiment

In [None]:
frase = TextBlob("Python is a terrible language!")
frase.sentiment

* Alterando o Classificador utilizado para Análise de Sentimentos

In [None]:
from textblob.sentiments import NaiveBayesAnalyzer

In [None]:
frase = TextBlob("Python is a great language for Data Science", analyzer=NaiveBayesAnalyzer())
frase.sentiment

## **Minerando Dados - A maior comunidade de Data Science do Brasil**
www.minerandodados.com.br