## **Minerando Dados - A maior comunidade de Data Science do Brasil**
www.minerandodados.com.br

# NLTK - Text Mining

* Exploraremos recursos da nltk
* Manipulação de textos de recursos para trabalho com NLP

In [1]:
import nltk

In [3]:
from nltk.tokenize import word_tokenize, sent_tokenize

In [4]:
texto='A casa era feita de Papel. Pablo ganhou na megasena. A baleia é azul.'

**Tokenization da frase**

In [5]:
word_tokenize(texto)

['A',
 'casa',
 'era',
 'feita',
 'de',
 'Papel',
 '.',
 'Pablo',
 'ganhou',
 'na',
 'megasena',
 '.',
 'A',
 'baleia',
 'é',
 'azul',
 '.']

** Detectando sentenças**

In [6]:
sent_tokenize(texto)

['A casa era feita de Papel.', 'Pablo ganhou na megasena.', 'A baleia é azul.']

## Trabalhando com a TextBlob

* Extensão da NLTK para trabalhos com NLP.
* Fácil usabilidade garantindo uma interface mais amigável.
* Documentação rica.
* Maior integrações com outros serviços e produtos.

**Instala a biblioteca**

In [7]:
!pip install textblob

Collecting textblob
  Downloading textblob-0.15.3-py2.py3-none-any.whl (636 kB)
Installing collected packages: textblob
Successfully installed textblob-0.15.3


** Baixando bases de dados utilizadas pela NLTK**

In [None]:
!python -m textblob.download_corpora

**Baixa apenas poucos dados para o minimo necessário**

In [None]:
# !python -m textblob.download_corpora lite

In [8]:
from textblob import TextBlob

In [9]:
frases=TextBlob('Python é uma ótima linguagem para Data Science. Minerando Dados a sua comunidade.')

In [10]:
frases.tokens

WordList(['Python', 'é', 'uma', 'ótima', 'linguagem', 'para', 'Data', 'Science', '.', 'Minerando', 'Dados', 'a', 'sua', 'comunidade', '.'])

**Detectando Sentenças**

In [11]:
frases.sentences

[Sentence("Python é uma ótima linguagem para Data Science."),
 Sentence("Minerando Dados a sua comunidade.")]

**Traduzindo sentenças**

* Detecção automática de idioma

In [12]:
frases.detect_language()

'pt'

In [13]:
frases.translate(to='en')

TextBlob("Python is a great language for Data Science. Mining data to your community.")

* Explicitamente informando o idioma

In [14]:
frases.translate(from_lang='pt', to='en')

TextBlob("Python is a great language for Data Science. Mining data to your community.")

**Traduzindo sentenças para espanhol**

In [15]:
frases.translate(from_lang='pt', to='es')

TextBlob("Python es un gran lenguaje para la ciencia de datos. Minería de datos a su comunidad.")

**Correção automática**

In [16]:
frase=TextBlob('Eu tenhu que sair daqu hoji.')

In [17]:
frase.correct()

TextBlob("U ten que said day how.")

**Corrigindo frases em Ingless**

In [18]:
frase=TextBlob('I havv othyr idea, ok !! comi on')

In [19]:
frase.correct()

TextBlob("I have other idea, ok !! come on")

**Trabalhando com n-grams**

* Bigram

In [20]:
frase=TextBlob('Python is a great language for Data Science')
frase.ngrams(n=2)

[WordList(['Python', 'is']),
 WordList(['is', 'a']),
 WordList(['a', 'great']),
 WordList(['great', 'language']),
 WordList(['language', 'for']),
 WordList(['for', 'Data']),
 WordList(['Data', 'Science'])]

* Trigram

In [21]:
frase.ngrams(n=3)

[WordList(['Python', 'is', 'a']),
 WordList(['is', 'a', 'great']),
 WordList(['a', 'great', 'language']),
 WordList(['great', 'language', 'for']),
 WordList(['language', 'for', 'Data']),
 WordList(['for', 'Data', 'Science'])]

* Fourgram

In [22]:
frase.ngrams(n=4)

[WordList(['Python', 'is', 'a', 'great']),
 WordList(['is', 'a', 'great', 'language']),
 WordList(['a', 'great', 'language', 'for']),
 WordList(['great', 'language', 'for', 'Data']),
 WordList(['language', 'for', 'Data', 'Science'])]

# **Análise de Sentimentos**

* Análise de sentimentos usando a biblioteca **Pattern**.
* Por padrão o textblob utiliza base léxica.
* É possível alterar o classificador para utilizar Machine Learning.

In [23]:
frase=TextBlob('Python é uma ótima linguagem')

In [24]:
frase.sentiment

Sentiment(polarity=0.0, subjectivity=0.0)

In [25]:
frase=TextBlob('Python is a great language for Data Science')

In [26]:
frase.sentiment

Sentiment(polarity=0.8, subjectivity=0.75)

In [27]:
frase=TextBlob('Python is a terrible language!')

In [28]:
frase.sentiment

Sentiment(polarity=-1.0, subjectivity=1.0)

* Alterando o Classificador utilizado para Análise de Sentimentos

In [29]:
from textblob.sentiments import NaiveBayesAnalyzer

In [30]:
frase=TextBlob('Python is a great language for Data Science',analyzer=NaiveBayesAnalyzer())

In [31]:
frase.sentiment

Sentiment(classification='pos', p_pos=0.6635684561319586, p_neg=0.33643154386804197)

## **Minerando Dados - A maior comunidade de Data Science do Brasil**
www.minerandodados.com.br