<a href="https://colab.research.google.com/github/brunatoloti/data-science-do-zero/blob/main/Minera%C3%A7%C3%A3o%20de%20Textos%20e%20NLP/mineracao_textos3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Trabalhando com a biblioteca TextBlob

Neste notebook, iremos trabalhar com a biblioteca TextBlob. Porém, antes, iremos ver mais alguns recursos da NLTK.

Importando as bibliotecas da NLTK

In [None]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize

Fazendo o download da base de corpus da NLTK

In [None]:
#nltk.download()

Vejamos que, usando a NLTK, conseguimos também fazer a tokenização de sentenças.

In [None]:
text = "A casa era feita de papel. Pedro ganhou na loteria. A baleia é azul."

Fazendo a tokenização da frase (tokenization)

In [None]:
word_tokenize(text)

['A',
 'casa',
 'era',
 'feita',
 'de',
 'papel',
 '.',
 'Pedro',
 'ganhou',
 'na',
 'loteria',
 '.',
 'A',
 'baleia',
 'é',
 'azul',
 '.']

Detectando sentenças

In [None]:
sent_tokenize(text)

['A casa era feita de papel.', 'Pedro ganhou na loteria.', 'A baleia é azul.']

##TextBlob

*   Extensão da NLTK para trabalhos com NLP.
*   Fácil usabilidade.
*   Documentação rica.
*   Maior integrações com outros serviços e produtos.

Instalando a biblioteca

In [None]:
!pip install textblob



Baixando bases de dados utilizadas pels NLTK

In [None]:
!python -m textblob.download_corpora

[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package conll2000 to /root/nltk_data...
[nltk_data]   Package conll2000 is already up-to-date!
[nltk_data] Downloading package movie_reviews to /root/nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!
Finished.


Importando a biblioteca

In [None]:
from textblob import TextBlob

In [None]:
sentences = TextBlob("Python é uma ótima linguagem para Data Science. Minerando Dados é a sua comunidade.")

**Tokenização de frases e detecção de sentenças**

Fazendo a tokenização da frase

In [None]:
sentences.tokens

WordList(['Python', 'é', 'uma', 'ótima', 'linguagem', 'para', 'Data', 'Science', '.', 'Minerando', 'Dados', 'é', 'a', 'sua', 'comunidade', '.'])

Detectando sentenças

In [None]:
sentences.sentences

[Sentence("Python é uma ótima linguagem para Data Science."),
 Sentence("Minerando Dados é a sua comunidade.")]

**Tradução de frases**

*   A TextBlob utiliza a API do Google Translator para fazer a tradução.

Traduzindo a frase

*   Detecção automática do idioma

In [None]:
sentences.detect_language()

'pt'

*   Traduzindo a frase para o inglês.

In [None]:
sentences.translate(to='en')

TextBlob("Python is a great language for Data Science. Data mining is your community.")

*   Informando o idioma explicitamente e traduzindo a frase para o inglês (nem sempre a detecção automática de idioma se sai bem)

In [None]:
sentences.translate(from_lang='pt', to='en')

TextBlob("Python is a great language for Data Science. Data mining is your community.")

Traduzindo a frase para o espanhol

In [None]:
sentences.translate(from_lang='pt', to='es')

TextBlob("Python es un gran lenguaje para la ciencia de datos. La minería de datos es tu comunidad.")

**Correção automática**

*   A biblioteca TextBlob possui um método de correção automática, o *correct()*.
*   Porém, essa parte de correção automática dessa biblioteca ainda não se sai bem com o idioma português. Funciona muito bem com o inglês.

In [None]:
sentence = TextBlob('Eu tenhu que sair daqu hoji')

In [None]:
sentence.correct()

TextBlob("U ten que said day how")

Observe que o método não identificou que o idioma era português e tentou fazer a correção das palavras para o inglês.

Vemos, com isso, que ainda há falhas com o idioma português.

Vejamos o resultado de uma correção automática de frases em inglês

In [None]:
sentence = TextBlob('I havv othyr idea, ok !! comi on')

In [None]:
sentence.correct()

TextBlob("I have other idea, ok !! come on")

Observe que, de fato, o método corrigiu perfeitamente a frase em inglês.

**Trabalhando com n-grams com a biblioteca TextBlob**

*   Bigram

In [None]:
sentence = TextBlob('Python is a great language for Data Science')
sentence.ngrams(n=2)

[WordList(['Python', 'is']),
 WordList(['is', 'a']),
 WordList(['a', 'great']),
 WordList(['great', 'language']),
 WordList(['language', 'for']),
 WordList(['for', 'Data']),
 WordList(['Data', 'Science'])]

*   Trigram

In [None]:
sentence = TextBlob('Python is a great language for Data Science')
sentence.ngrams(n=3)

[WordList(['Python', 'is', 'a']),
 WordList(['is', 'a', 'great']),
 WordList(['a', 'great', 'language']),
 WordList(['great', 'language', 'for']),
 WordList(['language', 'for', 'Data']),
 WordList(['for', 'Data', 'Science'])]

*   Fourgram

In [None]:
sentence = TextBlob('Python is a great language for Data Science')
sentence.ngrams(n=4)

[WordList(['Python', 'is', 'a', 'great']),
 WordList(['is', 'a', 'great', 'language']),
 WordList(['a', 'great', 'language', 'for']),
 WordList(['great', 'language', 'for', 'Data']),
 WordList(['language', 'for', 'Data', 'Science'])]

###Análise de sentimentos com TextBlob

*   Para fazer a análise de sentimentos, a TextBlob utiliza a biblioteca Pattern.
*   Por padrão, a TextBlob usa base léxica.
*   É possível alterar o classificador para utilizar Machine Learning.

In [None]:
sentence = TextBlob('Python é uma ótima linguagem')

Utilizando o método *sentiment* para imprimir o sentimento da frase

In [None]:
sentence.sentiment

Sentiment(polarity=0.0, subjectivity=0.0)

Obsever que tivemos polaridade=0 e subjetividade=0, ou seja, o método não conseguiu classificar o sentimento dessa frase. Isso foi ocasionado pelo fato de a frase estar em português. (Esse método também não performa bem em português, por enquanto). Ou seja, há uma limitação em relação ao idioma.

Fazendo o mesmo com uma frase em inglês.

In [None]:
sentence = TextBlob('Python is a great language for Data Science')

In [None]:
sentence.sentiment

Sentiment(polarity=0.8, subjectivity=0.75)

A escala de polaridade vai de -1 a 1. Como a polaridade deu 0.8, essa frase é muito positiva.

A escala de subjetividade vai de 0 a 1. Como a subjetividade deu 0.75, essa frase pode ser considerada mais subjetiva do que objetiva.

Vejamos com outra frase em inglês

In [None]:
sentence = TextBlob('Python is a terrible language!')
sentence.sentiment

Sentiment(polarity=-1.0, subjectivity=1.0)

A escala de polaridade vai de -1 a 1. Como a polaridade deu -1, essa frase é muito negativa.

A escala de subjetividade vai de 0 a 1. Como a subjetividade deu 1, essa frase é bastante subjetiva.

Alterando o classificador utilizado para a Análise de Sentimentos.

Aqui, vamos utilizar o classificador de Naive Bayes (esse classificador vem da NLTK e é treinado com a base de Tweets da mesma). Logo, a biblioteca utilizará Machine Learning.

In [None]:
from textblob.sentiments import NaiveBayesAnalyzer

In [None]:
sentence = TextBlob('Python is a great language for Data Science', analyzer=NaiveBayesAnalyzer())
sentence.sentiment

Sentiment(classification='pos', p_pos=0.6635684561319586, p_neg=0.33643154386804197)

Com o Naive Bayes, a frase foi classificada como uma frase positiva. Observe que nos foi retornado a probabilidade de a frase ser positiva e de a frase ser negativa. Como a probabilidade de ser positiva é maior, a frase foi classificada como positiva.