# **TextBlob: Simplified Text Processing**

## **Overview**

TextBlob é uma biblioteca de Python que tem como principal objetivo o processamento de textos. Este fornece uma API simples que permite aos utilizadores realizar tarefas comuns de PLN (Processamento de Linguagem Natural), tais como etiquetar textos, extrair nomes de frases, análise de sentimentos, classificação, tradução, entre outros.

O TextBlob dá uso às bibliotecas [NLTK (Natural Language Toolkit)](https://www.nltk.org/) e Pattern.

**Funcionalidades:**
- extração de nomes de frases
- etiquetar textos
- análise de sentimentos
- classificação (_Naive Bayes_ e _Decision Tree_)
- tokenização (dividir o texto em palavras e frases)
- frequência de palavras e frases
- _parsing_
- _n-grams_
- inflexão de palavras (colocar as palavras no plural ou no singular) e lematização
- corretor ortográfico
- adicionar novos modelos e linguagens através de extensões
- integração do [WordNet](https://wordnet.princeton.edu/)

## **Walkthrough**

### **Instalação:**

    $ pip install -U textblob
    $ python -m textblob.download_corpora

### **Criação de um TextBlob:**

In [1]:
from textblob import TextBlob

alice = TextBlob("Alice lived in a beautiful house.")

### **🗣 _Part-of-speech Tagging_**

O _Part of speech tagging_ (POS _tagging_) é um processo que atribui uma etiqueta a cada palavra de um texto, tendo em conta a sua definição e o contexto em que esta se encontra. 

Algumas das etiquetas disponíveis:
- **NN:** nome singular
- **JJ:** adjetivo
- **VBD:** verbo no passado
- **IN:** preposição
- **DT:** determinante
- **NNP:** nome próprio

[Referência](https://www.guru99.com/pos-tagging-chunking-nltk.html)

In [2]:
alice.tags

[('Alice', 'NNP'),
 ('lived', 'VBD'),
 ('in', 'IN'),
 ('a', 'DT'),
 ('beautiful', 'JJ'),
 ('house', 'NN')]

### **⛏ Extração de _noun phrases_**

In [3]:
alice.noun_phrases

WordList(['alice', 'beautiful house'])

### **😊 Análise de sentimentos**

A propriedade _sentiment_ retorna um tuplo com a seguinte forma:

        Sentiment(polarity, subjectivity)

no qual:
- **polarity:** float pertencente ao intervalo [-1.0, 1.0], onde valores negativos significam polaridade negativa e valores positivos significam polaridade positiva.
- **subjectivity:** float pertencente ao intervalo [0.0, 1.0], onde 0.0 significa muito objetivo e 1.0 significa muito subjetivo.

In [4]:
phrase = TextBlob("I'm feeling really incredible.")
phrase.sentiment

# Devolver apenas a polaridade
#wiki.sentiment.polarity

# Devolver apenas a subjetividade
#wiki.sentiment.subjectivity

Sentiment(polarity=0.9, subjectivity=0.9)

### **🔪 Tokenização:**

É possível repartir os TextBlobs em palavras ou em frases:

In [5]:
jude = TextBlob("Hey Jude, don't make it bad. Take a sad song and make it better. "
                "Remember to let her into your heart, then you can start to make it better.")

jude.words

WordList(['Hey', 'Jude', 'do', "n't", 'make', 'it', 'bad', 'Take', 'a', 'sad', 'song', 'and', 'make', 'it', 'better', 'Remember', 'to', 'let', 'her', 'into', 'your', 'heart', 'then', 'you', 'can', 'start', 'to', 'make', 'it', 'better'])

In [6]:
jude.sentences

[Sentence("Hey Jude, don't make it bad."),
 Sentence("Take a sad song and make it better."),
 Sentence("Remember to let her into your heart, then you can start to make it better.")]

**Nota:** Os objetos _sentence_ têm as mesmas propriedades e métodos que os TextBlobs.

### **📝 Inflexão e lematização de palavras**

Cada palavra presente em TextBlob.words e Sentence.words é um objeto Word que contém métodos úteis, como é o caso da inflexão de palavras (colocar palavras no plural ou no singular).

In [7]:
poirot = TextBlob("It is the brain, the little grey cells on which one must rely. One must seek the truth within - not without.")
poirot.words

WordList(['It', 'is', 'the', 'brain', 'the', 'little', 'grey', 'cells', 'on', 'which', 'one', 'must', 'rely', 'One', 'must', 'seek', 'the', 'truth', 'within', 'not', 'without'])

In [8]:
poirot.words[3].pluralize()

'brains'

In [9]:
poirot.words[7].singularize()

'cell'

In [10]:
from textblob import Word

Word("car").pluralize()

'cars'

Os objetos Word podem também ser lematizados através do método lemmatize:

In [11]:
from textblob import Word

w1 = Word("cars")
w1.lemmatize()

'car'

In [12]:
w2 = Word("am")

# Indicação do part of speech, neste caso um verbo (v)
w2.lemmatize("v")

'be'

### **📖 Integração do WordNet:**

É possível obter os [synsets](https://www.geeksforgeeks.org/nlp-synsets-for-a-word-in-wordnet/) de um objeto Word, bem como consultar a definição de cada um destes:

In [13]:
w3 = Word("rainbow")
w3.synsets

[Synset('rainbow.n.01'), Synset('rainbow.n.02')]

In [14]:
w3.definitions

["an arc of colored light in the sky caused by refraction of the sun's rays by rain",
 'an illusory hope']

### **💬 WordLists**

Uma WordList é uma lista de Python com métodos adicionais.

In [15]:
food = TextBlob("potato salad pastry")
food.words

WordList(['potato', 'salad', 'pastry'])

In [16]:
food.words.pluralize()

WordList(['potatoes', 'salads', 'pastries'])

### **❌ Spelling Correction**

In [17]:
wrong = TextBlob("Somewere over te ranbow")
print(wrong.correct())

Somewhere over te rainbow


Objetos do tipo Word possuem o método spellcheck() que retorna uma lista de tuplos do tipo:

    (word, confidence)

In [18]:
wrong.words[3].spellcheck()

[('rainbow', 1.0)]

O corretor presente nesta biblioteca é baseado no "How to Write a Spelling Corrector" do Peter Norvig e tem uma _accuracy_ de cerca de 70%.

### **🧮 Obter a frequência de nomes e _noun phrases_**

**1.º método:**

In [19]:
poirot.word_counts['one']

2

Este método não é _case sensitive_!

**2.º método:**

In [20]:
poirot.words.count('one', case_sensitive=True)

1

Este método permite especificar se a nossa procura é _case\_sensitive_ ou não através do parâmetro case_sensitive. Contudo, este é opcional e o seu valor _default_ é false.

Estes métodos podem também ser utilizados em _noun phrases_:

In [21]:
poirot.noun_phrases.count('grey cells')

1

### **🖖 Parsing** 

In [22]:
anotherPhrase = TextBlob("And the dreams that you dare to dream really do come true.")
print(anotherPhrase.parse())

And/CC/O/O the/DT/B-NP/O dreams/NNS/I-NP/O that/IN/B-PP/B-PNP you/PRP/B-NP/I-PNP dare/VB/B-VP/O to/TO/B-PP/B-PNP dream/NN/B-NP/I-PNP really/RB/B-VP/O do/VBP/I-VP/O come/VB/I-VP/O true/JJ/B-ADJP/O ././O/O


Este método utiliza a _pattern library_ edificada por Tom de Smedt. O link para a documentação encontra-se indisponível, por isso não consegui descodificar as tags adicionadas aos texto.

### **🐍 Os TextBlobs comportam-se como strings de Python!**

🔸 Substrings:

In [23]:
poirot[0:20]

TextBlob("It is the brain, the")

🔸 Métodos comuns de strings:

In [24]:
poirot.upper()

TextBlob("IT IS THE BRAIN, THE LITTLE GREY CELLS ON WHICH ONE MUST RELY. ONE MUST SEEK THE TRUTH WITHIN - NOT WITHOUT.")

In [25]:
poirot.find("cells")

33

**Nota:** O método find realiza uma pesquisa _case sensitive_.

🔸 Comparação entre TextBlobs e strings:

In [26]:
tigerBlob = TextBlob('tiger')
elephantBlob = TextBlob('elephant')
tigerBlob < elephantBlob

False

In [27]:
tigerBlob == 'tiger'

True

🔸 Concatenação e interpolação de TextBlobs e strings:

In [28]:
tigerBlob + ' and ' + elephantBlob

TextBlob("tiger and elephant")

In [29]:
"{0} and {1}".format(tigerBlob, elephantBlob)

'tiger and elephant'

### **🔗 N-grams**

O método TextBlob.ngrams() retorna uma lista de tuplos com n palavras sucessivas.

In [30]:
phrase.ngrams(n=3)

[WordList(['I', "'m", 'feeling']),
 WordList(["'m", 'feeling', 'really']),
 WordList(['feeling', 'really', 'incredible'])]

### **📌 Obter os indices do início e do final de frases**

In [31]:
for s in jude.sentences:
    print(s)
    print("    > Starts at index {} and ends at index {}".format(s.start, s.end))

Hey Jude, don't make it bad.
    > Starts at index 0 and ends at index 28
Take a sad song and make it better.
    > Starts at index 29 and ends at index 64
Remember to let her into your heart, then you can start to make it better.
    > Starts at index 65 and ends at index 139
