## TextBlob

**TextBlob** es una libreria para procesar datos textuales. Proporciona una API simple para realizar tareas comunes de **NLP**, como análisis de sentimientos, clasificación, traducción.

**TextBlob** esta construido a partir de **NLTK**.

```python
pip install textblob
```

_**Documentación:** https://textblob.readthedocs.io/en/dev/_

### ¿Qué podemos hacer con TextBlob?

Con TextBlob, podemos realizar una variedad de tareas de *PNL*, como:

- `Análisis de sentimientos`: Determinar el sentimiento de un texto, como positivo, negativo o neutral.
- `Partición del texto`: Dividir el texto en sus componentes, como palabras, frases o oraciones.
- `Traducción`: Traducir texto de un idioma a otro.
- `Generación de texto`: Generar texto nuevo, como un resumen de un artículo o una historia.

#### Conceptos principales de TextBlob

- `Objetos TextBlob`: Los objetos TextBlob son objetos que representan un fragmento de texto. Podemos crear objetos TextBlob a partir de una cadena de texto, un archivo o un objeto de la biblioteca NLTK.
- `Métodos de TextBlob`: Los objetos TextBlob proporcionan una variedad de métodos para realizar tareas de PNL. Algunos de los métodos más comunes son:
    - `sentiment`: Devuelve el sentimiento del texto.
    - `words`: Devuelve una lista de las palabras del texto.
    - `translate`: Traduce el texto a otro idioma.
    - `generate`: Genera texto nuevo.

In [1]:
from textblob import TextBlob
import nltk
nltk.download('averaged_perceptron_tagger')
nltk.download('brown')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\botic\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package brown to
[nltk_data]     C:\Users\botic\AppData\Roaming\nltk_data...
[nltk_data]   Package brown is already up-to-date!


True

In [2]:
texto = """The titular threat of The Blob has always struck me as the ultimate movie
            monster: an insatiably hungry, amoeba-like mass able to penetrate
            virtually any safeguard, capable of--as a doomed doctor chillingly
            describes it--"assimilating flesh on contact.
            Snide comparisons to gelatin be damned, it's a concept with the most
            devastating of potential consequences, not unlike the grey goo scenario
            proposed by technological theorists fearful of
            artificial intelligence run rampant."""


# TextBlob() transforma un texto a un objeto TextBlob
blob = TextBlob(texto)

In [3]:
type(blob)

textblob.blob.TextBlob

In [4]:
# Tokenizar

blob.words

WordList(['The', 'titular', 'threat', 'of', 'The', 'Blob', 'has', 'always', 'struck', 'me', 'as', 'the', 'ultimate', 'movie', 'monster', 'an', 'insatiably', 'hungry', 'amoeba-like', 'mass', 'able', 'to', 'penetrate', 'virtually', 'any', 'safeguard', 'capable', 'of', 'as', 'a', 'doomed', 'doctor', 'chillingly', 'describes', 'it', 'assimilating', 'flesh', 'on', 'contact', 'Snide', 'comparisons', 'to', 'gelatin', 'be', 'damned', 'it', "'s", 'a', 'concept', 'with', 'the', 'most', 'devastating', 'of', 'potential', 'consequences', 'not', 'unlike', 'the', 'grey', 'goo', 'scenario', 'proposed', 'by', 'technological', 'theorists', 'fearful', 'of', 'artificial', 'intelligence', 'run', 'rampant'])

In [7]:
# Part-of-speech Tagging

blob.tags

[('The', 'DT'),
 ('titular', 'JJ'),
 ('threat', 'NN'),
 ('of', 'IN'),
 ('The', 'DT'),
 ('Blob', 'NNP'),
 ('has', 'VBZ'),
 ('always', 'RB'),
 ('struck', 'VBN'),
 ('me', 'PRP'),
 ('as', 'IN'),
 ('the', 'DT'),
 ('ultimate', 'JJ'),
 ('movie', 'NN'),
 ('monster', 'NN'),
 ('an', 'DT'),
 ('insatiably', 'RB'),
 ('hungry', 'JJ'),
 ('amoeba-like', 'JJ'),
 ('mass', 'NN'),
 ('able', 'JJ'),
 ('to', 'TO'),
 ('penetrate', 'VB'),
 ('virtually', 'RB'),
 ('any', 'DT'),
 ('safeguard', 'NN'),
 ('capable', 'JJ'),
 ('of', 'IN'),
 ('as', 'IN'),
 ('a', 'DT'),
 ('doomed', 'JJ'),
 ('doctor', 'NN'),
 ('chillingly', 'RB'),
 ('describes', 'VBZ'),
 ('it', 'PRP'),
 ('assimilating', 'VBG'),
 ('flesh', 'NN'),
 ('on', 'IN'),
 ('contact', 'NN'),
 ('Snide', 'JJ'),
 ('comparisons', 'NNS'),
 ('to', 'TO'),
 ('gelatin', 'VB'),
 ('be', 'VB'),
 ('damned', 'VBN'),
 ('it', 'PRP'),
 ("'s", 'VBZ'),
 ('a', 'DT'),
 ('concept', 'NN'),
 ('with', 'IN'),
 ('the', 'DT'),
 ('most', 'RBS'),
 ('devastating', 'JJ'),
 ('of', 'IN'),
 ('potenti

In [None]:
import pandas as pd

pd.DataFrame(blob.tags, columns=['word', 'tag'])

| Tag | Meaning |
|-----|---------|
|**`CC`**| Coordinating conjunction|
|**`CD`**| Cardinal number|
|**`DT`**| Determiner|
|**`EX`**| Existential there|
|**`FW`**| Foreign word|
|**`IN`**| Preposition or subordinating conjunction|
|**`JJ`**| Adjective|
|**`JJR`**| Adjective, comparative|
|**`JJS`**| Adjective, superlative|
|**`LS`**| List item marker|
|**`MD`**| Modal|
|**`NN`**| Noun, singular or mass|
|**`NNS`**| Noun, plural|
|**`NNP`**| Proper noun, singular|
|**`NNPS`**| Proper noun, plural|
|**`PDT`**| Predeterminer|
|**`POS`**| Possessive ending|
|**`PRP`**| Personal pronoun|
|**`PRP$`**| 	Possessive pronoun|
|**`RB`**| Adverb|
|**`RBR`**| Adverb, comparative|
|**`RBS`**| Adverb, superlative|
|**`RP`**| Particle|
|**`SYM`**| Symbol|
|**`TO`**| to|
|**`UH`**| Interjection|
|**`VB`**| Verb, base form|
|**`VBD`**| Verb, past tense|
|**`VBG`**| Verb, gerund or present participle|
|**`VBN`**| Verb, past participle|
|**`VBP`**| Verb, non-3rd person singular present|
|**`VBZ`**| Verb, 3rd person singular present|
|**`WDT`**| Wh-determiner|
|**`WP`**| Wh-pronoun|
|**`WP$`**| Possessive wh-pronoun|
|**`WRB`**| Wh-adverb|

In [8]:
# Pronombres (Nouns)

blob.noun_phrases 

WordList(['titular threat', 'blob', 'ultimate movie monster', 'amoeba-like mass', 'snide', 'potential consequences', 'grey goo scenario', 'technological theorists fearful', 'artificial intelligence run rampant'])

In [9]:
# Oraciones (sentences)

blob.sentences

[Sentence("The titular threat of The Blob has always struck me as the ultimate movie
             monster: an insatiably hungry, amoeba-like mass able to penetrate
             virtually any safeguard, capable of--as a doomed doctor chillingly
             describes it--"assimilating flesh on contact."),
 Sentence("Snide comparisons to gelatin be damned, it's a concept with the most
             devastating of potential consequences, not unlike the grey goo scenario
             proposed by technological theorists fearful of
             artificial intelligence run rampant.")]

In [10]:
blob

TextBlob("The titular threat of The Blob has always struck me as the ultimate movie
            monster: an insatiably hungry, amoeba-like mass able to penetrate
            virtually any safeguard, capable of--as a doomed doctor chillingly
            describes it--"assimilating flesh on contact.
            Snide comparisons to gelatin be damned, it's a concept with the most
            devastating of potential consequences, not unlike the grey goo scenario
            proposed by technological theorists fearful of
            artificial intelligence run rampant.")

### Polaridad y Subjetividad

`TextBlob` proporciona funciones para determinar la polarización y subjetividad de un texto. La ***polarización*** es una medida de la positividad o negatividad de un texto, mientras que la ***subjetividad*** es una medida de la objetividad o subjetividad de un texto.

Para determinar la polarización de un texto, TextBlob utiliza una función llamada `sentiment.polarity`. Esta función devuelve un valor entre -1 y 1, donde -1 representa un texto muy negativo, 1 representa un texto muy positivo y 0 representa un texto neutro.

Para determinar la subjetividad de un texto, TextBlob utiliza una función llamada `sentiment.subjectivity`. Esta función devuelve un valor entre 0 y 1, donde 0 representa un texto muy objetivo y 1 representa un texto muy subjetivo.

In [11]:
for sentence in blob.sentences:
    print(f'Polaridad: {sentence.sentiment.polarity}, Subjetividad: {sentence.sentiment.subjectivity}')
    print("-"*100)

Polaridad: 0.06000000000000001, Subjetividad: 0.605
----------------------------------------------------------------------------------------------------
Polaridad: -0.34166666666666673, Subjetividad: 0.7666666666666666
----------------------------------------------------------------------------------------------------


### Lematización

La ***lematización*** es el proceso de convertir una palabra a su forma base. Esto es importante para tareas de procesamiento del lenguaje natural como el análisis sintáctico y la búsqueda de información.

TextBlob utiliza el diccionario `WordNet` para realizar la lematización. WordNet es un diccionario de palabras que proporciona información sobre la forma base de las palabras.

In [12]:
from textblob import Word

w = Word("octopi")
w.lemmatize()

'octopus'

*Parámetros que puede recibir lemmatize*
- "v": "verb" 
- "n":"nouns"
- "a":"adjetives"
- "r":"adverbs"

In [14]:
w = Word("went")
w.lemmatize("v") 

'go'

In [None]:
w.lemmatize()

### Corrector

`TextBlob` proporciona un corrector ortográfico para el inglés

In [15]:
b = TextBlob("Alici in wonderland is an amzingg bouk")
print(b.correct())

Alice in wonderland is an amazing book


In [16]:
# .correct() falla muy fácil

b = TextBlob("Alic in wunderland is an amzingg buuk")
print(b.correct())

Lie in wunderland is an amazing bulk


### Conteo de palabras

`TextBlob` proporciona funciones para contar el número de palabras en un texto. Estas funciones pueden utilizarse para tareas como el análisis de sentimiento y la generación de texto.

In [17]:
with open("../Data/alice_in_wonderland.txt") as f:
    blob = TextBlob(f.read())

In [18]:
blob.words.count("Alice", case_sensitive = True)

396

In [19]:
blob.words.count("Alice", case_sensitive = False)

399

### N-gramas

`TextBlob` proporciona funciones para crear n-gramas a partir de un texto. Un n-grama es una secuencia de n palabras.

La forma en la que extraemos los gramas se tiene que adaptar al ámbito que estamos estudiando y al objetivo que tenemos en mente. Por ejemplo en el estudio del lenguaje natural podríamos construir los n-gramas sobre la base de distintos tipos de elementos como por ejemplo fonemas, sílabas, letras, palabras. Algunos sistemas procesan las cadenas de texto eliminando los espacios. Otros no. En casi todos los casos, los signos de puntuación se eliminan durante el preproceso.

Para ciertos valores de n los n-gramas tienen nombres especiales. Por ejemplo:

- Los 1-gramas también se llaman unigramas.
- Los 2-gramas también se llaman bigramas o digramas.
- Los 3-gramas también se llaman trigramas.

In [20]:
texto = "The quick brown fox jumps over the lazy dog."

In [21]:
blob = TextBlob(texto)

In [31]:
blob.ngrams(n = 3)

[WordList(['The', 'quick', 'brown']),
 WordList(['quick', 'brown', 'fox']),
 WordList(['brown', 'fox', 'jumps']),
 WordList(['fox', 'jumps', 'over']),
 WordList(['jumps', 'over', 'the']),
 WordList(['over', 'the', 'lazy']),
 WordList(['the', 'lazy', 'dog'])]

In [26]:
len(blob.words)

9

In [27]:
len(blob.ngrams(n = 3))

7

In [32]:
for sentence in blob.sentences:
    print(sentence.sentiment)
    print("-"*100)

Sentiment(polarity=0.04166666666666666, subjectivity=0.75)
----------------------------------------------------------------------------------------------------


### POS y NEG

In [33]:
from textblob.sentiments import NaiveBayesAnalyzer

with open("../Data/alice_in_wonderland.txt") as file:
    texto = file.read()
    
blob = TextBlob(texto, analyzer = NaiveBayesAnalyzer())

In [37]:
blob.sentences[1]

Sentence("So she was considering in her own mind (as well as she could,
for the hot day made her feel very sleepy and stupid), whether
the pleasure of making a daisy-chain would be worth the trouble
of getting up and picking the daisies, when suddenly a White
Rabbit with pink eyes ran close by her.")

In [34]:
for sent in blob.sentences:
    print(sent.sentiment)
    print("-"*100)

Sentiment(classification='pos', p_pos=0.9944804765856872, p_neg=0.005519523414309519)
----------------------------------------------------------------------------------------------------
Sentiment(classification='pos', p_pos=0.6819814701599223, p_neg=0.31801852984007556)
----------------------------------------------------------------------------------------------------
Sentiment(classification='pos', p_pos=0.743166230845361, p_neg=0.25683376915463674)
----------------------------------------------------------------------------------------------------
Sentiment(classification='neg', p_pos=0.4318181818181817, p_neg=0.5681818181818183)
----------------------------------------------------------------------------------------------------
Sentiment(classification='pos', p_pos=0.6978214355183815, p_neg=0.3021785644816182)
----------------------------------------------------------------------------------------------------
Sentiment(classification='pos', p_pos=0.9983188440856363, p_neg=0.001681

In [None]:
################################################################################################################################