# `textblob`: otro módulo para tareas de PLN (`NLTK` + `pattern`)

[textblob](http://textblob.readthedocs.org/) es una librería de procesamiento del texto para Python que permite realizar tareas de Procesamiento del Lenguaje Natural como análisis morfológico, extracción de entidades, análisis de opinión, traducción automática, etc. 

Está construida sobre otras dos librerías muy famosas de Python: [NLTK](http://www.nltk.org/) y [pattern](http://www.clips.ua.ac.be/pages/pattern-en). La principal ventaja de [textblob](http://textblob.readthedocs.org/) es que permite combinar el uso de las dos herramientas anteriores en un interfaz más simple.

Vamos a apoyarnos en [este tutorial](http://textblob.readthedocs.org/en/dev/quickstart.html) para aprender a utilizar algunas de sus funcionalidades más llamativas. 

Lo primero es importar el objeto `TextBlob` que nos permite acceder a todas las herramentas que incluye.

In [1]:
from textblob import TextBlob

Vamos a crear nuestro primer ejemplo de *textblob* a través del objeto `TextBlob`. Piensa en estos *textblobs* como una especie de cadenas de texto de Python, analaizadas y enriquecidas con algunas características extra. 

In [2]:
texto = """In new lawsuits brought against the ride-sharing companies Uber and Lyft, the top prosecutors in Los Angeles 
and San Francisco counties make an important point about the lightly regulated sharing economy. The consumers who 
participate deserve a very clear picture of the risks they're taking"""
t = TextBlob(texto)

In [3]:
print(t.sentences)

[Sentence("In new lawsuits brought against the ride-sharing companies Uber and Lyft, the top prosecutors in Los Angeles 
and San Francisco counties make an important point about the lightly regulated sharing economy."), Sentence("The consumers who 
participate deserve a very clear picture of the risks they're taking")]


In [5]:
print("Tenemos", len(t.sentences), "oraciones.\n")

for sentence in t.sentences:
    print(sentence)
    print('-' * 75)

Tenemos 2 oraciones.

In new lawsuits brought against the ride-sharing companies Uber and Lyft, the top prosecutors in Los Angeles 
and San Francisco counties make an important point about the lightly regulated sharing economy.
---------------------------------------------------------------------------
The consumers who 
participate deserve a very clear picture of the risks they're taking
---------------------------------------------------------------------------


## Procesando oraciones, palabras y entidades

Podemos segmentar en oraciones y en palabras nuestra texto de ejemplo simplemente accediendo a las propiedades `.sentences` y `.words`. Imprimimos por pantalla: 

In [6]:
# imprimimos las oraciones
for sentence in t.sentences:
    print(sentence)
    print("-" * 75)
    
# y las palabras    
print(t.words)
print(texto.split())

In new lawsuits brought against the ride-sharing companies Uber and Lyft, the top prosecutors in Los Angeles 
and San Francisco counties make an important point about the lightly regulated sharing economy.
---------------------------------------------------------------------------
The consumers who 
participate deserve a very clear picture of the risks they're taking
---------------------------------------------------------------------------
['In', 'new', 'lawsuits', 'brought', 'against', 'the', 'ride-sharing', 'companies', 'Uber', 'and', 'Lyft', 'the', 'top', 'prosecutors', 'in', 'Los', 'Angeles', 'and', 'San', 'Francisco', 'counties', 'make', 'an', 'important', 'point', 'about', 'the', 'lightly', 'regulated', 'sharing', 'economy', 'The', 'consumers', 'who', 'participate', 'deserve', 'a', 'very', 'clear', 'picture', 'of', 'the', 'risks', 'they', "'re", 'taking']
['In', 'new', 'lawsuits', 'brought', 'against', 'the', 'ride-sharing', 'companies', 'Uber', 'and', 'Lyft,', 'the', 'top', 'p

La propiedad `.noun_phrases` nos permite acceder a la lista de entidades (en realidad, son sintagmas nominales) incluídos en nuestro *textblob*. Así es como funciona.

In [7]:
print("el texto de ejemplo contiene", len(t.noun_phrases), "entidades")
for element in t.noun_phrases:
    print("-", element)

el texto de ejemplo contiene 8 entidades
- new lawsuits
- uber
- lyft
- top prosecutors
- los angeles
- san francisco
- important point
- clear picture


In [None]:
# jugando con lemas, singulares y plurales 
for word in t.words:
    if word.endswith("s"):
        print(word.lemmatize(), word, word.singularize())
    else:
        print(word.lemmatize(), word, word.pluralize())

In [None]:
# ¿cómo podemos hacer la lematización más inteligente?
for item in t.tags:
    if item[1] == "NN":
        print(item[0], "-->", item[0].pluralize())
    elif item[1] == "NNS":
        print(item[0], "-->," item[0].singularize())
    else:
        print(item[0], item[0].lemmatize())

## Análisis sintático

Aunque podemos utilizar otros analizadores, por defecto el método `.parse()` invoca al analizador morfosintáctico del módulo  `pattern.en` que ya conoces.

In [8]:
# análisis sintáctico
print(t.parse())

In/IN/B-PP/B-PNP new/JJ/B-NP/I-PNP lawsuits/NNS/I-NP/I-PNP brought/VBN/B-VP/I-PNP against/IN/B-PP/B-PNP the/DT/B-NP/I-PNP ride-sharing/JJ/I-NP/I-PNP companies/NNS/I-NP/I-PNP Uber/NNP/I-NP/I-PNP and/CC/O/O Lyft/NNP/B-NP/O ,/,/O/O the/DT/B-NP/O top/JJ/I-NP/O prosecutors/NNS/I-NP/O in/IN/B-PP/B-PNP Los/NNP/B-NP/I-PNP Angeles/NNP/I-NP/I-PNP and/CC/I-NP/I-PNP San/NNP/I-NP/I-PNP Francisco/NNP/I-NP/I-PNP counties/NNS/I-NP/I-PNP make/VB/B-VP/O an/DT/B-NP/O important/JJ/I-NP/O point/NN/I-NP/O about/IN/B-PP/O the/DT/O/O lightly/RB/B-VP/O regulated/VBN/I-VP/O sharing/VBG/I-VP/O economy/NN/B-NP/O ././O/O
The/DT/B-NP/O consumers/NNS/I-NP/O who/WP/O/O participate/VB/B-VP/O deserve/VBP/I-VP/O a/DT/B-NP/O very/RB/I-NP/O clear/JJ/I-NP/O picture/NN/I-NP/O of/IN/B-PP/B-PNP the/DT/B-NP/I-PNP risks/NNS/I-NP/I-PNP they/PRP/I-NP/I-PNP '/POS/O/O re/NN/B-NP/O taking/VBG/B-VP/O


## Traducción automática


A partir de cualquier texto procesado con `TextBlob`, podemos acceder a un traductor automático de bastante calidad con el método `.translate`. Fíjate en cómo lo usamos. Es obligatorio indicar la lengua de destinto. La lengua de origen, se puede predecir a partir del texto de entrada. 

In [9]:
# de chino a inglés y español 
oracion_zh = "中国探月工程 亦稱嫦娥工程，是中国启动的第一个探月工程，于2003年3月1日正式启动"
t_zh = TextBlob(oracion_zh)
print(t_zh.translate(from_lang="zh-CN", to="en"))
print(t_zh.translate(from_lang="zh-CN", to="es"))

oracion_ru = "В 1943 году была отправлена в США, где выступала в защиту британской «белой книги», после чего работала в Канаде и Индии."
t_ru = TextBlob(oracion_ru)
print(t_ru.translate(from_lang="ru", to="en"))
print(t_ru.translate(from_lang="ru", to="es"))

print("--------------")

t_es = TextBlob("La deuda pública ha marcado nuevos récords en España en el tercer trimestre")
print(t_es.translate(to="el"))
print(t_es.translate(to="ru"))
print(t_es.translate(to="eu"))
print(t_es.translate(to="fi"))
print(t_es.translate(to="fr"))
print(t_es.translate(to="nl"))
print(t_es.translate(to="gl"))
print(t_es.translate(to="ca"))
print(t_es.translate(to="zh"))
print(t_es.translate(to="la"))
print(t_es.translate(to="cs"))

# con el slang no funciona tan bien
print("--------------")
t_ita = TextBlob("Sono andato a Milano e mi sono divertito un bordello.")
print(t_ita.translate(to="en"))
print(t_ita.translate(to="es"))

China Lunar Exploration Project, also known as the Lunar Project, was the first lunar exploration project initiated by China and officially launched on March 1, 2003.
El Proyecto de Exploración Lunar de China, también conocido como Proyecto Lunar, fue el primer proyecto de exploración lunar iniciado por China y lanzado oficialmente el 1 de marzo de 2003.
In 1943, she was sent to the United States, where she defended the British White Paper, after which she worked in Canada and India.
En 1943, la enviaron a los Estados Unidos, donde defendió el Libro Blanco británico, luego de lo cual trabajó en Canadá y la India.
--------------
Το δημόσιο χρέος έχει θέσει νέα στοιχεία στην Ισπανία το τρίτο τρίμηνο
Государственный долг установил новые рекорды в Испании в третьем квартале
Zor publikoek erregistro berriak ezarri dituzte Espainian hirugarren hiruhilekoan
Julkinen velka on asettanut Espanjassa uusia ennätyksiä kolmannella neljänneksellä
La dette publique a établi de nouveaux records en Espa

## WordNet

`textblob`, más concretamente, cualquier objeto de la clase `Word`, nos permite acceder a la información de WordNet. 

In [None]:
# WordNet
from textblob import Word
from textblob.wordnet import VERB

# ¿cuántos synsets tiene "car"
word = Word("car")
print(word.synsets)

# dame los synsets de la palabra "hack" como verbo
print(Word("hack").get_synsets(pos=VERB))

# imprime la lista de definiciones de "car"
print(Word("car").definitions)

# recorre la jerarquía de hiperónimos
for s in word.synsets:
    print(s.hypernym_paths())

## Análisis de opinion

In [10]:
# análisis de opinión
opinion1 = TextBlob("This new restaurant is great. I had so much fun!! :-P")
print(opinion1.sentiment)

opinion2 = TextBlob("Google News to close in Spain.")
print(opinion2.sentiment)

# subjetividad 0:1
# polaridad -1:1

print(opinion1.sentiment.polarity)

if opinion1.sentiment.subjectivity > 0.5:
    print("Hey, esto es una opinion")

Sentiment(polarity=0.5387784090909091, subjectivity=0.6011363636363636)
Sentiment(polarity=0.0, subjectivity=0.0)
0.5387784090909091
Hey, esto es una opinion


### Ejercicio 1

Prueba a analizar distintas oraciones en inglés (combinando verbos que indican información subjetiva, palabras con distinta carga emocional, añadiendo emoticonos, etc.) para ver si eres capaz de entender el funcionamiento de este analizador de opiniones.

In [21]:
# escribe tu código aquí

oraciones = """I fucking hate football!! :-(
I hate football!!
I hate football
I like football
I enjoy playing football
I'm such a good footbal fan
I LOVE football
I love football
I fucking love football
I love football!! :-)""".split("\n")

for oracion in oraciones:
    t = TextBlob(oracion)
    print("{}\n{} / {}".format(t, t.sentiment.subjectivity, t.sentiment.polarity))

I fucking hate football!! :-(
0.95 / -0.875
I hate football!!
0.9 / -1.0
I hate football
0.9 / -0.8
I like football
0.0 / 0.0
I enjoy playing football
0.5 / 0.4
I'm such a good footbal fan
0.55 / 0.35
I LOVE football
0.6 / 0.5
I love football
0.6 / 0.5
I fucking love football
0.6 / 0.5
I love football!! :-)
0.8 / 0.640625


`TextBlob` da acceso a [otro tipo de analizadores](https://textblob.readthedocs.io/en/dev/advanced_usage.html#sentiment-analyzers) de opinión, por ejemplo, un clasificador basado en *Naive Bayes*. Prueba qué tal funciona:

In [22]:
from textblob.sentiments import NaiveBayesAnalyzer

for oracion in oraciones:
    t = TextBlob(oracion, analyzer=NaiveBayesAnalyzer())
    print(t.sentiment)

Sentiment(classification='neg', p_pos=0.2743869536542965, p_neg=0.7256130463457042)
Sentiment(classification='neg', p_pos=0.3865940192600101, p_neg=0.6134059807399901)
Sentiment(classification='neg', p_pos=0.3865940192600101, p_neg=0.6134059807399901)
Sentiment(classification='neg', p_pos=0.34983725588382564, p_neg=0.650162744116174)
Sentiment(classification='neg', p_pos=0.4814355606666807, p_neg=0.5185644393333194)
Sentiment(classification='pos', p_pos=0.5031690120129858, p_neg=0.4968309879870142)
Sentiment(classification='neg', p_pos=0.40678073243710233, p_neg=0.5932192675628977)
Sentiment(classification='neg', p_pos=0.40678073243710233, p_neg=0.5932192675628977)
Sentiment(classification='neg', p_pos=0.29149889269176604, p_neg=0.708501107308234)
Sentiment(classification='neg', p_pos=0.40678073243710233, p_neg=0.5932192675628977)


## Otras curiosidades

In [None]:
#  corrección ortográfica
b1 = TextBlob("I havv goood speling!")
print(b1.correct())

b2 = TextBlob("Miy naem iz Jonh!")
print(b2.correct())

b3 = TextBlob("Boyz dont cri")
print(b3.correct())

b4 = TextBlob("psicological posesion achifmen comitment")
print(b4.correct())

## Hasta el infinito, y más allá

En este breve resumen solo consideramos las posibilidades que ofrece `TextBlob` por defecto. Pero si necesitas personalizar las herramientas, echa un vistazo a [la documentación avanzada](http://textblob.readthedocs.org/en/dev/advanced_usage.html#advanced). 