In [17]:
# install the requirements
#!pip install -U textblob

import nltk
nltk.download("movie_reviews")

[nltk_data] Downloading package movie_reviews to
[nltk_data]     /home/victor/nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!


True

# `textblob`: otro módulo para tareas de PLN (`NLTK` + `pattern`)

[textblob](http://textblob.readthedocs.org/) es una librería de procesamiento del texto para Python que permite realizar tareas de Procesamiento del Lenguaje Natural como análisis morfológico, extracción de entidades, análisis de opinión, traducción automática, etc. 

Está construida sobre otras dos librerías muy famosas de Python: [NLTK](http://www.nltk.org/) y [pattern](http://www.clips.ua.ac.be/pages/pattern-en). La principal ventaja de [textblob](http://textblob.readthedocs.org/) es que permite combinar el uso de las dos herramientas anteriores en un interfaz más simple.

Vamos a apoyarnos en [este tutorial](http://textblob.readthedocs.org/en/dev/quickstart.html) para aprender a utilizar algunas de sus funcionalidades más llamativas. 

Lo primero es importar el objeto `TextBlob` que nos permite acceder a todas las herramentas que incluye.

In [1]:
from textblob import TextBlob

Vamos a crear nuestro primer ejemplo de *textblob* a través del objeto `TextBlob`. Piensa en estos *textblobs* como una especie de cadenas de texto de Python, analaizadas y enriquecidas con algunas características extra. 

In [2]:
texto = """In new lawsuits brought against the ride-sharing companies Uber and Lyft, the top prosecutors in Los Angeles 
and San Francisco counties make an important point about the lightly regulated sharing economy. The consumers who 
participate deserve a very clear picture of the risks they're taking."""
t = TextBlob(texto)

In [3]:
print(t.sentences)

[Sentence("In new lawsuits brought against the ride-sharing companies Uber and Lyft, the top prosecutors in Los Angeles 
and San Francisco counties make an important point about the lightly regulated sharing economy."), Sentence("The consumers who 
participate deserve a very clear picture of the risks they're taking.")]


In [4]:
print("Tenemos", len(t.sentences), "oraciones.\n")

for sentence in t.sentences:
    print(sentence)
    print("-" * 75)

Tenemos 2 oraciones.

In new lawsuits brought against the ride-sharing companies Uber and Lyft, the top prosecutors in Los Angeles 
and San Francisco counties make an important point about the lightly regulated sharing economy.
---------------------------------------------------------------------------
The consumers who 
participate deserve a very clear picture of the risks they're taking.
---------------------------------------------------------------------------


## Procesando oraciones, palabras y entidades

Podemos segmentar en oraciones y en palabras nuestra texto de ejemplo simplemente accediendo a las propiedades `.sentences` y `.words`. Imprimimos por pantalla: 

In [5]:
# imprimimos las oraciones
for sentence in t.sentences:
    print(sentence)
    print("-" * 75)

In new lawsuits brought against the ride-sharing companies Uber and Lyft, the top prosecutors in Los Angeles 
and San Francisco counties make an important point about the lightly regulated sharing economy.
---------------------------------------------------------------------------
The consumers who 
participate deserve a very clear picture of the risks they're taking.
---------------------------------------------------------------------------


In [6]:
# y las palabras
print(t.words)
print(texto.split())

['In', 'new', 'lawsuits', 'brought', 'against', 'the', 'ride-sharing', 'companies', 'Uber', 'and', 'Lyft', 'the', 'top', 'prosecutors', 'in', 'Los', 'Angeles', 'and', 'San', 'Francisco', 'counties', 'make', 'an', 'important', 'point', 'about', 'the', 'lightly', 'regulated', 'sharing', 'economy', 'The', 'consumers', 'who', 'participate', 'deserve', 'a', 'very', 'clear', 'picture', 'of', 'the', 'risks', 'they', "'re", 'taking']
['In', 'new', 'lawsuits', 'brought', 'against', 'the', 'ride-sharing', 'companies', 'Uber', 'and', 'Lyft,', 'the', 'top', 'prosecutors', 'in', 'Los', 'Angeles', 'and', 'San', 'Francisco', 'counties', 'make', 'an', 'important', 'point', 'about', 'the', 'lightly', 'regulated', 'sharing', 'economy.', 'The', 'consumers', 'who', 'participate', 'deserve', 'a', 'very', 'clear', 'picture', 'of', 'the', 'risks', "they're", 'taking.']


La propiedad `.noun_phrases` nos permite acceder a la lista de entidades (en realidad, son sintagmas nominales) incluídos en nuestro *textblob*. Así es como funciona.

In [None]:
print("el texto de ejemplo contiene", len(t.noun_phrases), "entidades")
for element in t.noun_phrases:
    print("-", element)

In [None]:
# jugando con lemas, singulares y plurales
for word in t.words:
    if word.endswith("s"):
        print(word.lemmatize(), word, word.singularize())
    else:
        print(word.lemmatize(), word, word.pluralize())

In [None]:
# ¿cómo podemos hacer la lematización más inteligente?
for item in t.tags:
    if item[1] == "NN":
        print(item[0], "-->", item[0].pluralize())
    elif item[1] == "NNS":
        print(item[0], "-->", item[0].singularize())
    else:
        print(item[0], item[0].lemmatize())

## Análisis sintático

Aunque podemos utilizar otros analizadores, por defecto el método `.parse()` invoca al analizador morfosintáctico del módulo  `pattern.en` que ya conoces.

In [None]:
# análisis sintáctico
print(t.parse())

## Traducción automática


A partir de cualquier texto procesado con `TextBlob`, podemos acceder a un traductor automático de bastante calidad con el método `.translate`. Fíjate en cómo lo usamos. Es obligatorio indicar la lengua de destinto. La lengua de origen, se puede predecir a partir del texto de entrada. 

In [7]:
# de chino a inglés y español
oracion_zh = "中国探月工程 亦稱嫦娥工程，是中国启动的第一个探月工程，于2003年3月1日正式启动"
t_zh = TextBlob(oracion_zh)
print(t_zh.translate(from_lang="zh-CN", to="en"))
print(t_zh.translate(from_lang="zh-CN", to="es"))

oracion_ru = "В 1943 году была отправлена в США, где выступала в защиту британской «белой книги», после чего работала в Канаде и Индии."
t_ru = TextBlob(oracion_ru)
print(t_ru.translate(from_lang="ru", to="en"))
print(t_ru.translate(from_lang="ru", to="es"))

print("--------------")

The Chinese lunar exploration project, also known as the Chang'e Project, is the first lunar exploration project launched in China and was officially launched on March 1, 2003
El proyecto de exploración lunar chino, también conocido como el Proyecto Chang'e, es el primer proyecto de exploración lunar lanzado en China y se lanzó oficialmente el 1 de marzo de 2003.
In 1943 she was sent to the United States, where she defended the British White Paper, after which she worked in Canada and India.
En 1943 fue enviada a los Estados Unidos, donde defendió el Libro Blanco británico, después de lo cual trabajó en Canadá e India.
--------------


In [8]:
print(
    TextBlob(
        """المحتوى هنا ينقصه الاستشهاد بمصادر. يرجى إيراد مصادر موثوق بها
. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (ديسمبر 2018)"""
    ).translate(to="es")
)

Al contenido aquí le faltan citas. Por favor, cite fuentes confiables
. Cualquier información no autenticada puede ser puesta en duda y eliminada. (Diciembre 2018)


In [9]:
t_es = TextBlob(
    "La deuda pública ha marcado nuevos récords en España en el tercer trimestre"
)
print(t_es.translate(to="el"))
print(t_es.translate(to="ru"))
print(t_es.translate(to="eu"))
print(t_es.translate(to="fi"))
print(t_es.translate(to="fr"))
print(t_es.translate(to="nl"))
print(t_es.translate(to="gl"))
print(t_es.translate(to="ca"))
print(t_es.translate(to="zh"))
print(t_es.translate(to="la"))
print(t_es.translate(to="cs"))

Το δημόσιο χρέος έχει δημιουργήσει νέα ρεκόρ στην Ισπανία το τρίτο τρίμηνο
Государственный долг установил новые рекорды в Испании в третьем квартале
Zor publikoak errekor berriak ezarri ditu Espainian hirugarren hiruhilekoan
Julkinen velka on asettanut uusia ennätyksiä Espanjassa kolmannella vuosineljänneksellä
La dette publique a établi de nouveaux records en Espagne au troisième trimestre
De overheidsschuld heeft in het derde kwartaal een nieuw record gevestigd in Spanje
A débeda pública estableceu novos rexistros en España no terceiro trimestre
El deute públic ha marcat nous rècords a Espanya en el tercer trimestre
第三季度公共债务在西班牙创下新纪录
Debitum palam novum records in Hispaniam profectus est, in tertia quartam
Veřejný dluh vytvořil ve Španělsku nové záznamy ve třetím čtvrtletí


In [10]:
# con el slang no funciona tan bien
print("--------------")
t_ita = TextBlob("Sono andato a Milano e mi sono divertito un bordello.")
print(t_ita.translate(to="en"))
print(t_ita.translate(to="es"))

--------------
I went to Milan and enjoyed a brothel.
Fui a Milán y disfruté de un burdel.


## WordNet

`textblob`, más concretamente, cualquier objeto de la clase `Word`, nos permite acceder a la información de WordNet. 

In [None]:
# WordNet
from textblob import Word
from textblob.wordnet import VERB

# ¿cuántos synsets tiene "car"
word = Word("car")
print(word.synsets)

# dame los synsets de la palabra "hack" como verbo
print(Word("hack").get_synsets(pos=VERB))

# imprime la lista de definiciones de "car"
print(Word("car").definitions)

# recorre la jerarquía de hiperónimos
for s in word.synsets:
    print(s.hypernym_paths())

## Análisis de opinion

In [11]:
# análisis de opinión
opinion1 = TextBlob("This new restaurant is great. I had so much fun!!")
print(opinion1.sentiment)

opinion2 = TextBlob("Google News to close in Spain.")
print(opinion2.sentiment)

# subjetividad 0:1
# polaridad -1:1

print(opinion1.sentiment.polarity)

if opinion1.sentiment.subjectivity > 0.5:
    print("Hey, esto es una opinion")

Sentiment(polarity=0.4683712121212122, subjectivity=0.4681818181818182)
Sentiment(polarity=0.0, subjectivity=0.0)
0.4683712121212122


### Ejercicio 1

Prueba a analizar distintas oraciones en inglés (combinando verbos que indican información subjetiva, palabras con distinta carga emocional, añadiendo emoticonos, etc.) para ver si eres capaz de entender el funcionamiento de este analizador de opiniones.

In [16]:
# escribe tu código aquí
frases = [
    "I enjoy football.",
    "I hate tennis.",
    "I really hate tennis.",
    "I hate tennis so much.",
    "I HATE tennis.",
    "I HATE tennis ABOVE ALL THINGS!!",
    "I fucking hate tennis :-(",
    "This place is terrible",
]

for frase in frases:
    t = TextBlob(frase)
    print(f"""La frase {frase} tiene subjetividad {t.sentiment.subjectivity} 
          y polaridad {t.sentiment.polarity}""")
    

La frase I enjoy football. tiene subjetividad 0.5 
          y polaridad 0.4
La frase I hate tennis. tiene subjetividad 0.9 
          y polaridad -0.8
La frase I really hate tennis. tiene subjetividad 0.9 
          y polaridad -0.8
La frase I hate tennis so much. tiene subjetividad 0.55 
          y polaridad -0.30000000000000004
La frase I HATE tennis. tiene subjetividad 0.9 
          y polaridad -0.8
La frase I HATE tennis ABOVE ALL THINGS!! tiene subjetividad 0.5 
          y polaridad -0.4
La frase I fucking hate tennis :-( tiene subjetividad 0.95 
          y polaridad -0.775
La frase This place is terrible tiene subjetividad 1.0 
          y polaridad -1.0


`TextBlob` da acceso a [otro tipo de analizadores](https://textblob.readthedocs.io/en/dev/advanced_usage.html#sentiment-analyzers) de opinión, por ejemplo, un clasificador basado en *Naive Bayes*. Prueba qué tal funciona:

In [18]:
from textblob.sentiments import NaiveBayesAnalyzer

for sentence in frases:
    t = TextBlob(sentence, analyzer=NaiveBayesAnalyzer())
    print(f"{sentence}\nsubj: {t.sentiment}\n")

I enjoy football.
subj: Sentiment(classification='neg', p_pos=0.4551209103840678, p_neg=0.5448790896159322)

I hate tennis.
subj: Sentiment(classification='pos', p_pos=0.7669683257918551, p_neg=0.2330316742081448)

I really hate tennis.
subj: Sentiment(classification='pos', p_pos=0.7649028958679761, p_neg=0.23509710413202378)

I hate tennis so much.
subj: Sentiment(classification='pos', p_pos=0.7700920130170541, p_neg=0.2299079869829455)

I HATE tennis.
subj: Sentiment(classification='pos', p_pos=0.7669683257918551, p_neg=0.2330316742081448)

I HATE tennis ABOVE ALL THINGS!!
subj: Sentiment(classification='pos', p_pos=0.8414015521435758, p_neg=0.15859844785642296)

I fucking hate tennis :-(
subj: Sentiment(classification='pos', p_pos=0.6638381201044402, p_neg=0.33616187989556084)

This place is terrible
subj: Sentiment(classification='neg', p_pos=0.2607381165846103, p_neg=0.7392618834153899)



In [20]:
sentences = [
    "I really enjoyed the acting. Anne Smith is one if my favorite actresses.",
    "I left the movie theater right after the first 5 minutes. What a waste of time.",
    "I love ice-cream"
]

for sentence in sentences:
    t = TextBlob(sentence, analyzer=NaiveBayesAnalyzer())
    print(f"{sentence}\nsubj: {t.sentiment}\n")

I really enjoyed the acting. Anne Smith is one if my favorite actresses.
subj: Sentiment(classification='pos', p_pos=0.7132001060897667, p_neg=0.2867998939102322)

I left the movie theater right after the first 5 minutes. What a waste of time.
subj: Sentiment(classification='neg', p_pos=0.17434761447801117, p_neg=0.8256523855219896)

I love ice-cream
subj: Sentiment(classification='pos', p_pos=0.5441400304414004, p_neg=0.45585996955859964)



## Otras curiosidades

In [None]:
#  corrección ortográfica
b1 = TextBlob("I havv goood speling!")
print(b1.correct())

b2 = TextBlob("Miy naem iz Jonh!")
print(b2.correct())

b3 = TextBlob("Boyz dont cri")
print(b3.correct())

b4 = TextBlob("psicological posesion achifmen comitment")
print(b4.correct())

## Hasta el infinito, y más allá

En este breve resumen solo consideramos las posibilidades que ofrece `TextBlob` por defecto. Pero si necesitas personalizar las herramientas, echa un vistazo a [la documentación avanzada](http://textblob.readthedocs.org/en/dev/advanced_usage.html#advanced). 