# TextBlob para Análisis de Sentimiento

[Textblob](http://textblob.readthedocs.org/) es una librería de procesamiento del texto para Python que permite realizar tareas de Procesamiento del Lenguaje Natural como análisis morfológico, extracción de entidades, análisis de opinión, traducción automática, etc. Nosotros nos centraremos en la tarea de análisis de sentimiento basado el léxico. Es una de la más populares junto con VADER. En este ejemplo, veremos algunas de sus características más relevantes.


Está construida sobre otras dos librerías muy famosas de Python: [NLTK](http://www.nltk.org/) y [pattern](http://www.clips.ua.ac.be/pages/pattern-en). La principal ventaja de [textblob](http://textblob.readthedocs.org/) es que permite combinar el uso de las dos herramientas anteriores en un interfaz más simple.

Lo primero es importar el objeto `TextBlob` que nos permite acceder a todas las herramentas que incluye e instalarlo si nuestra distribución lo tuviese. También importaremos la librería nltk y descargaremos:


*  punkt: se descarga los recursos para dividir un texto en tokens.
*  brown: se descarga los recursos para fragmentar frases nominales.
* wordnet: se descarga los recursos para realizar la lematización, entre otras tareas.
* omw-1.4: se descarga los recursos para realizar tareas de lematización y conversiones del singular y plural.
* averaged_perceptron_tagger: se descarga recursos necesarios para hacer análisis morfosintáctico.

In [1]:
from textblob import TextBlob
import nltk
nltk.download('punkt')
nltk.download('brown')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Unzipping corpora/brown.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

Vamos a crear nuestro primer ejemplo de *textblob* a través del objeto `TextBlob`. Los *textblobs* son como una especie de cadenas de texto de Python, analizadas y enriquecidas con algunas características extra. 

In [2]:
texto = "In new lawsuits brought against the ride-sharing companies Uber and Lyft, the top prosecutors in Los Angeles and San Francisco counties make an important point about the lightly regulated sharing economy. The consumers who  participate deserve a very clear picture of the risks they arere taking"

tb = TextBlob(texto)

#Mostramos el objeto textblob
print(tb)


In new lawsuits brought against the ride-sharing companies Uber and Lyft, the top prosecutors in Los Angeles and San Francisco counties make an important point about the lightly regulated sharing economy. The consumers who  participate deserve a very clear picture of the risks they arere taking


## Procesando oraciones, palabras y entidades

Podemos segmentar en oraciones accediendo a la propiedad `.sentences` e imprimimos por pantalla: 

In [3]:
# Dividimos el texto en frases y las mostramos por pantalla
for sentence in tb.sentences:
    print(sentence)
    print("-" * 75)

In new lawsuits brought against the ride-sharing companies Uber and Lyft, the top prosecutors in Los Angeles and San Francisco counties make an important point about the lightly regulated sharing economy.
---------------------------------------------------------------------------
The consumers who  participate deserve a very clear picture of the risks they arere taking
---------------------------------------------------------------------------


Segmentamos en palabras accediendo a la propiedad  .words e imprimimos por pantalla:

In [4]:
# Dividimos el texto en palabras y las mostramos por pantalla
print(tb.words)
#print(texto.split())

['In', 'new', 'lawsuits', 'brought', 'against', 'the', 'ride-sharing', 'companies', 'Uber', 'and', 'Lyft', 'the', 'top', 'prosecutors', 'in', 'Los', 'Angeles', 'and', 'San', 'Francisco', 'counties', 'make', 'an', 'important', 'point', 'about', 'the', 'lightly', 'regulated', 'sharing', 'economy', 'The', 'consumers', 'who', 'participate', 'deserve', 'a', 'very', 'clear', 'picture', 'of', 'the', 'risks', 'they', 'arere', 'taking']


La propiedad `.noun_phrases` nos permite acceder a la lista de entidades (en realidad, son sintagmas nominales) incluídos en el *textblob*

In [5]:
#Obtenenmos las entidades y lo mostramos por pantalla
print("El texto de ejemplo contiene", len(tb.noun_phrases), "entidades")

#Se muestran por pantalla dichas entidades
for element in tb.noun_phrases:
    print("-", element)

El texto de ejemplo contiene 8 entidades
- new lawsuits
- uber
- lyft
- top prosecutors
- los angeles
- san francisco
- important point
- clear picture


In [6]:
# Haciendo lematización, muestra la palabra, su singular y su plural
for word in tb.words:
    if word.endswith("s"):
        print(word.lemmatize(), word, word.singularize())
    else:
        print(word.lemmatize(), word, word.pluralize())

In In Ins
new new news
lawsuit lawsuits lawsuit
brought brought broughts
against against againsts
the the thes
ride-sharing ride-sharing ride-sharings
company companies company
Uber Uber Ubers
and and ands
Lyft Lyft Lyfts
the the thes
top top tops
prosecutor prosecutors prosecutor
in in ins
Los Los Lo
Angeles Angeles Angele
and and ands
San San Sans
Francisco Francisco Franciscoes
county counties county
make make makes
an an some
important important importants
point point points
about about abouts
the the thes
lightly lightly lightlies
regulated regulated regulateds
sharing sharing sharings
economy economy economies
The The Thes
consumer consumers consumer
who who whoes
participate participate participates
deserve deserve deserves
a a some
very very veries
clear clear clears
picture picture pictures
of of ofs
the the thes
risk risks risk
they they they
arere arere areres
taking taking takings


Otra opción de realizar la lematización es utilizar la propiedad tags, que nos hace un análisis de cada palabra. Permite hacer el procedimiento POS.

In [7]:
# Realizamos un análisis de cada palabra con .tags, luego pasamos a plural solamente 
# si es un nombre en singular, o un nombre en plural
for item in tb.tags:
    if item[1] == "NN":
        print(item[0], "-->", item[0].pluralize())
    elif item[1] == "NNS":
        print(item[0], "-->", item[0].singularize())
    else:
        print(item[0], item[0].lemmatize())

In In
new new
lawsuits --> lawsuit
brought brought
against against
the the
ride-sharing ride-sharing
companies --> company
Uber Uber
and and
Lyft Lyft
the the
top top
prosecutors --> prosecutor
in in
Los Los
Angeles Angeles
and and
San San
Francisco Francisco
counties --> county
make make
an an
important important
point --> points
about about
the the
lightly lightly
regulated regulated
sharing sharing
economy --> economies
The The
consumers --> consumer
who who
participate participate
deserve deserve
a a
very very
clear clear
picture --> pictures
of of
the the
risks --> risk
they they
arere arere
taking taking


## Análisis sintático

Aunque podemos utilizar otros analizadores, por defecto el método `.parse()` invoca al analizador morfosintáctico del módulo  `pattern`.

In [8]:
# Se realiza el análisis
print(tb.parse())

In/IN/B-PP/B-PNP new/JJ/B-NP/I-PNP lawsuits/NNS/I-NP/I-PNP brought/VBN/B-VP/I-PNP against/IN/B-PP/B-PNP the/DT/B-NP/I-PNP ride-sharing/JJ/I-NP/I-PNP companies/NNS/I-NP/I-PNP Uber/NNP/I-NP/I-PNP and/CC/O/O Lyft/NNP/B-NP/O ,/,/O/O the/DT/B-NP/O top/JJ/I-NP/O prosecutors/NNS/I-NP/O in/IN/B-PP/B-PNP Los/NNP/B-NP/I-PNP Angeles/NNP/I-NP/I-PNP and/CC/I-NP/I-PNP San/NNP/I-NP/I-PNP Francisco/NNP/I-NP/I-PNP counties/NNS/I-NP/I-PNP make/VB/B-VP/O an/DT/B-NP/O important/JJ/I-NP/O point/NN/I-NP/O about/IN/B-PP/O the/DT/O/O lightly/RB/B-VP/O regulated/VBN/I-VP/O sharing/VBG/I-VP/O economy/NN/B-NP/O ././O/O
The/DT/B-NP/O consumers/NNS/I-NP/O who/WP/O/O participate/VB/B-VP/O deserve/VBP/I-VP/O a/DT/B-NP/O very/RB/I-NP/O clear/JJ/I-NP/O picture/NN/I-NP/O of/IN/B-PP/B-PNP the/DT/B-NP/I-PNP risks/NNS/I-NP/I-PNP they/PRP/I-NP/I-PNP arere/NN/I-NP/I-PNP taking/VBG/B-VP/I-PNP


## Corregir errores en el texto

La función correct, permite corregir errores ortográficos en el texto.

In [9]:
# Realizar corrección ortográfica
b1 = TextBlob("I havv goood speling!")
print(b1.correct())

I have good spelling!


## Traducción automática


A partir de cualquier texto procesado con `TextBlob`, se puede hacer uso de un traductor automático utilizando la propiedad `.translate`. Se debe indicar tanto la lengua de origen como la de destino. Si no se indica lengua de origen, la intenta predecir con la frase que se desea traducir.

In [10]:
# Probamos traducir un texto en textblob de español a inglés y de español a francés
tb_es = TextBlob("La deuda pública ha marcado nuevos récords en España en el tercer trimestre")


print("--------------")
print(tb_es.translate(from_lang="es", to="en"))

print("--------------")
print(tb_es.translate(from_lang="es", to="fr"))


--------------
Public debt has marked new records in Spain in the third quarter
--------------
La dette publique a marqué de nouveaux records en Espagne au troisième trimestre


## Análisis de opinion

En textblob podemos obtener una métrica de polaridad y subjetividad. La polaridad es el sentimiento mismo, que va de -1 a +1. La subjetividad es una medida del sentimiento siendo objetivo a subjetivo, y va de 0 a 1. 

In [11]:
# Realizamos un análisis de la opinión 1 y lo mostramos
opinion1 = TextBlob("This new restaurant is great. I had so much fun!! :-P")
print(opinion1.sentiment)

# Realizamos un análisis de la opinión 2 y lo mostramos
opinion2 = TextBlob("Google News to close in Spain.")
print(opinion2.sentiment)

#También se puede solicitar solamente la polaridad o la subjectividad
print(opinion1.sentiment.polarity)
if opinion1.sentiment.subjectivity > 0.5:
    print("Se trata de una opinión")


Sentiment(polarity=0.5387784090909091, subjectivity=0.6011363636363636)
Sentiment(polarity=0.0, subjectivity=0.0)
0.5387784090909091
Se trata de una opinión
