# Introducción a `textblob`: otro módulo para tareas de PLN (`NLTK` + `pattern`)

[Pablo Carballeira] Partes de este código han sido adaptadas del código de Victor Peinado https://github.com/vitojph/kschool-nlp-23

Puedes encontrar información sobre cómo trabajar en Colab aquí (https://colab.research.google.com/notebooks/intro.ipynb)

In [None]:
# install the requirements
!pip install -U textblob

import nltk
nltk.download("movie_reviews")
nltk.download("punkt")
nltk.download('brown')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')

[textblob](http://textblob.readthedocs.org/) es una librería de procesamiento del texto para Python que permite realizar tareas de Procesamiento del Lenguaje Natural como análisis morfológico, extracción de entidades, análisis de opinión, traducción automática, etc. 

Está construida sobre otras dos librerías muy famosas de Python: [NLTK](http://www.nltk.org/) y [pattern](https://github.com/clips/pattern/wiki). La principal ventaja de [textblob](http://textblob.readthedocs.org/) es que permite combinar el uso de las dos herramientas anteriores en un interfaz más simple.

Vamos a apoyarnos en [este tutorial](http://textblob.readthedocs.org/en/dev/quickstart.html) para aprender a utilizar algunas de sus funcionalidades más llamativas. 

Lo primero es importar el objeto `TextBlob` que nos permite acceder a todas las herramentas que incluye.

In [None]:
from textblob import TextBlob

Vamos a crear nuestro primer ejemplo de *textblob* a través del objeto `TextBlob`. Piensa en estos *textblobs* como una especie de cadenas de texto de Python, analizadas y enriquecidas con características de bajo nivel extraidas de forma automática 

In [None]:
texto = """In new lawsuits brought against the ride-sharing companies Uber and Lyft, the top prosecutors in Los Angeles 
and San Francisco counties make an important point about the lightly regulated sharing economy. The consumers who 
participate deserve a very clear picture of the risks they're taking."""
t = TextBlob(texto)

## Procesando oraciones, palabras y entidades

Podemos segmentar en oraciones y en palabras nuestra texto de ejemplo simplemente accediendo a las propiedades `.sentences` y `.words`. Imprimimos por pantalla: 

Segmentación en oraciones

In [None]:
# imprimimos las oraciones
for sentence in t.sentences:
    print(sentence)
    print("-" * 75)

Segmentación en palabras

In [None]:
# y las palabras
print(t.words)
print(texto.split())

Análisis morfológico. Utiliza el conjunto de etiquetas de [NLTK](https://www.nltk.org/book/ch05.html)

In [None]:
# imprimimos las palabras y su etiqueta morfológica
for item in t.tags:
  print(item[0], item[1])

La propiedad `.noun_phrases` nos permite acceder a una lista de entidades (en este caso son son sintagmas nominales) incluídos en nuestro *textblob*. Así es como funciona.

In [None]:
print("el texto de ejemplo contiene", len(t.noun_phrases), "entidades")
for element in t.noun_phrases:
    print("-", element)

Lematización en textblob. [lemmatize()](https://textblob.readthedocs.io/en/dev/_modules/textblob/blob.html#Word.lemmatize) asume por defecto que todas las palabras son nombres

In [None]:
# jugando con lemas, singulares y plurales
for word in t.words:
    if word.endswith("s"):
        print(word, word.lemmatize(), word.singularize())
    else:
        print(word, word.lemmatize(), word.pluralize())

Podemos utilizar las etiquetas morfológicas para hacer la lematización más inteligente

```
#Verb
print(b.lemmatize("v"))
#Adjective
print(b.lemmatize("a"))
#Noun
print(b.lemmatize("n"))
#Abverb
print(b.lemmatize("r"))
```

In [None]:
from textblob import Word
w = Word("octopi")
print(w.lemmatize())
w = Word("went")
print(w.lemmatize("v"))  # Pass in WordNet part of speech (verb)


### Ejercicio 1 

Vamos a usar las etiquetas morfológicas para hacer la lematización de forma un poco más inteligente. Consideremos los siguientes casos:

- Sustantivo singular: "NN" --> prularizar
- Sustantivo plural: "NNS" --> singularizar
- Verbos: lematizar, usando la opción adecuada

Podemos utilizar el análisis morfológico (PoS) para hacer esta lematización más inteligente

In [None]:
# ???


## Análisis sintático

Aunque podemos utilizar otros analizadores, por defecto el método `.parse()` invoca al analizador morfosintáctico del módulo  `pattern.en`. Conocer bien las etiquetas requiere un esfuerzo. Puedes empezar por [aqui](https://towardsdatascience.com/chunking-in-nlp-decoded-b4a71b2b4e24)

In [None]:
# análisis sintáctico
print(t.parse())

## Traducción automática


A partir de cualquier texto procesado con `TextBlob`, podemos acceder a un traductor automático de bastante calidad con el método `.translate`. Fíjate en cómo lo usamos. Es obligatorio indicar la lengua de destinto. La lengua de origen, se puede predecir a partir del texto de entrada. 

In [None]:
# de chino a inglés y español
oracion_zh = "中国探月工程 亦稱嫦娥工程，是中国启动的第一个探月工程，于2003年3月1日正式启动"
t_zh = TextBlob(oracion_zh)
print(t_zh.translate(from_lang="zh-CN", to="en"))
print(t_zh.translate(from_lang="zh-CN", to="es"))

oracion_ru = "В 1943 году была отправлена в США, где выступала в защиту британской «белой книги», после чего работала в Канаде и Индии."
t_ru = TextBlob(oracion_ru)
print(t_ru.translate(from_lang="ru", to="en"))
print(t_ru.translate(from_lang="ru", to="es"))

print("--------------")

In [None]:
print(
    TextBlob(
        """المحتوى هنا ينقصه الاستشهاد بمصادر. يرجى إيراد مصادر موثوق بها
. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (ديسمبر 2018)"""
    ).translate(to="es")
)

In [None]:
t_es = TextBlob(
    "La deuda pública ha marcado nuevos récords en España en el tercer trimestre"
)
print(t_es.translate(to="el"))
print(t_es.translate(to="ru"))
print(t_es.translate(to="eu"))
print(t_es.translate(to="fi"))
print(t_es.translate(to="fr"))
print(t_es.translate(to="nl"))
print(t_es.translate(to="gl"))
print(t_es.translate(to="ca"))
print(t_es.translate(to="zh"))
print(t_es.translate(to="la"))
print(t_es.translate(to="cs"))

In [None]:
# con el slang no funciona tan bien
print("--------------")
t_ita = TextBlob("Sono andato a Milano e mi sono divertito un bordello.")
print(t_ita.translate(to="en"))
print(t_ita.translate(to="es"))

## WordNet

`textblob`, más concretamente, cualquier objeto de la clase `Word`, nos permite acceder a la información de WordNet. 

In [None]:
# WordNet
from textblob import Word
from textblob.wordnet import VERB

# ¿cuántos synsets tiene "car"
word = Word("car")
print(word.synsets)

# dame los synsets de la palabra "hack" como verbo
print(Word("hack").get_synsets(pos=VERB))

# imprime la lista de definiciones de "car"
print(Word("car").definitions)

# recorre la jerarquía de hiperónimos
for s in word.synsets:
    print(s.hypernym_paths())

## Resumen de textos (Text Summarization)

Existen aproximaciones mucho más sofisticadas para esta tarea, pero podemos utilizar las herramientas básicas del análisis de texto para diseñar un método simple de resumen de texto



In [None]:
import random

blob = TextBlob("Generative Pre-trained Transformer 3 (GPT-3) is an autoregressive language model that uses deep learning to produce human-like text. \
It is the third-generation language prediction model in the GPT-n series (and the successor to GPT-2) created by OpenAI, \
a San Francisco-based artificial intelligence research laboratory. GPT-3's full version has a capacity of 175 billion machine learning \
parameters. GPT-3, which was introduced in May 2020, and was in beta testing as of July 2020,[3] is part of a trend in natural language \
processing (NLP) systems of pre-trained language representations.")

nouns = list()
for word, tag in blob.tags:
  if tag == 'NN':
    nouns.append(word.lemmatize())

print(nouns)

print ("This text is about...")
for item in random.sample(nouns, 5):
  word = Word(item)
  print (word.pluralize())

### Ejercicio 2

Podemos quedarnos con los términos más frecuentes para tener una mejor aproximación. [Pista](https://stackoverflow.com/questions/25815377/sort-list-by-frequency)

In [None]:
# ???

## Clasificación de textos. Análisis de opinion (Sentiment Analysis)

Textblob proporciona clasificadores de texto para análisis de opinión ya entrenados que podemos utilizar

In [None]:
# análisis de opinión
opinion1 = TextBlob("This new restaurant is really great. I had so much fun!!")
print(opinion1.sentiment)

opinion2 = TextBlob("I've never been in such an horrible place.")
print(opinion2.sentiment)

opinion3 = TextBlob("Google News to close in Spain.")
print(opinion3.sentiment)


El resultado de polaridad (polarity) está en el rango [-1,1] y resultado de subjetividad (subjectivity) en el rango [0,1].

### Ejercicio 3

Prueba a analizar distintas oraciones en inglés, e intenta comprobar si este clasificador funciona igual que el que hemos implementado, o de forma más avanzada. Pista: juega con el orden de las palabras

In [None]:
# ???

`TextBlob` da acceso a [otro tipo de analizadores](https://textblob.readthedocs.io/en/dev/advanced_usage.html#sentiment-analyzers) de opinión, por ejemplo, un clasificador basado en *Naive Bayes*. Prueba qué tal funciona:

In [None]:
from textblob.sentiments import NaiveBayesAnalyzer

sentences = ["I've never been in such an horrible place.",'This new restaurant is really great. I had so much fun!!',"I am not happy because I did go"]

for sentence in sentences:
    t = TextBlob(sentence, analyzer=NaiveBayesAnalyzer())
    print(f"{sentence}\nsubj: {t.sentiment}\n")

Fíjate en la clasificación de la última frase

## Entrenamiento de un clasificador de texto

Vamos a entrenar nuestro propio clasificador de texto, con un dataset muy sencillo. Primero definimos un conjunto de oraciones etiquetadas, uno de entrenamiento, y uno de test.

Añadir otros ejemplos de clasificacion de texto, filtrado de spam, reconocimiento de autores, etc ...


In [None]:
train = [
     ('I love this sandwich.', 'pos'),
     ('this is an amazing place!', 'pos'),
     ('I feel very good about these beers.', 'pos'),
    ('this is my best work.', 'pos'),
     ("what an awesome view", 'pos'),
     ('I do not like this restaurant', 'neg'),
     ('I am tired of this stuff.', 'neg'),
     ("I can't deal with this", 'neg'),
     ('he is my sworn enemy!', 'neg'),
     ('my boss is horrible.', 'neg')
]
test = [
     ('the beer was good.', 'pos'),
     ('I do not enjoy my job', 'neg'),
     ("I ain't feeling dandy today.", 'neg'),
     ("I feel amazing!", 'pos'),
     ('Gary is a friend of mine.', 'pos'),
     ("I can't believe I'm doing this.", 'neg')
]

Entrenamos un clasificador de texto, basado en un clasificador bayesiano, con nuestros datos de entrenamiento.

In [None]:
from textblob.classifiers import NaiveBayesClassifier
cl = NaiveBayesClassifier(train)

Podemos clasificar el texto usando el método `classify(text)` el clasificador que hemos entrenado.

In [None]:
cl.classify("Textblob is an amazing library!")

También podemos acceder a la distribución de probabilidados de cada clase (pos,neg), utilizando el método `prob_classify(text)`


In [None]:
prob_dist = cl.prob_classify("This one's a doozy.")
prob_dist.max()

print("Probabilidad pos: ", round(prob_dist.prob("pos"), 2))
print("Probabilidad neg: ", round(prob_dist.prob("neg"), 2))

Otra posibilidad es construir un objeto textblob, asignando el clasificador que hemos creado, y utilizar el método ``clasify()` de ese objeto.

In [None]:
from textblob import TextBlob
blob = TextBlob("The beer is good. But the hangover is horrible.", classifier=cl)
blob.classify()

### Ejercicio 4

Fíjate que en el texto anterior, hay dos frases, y cada una tiene una opinión distinta. Utiliza las propiedades del objeto Textblob para separar automáticamente cada oración, y clasificar cada frase de forma independiente.

In [None]:
# ???

Podemos usar el conjunto de test para evaluar la precisón del clasificador

In [None]:
cl.accuracy(test)


Interpretabilidad

El método `show_informative_features()` permite obtener una lista de las características (unigramas) más relevantes en la clasificación.

In [None]:
cl.show_informative_features(10)  


Fíjate que las palabras más características no tienen que ver con opiniones positivas o negativas. Esto se debe a que nuestro conjunto de entrenamiento es demasiado limitado

Ahora vamos a entrenar el clasificador con un conjunto de datos mayor. Utilizaremos una versión limitada de un dataset común: [imdb reviews](https://www.tensorflow.org/datasets/catalog/imdb_reviews)

Podemos entrenar el clasificador, utilizando datos recogidos en ficheros de tipo: CSV, JSON, y TSV.

El formato de los ficheros CSV debe ser el siguiente:
```
I love this sandwich.,pos
This is an amazing place!,pos
I do not like this restaurant,neg
```
El formato de los ficheros JSOn debe ser:
```
[
    {"text": "I love this sandwich.", "label": "pos"},
    {"text": "This is an amazing place!", "label": "pos"},
    {"text": "I do not like this restaurant", "label": "neg"}
]
```

In [None]:
!mkdir data
!wget --no-check-certificate 'https://docs.google.com/uc?export=download&id=19-babYoT4o20ZEAoRvBmrDe5IoHMzARc' -O data/imdb.tar

!cd data && tar xf imdb.tar
!rm data/imdb.tar 

In [None]:
# ??? entrena el clasificador con los datos en el fichero y fijate en las 
# características mas discriminativas

Vemos que ha mejorado la capacidad de discriminación del clasificador. Aún así el conjunto de datos de entrenamiento (500 opiniones) que hemos utilizado es pequeño con el tamaño del dataset completo (50000 opiniones)

## Otras curiosidades. Corrección ortográfica

In [None]:
#  corrección ortográfica
b1 = TextBlob("I havv goood speling!")
print(b1.correct())

b2 = TextBlob("Miy naem iz Jonh!")
print(b2.correct())

b3 = TextBlob("Boyz dont cri")
print(b3.correct())

b4 = TextBlob("psicological posesion achifmen comitment")
print(b4.correct())

## Hasta el infinito, y más allá

En este breve resumen solo consideramos las posibilidades que ofrece `TextBlob` por defecto. Pero si necesitas personalizar las herramientas, echa un vistazo a [la documentación avanzada](http://textblob.readthedocs.org/en/dev/advanced_usage.html#advanced). 