# IBM Watson - Tocado, porque no andaba :)

<img src="api.png" alt="Kitten"/>

Paso 0: Configurar Watson (instalar librerías, armar usuario y conseguir los permisos necesarios).

In [1]:
#!pip install --upgrade "ibm-watson>=4.3.0"

---
## `Configurando la API de watson`
En este paso van a precisar usar el `api_key` que se generaron en la página de IBM 

In [2]:
import warnings
warnings.filterwarnings("ignore")
import numpy as np
import pandas as pd
from ibm_watson import NaturalLanguageUnderstandingV1
from ibm_watson.natural_language_understanding_v1 import Features, CategoriesOptions, EmotionOptions, SentimentOptions

In [3]:
from ibm_cloud_sdk_core.authenticators import IAMAuthenticator

authenticator = IAMAuthenticator('Inserta_tu_apikey')

# Importamos el modelo que vamos a usar
natural_language_understanding = NaturalLanguageUnderstandingV1(
    version='2019-07-12',
    authenticator=authenticator)

natural_language_understanding.set_service_url('https://api.us-south.natural-language-understanding.watson.cloud.ibm.com/instances/917d20b6-fadc-45c2-985e-1fa4e00910ce')

---
## `Probando a Watson`

<img src="https://i.gifer.com/S2Vt.gif"/>

Exploremos el tipo de objeto que nos devuelve Watson y como funciona para distintas frases

In [4]:
# Texto objetivo
text = 'This is a very silly text, it drives me crazy when I read it.'

# Le avisamos que features queremos que devuelva
# y en que lenguaje está el texto (esto es mejor que dejarlo adivinar)
response = natural_language_understanding.analyze(text=text,features=Features(emotion=EmotionOptions(), sentiment=SentimentOptions()),language='en')
resultado = response.result
resultado

{'usage': {'text_units': 1, 'text_characters': 61, 'features': 2},
 'sentiment': {'document': {'score': -0.781525, 'label': 'negative'}},
 'language': 'en',
 'emotion': {'document': {'emotion': {'sadness': 0.155847,
    'joy': 0.14858,
    'fear': 0.318921,
    'disgust': 0.126755,
    'anger': 0.494942}}}}

Para tomar sólo alguno de los resultados, podemos acceder al diccionario

In [5]:
print(resultado['sentiment']['document']['score'])

-0.781525


Probamos ahora un texto en español

In [6]:
# Texto objetivo
text = 'Este texto no tiene ningún objetivo, vive en la soledad que genera saber que su existencia no tiene un proposito determinado.'

# Importamos el modelo que vamos a usar y le avisamos que features queremo que devuelva
# y en que lenguaje está el texto (esto es mejor que dejarlo adivinar)
response = natural_language_understanding.analyze(text=text,features=Features(emotion=EmotionOptions(), sentiment=SentimentOptions()),language='es')
resultado = response.result
resultado

{'usage': {'text_units': 1, 'text_characters': 125, 'features': 1},
 'sentiment': {'document': {'score': 0, 'label': 'neutral'}},
 'language': 'es',

---
## `Dataset de películas`
Este es el dataset propuesto por la plataforma de Acámica, al estár en ingles permite explotar todas las funcionalidades de Watson. Carguen distintos reviews y comprueben si la devolución del analisis de emociones de Watson coinciden con lo que perciben del texto.

In [7]:
import sklearn
from sklearn.datasets import load_files
moviedir = r'./movie_reviews' 
movie_reviews = load_files(moviedir, shuffle=True)
print("Cantidad de Reviews: "+str(len(movie_reviews.data)))

Cantidad de Reviews: 2000


In [8]:
review_idx = 4

In [9]:
print("Review N°%s:"%review_idx)
print((movie_reviews.data[review_idx]))

response = natural_language_understanding.analyze(
    text=str(movie_reviews.data[review_idx]),
    features=Features(emotion=EmotionOptions(), sentiment=SentimentOptions()),language='en')

print("\nResultado para la review N°%s:"%review_idx)
print(response.result)
print("\nEtiqueta para la review N°%s:"%review_idx)
print(movie_reviews.target[review_idx])
print("\nSignificado de las etiquetas:")
print(movie_reviews.target_names)

Review N°4:
b"kolya is one of the richest films i've seen in some time . \nzdenek sverak plays a confirmed old bachelor ( who's likely to remain so ) , who finds his life as a czech cellist increasingly impacted by the five-year old boy that he's taking care of . \nthough it ends rather abruptly-- and i'm whining , 'cause i wanted to spend more time with these characters-- the acting , writing , and production values are as high as , if not higher than , comparable american dramas . \nthis father-and-son delight-- sverak also wrote the script , while his son , jan , directed-- won a golden globe for best foreign language film and , a couple days after i saw it , walked away an oscar . \nin czech and russian , with english subtitles . \n"

Resultado para la review N°4:
{'usage': {'text_units': 1, 'text_characters': 735, 'features': 2}, 'sentiment': {'document': {'score': 0.551943, 'label': 'positive'}}, 'language': 'en', 'emotion': {'document': {'emotion': {'sadness': 0.155617, 'joy': 0

---
##### Si quieren conocer a que archivo de texto corresponde algún review en particular, como por ejemplo el review 4. Pueden usar el comando `grep` de linux.

In [10]:
!grep -R "kolya is one of the richest" movie_reviews/

movie_reviews/pos/cv754_7216.txt:kolya is one of the richest films i've seen in some time . 


---
## `Dataset de Noticias Infobae del día 21/08/2019`

Este dataset se lo preparamos para que puedan explorar cómo funciona Watson en textos en español. Algunas de las funcionalidades se pierden (`no reporta las emociones`), pero sí clasifica como positivo o negativo los cuerpos de texto. Noten que otra estrategia podría ser traducir el texto y luego aplicarle el algoritmo de Watson en inglés. Esta otra estrategia no siempre funciona bien, depende mucho de la calidad de la traducción.

In [11]:
#!pip install pyarrow

In [12]:
nombre_archivo = '2019_08_21.feather'

Exploremos el dataset

In [13]:
# Quiero ver el sentimiento de los cuerpos de la noticia.
noticias_hoy = pd.read_feather(nombre_archivo)
noticias_hoy

Unnamed: 0,Fecha,Id-Fecha,Subtitulo,Tema,Texto,Titulo
0,2019/08/21,0,"El tipo de cambio cerró con leve baja, pero lo...",economia,Hernán Lacunza logró sortear una prueba compl...,Hernán Lacunza consiguió una tregua con el dól...
1,2019/08/21,1,El encuentro será a las 11. Cuál puede ser el ...,politica,Hoy a las 11 de la mañana se verán las caras ...,Los diputados de Cambiemos se reunirán por pri...
2,2019/08/21,2,"En 1974, el ex juez Jorge Vicente Quiroga fue ...",sociedad,El domingo 28 de abril de 1974 Jorge Vicente ...,El asesinato del juez Quiroga: sabía que estab...
3,2019/08/21,3,"""Llaman todos"", aseguran los allegados al cand...",economia,"""Acá llaman todos, todo el mundo quiere venir...","Los empresarios en su laberinto: dudas, enojos..."
4,2019/08/21,4,"Hacienda mostró una vez más el rol de ""otros i...",economia,"Unas de las preocupaciones de ""los mercados"" ...",Las ganancias del Banco Central permitirán cum...
5,2019/08/21,5,Osvaldo Agosto era integrante de la Juventud P...,sociedad,"Sus ojos claros, vivaces, y esa sonrisa entre...","""Yo robé el sable corvo de San Martín"": el rel..."
6,2019/08/21,6,Gustavo Figueroa fue separado del cargo y some...,sociedad,"Gustavo Figueroa, quien prestaba servicios de...",Tucumán: trabajó durante nueve años como médic...
7,2019/08/21,7,El artista mexicano participó en Buenos Aires ...,sociedad,Eduardo Verástegui ya filmaba en Hollywood y ...,"La asombrosa conversión de Eduardo Verástegui,..."
8,2019/08/21,8,En las imágenes se ve a Jorge Martín Gómez par...,sociedad,Uno de los principales temas que dominó la co...,El video que muestra la amenaza del hombre que...
9,2019/08/21,9,La gobernadora bonaerense dejará de recibir 4....,politica,María Eugenia Vidal decidió postergar todos l...,María Eugenia Vidal postergó los anuncios econ...


In [14]:
cuerpos = noticias_hoy.Texto
titulos = noticias_hoy.Titulo
print("Cantidad de noticias: "+str(len(cuerpos)))

Cantidad de noticias: 24


Vamos a calcular el sentimiento para cada una de las noticias y agregarlo al dataframe 

In [15]:
score_cuerpos = []

for este_texto in cuerpos:
    # Quitamos del texto este símbolo que indica final de parrafo
    este_texto = este_texto.replace('\n','')
    
    # Analisis sentimiento del cuerpo
    # Le pedimos solo el sentimiento, y le avisamos que está en español
    response = natural_language_understanding.analyze(text=este_texto,features=Features(sentiment=SentimentOptions()),language='es')
    resultado = response.result
    score_cuerpos.append(resultado['sentiment']['document']['score'])

In [16]:
print(score_cuerpos)

[-0.628192, 0.703094, -0.603858, -0.361676, 0.357864, -0.413688, -0.851591, 0.304766, -0.740305, 0, -0.607553, 0.276372, 0, -0.621652, -0.490642, -0.40268, -0.85545, 0, 0.583955, -0.642936, 0.348123, -0.517949, -0.416298, -0.488772]


In [17]:
# Finalmente agregamos la columna al dataset
noticias_hoy['Sentimiento'] = score_cuerpos
noticias_hoy

Unnamed: 0,Fecha,Id-Fecha,Subtitulo,Tema,Texto,Titulo,Sentimiento
0,2019/08/21,0,"El tipo de cambio cerró con leve baja, pero lo...",economia,Hernán Lacunza logró sortear una prueba compl...,Hernán Lacunza consiguió una tregua con el dól...,-0.628192
1,2019/08/21,1,El encuentro será a las 11. Cuál puede ser el ...,politica,Hoy a las 11 de la mañana se verán las caras ...,Los diputados de Cambiemos se reunirán por pri...,0.703094
2,2019/08/21,2,"En 1974, el ex juez Jorge Vicente Quiroga fue ...",sociedad,El domingo 28 de abril de 1974 Jorge Vicente ...,El asesinato del juez Quiroga: sabía que estab...,-0.603858
3,2019/08/21,3,"""Llaman todos"", aseguran los allegados al cand...",economia,"""Acá llaman todos, todo el mundo quiere venir...","Los empresarios en su laberinto: dudas, enojos...",-0.361676
4,2019/08/21,4,"Hacienda mostró una vez más el rol de ""otros i...",economia,"Unas de las preocupaciones de ""los mercados"" ...",Las ganancias del Banco Central permitirán cum...,0.357864
5,2019/08/21,5,Osvaldo Agosto era integrante de la Juventud P...,sociedad,"Sus ojos claros, vivaces, y esa sonrisa entre...","""Yo robé el sable corvo de San Martín"": el rel...",-0.413688
6,2019/08/21,6,Gustavo Figueroa fue separado del cargo y some...,sociedad,"Gustavo Figueroa, quien prestaba servicios de...",Tucumán: trabajó durante nueve años como médic...,-0.851591
7,2019/08/21,7,El artista mexicano participó en Buenos Aires ...,sociedad,Eduardo Verástegui ya filmaba en Hollywood y ...,"La asombrosa conversión de Eduardo Verástegui,...",0.304766
8,2019/08/21,8,En las imágenes se ve a Jorge Martín Gómez par...,sociedad,Uno de los principales temas que dominó la co...,El video que muestra la amenaza del hombre que...,-0.740305
9,2019/08/21,9,La gobernadora bonaerense dejará de recibir 4....,politica,María Eugenia Vidal decidió postergar todos l...,María Eugenia Vidal postergó los anuncios econ...,0.0


Exploremos un poco los resultados. Veamos el promedio de sentimiento de todas las noticias (esto nos va a dar una idea del ánimo general del día). Luego busquemos la noticia más positiva y la más negativa, para ver si coincidimos con el criterio.

### `Sentimiento promedio de las noticias del día`

In [18]:
todos_los_valores = noticias_hoy['Sentimiento']
animo_general = np.mean(todos_los_valores)
print(animo_general)

-0.2528778333333333


### `Noticia más positiva del día`

In [19]:
noticia_positiva = noticias_hoy.loc[noticias_hoy['Sentimiento'].idxmax()]
print("Título de la noticia:")
print(noticia_positiva.Titulo)

print("\nScore de Sentimiento:")
print(noticia_positiva.Sentimiento)

print("\nTexto de la noticia:")
print(noticia_positiva.Texto)

Título de la noticia:
Los diputados de Cambiemos se reunirán por primera vez después de la derrota en las PASO para expresar su respaldo al Gobierno

Score de Sentimiento:
0.703094

Texto de la noticia:
 Hoy a las 11 de la mañana se verán las caras entre 70 y 80 diputados de Cambiemos, de los 107 que tiene actualmente el interbloque que conforman el PRO, el radicalismo y la Coalición Cívica (CC). Será la primera reunión del interbloque después de la derrota del oficialismo en las PASO. "La idea es hacer público el apoyo al Gobierno", le dijo una fuente parlamentaria a Infobae. 
  Además de evaluar el escenario político de acá a las elecciones generales de octubre, el interrogante sobre la supervivencia de la bancada oficialista es una de las preguntas que, por lo bajo, se hacen varios de los legisladores que responden a la coalición gobernante. 
  Los jefes de los bloques de los tres partidos que integran Cambiemos afirmaron ante Infobae que, ante una posible derrota del oficialismo en

### `Noticia más negativa del día`

In [20]:
noticia_negativa = noticias_hoy.loc[noticias_hoy['Sentimiento'].idxmin()]
print("Título de la noticia:")
print(noticia_negativa.Titulo)

print("\nScore de Sentimiento:")
print(noticia_negativa.Sentimiento)

print("\nTexto de la noticia:")
print(noticia_negativa.Texto)

Título de la noticia:
Condenaron a 12 años de prisión a dos hombres por violar a una joven a la salida de un boliche

Score de Sentimiento:
-0.85545

Texto de la noticia:
 Dos hombres fueron condenados este martes durante un juicio oral a la pena de 12 años de prisión por haber violado a una joven en 2013, en un el partido bonaerense de Quilmes, tras haber concurrido a un boliche. 
  La decisión por unanimidad del Tribunal Oral en lo Criminal 1 del Departamento Judicial de Quilmes recayó sobre Hugo Armando Barroca de 37 años y Sergio Miguel Bigón de 35, quienes fueron acusados del delito de "abuso sexual con acceso carnal". 
  A su vez, los jueces ordenaron por mayoría la detención inmediata de ambos, quienes habían llegado al debate oral con prisión domiciliaria. 
  En su momento la fiscal Mariel Calviño había solicitado en su alegato que sean condenados a 15 años de prisión, mientras que los defensores de los imputados solicitaron la absolución porque consideraron que no hubo suficie