# Caso práctico

Dado un archivo que contiene en cada línea una palabra o conjunto de palabras seguido de un valor numérico, denominado **“sentimiento”**, y un conjunto de tweets, se pide calcular para cada tweet un valor denominado **“sentimiento del tweet”**, que se obtiene como la suma de los “sentimientos” de los términos que aparecen en el tweet. 

Obsérvese que:
- Cada línea del fichero Tweets.txt contiene una cadena JSON.
- No todas las líneas del archivo Tweets.txt contiene tweets.
- Cada tweet es representado por una cadena en formato JSON, en la que el tweet es almacenado en la clave text
- Aquellas palabras o conjunto de palabras que aparecen en un tweet, y no tengan un “sentimiento” asociado en el archivo, se contabilizarán como 0. 

Para procesar el archivo hay que tener en cuenta que cada palabra o conjunto de palabras están separadas de su valor mediante el carácter “\t”. El archivo podría almacenarse en un diccionario.

## Resultado
Como resultado, se debe mostrar por pantalla un valor numérico en cada línea que represente el “sentimiento” de un tweet. 
No todos los tweets que se van a considerar tienen contenido, por lo que hay que filtrar aquellos que tienen de los que no tienen. 
El programa tendrá 2 parámetros de entrada: el archivo que contiene los sentimientos de los términos y el archivo que contiene los tweets. Estos parámetros se pueden leer como input desde el teclado, directamente en el código o como parámetros con sys.args.

## Importante!

El programa esta dividido en métodos para desagregar la funcionalidad en partes más pequeñas, para ejecutar el programa completo se debe ejecutar el método **`main()`** que está en el último bloque de este notebook.

In [81]:
from os.path import exists
def solicitar_archivos() :
    """
    Método que no recibe parámetros y retorna el path hacia los archivos solicitados
    previamente validada su existencia
    """
    path_tweets = ""
    while True :
        path_tweets = input("Ingresa el nombre del archivo que contengan los tweets o el path hacia el archivo: ")
        if exists(path_tweets) :
            break
        print("El archivo ingresado no existe")

    path_sentimientos = ""
    while True :
        path_sentimientos = input("Ingresa el nombre del archivo que contengan los sentimientos o el path hacia el archivo: ")
        if exists(path_sentimientos) :
            break
        print("El archivo ingresado no existe")
    
    return (path_tweets, path_sentimientos)


In [82]:
import json
def obtener_tweets(path, key_tweet) :
    """
    Método que recibe como parámetro la ubicación del archivo de tweets y el nombre del key que contiene el text
    del tweet en el diccionario. Retorna un array de str todos los textos de los tweets encontrados, el método ya filtra los tweets que no tienen texto
    """
    print("Leyendo tweets.. ")
    tweets = []
    try :
        with open(path, "r") as archivo_tweets :
            for linea in  archivo_tweets :
                toJson = json.loads(linea)
                if key_tweet in toJson :
                    tweets.append(toJson[key_tweet])
        print("Ok")
        return tweets;
    except Exception as e :
        raise Exception("Ocurrió un error al leer el archivo de tweets, verifique el formato del archivo")



In [83]:
def obtener_sentimientos(path) :
    """
    Método que recibe la ubicación del arhivo de sentimientos, lo procesa y devuelve un diccionario con cada
    palabra de como su key y el peso del sentimiento como su value
    """
    print("Leyendo sentimientos.. ")
    sentimientos = {}
    try :
        with open(path, "r") as archivo_sentimientos :
            for linea in archivo_sentimientos :
                termino, valor = linea.split("\t")
                sentimientos[termino] = int(valor)
        print("Ok")
        return sentimientos
    except Exception as e :
        print(e)
        raise Exception("Ocurrió un error al leer el archivo de sentimientos, verifique el formato del archivo")


In [85]:
import numpy as np
def analizar_sentimientos(tweets, sentimientos) :
    """
    Método que recibe los tweets en array y los sentimientos en diccionario ya procesados y calcula el peso de cada tweet, retorna un array de enteros con la suma total del tweet
    """
    print("Analizando sentimientos de los tweets... ")
    tweets_normalizados = [tweet.lower() for tweet in tweets]
    peso_sentimiento = [];
    for tweet in tweets_normalizados :
        palabras = tweet.split(" ")
        pesos = np.asarray([ sentimientos[palabra] for palabra in palabras if palabra in sentimientos ])
        peso_sentimiento.append(pesos.sum())
    return peso_sentimiento


In [26]:
def imprimir_tweet_con_sentimiento(tweets, pesos) :
    print("Imprimiendo resultados...")
    print(" ")
    for idx, tweet in enumerate(tweets) :
        print("EL SIGUIENTE TWEET:", tweet, "TIENE UN SENTIMIENTO ASOCIADO DE:", pesos[idx])


In [88]:
def imprimir_tweet_con_sentimiento_truncado(tweets, pesos) :
    print("Imprimiendo resultados...")
    print(" ")
    for idx, tweet in enumerate(tweets) :
        print("EL SIGUIENTE TWEET:", tweet[0:20] + "...", "TIENE UN SENTIMIENTO ASOCIADO DE:", pesos[idx])

In [89]:
import time
def main(imprimir_tweet_truncado = True) :
    """
    Método principal que debe ejecutarse para correr el programa
    """

    print("Iniciando el programa... ")
    print(" ")
    try:
        
        path_archivos = solicitar_archivos()
        tweets = obtener_tweets(path_archivos[0], "text")
        print("  ")
        start = time.time()
        sentimientos = obtener_sentimientos(path_archivos[1])
        print("  ")
        pesos = analizar_sentimientos(tweets, sentimientos)
        print(" ")
        if imprimir_tweet_truncado :
            imprimir_tweet_con_sentimiento_truncado(tweets, pesos)
        else :
            imprimir_tweet_con_sentimiento(tweets, pesos)
        print(" ")
        print("Ejecución terminada a los", time.time() - start, "segundos")
            
    except Exception as e :
        print(e)

In [None]:
# Sólo informativo, ejecutar si se desea ver la documentación de cada método
print("solicitar_archivos()", solicitar_archivos.__doc__)
print("main()", main.__doc__)
print("obtener_tweets()", obtener_tweets.__doc__)
print("obtener_sentimientos()", obtener_sentimientos.__doc__)
print("analizar_sentimientos()", analizar_sentimientos.__doc__)

In [90]:
# Ejecuta el programa completo
# El parámetro imprimir_tweet_truncado sirve para una mejor visualización al momento de imprimir, si se pasa False se imprimirá todo el tweet
main(imprimir_tweet_truncado=True)

Iniciando el programa... 
 
Leyendo tweets.. 
Ok
  
Leyendo sentimientos.. 
Ok
  
Analizando sentimientos de los tweets... 
 
Imprimiendo resultados...
 
EL SIGUIENTE TWEET: @Brenamae_ I WHALE S... TIENE UN SENTIMIENTO ASOCIADO DE: 0.0
EL SIGUIENTE TWEET: Metin Şentürk Twitte... TIENE UN SENTIMIENTO ASOCIADO DE: 0.0
EL SIGUIENTE TWEET: RT @byunghns: 😭 I LO... TIENE UN SENTIMIENTO ASOCIADO DE: 6
EL SIGUIENTE TWEET: que hdp maicon lo qu... TIENE UN SENTIMIENTO ASOCIADO DE: 0.0
EL SIGUIENTE TWEET: ドライ！！！！！！！！！！！！！！！！！... TIENE UN SENTIMIENTO ASOCIADO DE: 0.0
EL SIGUIENTE TWEET: RT @Positivamos: tud... TIENE UN SENTIMIENTO ASOCIADO DE: 0.0
EL SIGUIENTE TWEET: RT @GossipRoomOff: S... TIENE UN SENTIMIENTO ASOCIADO DE: 0.0
EL SIGUIENTE TWEET: RT @Dayannalozano_: ... TIENE UN SENTIMIENTO ASOCIADO DE: 0.0
EL SIGUIENTE TWEET: RT @Positivamos: tud... TIENE UN SENTIMIENTO ASOCIADO DE: 0.0
EL SIGUIENTE TWEET: RT @Positivamos: tud... TIENE UN SENTIMIENTO ASOCIADO DE: 0.0
EL SIGUIENTE TWEET: الله أكب