## EJERCICIO 2

#### SE PIDE:

Dado un archivo que contiene en cada línea una palabra o conjunto de palabras seguido de un valor numérico denominado “sentimiento” y un conjunto de tweets, se pide calcular el sentimiento de aquellas palabras o conjunto de palabras que no tienen un valor asociado en el archivo de “sentimientos”. Se pueden seguir distintas estrategias para asignar un valor. Por ejemplo, se podría asignar como valor el valor del “sentimiento” del tweet en que se encuentra la palabra o conjunto de palabras sin valor, o el valor medio del “sentimiento” del tweet.

Como resultado se debe mostrar por pantalla en cada línea, una palabra o conjunto de palabras y a continuación un valor numérico que represente el “sentimiento” de dicha palabra o conjunto de palabras. Solo se mostrarán la palabra o conjunto de palabras que no aparecían con un valor en el archivo original.

No todos los tweets que se van a considerar tienen contenido, por lo que hay que filtrar aquellos que tienen de los que no tienen.

El programa tendrá 2 parámetros de entrada: el archivo que contiene los sentimientos de los términos y el archivo que contiene los tweets.

#### Ejemplo

Si se toma como referencia el tweet anterior:

- I will go on vacation to the beach.

Sabemos que las palabras 'vacation' y 'beach' ya tienen un valor asociado en el archivo de sentimientos; por lo tanto, tenemos que actualizar el sentimiento del resto de palabras. Podríamos hacerlo de dos formas:

**Versión 1, asignando el valor del sentimiento del tweet (3) a las palabras:**

- 'I': 3
- 'will': 3
- 'go': 3
- 'on': 3
- 'vacation': No mostramos esta palabra, dado que tiene un sentimiento ya asociado anteriormente.
- 'to': 3
- 'the': 3
- 'beach': No mostramos esta palabra, dado que tiene un sentimiento ya asociado anteriormente.

**Versión 2, asignando la media del valor del tweet, siendo esta media el número de palabras del tweet dividido entre el valor de sentimiento del tweet; el tweet de ejemplo tiene 8 palabras, por lo tanto, 8 ÷ 3 = 2.66.**

- 'I': 2.66
- 'will': 2.66
- 'go': 2.66
- 'on': 2.66
- 'vacation': No mostramos esta palabra, dado que tiene un sentimiento ya asociado anteriormente.
- 'to': 2.66
- 'the': 2.66
- 'beach': No mostramos esta palabra, dado que tiene un sentimiento ya asociado anteriormente.

## SOLUCIÓN

In [1]:
#importamos los módulos que vamos a necesitar
import json

In [2]:
#definición función que pasa el fichero de sentimientos a diccionario

def fichero_sentimientos_to_dict(fichero_sentimientos):
    
    sentimientos = open(fichero_sentimientos) 
    dict_sentimientos = {} 
    
    for linea in sentimientos: 
        termino, valor = linea.split("\t") 
        dict_sentimientos[termino] = int(valor) 
        
    return dict_sentimientos

In [3]:
#definición función que pasa el fichero de tweets a lista de tweets

def fichero_tweets_to_list(fichero_tweets):
    
    tweets = open(fichero_tweets)
    
    lista_tweets = []
    
    for linea in tweets:
        
        #seleccionamos solo el contenido de 'text' que es donde se encuentra el tweet
        if 'text' in json.loads(linea):
            lista_tweets.append(json.loads(linea)['text'])
        else:
            pass
        
    return lista_tweets

In [4]:
#definición de la función que calcula el sentimiento asociado a un tweet

def sentimientos(diccionario_sentimientos, tweet):
    
        valor_sentimientos = 0
        
        for palabra in tweet.split():
            
            if palabra.lower() in diccionario_sentimientos:
                valor_sentimientos += diccionario_sentimientos[palabra.lower()]
            else:
                pass
        
        return valor_sentimientos


In [5]:
#definición de la función que calcula el sentimiento asociado a las palabras que no aparecen en el diccionario de sentimientos
#utilizando las dos versiones de solución

def valor_sentimientos(diccionario_sentimientos, tweet):
        
        #calculamos el valor de sentimiento utilizando la versión 1 de solución
        valor_1_sentimientos = sentimientos(diccionario_sentimientos, tweet)
        
        #calculamos el valor de sentimiento utilizando la versión 2 de solución
        if valor_1_sentimientos != 0:
            valor_2_sentimientos = len(tweet)/sentimientos(diccionario_sentimientos, tweet)
        else:
            valor_2_sentimientos = valor_1_sentimientos
            
        palabras_sin_valor = []
        
        #seleccionamos las palabras del tweet que no tienen valor asociado
        for palabra in tweet.split():
            
            if palabra.lower() not in diccionario_sentimientos:
                palabras_sin_valor.append(palabra.lower())
            else:
                pass
        
        return palabras_sin_valor, valor_1_sentimientos, valor_2_sentimientos


In [6]:
#programa principal

if __name__ == "__main__":
    
    #leemos los nombres de los ficheros por entrada de teclado
    sentimientos_file = input('Fichero de sentimientos: ')
    tweets_file = input('Fichero de tweets: ')
    
    #convertimos el fichero sentimientos en dict y el fichero tweets en list
    sentimientos_dict = fichero_sentimientos_to_dict(sentimientos_file)
    tweets_list = fichero_tweets_to_list(tweets_file)
    
    #para cada tweet calculamos el valor de sentimiento (versión 1 y versión 2) asociado a las palabras sin valor y lo printeamos
    for tweet in tweets_list: 
        
        lista_palabras, valor_1_sentimientos, valor_2_sentimientos = valor_sentimientos(sentimientos_dict, tweet)
        
        if len(lista_palabras) > 0:
            
                print('-'*50)
                print('LAS SIGUIENTES PALABRAS:', lista_palabras, '\n')
                print('TIENEN UN SENTIMIENTO ASOCIADO DE:', valor_1_sentimientos, '(versión 1) Ó', valor_2_sentimientos, '(versión 2)')


Fichero de sentimientos: Sentimientos.txt
Fichero de tweets: Tweets.txt
--------------------------------------------------
LAS SIGUIENTES PALABRAS: ['@brenamae_', 'i', 'whale', 'slap', 'your', 'fin', 'and', 'tell', 'you', 'one', 'last', 'time:', 'go', 'awhale'] 

TIENEN UN SENTIMIENTO ASOCIADO DE: 0 (versión 1) Ó 0 (versión 2)
--------------------------------------------------
LAS SIGUIENTES PALABRAS: ['metin', 'şentürk', 'twitterda', '@metinsenturk', 'muhteşem', 'üçlü;', 'sen,', 'ben,', 'müzi̇k'] 

TIENEN UN SENTIMIENTO ASOCIADO DE: 0 (versión 1) Ó 0 (versión 2)
--------------------------------------------------
LAS SIGUIENTES PALABRAS: ['rt', '@byunghns:', '😭', 'i', '#틴탑', 'so', 'much', '#쉽지않아', 'is', 'going', 'to', 'be', 'so', '😭'] 

TIENEN UN SENTIMIENTO ASOCIADO DE: 6 (versión 1) Ó 10.833333333333334 (versión 2)
--------------------------------------------------
LAS SIGUIENTES PALABRAS: ['que', 'hdp', 'maicon', 'lo', 'que', 'le', 'hizo', 'a', 'david', 'luiz', 'jajajajajajajajajaja

TIENEN UN SENTIMIENTO ASOCIADO DE: 0 (versión 1) Ó 0 (versión 2)
--------------------------------------------------
LAS SIGUIENTES PALABRAS: ['just', 'hit', 'some', 'speed', 'bumps', 'but', "i'm", 'not', 'gonna', 'let', 'them', 'bring', 'me', 'down.', 'just', 'gonna', 'regroup.'] 

TIENEN UN SENTIMIENTO ASOCIADO DE: 0 (versión 1) Ó 0 (versión 2)
--------------------------------------------------
LAS SIGUIENTES PALABRAS: ['#jagnation', '#x', '238'] 

TIENEN UN SENTIMIENTO ASOCIADO DE: 0 (versión 1) Ó 0 (versión 2)
--------------------------------------------------
LAS SIGUIENTES PALABRAS: ['rt', '@gyak615:', '@pink', '다모아카지노✔', 'ｍｘ４４４４。ｃｏｍ', '✔마닐라카지노로얄카지노태양성카지노★강남카지노다모아카지노강원카지노★베스트카지노썬시티카지노카지노잘하는법★타짜카지노서울카지노부산카지노사설카지노카지노베이크라운카지노★카지노팰리스카지노후기카지…'] 

TIENEN UN SENTIMIENTO ASOCIADO DE: 0 (versión 1) Ó 0 (versión 2)
--------------------------------------------------
LAS SIGUIENTES PALABRAS: ['【定期】霊夢！主人公補正とか許さん！だいたい何やってもいいと浮かれてるから異変起こされるんだよ！恨めしい！'] 

TIENEN UN SENTIMIENTO ASOCIADO DE: 0 (vers