In [None]:
import pandas as pd 
import functools
import numpy as np
import warnings
import operator
from tqdm import tqdm
warnings.filterwarnings("ignore")

# **DATASET INGLÉS**

# EMOCIONES

In [None]:
def extract_emo_representation(words, emo_vocab=None, emotion_lex=None, n_emotions=None):
    """
    Extrae una representación de emociones a partir de una lista de palabras y devuelve también
    las palabras que contribuyen a esta representación.
    
    Args:
    words (list of str): Lista de palabras del texto.
    emo_vocab (set): Conjunto de palabras en el léxico emocional.
    emotion_lex (dict): Diccionario que mapea palabras a sus vectores de emoción.
    n_emotions (int): Número de emociones en los vectores de emoción.
    
    Returns:
    dict: Diccionario con 'emotion_vector' (representación promedio de emociones)
          y 'matched_words' (palabras usadas en el cálculo).
    """
    intersection = emo_vocab & set(words)
    matched_words = list(intersection) 
    v = np.zeros((len(intersection), n_emotions))
    
    for i, word in enumerate(intersection):
        v[i, :] = emotion_lex[word]
    
    # Calculamos el vector de emociones (usamos la media)
    emotion_vector = np.mean(v, axis=0) if len(intersection) > 0 else np.zeros(n_emotions)
    
    # Retornamos tanto el vector de emociones como las palabras coincidentes
    return {
        'emotion_vector': emotion_vector,
        'matched_words': matched_words
    }

    
def dictionary_emotion(text):
    """
    Convierte la lista puntuaciones de emociones en diccionario con emoción como clave
    Args:
    text (list): Lista de puntuaciones de emociones.
    
    Returns:
    dict: Diccionario con las emociones y sus respectivas emociones.
    """
    test_keys = ["fear", "amusement", "anger","annoyance","indifference","happiness","inspiration","sadness"]
    dictionary = dict(map(lambda i,j : (i,j) , test_keys,text))
    return dictionary


def top_n_emotions_names(emotion_scores, n=3):
    """
    Obtiene las n emociones con los puntajes más altos (solo nombres).
    
    Args:
    emotion_scores (dict): Diccionario que mapea etiquetas de emociones a sus respectivos puntajes.
    n (int): Número de emociones con los puntajes más altos a devolver.
    
    Returns:
    list: Lista de las n emociones con mayores puntajes.
    """
    sorted_emotions = sorted(emotion_scores.items(), key=lambda item: item[1], reverse=True)
    return [emotion for emotion, _ in sorted_emotions[:n]]


def get_max_emotion_name(emotion_scores):
    """
    Obtiene el nombre de la emoción con el puntaje más alto.
    
    Args:
    emotion_scores (dict): Diccionario que mapea etiquetas de emociones a sus respectivos puntajes.
    
    Returns:
    str: El nombre de la emoción con el puntaje más alto.
    """
    max_emotion = max(emotion_scores, key=emotion_scores.get)
    return max_emotion

# DepecheMood++ Lexicon

In [None]:
# Read the DepecheMood lexicon
#lexicon=pd.read_csv('DATASETS/DepecheMood_english_lemma_full.tsv',sep='\t',index_col=[0])
#lexicon.to_csv('DATASETS/DepecheMood_english_lemma_full.csv')

#Filter lexicon to include only rows with 'freq' >= , 134278 values were discarded (23%), 41314 lemmas
lexicon=pd.read_csv('DepecheMood_english_lemma_full.csv',index_col=[0])
lexicon=lexicon[lexicon['freq'] >= 10] 

#Convert the lexicon to a dictionary
lexicon=lexicon.drop('freq',axis=1)
lexicon=lexicon.reset_index()
lexicon_dict = lexicon.set_index('index').T.to_dict('list')
#lexicon_dict
#lexicon.loc[200:250,:]

In [None]:
df=pd.read_csv('data/train/dataset_en_train_augmented.csv')

In [None]:
# Aplicamos las transformaciones de emociones
emo_vocab = set(lexicon_dict.keys())
n_emotions = 8  # Número de emociones

# Creamos listas vacías para almacenar los resultados
matched_words_list = []
top_3_emotions_list = []
max_emotion_list = []

# Actualizamos el bucle para usar el nuevo nombre de la función
for text in df['text']:
    # Extraemos el vector de emociones y las palabras coincidentes
    data = extract_emo_representation(text.split(' '), emo_vocab, lexicon_dict, n_emotions)
    emotion_vector = data['emotion_vector']
    matched_words = data['matched_words']
    
    # Convertimos el vector de emociones en un diccionario
    emotion_scores = dictionary_emotion(emotion_vector)
    
    # Calculamos los resultados necesarios
    top_3_emotions = top_n_emotions_names(emotion_scores, 3)  # Obtenemos solo los nombres
    max_emotion = get_max_emotion_name(emotion_scores)  # Obtenemos solo el nombre
    
    # Guardamos los resultados en las listas
    matched_words_list.append(matched_words)
    top_3_emotions_list.append(top_3_emotions)
    max_emotion_list.append(max_emotion)

# Añadimos las nuevas columnas al DataFrame
df['matched_words'] = matched_words_list
df['top_3_emotions'] = top_3_emotions_list
df['max_emotion'] = max_emotion_list


# Moral Values

In [None]:
def prompt_moralstrength2(text):
    result = estimate_morals(text, process=True)
    result=result.fillna(0)
    result=result.loc[0].to_dict()
    dict={}
    for elem in result:
        #if result[elem]!=0.0:
        dict[elem]=result[elem]
    if len(dict)==0:
        dict['moral']= 'non-moral'
    return dict

def prompt_moralstrength(df):
    df['text_split']=df['text'].apply(lambda x: x.split('\n'))
    df['moralstrength'] = df['text_split'].apply(lambda x: prompt_moralstrength2(x))
    df.drop('text_split',axis=1,inplace=True)
    return df

def classify_values(values):
    """
    Classifies moral values based on their polarity.
    
    Args:
    values (dict): Dictionary with moral values where the key is the name of the moral value
                   and the value is the associated score.
    
    Returns:
    dict: A dictionary with moral values classified into their respective polarities.
    """
    classification = {}

    for moral, value in values.items():
        if moral == 'care':
            if value > 5:
                classification['care'] = value
            elif value < 5:
                classification['harm'] = value
        elif moral == 'fairness':
            if value > 5:
                classification['fairness'] = value
            elif value < 5:
                classification['cheating'] = value
        elif moral == 'loyalty':
            if value > 5:
                classification['loyalty'] = value
            elif value < 5:
                classification['betrayal'] = value
        elif moral == 'authority':
            if value > 5:
                classification['authority'] = value
            elif value < 5:
                classification['subversion'] = value
        elif moral == 'purity':
            if value > 5:
                classification['purity'] = value
            elif value < 5:
                classification['degradation'] = value

    return classification

def moralstrength_differences(valores):
    clasificacion = {}
    for moral, valor in valores.items():
        if valor !=0:
            diferencia = abs(valor - 5)  # Calcula la diferencia respecto a 5
            if diferencia > 2.5:  # Diferencia grande
                clasificacion[moral] = diferencia
            elif diferencia > 1.5:  # Diferencia moderada
                clasificacion[moral] = diferencia
            else:  # Diferencia pequeña
                clasificacion[moral] = diferencia
       
    return clasificacion

def moralstrength_max_moral(values):
    max_difference = -1
    max_key = None  
    for moral, value in values.items():
        difference = abs(value)
        if difference > max_difference:
            max_difference = difference
            max_key = moral
    return max_key



In [None]:
df = prompt_moralstrength(df)
df['moralstrength_base'] = df['moralstrength'].apply(lambda x: classify_values(x))
df['moralstrength'] = df['moralstrength_base'].apply(lambda x: moralstrength_differences(x))
df['prompt'] = df['moralstrength'].apply(lambda x: moralstrength_max_moral(x))

# SAVE

In [None]:
df.to_csv('data/train/dataset_en_train_completed.csv')

# **DATASET ESPAÑOL**

In [None]:
#https://github.com/pysentimiento/pysentimiento , https://pypi.org/project/pysentimiento/0.5.2rc3/

import pandas as pd
from pysentimiento import create_analyzer


df = pd.read_csv("data/train/dataset_es_train_augmented.csv")
df

analyzer = create_analyzer(task="sentiment", lang="es")


def get_sentiment(text):
    # Obtener el resultado de la predicción
    result = analyzer.predict(text)
    # El sentimiento predicho es POS, NEG, o NEU
    return result.output

# Aplicar la función a la columna 'text' del DataFrame
df['sentiment'] = df['text'].apply(get_sentiment)
df.to_csv('data/train/dataset_es_train_with_sentiment.csv',index=False)