<h1>Práctica de Laboratorio: Análisis de Emociones y Sentimiento</h1>
<p><strong>Máster en Bioinformática y Biología Computacional</strong><br>
<strong>Minería de Texto - Curso 2025-26</strong></p>

<p><strong>Integrantes:</strong> [Gonzalo Santana, Tania] y [Parra Gutiérrez, Daniel]</p>


En este ejercicio, trabajaremos con el Procesamiento del Lenguaje Natural (PLN) para analizar las emociones 
expresadas en textos literarios disponibles en Project Gutenberg. El objetivo es construir un sistema que pueda 
identificar y contar las emociones y sentimientos presentes en estas obras. Este ejercicio se enfoca en el uso de 
técnicas avanzadas de PLN, la extracción de información de texto y el procesamiento de lenguaje natural en 
general. 

Para llevar a cabo este ejercicio, se te proporcionará acceso a una serie de recursos y herramientas, incluyendo 
el léxico de emociones NRC (National Research Council), la base de datos léxica WordNet, y la biblioteca de 
Python Beautiful Soup. 

#### Configuración inicial
En esta sección, importamos las bibliotecas necesarias y descargamos los recursos de NLTK.

In [None]:
!pip install nltk

In [43]:
# Importaciones necesarias
import nltk
from nltk.corpus import wordnet as wn
from nltk import pos_tag
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
import requests
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from collections import defaultdict, Counter
import re

# Descargar recursos de NLTK
nltk.download('wordnet')
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('omw-1.4')  # recursos adicionales si hacen falta

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Tania\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Tania\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Tania\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\Tania\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [100]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Tania\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [106]:
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize

text = "Este es un ejemplo de tokenización."
tokens = word_tokenize(text)
print(tokens)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Tania\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


LookupError: 
**********************************************************************
  Resource [93mpunkt_tab[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt_tab')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtokenizers/punkt_tab/english/[0m

  Searched in:
    - 'C:\\Users\\Tania/nltk_data'
    - 'C:\\Users\\Tania\\anaconda3\\nltk_data'
    - 'C:\\Users\\Tania\\anaconda3\\share\\nltk_data'
    - 'C:\\Users\\Tania\\anaconda3\\lib\\nltk_data'
    - 'C:\\Users\\Tania\\AppData\\Roaming\\nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
**********************************************************************


**Tarea 1**

(1.5 puntos) Cargar en una estructura de datos Python el Word-Emotion Association Lexicon del 
NRC5. Asegúrate de entender cómo se estructura el léxico y cómo se mapean las palabras a las 
emociones. Hay que tener en cuenta que existen varios ficheros con la misma información: un fichero 
con toda la información, un fichero por emoción, etc. Se puede elegir la opción que se estime oportuna. 
Se deberá considerar cómo organizar el léxico en memoria para un acceso rápido durante el análisis. 

##### Carga del léxico de emociones NRC

Vamos a cargar el léxico NRC. Supongamos que hemos descargado el archivo "NRC-Emotion-Lexicon-Wordlevel-v0.92.txt" desde el enlace proporcionado. Este archivo tiene el formato: palabra, emoción, asociación (1 o 0).

Nota: Podemos descargar el archivo manualmente o por código.

###### Descarga por código

In [47]:
import requests

# URL directa del léxico NRC (puede cambiar, pero esta es la habitual)
# url = "https:/mmm/NRC-Emotion-Lexicon-Wordlevel-v0.92.txt"

# Nombre del archivo local
filename = "NRC-Emotion-Lexicon-Wordlevel-v0.92.txt"

# Descargar y guardar
response = requests.get(url)
with open(filename, "w", encoding="utf-8") as f:
    f.write(response.text)

print(f"Archivo descargado y guardado como '{filename}'")

Archivo descargado y guardado como 'NRC-Emotion-Lexicon-Wordlevel-v0.92.txt'


In [72]:
# Cargar el léxico NRC
emolex_file = 'NRC-Emotion-Lexicon-Wordlevel-v0.92.txt'
emolex = {}

with open(emolex_file, 'r') as f:
    for line in f:
        word, emotion, association = line.strip().split('\t')
        if association == '1':
            if word not in emolex:
                emolex[word] = []
            emolex[word].append(emotion)

# Mostrar algunas palabras y sus emociones
list(emolex.items())[:10]

[('abacus', ['trust']),
 ('abandon', ['fear', 'negative', 'sadness']),
 ('abandoned', ['anger', 'fear', 'negative', 'sadness']),
 ('abandonment', ['anger', 'fear', 'negative', 'sadness', 'surprise']),
 ('abba', ['positive']),
 ('abbot', ['trust']),
 ('abduction', ['fear', 'negative', 'sadness', 'surprise']),
 ('aberrant', ['negative']),
 ('aberration', ['disgust', 'negative']),
 ('abhor', ['anger', 'disgust', 'fear', 'negative'])]

In [74]:
def load_emolex(file_path):
    """
    Carga el léxico de emociones NRC desde un archivo
    Retorna: dict con estructura {palabra: [emociones]}
    """
    emolex = {}
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            for line in f:
                parts = line.strip().split('\t')
                if len(parts) == 3:
                    word, emotion, value = parts
                    if value == '1':
                        if word not in emolex:
                            emolex[word] = []
                        emolex[word].append(emotion)
        print(f"EmoLex cargado: {len(emolex)} palabras")
        return emolex
    except FileNotFoundError:
        print("Archivo EmoLex no encontrado")
        return {}

In [76]:
emolex = load_emolex('NRC-Emotion-Lexicon-Wordlevel-v0.92.txt')

EmoLex cargado: 6453 palabras


In [78]:
import csv
from collections import defaultdict

def load_emolex(filepath):
    # adapta si usas el fichero "full" o los ficheros por emoción
    word_emotions = defaultdict(set)  # word -> set(emotions)
    with open(filepath, encoding='utf-8') as f:
        reader = csv.reader(f, delimiter='\t')
        for row in reader:
            if len(row) < 3: continue
            word, emotion, association = row[0].strip(), row[1].strip(), row[2].strip()
            if association == '1':
                word_emotions[word].add(emotion)
    return word_emotions

In [80]:
emolex = load_emolex('NRC-Emotion-Lexicon-Wordlevel-v0.92.txt')

In [82]:
emolex

defaultdict(set,
            {'abacus': {'trust'},
             'abandon': {'fear', 'negative', 'sadness'},
             'abandoned': {'anger', 'fear', 'negative', 'sadness'},
             'abandonment': {'anger',
              'fear',
              'negative',
              'sadness',
              'surprise'},
             'abba': {'positive'},
             'abbot': {'trust'},
             'abduction': {'fear', 'negative', 'sadness', 'surprise'},
             'aberrant': {'negative'},
             'aberration': {'disgust', 'negative'},
             'abhor': {'anger', 'disgust', 'fear', 'negative'},
             'abhorrent': {'anger', 'disgust', 'fear', 'negative'},
             'ability': {'positive'},
             'abject': {'disgust', 'negative'},
             'abnormal': {'disgust', 'negative'},
             'abolish': {'anger', 'negative'},
             'abolition': {'negative'},
             'abominable': {'disgust', 'fear', 'negative'},
             'abomination': {'anger', 'di

#### Extensión del léxico usando WordNet

Vamos a extender el léxico NRC añadiendo sinónimos, hipónimos, hiperónimos y formas derivadas de las palabras originales. Usaremos WordNet y la función derivationally_related_forms().

Además, usaremos los diccionarios de mapeo de POS-tags proporcionados.

In [84]:
# Diccionarios para mapeo de POS-tags
wordnet_to_penn = {
    'n': 'NN',  # sustantivo
    'v': 'VB',  # verbo
    'a': 'JJ',  # adjetivo
    's': 'JJ',  # adjetivo superlativo
    'r': 'RB',  # adverbio
    'c': 'CC'   # conjunción
}

penn_to_wordnet = {
    'CC': 'c',   # Coordinating conjunction
    'CD': 'c',   # Cardinal number
    'DT': 'c',   # Determiner
    'EX': 'c',   # Existential there
    'FW': 'x',   # Foreign word
    'IN': 'c',   # Preposition or subordinating conjunction
    'JJ': 'a',   # Adjective
    'JJR': 'a',  # Adjective, comparative
    'JJS': 'a',  # Adjective, superlative
    'LS': 'c',   # List item marker
    'MD': 'v',   # Modal
    'NN': 'n',   # Noun, singular or mass
    'NNS': 'n',  # Noun, plural
    'NNP': 'n',  # Proper noun, singular
    'NNPS': 'n', # Proper noun, plural
    'PDT': 'c',  # Predeterminer
    'POS': 'c',  # Possessive ending
    'PRP': 'n',  # Personal pronoun
    'PRP$': 'n', # Possessive pronoun
    'RB': 'r',   # Adverb
    'RBR': 'r',  # Adverb, comparative
    'RBS': 'r',  # Adverb, superlative
    'RP': 'r',   # Particle
    'SYM': 'x',  # Symbol
    'TO': 'c',   # to
    'UH': 'x',   # Interjection
    'VB': 'v',   # Verb, base form
    'VBD': 'v',  # Verb, past tense
    'VBG': 'v',  # Verb, gerund or present participle
    'VBN': 'v',  # Verb, past participle
    'VBP': 'v',  # Verb, non-3rd person singular present
    'VBZ': 'v',  # Verb, 3rd person singular present
    'WDT': 'c',  # Wh-determiner
    'WP': 'n',   # Wh-pronoun
    'WP$': 'n',  # Possessive wh-pronoun
    'WRB': 'r',  # Wh-adverb
    'X': 'x'     # Any word not categorized by the other tags
}

# Inicializar el lematizador
lemmatizer = WordNetLemmatizer()

# Crear un diccionario extendido
extended_emolex = {}

# Función para obtener sinónimos, hipónimos, hiperónimos y formas derivadas
def get_wordnet_relations(word, pos_tag_wn):
    synsets = wn.synsets(word, pos=pos_tag_wn)
    relations = set()
    for synset in synsets:
        # Lemas del synset (sinónimos)
        for lemma in synset.lemmas():
            relations.add(lemma.name().replace('_', ' '))
        # Hipónimos
        for hypo in synset.hyponyms():
            for lemma in hypo.lemmas():
                relations.add(lemma.name().replace('_', ' '))
        # Hiperónimos
        for hyper in synset.hypernyms():
            for lemma in hyper.lemmas():
                relations.add(lemma.name().replace('_', ' '))
        # Formas derivadas (derivationally_related_forms)
        for lemma in synset.lemmas():
            for related_form in lemma.derivationally_related_forms():
                relations.add(related_form.name().replace('_', ' '))
    return relations

# Recorrer las palabras originales del EmoLex
for word, emotions in emolex.items():
    # Para cada palabra, intentar obtener su POS-tag usando WordNet
    # Inicialmente, no sabemos el POS-tag, así que probaremos con los cuatro principales: n, v, a, r
    for pos_wn in ['n', 'v', 'a', 'r']:
        # Obtener relaciones
        relations = get_wordnet_relations(word, pos_wn)
        # Para cada palabra relacionada, agregar las emociones
        for related_word in relations:
            # Convertir el POS-tag de WordNet a Penn
            pos_penn = wordnet_to_penn.get(pos_wn, None)
            if pos_penn:
                key = (related_word, pos_penn)
                if key not in extended_emolex:
                    extended_emolex[key] = set()
                extended_emolex[key].update(emotions)

    # También agregar la palabra original (sin POS-tag específico) pero necesitamos asignarle un POS-tag
    # Para la palabra original, usaremos el primer POS-tag que encontremos en WordNet
    synsets = wn.synsets(word)
    if synsets:
        pos_wn = synsets[0].pos()
        pos_penn = wordnet_to_penn.get(pos_wn, None)
        if pos_penn:
            key = (word, pos_penn)
            if key not in extended_emolex:
                extended_emolex[key] = set()
            extended_emolex[key].update(emotions)

# Convertir los sets a listas para consistencia
for key in extended_emolex:
    extended_emolex[key] = list(extended_emolex[key])

# Mostrar el tamaño del léxico extendido
print(f"Tamaño del léxico extendido: {len(extended_emolex)}")

Tamaño del léxico extendido: 61842


In [90]:
def extend_emolex(original_emolex):
    """
    Extiende el léxico EmoLex usando WordNet
    Retorna: dict con estructura {(lemma, pos_tag): [emociones]}
    """
    extended_lexicon = {}
    lemmatizer = WordNetLemmatizer()
    
    for word, emotions in original_emolex.items():
        # Probar diferentes POS tags para encontrar synsets
        for pos in ['n', 'v', 'a', 'r']:
            synsets = wn.synsets(word, pos=pos)
            
            for synset in synsets:
                # Añadir lema principal
                lemma = lemmatizer.lemmatize(word, pos=pos)
                pos_tag_penn = wordnet_to_penn.get(pos, 'NN')
                key = (lemma, pos_tag_penn)
                
                if key not in extended_lexicon:
                    extended_lexicon[key] = set()
                extended_lexicon[key].update(emotions)
                
                # Añadir sinónimos
                for lemma_obj in synset.lemmas():
                    synonym = lemma_obj.name().replace('_', ' ')
                    synonym_key = (synonym, pos_tag_penn)
                    if synonym_key not in extended_lexicon:
                        extended_lexicon[synonym_key] = set()
                    extended_lexicon[synonym_key].update(emotions)
                
                # Añadir hipónimos
                for hyponym in synset.hyponyms():
                    for lemma_obj in hyponym.lemmas():
                        hyponym_word = lemma_obj.name().replace('_', ' ')
                        hyponym_key = (hyponym_word, pos_tag_penn)
                        if hyponym_key not in extended_lexicon:
                            extended_lexicon[hyponym_key] = set()
                        extended_lexicon[hyponym_key].update(emotions)
                
                # Añadir hiperónimos
                for hypernym in synset.hypernyms():
                    for lemma_obj in hypernym.lemmas():
                        hypernym_word = lemma_obj.name().replace('_', ' ')
                        hypernym_key = (hypernym_word, pos_tag_penn)
                        if hypernym_key not in extended_lexicon:
                            extended_lexicon[hypernym_key] = set()
                        extended_lexicon[hypernym_key].update(emotions)
    
    # Convertir sets a listas
    return {key: list(emotions) for key, emotions in extended_lexicon.items()}

In [94]:
# Extender el léxico
extended_emolex = extend_emolex(emolex)
print(f"Léxico extendido: {len(extended_emolex)} entradas")
print("Ejemplo de entradas extendidas:", dict(list(extended_emolex.items())[:5]))

Léxico extendido: 51100 entradas
Ejemplo de entradas extendidas: {('abacus', 'NN'): ['trust', 'positive'], ('tablet', 'NN'): ['trust', 'positive'], ('calculator', 'NN'): ['disgust', 'trust', 'negative', 'fear', 'anger', 'positive', 'sadness'], ('calculating machine', 'NN'): ['disgust', 'trust', 'negative', 'fear', 'anger', 'positive', 'sadness'], ('abandon', 'NN'): ['negative', 'trust', 'fear', 'joy', 'anticipation', 'sadness', 'positive']}


#### Descarga de novelas de Project Gutenberg

Usamos la función download_text proporcionada para descargar las novelas.

In [96]:
# Diccionario de libros
books = {
    'Crime and Punishment': 'http://www.gutenberg.org/files/2554/2554-0.txt',
    'War and Peace': 'http://www.gutenberg.org/files/2600/2600-0.txt',
    'Pride and Prejudice': 'http://www.gutenberg.org/files/1342/1342-0.txt',
    'Frankenstein': 'https://www.gutenberg.org/cache/epub/84/pg84.txt',
    'The Adventures of Sherlock Holmes': 'http://www.gutenberg.org/files/1661/1661-0.txt',
    'Ulysses': 'http://www.gutenberg.org/files/4300/4300-0.txt',
    'The Odyssey': 'https://www.gutenberg.org/cache/epub/1727/pg1727.txt',
    'Moby Dick': 'http://www.gutenberg.org/files/15/15-0.txt',
    'The Divine Comedy': 'https://www.gutenberg.org/cache/epub/8800/pg8800.txt',
    'Critias': 'https://www.gutenberg.org/cache/epub/1571/pg1571.txt'
}

def download_text(url):
    """Descarga el texto de una novela desde Project Gutenberg"""
    try:
        response = requests.get(url)
        response.raise_for_status()
        return response.text
    except requests.exceptions.RequestException as e:
        print(f"Error al descargar: {e}")
        return None
        
# Descargar todos los libros
book_texts = {}
for title, url in books.items():
    print(f"Descargando {title}...")
    text = download_text(url)
    if text:
        book_texts[title] = text
        print(f"{title} descargado correctamente.")
    else:
        print(f"Fallo en la descarga de {title}.")

Descargando Crime and Punishment...
Crime and Punishment descargado correctamente.
Descargando War and Peace...
War and Peace descargado correctamente.
Descargando Pride and Prejudice...
Pride and Prejudice descargado correctamente.
Descargando Frankenstein...
Frankenstein descargado correctamente.
Descargando The Adventures of Sherlock Holmes...
The Adventures of Sherlock Holmes descargado correctamente.
Descargando Ulysses...
Ulysses descargado correctamente.
Descargando The Odyssey...
The Odyssey descargado correctamente.
Descargando Moby Dick...
Moby Dick descargado correctamente.
Descargando The Divine Comedy...
The Divine Comedy descargado correctamente.
Descargando Critias...
Critias descargado correctamente.


#### Análisis de texto

Implementamos la función para analizar el texto y contar las emociones.

In [102]:
# Inicializar el lematizador
lemmatizer = WordNetLemmatizer()

def analyze_emotions(text, lexicon):
    # Tokenización
    tokens = word_tokenize(text)
    # POS-tagging
    pos_tags = pos_tag(tokens)
    # Inicializar contador de emociones
    emotion_counts = {}
    # Procesar cada token
    for word, pos_tag_pen in pos_tags:
        # Convertir POS-tag de PennTreeBank a WordNet
        pos_wn = penn_to_wordnet.get(pos_tag_pen, None)
        if pos_wn is None:
            continue
        # Lematización
        lemma = lemmatizer.lemmatize(word, pos=pos_wn)
        # Buscar en el léxico extendido
        key = (lemma, pos_tag_pen)
        if key in lexicon:
            emotions = lexicon[key]
            for emotion in emotions:
                emotion_counts[emotion] = emotion_counts.get(emotion, 0) + 1
    return emotion_counts

# Analizar cada libro
results = {}
for title, text in book_texts.items():
    print(f"Analizando {title}...")
    results[title] = analyze_emotions(text, extended_emolex)

Analizando Crime and Punishment...


LookupError: 
**********************************************************************
  Resource [93mpunkt_tab[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt_tab')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtokenizers/punkt_tab/english/[0m

  Searched in:
    - 'C:\\Users\\Tania/nltk_data'
    - 'C:\\Users\\Tania\\anaconda3\\nltk_data'
    - 'C:\\Users\\Tania\\anaconda3\\share\\nltk_data'
    - 'C:\\Users\\Tania\\anaconda3\\lib\\nltk_data'
    - 'C:\\Users\\Tania\\AppData\\Roaming\\nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
**********************************************************************


#### Presentación de resultados

Vamos a mostrar los resultados en forma de tabla y gráficos.

In [66]:
# Crear un DataFrame con los resultados
df = pd.DataFrame.from_dict(results, orient='index')
# Rellenar NaN con 0
df = df.fillna(0)
# Mostrar la tabla
df

# Graficar los resultados
plt.figure(figsize=(12, 8))
df.plot(kind='bar', stacked=True, figsize=(12,8))
plt.title('Emociones en novelas clásicas')
plt.ylabel('Frecuencia')
plt.xlabel('Novelas')
plt.xticks(rotation=45)
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()

TypeError: no numeric data to plot

<Figure size 1200x800 with 0 Axes>

#### Conclusiones

En esta sección, comenta brevemente los resultados obtenidos.
* ¿Qué emociones son las más frecuentes en general?
* ¿Hay novelas que destacan por alguna emoción en particular?
* ¿Qué limitaciones has encontrado?