# Práctica de laboratorio: Análisis de Emociones y Sentimiento

## Recursos



[Natural Language Toolkit](https://www.nltk.org/)

[Léxico de Emociones](https://saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm)

[WordNet](https://wordnet.princeton.edu/)

[ProjectGutenberg](https://www.gutenberg.org/)


## Tarea 1 (1.5 puntos)

Cargar en una estructura de datos Python el Word-Emotion Association Lexicon del NRC5. Asegúrate de entender cómo se estructura el léxico y cómo se mapean las palabras a las emociones. Hay que tener en cuenta que existen varios ficheros con la misma información: un fichero con toda la información, un fichero por emoción, etc. Se puede elegir la opción que se estime oportuna. Se deberá considerar cómo organizar el léxico en memoria para un acceso rápido durante el análisis.

## Tarea 2 (3.0 puntos)

Extender EmoLex utilizando WordNet desde NLTK6 para incluir sinónimos, hipónimos, hiperónimos de las palabras ya presentes en el léxico. También puedes usar la función derivationally_related_forms() de WordNet de modo que el léxico pueda extenderse más aún. Esta función devuelve una lista de formas derivadas de una palabra, como plurales, participios pasados, etc. Esto puede ser útil para encontrar variaciones de una palabra que puedan estar asociadas con la misma emoción. El léxico deberá implementarse como un diccionario Python que tenga como clave una dupla <lemma, POS-tag>, y como valor la lista de emociones con las que dicha dupla se podría asociar. 

Para poder usar NLTK y WordNet deberás instalar NLTK con pip y luego importarlas y cargarlas del siguiente modo:

In [None]:
from nltk.corpus import wordnet as wn
import nltk
nltk.download('wordnet') 

Por otra parte, dado que la codificación de POS-tagging que emplea WordNet no es la del PennTreeBank, para hacer traducciones entre una y otra nomenclatura, se puede emplear los siguientes diccionarios. 

In [None]:
wordnet_to_penn = {
 'n': 'NN', # sustantivo
 'v': 'VB', # verbo
 'a': 'JJ', # adjetivo
 's': 'JJ', # adjetivo superlativo
 'r': 'RB', # adverbio
 'c': 'CC' # conjunción
}
penn_to_wordnet = {
 'CC': 'c', # Coordinating conjunction
 'CD': 'c', # Cardinal number
 'DT': 'c', # Determiner
 'EX': 'c', # Existential there
 'FW': 'x', # Foreign word
 'IN': 'c', # Preposition or subordinating conjunction
 'JJ': 'a', # Adjective
 'JJR': 'a', # Adjective, comparative
 'JJS': 'a', # Adjective, superlative
 'LS': 'c', # List item marker
 'MD': 'v', # Modal
 'NN': 'n', # Noun, singular or mass
 'NNS': 'n', # Noun, plural
 'NNP': 'n', # Proper noun, singular
 'NNPS': 'n', # Proper noun, plura
 'PDT': 'c', # Predeterminer
 'POS': 'c', # Possessive ending
 'PRP': 'n', # Personal pronoun
 'PRP$': 'n', # Possessive pronoun
 'RB': 'r', # Adverb
 'RBR': 'r', # Adverb, comparative
 'RBS': 'r', # Adverb, superlative
 'RP': 'r', # Particle
 'SYM': 'x', # Symbol
 'TO': 'c', # to
 'UH': 'x', # Interjection
 'VB': 'v', # Verb, base form
 'VBD': 'v', # Verb, past tense
 'VBG': 'v', # Verb, gerund or present participle
 'VBN': 'v', # Verb, past participle
 'VBP': 'v', # Verb, non-3rd person singular present
 'VBZ': 'v', # Verb, 3rd person singular present
 'WDT': 'c', # Wh-determiner
 'WP': 'n', # Wh-pronoun
 'WP$': 'n', # Possessive wh-pronoun
 'WRB': 'r', # Wh-adverb
 'X': 'x' # Any word not categorized by the other tags
}

## Tarea 3 (1.5 puntos)

Cargar el texto de novelas clásicas disponibles en Project Gutenberg. El siguiente es un diccionario con 10 novelas conocidas que están accesibles en Project Gutenberg que puedes usar en tu código.

In [5]:
books = {
 'Crime and Punishment ': 'http://www.gutenberg.org/files/2554/2554-0.txt',
 'War and Peace': 'http://www.gutenberg.org/files/2600/2600-0.txt',
 'Pride and Prejudice': 'http://www.gutenberg.org/files/1342/1342-0.txt',
 'Frankenstein': 'https://www.gutenberg.org/cache/epub/84/pg84.txt',
 'The Adventures of Sherlock Holmes': 'http://www.gutenberg.org/files/1661/1661-0.txt',
 'Ulysses': 'http://www.gutenberg.org/files/4300/4300-0.txt',
 'The Odyssey': 'https://www.gutenberg.org/cache/epub/1727/pg1727.txt',
 'Moby Dick': 'http://www.gutenberg.org/files/15/15-0.txt',
 'The Divine Comedy': 'https://www.gutenberg.org/cache/epub/8800/pg8800.txt',
 'Critias': 'https://www.gutenberg.org/cache/epub/1571/pg1571.txt'
} 

Se puede usar el siguiente fragmento de código para descargar el texto de una novela:

In [6]:
import requests 

def download_text(url):
 """Descarga el texto de una novela en formato txt."""
 try:
    response = requests.get(url)
    response.raise_for_status() # Lanza excepción para códigos HTTP 4xx/5xx
    return response.text
 except requests.exceptions.RequestException as e:
    print(f"Error al descargar el texto: {e}")
    return None 

## Tarea 4 (3.0 puntos)

Implementar una función para analizar el texto de las novelas de forma básica, contando las ocurrencias de palabras vinculadas con emociones en el texto. Esta función debe:

- Leer el texto y dividirlo en palabras individuales (tokenización).
- Asignar a cada palabra su correspondiente etiqueta de parte del discurso (POS-tagging) para diferenciar entre verbos, sustantivos, adjetivos, etc.
- Lematizar las palabras para reducirlas a su forma base (por ejemplo, "running" a "run").
- Comparar cada dupla <lema, POS-tag> con las entradas en el léxico extendido para determinar la emoción asociada.
- Contar las ocurrencias de cada emoción en el texto y generar un informe detallado.

Solo por si se necesita a modo de soporte, es posible que la implementación a realizar deba hacer los siguientes import y deba descargar (download) los siguientes recursos de NLTK:

In [7]:
from nltk.corpus import wordnet as wn
from nltk import pos_tag
from nltk.tokenize import word_tokenize
from nltk.stem.wordnet import WordNetLemmatizer
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger') 

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\48156348Y\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\48156348Y\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

## Tarea 5 (1.0 puntos)

Presentar los resultados del análisis en las novelas clásicas. Incluir estadísticas sobre las emociones más comunes y cualquier patrón interesante que hayas observado. Considerar cómo visualizar los datos y cómo explicar las conclusiones del análisis solicitado.