## Introducción

En esta práctica aplicaremos el análisis de sentimiento sobre un poema de Rudyard Kipling, escrito en inglés: el conocido 'If', utilizando la librería NLTK de análisis de sentimiento.

- En primer lugar haremos un recuento de las palabras que aparecen en el poema a través de una tokenización y una distribución de frecuencias. [EX01](#EX01)
- En segundo lugar procesaremos el texto para eliminar tanto los términos stop como los sufijos, que si bien son útiles en el lenguaje hablado no tienen relevancia en este contexto. [EX02](#EX02)
- En tercer lugar realizaremos el análisis de sentimiento propiamente dicho. [EX03](#EX03)

Por último, en nuestra [conclusión](#conclusion) comentamos las limitaciones del análisis léxico en casos como este.

# EX01. <a name="EX01"></a>Agafa un text en anglès que vulguis, i calcula'n la freqüència de les paraules.

Comezamos asignando el texto, el poema 'If' de Rudyard Kipling a la variable if_kipling.

In [1]:
texto = open('If.txt').read()

In [2]:
print(texto)

If you can keep your head when all about you   
    Are losing theirs and blaming it on you,   
If you can trust yourself when all men doubt you,
    But make allowance for their doubting too;   
If you can wait and not be tired by waiting,
    Or being lied about, don’t deal in lies,
Or being hated, don’t give way to hating,
    And yet don’t look too good, nor talk too wise:

If you can dream—and not make dreams your master;   
    If you can think—and not make thoughts your aim;   
If you can meet with Triumph and Disaster
    And treat those two impostors just the same;   
If you can bear to hear the truth you’ve spoken
    Twisted by knaves to make a trap for fools,
Or watch the things you gave your life to, broken,
    And stoop and build ’em up with worn-out tools:

If you can make one heap of all your winnings
    And risk it on one turn of pitch-and-toss,
And lose, and start again at your beginnings
    And never breathe a word about your loss;
If you can force your heart and 

In [4]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist

In [28]:
tokens_raw = nltk.word_tokenize(texto)
tokens = []

fdist = FreqDist()
for word in tokens_raw:
  if word.isalpha():
    word = word.lower()
    fdist[word] += 1
    tokens.append(word)

Tokenizamos el texto, en minúscula y eliminando los signos de puntuación y apóstrofes. También guardamos todos los términos y su conteo en la variable fdist.

In [35]:
for x in fdist:
  print(x, fdist[x])

you 19
and 16
if 13
can 12
your 10
the 7
to 6
with 6
make 5
all 4
on 4
too 4
or 4
when 3
about 3
it 3
not 3
don 3
t 3
in 3
a 3
of 3
is 3
keep 2
are 2
men 2
but 2
for 2
be 2
by 2
being 2
nor 2
talk 2
one 2
turn 2
lose 2
hold 2
head 1
losing 1
theirs 1
blaming 1
trust 1
yourself 1
doubt 1
allowance 1
their 1
doubting 1
wait 1
tired 1
waiting 1
lied 1
deal 1
lies 1
hated 1
give 1
way 1
hating 1
yet 1
look 1
good 1
wise 1
dreams 1
master 1
thoughts 1
aim 1
meet 1
triumph 1
disaster 1
treat 1
those 1
two 1
impostors 1
just 1
same 1
bear 1
hear 1
truth 1
ve 1
spoken 1
twisted 1
knaves 1
trap 1
fools 1
watch 1
things 1
gave 1
life 1
broken 1
stoop 1
build 1
em 1
up 1
tools 1
heap 1
winnings 1
risk 1
start 1
again 1
at 1
beginnings 1
never 1
breathe 1
word 1
loss 1
force 1
heart 1
nerve 1
sinew 1
serve 1
long 1
after 1
they 1
gone 1
so 1
there 1
nothing 1
except 1
will 1
which 1
says 1
them 1
crowds 1
virtue 1
walk 1
common 1
touch 1
neither 1
foes 1
loving 1
friends 1
hurt 1
count 1
none 1
mu

Mostramos la distribución de frecuencias.

# EX02. <a name="EX02"></a>Treu les stopwords i realitza stemming al teu conjunt de dades.

In [None]:
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

In [14]:
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

In [52]:
def preprocess_text(tokens):

    filtered_tokens = [token for token in tokens if token not in stopwords.words('english')]
    lemmatizer = WordNetLemmatizer()
    lemmatized_tokens = [lemmatizer.lemmatize(token) for token in filtered_tokens]
    processed_text = ' '.join(lemmatized_tokens)
    return processed_text

processed_text = preprocess_text(tokens)
print('Texto sin stop words y con stemming:\n')
processed_text

Texto sin stop words y con stemming:



'keep head losing blaming trust men doubt make allowance doubting wait tired waiting lied deal lie hated give way hating yet look good talk wise make dream master make thought aim meet triumph disaster treat two impostor bear hear truth spoken twisted knave make trap fool watch thing gave life broken stoop build em tool make one heap winning risk one turn lose start beginning never breathe word loss force heart nerve sinew serve turn long gone hold nothing except say hold talk crowd keep virtue walk lose common touch neither foe loving friend hurt men count none much fill unforgiving minute sixty second worth distance run earth everything man son'

In [47]:
print('Texto tokenizado con stop words y sin stemming:\n')
' '.join(tokens)

Texto tokenizado con stop words y sin stemming:



'if you can keep your head when all about you are losing theirs and blaming it on you if you can trust yourself when all men doubt you but make allowance for their doubting too if you can wait and not be tired by waiting or being lied about don t deal in lies or being hated don t give way to hating and yet don t look too good nor talk too wise if you can not make dreams your master if you can not make thoughts your aim if you can meet with triumph and disaster and treat those two impostors just the same if you can bear to hear the truth you ve spoken twisted by knaves to make a trap for fools or watch the things you gave your life to broken and stoop and build em up with tools if you can make one heap of all your winnings and risk it on one turn of and lose and start again at your beginnings and never breathe a word about your loss if you can force your heart and nerve and sinew to serve your turn long after they are gone and so hold on when there is nothing in you except the will whic

# EX03. <a name="EX03"></a>Realitza sentiment analysis al teu conjunt de dades.

Vamos a aplicar finalmente el análisis de sentimiento:

In [50]:
nltk.download('vader_lexicon')
from nltk.sentiment.vader import SentimentIntensityAnalyzer

[nltk_data] Downloading package vader_lexicon to /root/nltk_data...


In [70]:
analyzer = SentimentIntensityAnalyzer()
sentiment = analyzer.polarity_scores(processed_text)
sentiment

{'neg': 0.319, 'neu': 0.489, 'pos': 0.192, 'compound': -0.9679}

Como podemos ver, en general el sentimiento compuesto del poema analizado parece ser muy negativo: -0.968 para un máximo negativo de -1, con un 31.9% de los términos de carácter negativo, 48.9% de carácter neutro y 19.2% de carácter positivo.
La valoración compuesta tan negativa, a pesar de que los porcentajes no son tan distintos se explica por la distinta intensidad de los términos, que aunque se contabilizan como uno sólo en los sentimientos negativo, positivo y neutro, el estimador VADER (que utiliza SentimentIntensityAnalyzer) diferencia en el sentimiento compuesto.

# Conclusión<a name="conclusion"></a>

En el análisis del poema 'If' de Kipling, un lector humano probablemente percibiría un tono positivo y motivador, lo cual se puede entender considerando el título recurrente y el uso frecuente del término 'if', que aparece 13 veces. Este uso reiterado establece un contraste entre respuestas positivas y situaciones desafiantes, destacando un enfoque de autoliderazgo. Sin embargo, el sistema de análisis léxico utilizado en nuestra práctica no capta este matiz, revelando así sus limitaciones en contextos como este.

Según el tutorial 'NLTK Sentiment Analysis Tutorial for Beginners', el análisis léxico es solo una de las metodologías disponibles para el análisis de sentimientos. Aunque es menos demandante en términos de recursos, puede perder precisión en casos especiales como este. Otras alternativas, como el machine learning y el deep learning, podrían ser más apropiadas para un análisis detallado de textos con complejidades similares a las de 'If' y merecerían ser exploradas para este tipo de textos, con un carácter menos literal y más metafórico.