## Conclusion
This exercise demonstrated basic sentiment analysis techniques in Spanish, highlighting the importance of good preprocessing and model limitations in multilingual contexts.

## Results & Observations
We observed that the sentiment classifier handles short and clear phrases better than complex or ambiguous news content. In some cases, nuance is lost, especially with neutral or mixed sentiment texts. This suggests potential improvements could be made by fine-tuning models or using hybrid approaches.

## Step 3: Sentiment Analysis on News Snippets
We now analyze multiple news excerpts, evaluating whether the sentiment analysis captures tone and polarity appropriately.

## Step 2: Sentiment Analysis on Phrases
After preprocessing, we apply sentiment classification to several sample phrases. The output will give us a polarity score (positive or negative).

## Step 1: Load Libraries and Preprocess Text
We begin by importing necessary libraries and defining cleaning functions to prepare the text data.

## Objective
Apply text preprocessing techniques and perform sentiment analysis on a set of custom phrases and news articles written in Spanish. We aim to understand how sentiment analysis works in a non-English context and compare the results across different types of content.

# Sentiment Analysis on Spanish Texts

**Authors:** Maria Alejandra Aponte

This notebook presents a sentiment analysis exercise using Spanish text data. The goal is to explore how different sentences and news excerpts are classified in terms of sentiment polarity using the `sentiment-analysis-spanish` library.

In [None]:
# !pip install nbconvert
# !pip install unidecode
# !python -m spacy download es_core_news_sm
# !pip install sentiment-analysis-spanish


In [None]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
import os
import re
import nltk
import spacy
import pandas as pd
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from unidecode import unidecode
import matplotlib.pyplot as plt
import networkx as nx
from wordcloud import WordCloud

In [None]:
nltk.download('stopwords')
nltk.download('punkt')

# Carga el modelo en español de spaCy
nlp = spacy.load("es_core_news_sm")
def preprocess_text(text):
    # Eliminar signos de puntuación y números
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub(r'\d+', '', text) #elimina numeros
    # Convertir a minúsculas
    text = text.lower()
    # Normalizar palabras para quitar tildes
    text = unidecode(text)
    # Tokeniza el texto
    tokens = word_tokenize(text)
    tokens = [token for token in tokens if len(token) > 2] #pasa de un texto a palabras tokens
    # Obtiene las stopwords en español
    stopwords_es = set(stopwords.words("spanish")) #palabras que no significan nada como preposiciones
    # Filtra las stopwords
    tokens_filtrados = [token for token in tokens if token not in stopwords_es]
    # Lematiza el texto usando spaCy
    tokens_normalizados = [token.lemma_ for token in nlp(" ".join(tokens_filtrados))] #se queda con la raiz de las palabras
    return tokens_normalizados

Collecting unidecode
  Downloading Unidecode-1.3.6-py3-none-any.whl (235 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.9/235.9 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.3.6
2023-09-24 09:40:47.423151: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
Collecting es-core-news-sm==3.6.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.6.0/es_core_news_sm-3.6.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m76.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.6.0
[38;5;2m✔ D

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


Collecting sentiment-analysis-spanish
  Downloading sentiment_analysis_spanish-0.0.25-py3-none-any.whl (30.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m30.0/30.0 MB[0m [31m16.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sentiment-analysis-spanish
Successfully installed sentiment-analysis-spanish-0.0.25




In [None]:
from sentiment_analysis_spanish import sentiment_analysis

In [None]:
frase = "Me encanta lo que hace el candidato del partido azul. Vota por el partido azul"
type(frase)
documents = []
text = frase
preprocessed_text = preprocess_text(text)
documents.append(' '.join(preprocessed_text))

In [None]:
print(documents)

In [None]:
sentiment = sentiment_analysis.SentimentAnalysisSpanish()
print(sentiment.sentiment('encanta hacer candidato partido azul votar partido azul'))

0.7385531066518927


https://scikit-learn.org/stable/model_persistence.html#security-maintainability-limitations
https://scikit-learn.org/stable/model_persistence.html#security-maintainability-limitations


In [None]:
frase = "El éxito no es la clave de la felicidad. La felicidad es la clave del éxito. Si amas lo que haces, serás exitoso."
type(frase)
documents = []
text = frase
preprocessed_text = preprocess_text(text)
documents.append(' '.join(preprocessed_text))

In [None]:
print(documents)

['exito clave felicidad felicidad clave exito ama haz sera exitoso']


In [None]:
sentiment = sentiment_analysis.SentimentAnalysisSpanish()
print(sentiment.sentiment('exito clave felicidad felicidad clave exito ama haz sera exitoso'))

0.49789225920557484


In [None]:
frase = "Cuando sabes el momento para irse, cuando sabes que es la hora de marchar como la brisa del verano"
type(frase)
documents = []
text = frase
preprocessed_text = preprocess_text(text)
documents.append(' '.join(preprocessed_text))

In [None]:
print(documents)

['saber momento ir él saber hora marchar brís verano']


In [None]:
sentiment = sentiment_analysis.SentimentAnalysisSpanish()
print(sentiment.sentiment('saber momento ir él saber hora marchar brís verano'))

0.006057118327006699


In [None]:
frase = "Me libero y nos dejo en ruinas. Tomo la daga que hay en mí y la saco. Tuve un peso más contigo, pero lo voy a perder; créeme, lo puedo hacer. Si todo son imaginaciones mías, dímelo. Dime que estoy equivocada. Mi amor debería ser celebrado, pero tú lo toleras."
type(frase)
documents = []
text = frase
preprocessed_text = preprocess_text(text)
documents.append(' '.join(preprocessed_text))

In [None]:
print(documents)

['libero dejar ruina tomo dacer saco peso mas contigo ir perder creeme poder hacer imaginación mia dimelo dimir equivocado amor deberio ser celebrar tolera']


In [None]:
sentiment = sentiment_analysis.SentimentAnalysisSpanish()
print(sentiment.sentiment('libero dejar ruina tomo dacer saco peso mas contigo ir perder creeme poder hacer imaginación mia dimelo dimir equivocado amor deberio ser celebrar tolera'))

0.0016493253882511963


In [None]:
noticia = "Va a empeorar.Las previsiones de inflación, que parecen desmesuradamente optimistas, y la situación de los ingresos también preocupan a los especialistas. El año que viene puede ser mucho más duro para los ciudadanos y la economía del país en su conjunto, advierte Ruslan Grinberg, director del Instituto de Economía de la Academia Rusa de las Ciencias: Creo que será peor, porque (eso) se ve en la balanza comercial. En primer lugar, vemos que los ingresos por exportación están disminuyendo seriamente. Y los ingresos por exportación de petróleo son nuestra fuente de ingresos más importante. Estos ingresos ya han disminuido entre un 40% y un 45%, y parece que esta tendencia va a continuar.Greenberg llama la atención sobre la baja tasa media de crecimiento anual de la economía rusa en las dos últimas décadas, en comparación con otros países y regiones, como Estados Unidos y la UE. Lo atribuye a la política de las autoridades, que tienden a interferir activamente en los procesos económicos y a recurrir a la regulación manual"
documents = []
text = noticia
preprocessed_text = preprocess_text(text)
documents.append(' '.join(preprocessed_text))

In [None]:
print(documents)

['empeorarlos previsión inflacion parecer desmesuradamente optimista situacion ingreso tambien preocupar especialista ano venir poder ser mas duro ciudadano economiar pais conjunto advertir ruslar grinberg director instituto economia academia ruso ciencias creer sera peor balanza comercial primero lugar ver ingreso exportacion estar disminuir seriamente ingreso exportacion petroleo fuente ingreso mas importante ingreso disminuido parecer tendencia continuargreenberg llama atencion bajo tasa medio crecimiento anual economia ruso dos ultima decada comparacion país región unidos atribuir politico autoridad tender interferir activamente proceso economico recurrir regulacion manual']


In [None]:
sentiment = sentiment_analysis.SentimentAnalysisSpanish()
print(sentiment.sentiment('empeorarlos previsión inflacion parecer desmesuradamente optimista situacion ingreso tambien preocupar especialista ano venir poder ser mas duro ciudadano economiar pais conjunto advertir ruslar grinberg director instituto economia academia ruso ciencias creer sera peor balanza comercial primero lugar ver ingreso exportacion estar disminuir seriamente ingreso exportacion petroleo fuente ingreso mas importante ingreso disminuido parecer tendencia continuargreenberg llama atencion bajo tasa medio crecimiento anual economia ruso dos ultima decada comparacion país región unidos atribuir politico autoridad tender interferir activamente proceso economico recurrir regulacion manual'))

1.3310289447890712e-07


In [None]:
noticia = "La ruptura de Rosalía (30 años) y Rauw Alejandro (30) supuso un gran revés para los fans de la pareja, una noticia que llegaba de sorpresa y como un jarro de agua fría meses después de anunciar su compromiso y fortalecer su amor. Era una de las relaciones públicas más asentadas y queridas desde 2021. Desde que han decidido seguir caminos distintos, los ojos de sus fieles fans han estado centrados en ellos, en cualquier movimiento o gesto por parte de ambos. La razón de su separación se desconoce, por lo que saber qué ha pasado entre los exitosos cantantes y si hay una mínima posibilidad de que se reconcilien aún es un misterio."
documents = []
text = noticia
preprocessed_text = preprocess_text(text)
documents.append(' '.join(preprocessed_text))

In [None]:
print(documents)

['ruptura rosalia ano rauw alejandro suponer gran rev fan parejo noticia llegar sorpresa jarro agua frio mes despues anunciar compromiso fortalecer amor relación publica mas asentado querido decidido seguir camino distinto ojo fiel fan centrado cualquiera movimiento gesto parte ambos razon separacion desconocer saber pasar exitoso cantante minimo posibilidad reconcilien aun misterio']


In [None]:
sentiment = sentiment_analysis.SentimentAnalysisSpanish()
print(sentiment.sentiment('ruptura rosalia ano rauw alejandro suponer gran rev fan parejo noticia llegar sorpresa jarro agua frio mes despues anunciar compromiso fortalecer amor relación publica mas asentado querido decidido seguir camino distinto ojo fiel fan centrado cualquiera movimiento gesto parte ambos razon separacion desconocer saber pasar exitoso cantante minimo posibilidad reconcilien aun misterio'))

0.0016473723778829418


In [None]:
noticia = "El bono social eléctrico se ha convertido en un salvavidas para muchos jubilados y pensionistas en tiempos de creciente inflación. Este descuento en la factura de la electricidad, que ha aumentado hasta un 80% para aquellos en extrema vulnerabilidad, es un alivio bienvenido en medio de la incertidumbre económica.Sin embargo, para acceder a estos descuentos, los requisitos son estrictos. Los jubilados y pensionistas deben cumplir con ciertas condiciones de renta y situación personal, como tener una pensión mínima y no recibir otros ingresos que superen los 500 euros al año. Para solicitar el bono social, los jubilados y pensionistas deben comunicarse con las comercializadoras de referencia y presentar una serie de documentos que acrediten su situación. Aunque estos requisitos pueden parecer complicados, el bono social se ha convertido en una herramienta esencial para proteger a las personas mayores de la creciente presión económica."
documents = []
text = noticia
preprocessed_text = preprocess_text(text)
documents.append(' '.join(preprocessed_text))

In [None]:
print(documents)

['bono social electrico convertido salvavidas jubilado pensionista tiempo creciente inflacion descuento facturo electricidad aumentado aquel extremo vulnerabilidad alivio bienvenido medio incertidumbre economicasin embargo acceder descuento requisito estricto jubilado pensionista deber cumplir cierto condición renta situacion personal tener pension minimo recibir ingreso superir euros ano solicitar bono social jubilado pensionista deber comunicar él comercializadora referencia presentar serie documento acreditar situacion aunque requisito poder parecer complicado bono social convertido herramienta esencial proteger persona mayor creciente presion economico']


In [None]:
sentiment = sentiment_analysis.SentimentAnalysisSpanish()
print(sentiment.sentiment('bono social electrico convertido salvavidas jubilado pensionista tiempo creciente inflacion descuento facturo electricidad aumentado aquel extremo vulnerabilidad alivio bienvenido medio incertidumbre economicasin embargo acceder descuento requisito estricto jubilado pensionista deber cumplir cierto condición renta situacion personal tener pension minimo recibir ingreso superir euros ano solicitar bono social jubilado pensionista deber comunicar él comercializadora referencia presentar serie documento acreditar situacion aunque requisito poder parecer complicado bono social convertido herramienta esencial proteger persona mayor creciente presion economico'))

2.915944160705166e-05


In [None]:
noticia = "En el reino animal, hay muchas especies fascinantes y únicas, pero ninguna tan encantadora como el quokka, un marsupial australiano conocido como el 'animal más feliz del mundo' debido a su aparente sonrisa perpetua. Este pequeño marsupial ha ganado fama mundial gracias a su rostro amigable y su naturaleza sociable, convirtiéndose en un fenómeno en las redes sociales. En esta noticia, exploraremos las características, historia y conservación de este adorable animal."
documents = []
text = noticia
preprocessed_text = preprocess_text(text)
documents.append(' '.join(preprocessed_text))

In [None]:
print(documents)

['reino animal mucho especie fascinante unica ninguno tanto encantador quokka marsupial australiano conocido animal mas feliz mundo debido aparente sonrisa perpetuo pequeno marsupial ganado fama mundial gracias rostro amigable naturaleza sociable convirtiendose fenomeno red social noticia explorarer caracteristica historia conservacion adorable animal']


In [None]:
sentiment = sentiment_analysis.SentimentAnalysisSpanish()
print(sentiment.sentiment('reino animal mucho especie fascinante unica ninguno tanto encantador quokka marsupial australiano conocido animal mas feliz mundo debido aparente sonrisa perpetuo pequeno marsupial ganado fama mundial gracias rostro amigable naturaleza sociable convirtiendose fenomeno red social noticia explorarer caracteristica historia conservacion adorable animal'))

0.09206896084960411


In [None]:
noticia = "El FC Barcelona ha remontado al Celta de Vigo con un tanto de João Cancelo sobre el final, después de haber estado abajo por dos goles en el marcador. Primero, Larsen venció a Ter Stegen con un disparo a segundo poste y después Douvikas hizo lo propio en un contragolpe para ampliar la ventaja en el Lluís Companys. Lewandowski marcó un doblete para regresar a los suyos al partido y Cancelo concretó la voltereta. Los culés han superado al conjunto gallego y confirman el momento dulce que viven: el equipo venía de anotar diez goles en los últimos dos partidos y ahora consigue una gran remontada en casa. Con esto, el FC Barcelona sigue de cerca al Real Madrid en la cima de la clasificación.La 'lusofonía' se adueña del Barça. Una vez más, Joao Félix y Joao Cancelo han sido determinantes en el resultado conseguido por el Barcelona. El futbolista cedido por el Atlético de Madrid ha generado cinco goles en sus tres titularidades (tres dianas y dos asistencias), mientras que el jugador cedido por el Manchester City ha participado en tres, viendo portería rival en dos ocasiones y proporcionando una asistencia en sus tres titularidades. El estado de gracia sigue acompañando a un Barcelona que suma alegría tras alegría. A pesar del sufrimiento, las formas conseguidas para ganar el duelo liguero tras el compromiso de Liga de Campeones refuerza el hambre y la capacidad de superación de los blaugranas. Desde que firmó tablas contra el Getafe en la primera jornada (0-0 a mediados de agosto), ha ganado cada uno de los seis partidos que ha disputado entre todas las competiciones.El muro levantado por Rafa Benítez en Montjuic ha durado 80 minutos de juego, coincidiendo con la salida del campo de Iago Aspas. La gestión de cambios de Rafa Benítez, mandando un mensaje de tener ganado el encuentro tras el tanto de Douvikas, no tuvo sus frutos en un equipo que se desmoronó a las primeras de cambio. El primer gol encajado generó dudas en un grupo que no mantuvo la calma ni controló su estado emocional, precipitándose, llegando tarde y dejando todos los huecos que no permitió durante buena parte del encuentro."
documents = []
text = noticia
preprocessed_text = preprocess_text(text)
documents.append(' '.join(preprocessed_text))

In [None]:
print(documents)

['barcelona remontado celta vigo joao cancelo final despues haber abajo dos gol marcador primero larsen vencio ter stegir disparo segundo poste despues douvikas hacer propio contragolpe ampliar ventaja lluis companys lewandowski marco doblete regresar partido cancelo concreto voltereta cul superado conjunto gallego confirmar momento dulce vivir equipo venia anotar diez gol ultimos dos partido ahora conseguir gran remontado casa barcelona seguir cerca real madrid cima clasificacionla lusofonia aduenar barca vez mas joao felix joao cancelo ser determinantes resultado conseguido barcelona futbolista cedido atletico madrid generado cinco gol tres titularidad tres diana dos asistencia mientras jugador cedido manchester city participado tres viendo porteria rival dos ocasión proporcionar asistencia tres titularidad gracia seguir acompanar barcelona sumar alegrio tras alegrio pesar sufrimiento forma conseguido ganar duelo liguero tras compromiso liga campeón refuerzo hambre capacidad superaci

In [None]:
sentiment = sentiment_analysis.SentimentAnalysisSpanish()
print(sentiment.sentiment('barcelona remontado celta vigo joao cancelo final despues haber abajo dos gol marcador primero larsen vencio ter stegir disparo segundo poste despues douvikas hacer propio contragolpe ampliar ventaja lluis companys lewandowski marco doblete regresar partido cancelo concreto voltereta cul superado conjunto gallego confirmar momento dulce vivir equipo venia anotar diez gol ultimos dos partido ahora conseguir gran remontado casa barcelona seguir cerca real madrid cima clasificacionla lusofonia aduenar barca vez mas joao felix joao cancelo ser determinantes resultado conseguido barcelona futbolista cedido atletico madrid generado cinco gol tres titularidad tres diana dos asistencia mientras jugador cedido manchester city participado tres viendo porteria rival dos ocasión proporcionar asistencia tres titularidad gracia seguir acompanar barcelona sumar alegrio tras alegrio pesar sufrimiento forma conseguido ganar duelo liguero tras compromiso liga campeón refuerzo hambre capacidad superacion blaugrana firmo tabla getafe primero jornada mediados agosto ganado cada seis partido disputado todo competicionesel muro levantado rafa benitez montjuic durado minuto juego coincidir salido campo iago aspa gestion cambio rafo benitez mandar mensaje tener ganado encuentro tras douvikas fruto equipo desmorono primero cambio primero gol encajado genero duda grupo mantener calma controlo emocional precipitar él llegar tarde dejar hueco permitio buen parte encontrar'))

3.715213686910893e-10
