### 1. Importación de data

In [22]:
# Importar librerías
import pandas as pd
import chardet

rutaTxt = "Data/FinancialPhraseBank/Sentences_66Agree.txt"

# Detectar la codificación del archivo
with open(rutaTxt, 'rb') as f:
    result = chardet.detect(f.read())
    
# Leer el archivo utilizando la codificación detectada
df = pd.read_csv(rutaTxt, encoding=result['encoding'], delimiter = '@', names = ['Comment', 'Feeling'])
df

Unnamed: 0,Comment,Feeling
0,"According to Gran , the company has no plans t...",neutral
1,Technopolis plans to develop in stages an area...,neutral
2,With the new production plant the company woul...,positive
3,According to the company 's updated strategy f...,positive
4,"For the last quarter of 2010 , Componenta 's n...",positive
...,...,...
4212,HELSINKI Thomson Financial - Shares in Cargote...,negative
4213,LONDON MarketWatch -- Share prices ended lower...,negative
4214,Rinkuskiai 's beer sales fell by 6.5 per cent ...,neutral
4215,Operating profit fell to EUR 35.4 mn from EUR ...,negative


### 2. Traducción de inglés a español

In [76]:
from yandex.Translater import Translater

# Inicializamos objeto de traductor de Yandex
traductor = Translater()
traductor.set_key('trnsl.1.1.20230302T033512Z.fe5ee4b95d5ba7c1.e9696ace0c37c0ffc654d6356aa0d684d2ab43a9')

# Función para traducir oraciones
def traducir_oracion(text):
    traductor.set_text(text)
    traductor.set_from_lang('en')
    traductor.set_to_lang('es')
    return traductor.translate()

df['Comentario'] = df['Comment'].apply(traducir_oracion)
df

Unnamed: 0,Comment,Feeling,Comentario
0,"According to Gran , the company has no plans t...",neutral,"Según Gran , la compañía no tiene planes de tr..."
1,Technopolis plans to develop in stages an area...,neutral,Technopolis planea desarrollar en etapas un ár...
2,With the new production plant the company woul...,positive,"Con la nueva planta de producción, la empresa ..."
3,According to the company 's updated strategy f...,positive,De acuerdo con la estrategia actualizada de la...
4,"For the last quarter of 2010 , Componenta 's n...",positive,"Para el último trimestre de 2010 , las ventas ..."
...,...,...,...
4212,HELSINKI Thomson Financial - Shares in Cargote...,negative,HELSINKI Thomson Financial-Las acciones de Car...
4213,LONDON MarketWatch -- Share prices ended lower...,negative,LONDON MarketWatch-Los precios de las acciones...
4214,Rinkuskiai 's beer sales fell by 6.5 per cent ...,neutral,Las ventas de cerveza de Rinkuskiai cayeron un...
4215,Operating profit fell to EUR 35.4 mn from EUR ...,negative,"El beneficio operativo cayó a 35,4 millones de..."


In [192]:
# Guardamos el resultado en un nuevo archivo CSV
# df.to_csv('Sentences_66Agree_esp.csv', index=False)
#df = pd.read_csv("Data/FinancialPhraseBank/Sentences_66Agree_esp.csv", delimiter = ',')

In [194]:
df['Sentimiento'] = df['Feeling'].replace({'neutral': 'Neutro', 'positive': 'Positivo','negative': 'Negativo'})
df

Unnamed: 0,Comment,Feeling,Comentario,Sentimiento
0,"According to Gran , the company has no plans t...",neutral,"Según Gran , la compañía no tiene planes de tr...",Neutro
1,Technopolis plans to develop in stages an area...,neutral,Technopolis planea desarrollar en etapas un ár...,Neutro
2,With the new production plant the company woul...,positive,"Con la nueva planta de producción, la empresa ...",Positivo
3,According to the company 's updated strategy f...,positive,De acuerdo con la estrategia actualizada de la...,Positivo
4,"For the last quarter of 2010 , Componenta 's n...",positive,"Para el último trimestre de 2010 , las ventas ...",Positivo
...,...,...,...,...
4212,HELSINKI Thomson Financial - Shares in Cargote...,negative,HELSINKI Thomson Financial-Las acciones de Car...,Negativo
4213,LONDON MarketWatch -- Share prices ended lower...,negative,LONDON MarketWatch-Los precios de las acciones...,Negativo
4214,Rinkuskiai 's beer sales fell by 6.5 per cent ...,neutral,Las ventas de cerveza de Rinkuskiai cayeron un...,Neutro
4215,Operating profit fell to EUR 35.4 mn from EUR ...,negative,"El beneficio operativo cayó a 35,4 millones de...",Negativo


In [195]:
df = df.drop(['Comment', 'Feeling'], axis=1)
df

Unnamed: 0,Comentario,Sentimiento
0,"Según Gran , la compañía no tiene planes de tr...",Neutro
1,Technopolis planea desarrollar en etapas un ár...,Neutro
2,"Con la nueva planta de producción, la empresa ...",Positivo
3,De acuerdo con la estrategia actualizada de la...,Positivo
4,"Para el último trimestre de 2010 , las ventas ...",Positivo
...,...,...
4212,HELSINKI Thomson Financial-Las acciones de Car...,Negativo
4213,LONDON MarketWatch-Los precios de las acciones...,Negativo
4214,Las ventas de cerveza de Rinkuskiai cayeron un...,Neutro
4215,"El beneficio operativo cayó a 35,4 millones de...",Negativo


In [196]:
# Importar librerías
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer

# Descargar recursos de NLTK
nltk.download("stopwords")

# Preprocesamiento de datos
stemmer = SnowballStemmer("spanish")
stop_words = set(stopwords.words("spanish"))

def limpiar_texto(text):
    text = re.sub(r"[^a-zA-Z0-9ñáéíóúüí]", " ", text) # Eliminar signos de puntuación
    text = text.lower() # Convertir a minúsculas
    words = text.split()
    words = [w for w in words if not w in stop_words] # Eliminar palabras vacías
    words = [stemmer.stem(w) for w in words] # Realizar stemming (Obtener la raíz de cada palabra | nuevo -> nuev)
    return " ".join(words)

df["Comentario_Limpio"] = df["Comentario"].apply(limpiar_texto)
df

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\danyx\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,Comentario,Sentimiento,Comentario_Limpio
0,"Según Gran , la compañía no tiene planes de tr...",Neutro,segun gran compañ plan traslad tod produccion ...
1,Technopolis planea desarrollar en etapas un ár...,Neutro,technopolis plane desarroll etap are men 100 0...
2,"Con la nueva planta de producción, la empresa ...",Positivo,nuev plant produccion empres aument capac sati...
3,De acuerdo con la estrategia actualizada de la...,Positivo,acuerd estrategi actualiz compañ años 2009 201...
4,"Para el último trimestre de 2010 , las ventas ...",Positivo,ultim trimestr 2010 vent net component duplic ...
...,...,...,...
4212,HELSINKI Thomson Financial-Las acciones de Car...,Negativo,helsinki thomson financial accion cargotec cay...
4213,LONDON MarketWatch-Los precios de las acciones...,Negativo,london marketwatch preci accion cerr baj londr...
4214,Las ventas de cerveza de Rinkuskiai cayeron un...,Neutro,vent cervez rinkuskiai cayeron 6 5 cient 4 16 ...
4215,"El beneficio operativo cayó a 35,4 millones de...",Negativo,benefici oper cay 35 4 millon eur 68 8 millon ...


### 3. Datos de Entrenamiento y prueba

In [None]:
# Importar bibliotecas necesarias
from sklearn.model_selection import train_test_split

# Dividir datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(df["Comentario_Limpio"], df["Sentimiento"], test_size=0.2, random_state=21)


### 4. Crear y entrenar el modelo

In [None]:
# Importar bibliotecas necesarias
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import accuracy_score, recall_score, f1_score

# Vectorización de características
vectorizer = CountVectorizer()
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

model = MultinomialNB()

model.fit(X_train_vec, y_train)

### 5. Evaluación del modelo

In [None]:
# Importar bibliotecas necesarias
from sklearn.metrics import accuracy_score, recall_score, f1_score

# Evaluación del modelo
y_pred = model.predict(X_test_vec)
print("Precisión:", accuracy_score(y_test, y_pred))
print("Sensibilidad:", recall_score(y_test, y_pred, average = "weighted"))
print("Puntaje F1:", f1_score(y_test, y_pred, average = "weighted"))

### 6. Uso del modelo para análisis de sentimientos

In [187]:
# Clasificación de nuevos comentarios
nuevo_comentario = "Me gusta las metas que ha logrado la compañía este año"
nuevo_comentario_limpio = limpiar_texto(nuevo_comentario)
nuevo_comentario_vec = vectorizer.transform([nuevo_comentario_limpio])
sentimiento = model.predict(nuevo_comentario_vec)[0]
print("Sentimento:", sentimiento)

Sentimento: positivo
