# Início

## Como funciona o CBoW?
Diferentemente do BoW, que somente "conta" a quantidade de ocorrências de uma palavra em uma frase e determina a positividade geral com base em pesos já predefinidos (não levando em conta contexto e outros fatores), o CBoW (Continuous Bag of Words) analisa todo o contexto da frase, de maneira a identificar mais precisamente o valor da frase em si (positivo ou negativo).

## Importações

In [None]:
# ---- Importações ----
import pandas as pd
import re
import string

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score

## Definição dos Dados

In [None]:
# ---- Dados ----
sentiment_1 = pd.read_csv('../data/financial_sentiment_1/data.csv')
sentiment_2 = pd.read_csv('../data/financial_sentiment_2/data.csv', encoding='latin1')
sentiment_3 = pd.read_csv('../data/financial_sentiment_3/data.csv')

# --- Tratamento 1 ---
sentiment_1['Sentiment'] = sentiment_1['Sentiment'].map({'positive': 1, 'negative': 0, 'neutral': 2})

# --- Tratamento 2 ---
sentiment_2.columns = ['Sentiment', 'Sentence']
sentiment_2 = sentiment_2[['Sentence', 'Sentiment']]
sentiment_2['Sentiment'] = sentiment_2['Sentiment'].map({'positive': 1, 'negative': 0, 'neutral': 2})

# --- Tratamento 3 ---
# Os dados 3 estão mais completos, talvez essas informações podem ser usadas.
sentiment_3 = pd.DataFrame({
    'Sentence' :sentiment_3['Title'],
    'Sentiment' :sentiment_3['Sentiment'],
})
sentiment_3['Sentiment'] = sentiment_3['Sentiment'].map({'positive': 1, 'negative': 0, 'neutral': 2})

In [None]:
print(f'''
    Quantidade Data 1: {len(sentiment_1)}
    Quantidade Data 2: {len(sentiment_2)}
    Quantidade Data 3: {len(sentiment_3)}
''')


    Quantidade Data 1: 5842
    Quantidade Data 2: 4845
    Quantidade Data 3: 3500



In [None]:
# ---- Dataset Final ----
df = pd.concat([sentiment_1, sentiment_2, sentiment_3], ignore_index=True)
df = df.drop((df.loc[df['Sentiment'] == 2]).index)
df = df.dropna(subset=['Sentence', 'Sentiment'])