# Setup

A configuração de setup é o processo de preparar e organizar o ambiente para uso. Envolvendo a instalação de bibliotecas e configuração de outros ajustes necessários. O objetivo é criar um ambiente funcional para executar tarefas específicas.

## 1.1.Conexão com drive

Para realizar a análise, padronização e manipulação dos dados é necessário selecionar a base de dados desejada. Neste documento a importação da mesma será feita através do Google Drive e o arquivo está em formato excel (csv).

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## 1.2. Instalando as bibliotecas

**Antes de Importar a base é necessário instalar algumas bibliotecas como:**
1. Pandas: é uma biblioteca de análise
de dados em Python que oferece estruturas de dados e ferramentas para manipulação e análise de dados. Com o Pandas, é possível ler, escrever e manipular dados em diversos formatos, como CSV, Excel, SQL, etc. Ele oferece uma grande quantidade de funcionalidades para trabalhar com dados em Python, incluindo a capacidade de filtrar, agregar, reorganizar e transformar dados de várias maneiras.

2. TextBlob: é uma biblioteca de processamento de linguagem natural em Python. Ela oferece uma interface simples para tarefas comuns de NLP, como análise de sentimentos, correção ortográfica, extração de frases-chave e classificação de texto. O TextBlob é construído sobre a biblioteca NLTK (Natural Language Toolkit) e oferece uma sintaxe fácil de usar para muitas tarefas de processamento de linguagem natural. É uma biblioteca muito útil para análise de texto em Python.

3. Emoji: é uma biblioteca Python que permite a conversão de emojis de texto para representações de texto Unicode e vice-versa. Além disso, fornece funções úteis para trabalhar com emojis, como contar o número de emojis em uma string, remover todos os emojis de uma string e substituir cada emoji em uma string por um texto de substituição especificado.

4. Re: A biblioteca "re" é uma ferramenta para trabalhar com expressões regulares, permitindo a extração e manipulação de informações de forma eficiente.

5. Unidecode: Unicode é um padrão de codificação de caracteres de forma universal para a representação de caracteres de todas as línguas escritas, bem como símbolos matemáticos, musicais, entre outros.

6. Enelvo.normaliser: A enelvo.normaliser é uma biblioteca específica para normalização de texto em português. Ela oferece recursos para corrigir erros de digitação, converter abreviações e substituir palavras informais por suas formas mais corretas. A função principal dessa biblioteca é auxiliar na normalização de texto, tornando-o mais padronizado e compreensível.

7. Numpy (np): A biblioteca numpy fornece estruturas de dados eficientes para manipulação e cálculos numéricos, além de funções matemáticas de alto desempenho.

8. Sklearn.feature_extraction.text.CountVectorizer: É uma classe do scikit-learn que converte uma coleção de documentos de texto em uma matriz de contagem de tokens. Cada documento é representado por um vetor onde cada elemento é o número de ocorrências de um token específico no documento.

9. Keras.preprocessing.text.Tokenizer: É uma classe do Keras que é usada para pré-processamento de texto. Ela converte texto em sequências de números inteiros (índices de palavras) ou matrizes esparsas. Também oferece recursos como tokenização, vetorização e indexação de palavras.

10. Nltk.tokenize.word_tokenize: É uma função do NLTK (Natural Language Toolkit) que divide um texto em uma lista de palavras ou tokens. É uma forma de tokenização que leva em consideração o contexto linguístico para separar as palavras.

In [None]:
pip install unidecode

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting unidecode
  Downloading Unidecode-1.3.6-py3-none-any.whl (235 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.9/235.9 kB[0m [31m14.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.3.6


In [None]:
pip install -U emoji

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting emoji
  Downloading emoji-2.5.1.tar.gz (356 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m356.3/356.3 kB[0m [31m21.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: emoji
  Building wheel for emoji (setup.py) ... [?25l[?25hdone
  Created wheel for emoji: filename=emoji-2.5.1-py2.py3-none-any.whl size=351210 sha256=1e55b9cea5e0ce981de416a983d76169d7daf89fe70a08153979b1277bf290d9
  Stored in directory: /root/.cache/pip/wheels/51/92/44/e2ef13f803aa08711819357e6de0c5fe67b874671141413565
Successfully built emoji
Installing collected packages: emoji
Successfully installed emoji-2.5.1


In [None]:
!pip install emoji --upgrade

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
pip install nltk

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
pip install enelvo

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting enelvo
  Downloading enelvo-0.15-py3-none-any.whl (27.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.5/27.5 MB[0m [31m78.9 MB/s[0m eta [36m0:00:00[0m
Collecting emoji==2.2.0 (from enelvo)
  Downloading emoji-2.2.0.tar.gz (240 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m240.9/240.9 kB[0m [31m28.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: emoji
  Building wheel for emoji (setup.py) ... [?25l[?25hdone
  Created wheel for emoji: filename=emoji-2.2.0-py3-none-any.whl size=234911 sha256=d19e5f09ca53c2d261c2a28be7382f4964bde34300044e357b3994a71b1e696e
  Stored in directory: /root/.cache/pip/wheels/02/3d/88/51a592b9ad17e7899126563698b4e3961983ebe85747228ba6
Successfully built emoji
Installing collected packages: emoji, enelvo
  Attempting unins

In [None]:
import pandas as pd
from textblob import TextBlob
import emoji
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
nltk.download('punkt')
from nltk.stem import WordNetLemmatizer
from nltk.stem.snowball import SnowballStemmer
nltk.download('wordnet')
import re
import unidecode
from enelvo.normaliser import Normaliser
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from unidecode import unidecode


import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from keras.preprocessing.text import Tokenizer
from nltk.tokenize import word_tokenize
from sklearn.preprocessing import StandardScaler

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...


In [None]:
import tensorflow as tf
from sklearn.model_selection import train_test_split
from sklearn.utils import resample

from sklearn.metrics import confusion_matrix
from tensorflow.keras.preprocessing.sequence import pad_sequences

from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

from gensim.models import Word2Vec

## 1.3.Lendo CSV

In [None]:
base_tratada = pd.read_csv('/content/drive/MyDrive/PROJETO BTG/novo_arquivo.csv')
base_tratada

Unnamed: 0,autor,texto,sentimento,tipoInteracao,texto_normalizado,texto_processado
0,v8_capital,Confira os resultados dos nossos fundos no mes...,NEUTRAL,marcação,Confira os resultados dos nossos fundos no mes...,"['confira', 'resultados', 'fundos', 'mes', 'fe..."
1,winthegame_of,A Alvarez Marsal estara conosco no Sportainme...,NEUTRAL,marcação,A Alvarez Marsal estara conosco no Sportainmet...,"['alvarez', 'marsal', 'estara', 'conosco', 'sp..."
2,marta_bego,Repost btgpactual with make_repost Entenda os...,NEUTRAL,marcação,Repost btgpactual with make_repost Entenda os ...,"['repost', 'btgpactual', 'with', 'make_repost'..."
3,lmviapiana,Minuto touro de ouro,POSITIVE,comentário,Minuto touro de ouro,"['minuto', 'touro', 'ouro']"
4,vanilson_dos,ricktolledo Sim,NEUTRAL,resposta,ricktolledo Sim,"['ricktolledo', 'sim']"
...,...,...,...,...,...,...
12350,onixcapital,Uma noite de encontros e muito conhecimento on...,NEUTRAL,marcação,Uma noite de encontros e muito conhecimento on...,"['noite', 'encontros', 'conhecimento', 'onde',..."
12351,amgcapitalinvest,Erros financeiros para eliminar antes dos 30 a...,NEUTRAL,marcação,Erros financeiros para eliminar antes dos 30 a...,"['erros', 'financeiros', 'eliminar', 'antes', ..."
12352,jayipacderota,Estou muito grato por todo o esforco que voce ...,POSITIVE,comentário,Estou muito grato por todo o esforco que voce ...,"['grato', 'todo', 'esforco', 'voce', 'rendeu',..."
12353,moinho_cultural,GUADAKAN esta chegando A aula publica em form...,NEUTRAL,marcação,GUADAKAN esta chegando A aula publica em forma...,"['guadakan', 'chegando', 'aula', 'publica', 'f..."


In [None]:
dados = pd.read_csv('/content/drive/MyDrive/PROJETO BTG/dadosTratados.csv')
dados

Unnamed: 0,autor,texto,sentimento,tipoInteracao
0,v8_capital,Confira os resultados dos nossos fundos no mês...,NEUTRAL,marcação
1,winthegame_of,A Alvarez & Marsal estará conosco no Sportainm...,NEUTRAL,marcação
2,marta_bego,#Repost btgpactual with make_repost ・・・ Entend...,NEUTRAL,marcação
3,lmviapiana,Minuto touro de ouro,POSITIVE,comentário
4,vanilson_dos,@ricktolledo Sim,NEUTRAL,resposta
...,...,...,...,...
12350,onixcapital,Uma noite de encontros e muito conhecimento on...,NEUTRAL,marcação
12351,amgcapitalinvest,Erros financeiros para eliminar antes dos 30 a...,NEUTRAL,marcação
12352,jayipacderota,Estou muito grato por todo o esforço que você ...,POSITIVE,comentário
12353,moinho_cultural,"""👉GUADAKAN está chegando!!!! A aula pública e...",NEUTRAL,marcação


A célula de código abaixo é responsável por realizar a leitura e apresentação dos dados carregados da base na etapa anterior.

**dados** - Apresenta a planilha dos comentários das campanhas de marketing do instagram do BTG Pactual

# Atividade 1: Vetorização | Bag Of Words

A aplicação do modelo visa realizar a criação do vocabulário de palavras únicas presentes dos comentários tratados. Aplicar a vetorização dos campos de texto processados, ou seja, transformação dos textos em vetores numéricos para assim, gerar a matriz binária correspondente a frequência de cada palavra do vocabulário.

## 1.1. Teste Isolado

In [None]:
# Definição da frase de entrada
frase = "Agradecemos o seu feedback!"

# Cria o vetorizador para o modelo Bag of Words
vectorizer = CountVectorizer(token_pattern=r"(?u)\b\w+\b")

# Aplica o vetorizador à frase para criar a representação Bag of Words
bow_representation = vectorizer.fit_transform([frase])

# Obtém o dicionário de palavras
dicionario = vectorizer.vocabulary_

# Imprimir a representação Bag of Words
print("Representação Bag of Words:")
print(bow_representation.toarray())

Representação Bag of Words:
[[1 1 1 1]]


In [None]:
base_tratada["texto_processado"]

0        ['confira', 'resultados', 'fundos', 'mes', 'fe...
1        ['alvarez', 'marsal', 'estara', 'conosco', 'sp...
2        ['repost', 'btgpactual', 'with', 'make_repost'...
3                              ['minuto', 'touro', 'ouro']
4                                   ['ricktolledo', 'sim']
                               ...                        
12350    ['noite', 'encontros', 'conhecimento', 'onde',...
12351    ['erros', 'financeiros', 'eliminar', 'antes', ...
12352    ['grato', 'todo', 'esforco', 'voce', 'rendeu',...
12353    ['guadakan', 'chegando', 'aula', 'publica', 'f...
12354    ['btgpactual', 'porque', 'morning', 'call', 'n...
Name: texto_processado, Length: 12355, dtype: object

## 1.2. Definição da Função de Vetorização

In [None]:
def bag_of_words(frases):
    # Cria o vetorizador para o modelo Bag of Words
    vectorizer = CountVectorizer()

    # Concatena os tokens de cada frase em uma única string
    frases_concatenadas = [''.join(tokens) for tokens in frases]

    # Aplica o vetorizador aos textos para criar a representação Bag of Words
    bow_representation = vectorizer.fit_transform(frases_concatenadas)

    # Obtém o dicionário de palavras
    dicionario = vectorizer.vocabulary_

    return bow_representation, dicionario

# Definição da frase de entrada
palavras = base_tratada["texto_processado"]

tokens_processados = palavras.apply(lambda lista: [token.lower() for token in lista]).reset_index(drop=True)

# Aplicar a função de Bag of Words
bow_representation, dicionario = bag_of_words(tokens_processados)

## 1.3. Teste da Função de Vetorização

In [None]:
# Imprimir o dicionário de palavras
print("Dicionário de palavras:")
print(dicionario, "\n")

# Imprimir a representação Bag of Words
print("Representação Bag of Words:")
print(bow_representation.toarray())

Dicionário de palavras:
{'confira': 8414, 'resultados': 27676, 'fundos': 15077, 'mes': 21285, 'fevereiro22': 14179, 'todas': 30916, 'informacoes': 17567, 'documentacoes': 11336, 'materiais': 20854, 'tecnicos': 30413, 'podem': 24870, 'acessados': 1903, 'links': 19798, 'abaixo': 1654, 'v8': 31950, 'cash': 6871, 'fi': 14202, 'renda': 27336, 'fixa': 14479, 'cp': 9252, 'httpslnkdindusc2jmn': 16637, 'vanquish': 32092, 'termo': 30596, 'httpslnkdind3pngjuu': 16614, 'veyron': 32396, 'smart': 29360, 'beta': 5299, 'acoes': 1962, 'httpslnkdindjnjw4pp': 16630, 'elva': 11950, 'deb': 9893, 'incentivadas': 17278, 'fic': 14223, 'fim': 14328, 'httpslnkdindap37vv': 16625, 'challenger': 7219, 'httpslnkdind5bnhzqj': 16616, 'anf': 3326, 'luxbridge': 20201, 'global': 15648, 'real': 26720, 'estate': 13016, 'ie': 16964, 'httpslnkdindxzcatpp': 16641, 'onde': 23183, 'voce': 32803, 'encontra': 12211, 'modalmais': 21649, 'oramainvestimentos': 23328, 'warrenbrasil': 32947, 'terrainvestimentosoficial': 30609, 'ativa

## Gerando arquivo CSV do BoW

In [None]:
import csv
from sklearn.feature_extraction.text import CountVectorizer

# Converter a lista de listas em uma lista de strings
frases = ["".join(tokens) for tokens in tokens_processados]

# Inicializar o vetorizador BoW
vectorizer = CountVectorizer()

# Aplicar o vetorizador BoW às frases
bow_matrix = vectorizer.fit_transform(frases)

# Obter as palavras-chave do BoW a partir do atributo vocabulary_
palavras_chave = list(vectorizer.vocabulary_.keys())

# Converter a matriz BoW em uma lista de listas
matriz_lista = bow_matrix.toarray().tolist()

# Adicionar as palavras-chave como o cabeçalho da primeira linha
matriz_lista.insert(0, palavras_chave)

# Definir o nome do arquivo CSV
resultados_bow = "/content/drive/MyDrive/PROJETO BTG/resultados_bow.csv"

# Escrever a matriz em um arquivo CSV
with open(resultados_bow, mode='w', newline='') as file:
    writer = csv.writer(file)
    writer.writerows(matriz_lista)

print("CSV gerado com sucesso!")

CSV gerado com sucesso!


In [None]:
#dfBowmodelo = pd.read_csv('/content/drive/MyDrive/PROJETO BTG/resultados_bow.csv')
#dfBowmodelo

# Atividade 2 - Criação do modelo Word2Vec

Word2Vec é um dos métodos estatísticos mais utilizados no pré-processamento de
dados de texto a fim de uso do PLN (processamento de linguagem natural), neste projeto sendo utilizado para análise de sentimento. Foi criado para facilitar o treinamento de embeddings baseados em redes neurais. O modelo pode ser comparado com a técnica de incorporação de palavras, que é uma técnica em que palavras individuais são transformadas em vetores. Cada vetor captura várias características das palavras como: relação semântica da palavra, definições, contexto, etc.

Neste caso o modelo é pré-treinado (construído em grandes conjuntos de dados de
texto, como a Wikipedia, usando algoritmos como Skip-gram ou Continuous Bag of
Words). O modelo pré-treinado captura informações linguísticas gerais e contextuais (com base no banco de texto que foi utilizado) sem a necessidade de treinamento adicional. Esses modelos pré-treinados são frequentemente disponibilizados publicamente e podem ser usados diretamente para tarefas de NLP, como classificação de texto ou análise de sentimentos.


Referências :

"O que é Word2Vec?" - edrone. Disponível em: https://edrone.me/pt/blog/o-que-e-word2vec. Acesso em 22 maio 2023.

NILC (Núcleo Interinstitucional de Linguística Computacional) : Repositório de Word Embeddings do NILC. Disponível em:
http://nilc.icmc.usp.br/nilc/index.php/repositorio-de-word-embeddings-do-nilc .Acesso em 22 maio 2023.

In [None]:
def excluir_linhas_nan(dataframe):
  dataframe_sem_nan = dataframe.dropna()
  return dataframe_sem_nan

In [None]:
def excluir_linhas_nan_coluna(dataframe, coluna):
    dataframe_sem_nan = dataframe.dropna(subset=[coluna])
    return dataframe_sem_nan

In [None]:
base = base_tratada
base = excluir_linhas_nan_coluna(base_tratada, "texto_normalizado")

In [None]:
base

Unnamed: 0,texto,sentimento,tipoInteracao,dataPublicada,autor_anonimo,texto_normalizado,texto_processado
0,Confira os resultados dos nossos fundos no mes...,NEUTRAL,marcação,"""2022-03-04 09:38:00""",1,Confira os resultados dos nossos fundos no mes...,"['confira', 'resultados', 'fundos', 'mes', 'fe..."
1,A Alvarez Marsal estara conosco no Sportainme...,NEUTRAL,marcação,"""2022-03-04 09:29:00""",2,A Alvarez Marsal estara conosco no Sportainmet...,"['alvarez', 'marsal', 'estara', 'conosco', 'sp..."
2,Repost btgpactual with make_repost Entenda os...,NEUTRAL,marcação,"""2022-03-04 09:20:00""",3,Repost btgpactual with make_repost Entenda os ...,"['repost', 'btgpactual', 'with', 'make_repost'..."
3,Minuto touro de ouro,POSITIVE,comentário,"""2022-03-04 08:36:00""",4,Minuto touro de ouro,"['minuto', 'touro', 'ouro']"
4,ricktolledo Sim,NEUTRAL,resposta,"""2022-03-03 21:10:00""",5,ricktolledo Sim,"['ricktolledo', 'sim']"
...,...,...,...,...,...,...,...
12350,Uma noite de encontros e muito conhecimento on...,NEUTRAL,marcação,"""2022-11-30 11:51:00""",4003,Uma noite de encontros e muito conhecimento on...,"['noite', 'encontros', 'conhecimento', 'onde',..."
12351,Erros financeiros para eliminar antes dos 30 a...,NEUTRAL,marcação,"""2022-11-30 12:25:00""",697,Erros financeiros para eliminar antes dos 30 a...,"['erros', 'financeiros', 'eliminar', 'antes', ..."
12352,Estou muito grato por todo o esforco que voce ...,POSITIVE,comentário,"""2022-11-30 12:18:00""",5838,Estou muito grato por todo o esforco que voce ...,"['grato', 'todo', 'esforco', 'voce', 'rendeu',..."
12353,GUADAKAN esta chegando A aula publica em form...,NEUTRAL,marcação,"""2022-11-30 12:50:00""",5103,GUADAKAN esta chegando A aula publica em forma...,"['guadakan', 'chegando', 'aula', 'publica', 'f..."


In [None]:
texto_normalizado__ = excluir_linhas_nan(base_tratada["texto_normalizado"])

In [None]:
base_tratada["texto_normalizado"]

0        Confira os resultados dos nossos fundos no mes...
1        A Alvarez Marsal estara conosco no Sportainmet...
2        Repost btgpactual with make_repost Entenda os ...
3                                     Minuto touro de ouro
4                                          ricktolledo Sim
                               ...                        
12350    Uma noite de encontros e muito conhecimento on...
12351    Erros financeiros para eliminar antes dos 30 a...
12352    Estou muito grato por todo o esforco que voce ...
12353    GUADAKAN esta chegando A aula publica em forma...
12354    btgpactual porque o morning call nao esta mais...
Name: texto_normalizado, Length: 12355, dtype: object

## 2.1 - Implementação

In [None]:
def preprocess_sentence(sentence):
    # Tokenização da frase em palavras
    tokens = word_tokenize(sentence)

    # Remoção de stopwords
    stop_words = set(stopwords.words('portuguese'))  # Defina o idioma desejado
    filtered_tokens = [token for token in tokens if token.lower() not in stop_words]

    return filtered_tokens

def process_objects(objects):
    result = []
    for obj in objects:
        tokens = preprocess_sentence(obj)
        result.append(tokens)
    return result

processed_objects = process_objects(texto_normalizado__)
array_of_arrays = processed_objects  # Engloba todas as frases em um array externo

print(array_of_arrays)

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [None]:
# Treinamento do modelo Word2Vec
model = Word2Vec(array_of_arrays, min_count=1)

# Tabela de palavras e seus vetores correspondentes
word_table = []
for word, idx in model.wv.key_to_index.items():
    word_vector = model.wv.get_vector(word)
    word_table.append((word, word_vector))

# Criando o dataframe
dfW2V = pd.DataFrame(word_table, columns=['Palavra', 'Vetor'])

# Exibindo o dataframe
print(dfW2V)

                 Palavra                                              Vetor
0             btgpactual  [-1.0597956, 1.1646934, 0.28005016, -0.0124279...
1                    nao  [-0.6637984, 2.9287653, -0.15524791, 1.1023952...
2                    BTG  [0.07852654, 1.8231034, -0.77784353, 0.31401, ...
3                   voce  [-0.90640795, 2.1536126, -0.17778085, 0.363442...
4          investimentos  [-1.8581866, 0.4495071, 0.24606392, 0.06945646...
...                  ...                                                ...
39996  henriquemeirelles  [-0.0128959445, 0.005555971, 0.0025988906, 0.0...
39997              opere  [0.0034979675, 0.025520265, -0.0012510353, 0.0...
39998          revendido  [-0.0069553065, 0.0062580025, -0.0022841638, 0...
39999        enfrentados  [-0.00042755247, 0.010168228, -0.0035737047, -...
40000           sebraems  [-0.006646444, 0.0363114, 0.0013960445, 0.0024...

[40001 rows x 2 columns]


In [None]:
# Treinamento do modelo Word2Vec
model = Word2Vec(array_of_arrays, min_count=1)

# Tabela de palavras e seus vetores correspondentes
word_table = []
for word, idx in model.wv.key_to_index.items():
    word_vector = model.wv.get_vector(word)
    word_table.append((word, word_vector))

# Imprimindo a tabela de palavras e vetores
for word, vector in word_table:
    print("Palavra:", word)
    print("Vetor:", vector)
    print("---")


[1;30;43mA saída de streaming foi truncada nas últimas 5000 linhas.[0m
  1.91905594e-03 -1.52718248e-02 -7.61694321e-03 -3.22217196e-02
 -4.24208492e-03 -1.64144225e-02 -1.27875395e-02  4.28665336e-03
  2.41996180e-02  2.82717240e-03 -1.61117576e-02  4.90277167e-03
 -6.11767266e-03  3.47718946e-03  1.55080846e-02 -1.08078551e-02
 -1.35224452e-02 -9.05664731e-03  2.17950880e-03  1.51609513e-03
  1.20401271e-02 -1.00594983e-02 -9.27253067e-03  1.19128963e-02
  7.63640413e-03  6.22449117e-03 -1.12963263e-02  1.16961831e-02
 -2.03647348e-03  3.20150959e-03 -6.95124920e-03  4.93009854e-03
 -4.32333536e-03  1.05492994e-02 -3.58787342e-03  8.51439312e-03
  2.27909554e-02  8.94388929e-03  1.68346483e-02  1.74759794e-03
  7.30651757e-03 -1.41735491e-03 -3.07808444e-03  1.13131106e-02
 -8.08509998e-03 -1.31367743e-02 -1.75975412e-02  1.10295052e-02
 -2.60705431e-03 -3.45674530e-03  1.74772982e-02  5.77683235e-03
 -1.26772281e-03  4.34080185e-03  2.56458037e-02  1.28461011e-02
  2.96471524e-03 

### 2.1.1 - Definição da Função

In [None]:
base["sentimento2"] = base["sentimento"].replace({'NEGATIVE': 0, 'POSITIVE': 1, 'NEUTRAL': 2})
base["sentimento2"]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  base["sentimento2"] = base["sentimento"].replace({'NEGATIVE': 0, 'POSITIVE': 1, 'NEUTRAL': 2})


0        2
1        2
2        2
3        1
4        2
        ..
12350    2
12351    2
12352    1
12353    2
12354    0
Name: sentimento2, Length: 11418, dtype: int64

In [None]:
def vetorizar_word2vec(array_of_arrays, dados):
  # Treinamento do modelo Word2Vec
  model = Word2Vec(array_of_arrays, min_count=1)

  # Tabela de frases e seus vetores correspondentes
  sentence_table = []
  for sentence in array_of_arrays:
      word_vectors = [model.wv[word] for word in sentence if word in model.wv]
      if len(word_vectors) > 0:
          sentence_vector = sum(word_vectors) / len(word_vectors)
      else:
          sentence_vector = [None] * 100  # Cria uma lista de 100 elementos None
      sentence_table.append((sentence, *sentence_vector[:50]))  # Adiciona apenas os primeiros 50 elementos do vetor

  # Obter os rótulos das colunas
  column_labels = ['Frase']
  for i in range(50):
      column_labels.append(f'Vetor{i+1}')

  # Criando o dataframe
  dfW2V2 = pd.DataFrame(sentence_table, columns=column_labels)

  dados["sentimentoNumerico"] = dados["sentimento2"].replace({'NEGATIVE': 0, 'POSITIVE': 1, 'NEUTRAL': -1})

  # Definir o índice do DataFrame dfW2V2 como o mesmo índice de dados['sentimentoNumerico']
  dfW2V2.set_index(dados['sentimentoNumerico'].index, inplace=True)

  dfW2V2['sentimento2'] = dados['sentimentoNumerico']

  # Remover linhas em que a coluna 'Frase' contém apenas []
  dfW2V2 = dfW2V2[dfW2V2['Frase'].apply(lambda x: len(x) > 0)]

  return dfW2V2

In [None]:
dfW2V2

Unnamed: 0,Frase,Vetor1,Vetor2,Vetor3,Vetor4,Vetor5,Vetor6,Vetor7,Vetor8,Vetor9,...,Vetor42,Vetor43,Vetor44,Vetor45,Vetor46,Vetor47,Vetor48,Vetor49,Vetor50,sentimento2
0,"[Confira, resultados, fundos, mes, fevereiro22...",-0.461673,0.625237,0.114453,0.459222,0.306794,-0.586930,0.213955,0.866080,-0.162611,...,-0.346200,-0.493929,0.265874,0.328353,0.068527,-0.489172,0.047712,0.096991,0.001627,2
1,"[Alvarez, Marsal, estara, conosco, Sportainmet...",-0.391035,1.143772,0.040439,0.572504,0.637657,-0.724342,0.410926,1.422693,-0.067073,...,-0.070137,-0.564241,0.280539,0.683105,-0.003922,-1.008320,-0.058452,-0.029896,0.249026,2
2,"[Repost, btgpactual, with, make_repost, Entend...",-0.230138,0.629646,0.091119,0.404625,0.322938,-0.452704,0.183015,0.794990,-0.280394,...,-0.207168,-0.405268,0.175333,0.585429,-0.035896,-0.602881,-0.035103,0.082608,0.141593,2
3,"[Minuto, touro, ouro]",-0.075631,0.185909,0.038363,0.081205,0.048204,-0.109816,0.020094,0.213841,-0.036723,...,-0.083303,-0.079410,0.046703,0.116384,0.046445,-0.126920,0.004547,-0.002272,0.051925,1
4,"[ricktolledo, Sim]",-0.081614,0.200918,0.037080,0.084774,0.045994,-0.137323,0.053739,0.255260,-0.032161,...,-0.112763,-0.102342,0.052849,0.118346,0.052154,-0.128393,0.014528,0.014272,0.039189,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12350,"[noite, encontros, conhecimento, onde, cliente...",-0.423013,0.845564,0.207318,0.155583,0.332432,-0.672942,0.332869,1.306000,-0.062801,...,-0.197872,-0.436086,0.186675,0.632222,0.012129,-0.734997,0.144942,-0.112458,0.058215,2
12351,"[Erros, financeiros, eliminar, antes, 30, anos...",-0.743068,1.936539,0.307477,0.878058,0.368304,-1.239160,0.074150,1.989323,-0.586596,...,-1.044307,-0.852635,0.379971,1.063905,0.544783,-1.058241,-0.048385,0.070893,0.485264,2
12352,"[grato, todo, esforco, voce, rendeu, investime...",-0.318595,1.280301,0.189564,0.505960,0.160230,-0.578292,0.599425,1.486780,-0.164608,...,-0.588721,-0.543306,0.302336,0.703512,0.374952,-0.876997,0.115464,0.033402,0.244219,1
12353,"[GUADAKAN, chegando, aula, publica, formato, e...",-0.245366,0.609202,0.120352,0.205266,0.196098,-0.370560,0.149205,0.772488,-0.077014,...,-0.224900,-0.277184,0.140602,0.395657,0.099649,-0.464842,0.046825,-0.026497,0.142462,2


In [None]:
dados

Unnamed: 0,autor,texto,sentimento,tipoInteracao,dataPublicada
0,v8_capital,Confira os resultados dos nossos fundos no mês...,NEUTRAL,marcação,"""2022-03-04 09:38:00"""
1,winthegame_of,A Alvarez & Marsal estará conosco no Sportainm...,NEUTRAL,marcação,"""2022-03-04 09:29:00"""
2,marta_bego,#Repost btgpactual with make_repost ・・・ Entend...,NEUTRAL,marcação,"""2022-03-04 09:20:00"""
3,lmviapiana,Minuto touro de ouro,POSITIVE,comentário,"""2022-03-04 08:36:00"""
4,vanilson_dos,@ricktolledo Sim,NEUTRAL,resposta,"""2022-03-03 21:10:00"""
...,...,...,...,...,...
12350,onixcapital,Uma noite de encontros e muito conhecimento on...,NEUTRAL,marcação,"""2022-11-30 11:51:00"""
12351,amgcapitalinvest,Erros financeiros para eliminar antes dos 30 a...,NEUTRAL,marcação,"""2022-11-30 12:25:00"""
12352,jayipacderota,Estou muito grato por todo o esforço que você ...,POSITIVE,comentário,"""2022-11-30 12:18:00"""
12353,moinho_cultural,"""👉GUADAKAN está chegando!!!! A aula pública e...",NEUTRAL,marcação,"""2022-11-30 12:50:00"""


In [None]:
array_of_arrays

[['Confira',
  'resultados',
  'fundos',
  'mes',
  'fevereiro22',
  'Todas',
  'informacoes',
  'documentacoes',
  'materiais',
  'tecnicos',
  'fundos',
  'podem',
  'acessados',
  'links',
  'abaixo',
  'V8',
  'Cash',
  'FI',
  'Renda',
  'Fixa',
  'CP',
  'httpslnkdindusC2Jmn',
  'V8',
  'Vanquish',
  'Termo',
  'FI',
  'Renda',
  'Fixa',
  'httpslnkdind3PnGJUu',
  'V8',
  'Veyron',
  'Smart',
  'Beta',
  'FI',
  'Acoes',
  'httpslnkdindJnJW4PP',
  'V8',
  'Elva',
  'Deb',
  'Incentivadas',
  'FIC',
  'FIM',
  'CP',
  'httpslnkdindap37vV',
  'V8',
  'Challenger',
  'FIM',
  'CP',
  'httpslnkdind5bNHZQJ',
  'V8',
  'ANF',
  'Luxbridge',
  'Global',
  'Real',
  'Estate',
  'FIM',
  'IE',
  'httpslnkdindXZcaTpp',
  'Onde',
  'voce',
  'encontra',
  'fundos',
  'modalmais',
  'oramainvestimentos',
  'warrenbrasil',
  'terrainvestimentosoficial',
  'ativainvestimentos',
  'novafuturainvestimentos',
  'nubank',
  'nectoninvestimentos',
  'miraeassetcorretora',
  'toroinvestimentos',
  '

### 2.1.2 - Teste da Função

In [None]:
dfW2V2 = vetorizar_word2vec(array_of_arrays, base)

# Especificando o diretório de destino para salvar o arquivo CSV
diretorio_destino = '/content/drive/MyDrive/PROJETO BTG/'

# Salvando o dataframe em um arquivo CSV no diretório especificado
caminho_arquivo_csv = diretorio_destino + 'sentence_vectors2.csv'
dfW2V2.to_csv(caminho_arquivo_csv, index=False)

print("Arquivo 'sentence_vectors.csv' salvo com sucesso em:", caminho_arquivo_csv)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dados["sentimentoNumerico"] = dados["sentimento2"].replace({'NEGATIVE': 0, 'POSITIVE': 1, 'NEUTRAL': -1})


Arquivo 'sentence_vectors.csv' salvo com sucesso em: /content/drive/MyDrive/PROJETO BTG/sentence_vectors2.csv


In [None]:
base

Unnamed: 0,texto,sentimento,tipoInteracao,dataPublicada,autor_anonimo,texto_normalizado,texto_processado,sentimento2,sentimentoNumerico
0,Confira os resultados dos nossos fundos no mes...,NEUTRAL,marcação,"""2022-03-04 09:38:00""",1,Confira os resultados dos nossos fundos no mes...,"['confira', 'resultados', 'fundos', 'mes', 'fe...",2,2
1,A Alvarez Marsal estara conosco no Sportainme...,NEUTRAL,marcação,"""2022-03-04 09:29:00""",2,A Alvarez Marsal estara conosco no Sportainmet...,"['alvarez', 'marsal', 'estara', 'conosco', 'sp...",2,2
2,Repost btgpactual with make_repost Entenda os...,NEUTRAL,marcação,"""2022-03-04 09:20:00""",3,Repost btgpactual with make_repost Entenda os ...,"['repost', 'btgpactual', 'with', 'make_repost'...",2,2
3,Minuto touro de ouro,POSITIVE,comentário,"""2022-03-04 08:36:00""",4,Minuto touro de ouro,"['minuto', 'touro', 'ouro']",1,1
4,ricktolledo Sim,NEUTRAL,resposta,"""2022-03-03 21:10:00""",5,ricktolledo Sim,"['ricktolledo', 'sim']",2,2
...,...,...,...,...,...,...,...,...,...
12350,Uma noite de encontros e muito conhecimento on...,NEUTRAL,marcação,"""2022-11-30 11:51:00""",4003,Uma noite de encontros e muito conhecimento on...,"['noite', 'encontros', 'conhecimento', 'onde',...",2,2
12351,Erros financeiros para eliminar antes dos 30 a...,NEUTRAL,marcação,"""2022-11-30 12:25:00""",697,Erros financeiros para eliminar antes dos 30 a...,"['erros', 'financeiros', 'eliminar', 'antes', ...",2,2
12352,Estou muito grato por todo o esforco que voce ...,POSITIVE,comentário,"""2022-11-30 12:18:00""",5838,Estou muito grato por todo o esforco que voce ...,"['grato', 'todo', 'esforco', 'voce', 'rendeu',...",1,1
12353,GUADAKAN esta chegando A aula publica em form...,NEUTRAL,marcação,"""2022-11-30 12:50:00""",5103,GUADAKAN esta chegando A aula publica em forma...,"['guadakan', 'chegando', 'aula', 'publica', 'f...",2,2


In [None]:
dfW2V2.save("/content/drive/MyDrive/PROJETO BTG/modelo_word2vec.bin")

AttributeError: ignored

In [None]:
dfW2V2

In [None]:
dados

## 2.2 - Avaliação da vetorização Word2Vec

In [None]:
from gensim.models import KeyedVectors
import numpy as np

# Carregar os vetores do arquivo CSV
vetores = {}
with open('/content/drive/MyDrive/PROJETO BTG/sentence_vectors2.csv', 'r') as file:
    next(file)  # Ignorar a primeira linha (cabeçalho)
    for line in file:
        line = line.strip().split(',')
        palavra = line[0]
        try:
            vetor = np.array([float(value) for value in line[1:]])
            vetores[palavra] = vetor
        except ValueError:
            continue

# Escolher uma palavra do vocabulário
palavra_exemplo = "['btgpactual']"

# Criar um modelo KeyedVectors
modelo = KeyedVectors(vector_size=len(vetores[palavra_exemplo]))
modelo.add_vectors(keys=list(vetores.keys()), weights=list(vetores.values()))

# Verificar o vocabulário
vocabulario = modelo.index_to_key
print("Tamanho do vocabulário:", len(vocabulario))


Tamanho do vocabulário: 400


In [None]:
# Verificar o vetor de uma palavra específica
palavra = "['btgpactual']"
vetor = modelo.get_vector(palavra)
print("Vetor de '['btgpactual']':", vetor)

Vetor de '['btgpactual']': [-0.98261774  1.0361898   0.3720227   0.66072714  0.90700126 -1.9055955
  0.11886997  1.96139    -0.77158934 -0.6599842  -0.24943575 -1.4446889
  0.25086695  0.6350334   0.91111124 -0.9021004   1.0004085   0.17900659
  1.0280473  -2.9196696   1.4817218   0.12335812  1.6527728  -0.43504244
 -1.4191549  -0.01070915  0.78242546  0.8227082  -0.65453255  0.50823665
  0.5807182   0.16652432 -0.52175796 -0.30615732 -0.97956705 -0.02423361
 -0.49389327 -0.2765631  -0.8222254  -3.0107563   0.61879045  0.28216204
 -1.3285146   0.2773823   1.0048957  -0.91562134 -1.301785   -0.47930837
  0.20378526 -0.20739576  2.        ]


In [None]:
# Verificar palavras similares
palavras_similares = modelo.most_similar("['otimo']", topn=5)
print("Palavras similares a '['otimo']':")
for palavra, similaridade in palavras_similares:
    print(palavra, similaridade)

Palavras similares a '['otimo']':
['realmente'] 0.9897920489311218
['nunca'] 0.9883356690406799
['So'] 0.9881555438041687
['assim'] 0.9828485250473022
['faco'] 0.9805418252944946


In [None]:
# Calcular similaridade entre duas palavras
similaridade = modelo.similarity("['btgpactual']", "['otimo']")
print("Similaridade entre '['btgpactual']' e '['otimo']':", similaridade)

Similaridade entre '['btgpactual']' e '['otimo']': 0.6830409


In [None]:
#dfW2Vmodelo = pd.read_csv('/content/drive/MyDrive/PROJETO BTG/sentence_vectors.csv')

In [None]:
dfW2Vmodelo2 = pd.read_csv('/content/drive/MyDrive/PROJETO BTG/sentence_vectors2.csv')

In [None]:
len(dfW2Vmodelo2)

11415