In [1]:
import pandas as pd
import numpy
from datetime import datetime

In [2]:
input_data = pd.read_pickle('../dados/df_ata_sentimento.pkl')
# A obtenção de dados da coluna Selic 6m dixa lacunas, limpar os dados:
input_data = input_data.dropna(subset=['Selic (6m)'])
print(input_data.head(5))
print(input_data.tail(5))
print(len(input_data))


        Data                                              Texto  Selic  IPCA  \
0 1999-06-23  Sumário Preços e Nível de Atividade Agregados ...   22.0  3.32   
1 1999-07-28  Sumário Preços e nível de atividade Agregados ...   21.0  4.57   
2 1999-09-01  Sumário Demanda e oferta agregadas Preços Agre...   19.5  5.69   
3 1999-09-22  Sumário Demanda e oferta agregadas Ambiente ex...   19.5  6.25   
4 1999-10-06  Sumário Demanda e oferta agregadas Ambiente Ex...   19.0  7.50   

   Selic (6m) Sentimento  
0        19.0     dovish  
1        19.0     dovish  
2        19.0     dovish  
3        19.0     dovish  
4        19.0    neutral  
          Data                                              Texto  Selic  \
229 2024-09-18  A Atualização da conjuntura econômica e do cen...  10.50   
230 2024-11-06  A Atualização da conjuntura econômica e do cen...  10.75   
231 2024-12-11  A Atualização da conjuntura econômica e do cen...  11.25   
232 2025-01-29  A Atualização da conjuntura econômica

########------>>>>>>   Alterações feitas no arquivo analise_exploratoria_ata.ipynb conforme necessidades aqui:

########------>>>>>>   Codigo da Selic 6m revisto, usando o valor da quarta linha à frente, 
########------>>>>>>   implementação anterior repetia o último valor para completar as linhas finais.

########------>>>>>>   A coluna sentimento agora é numérica:
########------>>>>>>    'hawkish' = 2  
########------>>>>>>    'neutral' = 1
########------>>>>>>     'dovish' = 0 

########------>>>>>>   Removida a pontuação do texto.

In [3]:
#Separar colunas aplicáveis ao modelo
data = input_data.loc[:, ['Texto', 'Sentimento']].copy()
print(data.head())
print(data.tail())
print(len(data))

                                               Texto Sentimento
0  Sumário Preços e Nível de Atividade Agregados ...     dovish
1  Sumário Preços e nível de atividade Agregados ...     dovish
2  Sumário Demanda e oferta agregadas Preços Agre...     dovish
3  Sumário Demanda e oferta agregadas Ambiente ex...     dovish
4  Sumário Demanda e oferta agregadas Ambiente Ex...    neutral
                                                 Texto Sentimento
229  A Atualização da conjuntura econômica e do cen...    hawkish
230  A Atualização da conjuntura econômica e do cen...    hawkish
231  A Atualização da conjuntura econômica e do cen...    hawkish
232  A Atualização da conjuntura econômica e do cen...    hawkish
233  A Atualização da conjuntura econômica e do cen...    hawkish
234


In [4]:
############
import sys
from packaging import version
import sklearn
import tensorflow as tf

assert sys.version_info >= (3, 7)
assert version.parse(sklearn.__version__) >= version.parse("1.0.1")
assert version.parse(tf.__version__) >= version.parse("2.8.0")
###########

In [5]:
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split

#tratamento dos dados para modelo

#Encoding do label alfanumérico
label_encoder = LabelEncoder()
data['Sentimento_encoded'] = label_encoder.fit_transform(data['Sentimento'])

# Step 2: Create 3 new columns using one-hot encoding
one_hot = pd.get_dummies(data['Sentimento'], prefix='sent')

# Step 3: Concatenate the new columns to the original dataframe
data = pd.concat([data, one_hot], axis=1)

# Display the result
print(data.head())

#Migrando dados parsa dataset TensorFlow
df = pd.DataFrame()
df['review'] = data['Texto'].str.lower()
df['label'] = data['sent_dovish']   # ## ######### ########>>>>>>>>>> Usando semente 'dovish'
print(df.head())

# Convert DataFrame to tf.data.Dataset
dataset = tf.data.Dataset.from_tensor_slices((df['review'].values, df['label'].values))

# Optional: Split into train, validation, and test sets (e.g., 80%/10%/10%)
dataset_size = len(df)
train_size = int(0.8 * dataset_size)
valid_size = int(0.1 * dataset_size)
test_size = dataset_size - train_size - valid_size

# Shuffle the dataset (optional, use a seed for reproducibility)
dataset = dataset.shuffle(buffer_size=dataset_size, seed=42)

# Split the dataset
raw_train_set = dataset.take(train_size)
raw_valid_set = dataset.skip(train_size).take(valid_size)
raw_test_set = dataset.skip(train_size + valid_size)

print("Train size:", train_size)
print("Valid size:", valid_size)
print("Test size:", test_size)
# Verify the datasets
for review, label in raw_train_set.take(4):
    print("Review:", review.numpy().decode('utf-8'), "Label:", label.numpy())


                                               Texto Sentimento  \
0  Sumário Preços e Nível de Atividade Agregados ...     dovish   
1  Sumário Preços e nível de atividade Agregados ...     dovish   
2  Sumário Demanda e oferta agregadas Preços Agre...     dovish   
3  Sumário Demanda e oferta agregadas Ambiente ex...     dovish   
4  Sumário Demanda e oferta agregadas Ambiente Ex...    neutral   

   Sentimento_encoded  sent_dovish  sent_hawkish  sent_neutral  
0                   0         True         False         False  
1                   0         True         False         False  
2                   0         True         False         False  
3                   0         True         False         False  
4                   2        False         False          True  
                                              review  label
0  sumário preços e nível de atividade agregados ...   True
1  sumário preços e nível de atividade agregados ...   True
2  sumário demanda e oferta

2025-10-10 12:43:37.135465: I tensorflow/core/framework/local_rendezvous.cc:407] Local rendezvous is aborting with status: OUT_OF_RANGE: End of sequence


In [6]:
#Preparar datasets TensorFlow

batch_size = 4
rnd_seed = 42
tf.random.set_seed(rnd_seed)

train_set = raw_train_set.shuffle(100, seed=rnd_seed).batch(batch_size).prefetch(1)
valid_set = raw_valid_set.batch(batch_size).prefetch(1)
test_set = raw_test_set.batch(batch_size).prefetch(1)

for review, label in raw_train_set.take(4):
    print(review.numpy().decode("utf-8")[:200], "...")
    print("Label:", label.numpy())

a atualização da conjuntura econômica e do cenário básico do copom11 no cenário externo o ambiente se tornou menos favorável alguns bancos centrais das principais economias expressaram claramente a ne ...
Label: False
a atualização da conjuntura econômica e do cenário de referência do copom11 no cenário externo o ambiente segue menos favorável a maior persistência inflacionária aumenta o risco de um aperto monetári ...
Label: False
a atualização da conjuntura econômica e do cenário do copom11 o ambiente externo mostrase adverso em função da elevação das taxas de juros de prazos mais longos nos estados unidos da resiliência dos n ...
Label: True
sumário evolução recente da inflação avaliação prospectiva das tendências da inflação implementação da política monetária atividade econômica mercado de trabalho crédito e inadimplência ambiente exter ...
Label: False


2025-10-10 12:43:37.145106: I tensorflow/core/framework/local_rendezvous.cc:407] Local rendezvous is aborting with status: OUT_OF_RANGE: End of sequence


In [7]:
vocab_size = 50000
text_vec_layer = tf.keras.layers.TextVectorization(max_tokens=vocab_size)
text_vec_layer.adapt(train_set.map(lambda reviews, labels: reviews))

In [8]:
#Masking Automatico
embed_size = 128
tf.random.set_seed(rnd_seed)
model = tf.keras.Sequential([
    text_vec_layer,
    tf.keras.layers.Embedding(vocab_size, embed_size, mask_zero=True),
    tf.keras.layers.GRU(128),
    tf.keras.layers.Dense(1, activation="sigmoid")
])

print("Start: ", datetime.now())
model.compile(loss="binary_crossentropy", optimizer="nadam",
              metrics=["accuracy"])
history = model.fit(train_set, validation_data=valid_set, epochs=10)
print("End: ", datetime.now())

Start:  2025-10-10 12:43:37.300662
Epoch 1/10
[1m47/47[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m740s[0m 16s/step - accuracy: 0.5884 - loss: 0.7048 - val_accuracy: 0.8696 - val_loss: 0.5531
Epoch 2/10
[1m47/47[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m848s[0m 18s/step - accuracy: 0.7585 - loss: 0.6129 - val_accuracy: 0.9130 - val_loss: 0.5797
Epoch 3/10
[1m47/47[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m697s[0m 14s/step - accuracy: 0.8145 - loss: 0.5558 - val_accuracy: 0.9565 - val_loss: 0.3301
Epoch 4/10
[1m47/47[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m310s[0m 7s/step - accuracy: 0.8957 - loss: 0.3375 - val_accuracy: 0.9130 - val_loss: 0.2346
Epoch 5/10
[1m47/47[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m178s[0m 4s/step - accuracy: 0.8860 - loss: 0.4145 - val_accuracy: 0.9565 - val_loss: 0.3282
Epoch 6/10
[1m47/47[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m151s[0m 3s/step - accuracy: 0.9009 - loss: 0.3875 - val_accuracy: 0.9130 - val_loss: 0.2

In [9]:
model.save("my_model.h5")
# Save weights only
model.save_weights("my_model_weights.weights.h5")



In [11]:
import keras
keras.saving.save_model(model, '../dados/my_model.keras')