In [1]:
import pandas as pd
from sqlalchemy import create_engine

engine = create_engine("postgresql+psycopg2://postgres:changeme@localhost:5436/romeu")

In [2]:
import datetime

news = pd.read_sql("SELECT * FROM noticias", engine)
news = news[news.date != datetime.datetime(1, 1, 1, 0, 0, 0)]
news = news[~news.date.isna()]

news = news[
    (~news.title.str.contains("ibovespa", case=False))
    & (news.title != "Fechamento do mercado financeiro")
    & (~news.content.isna())
    & (~news.title.str.startswith("Ações"))
    & (~news.title.str.startswith("As 10 ações"))
    & (~news.title.str.contains("corretoras", case=False))
]

news["source"] = news["url"].apply(lambda x: x.split("/")[2] if pd.notnull(x) else x)
# news.groupby("source", as_index=False)["id"].count()


filtrado = news[["title", "content", "date", "source", "hash_id"]]
data_menor = datetime.datetime(2024, 3, 15)

filtrado = filtrado[filtrado["date"] >= data_menor]
filtrado["date"] = pd.to_datetime(filtrado["date"])
filtrado = filtrado.sort_values("date")

In [4]:
filtrado

Unnamed: 0,title,content,date,source,hash_id
9295,"Privatizada, Eletrobras registra aumento de 21...","No primeiro balanço de um ano contábil ""cheio""...",2024-03-15 04:26:00.000,br.investing.com,85435d8241936c6b15aa4f12f8189126
5053,Uruguai é alternativa para mais ricos se ‘defe...,O Uruguai segue na contramão de países que seg...,2024-03-15 06:00:00.000,investnews.com.br,05605c881d3cbffc2a7b42055b26f127
5054,TikTok corre contra o tempo para seguir nas te...,O TikTok está com as horas contadas nos Estado...,2024-03-15 06:15:00.000,investnews.com.br,aa2d48f6acca9c363b86db5016e93050
7040,Companhias brasileiras perdem prazo e são remo...,"A Science-Based Targets iniciative (SBTi), org...",2024-03-15 08:00:55.828,valor.globo.com,785f6bda249000a42080a71351fce3f8
9285,Minério de ferro perde mais de 10% na semana p...,(Reuters) - Os preços futuros do minério de fe...,2024-03-15 08:19:00.000,br.investing.com,f28eff15e6e12e0fc22a38695d053ff3
...,...,...,...,...,...
2646,Quando é o quinto dia útil do mês? Veja calend...,O quinto dia útil do mês é uma das datas mais ...,2025-11-03 16:30:40.000,investnews.com.br,e02d41c0495cbf24b93cb6d4aa5c8e1a
122,Vale diz que seu conselho não tomou decisão so...,A Vale disse que não há qualquer decisão do se...,2025-11-04 12:09:52.066,valor.globo.com,2c0f980a500711b606612df8ec4e9cc1
0,CVM questiona fala de CFO da Vale sobre divide...,A Comissão de Valores Mobiliários (CVM) cobrou...,2025-11-04 13:44:17.000,exame.com,1f5bc698e923bfcf9746dd91c9b1e158
110,Contrato da TIM com a Vale prevê construção de...,O contrato da operadora TIM com a mineradora V...,2025-11-04 15:11:47.645,valor.globo.com,b21311339704041a1ba882bdc4fdcc66


In [23]:
filtrado.to_parquet("/home/rborges/projetos/tcc/fsa/data/news/vale3.parquet")

In [29]:
resultado = pd.read_parquet(
    "/home/rborges/projetos/tcc/fsa/data/strategies4/vale3-completo.parquet"
)
resultado = resultado.reset_index(drop=True)

In [33]:
resultado.groupby(by=["source", "decisao"])["title"].count().reset_index()

Unnamed: 0,source,decisao,title
0,br.investing.com,LONG,411
1,br.investing.com,SHORT,232
2,br.investing.com,UNKNOWN,289
3,exame.com,LONG,49
4,exame.com,SHORT,20
5,exame.com,UNKNOWN,79
6,investnews.com.br,LONG,175
7,investnews.com.br,SHORT,202
8,investnews.com.br,UNKNOWN,1403
9,pipelinevalor.globo.com,LONG,4


In [None]:
# import yfinance as yf


# data = yf.download(
#     "VALE3.SA",
#     start="2024-03-15",
#     end="2025-10-31",
#     interval="1h",
#     progress=False,
# )
# df = data.reset_index()
# df.columns = df.columns.droplevel(1)
# df["Datetime"] = df["Datetime"].dt.tz_convert("America/Sao_Paulo")
# df.to_parquet("/home/rborges/projetos/tcc/fsa/data/tickers2/vale3-hora.parquet")

In [7]:
from collections import Counter
from datetime import date, time, datetime, timedelta
import warnings

import numpy as np
from pytz import timezone
import holidays

br_holidays = holidays.BR()


def is_weekend(x):
    day = x.weekday()
    return day >= 5 or x in br_holidays


resultado = pd.read_parquet(
    "/home/rborges/projetos/tcc/fsa/data/strategies4/vale3-completo.parquet"
)
irrelevantes = resultado[resultado.decisao == "UNKNOWN"]
resultado = resultado[(resultado.decisao != "UNKNOWN")]
resultado = resultado[
    resultado.source.isin(
        [
            "br.investing.com",
            "investnews.com.br",
            # "www.bloomberglinea.com.br",
            # "valor.globo.com",
        ]
    )
]


def teste(x):
    contrario = {
        "LONG": "SHORT",
        "SHORT": "LONG",
    }
    if x["source"] == "valor.globo.com":
        if d := x.get("decisao"):
            return contrario[d]

    return x.get("decisao")


resultado["decisao"] = resultado.apply(teste, axis=1)
dia = []


def posicao_entredias(noticias):
    decisoes = [n["decisao"] for n in noticias]
    decisoes = Counter(decisoes)
    return decisoes.most_common(1)[0][0]


def daterange(start_date, end_date):
    for n in range(int((end_date - start_date).days) + 1):
        yield start_date + timedelta(n)


start_dt = date(2024, 3, 15)
end_dt = date(2025, 10, 31)
abertura = time(10, 00)

local = timezone("America/Sao_Paulo")

DIAS = 3

proxima_operacao = None
posicoes = []
for dt in daterange(start_dt, end_dt):
    if not proxima_operacao:
        proxima_operacao = dt

    abertura_hoje = datetime.combine(dt, abertura)
    abertura_hoje = abertura_hoje.astimezone(local)
    abertura_timestamp = np.datetime64(abertura_hoje)
    limite_inferior = (abertura_hoje - timedelta(days=DIAS)).astimezone(local)
    inferior_timestamp = np.datetime64(limite_inferior)

    if proxima_operacao and proxima_operacao == dt:
        noticias_anteriores = resultado[
            (resultado.date >= inferior_timestamp)
            & (resultado.date <= abertura_timestamp)
        ]
        noticias_data = noticias_anteriores.to_dict("records")
        if noticias_data:
            posicao = posicao_entredias(noticias_data)
            posicoes.append({"date": dt, "posicao": posicao})

        proxima_operacao = (abertura_hoje + timedelta(days=DIAS)).date()

res = pd.DataFrame(posicoes)
res["date"] = pd.to_datetime(res["date"]).dt.tz_localize("America/Sao_Paulo")

df = pd.read_parquet("/home/rborges/projetos/tcc/fsa/data/tickers2/vale3.parquet")
merged = pd.merge(df, res, left_on="Date", right_on="date", how="left")
merged = merged.drop(columns=["date"]).rename(
    columns={
        "Date": "date",
        "Open": "open",
        "Close": "close",
        "High": "high",
        "Low": "low",
        "Volume": "volume",
    }
)
# merged.groupby("posicao")["date"].count()
merged.to_parquet("/home/rborges/projetos/tcc/fsa/data/strategies4/vale3.parquet")

  abertura_timestamp = np.datetime64(abertura_hoje)
  inferior_timestamp = np.datetime64(limite_inferior)
  abertura_timestamp = np.datetime64(abertura_hoje)
  inferior_timestamp = np.datetime64(limite_inferior)
  abertura_timestamp = np.datetime64(abertura_hoje)
  inferior_timestamp = np.datetime64(limite_inferior)
  abertura_timestamp = np.datetime64(abertura_hoje)
  inferior_timestamp = np.datetime64(limite_inferior)
  abertura_timestamp = np.datetime64(abertura_hoje)
  inferior_timestamp = np.datetime64(limite_inferior)
  abertura_timestamp = np.datetime64(abertura_hoje)
  inferior_timestamp = np.datetime64(limite_inferior)
  abertura_timestamp = np.datetime64(abertura_hoje)
  inferior_timestamp = np.datetime64(limite_inferior)
  abertura_timestamp = np.datetime64(abertura_hoje)
  inferior_timestamp = np.datetime64(limite_inferior)
  abertura_timestamp = np.datetime64(abertura_hoje)
  inferior_timestamp = np.datetime64(limite_inferior)
  abertura_timestamp = np.datetime64(abertura_