## üßæ Etapa 5.1 ‚Äî Leitura e Inspe√ß√£o Inicial dos Dados Brutos (Atualizada)

Ap√≥s reestrutura√ß√£o do ambiente, os arquivos de dados foram organizados no diret√≥rio `/workspace/dados`, acess√≠vel diretamente pelo Jupyter Notebook. 

O objetivo deste bloco permanece: listar os arquivos `.csv` dispon√≠veis e verificar sua acessibilidade antes de prosseguir para o carregamento e inspe√ß√£o detalhada.


In [5]:
import os

# Caminho relativo real identificado
caminho_dados = "../dados"

# Listar arquivos .csv dispon√≠veis
arquivos_csv = [f for f in os.listdir(caminho_dados) if f.endswith('.csv')]

# Exibir a lista
print("üìÇ Arquivos CSV encontrados em ../dados:")
for nome_arquivo in arquivos_csv:
    print(" -", nome_arquivo)


üìÇ Arquivos CSV encontrados em ../dados:
 - dados_bova11.csv
 - dados_petr4.csv
 - dados_brfs3.csv
 - dados_imab11.csv
 - dados_vale3.csv


## üßæ Etapa 5.1 ‚Äî Leitura Focada nos Ativos do Agente RL

Com base no papel dos arquivos dispon√≠veis, nesta etapa focaremos apenas nos dados hist√≥ricos dos ativos que far√£o parte da pol√≠tica de decis√£o do agente: **VALE3**, **PETR4** e **BRFS3**.

Os dados de `BOVA11` e `IMAB11` ser√£o mantidos intactos por enquanto, e utilizados mais adiante como benchmarks para compara√ß√£o de performance.


In [6]:
import pandas as pd

# Caminho onde est√£o os arquivos
caminho_dados = "../dados"

# Lista apenas os arquivos que nos interessam nesta etapa
arquivos_relevantes = ["dados_vale3.csv", "dados_petr4.csv", "dados_brfs3.csv"]

# Carregamento em dicion√°rio de DataFrames
ativos_rl = {}

for arquivo in arquivos_relevantes:
    nome_ativo = arquivo.replace("dados_", "").replace(".csv", "").upper()
    caminho_completo = os.path.join(caminho_dados, arquivo)

    df = pd.read_csv(caminho_completo)
    ativos_rl[nome_ativo] = df

    print(f"\nüìä {nome_ativo} ‚Äî Primeiras linhas:")
    display(df.head())
    print("\nTipos de dados:")
    print(df.dtypes)
    print("\nValores nulos por coluna:")
    print(df.isnull().sum())



üìä VALE3 ‚Äî Primeiras linhas:


Unnamed: 0,Price,Close,High,Low,Open,Volume
0,Ticker,VALE3.SA,VALE3.SA,VALE3.SA,VALE3.SA,VALE3.SA
1,Date,,,,,
2,2020-05-06,27.61468505859375,27.882544683461767,27.166171498244843,27.527472240287658,26602700
3,2020-05-07,28.686128616333008,29.26545779786383,28.312368927225574,28.42449730921903,42194300
4,2020-05-08,30.43034553527832,30.498868701842245,29.259230533971,29.58938501689946,33922800



Tipos de dados:
Price     object
Close     object
High      object
Low       object
Open      object
Volume    object
dtype: object

Valores nulos por coluna:
Price     0
Close     1
High      1
Low       1
Open      1
Volume    1
dtype: int64

üìä PETR4 ‚Äî Primeiras linhas:


Unnamed: 0,Price,Close,High,Low,Open,Volume
0,Ticker,PETR4.SA,PETR4.SA,PETR4.SA,PETR4.SA,PETR4.SA
1,Date,,,,,
2,2020-05-06,6.878803253173828,7.18930429063302,6.878803253173829,7.113669850843073,67937500
3,2020-05-07,6.942496299743652,7.11367034998188,6.906669137634476,7.065900547411228,81265100
4,2020-05-08,7.3564982414245605,7.396306285182488,7.049977291546384,7.061919932456346,83232700



Tipos de dados:
Price     object
Close     object
High      object
Low       object
Open      object
Volume    object
dtype: object

Valores nulos por coluna:
Price     0
Close     1
High      1
Low       1
Open      1
Volume    1
dtype: int64

üìä BRFS3 ‚Äî Primeiras linhas:


Unnamed: 0,Price,Close,High,Low,Open,Volume
0,Ticker,BRFS3.SA,BRFS3.SA,BRFS3.SA,BRFS3.SA,BRFS3.SA
1,Date,,,,,
2,2020-05-06,16.95716094970703,17.318345287107338,16.670064327299208,17.077555110283047,9585305
3,2020-05-07,17.04977035522461,17.86475184327914,16.966419132277178,17.197947626715926,11953503
4,2020-05-08,17.355388641357422,17.61470026162958,16.73489271346732,17.58691713883929,8133059



Tipos de dados:
Price     object
Close     object
High      object
Low       object
Open      object
Volume    object
dtype: object

Valores nulos por coluna:
Price     0
Close     1
High      1
Low       1
Open      1
Volume    1
dtype: int64


## üîß Corre√ß√£o da Leitura: Skip de Cabe√ßalho e Nomea√ß√£o das Colunas

Foi identificado que os arquivos possuem tr√™s linhas superiores com metadados (nomes de ativo e r√≥tulos), o que desalinha os dados ao fazer a leitura padr√£o.

Esta c√©lula corrige o problema utilizando `skiprows=3` e definindo manualmente os nomes das colunas para garantir consist√™ncia na leitura dos arquivos dos ativos VALE3, PETR4 e BRFS3.


In [9]:
import pandas as pd
import os

# Caminho correto
caminho_dados = "../dados"

# Arquivos a serem lidos
arquivos_relevantes = ["dados_vale3.csv", "dados_petr4.csv", "dados_brfs3.csv"]

# Colunas padronizadas
colunas_padrao = ["Date", "Close", "High", "Low", "Open", "Volume"]

# Leitura limpa
ativos_rl = {}

for arquivo in arquivos_relevantes:
    nome_ativo = arquivo.replace("dados_", "").replace(".csv", "").upper()
    caminho_completo = os.path.join(caminho_dados, arquivo)

    df = pd.read_csv(caminho_completo, skiprows=3, names=colunas_padrao)
    ativos_rl[nome_ativo] = df

    print(f"\nüìä {nome_ativo} ‚Äî Primeiras linhas:")
    display(df.head())



üìä VALE3 ‚Äî Primeiras linhas:


Unnamed: 0,Date,Close,High,Low,Open,Volume
0,2020-05-06,27.614685,27.882545,27.166171,27.527472,26602700
1,2020-05-07,28.686129,29.265458,28.312369,28.424497,42194300
2,2020-05-08,30.430346,30.498869,29.259231,29.589385,33922800
3,2020-05-11,29.73266,30.679521,29.73266,30.031669,24783100
4,2020-05-12,29.564466,30.274611,29.564466,30.168714,21806900



üìä PETR4 ‚Äî Primeiras linhas:


Unnamed: 0,Date,Close,High,Low,Open,Volume
0,2020-05-06,6.878803,7.189304,6.878803,7.11367,67937500
1,2020-05-07,6.942496,7.11367,6.906669,7.065901,81265100
2,2020-05-08,7.356498,7.396306,7.049977,7.06192,83232700
3,2020-05-11,7.225132,7.535634,7.209209,7.284844,65061500
4,2020-05-12,7.22115,7.495825,7.21717,7.376402,71837200



üìä BRFS3 ‚Äî Primeiras linhas:


Unnamed: 0,Date,Close,High,Low,Open,Volume
0,2020-05-06,16.957161,17.318345,16.670064,17.077555,9585305
1,2020-05-07,17.04977,17.864752,16.966419,17.197948,11953503
2,2020-05-08,17.355389,17.6147,16.734893,17.586917,8133059
3,2020-05-11,19.309492,19.93925,18.170371,18.290765,30998471
4,2020-05-12,18.864956,19.874421,18.800128,19.522497,16563627


## üíæ Salvando os DataFrames Corrigidos

Ap√≥s corrigirmos a leitura dos dados com `skiprows=3` e definirmos manualmente os nomes das colunas, salvaremos agora os arquivos limpos para uso futuro.

Os novos arquivos ser√£o nomeados no formato:  
`<ativo>_clean.csv` ‚Üí ex: `VALE3_clean.csv`, `PETR4_clean.csv`, `BRFS3_clean.csv`.

Eles ser√£o gravados no mesmo diret√≥rio `../dados`.


In [10]:
# Salvar os DataFrames corrigidos no mesmo diret√≥rio
for nome_ativo, df in ativos_rl.items():
    nome_arquivo_saida = f"{nome_ativo}_clean.csv"
    caminho_saida = os.path.join(caminho_dados, nome_arquivo_saida)

    df.to_csv(caminho_saida, index=False)
    print(f"‚úÖ {nome_arquivo_saida} salvo com sucesso em: {caminho_saida}")


‚úÖ VALE3_clean.csv salvo com sucesso em: ../dados/VALE3_clean.csv
‚úÖ PETR4_clean.csv salvo com sucesso em: ../dados/PETR4_clean.csv
‚úÖ BRFS3_clean.csv salvo com sucesso em: ../dados/BRFS3_clean.csv


## üóÉÔ∏è Padroniza√ß√£o de Tipos e Ordena√ß√£o Temporal

Antes de calcular indicadores t√©cnicos e construir o espa√ßo de estados, √© essencial garantir que os dados estejam com os tipos corretos e em ordem cronol√≥gica.

Nesta c√©lula:
- Convertemos a coluna `Date` para tipo datetime.
- Ordenamos as linhas por data.
- Validamos os tipos num√©ricos.
- Sinalizamos valores ausentes (se houver).


In [11]:
# Padroniza√ß√£o de tipos e ordena√ß√£o por data
for nome_ativo, df in ativos_rl.items():
    print(f"\nüìå {nome_ativo}")

    # Convers√£o da coluna Date
    df["Date"] = pd.to_datetime(df["Date"], errors="coerce")

    # Ordenar por data (ascendente)
    df.sort_values("Date", inplace=True)

    # Resetar √≠ndice ap√≥s ordena√ß√£o
    df.reset_index(drop=True, inplace=True)

    # Verificar tipos finais
    print("Tipos de dados ap√≥s convers√£o:")
    print(df.dtypes)

    # Verificar nulos (caso algum erro de parsing gere datas faltantes)
    nulos = df.isnull().sum()
    if nulos.any():
        print("‚ö†Ô∏è Valores nulos encontrados:")
        print(nulos)
    else:
        print("‚úÖ Nenhum valor nulo encontrado.")

    # Atualiza o dicion√°rio
    ativos_rl[nome_ativo] = df



üìå VALE3
Tipos de dados ap√≥s convers√£o:
Date      datetime64[ns]
Close            float64
High             float64
Low              float64
Open             float64
Volume             int64
dtype: object
‚úÖ Nenhum valor nulo encontrado.

üìå PETR4
Tipos de dados ap√≥s convers√£o:
Date      datetime64[ns]
Close            float64
High             float64
Low              float64
Open             float64
Volume             int64
dtype: object
‚úÖ Nenhum valor nulo encontrado.

üìå BRFS3
Tipos de dados ap√≥s convers√£o:
Date      datetime64[ns]
Close            float64
High             float64
Low              float64
Open             float64
Volume             int64
dtype: object
‚úÖ Nenhum valor nulo encontrado.


## ‚öôÔ∏è Engenharia de Indicadores T√©cnicos (SMA, Volatilidade, RSI, Retornos)

A partir dos dados de fechamento di√°rio, ser√£o criados os seguintes indicadores:

- **M√©dia M√≥vel Simples (SMA5 e SMA20)** para identificar tend√™ncias de curto e m√©dio prazo;
- **Volatilidade (STD10)** como medida de risco;
- **√çndice de For√ßa Relativa (RSI14)** para detectar sobrecompra/sobrevenda;
- **Retorno Di√°rio** para capturar o movimento percentual di√°rio dos pre√ßos.

Esses indicadores ser√£o adicionados como colunas aos DataFrames j√° limpos.


In [12]:
def calcular_indicadores(df):
    df = df.copy()

    # Retorno percentual di√°rio
    df["Return"] = df["Close"].pct_change()

    # M√©dias m√≥veis simples
    df["SMA5"] = df["Close"].rolling(window=5).mean()
    df["SMA20"] = df["Close"].rolling(window=20).mean()

    # Volatilidade (desvio padr√£o dos retornos)
    df["Volatility"] = df["Return"].rolling(window=10).std()

    # RSI (√çndice de For√ßa Relativa)
    delta = df["Close"].diff()
    gain = delta.clip(lower=0)
    loss = -delta.clip(upper=0)
    avg_gain = gain.rolling(window=14).mean()
    avg_loss = loss.rolling(window=14).mean()
    rs = avg_gain / avg_loss
    df["RSI"] = 100 - (100 / (1 + rs))

    return df

# Aplica os indicadores a todos os ativos
for nome_ativo, df in ativos_rl.items():
    df_ind = calcular_indicadores(df)
    ativos_rl[nome_ativo] = df_ind

    print(f"\n‚úÖ Indicadores calculados para {nome_ativo}")
    display(df_ind[["Date", "Close", "Return", "SMA5", "SMA20", "Volatility", "RSI"]].dropna().head())



‚úÖ Indicadores calculados para VALE3


Unnamed: 0,Date,Close,Return,SMA5,SMA20,Volatility,RSI
19,2020-06-02,33.277157,0.0,32.463605,31.035528,0.025094,67.994058
20,2020-06-03,33.426662,0.004493,32.839857,31.326126,0.025099,70.861386
21,2020-06-04,34.672531,0.037272,33.533806,31.625447,0.025087,74.853031
22,2020-06-05,34.018452,-0.018864,33.734392,31.804852,0.025326,62.737639
23,2020-06-08,34.124348,0.003113,33.90383,32.024436,0.025066,60.097731



‚úÖ Indicadores calculados para PETR4


Unnamed: 0,Date,Close,Return,SMA5,SMA20,Volatility,RSI
19,2020-06-02,8.518887,0.052631,8.102497,7.502394,0.025243,80.286108
20,2020-06-03,8.546755,0.003271,8.225106,7.585791,0.024473,82.98216
21,2020-06-04,8.53083,-0.001863,8.357268,7.665208,0.024212,85.905978
22,2020-06-05,8.797543,0.031265,8.497392,7.73726,0.020689,83.969402
23,2020-06-08,8.968717,0.019457,8.672546,7.82444,0.018602,84.810054



‚úÖ Indicadores calculados para BRFS3


Unnamed: 0,Date,Close,Return,SMA5,SMA20,Volatility,RSI
19,2020-06-02,21.624777,-0.013519,21.598847,20.183744,0.02111,54.578748
20,2020-06-03,20.976498,-0.029979,21.487714,20.384711,0.02315,46.554617
21,2020-06-04,21.71739,0.03532,21.532167,20.618091,0.022662,56.220471
22,2020-06-05,21.022804,-0.031983,21.452521,20.801462,0.025833,57.766997
23,2020-06-08,21.532166,0.024229,21.374727,20.912596,0.026475,59.659966


## ‚öñÔ∏è Aplica√ß√£o de Normaliza√ß√£o Mista (por ativo)

Cada ativo ter√° seus dados normalizados individualmente, aplicando t√©cnicas apropriadas para cada tipo de vari√°vel:

- **Pre√ßo e M√©dias M√≥veis:** normalizados pela divis√£o do valor inicial (escala relativa).
- **Indicadores como RSI, Volatilidade e Retornos:** normalizados via Z-score.
- **Volume:** transformado em escala logar√≠tmica (`log1p`) para mitigar distor√ß√µes.

Essa etapa prepara os dados para entrada no agente de RL.


In [13]:
import numpy as np

def normalizar_por_ativo(df):
    df = df.copy()

    # Normaliza√ß√£o por divis√£o (Close e SMAs)
    preco_base = df["Close"].iloc[0]
    df["Close_Norm"] = df["Close"] / preco_base
    df["SMA5_Norm"] = df["SMA5"] / preco_base
    df["SMA20_Norm"] = df["SMA20"] / preco_base

    # Z-score: Return, Volatility, RSI
    for col in ["Return", "Volatility", "RSI"]:
        media = df[col].mean()
        desvio = df[col].std()
        df[f"{col}_Z"] = (df[col] - media) / desvio

    # Log transforma√ß√£o: Volume
    df["Volume_Log"] = np.log1p(df["Volume"])

    return df

# Aplicar normaliza√ß√£o a todos os ativos
ativos_normalizados = {}

for nome_ativo, df in ativos_rl.items():
    df_norm = normalizar_por_ativo(df)
    ativos_normalizados[nome_ativo] = df_norm

    print(f"\n‚úÖ Normaliza√ß√£o conclu√≠da para {nome_ativo}")
    display(df_norm[["Date", "Close_Norm", "SMA5_Norm", "SMA20_Norm", "Return_Z", "Volatility_Z", "RSI_Z", "Volume_Log"]].dropna().head())



‚úÖ Normaliza√ß√£o conclu√≠da para VALE3


Unnamed: 0,Date,Close_Norm,SMA5_Norm,SMA20_Norm,Return_Z,Volatility_Z,RSI_Z,Volume_Log
19,2020-06-02,1.205053,1.175592,1.123878,-0.036562,0.927622,0.970129,17.058208
20,2020-06-03,1.210467,1.189217,1.134401,0.188921,0.928359,1.138867,17.268171
21,2020-06-04,1.255583,1.214347,1.14524,1.83404,0.9265,1.373771,17.443541
22,2020-06-05,1.231897,1.221611,1.151737,-0.983338,0.961007,0.660794,17.499355
23,2020-06-08,1.235732,1.227746,1.159689,0.119669,0.923586,0.505439,17.128114



‚úÖ Normaliza√ß√£o conclu√≠da para PETR4


Unnamed: 0,Date,Close_Norm,SMA5_Norm,SMA20_Norm,Return_Z,Volatility_Z,RSI_Z,Volume_Log
19,2020-06-02,1.238426,1.177893,1.090654,2.217101,0.444784,1.486539,18.162365
20,2020-06-03,1.242477,1.195718,1.102778,0.078347,0.364266,1.641829,18.272409
21,2020-06-04,1.240162,1.214931,1.114323,-0.144131,0.336891,1.810238,18.492084
22,2020-06-05,1.278935,1.235301,1.124797,1.29128,-0.031482,1.698693,18.552916
23,2020-06-08,1.303819,1.260764,1.137471,0.779667,-0.249703,1.747114,18.227635



‚úÖ Normaliza√ß√£o conclu√≠da para BRFS3


Unnamed: 0,Date,Close_Norm,SMA5_Norm,SMA20_Norm,Return_Z,Volatility_Z,RSI_Z,Volume_Log
19,2020-06-02,1.275259,1.27373,1.190278,-0.466638,-0.56969,0.272085,16.062181
20,2020-06-03,1.237029,1.267176,1.20213,-1.008855,-0.394684,-0.148732,16.533583
21,2020-06-04,1.280721,1.269798,1.215893,1.142287,-0.436542,0.358184,15.95252
22,2020-06-05,1.23976,1.265101,1.226707,-1.074886,-0.164485,0.43929,16.338351
23,2020-06-08,1.269798,1.260513,1.23326,0.776911,-0.109478,0.538565,16.043092


## üß† Etapa 5.3 ‚Äî Montagem do Espa√ßo de Estados

O espa√ßo de estados define quais vari√°veis ser√£o observadas pelo agente em cada timestep.

Para o MVP, o vetor de estado ser√° composto pelas vari√°veis t√©cnicas normalizadas:
- `Close_Norm`
- `SMA5_Norm`
- `SMA20_Norm`
- `Return_Z`
- `Volatility_Z`
- `RSI_Z`
- `Volume_Log`

Esse vetor ser√° calculado para cada ativo, descartando as linhas com valores ausentes (devido aos per√≠odos iniciais dos indicadores).


In [14]:
# Colunas que comp√µem o vetor de estado
colunas_estado = [
    "Date",
    "Close_Norm",
    "SMA5_Norm",
    "SMA20_Norm",
    "Return_Z",
    "Volatility_Z",
    "RSI_Z",
    "Volume_Log"
]

# Constru√ß√£o do dataset final de estados
ativos_estado = {}

for nome_ativo, df in ativos_normalizados.items():
    df_estado = df[colunas_estado].dropna().reset_index(drop=True)
    ativos_estado[nome_ativo] = df_estado

    print(f"\nüß† Vetor de estados final para {nome_ativo}")
    display(df_estado.head())



üß† Vetor de estados final para VALE3


Unnamed: 0,Date,Close_Norm,SMA5_Norm,SMA20_Norm,Return_Z,Volatility_Z,RSI_Z,Volume_Log
0,2020-06-02,1.205053,1.175592,1.123878,-0.036562,0.927622,0.970129,17.058208
1,2020-06-03,1.210467,1.189217,1.134401,0.188921,0.928359,1.138867,17.268171
2,2020-06-04,1.255583,1.214347,1.14524,1.83404,0.9265,1.373771,17.443541
3,2020-06-05,1.231897,1.221611,1.151737,-0.983338,0.961007,0.660794,17.499355
4,2020-06-08,1.235732,1.227746,1.159689,0.119669,0.923586,0.505439,17.128114



üß† Vetor de estados final para PETR4


Unnamed: 0,Date,Close_Norm,SMA5_Norm,SMA20_Norm,Return_Z,Volatility_Z,RSI_Z,Volume_Log
0,2020-06-02,1.238426,1.177893,1.090654,2.217101,0.444784,1.486539,18.162365
1,2020-06-03,1.242477,1.195718,1.102778,0.078347,0.364266,1.641829,18.272409
2,2020-06-04,1.240162,1.214931,1.114323,-0.144131,0.336891,1.810238,18.492084
3,2020-06-05,1.278935,1.235301,1.124797,1.29128,-0.031482,1.698693,18.552916
4,2020-06-08,1.303819,1.260764,1.137471,0.779667,-0.249703,1.747114,18.227635



üß† Vetor de estados final para BRFS3


Unnamed: 0,Date,Close_Norm,SMA5_Norm,SMA20_Norm,Return_Z,Volatility_Z,RSI_Z,Volume_Log
0,2020-06-02,1.275259,1.27373,1.190278,-0.466638,-0.56969,0.272085,16.062181
1,2020-06-03,1.237029,1.267176,1.20213,-1.008855,-0.394684,-0.148732,16.533583
2,2020-06-04,1.280721,1.269798,1.215893,1.142287,-0.436542,0.358184,15.95252
3,2020-06-05,1.23976,1.265101,1.226707,-1.074886,-0.164485,0.43929,16.338351
4,2020-06-08,1.269798,1.260513,1.23326,0.776911,-0.109478,0.538565,16.043092


## üíæ Salvando os Vetores de Estado Final

Os vetores de estado, j√° normalizados e sem valores ausentes, ser√£o salvos em arquivos `.csv` nomeados no padr√£o `<ativo>_estado.csv`.

Esses arquivos estar√£o localizados no diret√≥rio `../dados`, ao lado dos arquivos originais e normalizados.


In [15]:
# Diret√≥rio de sa√≠da (mesmo onde estavam os dados brutos)
diretorio_saida = "../dados"

# Salvar os vetores de estado
for nome_ativo, df_estado in ativos_estado.items():
    nome_arquivo_saida = f"{nome_ativo}_estado.csv"
    caminho_saida = os.path.join(diretorio_saida, nome_arquivo_saida)

    df_estado.to_csv(caminho_saida, index=False)
    print(f"‚úÖ Vetor de estado salvo: {nome_arquivo_saida}")


‚úÖ Vetor de estado salvo: VALE3_estado.csv
‚úÖ Vetor de estado salvo: PETR4_estado.csv
‚úÖ Vetor de estado salvo: BRFS3_estado.csv


## üíº Constru√ß√£o do Vetor de Portf√≥lio

Para simular o estado interno do agente a cada passo de tempo, ser√° criado um vetor de portf√≥lio contendo:

- As posi√ß√µes bin√°rias em cada ativo (`0` = fora do ativo, `1` = comprado);
- O saldo de caixa normalizado (`1.0` representa o total inicial, equivalente a R$ 100.000,00).

Esse vetor ser√° sincronizado com a linha temporal utilizada nos vetores de estado dos ativos e servir√° como base para o ambiente de simula√ß√£o de decis√µes futuras.


In [16]:
import pandas as pd
import os

# Caminho onde os vetores de estado foram salvos
caminho_dados = "../dados"
arquivo_estado_base = "VALE3_estado.csv"  # Usaremos VALE3 como refer√™ncia temporal

# Leitura da linha temporal base
df_base = pd.read_csv(os.path.join(caminho_dados, arquivo_estado_base))
datas = df_base["Date"]

# Constru√ß√£o do vetor de portf√≥lio
df_portfolio = pd.DataFrame({
    "Date": datas,
    "Position_VALE3": 0,
    "Position_PETR4": 0,
    "Position_BRFS3": 0,
    "Cash_Norm": 1.0
})

# Salvamento do vetor
caminho_saida = os.path.join(caminho_dados, "vetor_portfolio.csv")
df_portfolio.to_csv(caminho_saida, index=False)

print(f"‚úÖ Vetor de portf√≥lio salvo com sucesso em: {caminho_saida}")
display(df_portfolio.head())


‚úÖ Vetor de portf√≥lio salvo com sucesso em: ../dados/vetor_portfolio.csv


Unnamed: 0,Date,Position_VALE3,Position_PETR4,Position_BRFS3,Cash_Norm
0,2020-06-02,0,0,0,1.0
1,2020-06-03,0,0,0,1.0
2,2020-06-04,0,0,0,1.0
3,2020-06-05,0,0,0,1.0
4,2020-06-08,0,0,0,1.0


## üß≠ Divis√£o Temporal dos Dados (Treinamento, Valida√ß√£o e Teste)

Devido √† natureza sequencial dos dados financeiros, a divis√£o dos conjuntos n√£o pode ser feita de forma aleat√≥ria.

Ser√° adotada uma separa√ß√£o baseada em propor√ß√µes cronol√≥gicas:
- Treinamento: primeiros 70%
- Valida√ß√£o: 15% seguintes
- Teste: √∫ltimos 15%

Essa divis√£o ser√° aplicada apenas aos **vetores de estado dos ativos**, mantendo o vetor de portf√≥lio inalterado.  
Durante a simula√ß√£o, o portf√≥lio ser√° atualizado passo a passo em tempo real, a partir do seu estado inicial.


In [18]:
import math

# Diret√≥rio onde os arquivos est√£o
caminho_dados = "../dados"

# Arquivos a particionar (vetores de estado dos ativos)
arquivos_estado = [
    "VALE3_estado.csv",
    "PETR4_estado.csv",
    "BRFS3_estado.csv"
]

# Aplicar a divis√£o temporal aos vetores de estado
for nome_arquivo in arquivos_estado:
    caminho_arquivo = os.path.join(caminho_dados, nome_arquivo)
    df = pd.read_csv(caminho_arquivo)

    n_total = len(df)
    n_train = math.floor(n_total * 0.7)
    n_val = math.floor(n_total * 0.15)
    n_test = n_total - n_train - n_val  # garante 100%

    # Slices dos conjuntos
    df_train = df.iloc[:n_train]
    df_val = df.iloc[n_train:n_train+n_val]
    df_test = df.iloc[n_train+n_val:]

    # Salvar conjuntos
    base_nome = nome_arquivo.replace(".csv", "")
    df_train.to_csv(os.path.join(caminho_dados, f"{base_nome}_train.csv"), index=False)
    df_val.to_csv(os.path.join(caminho_dados, f"{base_nome}_val.csv"), index=False)
    df_test.to_csv(os.path.join(caminho_dados, f"{base_nome}_test.csv"), index=False)

    print(f"‚úÖ Divis√£o aplicada a {nome_arquivo}:")
    print(f"   Treinamento: {len(df_train)} linhas")
    print(f"   Valida√ß√£o:  {len(df_val)} linhas")
    print(f"   Teste:       {len(df_test)} linhas")

# NOTA: vetor_portfolio.csv N√ÉO √© particionado, pois ser√° atualizado dinamicamente no ambiente.


‚úÖ Divis√£o aplicada a VALE3_estado.csv:
   Treinamento: 857 linhas
   Valida√ß√£o:  183 linhas
   Teste:       185 linhas
‚úÖ Divis√£o aplicada a PETR4_estado.csv:
   Treinamento: 857 linhas
   Valida√ß√£o:  183 linhas
   Teste:       185 linhas
‚úÖ Divis√£o aplicada a BRFS3_estado.csv:
   Treinamento: 857 linhas
   Valida√ß√£o:  183 linhas
   Teste:       185 linhas
