In [70]:
import yfinance as yf
import pandas as pd

### Coleta e prepara√ß√£o dos dados

Nesta etapa s√£o coletados os pre√ßos ajustados dos ativos via Yahoo Finance.<br>
A an√°lise √© conduzida em frequ√™ncia mensal, pois o objetivo do projeto √© o
monitoramento de regimes de longo prazo, e n√£o a rea√ß√£o a ru√≠dos de curto prazo.

Cada ativo ser√° analisado individualmente, sempre em rela√ß√£o ao seu pr√≥prio
hist√≥rico, evitando compara√ß√µes cruzadas entre ativos diferentes.
<br>
Escolhemos 3 ativos aleat√≥riamente para compor a carteira a ser analisada: PETRA4, VALE3 e ITSA4.

In [71]:

tickers = [
    "PETR4.SA",
    "VALE3.SA",
    "ITSA4.SA"
]

precos_mensais = {}

for ticker in tickers:
    dados = yf.download(
        ticker,
        start="2000-01-01",
        progress=False,
        auto_adjust=True
    )

    if dados.empty:
        print(f"Aviso: sem dados para {ticker}")
        continue

    # EXTRAI A SERIES CORRETA DO MULTIINDEX
    close = dados[("Close", ticker)]

    # REMOVE LINHAS BUGADAS (pre√ßo zero)
    close = close[close > 0]

    # GARANTE √çNDICE DATETIME
    close.index = pd.to_datetime(close.index)

    # CONVERTE PARA MENSAL
    close_mensal = close.resample("ME").last()

    # VALIDA
    if close_mensal.size > 1:
        precos_mensais[ticker] = close_mensal
    else:
        print(f"Aviso: s√©rie mensal inv√°lida para {ticker}")

# CONCATENA CORRETAMENTE
df_precos = pd.concat(precos_mensais, axis=1)

print(df_precos.tail())


             PETR4.SA   VALE3.SA   ITSA4.SA
Date                                       
2025-09-30  30.505873  54.715580  10.503035
2025-10-31  28.847736  62.013527  10.667858
2025-11-30  30.825867  64.047066  11.290532
2025-12-31  30.820000  71.959999  11.680000
2026-01-31  37.070000  86.570000  13.920000


Ap√≥s o download dos dados e sua agrupa√ß√£o por m√™s, pois nos interessa olhar o fechamento do m√™s, n√≥s convertemos os valores brusto para percentuais com a fun√ß√£o pct_change().

In [72]:
df_retornos = df_precos.pct_change()

print(df_retornos.tail())


            PETR4.SA  VALE3.SA  ITSA4.SA
Date                                    
2025-09-30  0.011575  0.036357  0.024430
2025-10-31 -0.054355  0.133380  0.015693
2025-11-30  0.068571  0.032792  0.058369
2025-12-31 -0.000190  0.123549  0.034495
2026-01-31  0.202790  0.203029  0.191781


### Z-score absoluto

O z-score absoluto mede o qu√£o anormal foi o retorno mensal em rela√ß√£o ao pr√≥prio
hist√≥rico recente do ativo. Para isso, utiliza-se uma janela m√≥vel de 24 meses,
que representa aproximadamente dois anos de comportamento recente.

Essa m√©trica n√£o mede retorno, mas sim desvio em rela√ß√£o ao padr√£o hist√≥rico,
permitindo identificar meses estatisticamente fracos ou fortes.


In [73]:
# M√©dia m√≥vel de 24 meses
media_24m = df_retornos.rolling(window=24, min_periods=24).mean()

# Desvio padr√£o m√≥vel de 24 meses (amostral)
std_24m = df_retornos.rolling(window=24, min_periods=24).std()

# Z-score mensal
zscore = (df_retornos - media_24m) / std_24m



Agora iniciamos o download dos dados da ibovespa e o mesmo processo se repete, at√© a cria√ß√£o do Zscore relativo.

In [74]:
# Download do Ibovespa
ibov = yf.download(
    "^BVSP",
    start="2000-01-01",
    progress=False,
    auto_adjust=True
)

# S√©rie de fechamento ajustado
ibov_close = ibov["Close"]
ibov_close.index = pd.to_datetime(ibov_close.index)

# üî¥ USAR O MESMO RESAMPLE QUE OS ATIVOS
ibov_mensal = ibov_close.resample("ME").last()

# Retorno mensal do Ibovespa
ibov_retornos = ibov_mensal.pct_change()


In [75]:
ibov_retornos = ibov_retornos.squeeze()

In [76]:
# Alinhar √≠ndices explicitamente
ibov_retornos = ibov_retornos.loc[df_retornos.index]


### Z-score relativo ao Ibovespa

Al√©m da an√°lise absoluta, √© calculado um z-score relativo ao Ibovespa.
Essa m√©trica permite distinguir se um desempenho fraco do ativo √© resultado de
uma deteriora√ß√£o pr√≥pria ou apenas reflexo de um movimento geral do mercado.
<br><br>
O foco n√£o √© medir correla√ß√£o, mas identificar desvios anormais do
comportamento relativo do ativo ao longo do tempo.


In [77]:
# Retorno relativo
retorno_relativo = df_retornos.sub(ibov_retornos, axis=0)

# Rolling 24 meses
media_rel_24m = retorno_relativo.rolling(24, min_periods=24).mean()
std_rel_24m   = retorno_relativo.rolling(24, min_periods=24).std()

# Z-score relativo
zscore_rel = (retorno_relativo - media_rel_24m) / std_rel_24m


### Defini√ß√£o do regime de baixo desempenho

O regime de baixo desempenho √© definido de forma estat√≠stica e antecede o uso de
Machine Learning. Um ativo entra em regime fraco apenas quando apresenta dois
meses consecutivos de retorno abaixo da sua m√©dia hist√≥rica recente.
<br><br>

Essa defini√ß√£o evita reagir a quedas pontuais e garante que o modelo aprenda
padr√µes associados √† persist√™ncia da deteriora√ß√£o, e n√£o a ru√≠do.



In [79]:
# Sinal fraco mensal: 1 se z-score < 0, sen√£o 0
sinal_fraco = (zscore < 0).astype(int)


In [80]:
sinal_fraco.tail()


Unnamed: 0_level_0,PETR4.SA,VALE3.SA,ITSA4.SA
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2025-09-30,0,0,0
2025-10-31,1,0,1
2025-11-30,0,0,0
2025-12-31,1,0,0
2026-01-31,0,0,0


In [81]:
# Label final: persist√™ncia de 2 meses
label = ((sinal_fraco == 1) & (sinal_fraco.shift(1) == 1)).astype(int)


In [82]:
label.tail()


Unnamed: 0_level_0,PETR4.SA,VALE3.SA,ITSA4.SA
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2025-09-30,0,0,0
2025-10-31,0,0,0
2025-11-30,0,0,0
2025-12-31,0,0,0
2026-01-31,0,0,0


### Constru√ß√£o das vari√°veis explicativas

As vari√°veis explicativas foram escolhidas para capturar diferentes dimens√µes do
comportamento recente do ativo: n√≠vel, tend√™ncia, volatilidade e anomalia.<br><br>

S√£o utilizados m√∫ltiplos horizontes temporais e defasagens para evitar qualquer
uso de informa√ß√£o futura, preservando a coer√™ncia temporal do modelo.<br><br>


In [83]:
# Converte retornos para formato longo
df_long = (
    df_retornos
    .stack()
    .reset_index()
    .rename(columns={
        "Date": "data",
        "level_1": "ativo",
        0: "retorno"
    })
)


In [85]:
# Ordenar corretamente
df_long = df_long.sort_values(["ativo", "data"])

# Retorno acumulado 3 e 6 meses
df_long["ret_3m"] = (
    df_long
    .groupby("ativo")["retorno"]
    .rolling(3)
    .apply(lambda x: (1 + x).prod() - 1, raw=False)
    .reset_index(level=0, drop=True)
)

df_long["ret_6m"] = (
    df_long
    .groupby("ativo")["retorno"]
    .rolling(6)
    .apply(lambda x: (1 + x).prod() - 1, raw=False)
    .reset_index(level=0, drop=True)
)

# Volatilidade 6 meses
df_long["vol_6m"] = (
    df_long
    .groupby("ativo")["retorno"]
    .rolling(6)
    .std()
    .reset_index(level=0, drop=True)
)


Z-scores defasados (evitar vazamento)

In [86]:
# Z-score absoluto defasado
zscore_long = zscore.stack().reset_index(name="zscore")
zscore_long["zscore_lag1"] = zscore_long.groupby("level_1")["zscore"].shift(1)

# Z-score relativo defasado
zscore_rel_long = zscore_rel.stack().reset_index(name="zscore_rel")
zscore_rel_long["zscore_rel_lag1"] = zscore_rel_long.groupby("level_1")["zscore_rel"].shift(1)


Merge das features

In [87]:
# Merge z-score absoluto
df_long = df_long.merge(
    zscore_long[["Date", "level_1", "zscore_lag1"]],
    left_on=["data", "ativo"],
    right_on=["Date", "level_1"],
    how="left"
).drop(columns=["Date", "level_1"])

# Merge z-score relativo
df_long = df_long.merge(
    zscore_rel_long[["Date", "level_1", "zscore_rel_lag1"]],
    left_on=["data", "ativo"],
    right_on=["Date", "level_1"],
    how="left"
).drop(columns=["Date", "level_1"])


In [88]:
df_long.head(10)

Unnamed: 0,data,ativo,retorno,ret_3m,ret_6m,vol_6m,zscore_lag1,zscore_rel_lag1
0,2000-02-29,ITSA4.SA,-0.047058,,,,,
1,2000-03-31,ITSA4.SA,0.049382,,,,,
2,2000-04-30,ITSA4.SA,-0.088234,-0.088234,,,,
3,2000-05-31,ITSA4.SA,-0.038711,-0.080248,,,,
4,2000-06-30,ITSA4.SA,0.161074,0.017647,,,,
5,2000-07-31,ITSA4.SA,0.034683,0.154838,0.052941,0.089712,,
6,2000-08-31,ITSA4.SA,0.078212,0.295302,0.191357,0.087816,,
7,2000-09-30,ITSA4.SA,-0.031087,0.080926,0.100001,0.090857,,
8,2000-10-31,ITSA4.SA,-0.139038,-0.100559,0.038708,0.104263,,
9,2000-11-30,ITSA4.SA,-0.006212,-0.170985,0.073825,0.101993,,


In [89]:
# Remover linhas com NaN (in√≠cio das janelas)
df_modelo = df_long.dropna().reset_index(drop=True)


At√© aqui o modelo est√° quase pronto faltando apenas a vari√°vel alvo.
Adicionando a vair√°vel alvo.


In [90]:
label_long = (
    label
    .stack()
    .reset_index()
    .rename(columns={
        "Date": "data",
        "level_1": "ativo",
        0: "label"
    })
)

df_modelo = df_modelo.merge(
    label_long,
    on=["data", "ativo"],
    how="inner"
)


In [91]:
df_modelo.head()

Unnamed: 0,data,ativo,retorno,ret_3m,ret_6m,vol_6m,zscore_lag1,zscore_rel_lag1,label
0,2002-02-28,ITSA4.SA,0.126169,0.131456,0.242268,0.079453,-0.315612,0.518958,0
1,2002-03-31,ITSA4.SA,-0.012448,0.096774,0.329609,0.063134,1.217152,-0.05228,0
2,2002-04-30,ITSA4.SA,-0.02521,0.084112,0.221053,0.069623,-0.345781,0.3551,1
3,2002-05-31,ITSA4.SA,-0.099137,-0.13278,-0.018779,0.073588,-0.537464,-0.72915,1
4,2002-06-30,ITSA4.SA,-0.086125,-0.197479,-0.119815,0.080135,-1.33867,-1.907286,1


In [92]:
# df_modelo = df_modelo.rename(columns={"label_x": "label"})


In [93]:
df_modelo.head()

Unnamed: 0,data,ativo,retorno,ret_3m,ret_6m,vol_6m,zscore_lag1,zscore_rel_lag1,label
0,2002-02-28,ITSA4.SA,0.126169,0.131456,0.242268,0.079453,-0.315612,0.518958,0
1,2002-03-31,ITSA4.SA,-0.012448,0.096774,0.329609,0.063134,1.217152,-0.05228,0
2,2002-04-30,ITSA4.SA,-0.02521,0.084112,0.221053,0.069623,-0.345781,0.3551,1
3,2002-05-31,ITSA4.SA,-0.099137,-0.13278,-0.018779,0.073588,-0.537464,-0.72915,1
4,2002-06-30,ITSA4.SA,-0.086125,-0.197479,-0.119815,0.080135,-1.33867,-1.907286,1


Treinamento do modole

In [94]:
features = [
    "retorno",
    "ret_3m",
    "ret_6m",
    "vol_6m",
    "zscore_lag1",
    "zscore_rel_lag1"
]

df_modelo = df_modelo.sort_values("data")

X = df_modelo[features]
y = df_modelo["label"]


### Separa√ß√£o temporal dos dados

A separa√ß√£o entre dados de treino e teste √© feita de forma temporal, respeitando
a ordem cronol√≥gica das observa√ß√µes. N√£o √© utilizado embaralhamento dos dados,
pois isso introduziria vazamento de informa√ß√£o.

Essa abordagem reflete o uso real do sistema, que sempre opera com dados passados
para avaliar estados futuros.


In [95]:
split_date = df_modelo["data"].quantile(0.8)

X_train = X[df_modelo["data"] <= split_date]
X_test  = X[df_modelo["data"] > split_date]

y_train = y[df_modelo["data"] <= split_date]
y_test  = y[df_modelo["data"] > split_date]


### Padronizando os dados
A pradroniza√ß√£o faz com que o modelo consiga trabalhar de forma mais adequada com os dados.

In [96]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled  = scaler.transform(X_test)


### Escolha do modelo de Machine Learning

A Regress√£o Log√≠stica foi escolhida por sua interpretabilidade, estabilidade e
adequa√ß√£o ao uso como escore probabil√≠stico. O objetivo do modelo n√£o √© maximizar
performance preditiva, mas fornecer um sinal auxiliar de fragilidade estat√≠stica.

Modelos mais complexos poderiam aumentar a vari√¢ncia sem trazer ganhos reais
para um sistema de monitoramento defensivo.

In [97]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression(
    max_iter=1000,
    class_weight="balanced",
    random_state=42
)

model.fit(X_train_scaled, y_train)


In [98]:
# Probabilidade de regime (escore mensal)
df_modelo.loc[X_test.index, "score_ml"] = model.predict_proba(X_test_scaled)[:, 1]


### Avalia√ß√£o do modelo

A avalia√ß√£o do modelo n√£o √© conduzida com foco em m√©tricas tradicionais como
acur√°cia ou F1-score. O evento de interesse √© raro e o score √© utilizado como
indicador gradual de risco, n√£o como classificador bin√°rio r√≠gido.
<br><br>
A coer√™ncia econ√¥mica, estabilidade do score e sua utilidade pr√°tica ao longo
do tempo s√£o os principais crit√©rios de avalia√ß√£o.


In [99]:
from sklearn.metrics import classification_report, roc_auc_score

y_pred = model.predict(X_test_scaled)

print(classification_report(y_test, y_pred))
print("ROC-AUC:", roc_auc_score(y_test, model.predict_proba(X_test_scaled)[:, 1]))


              precision    recall  f1-score   support

           0       0.98      0.85      0.91       130
           1       0.67      0.95      0.79        41

    accuracy                           0.88       171
   macro avg       0.83      0.90      0.85       171
weighted avg       0.91      0.88      0.88       171

ROC-AUC: 0.95046904315197


In [100]:
import pandas as pd

coeficientes = pd.Series(
    model.coef_[0],
    index=features
).sort_values()

coeficientes


retorno           -3.040787
zscore_lag1       -2.699211
vol_6m            -0.657354
zscore_rel_lag1   -0.234258
ret_3m            -0.104673
ret_6m             0.540140
dtype: float64

### Sobre a c√©lula comentada abaixo:
Ao rodar o notebook voc√™ deve habilitar a c√©lula, ap√≥s isso, volte a coment√°-la, para n√£o correr o risco de sobrescrever o modelo.
<br><br>
IMPORTANTE:
O modelo s√≥ deve ser salvo novamente caso haja altera√ß√£o
na defini√ß√£o do label, features ou estrutura do modelo.


In [101]:
# Fun√ß√£o para salvar o modelo.

# import joblib
# import os

# # Garantir pasta
# os.makedirs("modelos", exist_ok=True)

# # Salvar scaler e modelo
# joblib.dump(scaler, "modelos/scaler.pkl")
# joblib.dump(model, "modelos/modelo_logistico.pkl")

# print("Modelo e scaler salvos com sucesso.")


### Conclus√£o e uso pr√°tico

Este notebook documenta o processo de constru√ß√£o do sistema de monitoramento de
deteriora√ß√£o de ativos, desde a defini√ß√£o do problema at√© a gera√ß√£o de um escore
auxiliar via Machine Learning.

O resultado final do trabalho √© operacionalizado em um script Python que permite
uso mensal recorrente, com gera√ß√£o de relat√≥rios em Excel e hist√≥rico acumulado.
O sistema deve ser utilizado como apoio √† decis√£o, respeitando suas limita√ß√µes
e o contexto de investimento de longo prazo.
