### **Estat√≠stica: Transforma√ß√£o Logar√≠tmica, Normaliza√ß√£o e Outras Transforma√ß√µes**

#### **1. Bibliotecas**

In [None]:
import yfinance as yf
import vectorbt as vbt
import plotly.graph_objects as go
import plotly.express as px

#### **2.2. Transforma√ß√£o de dados**

##### **2.2.1. Problemas comuns**

* Compara√ß√£o de escalas/distribui√ß√µes diferentes
* Permite trabalhar com dados n√£o normais
* Avaliar rela√ß√µes n√£o-lineares
* S√©ries temporais longas

Este exemplo abaixo de drawdown com valores nominais, nos mostra 'picos' e 'vales' praticamente impercet√≠veis quando temos uma grande linha temporal 

In [None]:
ibov_sp500 = yf.download(['^BVSP','^GSPC'], period='max')['Close']
ibov_sp500['^GSPC'].vbt.drawdowns.plot(width=1000).show()

In [None]:
ibov_sp500 = yf.download(['^BVSP','^GSPC'], period='max')['Close']

üü° Gr√°fico Original:  
Os valores do S&P 500 mostravam uma grande disparidade ao longo do tempo, dificultando a an√°lise de per√≠odos espec√≠ficos.

In [None]:
fig = go.Figure()

# Linha S&P500
fig.add_trace(go.Scatter(x=ibov_sp500.index, y=ibov_sp500['^GSPC'], name='S&P 500', line=dict(color='blue', width=3)))

# Cores ret√¢ngulos verticais 
fig.add_vrect(x0='1973', x1='1985', fillcolor="#000000", opacity=0.3, line_width=0)
fig.add_vrect(x0='2000-06', x1='2003-06', fillcolor="blue", opacity=0.3, line_width=0)
fig.add_vrect(x0='2008', x1='2013', fillcolor="green", opacity=0.3, line_width=0)
fig.add_vrect(x0='2020', x1='2021', fillcolor="red", opacity=0.3, line_width=0)

# Add annotations at the top
y_max = ibov_sp500['^GSPC'].max()
fig.add_trace(go.Scatter(x=['1979-01-01'], y=[5100], mode="text", text="<b>Petr√≥leo<br>e Energia</b>", textposition="top center", showlegend=False))
fig.add_trace(go.Scatter(x=['2002-01-01'], y=[5100], mode="text", text="<b>Bolha da <br>Internet</b>", textposition="top center", showlegend=False))
fig.add_trace(go.Scatter(x=['2010-07-01'], y=[5100], mode="text", text="<b>Crise<br>Subprimes</b>", textposition="top center", showlegend=False))
fig.add_trace(go.Scatter(x=['2020-06-01'], y=[5500], mode="text", text='<b>"Covid"</b>', textposition="top center", showlegend=False))

# Update layout
fig.update_layout(title='', xaxis_title="<b>Data", yaxis_title="<b>Valor nominal (USD)", legend_title="",
                  font=dict(family="Arial, Arial, Arial",size=18,color="black"),paper_bgcolor="#f7f8fa")

fig.update_layout(xaxis_rangeslider_visible=False, margin=dict(l=120, r=20, t=20, b=20), template='simple_white',
                  width=1000, height=500, legend=dict(orientation="h", yanchor="bottom", y=0.9, xanchor="right", x=0.15),
                  xaxis=dict(range=['1950', '2025']))

fig.show()


üü¢ Gr√°fico com Transforma√ß√£o Logar√≠tmica:  
Ap√≥s a aplica√ß√£o da transforma√ß√£o logar√≠tmica, os valores foram ajustados para uma escala linear, facilitando a identifica√ß√£o de tend√™ncias e compara√ß√µes entre diferentes per√≠odos.

In [None]:
fig = go.Figure()

# Adicionando o gr√°fico do S&P 500
fig.add_trace(go.Scatter(x=ibov_sp500.index, y=np.log(ibov_sp500['^GSPC']),
                         name='S&P 500', line=dict(color='blue', width=3)))

# Adicionando ret√¢ngulos verticais
fig.add_vrect(x0='1973', x1='1985', fillcolor="#000000", opacity=0.3, line_width=0)
fig.add_vrect(x0='2000-06', x1='2003-06', fillcolor="blue", opacity=0.3, line_width=0)
fig.add_vrect(x0='2008', x1='2013', fillcolor="green", opacity=0.3, line_width=0)
fig.add_vrect(x0='2020', x1='2021', fillcolor="red", opacity=0.3, line_width=0)

# Ajuste as posi√ß√µes y para alinhar as anota√ß√µes
fig.add_trace(go.Scatter(x=['1979-01-01'], y=[np.log(10)], mode="text", text="<b>Petr√≥leo<br>e Energia</b>", textposition="bottom center", showlegend=False))
fig.add_trace(go.Scatter(x=['2002-01-01'], y=[np.log(10)], mode="text", text="<b>Bolha da <br>Internet</b>", textposition="bottom center", showlegend=False))
fig.add_trace(go.Scatter(x=['2010-07-01'], y=[np.log(10)], mode="text", text="<b>Crise<br>Subprimes</b>", textposition="bottom center", showlegend=False))
fig.add_trace(go.Scatter(x=['2020-06-01'], y=[np.log(10)], mode="text", text='<b>"Covid"</b>', textposition="bottom center", showlegend=False))

# Configurando o layout do gr√°fico
fig.update_layout(title='', xaxis_title="<b>Data", yaxis_title="<b>Valor nominal (USD)", legend_title="",
                  font=dict(family="Arial, Arial, Arial", size=18, color="black"), paper_bgcolor="#f7f8fa")

fig.update_layout(xaxis_rangeslider_visible=False, margin=dict(l=120, r=20, t=20, b=50), template='simple_white',
                  width=1000, height=500, legend=dict(orientation="h", yanchor="bottom", y=0.9, xanchor="right", x=0.15),
                  xaxis=dict(range=['1950', '2025']))

fig.show()


Essa transforma√ß√£o facilita a compara√ß√£o direta, trazendo os valores para uma escala linear.

##### **2.2.2. Transforma√ß√£o logar√≠tmica: "dist√¢ncia relativa x absoluta"**

A transforma√ß√£o logar√≠tmica √© uma t√©cnica fundamental na an√°lise financeira, especialmente quando lidamos com valores que variam em ordens de magnitude diferentes. Uma das principais vantagens do uso de logaritmos √© a capacidade de converter multiplica√ß√µes em somas, o que facilita a an√°lise de "dist√¢ncias relativas" ao inv√©s de "dist√¢ncias absolutas".

###### **Dist√¢ncia Absoluta vs. Dist√¢ncia Relativa:**

- Dist√¢ncia Absoluta refere-se √† diferen√ßa direta entre valores. Por exemplo, a diferen√ßa absoluta entre 1000 e 100 √© 900.  

- Dist√¢ncia Relativa leva em considera√ß√£o o valor proporcional ou percentual da diferen√ßa. Por exemplo, a diferen√ßa relativa entre 1000 e 100 √© um fator de 10 (ou seja, 1000 √© 10 vezes maior que 100).

**Nesta imagem temos:**

![log_nat.png](attachment:log_nat.png)

- Base (a): A base do logaritmo determina a escala da transforma√ß√£o. No caso mais comum em finan√ßas, usamos a base ee (logaritmo natural). 

- Logaritmando (b): Este √© o valor sobre o qual estamos aplicando o logaritmo.  

- Logaritmo (x): O resultado do logaritmo indica a pot√™ncia √† qual a base deve ser elevada para alcan√ßar o logaritmando.

**Aplica√ß√£o Pr√°tica em An√°lise Financeira:**

Diferen√ßa entre dist√¢ncias absolutas e relativas com um exemplo de an√°lise de a√ß√µes:

In [None]:
ibov = ibov_sp500[ibov_sp500.index>='2000']

fig = px.line(ibov, x=ibov.index, y=ibov['^BVSP'], width=1000, height=400)
fig.show()

Este primeiro gr√°fico mostra os pre√ßos absolutos do √≠ndice IBOVESPA. As varia√ß√µes podem ser dif√≠ceis de interpretar, especialmente para grandes valores.

In [None]:
fig = px.line(ibov, x=ibov.index, y=np.log(ibov['^BVSP']), width=1000, height=400)
fig.show()

Este segundo gr√°fico aplica a transforma√ß√£o logar√≠tmica aos pre√ßos do IBOVESPA, convertendo as varia√ß√µes em dist√¢ncias relativas.

Refer√™ncias:

* https://www.educamaisbrasil.com.br/enem/matematica/logaritmo

* https://www.infoescola.com/matematica/logaritmo-natural/

##### **2.2.3. Normaliza√ß√£o**

Neste exemplo, os dados obtidos de S&P 500 e IBOVESPA s√£o divididos por seus valores iniciais, trazendo ambos os √≠ndices para uma base comum e facilitando a an√°lise comparativa.

In [None]:
ibov_sp500_tickers = ['^BVSP', '^GSPC']
ibov_sp500 = yf.download(ibov_sp500_tickers, period='max')['Close']

In [None]:
ibov_sp500_red = ibov_sp500.dropna()
ibov_sp500_red = ibov_sp500_red[ibov_sp500_red.index>='2000']

In [None]:
ibov_sp500_red

Representa√ß√£o do gr√°fico antes da normaliza√ß√£o

In [None]:
fig = go.Figure()

fig.add_trace(go.Scatter(x=ibov_sp500_red.index, y=ibov_sp500_red['^GSPC'],
                         name='S&P 500', line=dict(color='blue', width=3)))

fig.add_trace(go.Scatter(x=ibov_sp500_red.index, y=ibov_sp500_red['^BVSP'],
                         name='IBOV', line=dict(color='#008000', width=3)))

fig.update_layout(xaxis_rangeslider_visible=False, margin=dict(l=120, r=20, t=20, b=20), template = 'simple_white',
                  paper_bgcolor="#f7f8fa", width=800,height=400)
fig.show()

In [None]:
ibov_sp500_normalizado = ibov_sp500_red/ibov_sp500_red.iloc[0]
ibov_sp500_normalizado

Representa√ß√£o do gr√°fico depois da normaliza√ß√£o

In [None]:
fig = go.Figure()

ibov_sp500_normalizado

fig.add_trace(go.Scatter(x=ibov_sp500_normalizado.index, y=ibov_sp500_normalizado['^GSPC'],
                         name='S&P 500', line=dict(color='blue', width=3)))

fig.add_trace(go.Scatter(x=ibov_sp500_normalizado.index, y=ibov_sp500_normalizado['^BVSP'],
                         name='IBOV', line=dict(color='#008000', width=3)))

fig.update_layout(xaxis_rangeslider_visible=False, margin=dict(l=120, r=20, t=20, b=20), template = 'simple_white',
                  paper_bgcolor="#f7f8fa", width=800,height=400)
fig.show()

##### **2.2.4. Transforma√ß√£o "scale" (padroniza√ß√£o)**

Quando trabalhamos com dados financeiros de diferentes ativos, frequentemente encontramos problemas de escala. Ativos diferentes podem ter volumes de negocia√ß√£o que variam em ordens de magnitude, tornando dif√≠cil a compara√ß√£o direta. A padroniza√ß√£o (ou normaliza√ß√£o) transforma os dados para que tenham uma m√©dia de 0 e uma vari√¢ncia de 1. Isso permite compara√ß√µes diretas entre os ativos.

In [None]:
# Baixando os dados pela VectorBT
tickers = ['VALE3.SA', 'PETR4.SA', 'ITUB4.SA']

Major_IBOV_vol = vbt.YFData.download(tickers, start='5 year ago', interval='1d').get('Volume')
Major_IBOV_vol

**Dados Originais:**  
Inicialmente, visualizamos os volumes de negocia√ß√£o dos ativos VALE3, PETR4 e ITUB4 em suas escalas originais. As diferen√ßas nas magnitudes dos volumes s√£o evidentes, tornando a compara√ß√£o direta dif√≠cil.

In [None]:
Major_IBOV_vol.plot()

**Histograma dos Dados Originais:**  
O histograma dos volumes originais mostra distribui√ß√µes distintas para cada ativo, com diferentes amplitudes e frequ√™ncias de valores.

In [None]:
Major_IBOV_vol.vbt.histplot().show()

**Padroniza√ß√£o dos Dados:**  
Aplicamos a t√©cnica de padroniza√ß√£o aos volumes de negocia√ß√£o. A padroniza√ß√£o transforma os dados para que cada ativo tenha uma m√©dia de 0 e uma vari√¢ncia de 1, facilitando a compara√ß√£o entre eles.

In [None]:
Major_IBOV_vol_scale = Major_IBOV_vol.vbt.scale()
Major_IBOV_vol_scale

**Dados Padronizados:**  
Ap√≥s a padroniza√ß√£o, visualizamos os volumes de negocia√ß√£o em uma escala comum. Agora, os dados s√£o mais compar√°veis, permitindo uma an√°lise mais clara das flutua√ß√µes relativas nos volumes de negocia√ß√£o entre os ativos.

In [None]:
Major_IBOV_vol_scale.plot()

**Histograma dos Dados Padronizados:**  
O histograma dos dados padronizados exibe as novas distribui√ß√µes com m√©dias centradas em 0 e vari√¢ncias iguais a 1.  
Isso confirma a efic√°cia da padroniza√ß√£o na equaliza√ß√£o das escalas dos dados.

In [None]:
# Observe a nova distribui√ß√£o dos dados, incluindo a nova varia√ß√£o do eixo X
Major_IBOV_vol_scale.vbt.histplot().show()

##### **4. Transforma√ß√£o MIN-MAX**

A transforma√ß√£o MIN-MAX √© outra t√©cnica de normaliza√ß√£o que redimensiona os dados para um intervalo fixo, tipicamente entre 0 e 1.  
Quando precisamos manter a distribui√ß√£o relativa dos dados enquanto os ajustamos para uma escala comum.

In [None]:
Major_IBOV_vol.vbt.histplot(title='Volume Original dos Ativos').show()

In [None]:
Major_IBOV_vol_minmax = Major_IBOV_vol.vbt.minmax_scale()
Major_IBOV_vol_minmax.vbt.histplot(title='Volume MIN-MAX dos Ativos').show()

##### **5. Binariza√ß√£o**

A binariza√ß√£o √© uma t√©cnica para converter dados cont√≠nuos em uma forma bin√°ria, facilitando a classifica√ß√£o e an√°lise. Ela identifica dias com grandes movimentos de pre√ßo ou simplifica modelos preditivos ao reduzir a complexidade dos dados. Neste exemplo, a binariza√ß√£o dos retornos di√°rios do milho permite uma an√°lise clara dos dias com varia√ß√µes significativas no pre√ßo, destacando os eventos de maior interesse.

In [None]:
milho = yf.download('ZC=F', start='2010-01-01', interval='1d')['Close']

Depois de obtermos os dados de pre√ßos de fechamento do milho, calculamos os retornos percentuais di√°rios. Isso nos d√° uma vis√£o das varia√ß√µes di√°rias nos pre√ßos do milho.

In [None]:
resultado_milho = milho.pct_change() * 100
resultado_milho.dropna(inplace=True)  # Removendo valores NA

Antes da binariza√ß√£o, visualizamos os retornos percentuais di√°rios. Esta s√©rie cont√≠nua mostra as flutua√ß√µes di√°rias em termos percentuais, que podem variar amplamente.

In [None]:
resultado_milho.plot(title='Retornos Percentuais Di√°rios do Milho');

Aplicamos a transforma√ß√£o de binariza√ß√£o usando um threshold de 1%. Isso significa que qualquer retorno di√°rio maior que 1% √© classificado como 1, enquanto retornos iguais ou menores que 1% s√£o classificados como 0.

In [None]:
# Usar a transforma√ß√£o binarizar (0 e 1) para classificar em > 1% ou <= 1%
resul_acima_1porcento = resultado_milho.vbt.binarize(threshold=1)

A aus√™ncia de varia√ß√£o aparente no gr√°fico sugere que a maioria dos retornos di√°rios do milho n√£o excedeu 1%.

In [None]:
resul_acima_1porcento.plot(title='Retornos Di√°rios Binarizados (Acima de 1%)');

Finalmente, exibimos a s√©rie binarizada para verificar os valores transformados. Os valores 1 indicam dias com retornos acima de 1%, enquanto os valores 0 indicam retornos iguais ou menores que 1%.

In [None]:
print(resul_acima_1porcento)