# üìä An√°lise Explorat√≥ria de Dados - Criptomoedas BTC/ETH

## üéØ Objetivo
Este notebook realiza uma an√°lise explorat√≥ria completa dos dados de criptomoedas Bitcoin (BTC) e Ethereum (ETH).

## üìã Conte√∫do
1. **Setup e Importa√ß√£o** - Bibliotecas necess√°rias
2. **Carregamento de Dados** - Dataset de criptomoedas
3. **Explora√ß√£o Inicial** - Estrutura e limpeza dos dados
4. **An√°lises Temporais** - Evolu√ß√£o de pre√ßos e volumes
5. **M√©tricas Financeiras** - Retornos, volatilidade, drawdowns
6. **Visualiza√ß√µes Interativas** - Gr√°ficos com Plotly
7. **Compara√ß√£o BTC vs ETH** - An√°lises comparativas
8. **Conclus√µes** - Insights principais

---
**Data:** 20 de setembro de 2025  
**Autor:** Caio Vasconcelos  
**Fonte dos dados:** Dataset Kaggle - Historical Cryptocurrency Data

In [None]:
# üìö Importa√ß√£o de Bibliotecas
# ======================================

# Manipula√ß√£o de dados
import pandas as pd
import numpy as np

# Visualiza√ß√£o
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# An√°lises estat√≠sticas e cient√≠ficas
from scipy import stats
from scipy.signal import find_peaks
# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

# Configura√ß√µes pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', '{:.4f}'.format)

print("‚úÖ Todas as bibliotecas foram importadas com sucesso!")
print(f"üìä Pandas version: {pd.__version__}")
print(f"üìà Plotly version: {px.__version__}")

## üìÇ Carregamento e Prepara√ß√£o dos Dados

Carregaremos o dataset de criptomoedas e realizaremos a limpeza inicial dos dados, seguindo a mesma l√≥gica do dashboard Streamlit.

In [None]:
# üîç Carregamento do Dataset
# ================================

# Caminho para o arquivo de dados
DATA_PATH = "../data/cryptocurrency.csv"

# Carregar dados
try:
    df = pd.read_csv(DATA_PATH)
    print("‚úÖ Dataset carregado com sucesso!")
    print(f"üìä Dimens√µes: {df.shape[0]} linhas √ó {df.shape[1]} colunas")
    print(f"üìÖ Per√≠odo: {df['Date'].min()} at√© {df['Date'].max()}")
except FileNotFoundError:
    print("‚ùå Arquivo n√£o encontrado. Verifique o caminho:", DATA_PATH)
    raise

# Visualizar primeiras linhas
print("\nüîé Primeiras 5 linhas do dataset:")
df.head()

## üîç Explora√ß√£o e Limpeza dos Dados

Vamos verificar a qualidade dos dados, identificar valores ausentes, duplicatas e preparar os dados para an√°lise.

In [None]:
# üìä Qualidade dos Dados
# ========================

print("üîç AN√ÅLISE DE QUALIDADE DOS DADOS")
print("=" * 40)

# 1. Valores ausentes
print("\n1Ô∏è‚É£ Valores Ausentes:")
missing_data = df.isnull().sum()
missing_percent = (missing_data / len(df)) * 100
missing_summary = pd.DataFrame({
    'Ausentes': missing_data,
    'Percentual (%)': missing_percent.round(2)
})
print(missing_summary[missing_summary['Ausentes'] > 0])

# 2. Duplicatas
duplicates = df.duplicated().sum()
print(f"\n2Ô∏è‚É£ Duplicatas encontradas: {duplicates}")

# 3. Tipos de dados
print("\n3Ô∏è‚É£ Tipos de Dados:")
print(df.dtypes)

# 4. Estat√≠sticas b√°sicas
print("\n4Ô∏è‚É£ Estat√≠sticas Descritivas:")
print(df.describe())

# 5. Moedas dispon√≠veis
print("\n5Ô∏è‚É£ Moedas Dispon√≠veis:")
print(df['Symbol'].value_counts())

print("\n‚úÖ An√°lise de qualidade conclu√≠da!")

## üìÖ Prepara√ß√£o Temporal dos Dados

Converteremos as datas e criaremos colunas temporais para facilitar as an√°lises de s√©ries temporais.

In [None]:
# üïí Prepara√ß√£o Temporal
# =======================

# Converter coluna Date para datetime
df['Date'] = pd.to_datetime(df['Date'], errors='coerce')

# Verificar se h√° datas inv√°lidas
invalid_dates = df['Date'].isnull().sum()
if invalid_dates > 0:
    print(f"‚ö†Ô∏è Encontradas {invalid_dates} datas inv√°lidas. Removendo...")
    df = df.dropna(subset=['Date'])

# Criar colunas temporais
df['Year'] = df['Date'].dt.year
df['Month'] = df['Date'].dt.month
df['Day'] = df['Date'].dt.day
df['Weekday'] = df['Date'].dt.day_name()
df['Quarter'] = df['Date'].dt.quarter

# Ordenar por data
df = df.sort_values(['Symbol', 'Date']).reset_index(drop=True)

print("‚úÖ Prepara√ß√£o temporal conclu√≠da!")
print(f"üìÖ Per√≠odo analisado: {df['Date'].min()} at√© {df['Date'].max()}")
print(f"üìä Total de registros ap√≥s limpeza: {len(df)}")

# Visualizar estrutura temporal
print("\nüìà Distribui√ß√£o por ano:")
print(df.groupby('Year').size())

## üìä An√°lise das Moedas Dispon√≠veis

Vamos analisar os per√≠odos dispon√≠veis para cada criptomoeda e determinar o per√≠odo comum para compara√ß√µes justas.

In [None]:
# üí∞ An√°lise das Moedas
# =====================

# Per√≠odos por moeda
periodos = df.groupby('Symbol')['Date'].agg(['min', 'max', 'count'])
periodos.columns = ['Data Inicial', 'Data Final', 'Total Dias']
print("üìÖ Per√≠odos dispon√≠veis por moeda:")
print(periodos)

# Encontrar per√≠odo comum (interse√ß√£o)
start_date = df.groupby("Symbol")["Date"].min().max()  # Maior data inicial
end_date = df.groupby("Symbol")["Date"].max().min()    # Menor data final

print(f"\nüéØ Per√≠odo comum identificado:")
print(f"üìÖ De: {start_date.date()}")
print(f"üìÖ At√©: {end_date.date()}")

# Filtrar dados para per√≠odo comum
df_common = df[(df["Date"] >= start_date) & (df["Date"] <= end_date)].copy()
print(f"\nüìä Registros no per√≠odo comum: {len(df_common)}")

# Estat√≠sticas por moeda no per√≠odo comum
stats_por_moeda = df_common.groupby('Symbol').agg({
    'Close': ['mean', 'std', 'min', 'max'],
    'Volume': ['mean', 'sum'],
    'Marketcap': ['mean', 'max']
}).round(2)

print("\nüìà Estat√≠sticas por moeda (per√≠odo comum):")
print(stats_por_moeda)

## üéØ Defini√ß√£o do Per√≠odo de An√°lise

Seguindo a mesma l√≥gica do dashboard, definiremos o per√≠odo comum entre BTC e ETH para uma compara√ß√£o justa.

In [None]:
# üéØ Per√≠odo de An√°lise Comum
# ============================

# Filtrar apenas BTC e ETH
crypto_focus = ['BTC', 'ETH']
df_focus = df[df['Symbol'].isin(crypto_focus)].copy()

# Recalcular per√≠odo comum apenas para BTC/ETH
start_common = df_focus.groupby("Symbol")["Date"].min().max()
end_common = df_focus.groupby("Symbol")["Date"].max().min()

# Filtrar dataset para per√≠odo comum
df_2015 = df_focus[(df_focus["Date"] >= start_common) & (df_focus["Date"] <= end_common)].copy()

print("üéØ AN√ÅLISE FOCADA EM BTC E ETH")
print("=" * 35)
print(f"üìÖ Per√≠odo comum: {start_common.date()} at√© {end_common.date()}")
print(f"üìä Dias totais: {(end_common - start_common).days}")

# Estat√≠sticas do per√≠odo
stats_periodo = {
    'BTC': len(df_2015[df_2015['Symbol'] == 'BTC']),
    'ETH': len(df_2015[df_2015['Symbol'] == 'ETH']),
    'Total': len(df_2015)
}

print(f"\nüìà Estat√≠sticas do per√≠odo:")
for moeda, count in stats_periodo.items():
    print(f"   {moeda}: {count} registros")

# Reset index
df_2015 = df_2015.reset_index(drop=True)
df_2015["SNo"] = df_2015.index + 1

print("\n‚úÖ Dataset preparado para an√°lise comparativa BTC vs ETH!")

### An√°lises Iniciais encontradas no dataset:

##### √â poss√≠vel logo inicialmente criar a coluna ['Return'] onde se d√° pelo calculo da varia√ß√£o percentual do pre√ßo de fechamento de um dia para o outro, ou seja, cada linha de df['Return'] mostra quanto (%) o pre√ßo de fechamento mudou em rela√ß√£o ao dia anterior.

In [None]:
# Retorno Di√°rio
df['Return'] = df['Close'].pct_change() * 100

In [None]:
df

##### O primeiro index vai estar NaN pois n√£o √© poss√≠vel calcular a partir do primeiro dia, somente a partir da varia√ß√£o da coluna ['Close']

In [None]:
df

### Removendo NaN da Coluna 'Return'

In [None]:
df = df.dropna(subset=['Return']).reset_index(drop=True)

In [None]:
df.head(3)

### Evolu√ß√£o temporal do pre√ßo (gr√°fico de linha com Close).

In [None]:
# Selecionar apenas dados do Bitcoin
btc = df[df['Symbol'] == 'BTC'].copy()

fig, ax = plt.subplots(figsize=(12, 5))
ax.plot(btc['Date'], btc['Close'], label='Fechamento', color='blue')
ax.set_xlabel('Data')
ax.set_ylabel('Pre√ßo (USD)')
ax.set_title('Evolu√ß√£o do Pre√ßo de Fechamento - Bitcoin')
ax.legend()
plt.show()

### Ciclos sazonais (ex: meses com maior valoriza√ß√£o ou maior volume).

In [None]:
# Ciclos sazonais apenas para Bitcoin - CORRIGIDO (apenas anos completos)
btc_completo = btc[btc['Year'] <= 2020].copy()
btc_monthly = btc_completo.groupby('Month').agg({'Return': 'mean', 'Volume': 'mean'}).reset_index()

fig, ax1 = plt.subplots(figsize=(10, 5))
color = 'tab:blue'
ax1.bar(btc_monthly['Month'], btc_monthly['Return'], color=color, alpha=0.6)
ax1.set_xlabel('M√™s')
ax1.set_ylabel('Retorno M√©dio (%)', color=color)
ax1.set_title('Ciclos Sazonais - Bitcoin (2013-2020)')
ax1.set_xticks(range(1, 13))

ax2 = ax1.twinx()
color = 'tab:orange'
ax2.plot(btc_monthly['Month'], btc_monthly['Volume'], color=color, marker='o')
ax2.set_ylabel('Volume M√©dio', color=color)

# Adicionar nota sobre a corre√ß√£o
plt.figtext(0.5, 0.02, 'Nota: An√°lise usando apenas anos completos (2013-2020)', 
           ha='center', fontsize=8, style='italic')
plt.show()

#### *Janeiro: Pode ser um m√™s de maior atividade (talvez "efeito ano novo" nos investimentos)*
#### *Novembro: Pode ser um m√™s de maior valoriza√ß√£o (talvez relacionado ao final do ano fiscal ou expectativas de fim de ano)*

### Per√≠odos de alta/baixa do mercado.

In [None]:
# Selecionar apenas dados do Bitcoin
btc = df[df['Symbol'] == 'BTC'].copy()

# CORRE√á√ÉO: Usar apenas anos completos (2013-2020) para an√°lises justas
print("=== CORRE√á√ÉO DE DADOS ===")
print(f"Dataset original: {btc['Date'].min()} a {btc['Date'].max()}")
print(f"2021 tem apenas {len(btc[btc['Year'] == 2021])} dias (incompleto)")

# Criar dataset com anos completos para an√°lises
btc_completo = btc[btc['Year'] <= 2020].copy()
print(f"Dataset corrigido: {btc_completo['Date'].min()} a {btc_completo['Date'].max()}")
print(f"Usando {len(btc_completo)} registros de anos completos")

# Calcular m√©dia m√≥vel de 200 dias para identificar tend√™ncias
btc['MA200'] = btc['Close'].rolling(200).mean()

# Criar coluna para identificar se est√° acima ou abaixo da m√©dia m√≥vel
btc['Trend'] = btc['Close'] > btc['MA200']

# Plotar pre√ßo com m√©dia m√≥vel
fig, ax = plt.subplots(figsize=(14, 6))
ax.plot(btc['Date'], btc['Close'], label='Pre√ßo de Fechamento', alpha=0.7)
ax.plot(btc['Date'], btc['MA200'], label='M√©dia M√≥vel 200 dias', color='red')
ax.fill_between(btc['Date'], btc['Close'].min(), btc['Close'].max(), 
                where=btc['Trend'], alpha=0.3, color='green', label='Per√≠odo de Alta')
ax.set_xlabel('Data')
ax.set_ylabel('Pre√ßo (USD)')
ax.set_title('Per√≠odos de Alta/Baixa do Mercado - Bitcoin')
ax.legend()
plt.show()

# Calcular drawdown (queda do pico)
btc['Peak'] = btc['Close'].cummax()
btc['Drawdown'] = (btc['Close'] - btc['Peak']) / btc['Peak'] * 100

fig, ax = plt.subplots(figsize=(14, 6))
ax.fill_between(btc['Date'], btc['Drawdown'], 0, alpha=0.3, color='red')
ax.plot(btc['Date'], btc['Drawdown'], color='red')
ax.set_xlabel('Data')
ax.set_ylabel('Drawdown (%)')
ax.set_title('Drawdowns do Bitcoin (Per√≠odos de Queda)')
plt.show()

### Picos Hist√≥ricos Reais

In [None]:
# Identificar onde est√£o os picos hist√≥ricos
picos_historicos = btc[btc['Close'] == btc['Peak']]

fig, ax = plt.subplots(figsize=(14, 6))
ax.plot(btc['Date'], btc['Close'], label='Pre√ßo de Fechamento', alpha=0.7)
ax.plot(btc['Date'], btc['MA200'], label='M√©dia M√≥vel 200 dias', color='red')

# Marcar os picos hist√≥ricos
ax.scatter(picos_historicos['Date'], picos_historicos['Close'], 
           color='orange', s=50, label='Picos Hist√≥ricos', zorder=5)

ax.set_xlabel('Data')
ax.set_ylabel('Pre√ßo (USD)')
ax.set_title('Pre√ßo do Bitcoin com Picos Hist√≥ricos Marcados')
ax.legend()
plt.show()

### Compara√ß√£o por ano (2013‚Äì2021): qual ano teve maior crescimento?

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))
btc_annual['annual_return_%'].plot(kind='bar', ax=ax, color='skyblue')
ax.set_xlabel('Ano')
ax.set_ylabel('Retorno Anual (%)')
ax.set_title('Retorno Anual do Bitcoin (2013‚Äì2021)')
ax.set_xticklabels(btc_annual.index, rotation=0)
plt.tight_layout()
plt.show()

### Volatilidade di√°ria: diferen√ßa entre High - Low.

In [None]:
# Primeiro, criar a coluna de volatilidade di√°ria
btc['DailyVolatility'] = btc['High'] - btc['Low']

# CORRE√á√ÉO: Usar apenas anos completos para an√°lise de volatilidade
btc_completo = btc[btc['Year'] <= 2020].copy()

# An√°lise de volatilidade por ano e m√™s - CORRIGIDO
btc_completo['Year_Month'] = btc_completo['Date'].dt.to_period('M')
btc_volatility_yearly_monthly = btc_completo.groupby(['Year', 'Month'])['DailyVolatility'].mean().reset_index()

# Top 10 per√≠odos mais vol√°teis
top_volatile = btc_volatility_yearly_monthly.sort_values('DailyVolatility', ascending=False).head(10)

print("Top 10 per√≠odos mais vol√°teis (Ano-M√™s) - Anos Completos:")
for idx, row in top_volatile.iterrows():
    print(f"{int(row['Year'])}-{int(row['Month']):02d}: ${row['DailyVolatility']:.2f}")

# Heatmap de volatilidade por ano e m√™s - CORRIGIDO
pivot_volatility = btc_completo.pivot_table(values='DailyVolatility', index='Year', columns='Month', aggfunc='mean')

fig, ax = plt.subplots(figsize=(12, 8))
sns.heatmap(pivot_volatility, annot=True, fmt='.0f', cmap='Reds', ax=ax)
ax.set_title('Heatmap de Volatilidade por Ano e M√™s - Bitcoin (2013-2020)')
ax.set_xlabel('M√™s')
ax.set_ylabel('Ano')
plt.figtext(0.5, 0.02, 'Nota: 2021 exclu√≠do por ter dados incompletos', 
           ha='center', fontsize=8, style='italic')
plt.show()

## Outliers Encontrados

In [None]:
# CORRE√á√ÉO: Usar apenas anos completos para an√°lise de outliers
btc_completo = btc[btc['Year'] <= 2020].copy()

# Verificar outliers na volatilidade di√°ria
Q1 = btc_completo['DailyVolatility'].quantile(0.25)
Q3 = btc_completo['DailyVolatility'].quantile(0.75)
IQR = Q3 - Q1
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Identificar outliers
outliers = btc_completo[(btc_completo['DailyVolatility'] < limite_inferior) | (btc_completo['DailyVolatility'] > limite_superior)]

print(f"Total de outliers (2013-2020): {len(outliers)}")
print(f"Limite superior para outliers: ${limite_superior:.2f}")
print(f"Maior volatilidade registrada: ${btc_completo['DailyVolatility'].max():.2f}")

# 1. Boxplot para visualizar outliers
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Boxplot
ax1.boxplot(btc_completo['DailyVolatility'], vert=True)
ax1.set_ylabel('Volatilidade Di√°ria (USD)')
ax1.set_title('Boxplot - Outliers na Volatilidade Di√°ria (2013-2020)')

# 2. Scatter plot temporal dos outliers
ax2.scatter(btc_completo['Date'], btc_completo['DailyVolatility'], alpha=0.5, s=10, label='Normal')
ax2.scatter(outliers['Date'], outliers['DailyVolatility'], 
           color='red', s=30, label='Outliers', alpha=0.8)
ax2.axhline(y=limite_superior, color='red', linestyle='--', alpha=0.7, label='Limite Superior')
ax2.set_xlabel('Data')
ax2.set_ylabel('Volatilidade Di√°ria (USD)')
ax2.set_title('Outliers ao Longo do Tempo (2013-2020)')
ax2.legend()

plt.tight_layout()
plt.show()

# 3. Top 10 dias mais vol√°teis (outliers extremos)
top_outliers = outliers.nlargest(10, 'DailyVolatility')[['Date', 'DailyVolatility', 'High', 'Low', 'Close']]
print("\nTop 10 outliers mais extremos (2013-2020):")
print(top_outliers)

### Tend√™ncia: Close - Open ‚Üí positivo (valorizou), negativo (desvalorizou).

In [None]:
# Primeiro, criar a coluna DailyTrend
btc['DailyTrend'] = np.where(btc['Close'] > btc['Open'], 1, 
                            np.where(btc['Close'] < btc['Open'], -1, 0))

# CORRE√á√ÉO: Usar apenas anos completos
btc_completo = btc[btc['Year'] <= 2020].copy()

# Contagem mensal de dias de alta, baixa e est√°veis
trend_counts = btc_completo.groupby(['Year', 'Month'])['DailyTrend'].value_counts().unstack(fill_value=0)

# Filtrar apenas alguns anos para ficar leg√≠vel - CORRIGIDO
trend_recent = trend_counts.loc[
    (trend_counts.index.get_level_values(0) >= 2018) & 
    (trend_counts.index.get_level_values(0) <= 2020)
]

# Gr√°fico de barras empilhadas
trend_recent.index = trend_recent.index.map(lambda x: f"{x[0]}-{x[1]:02d}")
trend_recent.plot(kind='bar', stacked=True, figsize=(16, 6), 
                 color={1: 'green', -1: 'red', 0: 'gray'})
plt.xlabel('Ano-M√™s')
plt.ylabel('N√∫mero de Dias')
plt.title('Tend√™ncia Di√°ria do Bitcoin por M√™s (2018-2020)')
plt.legend(['Baixa', 'Est√°vel', 'Alta'])
plt.xticks(rotation=45)
plt.figtext(0.5, 0.02, 'Nota: Usando apenas anos completos', 
           ha='center', fontsize=8, style='italic')
plt.tight_layout()
plt.show()

### Compara√ß√£o entre moedas: qual √© mais vol√°til, qual valorizou mais.

In [None]:
# CORRE√á√ÉO: Usar df_2015 mas excluir 2021 incompleto
btc_eth = df_2015[df_2015['Year'] <= 2020].copy()

# Calcular volatilidade di√°ria para ambas as moedas
btc_eth['DailyVolatility'] = btc_eth['High'] - btc_eth['Low']

# Calcular retorno di√°rio para ambas as moedas
btc_eth['Return'] = btc_eth.groupby('Symbol')['Close'].pct_change() * 100

# 1. Compara√ß√£o de Volatilidade M√©dia
volatility_comparison = btc_eth.groupby('Symbol')['DailyVolatility'].agg(['mean', 'std', 'median']).reset_index()

print("Compara√ß√£o de Volatilidade (2015-2020):")
print(volatility_comparison)

# 2. Compara√ß√£o de Retorno Total
# Calcular retorno acumulado desde o in√≠cio
returns_comparison = btc_eth.groupby('Symbol').apply(
    lambda x: ((x['Close'].iloc[-1] / x['Close'].iloc[0]) - 1) * 100
).reset_index(name='RetornoTotal_%')

print("\nCompara√ß√£o de Retorno Total (2015-2020):")
print(returns_comparison)

# 3. Gr√°ficos de Compara√ß√£o
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(16, 12))

# Gr√°fico 1: Volatilidade M√©dia
ax1.bar(volatility_comparison['Symbol'], volatility_comparison['mean'], 
        color=['orange', 'blue'], alpha=0.7)
ax1.set_title('Volatilidade M√©dia Di√°ria (2015-2020)')
ax1.set_ylabel('Volatilidade (USD)')
for i, v in enumerate(volatility_comparison['mean']):
    ax1.text(i, v + v*0.01, f'${v:.2f}', ha='center', va='bottom')

# Gr√°fico 2: Retorno Total
ax2.bar(returns_comparison['Symbol'], returns_comparison['RetornoTotal_%'], 
        color=['orange', 'blue'], alpha=0.7)
ax2.set_title('Retorno Total (2015-2020)')
ax2.set_ylabel('Retorno (%)')
for i, v in enumerate(returns_comparison['RetornoTotal_%']):
    ax2.text(i, v + v*0.01, f'{v:.0f}%', ha='center', va='bottom')

# Gr√°fico 3: Evolu√ß√£o do Pre√ßo (Normalizado)
for symbol in ['BTC', 'ETH']:
    data = btc_eth[btc_eth['Symbol'] == symbol].copy()
    data['PriceNormalized'] = (data['Close'] / data['Close'].iloc[0]) * 100
    ax3.plot(data['Date'], data['PriceNormalized'], label=symbol, linewidth=2)
ax3.set_title('Evolu√ß√£o do Pre√ßo - Base 100 (2015-2020)')
ax3.set_ylabel('Pre√ßo Normalizado')
ax3.legend()

# Gr√°fico 4: Boxplot de Volatilidade
btc_vol = btc_eth[btc_eth['Symbol'] == 'BTC']['DailyVolatility']
eth_vol = btc_eth[btc_eth['Symbol'] == 'ETH']['DailyVolatility']
ax4.boxplot([btc_vol, eth_vol], labels=['BTC', 'ETH'])
ax4.set_title('Distribui√ß√£o da Volatilidade Di√°ria (2015-2020)')
ax4.set_ylabel('Volatilidade (USD)')

plt.figtext(0.5, 0.02, 'Nota: An√°lise usando apenas anos completos (2015-2020)', 
           ha='center', fontsize=8, style='italic')
plt.tight_layout()
plt.show()

# 4. An√°lise detalhada por ano - CORRIGIDO
yearly_analysis = btc_eth.groupby(['Symbol', 'Year']).agg({
    'Return': 'mean',
    'DailyVolatility': 'mean'
}).reset_index()

print("\nAn√°lise por Ano (2015-2020):")
pivot_return = yearly_analysis.pivot(index='Year', columns='Symbol', values='Return')
pivot_volatility = yearly_analysis.pivot(index='Year', columns='Symbol', values='DailyVolatility')

print("\nRetorno M√©dio por Ano (%):")
print(pivot_return.round(2))
print("\nVolatilidade M√©dia por Ano (USD):")
print(pivot_volatility.round(2))

### Dias/meses com maior movimenta√ß√£o (picos de compra/venda).

In [None]:
# CORRE√á√ÉO: Usar apenas anos completos para an√°lise de volume
btc_completo = btc[btc['Year'] <= 2020].copy()

# An√°lise de dias/meses com maior movimenta√ß√£o (volume de transa√ß√µes)

# 1. Identificar os dias com maior volume de transa√ß√µes
print("=== AN√ÅLISE DE VOLUME DE TRANSA√á√ïES (2013-2020) ===")

# Top 10 dias com maior volume (apenas Bitcoin - anos completos)
top_volume_days = btc_completo.nlargest(10, 'Volume')[['Date', 'Volume', 'Close', 'DailyVolatility']]
print("\nTop 10 dias com maior volume de transa√ß√µes - Bitcoin (2013-2020):")
for idx, row in top_volume_days.iterrows():
    print(f"{row['Date'].strftime('%Y-%m-%d')}: ${row['Volume']:.2e} | Pre√ßo: ${row['Close']:.2f} | Volatilidade: ${row['DailyVolatility']:.2f}")

# 2. An√°lise mensal de volume m√©dio - CORRIGIDO
monthly_volume = btc_completo.groupby(['Year', 'Month']).agg({
    'Volume': 'mean',
    'DailyVolatility': 'mean',
    'Return': 'mean'
}).reset_index()

# Top 10 meses com maior volume m√©dio
top_volume_months = monthly_volume.nlargest(10, 'Volume')
print("\nTop 10 meses com maior volume m√©dio - Bitcoin (2013-2020):")
for idx, row in top_volume_months.iterrows():
    print(f"{int(row['Year'])}-{int(row['Month']):02d}: ${row['Volume']:.2e} | Retorno m√©dio: {row['Return']:.2f}%")

# 3. Correla√ß√£o entre volume e movimentos de pre√ßo
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(16, 12))

# Gr√°fico 1: Volume ao longo do tempo - CORRIGIDO
ax1.plot(btc_completo['Date'], btc_completo['Volume'], alpha=0.7, linewidth=0.8)
ax1.set_title('Evolu√ß√£o do Volume de Transa√ß√µes - Bitcoin (2013-2020)')
ax1.set_ylabel('Volume')
ax1.set_xlabel('Data')

# Gr√°fico 2: Correla√ß√£o Volume vs Volatilidade - CORRIGIDO
ax2.scatter(btc_completo['Volume'], btc_completo['DailyVolatility'], alpha=0.5, s=10)
ax2.set_xlabel('Volume')
ax2.set_ylabel('Volatilidade Di√°ria (USD)')
ax2.set_title('Volume vs Volatilidade (2013-2020)')
correlation_vol_volatility = btc_completo['Volume'].corr(btc_completo['DailyVolatility'])
ax2.text(0.05, 0.95, f'Correla√ß√£o: {correlation_vol_volatility:.3f}', 
         transform=ax2.transAxes, bbox=dict(boxstyle="round", facecolor='wheat'))

# Gr√°fico 3: Volume m√©dio por m√™s do ano - CORRIGIDO
volume_by_month = btc_completo.groupby('Month')['Volume'].mean()
ax3.bar(range(1, 13), volume_by_month, alpha=0.7, color='lightblue')
ax3.set_xlabel('M√™s')
ax3.set_ylabel('Volume M√©dio')
ax3.set_title('Volume M√©dio por M√™s (2013-2020)')
ax3.set_xticks(range(1, 13))

# Gr√°fico 4: Heatmap de volume por ano e m√™s - CORRIGIDO
pivot_volume = btc_completo.pivot_table(values='Volume', index='Year', columns='Month', aggfunc='mean')
im = ax4.imshow(pivot_volume.values, cmap='Blues', aspect='auto')
ax4.set_title('Heatmap de Volume por Ano e M√™s (2013-2020)')
ax4.set_xlabel('M√™s')
ax4.set_ylabel('Ano')
ax4.set_xticks(range(12))
ax4.set_xticklabels(range(1, 13))
ax4.set_yticks(range(len(pivot_volume.index)))
ax4.set_yticklabels(pivot_volume.index)

plt.figtext(0.5, 0.02, 'Nota: 2021 exclu√≠do por ter dados incompletos', 
           ha='center', fontsize=8, style='italic')
plt.tight_layout()
plt.show()

# 4. Identificar per√≠odos de maior atividade (volume + volatilidade) - CORRIGIDO
btc_completo['ActivityScore'] = (btc_completo['Volume'] / btc_completo['Volume'].mean()) * (btc_completo['DailyVolatility'] / btc_completo['DailyVolatility'].mean())
top_activity = btc_completo.nlargest(15, 'ActivityScore')[['Date', 'Volume', 'DailyVolatility', 'Return', 'Close', 'ActivityScore']]

print("\nTop 15 dias com maior atividade - volume + volatilidade (2013-2020):")
for idx, row in top_activity.iterrows():
    print(f"{row['Date'].strftime('%Y-%m-%d')}: Score: {row['ActivityScore']:.2f} | "
          f"Volume: ${row['Volume']:.2e} | Volatilidade: ${row['DailyVolatility']:.2f} | "
          f"Retorno: {row['Return']:.2f}%")

# 5. An√°lise de correla√ß√µes - CORRIGIDO
print(f"\nCORRELA√á√ïES (2013-2020):")
print(f"Volume vs Volatilidade: {btc_completo['Volume'].corr(btc_completo['DailyVolatility']):.3f}")
print(f"Volume vs |Retorno|: {btc_completo['Volume'].corr(abs(btc_completo['Return'])):.3f}")
print(f"Volume vs Pre√ßo: {btc_completo['Volume'].corr(btc_completo['Close']):.3f}")

### Gr√°ficos de candlestick (com Plotly) para an√°lise t√©cnica.

### Correla√ß√£o entre volume e pre√ßo (ex: volume alto ‚Üí queda ou alta?).

### Identificar os maiores picos e quedas de pre√ßo.

### Relacionar com eventos hist√≥ricos (ex: crash de 2018).
### Relacionar com eventos hist√≥ricos (ex: queda do BTC em 2018, crash da pandemia em 2020).

### Comparar anos de maior valoriza√ß√£o e maior queda.

### Identificar os piores crashes (retornos negativos extremos).

### Risco x Retorno (financeiro cl√°ssico)
##### Sharpe Ratio simplificado:
##### Sharpe = Retorno¬†m√©dio / Desvio-padr√£o


### An√°lise temporal de risco
##### Plotar volatilidade m√≥vel (rolling std) para ver per√≠odos de maior risco.
##### Cada valor em df["RollingVolatility"] mostra o quanto os retornos di√°rios variaram (oscilaram) nos 30 dias anteriores √†quela data. √â uma medida de risco/instabilidade do ativo ao longo do tempo.

In [None]:
df["RollingVolatility"] = df["Return"].rolling(30).std()

In [None]:
# CORRE√á√ÉO: Usar apenas anos completos
btc_completo = btc[btc['Year'] <= 2020].copy()

fig, ax = plt.subplots(figsize=(14, 6))
ax.plot(btc_completo['Date'], btc_completo['RollingVolatility'])
ax.set_xlabel('Data')
ax.set_ylabel('Volatilidade M√≥vel')
ax.set_title('Volatilidade M√≥vel dos Retornos - Bitcoin (2013-2020)')
plt.figtext(0.5, 0.02, 'Nota: 2021 exclu√≠do por ter dados incompletos', 
           ha='center', fontsize=8, style='italic')
plt.show()

### Gr√°fico do pre√ßo de fechamento ao longo do tempo

In [None]:
# Verificar at√© quando vai o dataset
print("=== VERIFICA√á√ÉO DO DATASET ===")
print(f"Data inicial: {btc['Date'].min()}")
print(f"Data final: {btc['Date'].max()}")

# Contar quantos dias temos por ano
days_per_year = btc.groupby('Year')['Date'].count()
print("\nDias por ano no dataset:")
for year, days in days_per_year.items():
    print(f"{year}: {days} dias")

# Verificar especificamente 2021
btc_2021 = btc[btc['Year'] == 2021]
print(f"\nEm 2021:")
print(f"Primeiro dia: {btc_2021['Date'].min()}")
print(f"√öltimo dia: {btc_2021['Date'].max()}")
print(f"Total de dias em 2021: {len(btc_2021)}")
print(f"Meses presentes em 2021: {sorted(btc_2021['Month'].unique())}")

In [None]:
# AN√ÅLISE FINAL CORRIGIDA
print("=== AN√ÅLISE CORRIGIDA - USANDO APENAS ANOS COMPLETOS ===")

# Comparar apenas anos completos (2013-2020)
btc_complete_years = btc[btc['Year'] <= 2020]

print(f"Dataset corrigido vai de {btc_complete_years['Date'].min().date()} at√© {btc_complete_years['Date'].max().date()}")
print(f"Total de registros: {len(btc_complete_years)} dias")

print("\nVolume m√©dio anual (em bilh√µes USD):")
yearly_volume_complete = btc_complete_years.groupby('Year')['Volume'].mean()
for year, vol in yearly_volume_complete.items():
    print(f"{year}: ${vol/1e9:.1f} bilh√µes")

print("\nVolatilidade m√©dia anual:")
yearly_volatility_complete = btc_complete_years.groupby('Year')['DailyVolatility'].mean()
for year, vol in yearly_volatility_complete.items():
    print(f"{year}: ${vol:.2f}")

print("\nRetorno m√©dio anual (%):")
yearly_return_complete = btc_complete_years.groupby('Year')['Return'].mean()
for year, ret in yearly_return_complete.items():
    print(f"{year}: {ret:.2f}%")

print("\nüéØ CORRE√á√ÉO APLICADA COM SUCESSO!")
print("‚úÖ Todas as an√°lises agora usam apenas anos completos (2013-2020)")
print("‚úÖ Dados de 2021 (incompletos) foram exclu√≠dos das an√°lises comparativas")
print("‚úÖ Gr√°ficos e estat√≠sticas agora s√£o confi√°veis e justos")

## üíπ C√°lculo de Retornos e M√©tricas Financeiras

Vamos calcular os retornos di√°rios e implementar as m√©tricas do dashboard: drawdowns, Sharpe ratio, efici√™ncia de recupera√ß√£o, etc.

In [None]:
# üí∞ C√°lculo de Retornos e M√©tricas
# =================================

# Calcular retornos di√°rios por moeda
df_2015['Return'] = df_2015.groupby('Symbol')['Close'].pct_change() * 100

# Fun√ß√£o para classificar retornos
def classify_return(return_value):
    if pd.isna(return_value):
        return 'Neutro'
    elif return_value > 0:
        return 'Positivo'
    elif return_value < 0:
        return 'Negativo'
    else:
        return 'Neutro'

# Aplicar classifica√ß√£o
df_2015['Return_Status'] = df_2015['Return'].apply(classify_return)

print("üìä M√âTRICAS FINANCEIRAS POR MOEDA")
print("=" * 40)

# Calcular m√©tricas para cada moeda
for symbol in ['BTC', 'ETH']:
    data = df_2015[df_2015['Symbol'] == symbol].copy()

    print(f"\nü™ô {symbol}:")
    print("-" * 20)

    # 1. Valor m√©dio
    valor_medio = data['Close'].mean()
    print(f"üí∞ Valor M√©dio: ${valor_medio:.2f}")

    # 2. Retorno m√©dio di√°rio
    retorno_medio = data['Return'].mean()
    print(f"üìà Retorno M√©dio Di√°rio: {retorno_medio:.4f}%")

    # 3. Volatilidade (desvio padr√£o dos retornos)
    volatilidade = data['Return'].std()
    print(f"üìä Volatilidade: {volatilidade:.4f}%")

    # 4. Sharpe Ratio (retorno/volatilidade - assumindo rf=0)
    if volatilidade > 0:
        sharpe = retorno_medio / volatilidade
        print(f"üéØ Sharpe Ratio: {sharpe:.4f}")
    else:
        print("üéØ Sharpe Ratio: N/A")

    # 5. Drawdown m√°ximo
    data['Cumulative_Return'] = (1 + data['Return'].fillna(0) / 100).cumprod()
    data['Peak'] = data['Cumulative_Return'].expanding().max()
    data['Drawdown'] = ((data['Cumulative_Return'] / data['Peak']) - 1) * 100
    max_drawdown = abs(data['Drawdown'].min())
    print(f"üìâ Max Drawdown: {max_drawdown:.2f}%")

    # 6. Tend√™ncia de valoriza√ß√£o (% dias positivos)
    status_counts = data['Return_Status'].value_counts()
    total_days = len(data)
    positive_pct = (status_counts.get('Positivo', 0) / total_days) * 100
    print(f"üöÄ Dias Positivos: {positive_pct:.1f}%")

    # 7. Efici√™ncia de recupera√ß√£o
    recovery_times = []
    in_drawdown = False
    drawdown_start = 0

    for i, row in data.iterrows():
        if row['Drawdown'] < -5 and not in_drawdown:
            in_drawdown = True
            drawdown_start = i
        elif row['Drawdown'] >= -1 and in_drawdown:
            recovery_time = i - drawdown_start
            if recovery_time > 0:
                recovery_times.append(recovery_time)
            in_drawdown = False

    if recovery_times:
        avg_recovery_days = np.mean(recovery_times)
        efficiency_score = max(0, 100 - (avg_recovery_days / 365 * 100))
        print(f"üîÑ Efici√™ncia Recupera√ß√£o: {efficiency_score:.1f}% ({avg_recovery_days:.1f} dias m√©dios)")
    else:
        print("üîÑ Efici√™ncia Recupera√ß√£o: Sem dados suficientes")

print("\n‚úÖ C√°lculo de m√©tricas conclu√≠do!")

## üìà Visualiza√ß√µes Interativas

Vamos criar gr√°ficos interativos replicando as visualiza√ß√µes do dashboard Streamlit.

In [None]:
# üìä Gr√°fico 1: Pre√ßos Hist√≥ricos com Picos - BTC
# ================================================

btc_data = df_2015[df_2015['Symbol'] == 'BTC'].copy()

# Encontrar picos hist√≥ricos
prices = btc_data['Close'].values
peaks, _ = find_peaks(prices, height=prices.mean(), distance=30)

fig1 = go.Figure()

# Linha principal
fig1.add_trace(go.Scatter(
    x=btc_data['Date'],
    y=btc_data['Close'],
    mode='lines',
    name='BTC',
    line=dict(color='#f7931a', width=2),
    hovertemplate='<b>BTC</b><br>Data: %{x}<br>Pre√ßo: $%{y:,.0f}<extra></extra>'
))

# Marcar picos
if len(peaks) > 0:
    fig1.add_trace(go.Scatter(
        x=btc_data.iloc[peaks]['Date'],
        y=btc_data.iloc[peaks]['Close'],
        mode='markers',
        name='Picos BTC',
        marker=dict(color='red', size=8, symbol='triangle-up'),
        hovertemplate='<b>Pico BTC</b><br>Data: %{x}<br>Pre√ßo: $%{y:,.0f}<extra></extra>'
    ))

fig1.update_layout(
    title="Pre√ßos Hist√≥ricos BTC com Picos (2015-2021)",
    xaxis_title="Data",
    yaxis_title="Pre√ßo BTC (USD)",
    height=500,
    hovermode='x unified',
    showlegend=True
)

fig1.show()

In [None]:
# üìä Gr√°fico 2: Volume de Transa√ß√µes - BTC
# ========================================

btc_data = df_2015[df_2015['Symbol'] == 'BTC'].copy()

fig2 = go.Figure()

fig2.add_trace(go.Bar(
    x=btc_data['Date'],
    y=btc_data['Volume'],
    name='Volume BTC',
    marker_color='#f7931a',
    opacity=0.7,
    hovertemplate='<b>BTC Volume</b><br>Data: %{x}<br>Volume: %{y:,.0f}<extra></extra>'
))

fig2.update_layout(
    title="Volume de Transa√ß√µes BTC (2015-2021)",
    xaxis_title="Data",
    yaxis_title="Volume",
    height=400,
    hovermode='x unified',
    showlegend=False
)

fig2.show()

In [None]:
# üìä Gr√°fico 3: Compara√ß√£o BTC vs ETH
# ====================================

btc_data = df_2015[df_2015['Symbol'] == 'BTC'].copy()
eth_data = df_2015[df_2015['Symbol'] == 'ETH'].copy()

# Calcular picos hist√≥ricos
btc_data['Peak'] = btc_data['Close'].expanding().max()
btc_picos = btc_data[btc_data['Close'] == btc_data['Peak']]

eth_data['Peak'] = eth_data['Close'].expanding().max()
eth_picos = eth_data[eth_data['Close'] == eth_data['Peak']]

fig3 = go.Figure()

# BTC
fig3.add_trace(go.Scatter(
    x=btc_data['Date'],
    y=btc_data['Close'],
    mode='lines',
    name='BTC',
    line=dict(color='#f7931a', width=3),
    hovertemplate='<b>BTC</b><br>Data: %{x}<br>Pre√ßo: $%{y:,.0f}<extra></extra>'
))

# Picos BTC
fig3.add_trace(go.Scatter(
    x=btc_picos['Date'],
    y=btc_picos['Close'],
    mode='markers',
    name='Picos BTC',
    marker=dict(color='#ff6b35', size=8, symbol='triangle-up'),
    hovertemplate='<b>Pico BTC</b><br>Data: %{x}<br>Pre√ßo: $%{y:,.0f}<extra></extra>'
))

# ETH
fig3.add_trace(go.Scatter(
    x=eth_data['Date'],
    y=eth_data['Close'],
    mode='lines',
    name='ETH',
    line=dict(color='#627eea', width=3),
    hovertemplate='<b>ETH</b><br>Data: %{x}<br>Pre√ßo: $%{y:,.0f}<extra></extra>'
))

# Picos ETH
fig3.add_trace(go.Scatter(
    x=eth_picos['Date'],
    y=eth_picos['Close'],
    mode='markers',
    name='Picos ETH',
    marker=dict(color='#4a90e2', size=8, symbol='triangle-up'),
    hovertemplate='<b>Pico ETH</b><br>Data: %{x}<br>Pre√ßo: $%{y:,.0f}<extra></extra>'
))

fig3.update_layout(
    title="Compara√ß√£o BTC vs ETH - Pre√ßos e Picos Hist√≥ricos (2015-2021)",
    xaxis_title="Data",
    yaxis_title="Pre√ßo (USD)",
    height=500,
    hovermode='x unified',
    legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="center", x=0.5)
)

fig3.show()

## üìä An√°lise Estat√≠stica Avan√ßada

Vamos realizar an√°lises estat√≠sticas mais profundas dos retornos e correla√ß√µes entre BTC e ETH.

In [None]:
# üî¨ An√°lise Estat√≠stica dos Retornos
# ===================================

print("üìä AN√ÅLISE ESTAT√çSTICA DOS RETORNOS")
print("=" * 40)

# Preparar dados de retornos
btc_returns = df_2015[df_2015['Symbol'] == 'BTC']['Return'].dropna()
eth_returns = df_2015[df_2015['Symbol'] == 'ETH']['Return'].dropna()

print("\nüìà Estat√≠sticas Descritivas dos Retornos Di√°rios:")
print("-" * 50)

stats_df = pd.DataFrame({
    'BTC': btc_returns.describe(),
    'ETH': eth_returns.describe()
})
print(stats_df.round(4))

# Testes de normalidade
print("\nüß™ Testes de Normalidade (Shapiro-Wilk):")
btc_shapiro = stats.shapiro(btc_returns)
eth_shapiro = stats.shapiro(eth_returns)

print(f"BTC - Estat√≠stica: {btc_shapiro.statistic:.4f}, p-valor: {btc_shapiro.pvalue:.4f}")
print(f"ETH - Estat√≠stica: {eth_shapiro.statistic:.4f}, p-valor: {eth_shapiro.pvalue:.4f}")

if btc_shapiro.pvalue < 0.05:
    print("BTC: Retornos N√ÉO seguem distribui√ß√£o normal")
else:
    print("BTC: Retornos seguem distribui√ß√£o normal")

if eth_shapiro.pvalue < 0.05:
    print("ETH: Retornos N√ÉO seguem distribui√ß√£o normal")
else:
    print("ETH: Retornos seguem distribui√ß√£o normal")

# Correla√ß√£o entre BTC e ETH
correlation = btc_returns.corr(eth_returns)
print(f"\nüîó Correla√ß√£o entre retornos BTC e ETH: {correlation:.4f}")

# Interpreta√ß√£o da correla√ß√£o
if correlation > 0.7:
    print("üí™ Correla√ß√£o FORTE positiva")
elif correlation > 0.3:
    print("ü§ù Correla√ß√£o MODERADA positiva")
elif correlation > -0.3:
    print("ü§∑ Correla√ß√£o FRACA")
elif correlation > -0.7:
    print("‚ö†Ô∏è Correla√ß√£o MODERADA negativa")
else:
    print("üíî Correla√ß√£o FORTE negativa")