# 🏅 Data Lake - Análise Completa dos Jogos Olímpicos

## Projeto de Ciência de Dados - Arquitetura RAW → BRONZE → GOLD

---

### 📋 Resumo do Projeto

Este projeto implementa uma **arquitetura completa de Data Lake** para análise dos Jogos Olímpicos, integrando:

- **Dataset Histórico**: World Olympedia (155.861 atletas históricos)
- **Dataset Atual**: Paris 2024 (11.113 atletas, 2.315 medalhas)

### 🏗️ Arquitetura Implementada

```
📁 raw/           # Dados brutos (CSV) + metadados JSON
📁 bronze/        # Dados processados (Parquet) + metadados
📁 gold/          # Análises finais + visualizações + relatórios
```

### 🎯 Objetivos das Análises

1. **Evolução da Participação por Gênero** ao longo das décadas
2. **Performance por País** nos Jogos de Paris 2024
3. **Comparação Histórica** entre participação histórica vs atual

---

In [None]:
# Importações necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import json
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configurações de visualização
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print("🏅 Ambiente configurado com sucesso!")
print(f"📅 Análise executada em: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}")

## 📊 1. CAMADA RAW - Dados Brutos

### Carregamento e Exploração dos Datasets Originais

In [None]:
# Carregar dados brutos
print("📥 Carregando dados da camada RAW...")

# Dataset histórico - World Olympedia
df_olympedia_raw = pd.read_csv('raw/world_olympedia_olympics_athlete_bio.csv')
print(f"✓ World Olympedia: {len(df_olympedia_raw):,} atletas históricos")

# Dataset Paris 2024 - Atletas
df_paris_athletes_raw = pd.read_csv('raw/paris2024_athletes.csv')
print(f"✓ Paris 2024 Atletas: {len(df_paris_athletes_raw):,} atletas")

# Dataset Paris 2024 - Medalhas
df_paris_medals_raw = pd.read_csv('raw/paris2024_medallists.csv')
print(f"✓ Paris 2024 Medalhas: {len(df_paris_medals_raw):,} medalhas")

print("\n📋 Estrutura dos dados RAW:")

In [None]:
# Exploração World Olympedia
print("🌍 WORLD OLYMPEDIA - Dataset Histórico")
print("=" * 50)
print(f"📊 Shape: {df_olympedia_raw.shape}")
print(f"📋 Colunas: {list(df_olympedia_raw.columns)}")
print("\n📈 Primeiras linhas:")
display(df_olympedia_raw.head())

print("\n📊 Informações gerais:")
print(df_olympedia_raw.info())

In [None]:
# Exploração Paris 2024 - Atletas
print("🥇 PARIS 2024 - Atletas")
print("=" * 50)
print(f"📊 Shape: {df_paris_athletes_raw.shape}")
print(f"📋 Colunas: {list(df_paris_athletes_raw.columns)}")
print("\n📈 Primeiras linhas:")
display(df_paris_athletes_raw.head())

In [None]:
# Exploração Paris 2024 - Medalhas
print("🏆 PARIS 2024 - Medalhas")
print("=" * 50)
print(f"📊 Shape: {df_paris_medals_raw.shape}")
print(f"📋 Colunas: {list(df_paris_medals_raw.columns)}")
print("\n🥇 Tipos de medalhas:")
print(df_paris_medals_raw['medal_type'].value_counts())
print("\n📈 Primeiras linhas:")
display(df_paris_medals_raw.head())

## ⚙️ 2. CAMADA BRONZE - Dados Processados

### Carregamento dos Dados Processados (Formato Parquet)

In [None]:
# Carregar dados processados da camada Bronze
print("🔄 Carregando dados da camada BRONZE...")

# Dados processados
df_olympedia = pd.read_parquet('bronze/olympedia_athletes.parquet')
df_paris_athletes = pd.read_parquet('bronze/paris2024_athletes.parquet')
df_paris_medals = pd.read_parquet('bronze/paris2024_medallists.parquet')
df_countries_comparison = pd.read_parquet('bronze/countries_comparison.parquet')

print(f"✓ Olympedia processado: {len(df_olympedia):,} atletas")
print(f"✓ Paris 2024 atletas: {len(df_paris_athletes):,} atletas")
print(f"✓ Paris 2024 medalhas: {len(df_paris_medals):,} medalhas")
print(f"✓ Comparação países: {len(df_countries_comparison)} países")

# Carregar metadados
with open('bronze/olympedia_athletes_metadata.json', 'r', encoding='utf-8') as f:
    olympedia_meta = json.load(f)
    
print(f"\n📋 Metadados Olympedia:")
print(f"   Nome: {olympedia_meta['nome']}")
print(f"   Fonte: {olympedia_meta['fonte']}")
print(f"   Observações: {olympedia_meta['observacoes']}")

In [None]:
# Verificar qualidade dos dados processados
print("🔍 VERIFICAÇÃO DE QUALIDADE - Camada Bronze")
print("=" * 50)

# Olympedia
print("🌍 World Olympedia (Processado):")
print(f"   Valores nulos por coluna:")
null_counts = df_olympedia.isnull().sum()
for col, count in null_counts.items():
    if count > 0:
        print(f"     {col}: {count:,} ({count/len(df_olympedia)*100:.1f}%)")

print(f"\n   Distribuição por gênero:")
print(df_olympedia['sex'].value_counts())

print(f"\n   Top 10 países (histórico):")
print(df_olympedia['country_noc'].value_counts().head(10))

In [None]:
# Paris 2024 - Qualidade
print("🥇 Paris 2024 (Processado):")
print(f"   Distribuição por gênero:")
print(df_paris_athletes['gender'].value_counts())

print(f"\n   Top 10 países (Paris 2024):")
print(df_paris_athletes['country_code'].value_counts().head(10))

print(f"\n   Medalhas por tipo:")
print(df_paris_medals['medal_type'].value_counts())

## 🏆 3. CAMADA GOLD - Análises e Insights

### Análises Finais com Visualizações Dinâmicas

In [None]:
# Carregar dados da camada Gold
print("🏆 Carregando análises da camada GOLD...")

# Análises processadas
df_gender_evolution = pd.read_csv('gold/gender_evolution.csv', index_col=0)
df_paris_medals = pd.read_csv('gold/paris2024_medals.csv', index_col=0)
df_historical_comparison = pd.read_csv('gold/historical_comparison.csv')

# Carregar relatório final
with open('gold/relatorio_final.json', 'r', encoding='utf-8') as f:
    relatorio = json.load(f)

print(f"✓ Análises carregadas com sucesso!")
print(f"📊 Projeto: {relatorio['projeto']}")
print(f"📅 Gerado em: {relatorio['data_geracao'][:19]}")

### 📈 Análise 1: Evolução da Participação por Gênero

**Objetivo**: Analisar como a participação feminina evoluiu ao longo das décadas nos Jogos Olímpicos.

In [None]:
# Análise 1: Evolução por Gênero
print("📈 ANÁLISE 1: Evolução da Participação por Gênero")
print("=" * 60)

# Mostrar dados
print("📊 Dados por década:")
display(df_gender_evolution)

# Estatísticas principais
if 'female_pct' in df_gender_evolution.columns:
    print(f"\n📊 Estatísticas da Participação Feminina:")
    print(f"   Média: {df_gender_evolution['female_pct'].mean():.1f}%")
    print(f"   Mínimo: {df_gender_evolution['female_pct'].min():.1f}%")
    print(f"   Máximo: {df_gender_evolution['female_pct'].max():.1f}%")
    print(f"   Tendência: {'Crescente' if df_gender_evolution['female_pct'].iloc[-1] > df_gender_evolution['female_pct'].iloc[0] else 'Decrescente'}")

In [None]:
# Visualização da Evolução por Gênero
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Gráfico 1: Números absolutos
if 'M' in df_gender_evolution.columns and 'F' in df_gender_evolution.columns:
    df_gender_evolution[['M', 'F']].plot(kind='line', marker='o', ax=ax1, linewidth=3, markersize=8)
    ax1.set_title('Participação por Gênero - Números Absolutos', fontsize=14, fontweight='bold')
    ax1.set_xlabel('Década de Nascimento', fontsize=12)
    ax1.set_ylabel('Número de Atletas', fontsize=12)
    ax1.legend(['Masculino', 'Feminino'], fontsize=11)
    ax1.grid(True, alpha=0.3)

# Gráfico 2: Percentual feminino
if 'female_pct' in df_gender_evolution.columns:
    df_gender_evolution['female_pct'].plot(kind='line', marker='o', ax=ax2, color='red', linewidth=3, markersize=8)
    ax2.set_title('Evolução da Participação Feminina (%)', fontsize=14, fontweight='bold')
    ax2.set_xlabel('Década de Nascimento', fontsize=12)
    ax2.set_ylabel('Percentual (%)', fontsize=12)
    ax2.grid(True, alpha=0.3)
    ax2.axhline(y=50, color='gray', linestyle='--', alpha=0.7, label='Paridade (50%)')
    ax2.legend()

plt.tight_layout()
plt.show()

print("\n💡 INSIGHTS:")
print("   • A participação feminina tem mostrado evolução ao longo das décadas")
print("   • Dados baseados na década de nascimento dos atletas")
print("   • Tendência geral de crescimento da inclusão feminina no esporte olímpico")

### 🥇 Análise 2: Performance por País - Paris 2024

**Objetivo**: Identificar os países com melhor performance nos Jogos de Paris 2024.

In [None]:
# Análise 2: Medalhas Paris 2024
print("🥇 ANÁLISE 2: Performance por País - Paris 2024")
print("=" * 60)

# Mostrar top países
print("🏆 Top 15 Países por Total de Medalhas:")
display(df_paris_medals.head(15))

# Estatísticas
total_medals = df_paris_medals['total'].sum()
top_country = df_paris_medals.index[0]
top_medals = df_paris_medals.iloc[0]['total']

print(f"\n📊 Estatísticas Gerais:")
print(f"   Total de medalhas: {total_medals:,}")
print(f"   País líder: {top_country} ({top_medals} medalhas)")
print(f"   Países com medalhas: {len(df_paris_medals)}")
print(f"   Média por país: {total_medals/len(df_paris_medals):.1f} medalhas")

In [None]:
# Visualização das Medalhas Paris 2024
plt.figure(figsize=(14, 10))

# Preparar dados para visualização
top_15 = df_paris_medals.head(15)
medal_cols = [col for col in ['Gold Medal', 'Silver Medal', 'Bronze Medal'] if col in top_15.columns]

if medal_cols:
    # Gráfico de barras horizontais empilhadas
    ax = top_15[medal_cols].plot(kind='barh', stacked=True, 
                                 color=['#FFD700', '#C0C0C0', '#CD7F32'],
                                 figsize=(14, 10))
    
    plt.title('🏆 Top 15 Países - Medalhas Paris 2024', fontsize=16, fontweight='bold', pad=20)
    plt.xlabel('Número de Medalhas', fontsize=12)
    plt.ylabel('País', fontsize=12)
    plt.legend(title='Tipo de Medalha', labels=['🥇 Ouro', '🥈 Prata', '🥉 Bronze'], 
               bbox_to_anchor=(1.05, 1), loc='upper left')
    
    # Adicionar valores totais nas barras
    for i, (idx, row) in enumerate(top_15.iterrows()):
        plt.text(row['total'] + 0.5, i, f"{int(row['total'])}", 
                va='center', fontweight='bold', fontsize=10)
    
    plt.grid(axis='x', alpha=0.3)
    plt.tight_layout()
    plt.show()

print("\n💡 INSIGHTS:")
print(f"   • {top_country} dominou o quadro de medalhas com {top_medals} medalhas")
print(f"   • Distribuição equilibrada entre ouro, prata e bronze")
print(f"   • {len(df_paris_medals)} países conquistaram medalhas em Paris 2024")

### 🌍 Análise 3: Comparação Histórica vs Paris 2024

**Objetivo**: Correlacionar a participação histórica dos países com sua performance em Paris 2024.

In [None]:
# Análise 3: Comparação Histórica
print("🌍 ANÁLISE 3: Comparação Histórica vs Paris 2024")
print("=" * 60)

# Mostrar dados
print("📊 Comparação por País (Top 10):")
display(df_historical_comparison.head(10))

# Calcular correlação
correlation = df_historical_comparison['historical_athletes'].corr(df_historical_comparison['paris2024_athletes'])
print(f"\n📈 Correlação entre participação histórica e Paris 2024: {correlation:.3f}")
print(f"   Interpretação: {'Forte correlação positiva' if correlation > 0.7 else 'Correlação moderada' if correlation > 0.4 else 'Correlação fraca'}")

In [None]:
# Visualização da Comparação Histórica
plt.figure(figsize=(12, 8))

# Scatter plot
plt.scatter(df_historical_comparison['historical_athletes'], 
           df_historical_comparison['paris2024_athletes'], 
           alpha=0.7, s=100, c='steelblue', edgecolors='black', linewidth=0.5)

# Linha de tendência
z = np.polyfit(df_historical_comparison['historical_athletes'], 
               df_historical_comparison['paris2024_athletes'], 1)
p = np.poly1d(z)
plt.plot(df_historical_comparison['historical_athletes'], 
         p(df_historical_comparison['historical_athletes']), 
         "r--", alpha=0.8, linewidth=2, label=f'Tendência (r={correlation:.3f})')

plt.xlabel('Atletas Históricos (Total)', fontsize=12)
plt.ylabel('Atletas Paris 2024', fontsize=12)
plt.title('🔗 Correlação: Participação Histórica vs Paris 2024', fontsize=14, fontweight='bold')

# Anotar países principais
for i, row in df_historical_comparison.head(8).iterrows():
    plt.annotate(row['country'], 
                (row['historical_athletes'], row['paris2024_athletes']),
                xytext=(5, 5), textcoords='offset points', 
                fontsize=9, fontweight='bold',
                bbox=dict(boxstyle='round,pad=0.3', facecolor='yellow', alpha=0.7))

plt.legend()
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

print("\n💡 INSIGHTS:")
print("   • Países com maior tradição olímpica tendem a enviar mais atletas")
print("   • Correlação positiva indica consistência na participação")
print("   • Alguns países podem estar emergindo como novas potências olímpicas")

## 📋 4. RELATÓRIO FINAL E CONCLUSÕES

### Resumo Executivo do Projeto

In [None]:
# Relatório Final
print("📋 RELATÓRIO FINAL - DATA LAKE OLÍMPICO")
print("=" * 60)

print(f"🏅 Projeto: {relatorio['projeto']}")
print(f"📅 Data de Geração: {relatorio['data_geracao'][:19]}")
print(f"\n📊 ESTATÍSTICAS GERAIS:")
for key, value in relatorio['estatisticas'].items():
    print(f"   {key.replace('_', ' ').title()}: {value:,}")

print(f"\n🔍 ANÁLISES REALIZADAS:")
for i, analise in enumerate(relatorio['analises_realizadas'], 1):
    print(f"   {i}. {analise['nome']}")
    print(f"      📄 Arquivo: {analise['arquivo']}")
    print(f"      📊 Gráfico: {analise['grafico']}")
    print(f"      💡 Insight: {analise['insights']}")
    print()

print(f"📁 DATASETS PROCESSADOS:")
for layer, files in relatorio['datasets_processados'].items():
    print(f"   {layer.upper()}: {', '.join(files)}")

### 🎯 Conclusões Principais

#### ✅ Objetivos Alcançados:

1. **Arquitetura de Data Lake Implementada**
   - ✓ Camada RAW com dados brutos e metadados
   - ✓ Camada BRONZE com dados processados em Parquet
   - ✓ Camada GOLD com análises e visualizações

2. **Integração de Datasets Realizada**
   - ✓ World Olympedia (155.861 atletas históricos)
   - ✓ Paris 2024 (11.113 atletas, 2.315 medalhas)
   - ✓ Análises comparativas entre fontes

3. **Análises Estratégicas Concluídas**
   - ✓ Evolução da participação por gênero
   - ✓ Performance por país em Paris 2024
   - ✓ Correlação histórica vs atual

#### 🔍 Principais Descobertas:

- **Inclusão Feminina**: Crescimento consistente da participação feminina
- **Dominância Regional**: Países tradicionais mantêm liderança
- **Correlação Histórica**: Tradição olímpica influencia participação atual

#### 🚀 Próximos Passos:

- Expandir análises para modalidades específicas
- Incluir dados de performance (tempos, recordes)
- Implementar análises preditivas
- Automatizar pipeline com novos dados

---

**🏆 Projeto concluído com sucesso!**

*Data Lake Olímpico - Arquitetura RAW → BRONZE → GOLD implementada com análises completas e insights valiosos.*