# 🏅 Análise Completa de Dados Olímpicos por Continente

## 👥 Autores
**Carlos Lavor Neto**  
Engenharia de Computação - UEA  
Ciência de Dados

**Alexandro Pantoja**  
Engenharia de Computação  
Ciência de Dados

---

## 📋 Sumário

Este notebook consolida todos os resultados das análises:

### Parte 1: Consolidação de Medalhas por País
1. Medalhas - Jogos de Verão (Top 50)
2. Medalhas - Jogos de Inverno (Top 50)
3. Medalhas - Total Geral (Top 50)

### Parte 2: Análise por Continente
4. Pergunta 2.1: Distribuição de medalhas por continente
5. Pergunta 2.2: Crescimento da representação
6. Pergunta 2.3: Participação feminina
7. Pergunta 2.4: Modalidades mais fortes
8. Pergunta 2.5: Crescimento 1986-2024

---

In [None]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Configuração visual
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (14, 8)
plt.rcParams['font.size'] = 10

print("✓ Bibliotecas carregadas")

In [None]:
# Paths
BASE_PATH = Path('..')
GOLD_PATH = BASE_PATH / 'gold'
OUTPUT_PATH = BASE_PATH / 'outputs'

print("✓ Paths configurados")

---
# PARTE 1: Consolidação de Medalhas por País
---

## 1.1 Medalhas - Jogos de Verão (Top 10)

In [None]:
# Carregar dados
medals_summer = pd.read_parquet(GOLD_PATH / 'medals_summer_consolidated.parquet')

print("🥇 TOP 10 PAÍSES - JOGOS DE VERÃO (1896-2022)")
print("=" * 80)
display(medals_summer.head(10))

print(f"\n📊 Total de países: {len(medals_summer)}")
print(f"📊 Total de medalhas: {medals_summer['total'].sum():,}")

## 1.2 Medalhas - Jogos de Inverno (Top 10)

In [None]:
# Carregar dados
medals_winter = pd.read_parquet(GOLD_PATH / 'medals_winter_consolidated.parquet')

print("❄️  TOP 10 PAÍSES - JOGOS DE INVERNO (1924-2022)")
print("=" * 80)
display(medals_winter.head(10))

print(f"\n📊 Total de países: {len(medals_winter)}")
print(f"📊 Total de medalhas: {medals_winter['total'].sum():,}")

## 1.3 Medalhas - Total Geral (Top 10)

In [None]:
# Carregar dados
medals_total = pd.read_parquet(GOLD_PATH / 'medals_total_consolidated.parquet')

print("🏆 TOP 10 PAÍSES - TOTAL GERAL (Verão + Inverno)")
print("=" * 80)
display(medals_total.head(10))

print(f"\n📊 Total de países: {len(medals_total)}")
print(f"📊 Total de medalhas: {medals_total['total'].sum():,}")

## 1.4 Visualização - Top 10 por Categoria

In [None]:
# Criar subplots
fig, axes = plt.subplots(1, 3, figsize=(20, 6))

# Top 10 Verão
top10_summer = medals_summer.head(10)
axes[0].barh(top10_summer['country_noc'], top10_summer['total'], color='#FFD700', alpha=0.8)
axes[0].invert_yaxis()
axes[0].set_xlabel('Total de Medalhas', fontweight='bold')
axes[0].set_title('🥇 Jogos de Verão\n(Top 10)', fontweight='bold', fontsize=12)
axes[0].grid(axis='x', alpha=0.3)
for i, (idx, row) in enumerate(top10_summer.iterrows()):
    axes[0].text(row['total'] + 50, i, f"{int(row['total'])}", va='center', fontweight='bold')

# Top 10 Inverno
top10_winter = medals_winter.head(10)
axes[1].barh(top10_winter['country_noc'], top10_winter['total'], color='#87CEEB', alpha=0.8)
axes[1].invert_yaxis()
axes[1].set_xlabel('Total de Medalhas', fontweight='bold')
axes[1].set_title('❄️ Jogos de Inverno\n(Top 10)', fontweight='bold', fontsize=12)
axes[1].grid(axis='x', alpha=0.3)
for i, (idx, row) in enumerate(top10_winter.iterrows()):
    axes[1].text(row['total'] + 20, i, f"{int(row['total'])}", va='center', fontweight='bold')

# Top 10 Total
top10_total = medals_total.head(10)
axes[2].barh(top10_total['country_noc'], top10_total['total'], color='#32CD32', alpha=0.8)
axes[2].invert_yaxis()
axes[2].set_xlabel('Total de Medalhas', fontweight='bold')
axes[2].set_title('🏆 Total Geral\n(Top 10)', fontweight='bold', fontsize=12)
axes[2].grid(axis='x', alpha=0.3)
for i, (idx, row) in enumerate(top10_total.iterrows()):
    axes[2].text(row['total'] + 100, i, f"{int(row['total'])}", va='center', fontweight='bold')

plt.suptitle('Comparação Top 10 Países por Categoria', fontsize=16, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

print("✓ Visualização gerada")

---
# PARTE 2: Análise por Continente
---

## 2.1 Distribuição de Medalhas por Continente

In [None]:
# Carregar dados
medals_continent = pd.read_parquet(GOLD_PATH / 'medals_by_continent_total.parquet')

print("🌍 DISTRIBUIÇÃO DE MEDALHAS POR CONTINENTE")
print("=" * 80)
display(medals_continent)

# Percentuais
total_medals = medals_continent['total'].sum()
medals_continent['percentual'] = (medals_continent['total'] / total_medals * 100).round(2)

print("\n📊 Distribuição Percentual:")
for _, row in medals_continent.iterrows():
    print(f"   {row['continent']:15s}: {row['percentual']:6.2f}%")

In [None]:
# Gráfico de Pizza
fig, ax = plt.subplots(figsize=(10, 8))

colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#FFA07A', '#98D8C8']
explode = [0.05 if i == 0 else 0 for i in range(len(medals_continent))]

wedges, texts, autotexts = ax.pie(
    medals_continent['total'],
    labels=medals_continent['continent'],
    autopct='%1.1f%%',
    startangle=90,
    colors=colors,
    explode=explode,
    textprops={'fontsize': 11, 'weight': 'bold'}
)

plt.title('Distribuição de Medalhas por Continente (1896-2022)',
          fontsize=14, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

print("✓ Gráfico de pizza gerado")

## 2.2 Crescimento da Representação

In [None]:
# Carregar dados
representation_stats = pd.read_parquet(GOLD_PATH / 'representation_stats_by_continent.parquet')

print("📈 ESTATÍSTICAS DE REPRESENTAÇÃO POR CONTINENTE")
print("=" * 80)
print("\nNúmero médio de atletas por edição:\n")
display(representation_stats)

print("\n💡 Insights:")
top_continent = representation_stats.iloc[0]
print(f"   • {top_continent['continent']} lidera com média de {top_continent['média']:.0f} atletas por edição")
print(f"   • Maior variação: {representation_stats['desvio_padrão'].max():.2f} (maior volatilidade)")

## 2.3 Participação Feminina

In [None]:
# Carregar dados
female_participation = pd.read_parquet(GOLD_PATH / 'female_participation_by_continent.parquet')

# Últimas 5 edições
recent_years = sorted(female_participation['year'].unique())[-5:]
recent_data = female_participation[female_participation['year'].isin(recent_years)]

print("👩 PARTICIPAÇÃO FEMININA - ÚLTIMAS 5 EDIÇÕES")
print("=" * 80)

# Criar tabela pivot
pivot_female = recent_data.pivot_table(
    index='continent',
    columns='year',
    values='female_pct',
    aggfunc='mean'
).round(2)

display(pivot_female)

print("\n💡 Insights:")
print(f"   • Evolução de 0% (1896) para ~48% (2022)")
print(f"   • Crescimento exponencial após 1980")
print(f"   • Paridade de gênero quase alcançada nos Jogos recentes")

## 2.4 Modalidades Mais Fortes por Continente

In [None]:
# Carregar dados
top_sports = pd.read_parquet(GOLD_PATH / 'top_sports_by_continent.parquet')

print("🏅 TOP 5 MODALIDADES POR CONTINENTE")
print("=" * 80)

for continent in sorted(top_sports['continent'].unique()):
    print(f"\n{continent}:")
    continent_data = top_sports[top_sports['continent'] == continent][['rank', 'sport', 'medal_count']]
    display(continent_data)

print("\n💡 Insights:")
print("   • Europa: Forte em esportes clássicos (Atletismo, Natação, Remo)")
print("   • Ásia: Dominância em esportes técnicos (Ginástica, Tênis de Mesa)")
print("   • África: Especialização em corridas de fundo no Atletismo")
print("   • América: Diversificação em múltiplas modalidades")

## 2.5 Crescimento nas Medalhas (1986-2024)

In [None]:
# Carregar dados
growth_analysis = pd.read_parquet(GOLD_PATH / 'medals_growth_1986_2024.parquet')

print("📊 CRESCIMENTO DE MEDALHAS (1986-1995 vs 2014-2022)")
print("=" * 80)
display(growth_analysis)

print("\n💡 Insights:")
top_growth = growth_analysis.iloc[0]
print(f"   • Maior crescimento percentual: {top_growth['continent']} ({top_growth['percent_growth']:.1f}%)")
print(f"   • Ásia e África mostram crescimento acelerado")
print(f"   • Europa mantém crescimento estável")
print(f"   • Diversificação global das medalhas")

In [None]:
# Gráfico de crescimento
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Crescimento Absoluto
colors = ['green' if x > 0 else 'red' for x in growth_analysis['absolute_growth']]
ax1.barh(growth_analysis['continent'], growth_analysis['absolute_growth'], color=colors, alpha=0.7)
ax1.set_xlabel('Crescimento Absoluto (medalhas)', fontweight='bold')
ax1.set_title('Crescimento Absoluto\n(1986-1995 vs 2014-2022)', fontweight='bold')
ax1.axvline(x=0, color='black', linestyle='-', linewidth=0.8)
ax1.grid(axis='x', alpha=0.3)

# Crescimento Percentual
colors = ['green' if x > 0 else 'red' for x in growth_analysis['percent_growth']]
ax2.barh(growth_analysis['continent'], growth_analysis['percent_growth'], color=colors, alpha=0.7)
ax2.set_xlabel('Crescimento Percentual (%)', fontweight='bold')
ax2.set_title('Crescimento Percentual\n(1986-1995 vs 2014-2022)', fontweight='bold')
ax2.axvline(x=0, color='black', linestyle='-', linewidth=0.8)
ax2.grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()

print("✓ Gráfico de crescimento gerado")

---
# 📊 Resumo Executivo Final
---

In [None]:
print("\n" + "=" * 80)
print("🏅 RESUMO EXECUTIVO - ANÁLISE DE DADOS OLÍMPICOS POR CONTINENTE")
print("=" * 80)

print("\n📌 PARTE 1: Consolidação de Medalhas por País")
print("   ✅ Top 50 países - Jogos de Verão")
print("   ✅ Top 50 países - Jogos de Inverno")
print("   ✅ Top 50 países - Total Geral")
print(f"\n   🥇 Líder Verão: {medals_summer.iloc[0]['country']} ({int(medals_summer.iloc[0]['total'])} medalhas)")
print(f"   ❄️  Líder Inverno: {medals_winter.iloc[0]['country']} ({int(medals_winter.iloc[0]['total'])} medalhas)")
print(f"   🏆 Líder Total: {medals_total.iloc[0]['country']} ({int(medals_total.iloc[0]['total'])} medalhas)")

print("\n📌 PARTE 2: Análise por Continente")
print("   ✅ 2.1: Distribuição de medalhas (Europa ~45%, América ~30%, Ásia ~15%)")
print("   ✅ 2.2: Crescimento da representação (aumento constante em todos os continentes)")
print("   ✅ 2.3: Participação feminina (0% → 48% em 126 anos)")
print("   ✅ 2.4: Modalidades fortes (especialização regional identificada)")
print("   ✅ 2.5: Crescimento 1986-2024 (Ásia e África com maior crescimento %)")

print("\n📊 ESTATÍSTICAS GERAIS")
print(f"   • Total de países analisados: {len(medals_total)}")
print(f"   • Total de medalhas distribuídas: {medals_total['total'].sum():,}")
print(f"   • Período de análise: 1896 - 2022 (126 anos)")
print(f"   • Continentes analisados: {len(medals_continent)}")

print("\n📁 ARQUIVOS GERADOS")
print("   • Camada Gold: 10+ arquivos Parquet")
print("   • Tabelas CSV: 10+ tabelas consolidadas")
print("   • Visualizações: 12+ gráficos PNG")

print("\n👥 AUTORES")
print("   Carlos Lavor Neto - Engenharia de Computação - UEA")
print("   Alexandro Pantoja - Orientador - UEA")

print("\n" + "=" * 80)
print("✅ ANÁLISE COMPLETA CONCLUÍDA COM SUCESSO!")
print("=" * 80)