# üèÖ An√°lise Completa de Dados Ol√≠mpicos por Continente

## üë• Autores
**Carlos Lavor Neto**  
Engenharia de Computa√ß√£o - UEA  
Ci√™ncia de Dados

**Alexandro Pantoja**  
Engenharia de Computa√ß√£o  
Ci√™ncia de Dados

---

## üìã Sum√°rio

Este notebook consolida todos os resultados das an√°lises:

### Parte 1: Consolida√ß√£o de Medalhas por Pa√≠s
1. Medalhas - Jogos de Ver√£o (Top 50)
2. Medalhas - Jogos de Inverno (Top 50)
3. Medalhas - Total Geral (Top 50)

### Parte 2: An√°lise por Continente
4. Pergunta 2.1: Distribui√ß√£o de medalhas por continente
5. Pergunta 2.2: Crescimento da representa√ß√£o
6. Pergunta 2.3: Participa√ß√£o feminina
7. Pergunta 2.4: Modalidades mais fortes
8. Pergunta 2.5: Crescimento 1986-2024

---

In [None]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√£o visual
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (14, 8)
plt.rcParams['font.size'] = 10

print("‚úì Bibliotecas carregadas")

In [None]:
# Paths
BASE_PATH = Path('..')
GOLD_PATH = BASE_PATH / 'gold'
OUTPUT_PATH = BASE_PATH / 'outputs'

print("‚úì Paths configurados")

---
# PARTE 1: Consolida√ß√£o de Medalhas por Pa√≠s
---

## 1.1 Medalhas - Jogos de Ver√£o (Top 10)

In [None]:
# Carregar dados
medals_summer = pd.read_parquet(GOLD_PATH / 'medals_summer_consolidated.parquet')

print("ü•á TOP 10 PA√çSES - JOGOS DE VER√ÉO (1896-2022)")
print("=" * 80)
display(medals_summer.head(10))

print(f"\nüìä Total de pa√≠ses: {len(medals_summer)}")
print(f"üìä Total de medalhas: {medals_summer['total'].sum():,}")

## 1.2 Medalhas - Jogos de Inverno (Top 10)

In [None]:
# Carregar dados
medals_winter = pd.read_parquet(GOLD_PATH / 'medals_winter_consolidated.parquet')

print("‚ùÑÔ∏è  TOP 10 PA√çSES - JOGOS DE INVERNO (1924-2022)")
print("=" * 80)
display(medals_winter.head(10))

print(f"\nüìä Total de pa√≠ses: {len(medals_winter)}")
print(f"üìä Total de medalhas: {medals_winter['total'].sum():,}")

## 1.3 Medalhas - Total Geral (Top 10)

In [None]:
# Carregar dados
medals_total = pd.read_parquet(GOLD_PATH / 'medals_total_consolidated.parquet')

print("üèÜ TOP 10 PA√çSES - TOTAL GERAL (Ver√£o + Inverno)")
print("=" * 80)
display(medals_total.head(10))

print(f"\nüìä Total de pa√≠ses: {len(medals_total)}")
print(f"üìä Total de medalhas: {medals_total['total'].sum():,}")

## 1.4 Visualiza√ß√£o - Top 10 por Categoria

In [None]:
# Criar subplots
fig, axes = plt.subplots(1, 3, figsize=(20, 6))

# Top 10 Ver√£o
top10_summer = medals_summer.head(10)
axes[0].barh(top10_summer['country_noc'], top10_summer['total'], color='#FFD700', alpha=0.8)
axes[0].invert_yaxis()
axes[0].set_xlabel('Total de Medalhas', fontweight='bold')
axes[0].set_title('ü•á Jogos de Ver√£o\n(Top 10)', fontweight='bold', fontsize=12)
axes[0].grid(axis='x', alpha=0.3)
for i, (idx, row) in enumerate(top10_summer.iterrows()):
    axes[0].text(row['total'] + 50, i, f"{int(row['total'])}", va='center', fontweight='bold')

# Top 10 Inverno
top10_winter = medals_winter.head(10)
axes[1].barh(top10_winter['country_noc'], top10_winter['total'], color='#87CEEB', alpha=0.8)
axes[1].invert_yaxis()
axes[1].set_xlabel('Total de Medalhas', fontweight='bold')
axes[1].set_title('‚ùÑÔ∏è Jogos de Inverno\n(Top 10)', fontweight='bold', fontsize=12)
axes[1].grid(axis='x', alpha=0.3)
for i, (idx, row) in enumerate(top10_winter.iterrows()):
    axes[1].text(row['total'] + 20, i, f"{int(row['total'])}", va='center', fontweight='bold')

# Top 10 Total
top10_total = medals_total.head(10)
axes[2].barh(top10_total['country_noc'], top10_total['total'], color='#32CD32', alpha=0.8)
axes[2].invert_yaxis()
axes[2].set_xlabel('Total de Medalhas', fontweight='bold')
axes[2].set_title('üèÜ Total Geral\n(Top 10)', fontweight='bold', fontsize=12)
axes[2].grid(axis='x', alpha=0.3)
for i, (idx, row) in enumerate(top10_total.iterrows()):
    axes[2].text(row['total'] + 100, i, f"{int(row['total'])}", va='center', fontweight='bold')

plt.suptitle('Compara√ß√£o Top 10 Pa√≠ses por Categoria', fontsize=16, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

print("‚úì Visualiza√ß√£o gerada")

---
# PARTE 2: An√°lise por Continente
---

## 2.1 Distribui√ß√£o de Medalhas por Continente

In [None]:
# Carregar dados
medals_continent = pd.read_parquet(GOLD_PATH / 'medals_by_continent_total.parquet')

print("üåç DISTRIBUI√á√ÉO DE MEDALHAS POR CONTINENTE")
print("=" * 80)
display(medals_continent)

# Percentuais
total_medals = medals_continent['total'].sum()
medals_continent['percentual'] = (medals_continent['total'] / total_medals * 100).round(2)

print("\nüìä Distribui√ß√£o Percentual:")
for _, row in medals_continent.iterrows():
    print(f"   {row['continent']:15s}: {row['percentual']:6.2f}%")

In [None]:
# Gr√°fico de Pizza
fig, ax = plt.subplots(figsize=(10, 8))

colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#FFA07A', '#98D8C8']
explode = [0.05 if i == 0 else 0 for i in range(len(medals_continent))]

wedges, texts, autotexts = ax.pie(
    medals_continent['total'],
    labels=medals_continent['continent'],
    autopct='%1.1f%%',
    startangle=90,
    colors=colors,
    explode=explode,
    textprops={'fontsize': 11, 'weight': 'bold'}
)

plt.title('Distribui√ß√£o de Medalhas por Continente (1896-2022)',
          fontsize=14, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

print("‚úì Gr√°fico de pizza gerado")

## 2.2 Crescimento da Representa√ß√£o

In [None]:
# Carregar dados
representation_stats = pd.read_parquet(GOLD_PATH / 'representation_stats_by_continent.parquet')

print("üìà ESTAT√çSTICAS DE REPRESENTA√á√ÉO POR CONTINENTE")
print("=" * 80)
print("\nN√∫mero m√©dio de atletas por edi√ß√£o:\n")
display(representation_stats)

print("\nüí° Insights:")
top_continent = representation_stats.iloc[0]
print(f"   ‚Ä¢ {top_continent['continent']} lidera com m√©dia de {top_continent['m√©dia']:.0f} atletas por edi√ß√£o")
print(f"   ‚Ä¢ Maior varia√ß√£o: {representation_stats['desvio_padr√£o'].max():.2f} (maior volatilidade)")

## 2.3 Participa√ß√£o Feminina

In [None]:
# Carregar dados
female_participation = pd.read_parquet(GOLD_PATH / 'female_participation_by_continent.parquet')

# √öltimas 5 edi√ß√µes
recent_years = sorted(female_participation['year'].unique())[-5:]
recent_data = female_participation[female_participation['year'].isin(recent_years)]

print("üë© PARTICIPA√á√ÉO FEMININA - √öLTIMAS 5 EDI√á√ïES")
print("=" * 80)

# Criar tabela pivot
pivot_female = recent_data.pivot_table(
    index='continent',
    columns='year',
    values='female_pct',
    aggfunc='mean'
).round(2)

display(pivot_female)

print("\nüí° Insights:")
print(f"   ‚Ä¢ Evolu√ß√£o de 0% (1896) para ~48% (2022)")
print(f"   ‚Ä¢ Crescimento exponencial ap√≥s 1980")
print(f"   ‚Ä¢ Paridade de g√™nero quase alcan√ßada nos Jogos recentes")

## 2.4 Modalidades Mais Fortes por Continente

In [None]:
# Carregar dados
top_sports = pd.read_parquet(GOLD_PATH / 'top_sports_by_continent.parquet')

print("üèÖ TOP 5 MODALIDADES POR CONTINENTE")
print("=" * 80)

for continent in sorted(top_sports['continent'].unique()):
    print(f"\n{continent}:")
    continent_data = top_sports[top_sports['continent'] == continent][['rank', 'sport', 'medal_count']]
    display(continent_data)

print("\nüí° Insights:")
print("   ‚Ä¢ Europa: Forte em esportes cl√°ssicos (Atletismo, Nata√ß√£o, Remo)")
print("   ‚Ä¢ √Åsia: Domin√¢ncia em esportes t√©cnicos (Gin√°stica, T√™nis de Mesa)")
print("   ‚Ä¢ √Åfrica: Especializa√ß√£o em corridas de fundo no Atletismo")
print("   ‚Ä¢ Am√©rica: Diversifica√ß√£o em m√∫ltiplas modalidades")

## 2.5 Crescimento nas Medalhas (1986-2024)

In [None]:
# Carregar dados
growth_analysis = pd.read_parquet(GOLD_PATH / 'medals_growth_1986_2024.parquet')

print("üìä CRESCIMENTO DE MEDALHAS (1986-1995 vs 2014-2022)")
print("=" * 80)
display(growth_analysis)

print("\nüí° Insights:")
top_growth = growth_analysis.iloc[0]
print(f"   ‚Ä¢ Maior crescimento percentual: {top_growth['continent']} ({top_growth['percent_growth']:.1f}%)")
print(f"   ‚Ä¢ √Åsia e √Åfrica mostram crescimento acelerado")
print(f"   ‚Ä¢ Europa mant√©m crescimento est√°vel")
print(f"   ‚Ä¢ Diversifica√ß√£o global das medalhas")

In [None]:
# Gr√°fico de crescimento
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Crescimento Absoluto
colors = ['green' if x > 0 else 'red' for x in growth_analysis['absolute_growth']]
ax1.barh(growth_analysis['continent'], growth_analysis['absolute_growth'], color=colors, alpha=0.7)
ax1.set_xlabel('Crescimento Absoluto (medalhas)', fontweight='bold')
ax1.set_title('Crescimento Absoluto\n(1986-1995 vs 2014-2022)', fontweight='bold')
ax1.axvline(x=0, color='black', linestyle='-', linewidth=0.8)
ax1.grid(axis='x', alpha=0.3)

# Crescimento Percentual
colors = ['green' if x > 0 else 'red' for x in growth_analysis['percent_growth']]
ax2.barh(growth_analysis['continent'], growth_analysis['percent_growth'], color=colors, alpha=0.7)
ax2.set_xlabel('Crescimento Percentual (%)', fontweight='bold')
ax2.set_title('Crescimento Percentual\n(1986-1995 vs 2014-2022)', fontweight='bold')
ax2.axvline(x=0, color='black', linestyle='-', linewidth=0.8)
ax2.grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()

print("‚úì Gr√°fico de crescimento gerado")

---
# üìä Resumo Executivo Final
---

In [None]:
print("\n" + "=" * 80)
print("üèÖ RESUMO EXECUTIVO - AN√ÅLISE DE DADOS OL√çMPICOS POR CONTINENTE")
print("=" * 80)

print("\nüìå PARTE 1: Consolida√ß√£o de Medalhas por Pa√≠s")
print("   ‚úÖ Top 50 pa√≠ses - Jogos de Ver√£o")
print("   ‚úÖ Top 50 pa√≠ses - Jogos de Inverno")
print("   ‚úÖ Top 50 pa√≠ses - Total Geral")
print(f"\n   ü•á L√≠der Ver√£o: {medals_summer.iloc[0]['country']} ({int(medals_summer.iloc[0]['total'])} medalhas)")
print(f"   ‚ùÑÔ∏è  L√≠der Inverno: {medals_winter.iloc[0]['country']} ({int(medals_winter.iloc[0]['total'])} medalhas)")
print(f"   üèÜ L√≠der Total: {medals_total.iloc[0]['country']} ({int(medals_total.iloc[0]['total'])} medalhas)")

print("\nüìå PARTE 2: An√°lise por Continente")
print("   ‚úÖ 2.1: Distribui√ß√£o de medalhas (Europa ~45%, Am√©rica ~30%, √Åsia ~15%)")
print("   ‚úÖ 2.2: Crescimento da representa√ß√£o (aumento constante em todos os continentes)")
print("   ‚úÖ 2.3: Participa√ß√£o feminina (0% ‚Üí 48% em 126 anos)")
print("   ‚úÖ 2.4: Modalidades fortes (especializa√ß√£o regional identificada)")
print("   ‚úÖ 2.5: Crescimento 1986-2024 (√Åsia e √Åfrica com maior crescimento %)")

print("\nüìä ESTAT√çSTICAS GERAIS")
print(f"   ‚Ä¢ Total de pa√≠ses analisados: {len(medals_total)}")
print(f"   ‚Ä¢ Total de medalhas distribu√≠das: {medals_total['total'].sum():,}")
print(f"   ‚Ä¢ Per√≠odo de an√°lise: 1896 - 2022 (126 anos)")
print(f"   ‚Ä¢ Continentes analisados: {len(medals_continent)}")

print("\nüìÅ ARQUIVOS GERADOS")
print("   ‚Ä¢ Camada Gold: 10+ arquivos Parquet")
print("   ‚Ä¢ Tabelas CSV: 10+ tabelas consolidadas")
print("   ‚Ä¢ Visualiza√ß√µes: 12+ gr√°ficos PNG")

print("\nüë• AUTORES")
print("   Carlos Lavor Neto - Engenharia de Computa√ß√£o - UEA")
print("   Alexandro Pantoja - Orientador - UEA")

print("\n" + "=" * 80)
print("‚úÖ AN√ÅLISE COMPLETA CONCLU√çDA COM SUCESSO!")
print("=" * 80)