# Análise dos Jogos Olímpicos (1896-2024)

## Projeto de Ciência de Dados - Olympics Data Lake

Este notebook apresenta a análise completa dos dados olímpicos utilizando uma arquitetura de data lake com camadas RAW, BRONZE e GOLD.

In [None]:
# Importações necessárias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import json
from datetime import datetime

# Configurações de visualização
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 6)

## 1. Carregamento dos Dados (Camada Bronze)

In [None]:
# Carregar dados da camada Bronze
medalhas = pd.read_parquet('bronze/medalhas_1986_2024.parquet')
modalidades = pd.read_parquet('bronze/modalidades_1986_2024.parquet')
atletas_sexo = pd.read_parquet('bronze/atletas_por_sexo.parquet')

print(f"Medalhas: {len(medalhas)} registros")
print(f"Modalidades: {len(modalidades)} registros")
print(f"Atletas por sexo: {len(atletas_sexo)} registros")

## 2. Análise Exploratória

In [None]:
# Visão geral dos dados de medalhas
print("=== Estrutura dos Dados de Medalhas ===")
print(medalhas.info())
print("\n=== Primeiras linhas ===")
medalhas.head()

## 3. Análise 1: Evolução das Medalhas ao Longo do Tempo

In [None]:
# Evolução das medalhas por ano
medals_by_year = medalhas.groupby(['year', 'medal']).size().unstack(fill_value=0)
medals_by_year['total'] = medals_by_year.sum(axis=1)

# Visualização
plt.figure(figsize=(14, 8))
medals_by_year[['Gold', 'Silver', 'Bronze']].plot(kind='line', marker='o')
plt.title('Evolução das Medalhas Olímpicas (1986-2024)', fontsize=16)
plt.xlabel('Ano', fontsize=12)
plt.ylabel('Número de Medalhas', fontsize=12)
plt.legend(['Ouro', 'Prata', 'Bronze'], fontsize=12)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Estatísticas descritivas
print("=== Estatísticas das Medalhas por Ano ===")
medals_by_year.describe()

## 4. Análise 2: Performance por País

In [None]:
# Top 15 países por medalhas
country_medals = medalhas.groupby(['country', 'medal']).size().unstack(fill_value=0)
country_medals['total'] = country_medals.sum(axis=1)
top_countries = country_medals.sort_values('total', ascending=False).head(15)

# Visualização
plt.figure(figsize=(14, 10))
top_countries[['Gold', 'Silver', 'Bronze']].plot(kind='barh', stacked=True)
plt.title('Top 15 Países - Distribuição de Medalhas (1986-2024)', fontsize=16)
plt.xlabel('Número de Medalhas', fontsize=12)
plt.legend(['Ouro', 'Prata', 'Bronze'], fontsize=12)
plt.tight_layout()
plt.show()

# Tabela dos top 10
print("=== Top 10 Países por Total de Medalhas ===")
top_countries.head(10)

## 5. Análise 3: Participação por Gênero

In [None]:
# Evolução da participação por gênero
gender_evolution = atletas_sexo.pivot(index='year', columns='gender', values='quantidade')
gender_evolution['total'] = gender_evolution.sum(axis=1)
gender_evolution['perc_feminino'] = (gender_evolution['F'] / gender_evolution['total']) * 100

# Visualização
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Gráfico 1: Números absolutos
gender_evolution[['M', 'F']].plot(kind='line', marker='o', ax=ax1)
ax1.set_title('Participação por Gênero - Números Absolutos', fontsize=14)
ax1.set_xlabel('Ano', fontsize=12)
ax1.set_ylabel('Número de Atletas', fontsize=12)
ax1.legend(['Masculino', 'Feminino'], fontsize=12)
ax1.grid(True, alpha=0.3)

# Gráfico 2: Percentual feminino
gender_evolution['perc_feminino'].plot(kind='line', marker='o', ax=ax2, color='red')
ax2.set_title('Evolução da Participação Feminina (%)', fontsize=14)
ax2.set_xlabel('Ano', fontsize=12)
ax2.set_ylabel('Percentual Feminino', fontsize=12)
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Estatísticas
print("=== Evolução da Participação Feminina ===")
gender_evolution[['perc_feminino']].describe()

## 6. Insights e Conclusões

In [None]:
# Principais insights
print("=== PRINCIPAIS INSIGHTS ===")
print(f"1. Período analisado: {medalhas['year'].min()} - {medalhas['year'].max()}")
print(f"2. Total de medalhas: {len(medalhas)}")
print(f"3. Países participantes: {medalhas['country'].nunique()}")
print(f"4. Modalidades: {medalhas['sport'].nunique()}")
print(f"5. País com mais medalhas: {top_countries.index[0]} ({top_countries.iloc[0]['total']} medalhas)")
print(f"6. Participação feminina atual: {gender_evolution['perc_feminino'].iloc[-1]:.1f}%")
print(f"7. Crescimento da participação feminina: {gender_evolution['perc_feminino'].iloc[-1] - gender_evolution['perc_feminino'].iloc[0]:.1f} pontos percentuais")

## 7. Exportação dos Resultados (Camada Gold)

In [None]:
# Salvar resultados na camada Gold
import os
os.makedirs('gold', exist_ok=True)

# Salvar tabelas resumo
medals_by_year.to_csv('gold/evolucao_medalhas_ano.csv')
top_countries.to_csv('gold/top_paises_medalhas.csv')
gender_evolution.to_csv('gold/participacao_genero.csv')

print("Resultados salvos na pasta gold/")
print("- evolucao_medalhas_ano.csv")
print("- top_paises_medalhas.csv")
print("- participacao_genero.csv")