# ICD - Projeto Final: Estudos Olímpicos

By: Bruce Morrow, Délisson Gonçalves, Gustavo Rocha, Ricardo Costa


## 1. Introdução com Motivação e Pergunta de Pesquisa

Estudos da atualidade apontam os Jogos Olímpicos como o maior evento esportivo mundial da atualidade segundo Carneiro (2018), e para justificar essa afirmação grande parte desses estudos utiliza como parâmetro a cobertura da mídia, Os Jogos Olímpicos e os Jogos Paralímpicos são, respectivamente, o primeiro e o terceiro maior evento do mundo, do ponto de vista de audiência televisiva e dos números de logística e produção.
Um evento dessa magnitude consequentemente tende a gerar um conjunto muito grande de dados que podem ser analisados e para responder perguntas sobre a evolução das Olimpíadas com base em gênero, peso, altura e outros fatores que serão aqui abordados.

As principais perguntas que pretendem ser respondidas ao decorrer deste relatório sobre dados olímpicos são:

* Em qual idade os atletas estão, em média, no seu auge físico?
* Como características físicas, como altura e peso, influenciam nos diferentes esportes?
* Quais mudanças podem ser percebidas com o passar do tempo e a evolução da medicina esportiva?
* A evolução do esporte segue o mesmo passo dentre os países participantes ou existe uma divisão entre eles?

## 2. Metodologia

Após várias pesquisas em diversas bases de dados sobre o assunto, o grupo escolheu o Dataset "120 years of Olympic history: athletes and results" disponível aqui, que se trata de um conjunto de dados históricos sobre os Jogos Olímpicos modernos, (incluindo todos os Jogos de Atenas 1896 a Rio 2016).

O arquivo do dataset escolhido (Athlete_events.csv) contém 271.116 linhas e 15 colunas. Cada linha corresponde a um atleta individual competindo em um evento olímpico individual (eventos-atleta). As colunas são:

1. ID - Número único para cada atleta
2. Nome - nome do atleta
3. Sexo - M ou F, sendo Masculino e Feminino respectivamente
4. Idade - idade do atleta durante aquela competição
5. Altura - altura em centímetros do atleta durante aquela competição
6. Peso - peso em quilogramas do atleta durante aquela competição
7. Equipe - nome da equipe
8. NOC - Código de 3 letras do Comitê Olímpico Nacional que representa o país/time
9. Jogos - ano e temporada
10. Ano - ano dos jogos
11. Temporada - verão ou inverno
12. Cidade - cidade-sede do evento
13. Esporte - esporte
14. Evento - evento
15. Medalha - qual medalha o atleta ganhou (ouro, prata, bronze ou N/A)

Este conjunto de dados oferece a oportunidade de fazer perguntas sobre como as Olimpíadas evoluíram ao longo do tempo, incluindo perguntas sobre a participação e o desempenho das mulheres, diferentes nações e diferentes esportes e eventos. 

## 3. Métodos e modelos

/// Preencher aqui


## 4. Resultados


### Análise exploratória dos dados

#### Leitura da base de dados ```athlete_events.csv```

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [4]:
athlete_events_df = pd.read_csv("athlete_events.csv")
athlete_events_df

FileNotFoundError: ignored

In [None]:
athlete_events_df.describe()

In [None]:
print(athlete_events_df.Sport.unique())
print(athlete_events_df.NOC.unique())

In [None]:
# athlete_events_df.sort_values(by='Year', inplace=True)
# athlete_events_df.head()

#### Leitura da base de dados ```Olympics.tsv```

In [None]:
olympics_df = pd.read_csv("Olympics.tsv", sep='\t')
olympics_df

In [None]:
olympics_df.describe()

In [None]:
print(olympics_df.Sport.unique())
print(olympics_df.Country.unique())

#### Análise da idade al longo dos anos

In [None]:
df = athlete_events_df[['Year', 'Medal', 'Age', 'Sex']]
df.dropna(subset=['Age'], inplace=True)
df['Medal'] = ~pd.isnull(df['Medal'])
df = df.groupby(['Year', 'Sex', 'Medal']).mean().reset_index()[['Year', 'Age', 'Sex', 'Medal']]
men_winner = df[df['Sex'] == 'M'][df['Medal']]
men_loser = df[df['Sex'] == 'M'][~df['Medal']]
women_winner = df[df['Sex'] == 'F'][df['Medal']]
women_loser = df[df['Sex'] == 'F'][~df['Medal']]
plt.figure(figsize=(20,10))
plt.plot(men_winner['Year'], men_winner['Age'], label='Men winners')
plt.plot(men_loser['Year'], men_loser['Age'], label='Men losers')
plt.plot(women_winner['Year'], women_winner['Age'], label='women winners')
plt.plot(women_loser['Year'], women_loser['Age'], label='Women losers')
plt.legend()
plt.show()

### Testes de hipotese

In [None]:
#Testes de hipotese

### Regressão / Classificação

In [None]:
x = df['midparentHeight'].values
y = df['childHeight'].values

plt.scatter(x, y, alpha=0.8, edgecolors='k', s=80)
plt.xlabel('Altura média dos pais')
plt.ylabel('Altura dos filhos')
plt.title('Regressão linear simples')
despine()


## 5. Previsões

## 6. Conclusões

## Referências Bibliográficas

RGRIFFIN. **120 Years of Olympic History**: Athletes and Results. Kaggle, 15 jun. 2018. Disponível em < www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results > Acesso em 22 mar. 2021.
<br/>
<br/>
CARNEIRO, Juliana da Silva Pinto. **O lugar da cultura nos Jogos Olímpicos**: uma análise dos Jogos de Berlim (1936). FuLiA / UFMG, v. 3, n. 1, jan.-abr., 2018 – PARALELAS.



