# Olimpíadas

Os jogos olímpicos têm esse nome porque se referem a uma cidade da Antiga Grécia chamada Olímpia, na qual eram praticados jogos esportivos nos momentos de trégua entre uma guerra e outra. Tal prática também estava associada a rituais religiosos.

Com o declínio da civilização grega, as competições esportivas tornaram-se esparsas nas civilizações subsequentes. A proposta de resgatar a prática das olimpíadas e o seu sentido principal, a celebração da paz – ou da trégua – entre as nações por meio do esporte, só aconteceu no fim do século XIX, por intermédio de Pierre de Frédy, conhecido como Barão de Coubertin. Ele propôs a criação do evento, e em 1896 ocorreu sua primeira edição em Atenas, na Grécia. Mesmo com algumas interrupções devido as guerras, os jogos acabaram consolidando-se, reunindo os grandes atletas do mundo todo até os dias de hoje.

Os dados desse dataset não contemplam as olimpíadas de Tokyo 2020. O dataset original, é bem grande, e tem informações inclusive de atletas que não ganharam medalhas. Para esta análise, fiz dois recortes: um com apenas os medalhistas do mundo todo, e outro apenas com os atletas que competiram pelo Brasil (medalhistas ou não).

Temos as colunas da tabela e seus tipos:

- ID (quantitativo discreto)
- Name, Team, NOC, Games, Season, City, Sport, Event (qualitativo nominal)
- Sex (qualitativo nominal / dicotômico: F, M)
- Age, Year (quantitativo discreto)
- Height, Weight (quantitativo contínuo ou discreto, já que estão coletados como valores inteiros)
- Medal (qualitativo ordinal: ouro, prata e bronze)

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [5]:
df = pd.read_csv('data/olimpiadas_atenas_1896_rio_2016.csv', delimiter=';')

In [9]:
df.shape # linhas e colunas

(39783, 15)

In [3]:
df.describe()

Unnamed: 0,ID,Age,Height,Year
count,39783.0,39051.0,31072.0,39783.0
mean,69407.051806,25.925175,177.554197,1973.943845
std,38849.980737,5.914026,10.893723,33.822857
min,4.0,10.0,136.0,1896.0
25%,36494.0,22.0,170.0,1952.0
50%,68990.0,25.0,178.0,1984.0
75%,103461.5,29.0,185.0,2002.0
max,135563.0,73.0,223.0,2016.0


In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39783 entries, 0 to 39782
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      39783 non-null  int64  
 1   Name    39783 non-null  object 
 2   Sex     39783 non-null  object 
 3   Age     39051 non-null  float64
 4   Height  31072 non-null  float64
 5   Weight  30456 non-null  object 
 6   Team    39783 non-null  object 
 7   NOC     39783 non-null  object 
 8   Games   39783 non-null  object 
 9   Year    39783 non-null  int64  
 10  Season  39783 non-null  object 
 11  City    39783 non-null  object 
 12  Sport   39783 non-null  object 
 13  Event   39783 non-null  object 
 14  Medal   39783 non-null  object 
dtypes: float64(2), int64(2), object(11)
memory usage: 4.6+ MB


As colunas com valores vazios são idade, altura e peso, que até então não pensei se vou utilizá-las ou não.

Quais edições dos jogos temos aqui?

In [26]:
pd.unique(df[['Games', 'City']].values.ravel())

array(['1900 Summer', 'Paris', '1920 Summer', 'Antwerpen', '2014 Winter',
       'Sochi', '1948 Summer', 'London', '1952 Summer', 'Helsinki',
       '1992 Winter', 'Albertville', '1994 Winter', 'Lillehammer',
       '2002 Winter', 'Salt Lake City', '2006 Winter', 'Torino',
       '2008 Summer', 'Beijing', '1988 Summer', 'Seoul', '1996 Summer',
       'Atlanta', '1952 Winter', 'Oslo', '1960 Winter', 'Squaw Valley',
       '1912 Summer', 'Stockholm', '1956 Summer', 'Melbourne',
       '2016 Summer', 'Rio de Janeiro', '2012 Summer', '2000 Summer',
       'Sydney', '2004 Summer', 'Athina', '1980 Summer', 'Moskva',
       '1984 Summer', 'Los Angeles', '1992 Summer', 'Barcelona',
       '1936 Summer', 'Berlin', '1906 Summer', '1960 Summer', 'Roma',
       '1964 Summer', 'Tokyo', '1972 Summer', 'Munich', '1924 Summer',
       '1924 Winter', 'Chamonix', '1904 Summer', 'St. Louis',
       '1932 Summer', '1928 Winter', 'Sankt Moritz', '1988 Winter',
       'Calgary', '1968 Winter', 'Grenoble', '

O que podemos explorar aqui...

Podemos ver a quantidade de medalhas por país, a pontuação dos países por diferentes tipos de rankings, verificar diferenças de medalhas entre homens e mulheres, mapear as categorias esportivas ao longo do tempo, etc.

In [11]:
df.head()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
0,4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold
1,15,Arvo Ossian Aaltonen,M,30.0,,,Finland,FIN,1920 Summer,1920,Summer,Antwerpen,Swimming,Swimming Men's 200 metres Breaststroke,Bronze
2,15,Arvo Ossian Aaltonen,M,30.0,,,Finland,FIN,1920 Summer,1920,Summer,Antwerpen,Swimming,Swimming Men's 400 metres Breaststroke,Bronze
3,16,Juhamatti Tapio Aaltonen,M,28.0,184.0,85.0,Finland,FIN,2014 Winter,2014,Winter,Sochi,Ice Hockey,Ice Hockey Men's Ice Hockey,Bronze
4,17,Paavo Johannes Aaltonen,M,28.0,175.0,64.0,Finland,FIN,1948 Summer,1948,Summer,London,Gymnastics,Gymnastics Men's Individual All-Around,Bronze


--- 

### Referências

[120 years of Olympic history: athletes and results](https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results)

[Brasil Escola - Olimpíadas](https://brasilescola.uol.com.br/educacao-fisica/olimpiadas.htm)

[Topend Sports - Medal Tally Ranking Systems](https://www.topendsports.com/events/summer/medal-tally/rankings.htm)