#Os principais esportes dos jogos olímpicos de 2016: suas respectivas histórias e dados sobre seus atletas

![texto alternativo](https://destinonegocio.com/br/wp-content/uploads/sites/2/2016/01/ico-destinonegocio-olimpiadas-rio-2016-divulgacao.jpg)

Os Jogos Olímpicos datam de 776 a.C. tendo origem em Olímpia (Grécia antiga). No início, os jogos possuíam um caráter cultural e religioso, homenageando os deuses gregos, sendo Zeus o principal homenageado.

Os Jogos Olímpicos antigos foram uma série de competições realizadas entre representantes de várias cidades-estado da Grécia antiga, que caracterizou principalmente eventos atléticos, mas também de combate e corridas de bigas.**(Swaddling, Judith (2000). The Ancient Olympic Games)** A origem dos Jogos Olímpicos é repleta de lendas curiosas.

## Fase de exploração

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
sns.set_style()
cores_esporte = ['#BE81F7','#81F781','#F7BE81','#F78181','#F3F781']
paleta_esporte = sns.color_palette(cores_esporte)
cores_genero = ['#9999ff','#ff99cc']
paleta_genero = sns.color_palette(cores_genero)
color_orange = '#F7BE81'
color_red = '#F78181'
color_yellow = '#F3F781'

In [None]:
df=pd.read_csv("../input/olympic-games/athletes.csv")
df.head()

In [None]:
#Excluindo NaN
df.columns= ['id','nome','nacionalidade','genero','data_nascimento','altura','peso','esporte','ouro','prata','bronze']
df.fillna(df.mean())
df['peso'] = df['peso'].fillna(df['peso'].mean())
df['altura'] = df['altura'].fillna(df['altura'].mean())
df

## Quais são os 5 esportes com mais competidores nos jogos olímpicos de 2016?

In [None]:
df['esporte'].value_counts()[:5]

Antes de comparar cada esporte, iremos analisar suas distribuições individualmente:

In [None]:
df_agrupado = df[['altura', 'peso']].groupby(by=df['esporte']).mean().round(2)
df_agrupado

In [None]:
print(f'''Máximos e mínimos:
Altura: Máximo ({df_agrupado['altura'].max()}m) --- Mínimo ({df_agrupado['altura'].min()}m)
Peso: Máximo ({df_agrupado['peso'].max()}kg) --- Mínimo ({df_agrupado['peso'].min()}kg)''')

In [None]:
df_agrupado_medalhas = df[['ouro', 'prata', 'bronze']].groupby(by=df['esporte']).sum()
df_agrupado_medalhas.sort_values('ouro', ascending= False)

In [None]:
df_agrupado_genero = df[['altura', 'peso']].groupby(by=df['genero']).mean().round(2)
df_agrupado_genero.T

In [None]:
df_agrupado_genero_medalha = df[['ouro', 'prata', 'bronze']].groupby(by=df['genero']).sum()
df_agrupado_genero_medalha.T

Os homens ganharam mais medalhas do que as mulheres, mas essa comparação é inadequada pois sabemos que mais homens participaram da competição. Então a medida mais adequada seria fazer uma média das medalhas por participante de cada gênero

In [None]:
df_agrupado_genero_medalha = df[['ouro', 'prata', 'bronze']].groupby(by=df['genero']).mean()
df_agrupado_genero_medalha.T

## **ATLETISMO**

### Resumo da história do atletismo

Faz um certo sentido o atletismo estar sendo analisado primeiro, pois ele é considerado o primeiro esporte do ser humano, nos acompanhando desde os primórdios.Isso porque  sua prática corresponde a movimentos naturais do ser humano: correr, saltar e lançar. Esses movimentos acompanham a humanidade desde nossos ancestrais mais antigos, que utilizavam esses movimentos para se proteger e caçar. Nossa evolução se deve, em grande parte, ao aprimoramento desses movimentos e habilidades.

A primeira competição esportiva de que se tem notícia foi uma corrida, nos Jogos de 776 A.C., na cidade de Olímpia, na Grécia, que deram origem às Olimpíadas. A prova, chamada pelos gregos de "stadium", tinha cerca de 200 metros e o vencedor, [Coroebus](https://pt.qwe.wiki/wiki/Coroebus_of_Elis), é considerado o primeiro campeão olímpico da história.
 
Na moderna definição, o Atletismo é um esporte com provas de pista (corridas), de campo (saltos e lançamentos), provas combinadas, como decatlo e heptatlo (que reúnem provas de pista e de campo), o pedestrianismo (corridas de rua, como a maratona), corridas em campo (cross country), corridas em montanha, e marcha atlética.[[1]](http://www.cbat.org.br/atletismo/origem.asp)

### Gêneros

In [None]:
#Genero dos competidores do atletismo
homens_atl = df[(df['esporte'] == 'athletics') & (df['genero'] == 'male')]
mulheres_atl = df[(df['esporte'] == 'athletics') & (df['genero'] == 'female')]
homens_atl_porc = homens_atl.count()[0] / (mulheres_atl.count()[0] + homens_atl.count()[0])*100
mulheres_atl_porc = mulheres_atl.count()[0] / (mulheres_atl.count()[0] + homens_atl.count()[0])*100
print(f'''Homens no atletismo: {homens_atl.count()[0]} ({homens_atl_porc:.2f}%)
Mulheres no atletismo: {mulheres_atl.count()[0]} ({mulheres_atl_porc:.2f}%)''')

In [None]:
homens_atl = df[(df['esporte'] == 'athletics') & (df['genero'] == 'male')]
mulheres_atl = df[(df['esporte'] == 'athletics') & (df['genero'] == 'female')]
masc_atl = homens_atl.count()[0]
fem_atl = mulheres_atl.count()[1]
if masc_atl > fem_atl:
  primeiro = 'MASCULINO'
  segundo = 'FEMININO'
else:
  primeiro = 'FEMININO'
  segundo = 'MASCULINO'
gen_atl = [masc_atl, fem_atl]
fig = plt.figure(figsize=(7,7))
sns.set_style('ticks')
plt.pie(gen_atl, labels=[primeiro, segundo], colors= paleta_genero, autopct='%1.1f%%',shadow=True)
plt.title('Gênero dos atletas (Atletismo)',fontsize=21);

In [None]:
homens_atl['ouro'].sum()
homens_atl['prata'].sum()
homens_atl['bronze'].sum()
mulheres_atl['ouro'].sum()
mulheres_atl['prata'].sum()
mulheres_atl['bronze'].sum()
print(f'''HOMENS:
Ouro:    {homens_atl['ouro'].sum()}
Prata:   {homens_atl['prata'].sum()}
Bronze:  {homens_atl['bronze'].sum()}
Total:   {homens_atl['ouro'].sum() + homens_atl['prata'].sum() + homens_atl['bronze'].sum()}
Média por atleta: {(homens_atl['ouro'].sum() + homens_atl['prata'].sum() + homens_atl['bronze'].sum()) / homens_atl.count()[0]:.3f}

-----------
MULHERES:
Ouro:    {mulheres_atl['ouro'].sum()}
Prata:   {mulheres_atl['prata'].sum()}
Bronze:  {mulheres_atl['bronze'].sum()}
Total:   {mulheres_atl['ouro'].sum() + mulheres_atl['prata'].sum() + mulheres_atl['bronze'].sum()}
Média por atleta: {(mulheres_atl['ouro'].sum() + mulheres_atl['prata'].sum() + mulheres_atl['bronze'].sum()) / mulheres_atl.count()[0]:.3f}
''')

In [None]:
df_agrupado_medalha_atl = df[['ouro', 'prata', 'bronze']].groupby(by=df['esporte'] == 'athletics').sum()
df_agrupado_medalha_atl = df_agrupado_medalha_atl.drop(df_agrupado_medalha_atl[df_agrupado_medalha_atl.ouro > 100].index)
df_agrupado_medalha_atl

In [None]:
homens_atl['altura'].mean()
homens_atl['peso'].mean()
print(f'''HOMENS:
Altura média: {homens_atl['altura'].mean():.2f}
Peso médio:   {homens_atl['peso'].mean():.2f}

MULHERES:
Altura média: {mulheres_atl['altura'].mean():.2f}
Peso médio:   {mulheres_atl['peso'].mean():.2f}''')

### Nacionalidades


In [None]:
df[df['esporte']=='athletics']

In [None]:
df_aquat = df[(df['esporte']=='aquatics')]
aquat_nacionalidade =df_aquat['nacionalidade'].value_counts()[:10]
aquat_nacionalidade

In [None]:
fig = plt.figure(figsize=(15,5))
sns.countplot(x='nacionalidade',palette=sns.light_palette("purple",13,reverse=True), order = aquat_nacionalidade.index, data= df_aquat)
sns.despine(left=True)
plt.xlabel('')
plt.title('Países com mais competidores no atletismo',fontsize=21)
plt.ylabel('')
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.xlim(-0.5, 9.5);

In [None]:
df_atl = df[(df['esporte']=='athletics')]
atl_nacionalidade =df_atl['nacionalidade'].value_counts()[:10]
atl_nacionalidade

In [None]:
sns.set_style('white')
color_green = '#81F781'
color_purple = '#BE81F7'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='altura',linewidth= 2, order = atl_nacionalidade.index,color = color_purple, fliersize= False, data=df_atl)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidade',fontsize=15)
plt.title('Distribuição das alturas dos atletas no atletismo',fontsize=21)
plt.ylabel('Altura em metros',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(1.3,2.2);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='altura',linewidth= 2,hue='genero', order = atl_nacionalidade.index,palette=paleta_genero, fliersize= False, data=df_atl)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidade',fontsize=15)
plt.title('Distribuição da altura dos atletas no atletismo (por gênero)',fontsize=21)
plt.ylabel('Altura em metros',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(1.3,2.2);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='peso',linewidth= 2.5, order = atl_nacionalidade.index,color = color_purple, fliersize= False, data=df_atl)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidade',fontsize=15)
plt.title('Distribuição dos pesos dos atletas no atletismo',fontsize=21)
plt.ylabel('Peso em Kg',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(0,130);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='peso',linewidth= 2,hue='genero', order = atl_nacionalidade.index,palette=paleta_genero, fliersize= False, data=df_atl)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidade',fontsize=15)
plt.ylabel('Peso em Kg',fontsize=15)
plt.title('Distribuição dos pesos dos atletas do atletismo (por gênero)')
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(0,130);

## **ESPORTE AQUÁTICO**

### Resumo da história do esporte aquático


Os esportes aquáticos (ou aquatics, em inglês) é um grupo formado por 5 esportes, são eles:
Polo aquático, Natação, mergulho, nado sincronizado e o nado livre.

  O polo aquático foi criado no século XIX (por volta de 1870), na cidade de Londres (Inglaterra). Porém, há relatos que indicam que o esporte era praticado desde o século XVIII, principalmente na Inglaterra e na Escócia. Recebeu o nome de "polo", já que os primeiros jogadores atuavam montados em barris que pareciam cavalos e acertavam a bola com uma marreta. A disciplina apareceu nos Jogos Olímpicos de Verão de 1900, somente na vertente masculina, sendo realizada a inclusão das mulheres apenas em 2000. [[1]](https://pt.wikipedia.org/wiki/Polo_aqu%C3%A1tico)

  A natação surgiu como uma atividade recreativa competitiva na década de 1830 na Inglaterra. Em 1828, a primeira piscina coberta, St George's Baths, foi aberta ao público. Em 1837, a National Swimming Society realizava competições regulares de natação em seis piscinas artificiais, construídas em torno de Londres. [[2]](https://en.wikipedia.org/wiki/Swimming_(sport))


  Na sua forma mais elaborada e acrobática, o mergulho se originou na Europa no início do século XIX, como uma diversão de ginastas, e como um esporte competitivo no final do mesmo século. Tornou-se parte do programa de natação dos Jogos Olímpicos em 1904 e se desenvolveu rapidamente na primeira metade do século XX. [[3]](https://www.britannica.com/sports/diving)

  Quando a natação sincronizada se originou na virada do século XX, era conhecida como balé aquático. Os primeiros clubes de natação sincronizados foram registrados para começar por volta de 1891, quando se pensa que a primeira competição ocorreu em Berlim, Alemanha. [[4]](http://www.aquabatix.com/history-synchronised-swimming/#:~:text=When%20synchronised%20swimming%20first%20originated,took%20place%20in%20Berlin%2C%20Germany.)

  Às vezes, o início da era moderna da natação em águas abertas é realizado em 3 de maio de 1810, quando Lord Byron nadou vários quilômetros para atravessar o Hellespont (agora conhecido como Dardanelos) da Europa para a Ásia. Na primeira edição dos modernos Jogos Olímpicos de Atenas em 1896, a competição de natação foi realizada em águas abertas. [[5]]((https://en.wikipedia.org/wiki/Open_water_swimming#:~:text=The%20beginning%20of%20the%20modern,was%20held%20in%20open%20water.))

### Gêneros

In [None]:
homens_aqu = df[(df['esporte'] == 'aquatics') & (df['genero'] == 'male')]
mulheres_aqu = df[(df['esporte'] == 'aquatics') & (df['genero'] == 'female')]
homens_aqu_porc = homens_aqu.count()[0] / (mulheres_aqu.count()[0] + homens_aqu.count()[0])*100
mulheres_aqu_porc = mulheres_aqu.count()[0] / (mulheres_aqu.count()[0] + homens_aqu.count()[0])*100
print(f'''Homens no esporte aquático: {homens_aqu.count()[0]} ({homens_aqu_porc:.2f}%)
Mulheres no esporte aquático: {mulheres_aqu.count()[0]} ({mulheres_aqu_porc:.2f}%)''')

In [None]:
homens_aqu = df[(df['esporte'] == 'aquatics') & (df['genero'] == 'male')]
mulheres_aqu = df[(df['esporte'] == 'aquatics') & (df['genero'] == 'female')]
masc_aqu = homens_aqu.count()[0]
fem_aqu = mulheres_aqu.count()[1]
if masc_aqu > fem_aqu:
  primeiro = 'MASCULINO'
  segundo = 'FEMININO'
else:
  primeiro = 'FEMININO'
  segundo = 'MASCULINO'
gen_aqu = [masc_aqu, fem_aqu]
fig = plt.figure(figsize=(7,7))
sns.set_style('ticks')
plt.pie(gen_aqu, labels=[primeiro, segundo], colors= paleta_genero, autopct='%1.1f%%',shadow=True)
plt.title('Gênero dos atletas (esporte aquático)',fontsize=21);

In [None]:
homens_aqu['ouro'].sum()
homens_aqu['prata'].sum()
homens_aqu['bronze'].sum()
mulheres_aqu['ouro'].sum()
mulheres_aqu['prata'].sum()
mulheres_aqu['bronze'].sum()
print(f'''HOMENS:
Ouro:    {homens_aqu['ouro'].sum()}
Prata:   {homens_aqu['prata'].sum()}
Bronze:  {homens_aqu['bronze'].sum()}
Total:   {homens_aqu['ouro'].sum() + homens_aqu['prata'].sum() + homens_aqu['bronze'].sum()}
Média por atleta: {(homens_aqu['ouro'].sum() + homens_aqu['prata'].sum() + homens_aqu['bronze'].sum()) / homens_aqu.count()[0]:.3f}

-----------
MULHERES:
Ouro:    {mulheres_aqu['ouro'].sum()}
Prata:   {mulheres_aqu['prata'].sum()}
Bronze:  {mulheres_aqu['bronze'].sum()}
Total:   {mulheres_aqu['ouro'].sum() + mulheres_aqu['prata'].sum() + mulheres_aqu['bronze'].sum()}
Média por atleta: {(mulheres_aqu['ouro'].sum() + mulheres_aqu['prata'].sum() + mulheres_aqu['bronze'].sum()) / mulheres_aqu.count()[0]:.3f}
''')

In [None]:
df_agrupado_medalha_aqu = df[['ouro', 'prata', 'bronze']].groupby(by=df['esporte'] == 'aquatics').sum()
df_agrupado_medalha_aqu = df_agrupado_medalha_aqu.drop(df_agrupado_medalha_aqu[df_agrupado_medalha_aqu.ouro > 200].index)
df_agrupado_medalha_aqu

In [None]:
homens_aqu['altura'].mean()
homens_aqu['peso'].mean()
print(f'''HOMENS:
Altura média: {homens_atl['altura'].mean():.2f}
Peso médio:   {homens_atl['peso'].mean():.2f}

MULHERES:
Altura média: {mulheres_atl['altura'].mean():.2f}
Peso médio:   {mulheres_atl['peso'].mean():.2f}''')

### Nacionalidades


In [None]:
df_aquat = df[(df['esporte']=='aquatics')]
aquat_nacionalidade = df[(df['esporte']=='aquatics')]['nacionalidade'].value_counts()[:10]
aquat_nacionalidade

In [None]:
fig = plt.figure(figsize=(15,5))
sns.countplot(x='nacionalidade',palette=sns.light_palette("green",13,reverse=True), order = aquat_nacionalidade.index, data= df_aquat)
sns.despine(left=True)
plt.xlabel('')
plt.title('Países com mais competidores no esporte aquático',fontsize=21)
plt.ylabel('')
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.xlim(-0.5, 9.5);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='altura', order = aquat_nacionalidade.index,color = color_green, fliersize= False, data=df_aquat)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidade',fontsize=15)
plt.title('Distribuição das alturas dos atletas no esporte aquático',fontsize=21)
plt.ylabel('Altura em metros',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(1.3,2.3);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='altura',hue='genero', order = aquat_nacionalidade.index,palette=paleta_genero, fliersize= False, data=df_aquat)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidade',fontsize=15)
plt.title('Distribuição das alturas dos atletas no esporte aquático (por gênero)',fontsize=21)
plt.ylabel('Altura em metros',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(1.3,2.3);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='peso', order = aquat_nacionalidade.index,color = color_green, fliersize= False, data=df_aquat)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidade',fontsize=15)
plt.title('Distribuição dos pesos dos atletas no esporte aquático',fontsize=21)
plt.ylabel('Peso em Kg',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(0,120);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='peso',hue='genero', order = aquat_nacionalidade.index,palette=paleta_genero, fliersize= False, data=df_aquat)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidade',fontsize=15)
plt.title('Distribuição dos pesos dos atletas no esporte aquático (por gênero)',fontsize=21)
plt.ylabel('Altura em metros',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(0,130);

## **FOOTBALL**

### Resumo da historia

As práticas mais antigas da qual temos conhecimento data dos séculos III e II a. C. Mas o futebol moderno foi criado na Inglaterra com a formação da The Football Association, e suas regras datam do ano de 1863 e são a base do desporto na atualidade. Atualmente, o órgão que rege o futebol é a Federação Internacional de Futebol, conhecida pela sigla FIFA (em francês: Fédération Internationale de Football Association).

### Gêneros

In [None]:
homens_fut = df[(df['esporte'] == 'football') & (df['genero'] == 'male')]
mulheres_fut = df[(df['esporte'] == 'football') & (df['genero'] == 'female')]
homens_fut_porc = homens_fut.count()[0] / (mulheres_fut.count()[0] + homens_fut.count()[0])*100
mulheres_fut_porc = mulheres_fut.count()[0] / (mulheres_fut.count()[0] + homens_fut.count()[0])*100
print(f'''Homens no futebol: {homens_fut.count()[0]} ({homens_fut_porc:.2f}%)
Mulheres no futebol: {mulheres_fut.count()[0]} ({mulheres_fut_porc:.2f}%)''')

In [None]:
homens_fut = df[(df['esporte'] == 'football') & (df['genero'] == 'male')]
mulheres_fut = df[(df['esporte'] == 'football') & (df['genero'] == 'female')]
masc_fut = homens_fut.count()[0]
fem_fut = mulheres_fut.count()[1]
if masc_fut > fem_fut:
  primeiro = 'MASCULINO'
  segundo = 'FEMININO'
else:
  primeiro = 'FEMININO'
  segundo = 'MASCULINO'
gen_fut = [masc_fut, fem_fut]
fig = plt.figure(figsize=(7,7))
sns.set_style('ticks')
plt.pie(gen_fut, labels=[primeiro, segundo], colors= paleta_genero, autopct='%1.1f%%',shadow=True)
plt.title('Gênero dos atletas (football)',fontsize=21);

In [None]:
homens_fut['ouro'].sum()
homens_fut['prata'].sum()
homens_fut['bronze'].sum()
mulheres_fut['ouro'].sum()
mulheres_fut['prata'].sum()
mulheres_fut['bronze'].sum()
print(f'''HOMENS:
Ouro:    {homens_fut['ouro'].sum()}
Prata:   {homens_fut['prata'].sum()}
Bronze:  {homens_fut['bronze'].sum()}
Total:   {homens_fut['ouro'].sum() + homens_fut['prata'].sum() + homens_fut['bronze'].sum()}
Média por atleta: {(homens_fut['ouro'].sum() + homens_fut['prata'].sum() + homens_fut['bronze'].sum()) / homens_fut.count()[0]:.3f}

-----------
MULHERES:
Ouro:    {mulheres_fut['ouro'].sum()}
Prata:   {mulheres_fut['prata'].sum()}
Bronze:  {mulheres_fut['bronze'].sum()}
Total:   {mulheres_fut['ouro'].sum() + mulheres_fut['prata'].sum() + mulheres_fut['bronze'].sum()}
Média por atleta: {(mulheres_fut['ouro'].sum() + mulheres_fut['prata'].sum() + mulheres_fut['bronze'].sum()) / mulheres_fut.count()[0]:.3f}
''')

In [None]:
df_agrupado_medalha_fut = df[['ouro', 'prata', 'bronze']].groupby(by=df['esporte'] == 'football').sum()
df_agrupado_medalha_fut = df_agrupado_medalha_fut.drop(df_agrupado_medalha_fut[df_agrupado_medalha_fut.ouro > 100].index)
df_agrupado_medalha_fut

In [None]:
homens_fut['altura'].mean()
homens_fut['peso'].mean()
print(f'''HOMENS:
Altura média: {homens_atl['altura'].mean():.2f}
Peso médio:   {homens_atl['peso'].mean():.2f}

MULHERES:
Altura média: {mulheres_atl['altura'].mean():.2f}
Peso médio:   {mulheres_atl['peso'].mean():.2f}''')

### Nacionalidades

In [None]:
df_fut = df[df['esporte']=='football']
fut_nacionalidade = df_fut['nacionalidade'].value_counts()[:10]
fut_nacionalidade.index

In [None]:
df_fut['nacionalidade']

In [None]:
fig = plt.figure(figsize=(15,5))
sns.countplot(x='nacionalidade',palette=sns.light_palette("orange",13,reverse=True), order = fut_nacionalidade.index, data= df_fut)
sns.despine(left=True)
plt.xlabel('')
plt.title('Países com mais competidores no futebol',fontsize=21)
plt.ylabel('')
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.xlim(-0.5, 9.5);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='altura',linewidth= 2, order = fut_nacionalidade.index,color = color_yellow, fliersize= False, data=df_fut)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidades',fontsize=15)
plt.title('Distribuição das alturas dos atletas no futebol',fontsize=21)
plt.ylabel('Altura em metros',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(1.3,2.2);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='altura',linewidth= 2,hue='genero', order = fut_nacionalidade.index,palette=paleta_genero, fliersize= False, data=df_fut)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidades',fontsize=15)
plt.title('Distribuição das alturas dos atletas no futebol (por gênero)',fontsize=21)
plt.ylabel('Altura em metros',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(1.5,2);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='peso', order = fut_nacionalidade.index,color = color_yellow, fliersize= False, data=df_fut)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidade',fontsize=15)
plt.title('Distribuição dos pesos dos atletas no futebol',fontsize=21)
plt.ylabel('Peso em Kg',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(45,110);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='peso',hue='genero', order = fut_nacionalidade.index,palette=paleta_genero, fliersize= False, data=df_fut)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidades',fontsize=15)
plt.title('Distribuição dos pesos dos atletas no futebol (por gênero)',fontsize=21)
plt.ylabel('Peso em Kg',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(40,120);

## **REMO**


### Resumo da história

Na história da civilização, freqüentemente encontramos citações que documentam o papel do remo, seja como simples aplicação em canoagem, seja nas formas mais estruturadas de navegação e transporte, com preponderante importância no comércio e nas guerras. Por séculos foi o meio mais comum de transporte sobre a água até o advento da vela e, após, do motor a vapor.

Na história militar e comercial do antigo Egito e até na civilização Pré-Helênica de Creta encontram-se registros indiscutíveis da importância do remo, como por volta de ano 2000 a.C., quando um faraó egípcio conseguiu organizar uma frota de 400 navios movidos a remo.

O remo se organizou e o primeiro clube de remo surge também na Inglaterra. O Leander Club foi fundado em 1817 e é o mais antigo clube de remo do mundo. O remo passou a disseminar-se também no meio acadêmico e a partir de 1829 iniciou-se a disputa entre duas das mais tradicionais universidades britânicas.

Fonte: http://www.remosul.com/historia-do-remo/#:~:text=O%20remo%20se%20organizou%20e,das%20mais%20tradicionais%20universidades%20brit%C3%A2nicas.

### Gêneros

In [None]:
homens_rem = df[(df['esporte'] == 'rowing') & (df['genero'] == 'male')]
mulheres_rem = df[(df['esporte'] == 'rowing') & (df['genero'] == 'female')]
homens_rem_porc = homens_rem.count()[0] / (mulheres_rem.count()[0] + homens_rem.count()[0])*100
mulheres_rem_porc = mulheres_rem.count()[0] / (mulheres_rem.count()[0] + homens_rem.count()[0])*100
print(f'''Homens no remo: {homens_rem.count()[0]} ({homens_rem_porc:.2f}%)
Mulheres no remo: {mulheres_rem.count()[0]} ({mulheres_rem_porc:.2f}%)''')

In [None]:
homens_rem.count()[0]

In [None]:
homens_rem = df[(df['esporte'] == 'rowing') & (df['genero'] == 'male')]
mulheres_rem = df[(df['esporte'] == 'rowing') & (df['genero'] == 'female')]
masc_rem = homens_rem.count()[0]
fem_rem = mulheres_rem.count()[1]
if masc_rem > fem_rem:
  primeiro = 'MASCULINO'
  segundo = 'FEMININO'
else:
  primeiro = 'FEMININO'
  segundo = 'MASCULINO'
gen_rem = [masc_rem, fem_rem]
fig = plt.figure(figsize=(7,7))
sns.set_style('ticks')
plt.pie(gen_rem, labels=[primeiro, segundo], colors= paleta_genero, autopct='%1.1f%%',shadow=True)
plt.title('Gênero dos atletas (remo)',fontsize=21);

In [None]:
homens_rem['ouro'].sum()
homens_rem['prata'].sum()
homens_rem['bronze'].sum()
mulheres_rem['ouro'].sum()
mulheres_rem['prata'].sum()
mulheres_rem['bronze'].sum()
print(f'''HOMENS:
Ouro:    {homens_rem['ouro'].sum()}
Prata:   {homens_rem['prata'].sum()}
Bronze:  {homens_rem['bronze'].sum()}
Total:   {homens_rem['ouro'].sum() + homens_rem['prata'].sum() + homens_rem['bronze'].sum()}
Média por atleta: {(homens_rem['ouro'].sum() + homens_rem['prata'].sum() + homens_rem['bronze'].sum()) / homens_rem.count()[0]:.3f}

-----------
MULHERES:
Ouro:    {mulheres_rem['ouro'].sum()}
Prata:   {mulheres_rem['prata'].sum()}
Bronze:  {mulheres_rem['bronze'].sum()}
Total:   {mulheres_rem['ouro'].sum() + mulheres_rem['prata'].sum() + mulheres_rem['bronze'].sum()}
Média por atleta: {(mulheres_rem['ouro'].sum() + mulheres_rem['prata'].sum() + mulheres_rem['bronze'].sum()) / mulheres_rem.count()[0]:.3f}
''')

In [None]:
df_agrupado_medalha_rem = df[['ouro', 'prata', 'bronze']].groupby(by=df['esporte'] == 'rowing').sum()
df_agrupado_medalha_rem = df_agrupado_medalha_rem.drop(df_agrupado_medalha_rem[df_agrupado_medalha_rem.ouro > 100].index)
df_agrupado_medalha_rem

In [None]:
homens_rem['altura'].mean()
homens_rem['peso'].mean()
print(f'''HOMENS:
Altura média: {homens_atl['altura'].mean():.2f}
Peso médio:   {homens_atl['peso'].mean():.2f}

MULHERES:
Altura média: {mulheres_atl['altura'].mean():.2f}
Peso médio:   {mulheres_atl['peso'].mean():.2f}''')

### Nacionalidades




In [None]:
df_remo = df[(df['esporte']=='rowing')]
remo_nacionalidade = df_remo['nacionalidade'].value_counts()[:10]
remo_nacionalidade.index

In [None]:
df.head()
altura_nacionalidade = df[(df['esporte'] == 'rowing')]
altura_nacionalidade.nlargest(10,'ouro')
altura_nacionalidade = df.nlargest(10,'ouro')
altura_remo_pais = altura_nacionalidade.groupby(by=df['nacionalidade'])
altura_remo_pais.tail()
#AGORA FALTA O ESPORTE

In [None]:
fig = plt.figure(figsize=(15,5))
sns.countplot(x='nacionalidade',palette=sns.light_palette("red",13,reverse=True), order = remo_nacionalidade.index, data= df_remo)
sns.despine(left=True)
plt.xlabel('')
plt.title('Países com mais competidores no remo',fontsize=21)
plt.ylabel('')
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.xlim(-0.5, 9.5);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='altura',linewidth= 2, order = remo_nacionalidade.index,color = color_red, fliersize= False, data=df_remo)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidade',fontsize=15)
plt.title('Distribuição das alturas dos atletas no remo',fontsize=21)
plt.ylabel('Altura em metros',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(1.3,2.25);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='altura',hue= 'genero',linewidth=2, order = remo_nacionalidade.index,palette=paleta_genero, fliersize= False, data=df_remo)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidade',fontsize=15)
plt.title('Distribuição das alturas dos atletas no esporte aquático (por gênero)',fontsize=21)
plt.ylabel('Altura em metros',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(1.3,2.2);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='peso', order = remo_nacionalidade.index,color = color_red, fliersize= False, data=df_remo)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidade',fontsize=15)
plt.title('Distribuição dos pesos dos atletas no esporte aquático',fontsize=21)
plt.ylabel('Peso em Kg',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(0,130);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='peso',hue= 'genero', order = remo_nacionalidade.index,palette=paleta_genero, fliersize= False, data=df_remo)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidade',fontsize=15)
plt.title('Distribuição dos pesos dos atletas no esporte aquático (por gênero)',fontsize=21)
plt.ylabel('Peso em Kg',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(0,120);

## **CICLISMO**

### História do ciclismo

De acordo com o site Wikipedia, o Ciclismo surgiu a partir de 1890. Entre 1890 e 1900 nasceram grandes provas, que ao longo dos anos se tornaram clássicos, alguns ainda existem hoje como o Liège-Bastogne-Liège.

Em 1891 acontece a primeira grande prova de Audax, ou "Randonneurs", entre Paris e Brest (na França), ida e volta, num total de 1200Kms. A prova é a mais tradicional do ciclismo mundial e não tem caráter competitivo.

### Gêneros

In [None]:
homens_cic = df[(df['esporte'] == 'cycling') & (df['genero'] == 'male')]
mulheres_cic = df[(df['esporte'] == 'cycling') & (df['genero'] == 'female')]
homens_cic_porc = homens_cic.count()[0] / (mulheres_cic.count()[0] + homens_cic.count()[0])*100
mulheres_cic_porc = mulheres_cic.count()[0] / (mulheres_cic.count()[0] + homens_cic.count()[0])*100
print(f'''Homens no ciclismo: {homens_cic.count()[0]} ({homens_cic_porc:.2f}%)
Mulheres no ciclismo: {mulheres_cic.count()[0]} ({mulheres_cic_porc:.2f}%)''')

In [None]:
homens_cic = df[(df['esporte'] == 'cycling') & (df['genero'] == 'male')]
mulheres_cic = df[(df['esporte'] == 'cycling') & (df['genero'] == 'female')]
masc_cic = homens_cic.count()[0]
fem_cic = mulheres_cic.count()[1]
if masc_cic > fem_cic:
  primeiro = 'MASCULINO'
  segundo = 'FEMININO'
else:
  primeiro = 'FEMININO'
  segundo = 'MASCULINO'
gen_cic = [masc_cic, fem_cic]
fig = plt.figure(figsize=(7,7))
sns.set_style('ticks')
plt.pie(gen_cic, labels=[primeiro, segundo], colors= paleta_genero, autopct='%1.1f%%',shadow=True)
plt.title('Gênero dos atletas (ciclismo)',fontsize=21);

In [None]:
homens_cic['ouro'].sum()
homens_cic['prata'].sum()
homens_cic['bronze'].sum()
mulheres_cic['ouro'].sum()
mulheres_cic['prata'].sum()
mulheres_cic['bronze'].sum()
print(f'''HOMENS:
Ouro:    {homens_cic['ouro'].sum()}
Prata:   {homens_cic['prata'].sum()}
Bronze:  {homens_cic['bronze'].sum()}
Total:   {homens_cic['ouro'].sum() + homens_cic['prata'].sum() + homens_cic['bronze'].sum()}
Média por atleta: {(homens_cic['ouro'].sum() + homens_cic['prata'].sum() + homens_cic['bronze'].sum()) / homens_cic.count()[0]:.3f}

-----------
MULHERES:
Ouro:    {mulheres_cic['ouro'].sum()}
Prata:   {mulheres_cic['prata'].sum()}
Bronze:  {mulheres_cic['bronze'].sum()}
Total:   {mulheres_cic['ouro'].sum() + mulheres_cic['prata'].sum() + mulheres_cic['bronze'].sum()}
Média por atleta: {(mulheres_cic['ouro'].sum() + mulheres_cic['prata'].sum() + mulheres_cic['bronze'].sum()) / mulheres_cic.count()[0]:.3f}
''')

In [None]:
df_agrupado_medalha_cic = df[['ouro', 'prata', 'bronze']].groupby(by=df['esporte'] == 'cycling').sum()
df_agrupado_medalha_cic = df_agrupado_medalha_cic.drop(df_agrupado_medalha_cic[df_agrupado_medalha_cic.ouro > 100].index)
df_agrupado_medalha_cic

In [None]:
homens_cic['altura'].mean()
homens_cic['peso'].mean()
print(f'''HOMENS:
Altura média: {homens_atl['altura'].mean():.2f}
Peso médio:   {homens_atl['peso'].mean():.2f}

MULHERES:
Altura média: {mulheres_atl['altura'].mean():.2f}
Peso médio:   {mulheres_atl['peso'].mean():.2f}''')

### Nacionalidades



In [None]:
df_cic = df[(df['esporte']=='cycling')]
ciclismo_nacionalidade = df_cic['nacionalidade'].value_counts()[:10]
ciclismo_nacionalidade.index

In [None]:
fig = plt.figure(figsize=(15,5))
sns.countplot(x='nacionalidade',palette=sns.light_palette("yellow",13,reverse=True), order = ciclismo_nacionalidade.index, data= df_cic)
sns.despine(left=True)
plt.xlabel('')
plt.title('Países com mais competidores no ciclismo',fontsize=21)
plt.ylabel('')
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.xlim(-0.5, 9.5);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='altura', order = ciclismo_nacionalidade.index,color = color_yellow, fliersize= False, data=df_cic)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidade',fontsize=15)
plt.title('Distribuição das alturas dos atletas no ciclismo',fontsize=21)
plt.ylabel('Altura em metros',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(1.3,2.1);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='altura',hue='genero', order = ciclismo_nacionalidade.index,palette=paleta_genero, fliersize= False, data=df_cic)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidade',fontsize=15)
plt.title('Distribuição das alturas dos atletas no ciclismo',fontsize=21)
plt.ylabel('Altura em metros',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(1.3,2.2);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='peso', order = ciclismo_nacionalidade.index,color = color_yellow, fliersize= False, data=df)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidade',fontsize=15)
plt.title('Distribuição dos pesos dos atletas no ciclismo',fontsize=21)
plt.ylabel('Quilo em kg',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(30,140);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='nacionalidade', y='peso',hue='genero', order = ciclismo_nacionalidade.index,palette=paleta_genero, fliersize= False, data=df_cic)
plt.xlim(-0.5,9.5)
sns.despine(left=True)
plt.xlabel('Nacionalidades',fontsize=15)
plt.title('Distribuição dos pesos dos atletas no esporte aquático (por gênero)',fontsize=21)
plt.ylabel('Peso em Kg',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(30,110);

#Comparação entre os esportes
Violin com alturas
Violin com pesos



In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(10,5))
sns.boxplot(x='esporte', y='altura', order = df['esporte'].value_counts()[:5].index,palette= paleta_esporte, fliersize= False, data=df)
plt.xlim(-0.5,4.5)
sns.despine(left=True)
plt.xlabel('Esportes',fontsize=15)
plt.ylabel('Altura em metros',fontsize=15)
plt.title('Distribuição das alturas dos atletas',fontsize=21)
plt.xticks(fontsize=12)
plt.yticks(fontsize=11)
plt.ylim(1.3,2.2);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='esporte', y='altura',hue='genero', order = df['esporte'].value_counts()[:5].index,palette= paleta_genero, fliersize= False, data=df)
plt.xlim(-0.5,4.5)
sns.despine(left=True)
plt.xlabel('Nacionalidades',fontsize=15)
plt.ylabel('Altura em metros',fontsize=15)
plt.title('Distribuição das alturas os atletas (separados por gênero)',fontsize=21)
plt.xticks(fontsize=12)
plt.yticks(fontsize=11)
plt.ylim(1.44,2.2);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(10,5))
sns.boxplot(x='esporte', y='peso', order = df['esporte'].value_counts()[:5].index,palette= paleta_esporte, fliersize= False, data=df)
plt.xlim(-0.5,4.5)
sns.despine(left=True)
plt.xlabel('')
plt.title('Distribuição dos pesos dos atletas de cada esporte',fontsize=21)
plt.ylabel('Peso em Kg',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(0,130);

In [None]:
sns.set_style('white')
color_green = '#81F79F'
fig =plt.figure(figsize=(15,5))
sns.boxplot(x='esporte', y='peso',hue='genero', order = df['esporte'].value_counts()[:5].index,palette= paleta_genero, fliersize= False, data=df)
plt.xlim(-0.5,4.5)
sns.despine(left=True)
plt.xlabel('')
plt.title('Distribuição dos pesos dos atletas de cada esporte (por gênero)',fontsize=21)
plt.ylabel('Peso em Kg',fontsize=15)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.ylim(30,130);

Entender a história dos esportes que assistimos na televisão, lemos em revistas e acompanhamos nas redes sociais nos faz perceber que nada surge de repente, e que novas modalidades ainda irão surgir. Mas um bom curioso não se limiterá a investigar apenas a história, mas buscará entender o presente e como esses esportes são compostos. Para isso, uma boa observação dos dados deve se fazer presente.

Aqui, investigamos os atletas (suas nacionalidades, seus pesos e suas alturas), mas poderíamos investigar os países e suas variáveis econômicas, ou como os governos se relacionaram com os esportes nos últimos anos.

São questões a serem pensadas e investigadas, pois nunca saberemos tanto a ponto de não termos mais o que pesquisar.