<h1>Visualização: 120 anos das olimpíadas</h1>


<p>Este projeto engloba os dados das olimpiadas realizadas nos últimos 120 anos.</p>

In [2]:
import pandas as pd

In [3]:
# carregando dados para o Google Colab
with open("atletas.txt") as file:
    atleta = pd.read_csv(file)
with open("noc_regions.csv") as file:
    regiao = pd.read_csv(file)

In [None]:
atleta.head()

In [None]:
regiao.head()

**União dos dataframes**

In [None]:
olim = pd.merge(atleta, regiao, on='NOC', how='left')

In [None]:
olim.head()

In [None]:
olim.shape

**Verificando quais são as colunas**

In [None]:
olim.columns

**Renomeando as colunas**

In [None]:
olim = olim.rename(columns={'Name':'Nome', 'Sex':'Sexo', 'Age':'Idade', 'Height':'Altura', 'Weight':'Peso', 'Team':'Time', 'NOC':'Sigla', 'Games':'Jogo',
       'Year':'Ano', 'Season':'Temporada', 'City':'cidade', 'Sport':'Esporte', 'Event':'Evento', 'Medal':'Medalha', 'region':'Pais', 'notes':'Obs'})

In [None]:
olim.head()

**Removendo duplicidade**

In [None]:
olim = olim.drop_duplicates()

In [None]:
olim.shape

**Quantidade de idades, alturas e peso nulas**

In [None]:
olim.isnull().sum()

**Verificando alturas nulas**

In [None]:
olim[olim['Altura'].isnull()].head()

**Removendo valores nulos**

In [None]:
olim = olim.dropna(subset=['Peso'])
olim = olim.dropna(subset=['Altura'])
olim = olim.dropna(subset=['Idade'])

In [None]:
olim.isnull().sum()

In [None]:
olim.shape

**Explorando os dados**

In [None]:
olim['Sexo'].unique()

In [None]:
olim['Sexo'].value_counts()

**Quantidade em percentual**

In [None]:
olim['Sexo'].value_counts(normalize=True)

In [None]:
olim['cidade'].unique()

In [None]:
olim['cidade'].value_counts()

In [None]:
olim['cidade'].value_counts(normalize=True)

**Verificando elementos máximos**

In [None]:
olim['Altura'].max()

In [None]:
olim['Altura'].mean()

In [None]:
olim['Altura'].describe()

In [None]:
olim['Altura'].sort_values(ascending=False).head(5)

In [None]:
olim['Altura'].sort_values(ascending=True).head(10)

In [None]:
olim[olim['Altura'] > 200].head()

**Mudando nome do País**

In [None]:
olim['Time'] = olim['Time'].str.replace('Netherlands','Holanda')

**Utilizando dataframe novo**

In [None]:
olimPais = olim

In [None]:
olimPais.shape

In [None]:
olimPais = olimPais.drop(columns=['ID','Nome','Peso','Altura','Idade','Sexo'])

In [None]:
olimPais.head()

In [None]:
olimPais.shape

In [None]:
olimPais = olimPais.drop_duplicates()

In [None]:
olimPais.shape

In [None]:
olimPais[(olimPais['Medalha'] == 'Gold')].groupby(['Ano','Medalha'])[['Medalha']].count()

**Visualização dos dados**

In [None]:
olimPais[(olimPais['Medalha'] == 'Gold')].groupby(['Ano'])[['Medalha']].count().plot()

**Dataframe resumido**

In [None]:
resumo = olimPais[(olimPais['Medalha'] == 'Gold')].groupby(['Ano'])[['Medalha']].count()

In [None]:
resumo.head()

**Gráfico em linha**

In [None]:
resumo.plot()

***Gráfico em barra***

In [None]:
resumo.plot(kind='bar')

***Gráfico em barra horizontal***

In [None]:
resumo.plot(kind='barh')

**Alterando tamanho da imagem:**

In [None]:
resumo.plot(kind='bar', figsize=(11,5))

In [None]:
resumo.plot(kind='bar', figsize=(15,3))

**Colocando grande:**

In [None]:
resumo.plot(kind='bar', figsize=(11,5), grid=True)

**Rotacionando informação no eixo x:**

In [None]:
resumo.plot(kind='bar', figsize=(11,5), grid=True, rot=45)

**Mudando a cor para preto:**

In [None]:
resumo.plot(kind='bar', figsize=(11,5), grid=True, rot=45, color='black')

**Adicionando título:**

In [None]:
resumo.plot(kind='bar', figsize=(11,5), grid=True, rot=45, color='black', title='Categorias por ano')

**Ordenando quantidade de medalhas por ano**

In [None]:
resumo.sort_values(by = 'Medalha', ascending = False)

**Gerando gráfico com nova ordenação:**

In [None]:
resumo.sort_values(by = 'Medalha', ascending=False).plot(kind='bar', figsize=(11,5), grid=True, rot=45, color='black', title='Categorias por ano')

In [None]:
olimPais[(olimPais['Sigla'] == 'BRA')].groupby(['Medalha'])[['Medalha']].count()

**Agrupando quantidade de medalhas gerais obtidas pelo Brasil**

In [None]:
resumoP = olimPais[(olimPais['Sigla'] == 'BRA')].groupby(['Medalha'])[['Medalha']].count()

resumoP.head()

**Gerando gráfico pizza:**

In [None]:
resumoP.plot(kind='pie', subplots=True)

**Separando medalha de ouro em uma parte: (explodindo o gráfico)**

In [None]:
resumoP.plot(kind='pie', subplots=True, explode=(0,0.1,0))

**Trabalhando coma altura dos homens brasileiros:**

In [None]:
olim[(olim['Sexo'] == 'M') & (olim['Sigla'] == 'BRA')].groupby(['Ano','Pais'])['Altura'].max().plot()

In [None]:
olim[(olim['Sexo'] == 'M') & (olim['Sigla'] == 'BRA')].groupby(['Ano','Pais'])['Altura'].max().plot(kind='bar')

**Criando dataframe com o filtro criado:**

In [None]:
altura = olim[(olim['Sexo'] == 'M') & (olim['Sigla'] == 'BRA')].groupby(['Ano','Pais'])['Altura'].max()

In [None]:
altura.plot(kind='bar', figsize=(11,5))

**Utilizando gráfico de dispersão de altura por ano:**

In [None]:
olim.plot.scatter(x='Ano',y='Altura', c='DarkBlue')

**Gráfico de altura pelo peso considerando o esporte Volei:**


In [None]:
olim[(olim['Sexo']=='M') & (olim['Esporte'] == 'Volleyball')].plot.scatter(x='Peso',y='Altura', c='DarkBlue')

**Gráfico de altura pela idade considerando o esporte Volei:**

In [None]:
olim[(olim['Sexo']=='M') &(olim['Esporte'] == 'Volleyball')].plot.scatter(x='Idade',y='Altura', c='DarkBlue')

**Gráfico de altura pelo peso de todas as categorias:**

In [None]:
olim[(olim['Sexo']=='M')].plot.scatter(x='Peso',y='Altura', c='DarkBlue')

In [None]:
olim['Esporte'].unique()

**Vamos considerar dois esportes: Volei e atletismo**

In [None]:
colorido = olim[(olim['Sexo']=='M') & ((olim['Esporte'] == 'Athletics') | (olim['Esporte'] == 'Volleyball'))]

In [None]:
colorido['Esporte'].unique()

In [None]:
colorido.plot.scatter(x='Peso', y='Altura', c='DarkBlue')

In [None]:
colormap = {'Volleyball':'blue','Athletics':'red'}
cores = [colormap[x] for x in colorido['Esporte']]
colorido.plot.scatter(x='Peso', y= 'Altura', color=cores)

**Adicionando mais um esporte: tenis**

In [None]:
colorido = olim[(olim['Sexo']=='M') & ((olim['Esporte'] == 'Athletics') | (olim['Esporte'] == 'Volleyball') | (olim['Esporte']=='Tennis'))]

In [None]:
colormap = {'Volleyball':'blue','Athletics':'red','Tennis':'green'}
cores = [colormap[x] for x in colorido['Esporte']]
colorido.plot.scatter(x='Peso', y= 'Altura', color=cores)

**Alterando as cores:**

In [None]:
colormap = {'Volleyball':'green','Athletics':'red','Tennis':'blue'}
cores = [colormap[x] for x in colorido['Esporte']]
colorido.plot.scatter(x='Peso', y= 'Altura', color=cores)

In [None]:
import seaborn as sns

**Trabalhando com as alturas de cada esporte em conjunto:**

In [None]:
sns.stripplot(data=colorido, x='Esporte', y='Altura')

**Gráfico similar ao anterior porém com a distribuição no eixo x melhorada:**

In [None]:
sns.swarmplot(data=colorido, x='Esporte', y='Altura')

**Gráfico de regressão linear:**

In [None]:
sns.lmplot(data=colorido, x='Peso', y='Altura', hue='Esporte', col='Esporte')

**Gráfico comparativo das informações:**

In [None]:
sns.pairplot(colorido, hue='Esporte')

**Gráfico de distribuição ao longo dos anos:**

O Seaborn Displot também pode ser combinado com o Kernel Density Estimate Plot para estimar a probabilidade de distribuição de variáveis contínuas em vários valores de dados. O parâmetro kde é definido como True para habilitar o gráfico de densidade do kernel junto com o displot

In [None]:
sns.displot(colorido['Altura'], kde=False)

In [None]:
sns.displot(colorido['Altura'], kde=True)

In [None]:
sns.boxplot(data=colorido, x='Esporte', y='Altura')