# Análise de Dados: Olimpíadas

## Um estudo sobre o Jogos Olímpicos em suas 35 edições

### Para este estudo serão usados os microdados disponíveis em
https://basedosdados.org/dataset/mundo-kaggle-olimpiadas

Neste repositório farei a mesma análise usando comandos SQL,quando aplicáveis; python e Excel, já que o número de linhas é limitado, além de Power BI para visualização.

Os comandos SQL serão espelhados neste próprio caderno abaixo do código python ficando a cargo do leitor reproduzi-los no Google cloud.

Os dados dessa base estão em uma única tabela com 269718 linhas, apresentados desta forma:

In [5]:
import pandas as pd                    #importando a biblioteca com o nome de pd
df = pd.read_csv("olimpiadas.csv")     #importando o arquivo csv como um Dataframe, formato da própria bilbioteca
                                       # usei csv porque é como os dados estão mas poderia ter usado separado por tabulação, o que precisaria de um delimitador
                                       # seria df = pd.read_csv("pokemon_data.txt", delimiter = "\t") sendo "\t" o delimitador
df.head()  

Unnamed: 0,ano,edicao,cidade_sede,pais,delegacao,equipe,id_atleta,nome_atleta,sexo,idade,altura,peso,esporte,evento,medalha
0,1896,Summer,Athina,Australia,AUS,Australia,35698,"Edwin Harold ""Teddy"" Flack",M,22.0,,,Athletics,"Athletics Men's 1,500 metres",Gold
1,1896,Summer,Athina,Australia,AUS,Australia,35698,"Edwin Harold ""Teddy"" Flack",M,22.0,,,Athletics,Athletics Men's 800 metres,Gold
2,1896,Summer,Athina,Australia,AUS,Australia,35698,"Edwin Harold ""Teddy"" Flack",M,22.0,,,Athletics,Athletics Men's Marathon,
3,1896,Summer,Athina,Australia,AUS,Australia/Great Britain,35698,"Edwin Harold ""Teddy"" Flack",M,22.0,,,Tennis,Tennis Men's Doubles,Bronze
4,1896,Summer,Athina,Australia,AUS,Australia,35698,"Edwin Harold ""Teddy"" Flack",M,22.0,,,Tennis,Tennis Men's Singles,


## Para este estudo faremos as seguintes perguntas à nossa base de dados:

### 10 Perguntas Básicas (Resultam e apenas um número ou dois):

1 -Quantas edições aconteceram?

2 -Quantos atletas participaram em todas as edições?

3 -Qual o número de homens e mulheres de todas as edições?

4 -Quantas medalhas foram adquiridas?

5 -Quantas medalhas de cada tipo foram distribuídas?

6 -Quantos esportes já fizeram parte?

7 -Quantos esportes por ano já fizeram parte?

8 -Quantos Países já sediaram os jogos?

9 -Qual a média de peso dos atletas masculinos e femininos?

10-Qual a média de Idade dos atletas masculinos e femininos?

###### 1 -Quantas edições aconteceram?

In [23]:
edicoes = len(df['ano'].unique())
print(" 1 -Quantas edições aconteceram? \n", edicoes, "edições.\n")

print(r" COMANDO SQL: SELECT DISTINCT COUNT(distinct ano) AS qtd_edicoes FROM `basedosdados.mundo_kaggle_olimpiadas.microdados`")

 1 -Quantas edições aconteceram? 
 35 edições.

 COMANDO SQL: SELECT DISTINCT COUNT(distinct ano) AS Edicoes FROM `basedosdados.mundo_kaggle_olimpiadas.microdados`


###### 2 -Quantos atletas participaram em todas as edições?

In [24]:
atletas = len(df['id_atleta'].unique())
print(" 2 -Quantos atletas participaram em todas as edições? \n", atletas, "atletas.\n")

print(r" COMANDO SQL: SELECT DISTINCT COUNT(distinct id_atleta) AS qtd_atletas FROM `basedosdados.mundo_kaggle_olimpiadas.microdados`")

 2 -Quantos atletas participaram em todas as edições? 
 135571 atletas.

 COMANDO SQL: SELECT DISTINCT COUNT(distinct id_atleta) AS qtd_atletas FROM `basedosdados.mundo_kaggle_olimpiadas.microdados`


###### 3 -Qual o número de homens e mulheres de todas as edições?

In [53]:
atletas = df['sexo'].value_counts()
homens = atletas[0]
mulheres = atletas[1]
print(" 2 -Quantos atletas participaram em todas as edições? \n", homens, "Homens;\n", mulheres,"Mulheres.")

print(r"Comando SQL: SELECT sexo, COUNT(sexo) AS qtd_atletas FROM `basedosdados.mundo_kaggle_olimpiadas.microdados` GROUP BY sexo")

 2 -Quantos atletas participaram em todas as edições? 
 195340 Homens;
 74378 Mulheres.
Comando SQL: SELECT sexo, COUNT(sexo) AS qtd_atletas FROM `basedosdados.mundo_kaggle_olimpiadas.microdados` GROUP BY sexo


###### 4 -Quantas medalhas foram adquiridas?

In [55]:
medalhas = df['medalha'].value_counts()
# é possível simplificar o código para esta questão, 
# mas como a questão seguinte pedirá os valores distintos, optei por manter desta forma mais didática
# total = medalhas[0]+medalhas[1]+medalhas[2] desta forma reduzindo o código em uma linha e duas variáveis.
ouro = medalhas[0]
bronze = medalhas[1]
prata = medalhas[2]
total = ouro+bronze+prata
print(" 4 -Quantas medalhas foram adquiridas? \n", total, "medalhas.\n")
print(r"Comando SQL: SELECT COUNT(medalha) AS qtd_medalhas FROM `basedosdados.mundo_kaggle_olimpiadas.microdados`")

 4 -Quantas medalhas foram adquiridas? 
 39772 medalhas.

Comando SQL: SELECT COUNT(medalha) AS qtd_medalhas FROM `basedosdados.mundo_kaggle_olimpiadas.microdados`


###### 5 -Quantas medalhas de cada tipo foram distribuídas?

In [57]:
print("5 -Quantas medalhas de cada tipo foram distribuídas? \n", ouro, " ouro;\n", prata, " prata;\n", bronze, "bronze.\n")

print(r"Comando SQL: SELECT MEDALHA, COUNT(medalha) AS qtd_medalhas FROM `basedosdados.mundo_kaggle_olimpiadas.microdados` GROUP BY medalha ORDER BY qtd_medalhas DESC")

5 -Quantas medalhas de cada tipo foram distribuídas? 
 13369  ouro;
 13108  prata;
 13295 bronze.

Comando SQL: SELECT MEDALHA, COUNT(medalha) AS qtd_medalhas FROM `basedosdados.mundo_kaggle_olimpiadas.microdados` GROUP BY medalha ORDER BY qtd_medalhas DESC


###### 6 -Quantos esportes já fizeram parte?


In [59]:
esportes = len(df['esporte'].unique())
print(" 6 -Quantos esportes já fizeram parte? \n", esportes, "esportes.\n")

print(r" COMANDO SQL: SELECT DISTINCT COUNT(distinct esporte) AS qtd_esportes FROM `basedosdados.mundo_kaggle_olimpiadas.microdados`")

 6 -Quantos esportes já fizeram parte? 
 66 esportes.

 COMANDO SQL: SELECT DISTINCT COUNT(distinct esporte) AS qtd_esportes FROM `basedosdados.mundo_kaggle_olimpiadas.microdados`


###### 7 -Quantos esportes por ano já fizeram parte?


In [77]:
esportes = df['esporte'].value_counts()

print(r"Comando SQL: SELECT ano, COUNT(DISTINCT esporte) AS qtd_esporte FROM `basedosdados.mundo_kaggle_olimpiadas.microdados` GROUP BY ano ORDER BY ano DESC")
newdf

Comando SQL: SELECT esporte, COUNT(esporte) AS qtd_esporte FROM `basedosdados.mundo_kaggle_olimpiadas.microdados` GROUP BY esporte ORDER BY qtd_esporte DESC 


Unnamed: 0,esporte
Athletics,38624
Gymnastics,26707
Swimming,23195
Shooting,11448
Cycling,10827
...,...
Racquets,12
Jeu De Paume,11
Roque,4
Basque Pelota,2


In [None]:
8 -Quantos Países já sediaram os jogos?


In [None]:
9 -Qual a média de peso dos atletas masculinos e femininos?


In [None]:
10-Qual a média de Idade dos atletas masculinos e femininos?