#<center>**Trabalho final: Análise Exploratória de Dados**</center>

Grupo: Bianca Muniz, Meyrele Torres e Ricardo Grimbaun

## **Sobre a base escolhida**
A base de dados escolhida é a de **microdados dos atletas e delegações presentes nas edições dos Jogos Olímpicos a partir de 1896**. Ela foi obtida no site do projeto [Base dos Dados](https://basedosdados.org/dataset/5b6db46a-4203-41ba-8c69-36b8653f5241), originalmente encontrada no [Kaggle](https://www.kaggle.com/heesoo37/olympic-history-data-a-thorough-analysis).



## **Análise exploratória univariada**
Variável escolhida: `idade`

In [3]:
# Importando as bibliotecas
import pandas as pd
import csv

In [27]:
# Carregando a base de dados
df = pd.read_csv(r'microdados.csv', sep=';')
print(df.describe())

                 ano      id_atleta  ...         altura           peso
count  269718.000000  269718.000000  ...  210917.000000  208204.000000
mean     1978.626862   68263.967381  ...     175.338953      70.699237
std        29.747764   39026.038321  ...      10.518507      14.348346
min      1896.000000       1.000000  ...     127.000000      25.000000
25%      1960.000000   34654.250000  ...     168.000000      60.000000
50%      1988.000000   68233.000000  ...     175.000000      70.000000
75%      2002.000000  102111.000000  ...     183.000000      79.000000
max      2016.000000  135571.000000  ...     226.000000     214.000000

[8 rows x 5 columns]


Note que a base a base tem dados tem aproximadamente 270 mil observações, mas este valor não é compatível com o número de registros de `altura`, de `peso` e de `idade`. Logo, isso mostra a presença de missing data.

Olhando a base, podemos ver que há nomes que se repetem na coluna nome_atleta, pois um mesmo atleta pode participar de diferentes modalidades de um mesmo esporte.

Para prosseguirmos com a análise da idade, limpamos a base no Excel com a finalidade de ter um registro por atleta em cada edição dos jogos, excluindo dessa maneira as colunas medalha e evento. Em seguida, removemos os valores duplicados. Salvamos o novo conjunto de dados com o nome microdados_limpo.csv, este com 189765 registros únicos.

Para a análise bivariada de medalhistas de ouro e idade, retiramos os valores duplicados no excel e salvamos a base como microdados_medalhas.csv

In [5]:
df.describe()

Unnamed: 0,ano,id_atleta,idade,altura,peso
count,229521.0,229520.0,220214.0,171211.0,168898.0
mean,1972.738617,68157.396824,25.364159,175.286313,70.706663
std,28.384328,38994.402743,6.262178,10.431194,14.147237
min,1896.0,1.0,10.0,127.0,25.0
25%,1956.0,34552.5,21.0,168.0,61.0
50%,1980.0,68103.0,24.0,175.0,70.0
75%,1996.0,102039.25,28.0,182.0,79.0
max,2016.0,135571.0,97.0,226.0,198.0


In [6]:
df

Unnamed: 0,ano,edicao,cidade_sede,pais,delegacao,equipe,id_atleta,nome_atleta,sexo,idade,altura,peso,esporte,evento,medalha
0,1896,Summer,Athina,Australia,AUS,Australia/Great Britain,35698.0,"Edwin Harold ""Teddy"" Flack",M,22.0,,,Tennis,Tennis Men's Doubles,Bronze
1,1896,Summer,Athina,Austria,AUT,Austria,107006.0,Felix Adolf Schmal,M,23.0,,,Cycling,"Cycling Men's 10,000 metres",Bronze
2,1896,Summer,Athina,Austria,AUT,Austria,107006.0,Felix Adolf Schmal,M,23.0,,,Cycling,Cycling Men's 333 metres Time Trial,Bronze
3,1896,Summer,Athina,Denmark,DEN,Denmark,54456.0,Alexander Viggo Jensen,M,21.0,,,Shooting,"Shooting Men's Free Rifle, Three Positions, 30...",Bronze
4,1896,Summer,Athina,Denmark,DEN,Denmark,85988.0,Holger Louis Nielsen,M,29.0,,,Fencing,"Fencing Men's Sabre, Individual",Bronze
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
229516,2008,Summer,Beijing,China,CHN,China,54806.0,Jiang Yuyuan,F,16.0,140.0,32.0,Gymnastics,Gymnastics Women's Individual All-Around,No_medal
229517,2008,Summer,Beijing,China,CHN,China,54806.0,Jiang Yuyuan,F,16.0,140.0,32.0,Gymnastics,Gymnastics Women's Uneven Bars,No_medal
229518,2008,Summer,Beijing,China,CHN,China,54807.0,Jiao Huafeng,M,26.0,169.0,55.0,Wrestling,"Wrestling Men's Featherweight, Greco-Roman",No_medal
229519,2008,Summer,Beijing,China,CHN,China,54809.0,Jiao Shuai,M,24.0,194.0,76.0,Volleyball,Volleyball Men's Volleyball,No_medal


In [7]:
dados_limpo = pd.read_csv(r'microdados_limpo.csv', sep=';')
dados_medalhas = pd.read_csv(r'microdados_medalhas.csv', sep=';')

In [8]:
dados_limpo.select_dtypes(include=['number']) #incluindo um NaN nos dados ausentes
dados_medalhas.select_dtypes(include=['number'])#incluindo um NaN nos dados ausentes

Unnamed: 0,ano,id_atleta,idade,altura,peso
0,1896,35698,22.0,,
1,1896,107006,23.0,,
2,1896,54456,21.0,,
3,1896,85988,29.0,,
4,1896,85988,29.0,,
...,...,...,...,...,...
200329,2016,132986,24.0,167.0,70.0
200330,2016,133071,21.0,156.0,50.0
200331,2016,133346,26.0,166.0,50.0
200332,2016,134826,22.0,168.0,54.0


In [9]:
# Análise descritiva da variável idade
dados_limpo['idade'].describe()

count    182834.000000
mean         25.797220
std           6.104385
min          10.000000
25%          22.000000
50%          25.000000
75%          29.000000
max          97.000000
Name: idade, dtype: float64

## **Análise exploratória bivariada**

### **Idade X sexo**

In [10]:
# Estatísticas para o sexo feminino
feminino = dados_limpo["idade"].loc[dados_limpo['sexo'] == 'F']
feminino.describe()

count    48893.000000
mean        24.431902
std          5.611215
min         11.000000
25%         21.000000
50%         24.000000
75%         28.000000
max         74.000000
Name: idade, dtype: float64

In [11]:
# Estatísticas para o sexo masculino
masculino = dados_limpo["idade"].loc[dados_limpo['sexo'] == 'M']
masculino.describe()

count    133941.000000
mean         26.295608
std           6.200323
min          10.000000
25%          22.000000
50%          25.000000
75%          29.000000
max          97.000000
Name: idade, dtype: float64

In [None]:
# criando a tabela "est_idade_sexo", a partir de uma tabela dinâmica, comparando os resultados para os dois sexos
unused_columns = dados_limpo.columns.difference(set(['sexo']).union(set([])).union(set({'idade'})))
tmp_df = dados_limpo.drop(unused_columns, axis=1)
tab_dinamica_b = tmp_df.pivot_table(
    index=['sexo'],
    values=['idade'],
  aggfunc={'idade': ['mean', 'median', 'min', 'max', 'count']}) #media, mediana, valor mínimo e máximo para cada sexo
est_idade_sexo = tab_dinamica_b.reset_index()

In [13]:
est_idade_sexo

Unnamed: 0_level_0,sexo,idade,idade,idade,idade,idade
Unnamed: 0_level_1,Unnamed: 1_level_1,count,max,mean,median,min
0,F,48893,74.0,24.431902,24.0,11.0
1,M,133941,97.0,26.295608,25.0,10.0


### Moda

In [14]:
# criando a tabela "contagem_sexo", a partir de uma tabela dinâmica
unused_columns = dados_limpo.columns.difference(set(['idade']).union(set(['sexo'])).union(set({'sexo'})))
tmp_df = dados_limpo.drop(unused_columns, axis=1)
tab_dinamica_a = tmp_df.pivot_table(
    index=['idade'],
    columns=['sexo'],
    values=['sexo'],
    aggfunc={'sexo': ['count']})  #### contar a quantidade de registros para cada sexo
contagem_sexo = tab_dinamica_a.reset_index()

In [15]:
print(contagem_sexo)

     idade   sexo      
            count      
sexo            F     M
0     10.0    NaN   1.0
1     11.0    9.0   1.0
2     12.0   21.0   6.0
3     13.0   75.0  25.0
4     14.0  282.0  61.0
..     ...    ...   ...
69    81.0    NaN   2.0
70    84.0    NaN   1.0
71    88.0    NaN   1.0
72    96.0    NaN   1.0
73    97.0    NaN   1.0

[74 rows x 3 columns]


In [16]:
# Qual a idade mais frequente entre competidores do sexo feminino nos jogos olímpicos?
moda_f = contagem_sexo.sort_values(by=('sexo', 'count', 'F'), ascending=False, na_position='last') #coloca os valores de count_f em ordem descendente. O primeiro valor em f é a moda
print(moda_f) #o primeiro valor é o valor mais frequente

     idade    sexo         
             count         
sexo             F        M
13    23.0  3758.0  11822.0
14    24.0  3749.0  11487.0
12    22.0  3747.0  10978.0
11    21.0  3628.0   9498.0
15    25.0  3550.0  10821.0
..     ...     ...      ...
69    81.0     NaN      2.0
70    84.0     NaN      1.0
71    88.0     NaN      1.0
72    96.0     NaN      1.0
73    97.0     NaN      1.0

[74 rows x 3 columns]


In [17]:
# Qual a idade mais frequente entre competidores do sexo masculina nos jogos olímpicos?
moda_m = contagem_sexo.sort_values(by=('sexo', 'count', 'M'), ascending=False, na_position='last')#coloca os valores de count_m em ordem descendente. O primeiro valor em m é a moda
print(moda_m) #o primeiro valor é o valor mais frequente

     idade    sexo         
             count         
sexo             F        M
13    23.0  3758.0  11822.0
14    24.0  3749.0  11487.0
12    22.0  3747.0  10978.0
15    25.0  3550.0  10821.0
16    26.0  3214.0   9883.0
..     ...     ...      ...
0     10.0     NaN      1.0
68    80.0     NaN      1.0
67    77.0     NaN      1.0
1     11.0     9.0      1.0
73    97.0     NaN      1.0

[74 rows x 3 columns]


### **Idade X Medalha de ouro**

In [18]:
ouro = dados_medalhas.loc[dados_medalhas['medalha'] == 'Gold']
ouro.describe()

Unnamed: 0,ano,id_atleta,idade,altura,peso
count,12228.0,12228.0,12094.0,9625.0,9388.0
mean,1973.617926,69433.871933,25.999835,178.067221,74.626225
std,33.964288,39049.802106,5.846941,11.061828,15.327188
min,1896.0,4.0,13.0,136.0,28.0
25%,1952.0,36220.75,22.0,170.0,64.0
50%,1984.0,69281.5,25.0,178.0,74.0
75%,2002.0,103803.25,29.0,185.0,84.0
max,2016.0,135553.0,64.0,223.0,170.0


### **Gráfico: Frequência de idade**

In [21]:
# Import plotly and create a figure
import plotly.graph_objects as go
fig = go.Figure()


# Add the histogram traces to the figure
for column_header in ['idade']:
    fig.add_trace(go.Histogram(x=dados_limpo[column_header], name=column_header))

# Update the layout
# See Plotly documentation for customizations: https://plotly.com/python/reference/histogram/
fig.update_layout(
	xaxis_title='idade',
    title='idade frequencies',
    barmode='group'
)

### **Filtrando por Atletismo**

In [23]:
microdados_atletismo = dados_limpo[dados_limpo['esporte'].str.contains('Athletics', na=False)]
microdados_atletismo

Unnamed: 0,ano,edicao,cidade_sede,pais,delegacao,equipe,id_atleta,nome_atleta,sexo,idade,altura,peso,esporte
29,1976,Summer,Montreal,Ivory Coast,CIV,Cote d'Ivoire,84913,Clstine N'Drin,F,12.0,169.0,56.0,Athletics
53,1906,Summer,Athina,Turkey,TUR,Turkey,91259,Vahram Hepet S. Papazyan,M,13.0,173.0,71.0,Athletics
268,1972,Summer,Munich,Barbados,BAR,Barbados,41692,Heather Gooding,F,14.0,,,Athletics
417,1996,Summer,Atlanta,Niger,NIG,Niger,73508,Rachida Mahamane,F,14.0,,,Athletics
438,2000,Summer,Sydney,Togo,TOG,Togo,7453,Direma Banasso,F,14.0,157.0,48.0,Athletics
...,...,...,...,...,...,...,...,...,...,...,...,...,...
189746,1992,Summer,Barcelona,Rwanda,RWA,Rwanda,108288,Ildephonse Sehirwa,M,,,,Athletics
189747,1992,Summer,Barcelona,Sudan,SUD,Sudan,72128,Stephen Lado Lugor,M,,192.0,82.0,Athletics
189749,1992,Summer,Barcelona,USA,USA,United States,30518,"Pamela Camille ""Pam"" Dukes (-Boyer, -Brown)",F,,,,Athletics
189757,1996,Summer,Atlanta,Niger,NIG,Niger,60395,Boureima Kimba,M,,,,Athletics


### **Participação feminina nos jogos**

In [28]:
unused_columns = df.columns.difference(set(['ano']).union(set(['sexo'])).union(set({'id_atleta'})))
tmp_df = df.drop(unused_columns, axis=1)
pivot_table = tmp_df.pivot_table(
    index=['ano'],
    columns=['sexo'],
    values=['id_atleta'],
    aggfunc={'id_atleta': ['count']}
)


# Reset the column name and the indexes
df_f = pivot_table.reset_index()

In [29]:
df_f

Unnamed: 0_level_0,ano,id_atleta,id_atleta
Unnamed: 0_level_1,Unnamed: 1_level_1,count,count
sexo,Unnamed: 1_level_2,F,M
0,1896,,380.0
1,1900,33.0,1852.0
2,1904,16.0,1285.0
3,1906,11.0,1722.0
4,1908,47.0,3022.0
5,1912,87.0,3953.0
6,1920,134.0,4158.0
7,1924,251.0,5319.0
8,1928,424.0,4814.0
9,1932,287.0,2530.0
