# Питања о Олимппијским играма и подаци у којима се крију одговори

За нама су још једне Летње олимпијске игре. Иако је пандемија учинила организацију и протоколе далеко компликованијим, о последњим Летњим олимпијским играма се прича са великим дивљењем – постављени су нови рекорди, уплив технологије у спорт је све већи, различите државе доминирају победничким постољима, а ту су и нова улагања у спорт и слично. Пуно новинских чланака, репортажа и дискусија о Олимпијским играма обилује и статистичким подацима о овим догађајима. Неке информације тог типа можете прочитати на званичном сајту Олимпијских [игара](https://olympics.com/en/), у веома детаљним чланцима на енглеској Википедији, нпр. [овде](https://en.wikipedia.org/wiki/2020_Summer_Olympics) за последње Олимпијске игре, као и на бројним другим местима. Међутим, често нас популарни чланци подстакну да се питамо и даље истражујемо, мада нам није увек јасно како потражити одговоре на питања попут ових:

- Колико спортиста се такмичи за медаље? У којим спортовима је конкуренција највећа?
- Који спортови су најпопуларнији? Да ли се листа такмичарских спортова у оквиру Олимпијских игара мењала током година?
- Да ли државе победнице имају нешто заједничко? Да ли богатије земље освајају више медаља? Како да нацртате мапу на којој су обележене земље са највише златних медаља?
- Да ли је држава у којој су се одржале Олимпијске игре добила више медаља него иначе, тј. да ли се и у спортском смислу „исплати“ организовати Олимпијске игре?

На ова и слична питања није увек једноставно одговорити читајући чланке или већ припремљене анализе. Стога ћемо заједно потражити одговоре у подацима и нацртати наше верзије графикона (илустрација) које сте имали прилике да видите, али које нисте могли да промените ако је ваше питање мало другачије.

<details>    
<summary>
    <img src="sport_slike/click.png" align="left" width="50"/>
    <font color="darkgreen"><b>Ако желите да одговорите на питање о популарности различитих спортова током година, какве податке бисте потражили?</b>
</font>
</summary>
Слике спортских екипа током различитих Олимпијских игара, аудио записе репортажа, табеле података о броју такмичара по различитим спортовима и годинама...? Иако су наши алгоритамски алати све јачи у декодирању слика, звука и текста, идеално би било да имате нумеричке податке попут последње поменуте табеле. Некада, на жалост, такви подаци нису доступни, па се приступа прикупљању бројева на основу других извора, али у овом случају, имамо среће зато што је историја Олимпијских игара добро документована. 

На нека од питања која смо поставили одговорићемо у низу лекција у наставку користећи следеће податке (који ће у одговарајућим одељцима бити детаљније прегледани и описани):
- [Историја Олимпијских игара](https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results). На основу овог скупа података, припремили смо два фајла – податке о Зимским и Летњим олимпијским играма до 2014. године. Овај скуп података садржи информације о учесницима Олимпијских игара, њихова имена, пол, висину, масу, старост, имена тимова који представљају, спорт и дисциплину у којој су се такмичили и медаљу ако су је добили. Овај скуп података нам је значајан за сва питања о променама у току дуге историје Оимпијских игара. Оригинални фајл можете преузети и са линковане адресе, где можете видети и неке примере употребе ових података и детаље о настанку скупа података који су прикупљени користећи [*sports-reference.com* сајт](www.sports-reference.com).
- Податке о броју становника и богатству држава преузели смо са сајта  [*gapminder*](https://www.gapminder.org/data/), на коме можете интерактивно визуализовати разне интересантне информације о државама света. Подаци које смо преузели настали су на основу података које прикупљају (и/ли на основу других показатеља процењују) Уједињене Нације и Светска банка.

Приметићете да смо код описаних спортских података, поред линка ка веб-страни на којој их можете преузети, дали и адресу веб-стране која је коришћена за припрему ових података. Табеле података које ћемо користити настале су аутоматизованим прикупљањем података са веба. Аутори ових скупова података су на основу различитих статистичких података, излистаних у различитим одељцима веб-страна, направили табеларан скуп података погодан за даље истраживање. То значи да подаци које имамо често нису званични подаци, нити постоји нека контрола њиховог квалитета, и стога треба да будемо додатно пажљиви. Ово није необично – званични подаци, попут оних које прикупља Републички завод за статистику и њему сличне институције у другим државама, покривају само део тема које су нам интересантне. Стога ће нас потреба да доносимо закључке на основу података често наводити на податке који долазе из других и другачијих извора. Битно је само да смо свесни да код ових података постоји могућност грешке, да у складу са тиме опрезно доносимо закључке и, када год је могуће, проверимо и/ли укрстимо информације са информацијама из других извора зарад провере.

Одабрани алат за обраду података у наставку курса се сигурно разликује од оних које сте до сада видели и/ли користили. На пример, садржај фолдера са подацима можемо приказати овако: 

<img src="sport_slike/sport_podac_folder.jpg"
     width='400' />
     
Или, користећи библиотеку `os` у оквиру Џупитер радних свезака:

In [1]:
import os

for tabela in os.listdir('sport_podaci'):
    print (tabela)

letnje_olimpijske_igre_do_2014.csv
mapa_sveta.xlsx
oi2012_medalje_po_zemljama.csv
populacija_gdp_2012.csv
zimske_olimpijske_igre_do_2014.csv


Који год начин да сте употребили, видите да у фолдеру са подацима постоје неки фајлови које можете повезати са нашом темом (`letnje_olimpijske_igre_do_2014` и `zimske_olimpijske_igre_do_2014` садрже податке о спортистима, а `populacija_gdp_2012` о државама). Ту су и неки подаци који ће нам служити за цртање мапе света – `mapa_sveta`, али и `oi2012_medalje_po_zemljama` – коју ћемо кроз лекције креирати заједно, а овде су за случај да кренете да читате лекције различитим редоследом од планираног.


Пре него што кренете да петљате са спортским подацима, охрабрујемо вас и да пробате да их погледате у неком од алата са којим сте већ упознати – на пример, податке о Летњим олимпијским играма:

<img src="sport_slike/letnje_igre_excel.jpg"
     width='600' />
     
Ако сте пробали да отворите овај фајл, вероватно сте морали мало да сачекате док се табела није учитала. То је зато што је у питању фајл са преко двеста хиљада редова и прегледање скроловањем кроз табелу није претерано практично (a ни забавно 😉 ). Уместо тога, у наставку курса ми ћемо табеле учитавати користећи библиотеку `pandas` на следећи начин:

In [2]:
import pandas as pd

letnje_igre = pd.read_csv("sport_podaci/letnje_olimpijske_igre_do_2014.csv")
letnje_igre.head()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Year,City,Sport,Event,Medal
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992,Barcelona,Basketball,Basketball Men's Basketball,
1,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012,London,Judo,Judo Men's Extra-Lightweight,
2,3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920,Antwerpen,Football,Football Men's Football,
3,4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold
4,8,"Cornelia ""Cor"" Aalten (-Strannood)",F,18.0,168.0,,Netherlands,NED,1932,Los Angeles,Athletics,Athletics Women's 100 metres,


Који год начин отварања табеле да сте искористили, видите првих пар редова и колоне које садрже имена, пол, године, висину, масу, тим и слично за све учеснике Oлимпијских игара. У наставку ћемо на различите начине трансформисати ову табелу и на основу података из ње одговарати на питања и визуелно представљати наше закључке, па хајдемо!