# Ко нас учи?

У оквиру података које је отворило Министарство просвете, науке и технолошког развоја, постоје подаци и о свим запосленима у високошколском образовању, у наставку ове радне свеске позабавићемо се подацима о наставном/научном кадру, које можемо преузети са ове адресе: http://opendata.mpn.gov.rs/index.php?zaposleni=visoko_nastavno. 
У овој свесци наставићемо са експлоративном обрадом података, али са фокусом на селектовање, анализу и представљање сегмената у оквиру веће табеле. Специјално, наставићемо са векторским операцијама над колонама, издвајаћемо подтабеле на основу различитих критеријума а затим анализирати и представљати најинтересантније податке.

Користићемо као и до сада библиотеке numpy, pandas и matplotlib које ћемо учитати и преименовати у њихове типичне скраћенице:

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Податке ћемо учитати из локалног фолдера, у питању је табела преузета са претходног линка (преузета и предобрађена: 13.02.2020.):

In [None]:
zaposleni = pd.read_csv('podaci/MPNTRvisokozaposleni_gender.csv')
zaposleni.head(2)

Видимо да имамо велики број колона на располагању и пре него што се детаљније позабавимо њима и истраживањем њиховог садржаја, приметићемо само да су прве две колоне вишак и њих ћемо одмах уклонити функцијом *drop*:

In [None]:
zaposleni = zaposleni.drop(columns=['Unnamed: 0','#'])
zaposleni.head(2)

Да бисмо прегледали називе колона и истовремено типове података који се у њима налазе (као и њихов број) послужићемо се функцијом *info*:

In [None]:
zaposleni.info()

Видимо да за сваког од 17368 запослених имамо - име, презиме, тип и назив установе (као и ид запосленог и институције, који нам могу бити од користи ако више различитих запослених имају исто име и презиме, или ако је једна иста особа запослена на више институција), док за неке запослене (опет доста велики број њих) имамо и податке о њиховом претходном образовању (локацији, години стицања и слично).

*Додатни коментар: колона у којој су презиме и име искомбиновани, као и колона Gender су додате у припреми ове табеле и нису део основне табеле која се може преузети са сајта МПНТР.*

### Хистограми

За почетак анализе, фокусираћемо се на податке који су бројчаног типа - на пример година избора у звање, година стицања образовања. Ако на пример одлучимо да линијским дијаграмом представимо колону о години стицања образовања, добићемо овако нешто:

In [None]:
plt.plot(zaposleni['Godina sticanja obrazovanja'])
#plt.plot(zaposleni['Godina sticanja obrazovanja'],'o',alpha=0.5)
plt.show()

Овакав график је нечитљив, али не само зато што смо изабрали линијски дијаграм, ни стубичасти дијаграм не би био од много веће користи за сагледавање ситуације и разумевање. У наставку је једна мало информативнија верзија дијаграма ових истих података:

In [None]:
plt.figure(figsize=(20,3))
plt.plot(list(zaposleni['Godina sticanja obrazovanja'].dropna().sort_values()),'.')
plt.axhline(y=2000,color='red')
plt.ylim([1900,2020])
plt.show()

Овде смо поређали запослене по години стицања образовања и посматрали то као један линијски дијаграм (не повезујући тачкице које одговарају различитим особама). На овај начин видимо да постоји једна особа која је образовање стекла пре 1920 године (?! ово треба проверити, може бити грешка у подацима, испитаћемо касније), али видимо и да је највећи број запослених у високом образовању прошло кроз последњи ступањ образовања након 2000 године. За овај закључак послужила нам је хоризонтална црвена линија која одговара 2000. години и само очитавањем пресека црвене линије и наших података можемо проценити колико има оних који су завршили школовање пре 2000 и после 2000. године. Овакве информације још лакше можемо добити користећи се хистограмима и функцијом *hist*.

Хистограм је специфична врста бар плота у коме на x оси више нису појединачни запослени већ бројеви година, специфично интервали година (нпр. од 1990-2000.године, од 2000-2010.године и слично), док је на y оси број запослених који су завршили студије у одређеном интервалу година. Ако размислимо о црвеној линији са претходних плотова, хистограм заправо броји колико тачкица (запослених) се налазило имеђу 2 црвене хоризонталне линије које су границе интервала година.

In [None]:
plt.hist(zaposleni['Godina sticanja obrazovanja'].dropna())
plt.show()

Позивање функције *hist* у најбазичнијем облику је приказано на претходном дијаграму. У свом основном облику, функција прође кроз цео низ који смо задали, нађе минималну и максималну вредност (у нашем случају година) и затим тај интервал подели на 10 једнаких интервала, а затим преброји колико има појединачних уноса који се налазе у сваком од интервала.
Уколико желимо да боље контролишемо интервале, то можемо радити уз помоћ додатног аргумента *bins*:

In [None]:
plt.hist(zaposleni['Godina sticanja obrazovanja'].dropna(),bins=20)
plt.show()

Уколико аргументу *bins* проследимо само један број (мора бити природан!), онда ће број интервала (бинова) бити једнак задатом броју. Са друге стране, некад не желимо да границе интервала постану неји разломљени бројеви, нпр. у случају ових година, не желимо да дођемо до интервала чије су границе 2019.2 и 2019.5 зато што су нам године стицања образовања само цели бројеви па би у оваквим интервалима резултат био 0. У овом случају, ми можемо дефинисати границе интервала и то радимо тако што ћемо аргументу бинс проследити листу:

In [None]:
plt.hist(zaposleni['Godina sticanja obrazovanja'].dropna(),bins=[1910,1920,1930,1940,1950,1960,1970,1980,1990,2000,2010,2020])
plt.show()

А ако хоћемо да сваки интервал буде тачно једна година, то можемо урадити тражећи минималну и максималну годину у низу и искористити функцију *range*.

In [None]:
ming = min(zaposleni['Godina sticanja obrazovanja'])
maxg = max(zaposleni['Godina sticanja obrazovanja'])

plt.hist(zaposleni['Godina sticanja obrazovanja'].dropna(),bins = range(int(ming),int(maxg)+1,1))
plt.show()

### Нормална расподела

Пре него што наставимо са обрадом наших, реалних података, направићемо кратку паузу подсећајући се нормалне расподеле, на нумерички начин. У оквиру функције *numpy* имамо на располагању генератор насумичних бројева, па можемо генерисати низ насумичних бројева по нормалној, гаусовој расподели на следећи начин:

In [None]:
np.random.randn(100)

Овако смо генерисали 100 бројева средње вредности, хистограмом сада можемо проверити колико је то близу изгледа очекивања о изгледу нормалне дистрибуције:

In [None]:
plt.hist(np.random.randn(100))
plt.show()

Ако повећамо дужину низа који генеришемо, ситуација ће се мало поправити, па можемо испитати и просечну вредност и неке друге карактеристике:

In [None]:
brojevi = np.random.randn(10000)
prosek = np.mean(brojevi)

На следећем дијаграму видимо хистограм 10 000 нормално дистрибуираних насумичних бројева са истакнутом просечном вредношћу:

In [None]:
plt.hist(brojevi, bins=50)
plt.axvline(x=prosek,color='red')
plt.show()

Поред просечне вредности, када имамо на располагању бројчане податке, често нас занима и медијална вредност, односно вредност за коју је карактеристично да има једнак број вредности које су мање и веће од ње. Ту вредност можемо наћи на следећи начин:

In [None]:
np.median(brojevi)

In [None]:
np.mean(brojevi)

Оно што је битно приметити и имати на уму је да су код нормалне дистрибуције, просечна, медијална и највероватнија вредност исте, што није тако често у дистрибуцијама реалних података, што ћемо убрзо и демонстрирати!

### Селектовање података из табела

Пре него што се вратимо подацима о години завршетка студија, претходно смо приметили један потенцијално необичан, можда погрешан података. Наиме, видели смо да постоји једна особа у подацима чија је година стицања образовања и пре 1920! Та особа би тренутно имала преко 120 година, па је интересантно видети ко је особа у питању (ако је податак реалан, желимо да знамо ко је особа из знатижеље и поштовања, а ако је посреди грешка, хоћемо да видимо како бисмо могли да је коригујемо).

У току претходних субота виђали сте селектовање делова табела уз помоћ фунцкција *loc* и *iloc*, док ћемо сада издвојити ред табеле по критеријуму везаном за унете вредности. За почетак, приметимо следеће:

In [None]:
zaposleni['Godina sticanja obrazovanja']<2000

Овако добијамо низ вредности тачно-нетачно зависно од тога да ли одређени елемент низа задовољава дати критеријум или не. Ово нам је изузетно згодно зато што се овај низ вредности може искористити као аргумент табеле, у ком случају ћемо добити само оне вреднсоти из табеле за које је аргумент Тачно, па на тај начин можемо видети ко је особа која је образовање стекла 1920. године:

In [None]:
zaposleni[zaposleni['Godina sticanja obrazovanja']<1920]

Посматрањем осталих података о овој особи (што у табели што нпр. претрагом на нардус платформи), видимо да је посреди омашка, година стицања доктората је 2014, а не 1914, што на следећи начин можемо исправити:

In [None]:
# Опрезно са исправљањем података!
zaposleni.loc[12026,'Godina sticanja obrazovanja']=2014
#zaposleni = zaposleni.replace({'Godina sticanja obrazovanja': {1914: 2014}})
zaposleni[zaposleni['Godina sticanja obrazovanja']<1920]

Сада ћемо поново нацртати хистограм по годинама стицања образовања и на њему назначити просечну и медијалну вредност:

In [None]:
ming = min(zaposleni['Godina sticanja obrazovanja'])
maxg = max(zaposleni['Godina sticanja obrazovanja'])

prosek = np.mean(zaposleni['Godina sticanja obrazovanja'].dropna())
medijana = np.median(zaposleni['Godina sticanja obrazovanja'].dropna())

plt.hist(zaposleni['Godina sticanja obrazovanja'].dropna(),bins = range(int(ming),int(maxg)+1,1))
plt.axvline(x=prosek, color='red')
plt.axvline(x=medijana, color='black')

plt.xlabel('Godina sticanja obrazovanja')
plt.ylabel('Broj zaposlenih koji su obrazovanje zavrsili u toku date godine')

plt.show()

Управо у овој расподели броја запослених по години стицања образовања, видимо да су просечна вредност (црвено), медијална вредност (црно) и најпопуларнија вредност (пик, тј. максимум расподеле) три различите године. Видимо још једну необичност на овој расподели (коју сте можда уочили још када смо је први пут нацртали), а то је ова година на којој број запослених одскаче у односу на број запослених у суседним годинама.

In [None]:
plt.hist(zaposleni['Godina sticanja obrazovanja'].dropna(),bins=range(1950,2020))
plt.bar(2000.5,len(zaposleni[zaposleni['Godina sticanja obrazovanja']==2000]),color='orange')
plt.show()

Уочавамо да је ова специјална година 2000. а у наставку ћемо пробати додатно да испитамо да ли има још нешто специфично за ову годину. Уведимо пре тога још једну колону у којој ћемо сачувати број година које су протекле од стицања образовања до избора у одговарајуће звање:

In [None]:
zaposleni['Vreme cekanja na zvanje'] = zaposleni['Godina izbora u zvanje']-zaposleni['Godina sticanja obrazovanja']

И ову нову колону можемо представити хистограмом да стекнемо утисак о популарним вредностима (високи барови на дијаграму):

In [None]:
ming = min(zaposleni['Vreme cekanja na zvanje'])
maxg = max(zaposleni['Vreme cekanja na zvanje'])
plt.hist(zaposleni['Vreme cekanja na zvanje'].dropna(),bins = range(int(ming),int(maxg)+1,1))
plt.xlabel('Broj godina provedenih u cekanju na zvanje')
plt.ylabel('Broj zaposlenih')
plt.show()

Видимо да је на неке позиције могуће доћи одмах по завршетку студија - то је илустровано високим баровима на позицији 0 и 1, док имамо нешто касније још два максимума, око 5 и 10 година, што су типичне вредности од доктората до ванредне и редовне професуре а условљене су законским и другим очекивањима. Ово нам говори да је за неке од анализа потребно да групишемо податке по различитим звањима пошто редовни професори и асистенти нису увек упоредиви.

Додатно примећујемо да постоје негативне вредности! То нас подсећа да је наша анализа добра онолико колико су и подаци добри, а они ће често бити непотпуни :) Овог пута нећемо ићи у детаље и покушати да коригујемо податке, већ је само битно да будемо свесни ове чињенице, поготово кад будемо извлачили закључке на основу ње.

## Груписање података

У разним колонама које имамо на располагању имамо само пар различитих вредности које се понављају, пример таквих колона су звање, универзитет, род, итд. Проверу различитих вредности које се налазе у колони можемо извршити функцијом *unique*:

In [None]:
zaposleni['Zvanje'].unique()

Слично можемо видети које вредности се крију у колони Универзитет:

In [None]:
zaposleni['Univerzitet'].unique()

Када имамо категоричке податке попут ових, то можемо користити на више начина: 
- да селектујемо само делове табеле који имају одређену категоричку вредност (или комбинацију истих), на пример, да направимо нову табелу у којој су подаци само о редовним професорима
- да пребројавамо, усредњавамо, сумирамо неке бројчане податке, али тако што ћемо их груписати по овим категоричким вредностима, нпр. можемо пребројати колико има запослених на ком универзитету, колико времена у просеку протекне између доктората и редовне професуре на различитим факултетима и слично.
Селектовање делова табеле смо већ помало виђали (и наставићемо да ово вежбамо и унапређујемо), а сада ћемо се упознати и са предностима које нам пружа функција *groupby*.

Ако хоћемо да видимо колико има запослених на различитим универзитетима то можемо радити кроз петљу, тако што ћемо за сваки универзитет селектовати део табеле у коме је вредност колоне Универзитет једнака датом унивезитету и проверавати величину такве табеле. Нпр. за Београдски универзитет то би изгледало овако:

In [None]:
zaposleni[zaposleni['Univerzitet']=='Univerzitet u Beogradu']

Овим смо само погледали одговарајући део табеле, а можемо тај део табеле сачувати као посебну табелу:

In [None]:
buzaposleni = zaposleni[zaposleni['Univerzitet']=='Univerzitet u Beogradu']

Којој можемо утврдити и величину:

In [None]:
len(buzaposleni)

Покушајте да направите листу у коју ћете унети све бројеве запослених за све универзитете, тако што ћете претходне линије кода ставити у једну петљу. А сада ћемо ипак то урадити уз помоћ функције *groupby*:

In [None]:
zaposleni.groupby('Univerzitet').size()

Слично можемо испитати и нацртати податке о броју запослених у различитим звањима:

In [None]:
pd.DataFrame(zaposleni.groupby('Zvanje').size()).sort_values(by=0).plot(kind = 'barh')

Сада када смо видели појединачне алате, можемо се фокусирати на различита питања о овим подацима.

На пример, често се прича о затворености наших високошколских установа за научно-наставни кадар који се школовао негде друго. Како имамо те податке на располагању, можемо испитати у којим државама су се школовали редовни професори Универзитета у Београду.

Прво ћемо издвојити из табеле податке о редовним професорима Универзитета у Београду:

In [None]:
BUredovniprof = zaposleni[(zaposleni['Zvanje']=='Redovni profesor')&(zaposleni['Univerzitet']=='Univerzitet u Beogradu')]
BUredovniprof.head(2)

Сада у овој табели можемо груписати податке по Држави стицања образовања и уз помоћ опције size видети величину сваке од подгрупа, тј. колико је редовних професора студирало у неким другим државама:

In [None]:
BUredovniprof.groupby('Država sticanja obrazovanja').size()

Не тако изненађујуће, највећи број професора школовао се у Србији, али хајде да видимо ове бројеве на стубичастом дијаграму:

In [None]:
plt.figure(figsize=(10,6))
BUredovniprof.groupby('Država sticanja obrazovanja').size().sort_values().plot(kind='barh')
plt.show()

Највећи број држава је практично невидљив на овом дијаграму! Ситуацију можемо мало поравити, ако се фокусирамо само на државе које нису Србија

In [None]:
plt.figure(figsize=(10,6))
BUredovniprof[BUredovniprof['Država sticanja obrazovanja']!='Srbija'].groupby(BUredovniprof['Država sticanja obrazovanja']).size().sort_values().plot(kind='barh')
plt.show()

Ово је једна од ситуација у којој и највећи противници секторског дијаграма виде потенцијал употребе те врсте визуелизације:

In [None]:
plt.figure(figsize=(5,5))
plt.pie(BUredovniprof.groupby(BUredovniprof['Država sticanja obrazovanja']).size().sort_values(ascending=False))
plt.show()

...не зато што бисмо питастим дијаграмом желели детаљније да завирујемо у мање заступљене земље, него зато што хоћемо на најдиректнији начин да сагледамо како је мали удео редовних професора имао искуства са неким другим образовним системом.

In [None]:
len(BUredovniprof[BUredovniprof['Država sticanja obrazovanja']!='Srbija'])/len(BUredovniprof)

Друго интересантно питање на које одговор можемо потражити у овим подацима тиче се родне равноправности у академским круговима. У претходним радним свескама видели смо да више жена данас студира, и више завршава студије, па се питамо какво је стање међу запосленима у високом образовању. 

Одговор на ово питање можемо истражити на нивоу целе популације редовних професора у Србији, али и раздвојено по универзитетима и факултетима. За почетак, брзо можемо проверити какво је стање у целој популацији:

In [None]:
redovniprof=zaposleni[zaposleni['Zvanje']=='Redovni profesor']
redovniprof.groupby('Gender').size()

Што можемо и визуелно представити:

In [None]:
redovniprof.groupby('Gender').size().plot(kind='barh',color='tomato',width=0.3)
plt.show()

Даље, можемо истражити да ли је на неким универзитетима стање мало боље. За то ћемо издвојити прво табелу редовних професора мушког рода груписану по универзитетима:

In [None]:
redovniprofM = pd.DataFrame(redovniprof[redovniprof['Gender']=='M'].groupby('Univerzitet').size())
redovniprofM.head(2)

Како новонастала колона има име 0, променићемо га зарад лакшег праћења колоне касније:

In [None]:
redovniprofM = redovniprofM.rename(columns={0:'Profesori'})

Слично ћемо урадити пратећи професорке:

In [None]:
redovniprofF = pd.DataFrame(redovniprof[redovniprof['Gender']=='F'].groupby('Univerzitet').size())
redovniprofF.head(2)

In [None]:
redovniprofF = redovniprofF.rename(columns={0:'Profesorke'})

На овај начин, добили смо две табеле индексиране по универзитету које садрже податке о бројевима професора, односно професорки. Како бисмо лакше нацртали одговарајуће графике, новонастале табеле можемо спојити у једну по заједничкој колони Универзитет:

In [None]:
pd.merge(redovniprofM,redovniprofF, on='Univerzitet',how='outer')

Исход овог спајања можемо сачувати у нову табелу коју касније можемо додатно анализирати и цртати:

In [None]:
profesori_profesorke = pd.merge(redovniprofM,redovniprofF, on='Univerzitet',how='outer')

In [None]:
profesori_profesorke.plot(kind='barh',figsize=(10,6))
plt.show()

### Задаци

1. У претходну табелу унети нову колону у којој је однос професора и професорки. Сортирати табелу по том односу и нацртати одговарајући стубичасти дијаграм. 

2. Истражити време чекања на звање за различита звања (нпр. доцентуру, ванредне професоре и сл.) уз помоћ хистограма. Раније смо нацртали хистограм времена проведеног у чекању на различита звања где смо искомбиновали сва звања, резултујући дијаграм ће се разликовати када се фокусирате само на једно звање. Фокусирајте се само на позитивне вредности. Истражите да ли су ове дистрибуције различите за различите универзитете (тј. да ли се нпр. редовним професором постаје брже на неким универзитетима). Коначне резултате можете представити у виду стубичастог дијаграма просечног времена чекања за различите универзитете.

3. Испитати да ли је родно заснована разлика међу редовним професорима карактеристика само те позиције, или се појављује и на нижим ступњевима лествице (асистент, доцент, ванредни професор). 

Испитивање необичног скока у броју запослених са годином стицања образовања 2000.

In [None]:
plt.hist(zaposleni[zaposleni['Godina sticanja obrazovanja']==2000]['Vreme cekanja na zvanje'],alpha=0.5,bins=range(20))
plt.hist(zaposleni[zaposleni['Godina sticanja obrazovanja']==2001]['Vreme cekanja na zvanje'],alpha=0.5,bins=range(20))
plt.hist(zaposleni[zaposleni['Godina sticanja obrazovanja']==1999]['Vreme cekanja na zvanje'],alpha=0.5,bins=range(20))
plt.show()

In [None]:
zaposleni[(zaposleni['Godina sticanja obrazovanja']==2000)&(zaposleni['Vreme cekanja na zvanje']==0)].groupby('Zvanje').size()

In [None]:
zaposleni[(zaposleni['Godina sticanja obrazovanja']==2000)&(zaposleni['Vreme cekanja na zvanje']==0)&(zaposleni['Zvanje']=='Redovni profesor')]