<a href="https://colab.research.google.com/github/amuradbegovic/rang-lista-svjetskih-univerziteta-vis/blob/main/VIS25-Z2-TIM1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Zadaća 2 - Statistička analiza svjetskih univerziteta

Tim 1: **Adnan Muradbegović, Aid Mustafić, Tarik Redžić, Zlatan Ljutika**

---

Teško je pronaći opću mjeru kvalitete za visokoobrazovne institucije, s tim da se većina univerziteta širom svijeta bavi mnogim različitim oblastima, kao što su nastava, istraživanje i razmjena znanja. 
Ipak, odlučiti se za način predviđanja ukupne kvalitete institucije bilo bi poželjno za one koji žele donijeti informisanu odluku o tome da li da se angažuju s određenim univerzitetom, bilo kao student, istraživač ili partner iz industrije.

U ovom projektu, izvršavamo statističku analizu _[Times Higher Education](https://www.timeshighereducation.com)_ rang liste svjetskih univerziteta za 2024. godinu.

Izvor podataka: <br>
**[Dosad, D. (2024), Times World University Rankings 2024](https://www.kaggle.com/datasets/ddosad/timesworlduniversityrankings2024)**



In [7]:
# Učitavanje nužnih biblioteka i inicijalizacija seta podataka za rad
# !curl -LJO https://raw.githubusercontent.com/amuradbegovic/rang-lista-svjetskih-univerziteta-vis/main/TIMES_WorldUniversityRankings_2024.csv
# Ne do vam Bog ovo uncomment-irat i runat dok nismo završili. (Privatni je repo pa samo OBRIŠE ČITAV CSV I STAVI "404 NOT FOUND")

import pandas as pd                   ## Za manipulisanje golih podataka, (CSV, DataFrame,...)
import matplotlib.pyplot as plt       ## Za vizualizaciju podataka
import seaborn as sns                 ## Za vizualizaciju podat
import numpy as np                    ## Za izvršavanje matematičkih operacija nad podacima
from numpy import cov
from IPython.display import HTML    ## Za kreiranje tabela i HTML manipulaciju
import statistics

df = pd.read_csv("TIMES_WorldUniversityRankings_2024.csv")

### 1. Deskriptivna statistika i vizualizacija distribucija podataka

Član tima: **Tarik Redžić**

---

 _THE rang lista svjetskih univerziteta 2024. godine_ se sastoji od ukupno **1,904 univerziteta** iz 108 zemalja i regija.  
 U ovom poglavlju nastojimo prvenstveno opisati i upoznati se metodologiju rangiranja, način obrade podataka u ovom setu te korištenim parametrima.
 _U nastavku, važna je napomena da opis seta podataka i rang liste analogno važe jedno za drugo._

_Jedna zanimljivost, koju ćemo posebno razmatrati kroz ovaj projekt je da je ovo prvo pojavljivanje Univerziteta u Sarajevu, te tako i **prvo pojavljavanje jedne visokoobrazovne institucije iz Bosne i Hercegvine na ovoj rang listi**, što je čak i naglašeno na web-stranici rang liste._ 
> ,,Four countries enter the ranking for the first time – all of them in Europe. The addition of Kosovo, Bosnia and Herzegovina, North Macedonia and Armenia..."



##### **Metodologija i parametri**  
> ,,The table is based on our new WUR 3.0 methodology, which includes 18 carefully calibrated performance indicators that measure an institution’s performance across five areas: teaching, research environment, research quality, industry, and international outlook."  
  \- Times Higher Education
  


  _Set podataka se sastoji od:_  
* **Broj redova (univerziteta): _2673_**
    
    Pored 1907 rangiranih univerziteta, ***postoje 769 sa 'Reporter' statusom,*** tj. univerziteti koji su proslijedili podatke ali nisu zadovoljavali kriterij za rank, ali su prihvatili da budu prikazani kao "reporteri" u konačnoj tabeli.  
    *(Primjer, na jednoj rang listi, sa Reporter statusom se nalazi "University of Mostar", da li to bio UNMO/Džemal Bijedić ili SUM/Sveučilište u Mostaru, nije poznato, te se ne broji kao visokoobrazovna ustanova uvrštena u ovu rang listu)*

* **Broj kolona: _29, od kojih je 17 parametara pokazatelja učinka iz metodologije._**

   ***Parametri su grupisani na sljedeći način:***  
     * Teaching _(bos. 'Nastava', u datasetu: **'scores_teaching'**)_
        * Teaching Reputation _(bos. **'Reputacija nastave'**)_
        * Student Staff Ratio _(bos. **Proporcija Student-Osoblje,** u datasetu: **'stats_student_staff_ratio'**)_
        * Doctorate Bachelor Ratio _(bos. **Proporcija Student-Osoblje,** u datasetu: **'stats_student_staff_ratio'**)_
        * Doctorate Staff Ratio _(bos. **Proporcija Student-Osoblje,** u datasetu: **'stats_student_staff_ratio'**)_
        * Institutional Income _(bos. **Proporcija Student-Osoblje,** u datasetu: **'stats_student_staff_ratio'**)_
    * Research Environment _(bos. 'Istraživačko okruženje')_
        * Research Reputation _(bos. '**Reputacija istraživanja'**)_
        * Research Income _(bos. **Proporcija Student-Osoblje,** u datasetu: **'stats_student_staff_ratio'**)_
        * Research Productivity _(bos. **Proporcija Student-Osoblje,** u datasetu: **'stats_student_staff_ratio'**)_
        * Research Quality _(bos. **Proporcija Student-Osoblje,** u datasetu: **'stats_student_staff_ratio'**)_
        * Citation Impact _(bos. **Proporcija Student-Osoblje,** u datasetu: **'stats_student_staff_ratio'**)_
        * Research Strength _(bos. **Proporcija Student-Osoblje,** u datasetu: **'stats_student_staff_ratio'**)_
        * Research Excellence _(bos. **Proporcija Student-Osoblje,** u datasetu: **'stats_student_staff_ratio'**)_
        * Research Influence _(bos. **Proporcija Student-Osoblje,** u datasetu: **'stats_student_staff_ratio'**)_
    * International outlook _(bos. **'Međunarodni izgled'**, u datasetu: **'scores_international_outlook'**)_
        * International Students _(bos. **Međunarodni studenti,** u datasetu: **'stats_student_staff_ratio'**)_
        * International Staff _(bos. **Međunarodno osoblje** u datasetu: **'stats_student_staff_ratio'**)_
        * International Co-authorship _(bos. **Međunarodno koautorstvo** u datasetu: **'stats_student_staff_ratio'**)_
    * Industry
        * Industry Income _(bos. **Proporcija Student-Osoblje,** u datasetu: **'stats_student_staff_ratio'**)_
        * Patents _(bos. **Patenti** u datasetu: **'stats_student_staff_ratio'**)_


_**Napomena:** Radi statističke analize, ovo nije potpuni spisak parametara, već onih obrađenih i prevedenih u ovaj set podataka kao parametri. Više informacija o WUR metodologiji možete pronaći [ovdje.](https://www.timeshighereducation.com/sites/default/files/the_2024_world_university_rankings_methodology.pdf)_


In [None]:
# TODO: @TarikRedzic, fino ispuni ovo gore. Ostavio sam ti template. Što nema u datasetu, obriši, zato ti je ova posljednja rečenica.

In [68]:
#@title ####**Tabela 1: Primjer zapisa u setu podataka"* { display-mode: "form" }¸
display(df[df['scores_overall_rank'] == 18290])


Unnamed: 0,rank,name,scores_overall,scores_overall_rank,scores_teaching,scores_teaching_rank,scores_research,scores_research_rank,scores_citations,scores_citations_rank,...,stats_number_students,stats_student_staff_ratio,stats_pc_intl_students,stats_female_male_ratio,aliases,subjects_offered,closed,unaccredited,disabled,website_url
1828,1501+,University of Sarajevo,9.7–22.7,18290,16.4,1673,10.8,1552,18.6,1707,...,25468,15.6,0%,64 : 36,University of Sarajevo,"Languages, Literature & Linguistics,Agricultur...",False,False,False,


### <p>2. <a href="https://en.wikipedia.org/wiki/Probability_distribution_fitting" style="color:inherit">Prilagođavanje distribucija vjerovatnoće podataka</a> <br> _(eng. Probability distribution fitting)_</p>

Član tima: **Aid Mustafić**

---

### 3. Provjera prilagođenih distribucija - _[Chi-kvadratni goodness-of-fit test](https://www.geo.fu-berlin.de/en/v/soga-py/Basics-of-statistics/Hypothesis-Tests/Chi-Square-Tests/Chi-Square-Goodness-of-Fit-Test/index.html)_
Član tima: **Adnan Muradbegović**

---

### 4. Provjera statističkih normalnosti - _[Kolmogorov–Smirnov, Shapiro–Wilk i QQ-plot](https://en.wikipedia.org/wiki/Normality_test)_


Član tima: **Adnan Muradbegović**

---

### 5. Estimacija intervala pouzdanosti _(eng. confidence intervals)_


Član tima: **Zlatan Ljutika**

---

### 6. Estimacija pouzdanosti proporcije _(eng. proportion confidence intervals)_


Član tima: **Tarik Redžić**

---

## **Statistička inferencija seta podataka**

Da bi na osnovu do sada posmatranog seta podataka uspjeli istaknuti konkretne i korisne zaključke, u ovom poglavlju ćemo primjeniti metodu statističkog inferenciranja, testiranje statističkih hipoteza (eng. statistical hypothesis testing).

...

**Hipoteza H0:** Ideja postojanja grada Stolac je CIA propaganda. (Predstavlja: Aid Mustafić)<br>
**Hipoteza H1:** Rang liste su fiktivni protu-Dinko Osmanković alat (Predstavlja: Adnan Muradbegović)<br>
**Hipoteza H2:** Adnan Osmanović (Predstavlja: Općina Bugojno)<br>
**Hipoteza H3:** Bottom Text (Predstavlja: Zlaja Ljutika)<br>

### 2.1. **Hipoteza:** Ideja postojanja grada Stolac je CIA propaganda

Član tima: **Aid Mustafić**

---

### 2.2. **Hipoteza:** Ideja postojanja grada Stolac je CIA propaganda

Član tima: **Aid Mustafić**

---

### 2.3. **Hipoteza:** Ideja postojanja grada Stolac je CIA propaganda

Član tima: **Aid Mustafić**

---

### 2.4. **Hipoteza:** Ideja postojanja grada Stolac je CIA propaganda

Član tima: **Aid Mustafić**

---

## **Linearni regresivni model seta podataka**

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut a volutpat nulla. Donec eu ante eget nisl posuere scelerisque. Nulla sed eros purus. In placerat diam vel augue aliquet, sit amet faucibus sem sagittis. Interdum et malesuada fames ac ante ipsum primis in faucibus. Vestibulum id diam magna. Curabitur porta urna ante, et aliquet odio blandit at. Cras viverra tellus id pulvinar rhoncus. Praesent id ullamcorper dolor. Nulla lacinia arcu a massa sollicitudin ullamcorper.

predvidjeti overall_score?

# Dobri linkovi


[1]https://www.timeshighereducation.com/world-university-rankings/world-university-rankings-2024-china-creeps-closer-top-10  
[Desno pored ranga ima sekcija "Academic insights", može mnogo poslužiti]https://www.timeshighereducation.com/world-university-rankings/2024/world-ranking 
[3]https://www.timeshighereducation.com/sites/default/files/the_2024_world_university_rankings_methodology.pdf
