# Analiza mreže javnog gradskog prevoza u Beogradu

### Opis grafa
TODO

Podešavanje okruženja:
+ pip install ipykernel
+ pip install numpy scipy networkx pandas matplotlib
+ pip install scikit-learn python-docx

Linkovi:
+ [Portal otvorenih podataka](https://data.gov.rs/sr/datasets/gtfs/)
+ [General Transit Feed Specification](https://en.wikipedia.org/wiki/GTFS)
+ [Linije javnog prevoza u Beogradu](https://sr.wikipedia.org/sr-el/%D0%9B%D0%B8%D0%BD%D0%B8%D1%98%D0%B5_%D1%98%D0%B0%D0%B2%D0%BD%D0%BE%D0%B3_%D0%BF%D1%80%D0%B5%D0%B2%D0%BE%D0%B7%D0%B0_%D1%83_%D0%91%D0%B5%D0%BE%D0%B3%D1%80%D0%B0%D0%B4%D1%83)
+ [Sekretarijat za javni prevoz](https://www.bgprevoz.rs/)

### Globalne stvari

In [None]:
# importi
import numpy as np
import scipy.stats as stats
import networkx as nx
import pandas as pd
import pickle
import matplotlib.pyplot as plt
from itertools import chain, combinations
from sklearn.cluster import SpectralClustering
from scipy.cluster.hierarchy import dendrogram


# putanje
original_path = "../data/!original/"
clean_path = "../data/clean/"

# globalne funkcije

def series_to_single_value(series):
    return series.to_list()[0]

def cleaned_null_columns(df:pd.DataFrame):
    def column_has_values(column):
        return True
    non_null_columns = [column for column in df.columns if not df[column].isna().all()]
    return df[non_null_columns]

def cleaned_duplicates(df:pd.DataFrame):
    no_duplicates = df.drop_duplicates()
    number_of_duplicates = df.shape[0] - no_duplicates.shape[0]
    print(f'Number of duplicates in table is {number_of_duplicates}')
    return no_duplicates

def cleaned_data_frame(df:pd.DataFrame):
    return cleaned_duplicates(cleaned_null_columns(df))

# TODO

### Čišćenje podataka

In [None]:
# # # Originalni podaci se čuvaju u data/!original/ folderu.
# Prečišćeni podaci se čuvaju u data/clean/ folderu.
# BgNetLWalk podaci se čuvaju u data/consolidate/ folderu.    

# TODO: izabrati koji se podaci koriste za izvršavanje
# ! Komentare koji pocinju sa uzvicnikom ili upitnikom izbaciti iz finalne verzije
df_agency = pd.read_csv(f"{original_path}/agency.csv")
df_calendar_dates = pd.read_csv(f"{original_path}/calendar_dates.csv")
df_calendar = pd.read_csv(f"{original_path}/calendar.csv")
df_fare_attributes = pd.read_csv(f"{original_path}/fare_attributes.csv")
df_fare_rules = pd.read_csv(f"{original_path}/fare_rules.csv")
df_feed_info = pd.read_csv(f"{original_path}feed_info.csv")
df_frequencies = pd.read_csv(f"{original_path}/frequencies.csv")#? Treba li da radimo u opstem slucaju i pravimo da ova tabela postoji, ili je bas poenta da je ignorisemo
df_routes = pd.read_csv(f"{original_path}/routes.csv")
df_shapes = pd.read_csv(f"{original_path}/shapes.csv")
df_stops = pd.read_csv(f"{original_path}/stops.csv")
df_stop_times = pd.read_csv(f"{original_path}/stop_times.csv", dtype={"stop_headsign":np.string_})
df_transfers = pd.read_csv(f"{original_path}/transfers.csv")
df_trips = pd.read_csv(f"{original_path}/trips.csv")


all_frames = [df_agency, df_calendar_dates, df_calendar, df_fare_attributes, df_fare_rules, df_feed_info, df_frequencies, df_routes, df_shapes, df_stops, df_stop_times, df_transfers, df_trips]
all_frames_cleaned = [cleaned_data_frame(df) for df in all_frames]




In [None]:
[df_agency, df_calendar_dates, df_calendar, df_fare_attributes, df_fare_rules, df_feed_info, df_frequencies, df_routes, df_shapes, df_stops, df_stop_times, df_transfers, df_trips] = all_frames_cleaned
df_agency.to_csv(f"{clean_path}/agency.csv", index=False)
df_calendar_dates.to_csv(f"{clean_path}/calendar_dates.csv", index=False)
df_calendar.to_csv(f"{clean_path}/calendar.csv", index=False)
df_fare_attributes.to_csv(f"{clean_path}/fare_attributes.csv", index=False)
df_fare_rules.to_csv(f"{clean_path}/fare_rules.csv", index=False)
df_feed_info.to_csv(f"{clean_path}/feed_info.csv", index=False)
df_frequencies.to_csv(f"{clean_path}/frequencies.csv", index=False)
df_routes.to_csv(f"{clean_path}/routes.csv", index=False)
df_shapes.to_csv(f"{clean_path}/shapes.csv", index=False)
df_stops.to_csv(f"{clean_path}/stops.csv", index=False)
df_stop_times.to_csv(f"{clean_path}/stop_times.csv", index=False)
df_transfers.to_csv(f"{clean_path}/transfers.csv", index=False)
df_trips.to_csv(f"{clean_path}/trips.csv", index=False)

In [None]:
df_agency = pd.read_csv(f"{clean_path}/agency.csv")
df_calendar_dates = pd.read_csv(f"{clean_path}/calendar_dates.csv")
df_calendar = pd.read_csv(f"{clean_path}/calendar.csv")
df_fare_attributes = pd.read_csv(f"{clean_path}/fare_attributes.csv")
df_fare_rules = pd.read_csv(f"{clean_path}/fare_rules.csv")
df_feed_info = pd.read_csv(f"{clean_path}/feed_info.csv")
df_routes = pd.read_csv(f"{clean_path}/routes.csv")
df_shapes = pd.read_csv(f"{clean_path}/shapes.csv")
df_stops = pd.read_csv(f"{clean_path}/stops.csv")
df_stop_times = pd.read_csv(f"{clean_path}/stop_times.csv", dtype={"stop_headsign":np.string_})
df_trips = pd.read_csv(f"{clean_path}/trips.csv")


### Statistička obrada podataka [5 poena]
1) Odrediti prosečno vreme između dva polaska svake od linija. Koje su linije sa najčešćim, a koje sa najređim polascima?
2) Koje su linije sa najvećim brojem stanica, a koje stanice sa najvećim brojem linija?
3) Preračunati očekivani dnevni promet stanice kao ukupan očekivani broj stajanja linije na toj stanici, određen na osnovu planiranog rasporeda vožnje. Koje su stanice sa najvećim očekivanim dnevnim prometom?
4) Svakoj stanici dodeliti tip na osnovu vrsta prevoza koje prolaze njom (stanica autobusa, tramvaja, trolejbusa ili meštovita stanica). Koliko ima stanica svakog tipa?

In [None]:
# 1) Odrediti prosečno vreme između dva polaska svake od linija.
# Koje su linije sa najčešćim, a koje sa najređim polascima?

# TODO
df_stop_times [df_stop_times["stop_headsign"].notna()]

In [None]:
df_trips

In [None]:
# 2) Koje su linije sa najvećim brojem stanica, a koje stanice sa najvećim brojem linija?

# TODO
#stops (identified by the name) with routes

#! Treba izvrsiti spajanje stanica pa iskombinovati sa ovim
def find_stops_with_most_routes():
    def stop_name_from_id(stop_id):
        return df_stops[df_stops["stop_id"] == stop_id].iloc[0]["stop_name"]

    def route_id_from_trip(trip_id):
        return df_trips[df_trips["trip_id"] == trip_id].iloc[0]["route_id"]



    test_example = df_stop_times[["stop_id", "trip_id"]].head(100) #! Kod mene je presporo da probam na celom skupu
    #stop_times_with_route = test_example[["stop_id", "trip_id"]].assign(route_id = test_example["trip_id"].map(lambda x: route_id_from_trip(x)))
    stop_times_with_route = df_stop_times[["stop_id", "trip_id"]].assign(route_id = df_stop_times["trip_id"].map(lambda x: route_id_from_trip(x)))

    stop_ids_with_num_routes= stop_times_with_route[["stop_id", "route_id"]].groupby("stop_id").count().reset_index()
    stop_names_with_num_routes = stop_ids_with_num_routes.assign(stop_name = stop_ids_with_num_routes["stop_id"].map(lambda x: stop_name_from_id(x)))

    #! Treba videti kako da preimenujem sad ovu rout_id u broj ruta
    lines_with_most_routes = stop_names_with_num_routes.loc[stop_ids_with_num_routes["route_id"] == stop_ids_with_num_routes["route_id"].max()][["stop_name", "route_id"]]
    return lines_with_most_routes

find_stops_with_most_routes()


In [None]:
# 3) Preračunati očekivani dnevni promet stanice kao ukupan očekivani broj stajanja linije na toj stanici,
# određen na osnovu planiranog rasporeda vožnje. Koje su stanice sa najvećim očekivanim dnevnim prometom?

# TODO

In [None]:
# 4) Svakoj stanici dodeliti tip na osnovu vrsta prevoza koje prolaze njom
# (stanica autobusa, tramvaja, trolejbusa ili meštovita stanica). Koliko ima stanica svakog tipa?

# TODO

### Osnovna karakterizacija modelovanih mreža [10 poena]
5) Kolika je gustina mreže?
6) Kolike su prosečne distance u okviru mreže i dijametar mreže?
7) U kojoj meri je mreža povezana i centralizovana? Navesti broj i veličine povezanih komponenata i proceniti da li postoji gigantska komponenta.
8) Koliki je prosečni, a koliki globalni koeficijent klasterizacije mreže? Kakva je raspodela lokalnog koeficijenta klasterizacije njenih čvorova? Da li je klasterisanje izraženo ili ne? Odgovor dati upoređivanjem sa slučajno generisanim Erdos-Renyi i scale free mrežama istih dimenzija.
9) Na osnovu odgovora na pitanja 6 i 8, proceniti da li mreža iskazuje osobine malog sveta.
10) Izvršiti asortativnu analizu po stepenu čvora i dati odgovor da li je izraženo asortativno mešanje. Priložiti i vizuelizaciju.
11) Da li mreža ispoljava fenomen kluba bogatih (eng. rich club phenomenon)?
12) Analizirati stajališta na osnovu tarifne zone kojoj pripadaju. Ispitati da li BGNetL i BGNetP mreže odgovaraju modelu jezgra i periferije (core-periphery model). Smatrati da prva zona pripada jezgru, a ostale periferiji.
13) Kakva je distribucija čvorova po stepenu i da li prati power law raspodelu?

In [None]:
# 5) Kolika je gustina mreže?

#TODO

In [None]:
# 6) Kolike su prosečne distance u okviru mreže i dijametar mreže?

#TODO

In [None]:
# 7) U kojoj meri je mreža povezana i centralizovana?
# Navesti broj i veličine povezanih komponenata i proceniti da li postoji gigantska komponenta.

#TODO

In [None]:
# 8) Koliki je prosečni, a koliki globalni koeficijent klasterizacije mreže?
# Kakva je raspodela lokalnog koeficijenta klasterizacije njenih čvorova?
# Da li je klasterisanje izraženo ili ne?
# Odgovor dati upoređivanjem sa slučajno generisanim Erdos-Renyi i scale free mrežama istih dimenzija.

#TODO

In [None]:
# 9) Na osnovu odgovora na pitanja 6 i 8, proceniti da li mreža iskazuje osobine malog sveta.

#TODO

In [None]:
# 10) Izvršiti asortativnu analizu po stepenu čvora i dati odgovor
# da li je izraženo asortativno mešanje. Priložiti i vizuelizaciju.

#TODO

In [None]:
# 11) Da li mreža ispoljava fenomen kluba bogatih (eng. rich club phenomenon)?

#TODO

In [None]:
# 12) Analizirati stajališta na osnovu tarifne zone kojoj pripadaju.
# Ispitati da li BGNetL i BGNetP mreže odgovaraju modelu jezgra i periferije (core-periphery model).
# Smatrati da prva zona pripada jezgru, a ostale periferiji.

#TODO

In [None]:
# 13) Kakva je distribucija čvorova po stepenu i da li prati power law raspodelu?

#TODO

### Analiza mera centralnosti [5 poena]
14) Sprovesti analize centralnosti po stepenu, bliskosti i relacionoj centralnosti. Dati pregled najvažnijih aktera po svakoj od njih.
15) Ko su najvažniji akteri po centralnosti po sopstvenom vektoru? Šta nam to govori o njima?
16) Na osnovu prethodna dva pitanja predložiti i konstruisati heuristiku (kompozitnu meru centralnosti) za pronalaženje najvažnijih aktera i pronaći ih. Obratiti pažnju na tip mreže koji se analizira (usmerena ili neusmerena) i, shodno tome, prilagoditi koliko različite mrežne metrike utiču na heuristiku.

In [None]:
# 14) Sprovesti analize centralnosti po stepenu, bliskosti i relacionoj centralnosti.
# Dati pregled najvažnijih aktera po svakoj od njih.

# TODO

In [None]:
# 15) Ko su najvažniji akteri po centralnosti po sopstvenom vektoru? Šta nam to govori o njima?

# TODO

In [None]:
# 16) Na osnovu prethodna dva pitanja predložiti i konstruisati heuristiku (kompozitnu meru centralnosti)
# za pronalaženje najvažnijih aktera i pronaći ih. Obratiti pažnju na tip mreže koji se analizira (usmerena ili neusmerena) i,
# shodno tome, prilagoditi koliko različite mrežne metrike utiču na heuristiku.

# TODO

### Detekcija komuna Luvenskom metodom [5 poena]
17) Sprovesti klasterisanje Luvenskom metodom (maksimizacijom modularnosti) u alatu Gephi za tri različite vrednosti parametra rezolucije. Konstruisati vizuelizacije i diskutovati izbor parametra rezolucije na dobijeno klasterisanje (broj i veličina klastera).
18) Koje zajednice (komune) se mogu uočiti prilikom analize mreže, a koji akteri su ključni brokeri? Da li postoji neko objašnjenje za detektovane komune? Odgovor dati posmatrajući ne samo strukturu mreže, već i atribute preračunate u pitanjima 3 i 4.

In [None]:
# 17) Sprovesti klasterisanje Luvenskom metodom (maksimizacijom modularnosti) u alatu Gephi za tri različite vrednosti parametra rezolucije.
# Konstruisati vizuelizacije i diskutovati izbor parametra rezolucije na dobijeno klasterisanje (broj i veličina klastera).

# TODO

In [None]:
# 18) Koje zajednice (komune) se mogu uočiti prilikom analize mreže, a koji akteri su ključni brokeri?
# Da li postoji neko objašnjenje za detektovane komune?
# Odgovor dati posmatrajući ne samo strukturu mreže, već i atribute preračunate u pitanjima 3 i 4.

# TODO

### Detekcija komuna spektralnim klasterisanjem [10 poena]
19) Predložiti funkcije sličnosti za L i P modele koje, osim strukturnih informacija iz odgovarajućih mreža, uključuju i geografske podatke o čvorovima i konstruisati matrice sličnosti i graf Laplasijane na osnovu predloženih funkcija sličnosti.
20) Sprovesti sprektralnu analizu i proceniti potencijalne kandidate za broj komuna u mreži. Uporediti rezultat sa dendogramom konstruisanim Girvan-Newman metodom.
21) Izvršiti spektralno klasterisanje na osnovu konstruisanih funkcija sličnosti i procenjenog broja klastera. Vizuelizovati klasterisanje na mapi gradskog saobraćaja, tako što će se stanice koje su svrstane u isti klaster crtati istom bojom. Izabrati boje koje daju dobar kontrast u odnosu na mapu i boje drugih klastera.
22) Ko su akteri koji se mogu okarakterisati kao ključni brokeri (mostovi) u mreži? Šta ih čini brokerima? Porediti odgovor sa brokerima dobijenim u pitanju 17.

In [None]:
# 19) Predložiti funkcije sličnosti za L i P modele koje, osim strukturnih informacija iz odgovarajućih mreža,
# uključuju i geografske podatke o čvorovima i konstruisati matrice sličnosti i graf Laplasijane na osnovu predloženih funkcija sličnosti.

# TODO

In [None]:
# 20) Sprovesti sprektralnu analizu i proceniti potencijalne kandidate za broj komuna u mreži.
# Uporediti rezultat sa dendogramom konstruisanim Girvan-Newman metodom.

# TODO

In [None]:
# 21) Izvršiti spektralno klasterisanje na osnovu konstruisanih funkcija sličnosti i procenjenog broja klastera.
# Vizuelizovati klasterisanje na mapi gradskog saobraćaja, tako što će se stanice koje su svrstane u isti klaster crtati istom bojom.
# Izabrati boje koje daju dobar kontrast u odnosu na mapu i boje drugih klastera.

# TODO

In [None]:
# 22) Ko su akteri koji se mogu okarakterisati kao ključni brokeri (mostovi) u mreži?
# Šta ih čini brokerima?
# Porediti odgovor sa brokerima dobijenim u pitanju 17.

# TODO

### Analiza mreže BGNetLWalk [5 poena]
23) Ponoviti sve analize koje imaju smisla za BGNetLWalk mrežu. Uporediti i komentarisati dobijene rezultate sa BGNetL mrežom. Da li se uočavaju značajnije promene u mreži?

In [None]:
# 23) Ponoviti sve analize koje imaju smisla za BGNetLWalk mrežu.
# Uporediti i komentarisati dobijene rezultate sa BGNetL mrežom.
# Da li se uočavaju značajnije promene u mreži?

# TODO: pokrenuti notebook sa drugačijim parametrima