# Analiza transportului in comun din Cluj-Napoca
# cu ajutorul datelor open de la  Tranzy AI - folosind PostgreSQL + POSTGIS

In primul rand (ad literam) - multumim [Tranzy AI](https://tranzy.ai/) pentru decizia de a face publice informatiile din sistemele de transport urban pe care le gestioneaza! Chapeau!

*prezentul notebook a fost creat pentru a usura munca celor mai putin obisnuiti cu Postgresql + POSTGIS, dar si pentru ca Jupyter Notebook ofera posibilitatea de a explica pe larg pasii necesari in dezvoltarea unei analize.*

> Conditii prealabile pentru ca Notebookul sa functioneze:
>1. Postgresql instalat - in principiu, instalarea e cu Next->Next->Next :) !! atentie la username si parola superuserului BD 
>2. PostGIS instalat - idem de mai sus
>3. pgAdmin - interfata grafica de administrare a Serverelor PostgreSQL
>4. ipython-sql (pip install ipython-sql) pentru ca Notebook sa poata rula comenzi SQL

> Conditii prealabile pentru analiza:
>1. Date de analizat - de la Tranzy AI - e nevoie de cont creat la https://tranzy.dev/ si cheie API
>2. Alte date de tip GIS - detalii in cele ce urmeaza

Din pacate, oricat am incercat, extensia sql a kernelului e limitata si nu permite userului sa creeze o baza de date din Notebook. Prin urmare, solutia e sa va conectati la serverul PostgreSQL cu ajutorul unei interfete de genul pgAdmin si sa creati o baza de date __'transport'__ in care "ne vom desfasura" ulterior.  
In interfata pgAdmin vi se solicita initial datele serverului la care doriti sa va conectati: Nume (oricenumedoriti), Host (localhost) si Port (5432). Dupa configurarea serverului va veti putea conecta la el cu credentialele potrivite. Pentru a crea baza de date __'transport'__ click dreapta pe 'Databases' ->'Create Database' --> specificati numele: transport si eventual Definition: Tablespace: pg_default. Ulterior crearii - click dreapta pe baza de date transport -> 'Create extension' si alegeti 'postgis'. Astfel veti avea o baza de date pe server avand toate capacitatile oferite de POSTGIS. 

Incarcam extensia sql in kernel pentru a putea ulterior executa comenzi SQL

In [None]:
%load_ext sql

Cream un sir de conectare la BD PostgreSQL de tip *user@parola/server/bazadedate*  - credentialele sunt fie cele ale superuserului create la instalarea PostgreSQL (postgres/postgres) fie - pentru utilizatorii avansati - un user cu drepturi depline asupra bazei de date si parola aferenta  

--- mai jos sirul de conectare e construit cu _user:postgres_ si _parola:postgres_ si _baza de date creata anterior: transport_ ---

In [None]:
%sql postgresql://postgres:postgres@localhost/transport

## Baza de date spatiala
### Tabela cu rutele de transport  - vectorii de-a lungul carora se deplaseaza vehiculele
O prima tabela in baza de date - cadou din partea mea!  _(Creative Commons Attribution License - Radu Jucan / EGH)_  
Contine segmentele rutelor de transport urban din Cluj-Napoca. E mai complet si mai util in forma aceasta decat ceea ce gasiti in API-ul Tranzy. Scutim serverul lor de tranzactii inutile :)  
Ca sa functioneze in Notebook - fisierul sql trebuie sa fie in acelasi folder cu fisierul Jupyter. Atentie! Procesul e lent, sunt multe inregistrari, peste 35000, asteptati finalizarea (ar trebui sa apara mesajul 'Done').  


In [None]:
%sql -f desters.sql

Testam existenta tabelei si a inregistrarilor.

In [None]:
%%sql 
SELECT * FROM public.desters
ORDER BY id ASC LIMIT 5

In [None]:
%sql SELECT COUNT(id)FROM desters;

### Tabela cu pozitia vehiculelor

Cream o alta tabela in baza de date care sa contina informatiile despre vehiculele de transport din Cluj-Napoca.

In [None]:
%%sql 
CREATE TABLE IF NOT EXISTS public.vehicule
(
    nume character(10),
    ruta character(10),
    geom geometry(Point,4326),
    dataora timestamp without time zone,
    creat timestamp without time zone
);

CREATE INDEX vehicule_geom_idx
    ON public.vehicule USING gist(geom)

Cum populam tabelul cu informatiile oferite de Tranzy?  
Dupa cum spuneam e nevoie de o cheie API. Dupa ce o obtineti introduceti-o mai jos in locul 'Your_API_Key'.  
Pentru a vedea daca functioneaza si ce contine raspunsul Serverului Tranzy executati suita de mai jos. 

In [None]:
import http.client

conn = http.client.HTTPSConnection("api.tranzy.dev")

headers = {
    'X-Agency-Id': "2",
    'Accept': "application/json",
    'X-API-KEY': "cNtUC1z9pB4srvUSCJKFRaX1NjUr2AVn3gPQqqLb"
}

conn.request("GET", "/v1/opendata/vehicles", headers=headers)

res = conn.getresponse()
data = res.read()

print(data.decode("utf-8"))

Rezultatul e un fisier JSON continand informatii despre vehiculele CTP Cluj-Napoca. In special ne intereseaza numele ('label'), pozitia (data de 'latitude' si 'logitude') ora la care s-a inregistrat poztia ('timestamp') si ruta ('route_id' si 'trip_id'). Aceste informatii le dorim introduse in tabela vehicule anterior creata.
Cateva precizari:
* coordonatele - latitudinea si longitudinea - le-am convertit in geometrie POSTGIS cu functia ST_MakePoint (si setand sistemul de referinta - ST_SetSRID 4326 - mai cunoscut sub numele WGS84)
* pentru timpul inregistrarilor am facut un artificiu - trebuia transformat din GMT in ora locala
* in plus fata de inregistrarile din JSON am completat un camp in tabela - 'creat' - ora locala la care am efectuat popularea bazei de date

In [None]:
import http.client
import json
from datetime import datetime, timedelta

conn = http.client.HTTPSConnection("api.tranzy.dev")

headers = {
    'X-Agency-Id': "2",
    'Accept': "application/json",
    'X-API-KEY': "cNtUC1z9pB4srvUSCJKFRaX1NjUr2AVn3gPQqqLb"
}

conn.request("GET", "/v1/opendata/vehicles", headers=headers)

res = conn.getresponse()
data = json.loads(res.read().decode())

for record in data:
    label = record['label']
    latitude = record['latitude']
    longitude = record['longitude']
    timestamp_str = record['timestamp']
    route_id = record['route_id']
    trip_id = record['trip_id']
    timestamp = datetime.fromisoformat(timestamp_str.replace('Z', '+00:00'))+timedelta(hours=3)
    formated_timestamp = timestamp.strftime('%Y-%m-%d %H:%M:%S')
    %sql INSERT INTO vehicule (nume, ruta, dataora, geom, creat) VALUES ('{label}', '{route_id}', '{formated_timestamp}', ST_SetSRID(ST_MakePoint({longitude}, {latitude}),4326), LOCALTIMESTAMP);

O verificare a tabelei:

In [None]:
%sql SELECT * FROM vehicule LIMIT 5;

Avem astfel o metoda de populare a bazei de date cu informatii despre vehiculele de transport urban din Cluj-Napoca.  
  
Pentru a analiza transportul urban in municipiu e nevoie ca sa detinem un set larg de informatii. Macar pe decursul unei zile, daca nu - al unei luni. Prin urmare, pasul anterior, prin care informatiile din JSON sunt preluate in BD, trebuie repetat la intervale (relativ) regulate (5 minute ar fi OK) pe decursul intregii zile (saptamani, luni). Aceasta activitate nu se preteaza a fi executata dintr-un Jupyter Notebook - automatizarea ei o puteti realiza prin alte metode - aici Chat GPT va poate fi de folos:)

Trebuie sa mentionez ca accesarea Serverului API al Tranzy AI este limitata la un numar de tranzactii pe zi. Nu am cunostinta care e limita, deci nu abuzati. Retineti ca accesarea la 5 minute pentru un interval orar 4:30-23:30 (cursele de noapte ale CTP le ignoram! :) ) duce la un numar de peste 200 de request-uri pe zi. 

## Analiza spatiala

Dupa ce veti avea in baza de date informatii suficiente despre pozitia vehiculelor Companiei de Transport de-a lungul unei zile (saptamani, luni) - e timpul sa analizam cum se deplaseaza aceste vehicule de-a lungul rutelor.

#### Logica:  
Un vehicul cu numarul de identificare X, la momentul T0 are o anumita pozitie de-a lungul unei rute Y. Pozitia lui la momentul T1 ne-ar permite sa calculam distanta parcursa de-a lungul rutei in intervalul de timp T1-T0. Ne vor ajuta in principal functiile POSTGIS, de genul ST_ClosestPoint - pentru identificarea celui mai apropiat punct de pe o linie (pozitionarea vehicului pe ruta) si ST_LineSubstring - pentru a 'taia' ruta intre 2 pozitii succesive ale vehiculului.     

#### Pregatiri
In etapa premergatoare ar trebui sa construim o tabela noua cu rutele (intregi de data aceasta, nu segmente - asa cum le avem deja in tabela initiala - vi le-am oferit sub forma de segmente pentru a usura activitatea serverului in SQL-urile analizei - probabil stiti deja, daca nu - foarte pe scurt: o indexare spatiala a segmentelor e mai eficienta decat una pentru linii complexe).  
Cream o tabela 'rutelinii':

In [None]:
%%sql 
CREATE TABLE IF NOT EXISTS public.rutelinii
( 
    id SERIAL,
    ruta character(10),
    geom geometry(LineString,4326),
    CONSTRAINT rutelinii_pkey PRIMARY KEY (id)
);

CREATE INDEX rutelinii_geom_idx
    ON public.rutelinii USING gist(geom)

Legam segmentele in linii in noua tabela.

In [None]:
%%sql
INSERT INTO rutelinii (ruta,geom) 
SELECT ruta, ST_LineMerge (ST_Collect(geom)) as geom 
FROM rutesegmente GROUP BY ruta