# Laboratorium 1 - A* vs Dijkstra / Tabu search
### Lukasz Fabia 272724


### Jak zacząć?

Python3, najlepiej wersja > 3.11.

```bash
python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
```

## Teoria i cel

Celem tego zdania jest znalezienie najkrótszego (min. droga) przejazdu MPK lub przejechanie z punktu A do B w najkrótszym czasie (min. czasu).

Do tego problemu optymalizacji należy wykorzystać dwa popularne algorytmy do wyszukiwania najktrótszych ścieżek - A* i Dijkstra. 

---

### Dijkstra

**Algorytm zachłanny**, znajdujący najkrótszą ścieżkę od węzła startowego do wszystkich innych węzłów w grafie. Wykorzstuje wagi (u mnie i w zadaniu korzysta on z kosztu czasu).

### A*

Jest sprowadzalny do **Dijkstry**. Można powiedzieć, że jest taką ulepszoną wersją i jest częściej używany ze względu na optymalność. A* korzysta z heurystyk, żeby oszacować, czy opłaca się wybierać taka a nie inną ścieżkę. Warto dodać, że działa to gdy wiemy czego szukamy, czyli znany jest _target_.

## Jak zbudowałem strukturę grafu?

Generalnie w `/models/graph.py` mamy całą strukturę składa się ona z `Node`, `Edge` i coś co agreguje w sobie węzły, czyli graf. W klasie grafu znajduje się tylko słownik (ulica, węzeł). 

Kolejnym krokiem było parsowanie danych i wrzucenie ich do grafu. Iterowałem po wierszach i:

1. Wyciągałem dane z wiersza i robiłem z tego krawędź.

2. Dodawałem startowy i końcowy przystanek do słownika. Dodawanie działa w taki sposób, że jeśli ulicy nie ma w kluczach to dodaje dane tej ulicy pod tym kluczem.

3. Aktualizacja krawędzi, czyli do listy startowego węzła dodaje nowy edge z podpiętymi węzłami.


W ten sposób, wystarczy utworzyć obiekt i otrzymujemy `Graf skierowany ważony`.

## Strategie działania

Ten problem można fajnie rozwiązać za pomoca strategii. Logika leży tylko w wybieraniu najbardziej **optymalnej** ścieżki. Zatem zbudowałem sobie szkielet z częścią wspólną tych algorytmów i będę manipulować tylko w konkretnych implementacjach wyborem ścieżki. W ten sposób będzie można tworzyć łatwiej nowe odmiany tych algorytmów.

## Wgląd do danych

Pierwsze 5 wierszy. Z racji tego, że jednym z czynników, którym będziemy się kierować przy wybieraniu trasy będzie czas no to warto różnicę, która będzie kosztem danej ścieżki.

In [1]:
from parser import get_df
df = get_df()

df.head()

Unnamed: 0,company,line,departure_time,arrival_time,start_stop,end_stop,start_stop_lat,start_stop_lon,end_stop_lat,end_stop_lon
0,MPK Autobusy,A,20:52:00,20:53:00,Zajezdnia Obornicka,Paprotna,51.148737,17.021069,51.147752,17.020539
1,MPK Autobusy,A,20:53:00,20:54:00,Paprotna,Obornicka (Wołowska),51.147752,17.020539,51.144385,17.023735
2,MPK Autobusy,A,20:54:00,20:55:00,Obornicka (Wołowska),Bezpieczna,51.144385,17.023735,51.14136,17.026376
3,MPK Autobusy,A,20:55:00,20:57:00,Bezpieczna,Bałtycka,51.14136,17.026376,51.136632,17.030617
4,MPK Autobusy,A,20:57:00,20:59:00,Bałtycka,Broniewskiego,51.136632,17.030617,51.135851,17.037383


### Zadanie 1a 

Algorytm wyszukiwania najkrótszej ścieżki z A do B za pomocą algorytmu Dijkstry w oparciu o kryterium czasu.

#### Wnioski

1. Minimalny czas podróży
    
    - gwarantuje nam, że koszt faktycznie będzie najmniejszy w moim przypadku - czas podróży, ale gdy warunki będą idealne tj. brak opóźnień tramwajów.

    - można pomyśleć nad algorytmem, który obsłuży sytuacje losowe.

2. Liczba odwiedzonych wierzchołków

    - jest ona całkiem spora, gdy w gre wchodzi trudniejsza trasa na odcinku **Wyszyńskiego** - **Wielka** odwiedził aż _10323_.

3. Performance

    - długi czas wykonania się dla tras gdzie mamy kilka przystanków to kilkanaście ms, ale liczba rośnie w przypadku trudniejszych odcinków. Jest to spowodowane przeszukiwaniem wszerz co też nijako wiąże się z dużą ilością odwiedzonych wierzchołków. 

    - sam język nie jest demonem prędkości, można przepisać na coś szybszego jak (np. Rust, C/C++).

4. Optymalizacje

    - użycie algorytmu z heurystyką np. A*


In [2]:
from parser import to_graph
from dijkstra import Dijkstra
from a import AStarMinTime, AStarMinTransfers, AStarModified
from datetime import time


g = to_graph()

In [3]:
# Times

t1 = time(hour=8, minute=18, second=0)
t2 = time(hour=20, minute=50, second=0)
t3 = time(hour=7, minute=20, second=0)

In [4]:
d_engine = Dijkstra(g)

_ = d_engine.search("Wyszyńskiego", "Wielka", t1)
_ = d_engine.search("Zajezdnia Obornicka", "Bałtycka", t2)
_ = d_engine.search("Wyszyńskiego", "PL. GRUNWALDZKI", t3)

It took: 221.47 ms

Results for Dijkstra:
Line  Departure   Start Stop                    Arrival     End Stop                      Cost      
--------------------------------------------------------------------------------
904   08:18:00    Wyszyńskiego                  08:20:00    Ogród Botaniczny               2         
904   08:20:00    Ogród Botaniczny              08:21:00    Katedra                        3         
904   08:21:00    Katedra                       08:22:00    Urząd Wojewódzki (Muzeum N     4         
904   08:22:00    Urząd Wojewódzki (Muzeum N    08:25:00    GALERIA DOMINIKAŃSKA           7         
D     08:28:00    GALERIA DOMINIKAŃSKA          08:32:00    Renoma                         14        
D     08:32:00    Renoma                        08:34:00    Arkady (Capitol)               16        
6     08:34:00    Arkady (Capitol)              08:36:00    Zaolziańska                    18        
6     08:36:00    Zaolziańska                   08:37:00    Wi

### Zadanie 1b 
Algorytm wyszukiwania najkrótszej ścieżki z A do B za pomocą algorytmu A* w oparciu o kryterium czasu.

Jako, że A* to jest modyfikacja Dijkstry to po prostu wartość `priority` to będzie strategia obliczania kosztu dla mojej klasy w tym wypadku klasycznego A*. Poniżej snipped kodu z [a.py](a.py) z liczeniem priorytetu.

```python
priority = self.cost_strategy(
              new_cost=new_cost,
              end_node=end_node,
              next_end_node=next_edge.end_node,
          )
```

A tutaj heurystyka, zastosowana w szukaniu obiecującej ścieżki. Akturat do policzenia odległość użyłem biblioteki `geopy` ze względu na współrzędne geograficzne. Wszystkie heurystyki znajdują się w [search.py](search.py).

```python
def cost_strategy(self, new_cost, **kwargs):
    return new_cost + self._geo_heuristic(
        a=kwargs["end_node"], b=kwargs["next_end_node"]
    )
```


#### Wnioski

1. Minimalny czas podróży

    - rozwiązanie jest gorsze jak można było się spodziewać, ale bardzo szybko je dostajemy

    - warto dodać, że jest to zależne od heurystyki
    

2. Liczba odwiedzonych wierzchołków

    - liczba jest o wiele mniejsza od rozwiązania problemu za pomocą **Dijkstry**

    - jest to spowodowane użyciem heurystyki, która przeszukuje rokujące węzły

    - przy trasie najdłuższej odwiedzonych było **735** wierzchołków, gdzie w poprzednim teście przy wykorzystaniu **Dijkstry** było to _10323_.


3. Performance

    - tu jest znaczenie lepiej bo nie przeszukujemy wszystkiego

4. Opytmalizacje

    - można dodać heurystyke, która by sprawdzała kierunek, którym ma się kierować na podstawie kątów obliczanych z koordynatów punktu A i B.   

In [5]:
a_engine = AStarMinTime(g)

_=a_engine.search("Wyszyńskiego", "Widna", t1)
_=a_engine.search("Zajezdnia Obornicka", "Bałtycka", t2)
_=a_engine.search("Wyszyńskiego", "PL. GRUNWALDZKI", t3)

It took: 16.82 ms

Results for AStarMinTime:
Line  Departure   Start Stop                    Arrival     End Stop                      Cost      
--------------------------------------------------------------------------------
904   08:18:00    Wyszyńskiego                  08:20:00    Ogród Botaniczny               2         
904   08:20:00    Ogród Botaniczny              08:21:00    Katedra                        3         
904   08:21:00    Katedra                       08:22:00    Urząd Wojewódzki (Muzeum N     4         
904   08:22:00    Urząd Wojewódzki (Muzeum N    08:25:00    GALERIA DOMINIKAŃSKA           7         
K     08:25:00    GALERIA DOMINIKAŃSKA          08:29:00    DWORZEC GŁÓWNY                 11        
4     08:33:00    DWORZEC GŁÓWNY                08:35:00    Pułaskiego                     17        
22    08:41:00    Pułaskiego                    08:44:00    Hubska (Dawida)                26        
22    08:44:00    Hubska (Dawida)               08:46:00   

#### Zadanie 1c

**Minimalizacja liczby przesiadek**. Intuicja podpowiada, że trzeba będzie wprowadzić coś w stylu kary, dodatkowego kosztu doliczanego do ścieżki, która może i jest najkrótszą, ale wymaga przesiadki właśnie. W ten sposób algorytm będzie brał pod uwagę ścieżki, które nie wymagają zmiany `line`. Tak naprawdę cała zabawa sprowadziła się do dodatania do nowego kosztu sprawdzienie ile kosztować przesiadka. Poniżej _snipped_ z source kodu, który znajduje się [a.py](a.py). 

```python
new_cost = (
            cost_so_far[current_node]
            + self.graph.compute_cost(next_edge, current_time)
            + self.graph.line_change_cost(
                edge=came_from[current_node.name], next_edge=next_edge
            )
        )
```


#### Wnioski

Wynik jest podobny do zwykłego A*, gdzie minimalizowany był czas. Tutaj mieliśmy minimalizować przesiadki i powiedzmy, że się udało na przykładowych trasach. Mamy mniej zmian linii, czas nieznaczenie się wydłużył i widać doliczoną karę za przesiadkę. W niektórych testach liczba odwiedzonych wierzchołków jest mniejsza. 

In [None]:

a_mut_engine = AStarMinTransfers(g)

_=a_mut_engine.search("Wyszyńskiego", "Zajezdnia Obornicka", t1)
# a_mut_engine.search("Zajezdnia Obornicka", "Bałtycka", t2)
# a_mut_engine.search("Wyszyńskiego", "PL. GRUNWALDZKI", t3)

It took: 16.59 ms

Results for AStarMinTransfers:
Line  Departure   Start Stop                    Arrival     End Stop                      Cost      
--------------------------------------------------------------------------------
16    08:22:00    Wyszyńskiego                  08:24:00    Nowowiejska                    6         
16    08:25:00    Nowowiejska                   08:26:00    Słowiańska                     8         
16    08:26:00    Słowiańska                    08:28:00    DWORZEC NADODRZE               10        
16    08:29:00    DWORZEC NADODRZE              08:31:00    Trzebnicka                     13        
132   08:32:00    Trzebnicka                    08:34:00    Broniewskiego                  516       
7     08:36:00    Broniewskiego                 08:38:00    Kamieńskiego                   1020      
7     08:38:00    Kamieńskiego                  08:39:00    Kępińska                       1021      
7     08:39:00    Kępińska                      08:40:

In [15]:
a_mod_engine = AStarModified(g)

_ = a_mod_engine.search("Wyszyńskiego", "Zajezdnia Obornicka", t1)
_ = a_mod_engine.search("Zajezdnia Obornicka", "Bałtycka", t2)
_ = a_mod_engine.search("Wyszyńskiego", "PL. GRUNWALDZKI", t3)

It took: 20.57 ms

Results for AStarModified:
Line  Departure   Start Stop                    Arrival     End Stop                      Cost      
--------------------------------------------------------------------------------
16    08:22:00    Wyszyńskiego                  08:24:00    Nowowiejska                    6         
16    08:25:00    Nowowiejska                   08:26:00    Słowiańska                     8         
16    08:26:00    Słowiańska                    08:28:00    DWORZEC NADODRZE               10        
16    08:29:00    DWORZEC NADODRZE              08:31:00    Trzebnicka                     13        
132   08:32:00    Trzebnicka                    08:34:00    Broniewskiego                  516       
7     08:36:00    Broniewskiego                 08:38:00    Kamieńskiego                   1020      
7     08:38:00    Kamieńskiego                  08:39:00    Kępińska                       1021      
7     08:39:00    Kępińska                      08:40:00  

# Podsumowanie pierwszej części listy

Generalnie zgodnie z założeniem Dijkstra zwraca najlepsze wyniki w nie najlepszym czasie. Udało się w miarę sensownie zaimplementować A* (minimalizacja czasu albo przystanków), który zwaraca dobrą odpowiedź w naprawdę fajnym czasie. Udało się napisać względnie bez duplikacji kodu przez co łatwo można pisać swoje implementacje, które jakoś optymalizują wybór ścieżki. 

Największy problem jednak sprawił sam `Python`, jako osoba, która raczej jest przyzwyczajona do **Go**, **TypeScripta**, **Javy** no to było ciężko debugować, ale trzeba przyznać, że _JupyterNotebook_ pomógł w procesie. Last but not least, ułatwieniem było, że doba nie trwała 24h tylko więcej to pomogło się skupiać na policzeniu kosztu w minutach między węzłami (przystankami).    


## Tabu Search

**Metaheurystyka** polegająca na interacyjnym przeszukiwaniu sąsiedztwa, uwzględnia zestaw ruchów niedozwolonych. Wymaga dodakowej pamięci w porównaniu do **przeszukiwania lokalnego**.

W zadaniu należy przechejać przez wszystkie przystanki i wrócić się do punktu początkowego po przez minimalizację:

- czasu

- przesiadek

Podobnie jak w poprzednim zadaniu tutaj też postarałem się aby nie duplikować kodu i poprostu parametry w zadaniu będę przyjmować opcjonalnie.


In [14]:
from tabu import Tabu
max_iter = 120
points = ["PL. GRUNWALDZKI", "Dubois", "DWORZEC GŁÓWNY"]

src = "Wyszyńskiego"
t = Tabu(g=g, t=t1, points=points, src=src, max_iter=max_iter, minimize_time=False)
print(t._generate_init_solution())

best_sln = t.aspiration_search()
print(f'Best solution {best_sln}')
t.set_points(best_sln)



# print(t.aspiration_search())


# print(t.dynamic_search())
# print(t.sampling_search())
# print(t.search())

# t.use_search_engine()

['DWORZEC GŁÓWNY', 'Wyszyńskiego', 'PL. GRUNWALDZKI', 'Dubois']
It took: 1572.92 ms
Best solution ['DWORZEC GŁÓWNY', 'PL. GRUNWALDZKI', 'Dubois', 'Wyszyńskiego']
