# Persistent Homology applied to location problems
na podstawie publikacji Persistent Homology applied to location problems, autorzy: Driss Bennis, Fouad Gharib & 
Ghita Lebbar

## Tło matematyczne (uproszczone do minimum)

### Kompleksy symplicjalne

Abstrakcyjnym kompleksem symplicjalnym nazywamy parę zbiór $K$ i zbiór $S$ podzbiorów $K$ spełniające warunki:
- $S$ zawiera wszystkie singletony $\{ v \}$ dla $v \in K$
- jeśli $\tau \subset \sigma$ i $\sigma \in S$ to $\tau \in S$

Element $\sigma$ $S$ o dodatniej liczbie elementów nazywamy (n-1)-sympleksem(krótko sympleksem). 

0-singletony nazywamy często punktami, 1-singletony krawędziami itp.

### Homologie symplicjalne
Dla kompleksu symplicjalnego $K$ definiujemy p-te grupy homologii i odpowiadające im p-te liczby Bettiego $\beta_p$ będące wymiarem p-tej grupy homologii.

Grupy Homologii za pomocą liczb Bettiego opisują przestrzeń będącą realizacją geometryczną kompleksu symplicjalnego. W dużym uproszczeniu: $\beta_0$ opisują liczbę spójnych składowych, a $\beta_1$ liczbę dziur kompleksu symplicjalnego.

![title](images/faces.png)

### Homologie persystentne

Dla kompleksu symplicjalnego $K$ filtracją $F$ nazywamy skończony ciąg kompleksów postaci:
$$F: \emptyset = K_0 \subset K_1 \subset .. \subset K_m = K $$

![title](images/filtration_happy.png)
![title](images/barcode_happy.png)
![title](images/filtration_sad.png)
![title](images/barcode_sad.png)

## Problem decyzji o lokalizacji

Problemy decyzyjne związane z lokalizacją są analizowane od 1909 roku od pracy Webera, 
który sformułował teorię lokowania przemysłu o minimalnym kosztcie transportu surowców i finalnych produktów.

Tworzenie nowych placówek jest kosztowne i czasohłonne.

Przykładowe problemy, które muszą rozwiązać eksperci projektujący rozwiązania:
- optymalny wybór węzłów do lokalizacji obiektów
- minimalizacja kosztów podróży
- redukowanie czasu podróży
- optymalizacja sieci: infrastruktura(drogi, mosty, tunele), telekomunikacja, kanalizacja, dostęp do prądu itp

Jak widać jest to problem wielopłaszczyznowy, którego rozwiązanie zawsze będzie obarczone jakimś kosztem.
Stąd potrzeba budowania matematycznych narzędzi i metod, które mogłoby wspomóc ten wybór.


## Homologie persystentne jako narzędzie do wyboru lokalizacji

### Punkt wyjścia:
Mamy:
- sieć składającą się z **n** węzłów(rejonów miasta): $(A_1, A_2, A_3,..., A_n)$
- informację o odległościach między węzłami: $A_i$ i $A_j$ - $d_{i,j}$
- oraz liczbę mieszkańców **$n_i$** dla każdego z węzłów $A_i$

### Problem do rozwiązania:
Sieć sklepów planuje otworzyć nową placówkę w obrębie tych rejonów i potrzebują znaleźć optymalną lokalizację tak by służyła całemu obszarowi.

### Proponowana metoda:

- Na początku musimy ustalić kilku kandydatów na miejsca gdzie placówka może być zlokalizowana.
Wybór jest dokonywany poprzez ekspertów od planowania na podstawie kryteriów związanych z transportem.


- następnie dla ustalonego kandydata $A_i$ ustala się współczynnik odpowiadający "ważności" innych węzłów w stosunku do niego

np współczynnik dla $A_j$ względem kandytata $A_i$ wyrażony jest wzorem:
$$ X^i_j = \frac{1}{n_i} \frac{d_{i,j}}{n_j}$$

Dla prostoty założmy na moment, że mamy dwóch kandydatów $A_m$ i $A_n$ oraz węzły $A_e$ i $A_f$.

Mamy do omówienia 2 sytuacje:

1) założmy, że w naszej sieci mamy tylko 3 węzły: $A_m$, $A_n$, $A_e$

Wtedy $A_m$ jest optymalnym rozwiązaniem jeśli $X_e^m \leq X_e^n$

Założmy, że np $d_{e,m} = d_{e,n}$ wtedy nierówność sprowadza się do $\frac{1}{n_m} \leq \frac{1}{n_n}$

co należy rozumieć jako im większe $n_m$ tym bardziej atrakcyjne jest $A_m$

Z drugiej strony, jeśli $n_m = n_n$ nierówność sprowadza się do $d_{e,m} \leq d_{e,n}$ aby $A_m$ było optymalnym rozwiązaniem.

.

2) założmy, że w naszej sieci mamy 4 węzły: $A_m$, $A_n$, $A_e$, $A_f$

Wtedy $A_m$ będzie optymalnym rozwiązaniem jeśli $\frac{X^m_e+X^m_f}{2} \leq \frac{X^n_e+X^n_f}{2}$

Przykładowo jeśli $n_m=n_n$ oraz $n_e=n_f$ to powyższą nierówność można zredukować do średnich odlegołości.

Wtedy optymalne rozwiązanie odpowiada najmniejszej średniej z odległości.

Oczywiście $\frac{1}{n_e}$ i $\frac{1}{n_f}$ są rozważane, ponieważ liczba klientów też powinna mieć jakiś wpływ na wybór rozwiązania.

W oparciu o powyższe rozważania budujemy kompleks $K_{m,r}$ skojarzony z kandydatem $A_m$ i dodatnią liczbą rzeczywistą $r$ w następujący sposób(rozważamy tylko 0 i 1-sympleksy):
- 0-sympleksami są węzły $A_j$ (różne od $A_m$, ale to potem w pracy nie jest konsekwentne)
- 2 węzły $A_i$ i $A_j$ łączymy krawędzią(tworzymy 1-sympleks) jeśli:
$$\frac{X_i^m+X_j^m}{2} \leq r$$

Jeśli $r < r'$ to $K_{m,r} \subset K_{m,r'}$ 

to znaczy, że możemy skonstruować filtrację $K_{m,r1} \subset ... \subset K_{m,rs}$ gdzie $r_1$, ..., $r_s$ jest rosnącym ciągiem liczb dodatnich.

Dla tak stworzonego ciągu, każdy następny kompleks ma coraz więcej krawędzi czyli coraz mniej spójnych składowych.

Optymalnym rozwiązaniem będzie to, dla którego najszybciej otrzymamy jedną spójną składową.

#### **Przykład**:
Założmy, że mamy sieć składającą się z 8 regionów: $(A_1, A_2,..,A_8)$

![title](images/districts.png)

Ustalamy kandydatów $A_2$, $A_5$ i $A_8$. Dla każdego z kandydatów konstruujemy "barcode'y.

Poniżej mamy otrzymane filtracje dla $A_2$ dla następującego ciągu **r**: $r_1=\frac{1}{5}$,
$r_2=\frac{1}{4}$, $r_3=\frac{2}{7}$, $r_4=1$

![title](images/filtration1.png)
![title](images/filtration2.png)
![title](images/filtration3.png)
![title](images/filtration4.png)

Otrzymane barcode'y:

![title](images/barcode1.png)
![title](images/barcode2.png)
![title](images/barcode3.png)

Skąd widać, że $A_5$ jest szukanym rozwiązaniem.