# Analiza danych przestrzennych - ćwiczenia laboratoryjne 2022/2023

Ten notatnik zalicza się do grupy zestawów zadań, na podstawie których odbywa się zaliczenie ćwiczeń i podlega zwrotowi do oceny w ustalonym na zajęciach terminie.

Uwagi ogólne:
- Podczas wykonywania zadań należy korzystać wyłącznie z pakietów zaimportowanych na początku notatnika oraz z pakietów wchodzących w skład standardowej biblioteki Pythona, które można zaimportować samodzielnie we wskazanej komórce.
- Swoje rozwiązania należy wprowadzać wyłącznie w miejce następujących fragmentów kodu:<br/> ` # YOUR CODE HERE`<br/> ` raise NotImplementedError()`<br/> Nie należy w żaden sposób modyfikować pozostałych fragmentów kodu oraz elementów notatnika, w szczególności dodawać lub usuwać komórek oraz zmieniać nazwy pliku.
- Jeżeli zestaw zadań wymaga skorzystania z funkcji przygotowanych w ramach wcześniejszych zestawów zadań należy je umieścić we wskazanej komórce.
- Wszystkie wykresy powinny być wykonane w jednolitym, przejrzystym i czytelnym stylu, mieć nadane tytuły, opisane osie oraz odpowiednio dobrany rozmiar, wielkość punktów i grubość linii. Proporcje osi wykresów przedstawiających rozkłady punktów powinny być dobrane tak, aby wykresy odzwierciedlały rzeczywisty rozkład punktów w przestrzeni.
- Zadania, które powodują wyświetlenie komunikatu o błędzie przerywającym wykonywanie kodu nie podlegają ocenie.

Przed odesłaniem zestawu zadań do oceny proszę uzupełnić komórkę z danymi autorów rozwiązania (`NAME` - nazwa grupy, `COLLABORATORS` - imiona, nazwiska i numery indeksów członków grupy) oraz upewnić się, że notatnik działa zgodnie z oczekiwaniami. W tym celu należy skorzystać z opcji **Restart Kernel and Run All Cells...** dostępnej na górnej belce notatnika pod symbolem $\blacktriangleright\blacktriangleright$. 

In [None]:
NAME = ""
COLLABORATORS = ""

---

## Zestaw zadań 5: Badanie relacji między punktami (część 2)

In [None]:
import numpy as np
import pandas as pd
import scipy as sp
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Miejsce do importu pakietów wchodzących w skład standardowej biblioteki Pythona oraz ustawienie opcji wykorzystywanych pakietów
sns.set() 
sns.set_theme(style="whitegrid")

In [None]:
# Miejsce do wklejenie funkcji ze wcześniejszych zestawów zadań
# YOUR CODE HERE

def regular_on_rectangle(grid, random_component, x_lim, y_lim):
    """
    Parameters
    -------
    grid: list
        Lista określająca liczbę punktów w pionie i poziomie.
        Przykład: [10, 10]
    random_component: float
        Liczba z przedziału [0, 1] określająca wielkość komponentu losowego.
    x_lim: list
        Lista określająca zakres wartości współrzędnej X.
        Przykład: [0, 10]
    y_lim: list
        Lista określająca zakres wartości współrzędnej Y.
        Przykład: [0, 10]   

    Returns
    -------
    points: DataFrame
        Tablica zawierająca dwie kolumny ze współrzędnymi punktów opisane jako "X" i "Y".
    """
    # YOUR CODE HERE

    # Creating variables containing distance between points
    dx = (x_lim[1] - x_lim[0])/grid[0]
    dy = (y_lim[1] - y_lim[0])/grid[1]

    # Creating gird with regular gaps (without random component)
    x = np.linspace(x_lim[0] + 0.5*dx, x_lim[1] - 0.5*dx, grid[0]) #arange
    y = np.linspace(y_lim[0] + 0.5*dy, y_lim[1] - 0.5*dy, grid[1])
    xy, yx = np.meshgrid(x, y)
    
    # Adding random component to our gird
    rand_m1 = np.random.uniform(-0.5*dx,0.5*dx,size=grid)
    rand_m2 = np.random.uniform(-0.5*dy,0.5*dy,size=grid)
    
    mx = xy + rand_m1
    my = yx + rand_m2

    # Flattening previously created matrices and creating required DataFrame
    xx = mx.flatten()
    yy = my.flatten()
    points = pd.DataFrame([xx, yy]).transpose()
    points.columns=["X", "Y"]
    return points


def homogeneous_poisson_on_rectangle(intensity, x_lim, y_lim):
    """
    Parameters
    -------
    intensity: float
        Liczba dodatnia określająca intensywność procesu punktowego.
    x_lim: list
        Lista określająca zakres wartości współrzędnej X.
        Przykład: [0, 10]
    y_lim: list
        Lista określająca zakres wartości współrzędnej Y.
        Przykład: [0, 10]   
    
    Returns
    -------
    points: DataFrame
        Tablica zawierająca dwie kolumny ze współrzędnymi punktów opisane jako "X" i "Y".
    """ 
    # YOUR CODE HERE
    
    #drawing number of points from Poisson distribution
    area = (x_lim[1]-x_lim[0])*(y_lim[1]-y_lim[0]);
    w = intensity * area
    n = np.random.poisson(w)
    
    #drawing coordinates of points from uniform distribution
    x_tab = np.random.uniform(x_lim[0],x_lim[1],n)
    y_tab = np.random.uniform(y_lim[0],y_lim[1],n)
    
    #creating DataFrame
    points = pd.DataFrame({'X':x_tab,'Y':y_tab})
    return points
    
def materna_on_rectangle(parent_intensity, daughter_intensity, cluster_radius, x_lim, y_lim):
    """
    Parameters
    -------
    parent_intensity: float
        Liczba dodatnia określająca intensywność macierzystego procesu punktowego.
    daughter_intensity: float
        Liczba dodatnia określająca intensywność potomnego procesu punktowego.
    cluster_radius: float
        Liczba dodatnia określająca promień generowanych klastrów.
    x_lim: list
        Lista określająca zakres wartości współrzędnej X.
        Przykład: [0, 10]
    y_lim: list
        Lista określająca zakres wartości współrzędnej Y.
        Przykład: [0, 10]   
    
    Returns
    -------
    points: DataFrame
        Tablica zawierająca dwie kolumny ze współrzędnymi punktów opisane jako "X" i "Y".
    """
    # YOUR CODE HERE

    # Extending our area with a buffer
    x_new = [x_lim[0] - cluster_radius, x_lim[1] + cluster_radius]
    y_new = [y_lim[0] - cluster_radius, y_lim[1] + cluster_radius]

    # Generating point by homogeneous Poisson process with parent_intensity as a parameter
    points = homogeneous_poisson_on_rectangle(parent_intensity, x_new, y_new)
   
   # Generating new points around each previous points (within cluster_radius)
    X=[]
    Y=[]
    for i in range(len(points['X'])):
      # Triggering nex
      number = np.random.poisson(daughter_intensity*np.pi*cluster_radius**2);
      # Generating the (relative) locations in polar coordinates by simulating independent variables
      theta=2*np.pi*np.random.uniform(0,1,number); 
      rho=cluster_radius*np.sqrt(np.random.uniform(0,1,number)); 
      # Converting from polar to Cartesian coordinates
      dx = rho * np.cos(theta);
      dy = rho * np.sin(theta);
      # Translating points (by treating old points as a center of our buffer)
      for j in range(number):
        valueX=points.iloc[i, 0]+dx[j]
        valueY=points.iloc[i, 1]+dy[j]
        X.append(valueX)
        Y.append(valueY)
    
    # Creating DatFrame
    clustered=pd.DataFrame({"X": X, "Y":Y})

    # Checking if some new point aren't within our area and if so - adding their indexes to a list
    indexes=[]
    for i, row in clustered.iterrows():
      if(row["X"] < x_lim[0] or row["X"] > x_lim[1] or row["Y"] < y_lim[0] or row["Y"] > y_lim[1]):
        indexes.append(i)

    # Dropping points that are outside of the area
    clustered.drop(clustered.index[indexes], inplace=True)
    clustered.reset_index(drop=True, inplace=True)

    return clustered

def point_count_on_subregions(points, bins, x_lim, y_lim):
    """
    Parameters
    -------
    points: DataFrame
        Tablica zawierająca dwie kolumny ze współrzędnymi punktów opisane jako "X" i "Y".
    bins: list
        Lista określająca liczbę podobszarów w poziomie i pionie.
        Przykład: [10, 10]
    x_lim: list
        Lista określająca zakres wartości współrzędnej X.
        Przykład: [0, 10]
    y_lim: list
        Lista określająca zakres wartości współrzędnej Y.
        Przykład: [0, 10]   

    Returns
    -------
    bin_data: list
        Lista zawierająca trzy macierze:
        - 1D ze współrzędnymi krawędzi podobszarów na osi X,
        - 1D ze współrzędnymi krawędzi podobszarów na osi Y,
        - 2D z liczbą punków przypisanych do każdego z podobszarów.
        Na przykład: [array([0, 1, 2]), array([0, 1, 2]), array([[7, 2], [4, 5]])]
    """
    # YOUR CODE HERE

    n_points,x_bins,y_bins = np.histogram2d(points['X'],points['Y'],bins=bins,range=[x_lim,y_lim])     
    n_points = np.transpose(n_points)
    
    return [x_bins,y_bins,n_points]


#raise NotImplementedError()

### Przygotowanie danych

Korzystając z funkcji przygotowanych w ramach pierwszego zestawu zadań wygeneruj rozkłady punktowe o podanych paramatrach.

Jednorodny rozkład Poissona:
 - intensywność procesu: 2.5

Rozkład regularny z komponentem losowym:
- liczba punktów w poziomie i w pionie: 15x15
- komponent losowy: 0.75

Rozkład Materna:
 - intensywność procesu macierzystego: 0.3
 - intensywność procesu potomnego: 5
 - promień klastra: 0.75
 
Parametry identyczne dla wszystkich rozkładów:
 - zakres wartości współrzędnej x: [0, 10]
 - zakres wartości współrzędnej y: [0, 10]
 
UWAGA! Dane do wygenerowania są identyczne jak w poprzednim zestawie zadań.

In [None]:
# YOUR CODE HERE

x_lim=[0,10]
y_lim=[0,10]
poisson = homogeneous_poisson_on_rectangle(2.5, x_lim, y_lim)
regular = regular_on_rectangle([15,15], 0.75, x_lim, y_lim)
matern = materna_on_rectangle(0.3, 5, 0.75, x_lim, y_lim)

#raise NotImplementedError()

### Zadanie 1: Funkcja G (25 pkt)

Przygotuj funkcję `g_function()`, która będzie generować dane niezbędne do wykonania wykresu funkcji G analizowanego rozkładu punktów oraz funkcję `g_function_poisson()`, która będzie generować dane niezbędne do wykonania wykresu teoretycznej funkcji G jednorodnego rozkładu Poissona danej wzorem: <br/>
$G(d) = 1 - exp(-\lambda \pi d^2)$ <br/>
gdzie: $\lambda$ - intensywność procesu, $d$ - odległość.

Następnie wykorzystaj przygotowane funkcje do wygnenerowania danych dla wszystkich przygotowanych rozkładów punktów. 

Przedstaw wyniki analizy graficznie w postaci wykresów liniowych funkcji G przygotowanych rozkładów punktów zestawionych z teoretyczną funkcją G jednorodnego rozkładu Poissona o intensywności $2.5$. Zestaw wyniki na pojedynczej figurze (siatka wykresów 2x3). Umieść analizowane rozkłady punktów w górnym wierszu, a wykresy funkcji G w dolnym wierszu figury. <br/>
Uwaga! Porównywane wykresy funkcji G powinny zaczynać się od $d=0$ (co może wymagać uzupełnienia danych o 0 w obrębie funkcji `g_function()`) i kończyć na wartości $d$, dla której funkcja G analizowanego rozkładu punktów osiąga wartość 1.

Algorytm postępowania:
1) Dla każdego z punktów analizowanego rozkładu wyliczamy dystans do jego najbliższego sąsiada $d_{min}$.
2) Konstruujemy funkcję G jako dystrybuantę rozkładu odległości: <br/>
    $G(d) = \frac{n_{d_{min} \le d}}{n}$  <br/>
    gdzie: $n_{d_{min} \le d}$ - liczba punktów, dla których odległość do najbliższego sąsiada $d_{min}$ jest mniejsza lub równa $d$, $n$ - liczba punktów.

#### a) Przygotowanie funkcji

In [None]:
def g_function(points):
    """
    Parameters
    -------
    points: DataFrame
        Tablica zawierająca dwie kolumny ze współrzędnymi punktów opisane jako "X" i "Y".
    
    Returns
    -------
    g: DataFrame
        Tablica zawierająca dwie kolumny:
        - "D" - zawierającą unikalne wartości odległości do najbliższego sąsiada uszeregowane od najmniejszej do największej wartości, dla których wyliczone zostały wartości funkcji G,
        - "G" - zawierającą wyliczone wartości funkcji G.
    """   
    # YOUR CODE HERE
    
    d_list =[]
    
    # creating list of distances between each points and finding minimum distance
    for index, row in points.iterrows():
        d = np.sqrt((points["X"] - row["X"])**2 + (points["Y"] - row["Y"])**2)
        d = d.drop(index)
        mini = np.min(d)
        d_list.append(mini)
    
    # determining unique distances and calculating number of each of them
    unique, counts = np.unique(d_list, return_counts=True)

    # calculating CDF
    n=len(d_list)
    g=counts/n
    g=np.cumsum(g)

    g = np.insert(g,0,0)
    g.sort()
    unique = np.hstack([[0], unique])
    
    return pd.DataFrame({'D': unique, 'G': g})
    
    # raise NotImplementedError()
    
def g_function_poisson(d, intensity):
    """
    Parameters
    -------
    d: array
        Macierz zawierająca odległości, dla których ma zostać wyznaczona wartość funkcji G.
    intensity: float
        Liczba dodatnia określająca intensywność jednorodnego procesu Poissona.
    
    Returns
    -------
    g: DataFrame
        Tablica zawierająca dwie kolumny:
        - "D" - zawierającą unikalne wartości odległości do najbliższego sąsiada uszeregowane od najmniejszej do największej wartości, dla których wyliczone zostały wartości funkcji G,
        - "G" - zawierającą wyliczone wartości funkcji G.
    """  
    # YOUR CODE HERE
    
    # calculating theoretical G function
    g = 1 - np.exp(-intensity*np.pi * d['D']**2)
    
    return pd.DataFrame({'D': d['D'], 'G': g})
    
    # raise NotImplementedError()

#### b) Wygenerowanie danych

In [None]:
# YOUR CODE HERE

g_emp_p=g_function(poisson)
g_teor_p=g_function_poisson(g_emp_p, 2.5)
g_emp_m=g_function(matern)
g_teor_m=g_function_poisson(g_emp_m, 2.5)
g_emp_r=g_function(regular)
g_teor_r=g_function_poisson(g_emp_r, 2.5)

# raise NotImplementedError()

#### c) Wizualizacja

In [None]:
# YOUR CODE HERE

y_lim2=[0,1.01]

fig,ax=plt.subplots(2,3,figsize=(20,15))

ax[0,0].scatter(poisson['X'], poisson['Y'], s=2, c='black')
ax[0,0].set(title="Poisson",aspect='equal',xlim=x_lim, ylim=y_lim)

ax[0,1].scatter(regular['X'], regular['Y'], s=2, c='black')
ax[0,1].set(title="Regular",aspect='equal',xlim=x_lim, ylim=y_lim)

ax[0,2].scatter(matern['X'], matern['Y'], s=2, c='black')
ax[0,2].set(title="Matern",aspect='equal',xlim=x_lim, ylim=y_lim)

ax[1,0].plot(g_teor_p['D'], g_teor_p['G'], c='blue', label="theor")
ax[1,0].plot(g_emp_p['D'], g_emp_p['G'], c='red', label="empir")
ax[1,0].set(title="G function (Poisson)",aspect='equal', xlim=[0,max(g_emp_p['D'])], ylim=y_lim2)
ax[1,0].legend()

ax[1,1].plot(g_teor_r['D'], g_teor_r['G'], c='blue', label="theor")
ax[1,1].plot(g_emp_r['D'], g_emp_r['G'], c='red', label="empir")
ax[1,1].set(title="G function (regular)",aspect='equal', xlim=[0,max(g_emp_r['D'])], ylim=y_lim2)
ax[1,1].legend()

ax[1,2].plot(g_teor_m['D'], g_teor_m['G'], c='blue', label="theor")
ax[1,2].plot(g_emp_m['D'], g_emp_m['G'], c='red', label="empir")
ax[1,2].set(title="G function (Matern)",aspect='equal', xlim=[0,max(g_emp_m['D'])], ylim=y_lim2)
ax[1,2].legend()
plt.show()

#raise NotImplementedError()

### Zadanie 2: Funkcja F (25 pkt)

Przygotuj funkcję `f_function()`, która będzie generować dane niezbędne do wykonania wykresu funkcji F analizowanego rozkładu punktów oraz funkcję `f_function_poisson()`, która będzie generować  dane niezbędne do wykonania wykresu teoretycznej funkcji F jednorodnego rozkładu Poissona danej wzorem: <br/>
$F(d) = 1 - exp(-\lambda \pi d^2)$ <br/>
gdzie: $\lambda$ - intensywność procesu, $d$ - odległość.

Następnie wykorzystaj przygotowane funkcje do wygnenerowania danych dla wszystkich przygotowanych rozkładów punktów. 

Przedstaw wyniki analizy graficznie w postaci wykresów liniowych funkcji F przygotowanych rozkładów punktów zestawionych z teoretyczną funkcją F jednorodnego rozkładu Poissona o intensywności $2.5$. Zestaw wyniki na pojedynczej figurze (siatka wykresów 2x3). Umieść analizowane rozkłady punktów w górnym wierszu, a wykresy funkcji F w dolnym wierszu figury. <br/>
Uwaga! Porównywane wykresy funkcji F powinny zaczynać się od $d=0$ (co może wymagać uzupełnienia danych o 0 w obrębie funkcji `f_function()`) i kończyć na wartości $d$, dla której funkcja F analizowanego rozkładu punktów osiąga wartość 1.

Algorytm postępowania:
1) Z wykorzystaniem procesu regularnego lub jednorodnego procesu Poissona generujemy w obrębie analizowanego rozkładu zestaw punktów pomiarowych.
2) Dla każdego z punktów rozkładu pomiarowego wyliczamy dystans do jego najbliższego sąsiada z analizowanego rozkładu $d_{min}$.
3) Konstruujemy funkcję F jako dystrybuantę rozkładu odległości: <br/>
    $F(d) = \frac{n_{d_{min} \le d}}{n}$  <br/>
    gdzie: $n_{d_{min} \le d}$ - liczba punktów rozkładu pomiarowego, dla których odległość do najbliższego sąsiada z analizowanego rozkładu $d_{min}$ jest mniejsza lub równa $d$, $n$ - liczba punktów rozkładu pomiarowego.
    
Uwaga! Liczba punktów rozkładu pomiarowego jest istotna i wpływa na dokładność rozwiązania.

#### a) Przygotowanie funkcji

In [None]:
def f_function(points, test_points):
    """
    Parameters
    -------
    points: DataFrame
        Tablica zawierająca dwie kolumny ze współrzędnymi punktów analizowanego rozkłądu opisane jako "X" i "Y".
    test_points: DataFrame
        Tablica zawierająca dwie kolumny ze współrzędnymi punktów pomiarowych, dla których mają zostać wyznaczone odległości
        do najbliższego sąsiada z analizowanego rozkładu opisane jako "X" i "Y".
    
    Returns
    -------
    f: DataFrame
        Tablica zawierająca dwie kolumny:
        - "D" - zawierającą unikalne wartości odległości do najbliższego sąsiada uszeregowane od najmniejszej do największej wartości, dla których wyliczone zostały wartości funkcji F,
        - "F" - zawierającą wyliczone wartości funkcji F.
    """   
    # YOUR CODE HERE
    raise NotImplementedError()
    
def f_function_poisson(d, intensity):
    """
    Parameters
    -------
    d: array
        Macierz zawierająca odległości, dla których ma zostać wyznaczona wartość funkcji F.
    intensity: float
        Liczba dodatnia określająca intensywność jednorodnego procesu Poissona.

    Returns
    -------
    f: DataFrame
        Tablica zawierająca dwie kolumny:
        - "D" - zawierającą unikalne wartości odległości do najbliższego sąsiada uszeregowane od najmniejszej do największej wartości, dla których wyliczone zostały wartości funkcji F,
        - "F" - zawierającą wyliczone wartości funkcji F.
    """  
    # YOUR CODE HERE
    raise NotImplementedError()

#### b) Wygenerowanie danych

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

#### c) Wizualizacja

In [None]:
# YOUR CODE HERE
raise NotImplementedError()