# Analiza danych przestrzennych - ćwiczenia laboratoryjne 2022/2023

Ten notatnik zalicza się do grupy zestawów zadań, na podstawie których odbywa się zaliczenie ćwiczeń i podlega zwrotowi do oceny w ustalonym na zajęciach terminie.

Uwagi ogólne:
- Podczas wykonywania zadań należy korzystać wyłącznie z pakietów zaimportowanych na początku notatnika oraz z pakietów wchodzących w skład standardowej biblioteki Pythona, które można zaimportować samodzielnie we wskazanej komórce.
- Swoje rozwiązania należy wprowadzać wyłącznie w miejce następujących fragmentów kodu:<br/> ` # YOUR CODE HERE`<br/> ` raise NotImplementedError()`<br/> Nie należy w żaden sposób modyfikować pozostałych fragmentów kodu oraz elementów notatnika, w szczególności dodawać lub usuwać komórek oraz zmieniać nazwy pliku.
- Jeżeli zestaw zadań wymaga skorzystania z funkcji przygotowanych w ramach wcześniejszych zestawów zadań należy je umieścić we wskazanej komórce.
- Wszystkie wykresy powinny być wykonane w jednolitym, przejrzystym i czytelnym stylu, mieć nadane tytuły, opisane osie oraz odpowiednio dobrany rozmiar, wielkość punktów i grubość linii. Proporcje osi wykresów przedstawiających rozkłady punktów powinny być dobrane tak, aby wykresy odzwierciedlały rzeczywisty rozkład punktów w przestrzeni.
- Zadania, które powodują wyświetlenie komunikatu o błędzie przerywającym wykonywanie kodu nie podlegają ocenie.

Przed odesłaniem zestawu zadań do oceny proszę uzupełnić komórkę z danymi autorów rozwiązania (`NAME` - nazwa grupy, `COLLABORATORS` - imiona, nazwiska i numery indeksów członków grupy) oraz upewnić się, że notatnik działa zgodnie z oczekiwaniami. W tym celu należy skorzystać z opcji **Restart Kernel and Run All Cells...** dostępnej na górnej belce notatnika pod symbolem $\blacktriangleright\blacktriangleright$. 

In [1]:
NAME = "GIN-12"
COLLABORATORS = "Zuzanna Słobodzian, Anna Staniszewska, Rafał Żegleń"

---

## Zestaw zadań 9: Analiza danych przestrzennych z wykorzystaniem pakietów GeoPandas i PySAL (część 3)

In [2]:
import numpy as np
import pandas as pd
import scipy as sp
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import geopandas as gpd
import libpysal as ps
import pointpats as pp

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

In [3]:
# Miejsce do importu pakietów wchodzących w skład standardowej biblioteki Pythona oraz ustawienie opcji wykorzystywanych pakietów

In [4]:
# Miejsce do wklejenie funkcji ze wcześniejszych zestawów zadań
# YOUR CODE HERE
def point_count_on_subregions(points, subregions):
    """
    Parameters
    -------
    points: GeoSeries
        Tablica zawierająca punkty zapisane jako obiekty shapely.geometry.point.Point.
    subregions: GeoDataFrame
        Tablica zawierająca geometrie podobszarów zapisane jako obiekty shapely.geometry.polygon.Polygon.
    Returns
    -------
    counts: Series
        Seria Pandas zawierająca liczbą punktów przypisanych do każdego z podobszarów.
    """
    # YOUR CODE HERE
    cnt = np.zeros_like(subregions)
    l=0
    for i in subregions:
        for j in points:
            if (j.within(i) == True):
                cnt[l] += 1
        l += 1
    
    counts = pd.Series(data = cnt)
    
    return counts
    #raise NotImplementedError()

def intensity_on_subregions(points, subregions):
    """
    Parameters
    -------
    points: GeoSeries
        Tablica zawierająca punkty zapisane jako obiekty shapely.geometry.point.Point.
    subregions: GeoDataFrame
        Tablica zawierająca geometrie podobszarów zapisane jako obiekty shapely.geometry.polygon.Polygon.
    Returns
    -------
    intensity: Series
        Seria Pandas zawierająca intensywność przypisaną do każdego z podobszarów.
    """
    # YOUR CODE HERE
    point_counts = point_count_on_subregions(points, subregions)
    area = subregions.area
    inten = point_counts/area
    intensity = pd.Series(data=inten)
    return intensity
    #raise NotImplementedError()
    
def spatial_lag(binned_data):
    """
    Parameters
    -------
    binned_data: list
        Lista zawierająca trzy macierze:
        - 1D ze współrzędnymi krawędzi podobszarów na osi X,
        - 1D ze współrzędnymi krawędzi podobszarów na osi Y,
        - 2D z liczbą punków przypisanych do każdego z podobszarów.
        Na przykład: [array([0, 1, 2]), array([0, 1, 2]), array([[7, 2], [4, 5]])]

    Returns
    -------
    lagged_data: list
        Lista zawierająca trzy macierze:
        - 1D ze współrzędnymi krawędzi podobszarów na osi X,
        - 1D ze współrzędnymi krawędzi podobszarów na osi Y,
        - 2D z wyliczonymi wartościami opóźnienia przestrzennego.
        Na przykład: [array([0, 1, 2]), array([0, 1, 2]), array([[7, 2], [4, 5]])]
    """    
    # YOUR CODE HERE
    W = spatial_weights(binned_data[2])
    X = binned_data[2].flatten()
    LC = np.zeros(len(X))
    for i in range (len(X)):
        LC[i] = sum(X*W[i,:])/(sum(W[i,:]))
    
    SL = np.reshape(LC, ((binned_data[2].shape[0], binned_data[2].shape[1])))
          
    array = [binned_data[0], binned_data[1], SL]
    
    return array
def moran_plot_data(bin_counts, lagged_counts):
    """
    Parameters
    -------
    bin_counts: array
        Macierz 2D z liczbą punków przypisanych do każdego z podobszarów.
    lagged_counts: array
        Macierz 2D z wartościami opóźnienia przestrzennego przypisanego do każdego z podobszarów.

    Returns
    -------
    moran_plot_data: DataFrame
        Tablica zawierająca dwie kolumny danych niebędnych do wykonania wykresu Morana:
        - "AG_STD" - ustandarywowane dane zagregowane,
        - "SL_STD" - ustandarywzowane wartości opóźnienia przestrzennego.
    """ 
    # YOUR CODE HERE
    bin_counts = bin_counts.flatten()
    lagged_counts = lagged_counts.flatten()
    
    ag_std = bin_counts - sum(bin_counts)/len(bin_counts)
    sl_std = lagged_counts - sum(lagged_counts)/len(lagged_counts)
    
    array = pd.DataFrame(data={"AG_STD":ag_std, "SL_STD":sl_std})
    
    return array
# raise NotImplementedError()

#### UWAGA!
Znaczna część przykładów i dokumentacji modułów wchodzących w skład pakietu pysal dostępna w internecie nie dotyczny ich najnowszych wersji.
Z tego powodu lepiej jest zdobywać informacje na temat wykorzystywanych modułów, klas i funkcji z wykorzystaniem funkcji help(), np.: help(ps), help(pp), help(pp.pointpattern).

### Import i przygotowanie danych
Wykorzystując funkcję `geopandas.read_file()` zaimportuj do notatnika dane z dołączonych do niego plików (zakres importowanych danych i odwzorowanie kartograficzne nie wymagają zmian). Następnie, wykorzystując funkcję `geopandas.GeoDataFrame.dissolve()` przygotuj tablicę zawierającą geometrię granic całego kraju. Dostosuj informację znajdującą się w kolumnie "Nazwa" stworzonej tablicy do informacji w niej zawartej.

UWAGA! Import i przygotowanie danych identyczne jak w poprzednim zestawie.

In [5]:
# YOUR CODE HERE
powiaty = gpd.read_file("C:/Users/zuzka/Documents/studia/semestr_3/analiza_danych_przestrzennych/zz9/Powiaty.zip")
points_1 = gpd.read_file("C:/Users/zuzka/Documents/studia/semestr_3/analiza_danych_przestrzennych/zz9/points_1.zip")
points_2 = gpd.read_file("C:/Users/zuzka/Documents/studia/semestr_3/analiza_danych_przestrzennych/zz9/points_2.zip")
points_3 = gpd.read_file("C:/Users/zuzka/Documents/studia/semestr_3/analiza_danych_przestrzennych/zz9/points_3.zip")
points_4 = gpd.read_file("C:/Users/zuzka/Documents/studia/semestr_3/analiza_danych_przestrzennych/zz9/points_4.zip")
points_5 = gpd.read_file("C:/Users/zuzka/Documents/studia/semestr_3/analiza_danych_przestrzennych/zz9/points_5.zip")

granice_pl=powiaty.dissolve()
granice_pl["Nazwa"] = granice_pl["Nazwa"].replace(["powiat ropczycko-sędziszowski"], "Polska")
# raise NotImplementedError()

### Zadanie 1: Analiza Monte-Carlo na przykładzie funkcji G (25 pkt)

Korzystając z funkcji `pointpats.distance_statistics.g_test()` przygotuj funkcję `g_test_mc()`, która będzie przeprowadzała analizę Monte-Carlo testowanego rozkładu funkcji oraz przygotowywała dane niezbędne do wizualizacji wyników testu.

Funkcja `pointpats.distance_statistics.g_test()` może zostać wykorzystana do wielokrotnego zasymulowania jednorodnego procesu poissona o intensywności równej intensywności testowanego procesu i wyliczeniu funkcji G dla każdego z zasymulowanych rozkładów. Funkcje te mogą posłużyć do wykreślenia obwiedni. Jeżeli funkcja G analizowanego rozkładu w całości znajduje się w obwiedni to nie pa podstaw do odrzucenia HO na rzecz H1. W przeciwnym przypadku następuje odrzucenie H0 na rzecz H1. Poziom istotności wykonywanego testu $\alpha= \frac{2}{n-1}$, gdzie $n$ to liczba wykonywanych symulacji.

Następnie wykorzystaj przygotowane funkcje do przetestowania rozkładów punktów z plików points_1.zip, points_2.zip i points_3.zip na poziomie istotności $\alpha=0.05$. 

Przedstaw wyniki analizy graficznie w postaci wykresów liniowych funkcji G przygotowanych rozkładów punktów z wygenerowaną obwiednią wykorzystywaną w teście statystycznym. Zestaw wyniki na pojedynczej figurze (siatka wykresów 2x3). Umieść analizowane rozkłady punktów w górnym wierszu, a wykresy funkcji G w dolnym wierszu figury. <br/>

Przykładowe wyniki pracy funkcji `g_test_mc()`: <br/>
<br/>
`H0: Testowana zmienna ma jednorodny rozkład losowy Poissona` <br/>
`H1: Testowana zmienna nie ma jednorodnego rozkład losowy Poissona` <br/>
`Odrzucenie H0 na rzecz H1 na poziomie istotności alpha = 0.02` <br/>
<br/>
`H0: Testowana zmienna ma jednorodny rozkład losowy Poissona` <br/>
`H1: Testowana zmienna nie ma jednorodnego rozkład losowy Poissona` <br/>
`Wynik testu istotności nie daje podstaw do odrzucenia H0 na rzecz H1 na poziomie istotności alpha = 0.02` <br/>

#### a) Przygotowanie funkcji

In [77]:
def g_test_mc(points, intervals, polygon, number_of_simulations):
    """
    Parameters
    -------
    points: GeoSeries
        Tablica zawierająca punkty zapisane jako obiekty shapely.geometry.point.Point.
    intervals: int
        Liczba dodatnia określająca na ile części ma zostać podzielony dystans do największej odległosci do najbliższego sąsiada.
    polygon: Polygon
        Obszar, na którym mają zostać wygenerowane punkty procesu testowego.
    number_of_simulations: int
        Liczba dodania określająca liczbę wykonywanych symulacji.
    
    Returns
    -------
    g: DataFrame
        Tablica zawierająca dwie kolumny:
        - "D" - zawierającą unikalne wartości odległości do najbliższego sąsiada uszeregowane od najmniejszej do największej wartości, dla których wyliczone zostały wartości funkcji G,
        - "G" - zawierającą wyliczone wartości funkcji G.
        - "G_min" - zawierającą dolne wartości obwiedni funkcji G.
        - "G_max" - zawierającą górne wartości obwiedni funkcji G.
    """  
    # YOUR CODE HERE
    help(pp.distance_statistics.g_test)
    points_x = points.shape[0]
    print(points_x)
    g_fun = pp.distance_statistics.g_test(points, intervals, hull = polygon, n_simulations = n)
    
    
    
    # raise NotImplementedError()

#### b) Wygenerowanie danych

In [78]:
# YOUR CODE HERE
n = 2/0.05+1
print(points_1)
g1 = g_test_mc(points_1["geometry"], 200, powiaty["geometry"][12], n)
# g2 = g_test_mc(points_2["geometry"], 200, powiaty["geometry"][12], n)
# g3 = g_test_mc(points_3["geometry"], 200, powiaty["geometry"][12], n)


# raise NotImplementedError()

     FID                       geometry
0      0  POINT (622278.818 610345.295)
1      1  POINT (500987.264 593163.080)
2      2  POINT (472848.491 354957.352)
3      3  POINT (353291.629 639997.173)
4      4  POINT (794059.692 662023.668)
..   ...                            ...
294  294  POINT (263876.091 388010.681)
295  295  POINT (482754.938 643320.712)
296  296  POINT (281402.667 402037.207)
297  297  POINT (787042.816 575555.745)
298  298  POINT (690389.588 368801.632)

[299 rows x 2 columns]
Help on function g_test in module pointpats.distance_statistics:

g_test(coordinates, support=None, distances=None, metric='euclidean', hull=None, edge_correction=None, keep_simulations=False, n_simulations=9999)
    Ripley's G function
    
    The G function is computed from the cumulative density function of the nearest neighbor 
    distances between points in the pattern. 
    
    When the G function is below the simulated values, it suggests dispersion. 
    
    Parameters
    ------

TypeError: float() argument must be a string or a real number, not 'Point'

#### c) Wizualizacja

In [54]:
# YOUR CODE HERE
# raise NotImplementedError()

### Zadanie 2: Autokorelacja przestrzenna danych (25 pkt)

Przygotuj funkcję `spatial_autocorelation_data()`, która będzie przygotowywać dane niezbędne do oceny autokorelacji przestrzennej analizowanych danych.

Schemat postępowania:
- zagreguj dane na obszarze poszczegolnych powiatów (ze względu na różnice w powierzchni obszarów skorzystaj z wyliczonych dla nich wartości intensywności, a nie samej liczby zliczeń w ich obrębie),
- wyznacz macierz wag przestrzennych,
- wylicz opóźnienie przestrzenne,
- przygotuj dane niezbędne do wykonania wykresu Morana.

Następnie wykorzystaj przygotowane funkcje do oceny autokorelacji przestrzennej rozkładów punktów z plików points_4.zip i points_5.zip.
Przedstaw wyniki analizy graficznie w postaci kartogramów intensywności i opóźnienia przestrzennego z nałożonymi na nie rozkładami punktów oraz za pomocą wykresów Morana. Zestaw wyniki na pojedynczej figurze (siatka wykresów 2x3).

Przydatne klasy i funkcje:
- `libpysal.weights.Queen()`
- `libpysal.weights.Rook()`
- `libpysal.spatial_lag.lag_spatial()`

#### a) Przygotowanie funkcji

In [47]:
def spatial_autocorelation_data(points, subregions):
    """
    Parameters
    -------
    points: GeoSeries
        Tablica zawierająca punkty zapisane jako obiekty shapely.geometry.point.Point.
    subregions: GeoDataFrame
        Tablica zawierająca geometrie podobszarów zapisane jako obiekty shapely.geometry.polygon.Polygon.
    Returns
    -------
    moran_plot_data: GeoDataFrame
        Obiekt GeoDataFrame zawierający następujące kolumny:
        "geometry" - kolumna z geometrią podobszarów,
        "intensity" - wartości intesywności procesu w obrębie poszczególnych podobszarów,
        "lag" - wartości opóźnienia przestrzennego w obrębie poszczególnych podobszarów,
        "intensity_std" - ustandaryzowane wartości intensywności.
        "lag_std" - ustandaryzowane wartości opóźnienia przestrzennego.
    """
    # YOUR CODE HERE
    intensity = intensity_on_subregions(points, subregions)
    intensity = intensity.astype(float)
    points_weight = ps.weights.Queen(subregions)
    lag = ps.weights.lag_spatial(points_weight,intensity)
    intensity_std = intensity - np.mean(intensity)
    lag_std = lag - np.mean(lag)
    moran_plot_data = gpd.GeoDataFrame(data={"geometry":subregions,"intensity":intensity,"lag":lag,"intensity_std":intensity_std,"lag_std":lag_std})
    return moran_plot_data

In [48]:
    # raise NotImplementedError()

#### b) Wygenerowanie danych

In [49]:
# YOUR CODE HERE
i_4 = spatial_autocorelation_data(points_4["geometry"], powiaty["geometry"])
i_4
# raise NotImplementedError()

Unnamed: 0,geometry,intensity,lag,intensity_std,lag_std
0,"POLYGON ((692305.365 260282.248, 692313.646 26...",5.474220e-09,1.642933e-08,2.536307e-09,1.173481e-09
1,"POLYGON ((753920.175 497017.076, 753918.822 49...",5.176587e-09,7.334602e-09,2.238673e-09,-7.921252e-09
2,"POLYGON ((644442.384 473992.041, 644345.678 47...",1.611810e-09,5.998462e-09,-1.326103e-09,-9.257392e-09
3,"POLYGON ((638056.482 404421.246, 638059.412 40...",5.233940e-09,4.305789e-08,2.296026e-09,2.780203e-08
4,"POLYGON ((534236.749 555932.727, 534235.027 55...",3.525731e-09,1.855820e-08,5.878178e-10,3.302350e-09
...,...,...,...,...,...
375,"POLYGON ((521445.985 722541.335, 521523.278 72...",1.485844e-09,5.295900e-09,-1.452070e-09,-9.959954e-09
376,"POLYGON ((303544.254 353195.337, 303547.016 35...",1.721632e-09,2.333402e-08,-1.216282e-09,8.078165e-09
377,"POLYGON ((702854.223 532567.782, 702853.911 53...",2.460101e-09,1.275139e-08,-4.778127e-10,-2.504459e-09
378,"POLYGON ((430377.866 773965.783, 430351.853 77...",2.333131e-09,1.522656e-08,-6.047829e-10,-2.929677e-11


#### c) Wizualizacja

In [None]:
# YOUR CODE HERE
# raise NotImplementedError()