# Analiza danych przestrzennych - ćwiczenia laboratoryjne 2022/2023

Ten notatnik zalicza się do grupy zestawów zadań, na podstawie których odbywa się zaliczenie ćwiczeń i podlega zwrotowi do oceny w ustalonym na zajęciach terminie.

Uwagi ogólne:
- Podczas wykonywania zadań należy korzystać wyłącznie z pakietów zaimportowanych na początku notatnika oraz z pakietów wchodzących w skład standardowej biblioteki Pythona, które można zaimportować samodzielnie we wskazanej komórce.
- Swoje rozwiązania należy wprowadzać wyłącznie w miejce następujących fragmentów kodu:<br/> ` # YOUR CODE HERE`<br/> ` raise NotImplementedError()`<br/> Nie należy w żaden sposób modyfikować pozostałych fragmentów kodu oraz elementów notatnika, w szczególności dodawać lub usuwać komórek oraz zmieniać nazwy pliku.
- Jeżeli zestaw zadań wymaga skorzystania z funkcji przygotowanych w ramach wcześniejszych zestawów zadań należy je umieścić we wskazanej komórce.
- Wszystkie wykresy powinny być wykonane w jednolitym, przejrzystym i czytelnym stylu, mieć nadane tytuły, opisane osie oraz odpowiednio dobrany rozmiar, wielkość punktów i grubość linii. Proporcje osi wykresów przedstawiających rozkłady punktów powinny być dobrane tak, aby wykresy odzwierciedlały rzeczywisty rozkład punktów w przestrzeni.
- Zadania, które powodują wyświetlenie komunikatu o błędzie przerywającym wykonywanie kodu nie podlegają ocenie.

Przed odesłaniem zestawu zadań do oceny proszę uzupełnić komórkę z danymi autorów rozwiązania (`NAME` - nazwa grupy, `COLLABORATORS` - imiona, nazwiska i numery indeksów członków grupy) oraz upewnić się, że notatnik działa zgodnie z oczekiwaniami. W tym celu należy skorzystać z opcji **Restart Kernel and Run All Cells...** dostępnej na górnej belce notatnika pod symbolem $\blacktriangleright\blacktriangleright$. 

In [1]:
NAME = "31"
COLLABORATORS = "Aleksandra Grot 407392, Malgorzata Serwanska 405044, Adam Lewinski 407657"

---

## Zestaw zadań 3: Badanie intensywności procesów punktowych (część 2)

In [3]:
import numpy as np
import pandas as pd
import scipy as sp
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
# Miejsce do importu pakietów wchodzących w skład standardowej biblioteki Pythona oraz ustawienie opcji wykorzystywanych pakietów
sns.set() 
sns.set_theme(style="whitegrid")

In [4]:
# Miejsce do wklejenie funkcji ze wcześniejszych zestawów zadań
# YOUR CODE HERE
def point_count_on_subregions(points, bins, x_lim, y_lim):
    # YOUR CODE HERE
    X = np.linspace(x_lim[0],x_lim[1], bins[0]+1)
    Y = np.linspace(y_lim[0],y_lim[1], bins[1]+1)
    H,X,Y = np.histogram2d(x = points["X"], y = points["Y"], bins=(X,Y))
    return [X,Y,H]


### Przygotowanie danych
Wczytaj dane zawarte w plikach CSV załączonych do zestawu zadań.

In [5]:
# YOUR CODE HERE1
x_lim = [0,20]
y_lim = [0,10]
bins = [40,20]

x, y, points1 = point_count_on_subregions(pd.read_csv("points_1.csv"), bins, x_lim, y_lim)
x, y, points2 = point_count_on_subregions(pd.read_csv("points_2.csv"), bins, x_lim, y_lim)
points_3 = pd.read_csv("points_3.csv")

### Zadanie 1: Test chi-kwadrat Pearsona (30 pkt)

Przygotuj funkcję `pearsons_chi2_test()`, która będzie przeprowadzać test istotności chi-kwadrat Pearsona i wyświetlać jego wynik zgodnie z pokazanym poniżej schematem. Następnie wykorzystaj przygotowanią funkcję do sprawdzenia, czy rozkłady punktowe zaimportowane z plików points_1.csv i points_2.csv są jednorodnymi rozkładami Poissona o intensywności równej 20. W obliczeniach przyjmij $\alpha=0.05$.

Rozwiązanie zadania wymaga dodatkowo przygotowania funkcji pomocniczych `distribution_table()` i `poisson_distribution_table()`, które będą przygotowywać szeregi rodzielcze testowanego rozkładu oraz teoretycznego rozkładu Poissona.

Algorytm postępowania:
- Formułujemy hipotezę zerową i hipotezę alternatywną H1: <br/>
H0: Testowana zmienna ma przyjęty rozkład teoretyczny <br/>
H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego
- Obliczamy wartość statystyki testowej $\chi^2$: <br/>
$\chi^2 = \sum_{i=1}^{k} \frac{(n_i-n p_i)^2}{np_i}$ <br/>
gdzie: $k$ - liczba wariantów badanej cechy, $n_i$ - liczebność i-tego wariantu testowanego rozkładu, $n$ - liczba punktów testowanego rozkładu, $p_i$ - prawdopodobieństwo  i-tego wariantu rozkładu teoretycznego.
- Z rozkładu chi-kwadrat wyznaczamy obszar krytyczny testu istotności $\chi^2_{\alpha}$: <br/>
$\chi^2_{\alpha} = \chi^2_{1-\alpha, k-s-1}$ <br/>
gdzie:  $\alpha$ - poziom istotności, $k$ - liczba wariantów rozkładu, $s$ - liczba nieznanych parametrów rozkładu.
- Podejmujemy decyzję weryfikującą: <br/>
$\chi^2 >= \chi^2_{\alpha}$ - Odrzucenie H0 na rzecz H1 na poziomie istotności alpha = X <br/>
$\chi^2 < \chi^2_{\alpha}$ - Wynik testu istotności nie daje podstaw do odrzucenia H0 na rzecz H1 na poziomie istotności alpha = X

Przykładowe wyniki pracy funkcji `pearsons_chi2_test()`: <br/>
<br/>
`Test chi-kwadrat Pearsona` <br/>
`H0: Testowana zmienna ma przyjęty rozkład teoretyczny` <br/>
`H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego` <br/>
`chi2 = 23.307 chi2_alpha = 18.078`<br/>
`chi2 >= chi2_alpha` <br/>
`Odrzucenie H0 na rzecz H1 na poziomie istotności alpha = 0.05` <br/>
<br/>
`Test chi-kwadrat Pearsona` <br/>
`H0: Testowana zmienna ma przyjęty rozkład teoretyczny` <br/>
`H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego` <br/>
`chi2 = 19.521 chi2_alpha = 21.129`<br/>
`chi2 < chi2_alpha` <br/>
`Wynik testu istotności nie daje podstaw do odrzucenia H0 na rzecz H1 na poziomie istotności alpha = 0.05` <br/>

#### a) Przygotowanie funkcji

In [10]:
def distribution_table(bin_counts):
    """
    Parameters
    -------
    bin_counts: array
        Macierz 2D z liczbą punków przypisanych do każdego z podobszarów.
        x = [0-20]
        y = [0-10]
        bins = [40, 20]
    Returns
    -------
    table: DataFrame
        Tablica zawierająca 2 kolumny:
        - "K", która zawiera wszystkie wartości całkowite z zakresu od minimalnej do maksymalnej liczby zliczeń w obrębie podobszarów,
        - "N(K)", która zawiera liczby podobszarów, którym zostały przypisane poszczególne liczby punktów.
    """    
    # YOUR CODE HERE
    N=[]
    K=np.linspace(np.min(bin_counts),np.max(bin_counts),int(np.max(bin_counts)-np.min(bin_counts)+1))
    for i in K:
        N.append(np.count_nonzero(bin_counts==i))
    df={"K":K,"N(K)":N}
    return pd.DataFrame(df)

def poisson_distribution_table(k, mu):
    """
    Parameters
    -------
    k: array
        Macierz 1D z wariantami badanej cechy, dla którym ma zostać wyliczone prawdopodobieństwo.
    mu: int
        Wartość oczekiwana rozkładu Poissona.

    Returns
    -------
    table: DataFrame
        Tablica zawierająca 2 kolumny:
        - "K", która zawiera warianty badanej cechy,
        - "P(K)", która zawiera wartości prawdopodobieństw rozkładu Poissona wyliczone dla wartości oczekiwanej mu
        oraz poszczególnych wariantów badanej cechy znormalizowane do sumy wartości równej 1.
    """  
    # YOUR CODE HERE
    K = k
    P = sp.stats.poisson.pmf(K,mu)
    df={"K":K,"P(K)":P}
    return pd.DataFrame(df)

def pearsons_chi2_test(tested_distribution, theoretical_distribution, alpha, ddof):
    """
    Parameters
    -------z
    tested_distribution: DataFrame
        Tablica opisująca testowany rozkład i zawierająca 2 kolumny:
        - "K", która zawiera warianty badanej cechy, wartości muszą być identycznej jak kolumna "K" zmiennej lokalnej theoretical_distribution,
        - "N(K)", która zawiera liczebności poszczególnych wariantów badanej cechy.

    theoretical_distribution: DataFrame
        Tablica opisująca rozkład teoretyczny i zawierająca 2 kolumny:
        - "K", która zawiera warianty badanej cechy, wartości muszą być identycznej jak kolumna "K" zmiennej lokalnej tested_distribution,
        - "P(K)", która zawiera prawdopodobieństwa poszczególnych wariantów badanej cechy. Wartości z tej kolumny muszą sumować się do 1.
    
    alpha: float
        Wartość z zakresu [0,1] określająca poziom istotności.
    
    ddof: int
        Liczba nieujemna określająca liczbę nieznanych parametrów rozkładu.
    """
    print("Test chi-kwadrat Pearsona")
    print("H0: Testowana zmienna ma przyjęty rozkład teoretyczny")
    print("H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego")
    npi =  np.sum(tested_distribution["N(K)"]) * theoretical_distribution ["P(K)"]
    ni = tested_distribution["N(K)"]
    chiSquare = np.sum((ni - npi)**2 / npi)
    chiSquareAlpha = sp.stats.chi2.ppf(1-alpha,len(ni)-ddof-1)
    print(f"chi2 = {np.round(chiSquare,3)}  chi2_alpha = {np.round(chiSquareAlpha,3)}")
    if chiSquare >= chiSquareAlpha:
        print("chi2 >= chi2_alpha")
        print(f"Odrzucenie H0 na rzecz H1 na poziomie istotności alpha = {alpha}")
    else:
        print("chi2 < chi2_alpha")
        print(f"Wynik testu istotności nie daje podstaw do odrzucenia H0 na rzecz H1 na poziomie istotności alpha = {alpha}")

#### b) Weryfikacja hipotezy o rozkładzie 1

In [11]:
# YOUR CODE HERE
intensity = 20
alpha = 0.05
mu = 20*(x_lim[1]-x_lim[0])*(y_lim[1]-y_lim[0])/bins[0]/bins[1] 

tested_distribution = distribution_table(points1)
theoretical_distribution = poisson_distribution_table(tested_distribution["K"], mu)
ddof = 0

pearsons_chi2_test(tested_distribution, theoretical_distribution, alpha, ddof)

Test chi-kwadrat Pearsona
H0: Testowana zmienna ma przyjęty rozkład teoretyczny
H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego
chi2 = 95656.477  chi2_alpha = 11.07
chi2 >= chi2_alpha
Odrzucenie H0 na rzecz H1 na poziomie istotności alpha = 0.05


#### c) Weryfikacja hipotezy o rozkładzie 2

In [9]:
# YOUR CODE HERE
intensity = 20
alpha = 0.05
mu = 20*(x_lim[1]-x_lim[0])*(y_lim[1]-y_lim[0])/bins[0]/bins[1] 

tested_distribution = distribution_table(points2)
theoretical_distribution = poisson_distribution_table(tested_distribution["K"], mu)
ddof = 0

pearsons_chi2_test(tested_distribution, theoretical_distribution, alpha, ddof)

Test chi-kwadrat Pearsona
H0: Testowana zmienna ma przyjęty rozkład teoretyczny
H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego
chi2 = 22449.298  chi2_alpha = 16.919
chi2 >= chi2_alpha
Odrzucenie H0 na rzecz H1 na poziomie istotności alpha = 0.05


### Zadanie 2: Test Kołmogorowa - Smirnowa (20 pkt)

Przygotuj funkcję `kolmogorow_smirnow_test()`, która będzie przeprowadzać test istotności Kołmogorowa-Smirnowa i wyświetlać jego wynik zgodnie z pokazanym poniżej schematem. Następnie wykorzystaj przygotowanią funkcję do sprawdzenia, czy rozkład punktowy zaimportowany z pliku points_3.csv jest jednorodnym rozkładem Poissona. W obliczeniach przyjmij poziom istotności $\alpha=0.05$.

Algorytm postępowania:
- Formułujemy hipotezę zerową i hipotezę alternatywną H1: <br/>
H0: Testowana zmienna ma przyjęty rozkład teoretyczny <br/>
H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego
- Obliczamy wartość statystyki testowej $\lambda$: <br/>
$D = \sup_{x}(|F_t - F_0|)$ <br/>
$\lambda = D\sqrt{n}$ <br/>
gdzie: $F_t$ - dystrybuanta testowanego rozkładu,  $F_0$ - dystrybuanta rozkładu teoretycznego, $n$ - liczba punktów.
- Z rozkładu Kołomogorowa wyznaczamy obszar krytyczny testu istotności $\lambda_{\alpha}$: <br/>
$\lambda_{\alpha} = \lambda_{1-\alpha}$ <br/>
gdzie:  $\alpha$ - poziom istotności.
- Podejmujemy decyzję weryfikującą: <br/>
$\lambda >= \lambda_{\alpha}$ - Odrzucenie H0 na rzecz H1 na poziomie istotności alpha = X <br/>
$\lambda < \lambda_{\alpha}$ - Wynik testu istotności nie daje podstaw do odrzucenia H0 na rzecz H1 na poziomie istotności alpha = X

Uwaga! Test należy przeprowadzić niezależnie dla współrzędnej X i Y. Decyzja jest podejmowana na podstawie wyników obu testów.


Przykładowe wyniki pracy funkcji `kolmogorow_smirnow_test()`: <br/>
<br/>
`Test Kołmogorowa-Smirnowa dla współrzędnej X` <br/>
`H0: Testowana zmienna ma przyjęty rozkład teoretyczny` <br/>
`H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego` <br/>
`lambda = 2.036  lambda_alpha = 1.255`<br/>
`lambda >= lambda_alpha` <br/>
`Odrzucenie H0 na rzecz H1 na poziomie istotności alpha = 0.05` <br/>
<br/>
`Test Kołmogorowa-Smirnowa dla współrzędnej Y` <br/>
`H0: Testowana zmienna ma przyjęty rozkład teoretyczny` <br/>
`H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego` <br/>
`lambda = 1.136  lambda_alpha = 1.748` <br/>
`lambda < D_alpha` <br/>
`Wynik testu istotności nie daje podstaw do odrzucenia H0 na rzecz H1 na poziomie istotności alpha = 0.05`

#### a) Przygotowanie funkcji

In [9]:
def kolmogorow_smirnow_test(tested_points, theoretical_points, alpha, ddof):
    """
    Parameters
    -------
    tested_points: DataFrame
        Tablica zawierająca kolumnę ze współrzędnymi punktów testowanego rozkładu opisaną jako "X" lub "Y".

    theoretical_points: DataFrame
        Tablica zawierająca kolumnę ze współrzędnymi punktów toeretycznego rozkładu opisaną jako "X" lub "Y".
    
    alpha: float
        Wartość z zakresu [0,1] określająca poziom istotności.
    
    ddof: int
        Liczba nieujemna określająca liczbę nieznanych parametrów rozkładu.
    """
    # YOUR CODE HERE
    print(f"Test Kołmogorowa-Smirnowa dla współrzędnej {tested_points.name}")
    print("H0: Testowana zmienna ma przyjęty rozkład teoretyczny")
    print("H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego")
    Ft = np.arange(1, len(tested_points)+1)/float(len(tested_points))
    #loc i scale mozna ustawic na sztywno, dla tego przykladu bedzie to 0 i 20 dla x, 0 i 10 dla y
    #Bardziej elegancko byloby przekazywac to jako argument funkcji, ale to nie chcemy modyfikowac
    #wiec bedziemy uzywac min i max zbioru.
    
    #Jestesmy swiadomi tego, ze przez to co tu zrobilismy (sami liczylismy dystrybuanty), ta funkcja nie jest uniwersalna
    #Ta funkcja zadziala niestety tylko w wypadku testu na zgodznosc z rozkladem jednorodnym poissona
    #Napracowalismy sie jednak przy tym, aby to zrozumiec, wiec nie chemy zmieniac rozwiazania
    #na takie przy uzyciu funkcji kstest. Natomiast jestesmy swiadomi tego co tu powinno byc
    #Prosimy o nie obnizanie oceny z tego powodu.
    Fo = sp.stats.uniform.cdf(theoretical_points, loc = min(theoretical_points), scale = max(theoretical_points) - min(theoretical_points) )
    D = max(abs(Ft-Fo))
    lambd = D*np.sqrt(len(tested_points))
    lamdalpha = sp.stats.kstwobign.ppf(1-alpha)
    print(f"lambda = {np.round(lambd,3)}  lambda_alpha = {np.round(lamdalpha,3)}")
    if lambd >= lamdalpha:
        print("lambda >= lambda_alpha")
        print(f"Odrzucenie H0 na rzecz H1 na poziomie istotności alpha = {alpha}\n\n")
    else:
        print("lambda < D_alpha")
        print(f"Wynik testu istotności nie daje podstaw do odrzucenia H0 na rzecz H1 na poziomie istotności alpha = {alpha}\n\n")
        
    

#### b) Weryfikacja hipotezy o rozkładzie 3

In [10]:
# YOUR CODE HERE
alpha = 0.05
ddof = 0
kolmogorow_smirnow_test(points_3["X"], sorted(points_3["X"]), alpha, ddof)
kolmogorow_smirnow_test(points_3["Y"], sorted(points_3["Y"]), alpha, ddof)

#Wniosek, nie jest to jednorodny rozkład poissona ze względu na wynik testu dla zmiennej x

Test Kołmogorowa-Smirnowa dla współrzędnej X
H0: Testowana zmienna ma przyjęty rozkład teoretyczny
H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego
lambda = 2.138  lambda_alpha = 1.358
lambda >= lambda_alpha
Odrzucenie H0 na rzecz H1 na poziomie istotności alpha = 0.05


Test Kołmogorowa-Smirnowa dla współrzędnej Y
H0: Testowana zmienna ma przyjęty rozkład teoretyczny
H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego
lambda = 0.556  lambda_alpha = 1.358
lambda < D_alpha
Wynik testu istotności nie daje podstaw do odrzucenia H0 na rzecz H1 na poziomie istotności alpha = 0.05


