# Analiza danych przestrzennych - ćwiczenia laboratoryjne 2022/2023

Ten notatnik zalicza się do grupy zestawów zadań, na podstawie których odbywa się zaliczenie ćwiczeń i podlega zwrotowi do oceny w ustalonym na zajęciach terminie.

Uwagi ogólne:
- Podczas wykonywania zadań należy korzystać wyłącznie z pakietów zaimportowanych na początku notatnika oraz z pakietów wchodzących w skład standardowej biblioteki Pythona, które można zaimportować samodzielnie we wskazanej komórce.
- Swoje rozwiązania należy wprowadzać wyłącznie w miejce następujących fragmentów kodu:<br/> ` # YOUR CODE HERE`<br/> ` raise NotImplementedError()`<br/> Nie należy w żaden sposób modyfikować pozostałych fragmentów kodu oraz elementów notatnika, w szczególności dodawać lub usuwać komórek oraz zmieniać nazwy pliku.
- Jeżeli zestaw zadań wymaga skorzystania z funkcji przygotowanych w ramach wcześniejszych zestawów zadań należy je umieścić we wskazanej komórce.
- Wszystkie wykresy powinny być wykonane w jednolitym, przejrzystym i czytelnym stylu, mieć nadane tytuły, opisane osie oraz odpowiednio dobrany rozmiar, wielkość punktów i grubość linii. Proporcje osi wykresów przedstawiających rozkłady punktów powinny być dobrane tak, aby wykresy odzwierciedlały rzeczywisty rozkład punktów w przestrzeni.
- Zadania, które powodują wyświetlenie komunikatu o błędzie przerywającym wykonywanie kodu nie podlegają ocenie.

Przed odesłaniem zestawu zadań do oceny proszę uzupełnić komórkę z danymi autorów rozwiązania (`NAME` - nazwa grupy, `COLLABORATORS` - imiona, nazwiska i numery indeksów członków grupy) oraz upewnić się, że notatnik działa zgodnie z oczekiwaniami. W tym celu należy skorzystać z opcji **Restart Kernel and Run All Cells...** dostępnej na górnej belce notatnika pod symbolem $\blacktriangleright\blacktriangleright$. 

In [1]:
NAME = "IAD15"
COLLABORATORS = "Anna Kaniowska 407334, Weronika Matuszek 406887, Ewa Szewczyk 406923, Adam Piwowarski 408133"

---

## Zestaw zadań 3: Badanie intensywności procesów punktowych (część 2)

In [2]:
import numpy as np
import pandas as pd
import scipy as sp
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
# Miejsce do importu pakietów wchodzących w skład standardowej biblioteki Pythona oraz ustawienie opcji wykorzystywanych pakietów
sns.set() 
sns.set_theme(style="whitegrid")

In [4]:
# Miejsce do wklejenie funkcji ze wcześniejszych zestawów zadań
# YOUR CODE HERE

def regular_on_rectangle(grid, random_component, x_lim, y_lim):
    """
    Parameters
    -------
    grid: list
        Lista określająca liczbę punktów w pionie i poziomie.
        Przykład: [10, 10]
    random_component: float
        Liczba z przedziału [0, 1] określająca wielkość komponentu losowego.
    x_lim: list
        Lista określająca zakres wartości współrzędnej X.
        Przykład: [0, 10]
    y_lim: list
        Lista określająca zakres wartości współrzędnej Y.
        Przykład: [0, 10]   

    Returns
    -------
    points: DataFrame
        Tablica zawierająca dwie kolumny ze współrzędnymi punktów opisane jako "X" i "Y".
    """
    # YOUR CODE HERE

    # Creating variables containing distance between points
    dx = (x_lim[1] - x_lim[0])/grid[0]
    dy = (y_lim[1] - y_lim[0])/grid[1]

    # Creating gird with regular gaps (without random component)
    x = np.arange(x_lim[0] + 0.5*dx, x_lim[1], dx)
    y = np.arange(y_lim[0] + 0.5*dy, y_lim[1], dy)
    xy, yx = np.meshgrid(x, y)
    
    # Adding random component to our gird
    rand_m1 = [[random_component*np.random.uniform(-0.5*dx, 0.5*dx) for i in range(grid[0])] for j in range(grid[1])]
    rand_m2 = [[random_component*np.random.uniform(-0.5*dy, 0.5*dy) for i in range(grid[0])] for j in range(grid[1])]
    mx = xy + rand_m1
    my = yx + rand_m1

    # Flattening previously created matrices and creating required DataFrame
    xx = mx.flatten()
    yy = my.flatten()
    points = pd.DataFrame([xx, yy]).transpose()
    points.columns=["X", "Y"]
    return points


def homogeneous_poisson_on_rectangle(intensity, x_lim, y_lim):
    """
    Parameters
    -------
    intensity: float
        Liczba dodatnia określająca intensywność procesu punktowego.
    x_lim: list
        Lista określająca zakres wartości współrzędnej X.
        Przykład: [0, 10]
    y_lim: list
        Lista określająca zakres wartości współrzędnej Y.
        Przykład: [0, 10]   
    
    Returns
    -------
    points: DataFrame
        Tablica zawierająca dwie kolumny ze współrzędnymi punktów opisane jako "X" i "Y".
    """ 
    # YOUR CODE HERE
    
    #drawing number of points from Poisson distribution
    area = (x_lim[1]-x_lim[0])*(y_lim[1]-y_lim[0]);
    w = intensity * area
    n = np.random.poisson(w)
    
    #drawing coordinates of points from uniform distribution
    x_tab = np.random.uniform(x_lim[0],x_lim[1],n)
    y_tab = np.random.uniform(y_lim[0],y_lim[1],n)
    
    #creating DataFrame
    points = pd.DataFrame({'X':x_tab,'Y':y_tab})
    return points
    
def unhomogeneous_poisson_on_rectangle(intensity_function, x_lim, y_lim):
    """
    Parameters
    -------
    intensity_function: function
        Funkcja przyjmująca dwa argumenty (macierz 1D współrzędnych X i macierz 1D współrzędnych Y) i zwracająca macierz 1D
        z wartościami funkcji opisującej intensywność procesu dla tych współrzędnych.
    x_lim: list
        Lista określająca zakres wartości współrzędnej X.
        Przykład: [0, 10]
    y_lim: list
        Lista określająca zakres wartości współrzędnej Y.
        Przykład: [0, 10] 
    
    Returns
    -------
    points: DataFrame
        Tablica zawierająca dwie kolumny ze współrzędnymi punktów opisane jako "X" i "Y".
    """
    # YOUR CODE HERE

    #redefining intensity function for sp.optimize.minimize purpose
    def intensity_function_2(params):
        if(len(params)!=2):
            print("Error in intensity_function_2: intensity_function takes 2 arguments")
            return 
        
        return -intensity_function(params[0],params[1])
    
    #optimizing intensity function & setting i_max value
    optimize_result = sp.optimize.minimize(intensity_function_2, 
                                           [sum(x_lim)/2,sum(y_lim)/2], 
                                           method='Nelder-Mead', 
                                           bounds=(tuple(x_lim),tuple(y_lim))) 
    i_max = -optimize_result.fun

    #simulating homogenous poisson point process
    points = homogeneous_poisson_on_rectangle(i_max, x_lim, y_lim)
    num_points = len(points['X'])

    #counting probabilities for each point
    p = (1-(-intensity_function_2((points['X'],points['Y'])))/i_max).to_frame()
    p.reset_index(drop=True,inplace=True)

    #deciding which points to delete & deleting them
    delete = np.random.uniform(0,1,((num_points,1)))<p;
    points.drop(delete[delete['X']==True].index,inplace=True)

    return points

def materna_on_rectangle(parent_intensity, daughter_intensity, cluster_radius, x_lim, y_lim):
    """
    Parameters
    -------
    parent_intensity: float
        Liczba dodatnia określająca intensywność macierzystego procesu punktowego.
    daughter_intensity: float
        Liczba dodatnia określająca intensywność potomnego procesu punktowego.
    cluster_radius: float
        Liczba dodatnia określająca promień generowanych klastrów.
    x_lim: list
        Lista określająca zakres wartości współrzędnej X.
        Przykład: [0, 10]
    y_lim: list
        Lista określająca zakres wartości współrzędnej Y.
        Przykład: [0, 10]   
    
    Returns
    -------
    points: DataFrame
        Tablica zawierająca dwie kolumny ze współrzędnymi punktów opisane jako "X" i "Y".
    """
    # YOUR CODE HERE

    # Extending our area with a buffer
    x_new = [x_lim[0] - cluster_radius, x_lim[1] + cluster_radius]
    y_new = [y_lim[0] - cluster_radius, y_lim[1] + cluster_radius]

    # Generating point by homogeneous Poisson process with parent_intensity as a parameter
    points = homogeneous_poisson_on_rectangle(parent_intensity, x_new, y_new)
   
   # Generating new points around each previous points (within cluster_radius)
    X=[]
    Y=[]
    for i in range(len(points['X'])):
      # Triggering nex
      number = np.random.poisson(daughter_intensity*np.pi*cluster_radius**2);
      # Generating the (relative) locations in polar coordinates by simulating independent variables
      theta=2*np.pi*np.random.uniform(0,1,number); 
      rho=cluster_radius*np.sqrt(np.random.uniform(0,1,number)); 
      # Converting from polar to Cartesian coordinates
      dx = rho * np.cos(theta);
      dy = rho * np.sin(theta);
      # Translating points (by treating old points as a center of our buffer)
      for j in range(number):
        valueX=points.iloc[i, 0]+dx[j]
        valueY=points.iloc[i, 1]+dy[j]
        X.append(valueX)
        Y.append(valueY)
    
    # Creating DatFrame
    clustered=pd.DataFrame({"X": X, "Y":Y})

    # Checking if some new point aren't within our area and if so - adding their indexes to a list
    indexes=[]
    for i, row in clustered.iterrows():
      if(row["X"] < x_lim[0] or row["X"] > x_lim[1] or row["Y"] < y_lim[0] or row["Y"] > y_lim[1]):
        indexes.append(i)

    # Dropping points that are outside of the area
    clustered.drop(clustered.index[indexes], inplace=True)
    clustered.reset_index(drop=True, inplace=True)

    return clustered
    
def thomas_on_rectangle(parent_intensity, mean_cluster_size, cluster_sigma, x_lim, y_lim):
    """
    Parameters
    -------
    parent_intensity: float
        Liczba dodatnia określająca intensywność macierzystego procesu punktowego.
    mean_cluster_size: float
        Liczba dodatnia określająca oczekiwaną liczebność generowanych klastrów.
    cluster_sigma: float
        Liczba dodatnia określająca odchylenie standardowe rozkładu wykorzystywanego w procesie generowania klastrów.
    x_lim: list
        Lista określająca zakres wartości współrzędnej X.
        Przykład: [0, 10]
    y_lim: list
        Lista określająca zakres wartości współrzędnej Y.
        Przykład: [0, 10]   
    
    Returns
    -------
    points: DataFrame
        Tablica zawierająca dwie kolumny ze współrzędnymi punktów opisane jako "X" i "Y".
    """
    # YOUR CODE HERE
    
    #setting extended limits, drawing points from homogeneous Poisson point process
    x_new = [x_lim[0] - 4*cluster_sigma, x_lim[1] + 4*cluster_sigma]
    y_new = [y_lim[0] - 4*cluster_sigma, y_lim[1] + 4*cluster_sigma]
    centers = homogeneous_poisson_on_rectangle(parent_intensity, x_new, y_new)
    
    #adding points to clusters
    X=[]
    Y=[]
    for c in centers.values:
      n = np.random.poisson(mean_cluster_size)
      for i in range(n):
        x = np.random.normal(c[0], cluster_sigma)
        y = np.random.normal(c[1], cluster_sigma)
        X.append(x)
        Y.append(y)

    clustered=pd.DataFrame({"X" : X, "Y" : Y})

    #droping points outside targeted area
    indexes=[]
    for i, row in clustered.iterrows():
      if(row["X"] <x_lim[0] or row["X"] > x_lim[1] or row["Y"] < y_lim[0] or row["Y"] > y_lim[1]):
        indexes.append(i)

    clustered.drop(clustered.index[indexes], inplace=True)
    clustered.reset_index(drop=True, inplace=True)

    return clustered

def point_count_on_subregions(points, bins, x_lim, y_lim):
    n_points,x_bins,y_bins = np.histogram2d(points['X'],points['Y'],bins=bins,range=[x_lim,y_lim])     
    n_points = np.transpose(n_points)
    return n_points


#raise NotImplementedError()

### Przygotowanie danych
Wczytaj dane zawarte w plikach CSV załączonych do zestawu zadań.

In [5]:
# YOUR CODE HERE

points_1 = pd.read_csv("points_1.csv")
points_2 = pd.read_csv("points_2.csv")
points_3 = pd.read_csv("points_3.csv")
n1 = point_count_on_subregions(points_1, [40,20], [0,20], [0,10])
n2 = point_count_on_subregions(points_2, [40,20], [0,20], [0,10])
n3 = point_count_on_subregions(points_3, [40,20], [0,20], [0,10])

#raise NotImplementedError()

### Zadanie 1: Test chi-kwadrat Pearsona (30 pkt)

Przygotuj funkcję `pearsons_chi2_test()`, która będzie przeprowadzać test istotności chi-kwadrat Pearsona i wyświetlać jego wynik zgodnie z pokazanym poniżej schematem. Następnie wykorzystaj przygotowanią funkcję do sprawdzenia, czy rozkłady punktowe zaimportowane z plików points_1.csv i points_2.csv są jednorodnymi rozkładami Poissona o intensywności równej 20. W obliczeniach przyjmij $\alpha=0.05$.

Rozwiązanie zadania wymaga dodatkowo przygotowania funkcji pomocniczych `distribution_table()` i `poisson_distribution_table()`, które będą przygotowywać szeregi rodzielcze testowanego rozkładu oraz teoretycznego rozkładu Poissona.

Algorytm postępowania:
- Formułujemy hipotezę zerową i hipotezę alternatywną H1: <br/>
H0: Testowana zmienna ma przyjęty rozkład teoretyczny <br/>
H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego
- Obliczamy wartość statystyki testowej $\chi^2$: <br/>
$\chi^2 = \sum_{i=1}^{k} \frac{(n_i-n p_i)^2}{np_i}$ <br/>
gdzie: $k$ - liczba wariantów badanej cechy, $n_i$ - liczebność i-tego wariantu testowanego rozkładu, $n$ - liczba punktów testowanego rozkładu, $p_i$ - prawdopodobieństwo  i-tego wariantu rozkładu teoretycznego.
- Z rozkładu chi-kwadrat wyznaczamy obszar krytyczny testu istotności $\chi^2_{\alpha}$: <br/>
$\chi^2_{\alpha} = \chi^2_{1-\alpha, k-s-1}$ <br/>
gdzie:  $\alpha$ - poziom istotności, $k$ - liczba wariantów rozkładu, $s$ - liczba nieznanych parametrów rozkładu.
- Podejmujemy decyzję weryfikującą: <br/>
$\chi^2 >= \chi^2_{\alpha}$ - Odrzucenie H0 na rzecz H1 na poziomie istotności alpha = X <br/>
$\chi^2 < \chi^2_{\alpha}$ - Wynik testu istotności nie daje podstaw do odrzucenia H0 na rzecz H1 na poziomie istotności alpha = X

Przykładowe wyniki pracy funkcji `pearsons_chi2_test()`: <br/>
<br/>
`Test chi-kwadrat Pearsona` <br/>
`H0: Testowana zmienna ma przyjęty rozkład teoretyczny` <br/>
`H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego` <br/>
`chi2 = 23.307 chi2_alpha = 18.078`<br/>
`chi2 >= chi2_alpha` <br/>
`Odrzucenie H0 na rzecz H1 na poziomie istotności alpha = 0.05` <br/>
<br/>
`Test chi-kwadrat Pearsona` <br/>
`H0: Testowana zmienna ma przyjęty rozkład teoretyczny` <br/>
`H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego` <br/>
`chi2 = 19.521 chi2_alpha = 21.129`<br/>
`chi2 < chi2_alpha` <br/>
`Wynik testu istotności nie daje podstaw do odrzucenia H0 na rzecz H1 na poziomie istotności alpha = 0.05` <br/>

#### a) Przygotowanie funkcji

In [6]:
def distribution_table(bin_counts):
    """
    Parameters
    -------
    bin_counts: array
        Macierz 2D z liczbą punków przypisanych do każdego z podobszarów.

    Returns
    -------
    table: DataFrame
        Tablica zawierająca 2 kolumny:
        - "K", która zawiera wszystkie wartości całkowite z zakresu od minimalnej do maksymalnej liczby zliczeń w obrębie podobszarów,
        - "N(K)", która zawiera liczby podobszarów, którym zostały przypisane poszczególne liczby punktów.
    """    
    # YOUR CODE HERE

    # calculating min and max of counts
    kmax = np.max(bin_counts)
    kmin = np.min(bin_counts)

    # creating result columns
    K = np.arange(kmin, kmax + 1)
    NK = np.bincount(np.ndarray.flatten(bin_counts.astype(int)))
    
    return pd.DataFrame({'K': K, 'N(K)': NK})

    # raise NotImplementedError()

def poisson_distribution_table(k, mu):
    """
    Parameters
    -------
    k: array
        Macierz 1D z wariantami badanej cechy, dla którym ma zostać wyliczone prawdopodobieństwo.
    mu: int
        Wartość oczekiwana rozkładu Poissona.

    Returns
    -------
    table: DataFrame
        Tablica zawierająca 2 kolumny:
        - "K", która zawiera warianty badanej cechy,
        - "P(K)", która zawiera wartości prawdopodobieństw rozkładu Poissona wyliczone dla wartości oczekiwanej mu
        oraz poszczególnych wariantów badanej cechy znormalizowane do sumy wartości równej 1.
    """  
    # YOUR CODE HERE

    # calculating poisson pmf
    dp = sp.stats.poisson.pmf(k,mu)
    dp /= sum(dp)

    return pd.DataFrame({'K': k, 'P(K)': dp})

    # raise NotImplementedError()

def pearsons_chi2_test(tested_distribution, theoretical_distribution, alpha, ddof):
    """
    Parameters
    -------
    tested_distribution: DataFrame
        Tablica opisująca testowany rozkład i zawierająca 2 kolumny:
        - "K", która zawiera warianty badanej cechy, wartości muszą być identycznej jak kolumna "K" zmiennej lokalnej theoretical_distribution,
        - "N(K)", która zawiera liczebności poszczególnych wariantów badanej cechy.

    theoretical_distribution: DataFrame
        Tablica opisująca rozkład teoretyczny i zawierająca 2 kolumny:
        - "K", która zawiera warianty badanej cechy, wartości muszą być identycznej jak kolumna "K" zmiennej lokalnej tested_distribution,
        - "P(K)", która zawiera prawdopodobieństwa poszczególnych wariantów badanej cechy. Wartości z tej kolumny muszą sumować się do 1.
    
    alpha: float
        Wartość z zakresu [0,1] określająca poziom istotności.
    
    ddof: int
        Liczba nieujemna określająca liczbę nieznanych parametrów rozkładu.
    """
    
    # YOUR CODE HERE

    chi2 = 0
    sum = tested_distribution["N(K)"].sum()

    # calculating chi^2
    for i in range(len(theoretical_distribution['K'])):
          chi2 += ((tested_distribution.iloc[i, 1] - sum*theoretical_distribution.iloc[i, 1])**2)/ \
          (sum*theoretical_distribution.iloc[i, 1])

    # calculating chi^2_alfa via function from scipy library
    chi2_alpha = sp.stats.chi2.ppf(1-alpha, len(theoretical_distribution['K'])-ddof-1)

    # pretty printing of the results
    print("Test chi-kwadrat Pearsona")
    print("H0: Testowana zmienna ma przyjęty rozkład teoretyczny\nH1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego")
    print("chi2 =", chi2, "lambda_alpha =", chi2_alpha)
    
    if chi2 >= chi2_alpha:
        print("chi2 >= chi2_alpha")
        print("Odrzucenie H0 na rzecz H1 na poziomie istotności alpha =",alpha)
    else:
        print("chi2 < chi2_alpha")
        print("Wynik testu istotności nie daje podstaw do odrzucenia H0 na rzecz H1 na poziomie istotności alpha =",alpha)
        
    # raise NotImplementedError()

#### b) Weryfikacja hipotezy o rozkładzie 1

In [7]:
# YOUR CODE HERE

area = 0.5**2 # surface area of our subregions (x_lim[1]/bins[0]*y_lim[1]/bins[1])
dt=distribution_table(n1)
pdt=poisson_distribution_table(dt["K"], 20 * area)
#print(pdt)
pearsons_chi2_test(dt, pdt, 0.05, 0)

#raise NotImplementedError()

Test chi-kwadrat Pearsona
H0: Testowana zmienna ma przyjęty rozkład teoretyczny
H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego
chi2 = 17.77538534909442 lambda_alpha = 22.362032494826934
chi2 < chi2_alpha
Wynik testu istotności nie daje podstaw do odrzucenia H0 na rzecz H1 na poziomie istotności alpha = 0.05


#### c) Weryfikacja hipotezy o rozkładzie 2

In [8]:
# YOUR CODE HERE

dt=distribution_table(n2)
pdt=poisson_distribution_table(dt["K"], 20 * area)
#print(pdt)
pearsons_chi2_test(dt, pdt, 0.05, 0)

#raise NotImplementedError()

Test chi-kwadrat Pearsona
H0: Testowana zmienna ma przyjęty rozkład teoretyczny
H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego
chi2 = 86.27901230036939 lambda_alpha = 22.362032494826934
chi2 >= chi2_alpha
Odrzucenie H0 na rzecz H1 na poziomie istotności alpha = 0.05


### Zadanie 2: Test Kołmogorowa - Smirnowa (20 pkt)

Przygotuj funkcję `kolmogorow_smirnow_test()`, która będzie przeprowadzać test istotności Kołmogorowa-Smirnowa i wyświetlać jego wynik zgodnie z pokazanym poniżej schematem. Następnie wykorzystaj przygotowanią funkcję do sprawdzenia, czy rozkład punktowy zaimportowany z pliku points_3.csv jest jednorodnym rozkładem Poissona. W obliczeniach przyjmij poziom istotności $\alpha=0.05$.

Algorytm postępowania:
- Formułujemy hipotezę zerową i hipotezę alternatywną H1: <br/>
H0: Testowana zmienna ma przyjęty rozkład teoretyczny <br/>
H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego
- Obliczamy wartość statystyki testowej $\lambda$: <br/>
$D = \sup_{x}(|F_t - F_0|)$ <br/>
$\lambda = D\sqrt{n}$ <br/>
gdzie: $F_t$ - dystrybuanta testowanego rozkładu,  $F_0$ - dystrybuanta rozkładu teoretycznego, $n$ - liczba punktów.
- Z rozkładu Kołomogorowa wyznaczamy obszar krytyczny testu istotności $\lambda_{\alpha}$: <br/>
$\lambda_{\alpha} = \lambda_{1-\alpha}$ <br/>
gdzie:  $\alpha$ - poziom istotności.
- Podejmujemy decyzję weryfikującą: <br/>
$\lambda >= \lambda_{\alpha}$ - Odrzucenie H0 na rzecz H1 na poziomie istotności alpha = X <br/>
$\lambda < \lambda_{\alpha}$ - Wynik testu istotności nie daje podstaw do odrzucenia H0 na rzecz H1 na poziomie istotności alpha = X

Uwaga! Test należy przeprowadzić niezależnie dla współrzędnej X i Y. Decyzja jest podejmowana na podstawie wyników obu testów.


Przykładowe wyniki pracy funkcji `kolmogorow_smirnow_test()`: <br/>
<br/>
`Test Kołmogorowa-Smirnowa dla współrzędnej X` <br/>
`H0: Testowana zmienna ma przyjęty rozkład teoretyczny` <br/>
`H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego` <br/>
`lambda = 2.036  lambda_alpha = 1.255`<br/>
`lambda >= lambda_alpha` <br/>
`Odrzucenie H0 na rzecz H1 na poziomie istotności alpha = 0.05` <br/>
<br/>
`Test Kołmogorowa-Smirnowa dla współrzędnej Y` <br/>
`H0: Testowana zmienna ma przyjęty rozkład teoretyczny` <br/>
`H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego` <br/>
`lambda = 1.136  lambda_alpha = 1.748` <br/>
`lambda < D_alpha` <br/>
`Wynik testu istotności nie daje podstaw do odrzucenia H0 na rzecz H1 na poziomie istotności alpha = 0.05`

#### a) Przygotowanie funkcji

In [9]:
def kolmogorow_smirnow_test(tested_points, theoretical_points, alpha, ddof):
    """
    Parameters
    -------
    tested_points: DataFrame
        Tablica zawierająca kolumnę ze współrzędnymi punktów testowanego rozkładu opisaną jako "X" lub "Y".

    theoretical_points: DataFrame
        Tablica zawierająca kolumnę ze współrzędnymi punktów toeretycznego rozkładu opisaną jako "X" lub "Y".
    
    alpha: float
        Wartość z zakresu [0,1] określająca poziom istotności.
    
    ddof: int
        Liczba nieujemna określająca liczbę nieznanych parametrów rozkładu.
    """
    # YOUR CODE HERE
    
    #counting value of D
    D = sp.stats.kstest(tested_points,theoretical_points)
    D = D.statistic
    
    #counting lambdas' values
    lam = D*len(tested_points)**0.5
    lam_alpha = sp.stats.kstwobign.ppf(1-alpha)
    
    #printing results
    col = tested_points.name
    print("Test Kołmogorowa-Smirnowa dla współrzędnej",col)
    print("H0: Testowana zmienna ma przyjęty rozkład teoretyczny\nH1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego")
    print("lambda =", lam, "lambda_alpha =", lam_alpha)
    
    if lam >= lam_alpha:
        print("lambda >= lambda_alpha")
        print("Odrzucenie H0 na rzecz H1 na poziomie istotności alpha =",alpha)
    else:
        print("lambda < lambda_alpha")
        print("Wynik testu istotności nie daje podstaw do odrzucenia H0 na rzecz H1 na poziomie istotności alpha =",alpha)
        
    
    
    #raise NotImplementedError()

#### b) Weryfikacja hipotezy o rozkładzie 3

In [10]:
# YOUR CODE HERE
kolmogorow_smirnow_test(points_3['X'], np.linspace(min(points_3['X']),max(points_3['X']),len(points_3['X'])), 0.05, 0)
print("\n")
kolmogorow_smirnow_test(points_3['Y'], np.linspace(min(points_3['Y']),max(points_3['Y']),len(points_3['Y'])), 0.05, 0)

#raise NotImplementedError()

Test Kołmogorowa-Smirnowa dla współrzędnej X
H0: Testowana zmienna ma przyjęty rozkład teoretyczny
H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego
lambda = 2.155744924824021 lambda_alpha = 1.3580986393225505
lambda >= lambda_alpha
Odrzucenie H0 na rzecz H1 na poziomie istotności alpha = 0.05


Test Kołmogorowa-Smirnowa dla współrzędnej Y
H0: Testowana zmienna ma przyjęty rozkład teoretyczny
H1: Testowana zmienna nie ma przyjętego rozkładu teoretycznego
lambda = 0.5706383624534173 lambda_alpha = 1.3580986393225505
lambda < lambda_alpha
Wynik testu istotności nie daje podstaw do odrzucenia H0 na rzecz H1 na poziomie istotności alpha = 0.05
