# Statystyczna analiza porównawcza 
### PARAMETRÓW JAKOŚCI WODY DWÓCH BASENÓW ZALEWU WIŚLANEGO: EAST i WEST

Import potrzebnych bibliotek

In [400]:
import pandas as pd
from scipy.stats import f_oneway, kruskal, shapiro

Załadowanie danych, usunięcie pustych kolumn i dopasowanie nazw kolumn

In [401]:
east_data = pd.read_csv('./VLagun_East.csv')
west_data = pd.read_csv('./VLagun_West.csv')
east_data = east_data.dropna(axis=1, how='all')
west_data = west_data.dropna(axis=1, how='all')
east_data.columns = east_data.columns.str.replace('_E', '')
west_data.columns = west_data.columns.str.replace('_W', '')

### 1. Oblicz średnie arytmetyczne dla wszystkich zmiennych EAST i WEST

In [402]:
east_means = east_data.mean()
west_means = west_data.mean()
print('Średnie dla EAST:\n', east_means)
print('\nŚrednie dla WEST:\n', west_means)

Średnie dla EAST:
 Salinity       3.530087
O2             9.978242
Watertemp     17.181319
SS            87.982198
chla          55.123297
SRP           13.395604
DOP           22.474725
TP           168.264835
NH4N           0.030758
NO3N           0.036154
DON            0.538396
TN             1.349088
TOC           17.533224
DOC            8.031216
Windspeed      4.981319
Depth          3.171429
dtype: float64

Średnie dla WEST:
 Salinity       3.114568
O2            10.464154
Watertemp     17.586154
SS            85.474000
chla          62.054923
SRP           17.344615
DOP           22.346154
TP           177.236923
NH4N           0.027569
NO3N           0.038354
DON            0.623600
TN             1.486138
TOC           18.443195
DOC            8.451420
Windspeed      4.992308
Depth          2.816923
dtype: float64


Pytanie: wskaż zmienne, których różnice w średnich są największe.

In [403]:
mean_differences = abs(east_means - west_means)
top_mean_differences = mean_differences.sort_values(ascending=False).head(5)
print('Największe różnice w średnich\n', top_mean_differences)

Największe różnice w średnich
 TP      8.972088
chla    6.931626
SRP     3.949011
SS      2.508198
TOC     0.909971
dtype: float64


### 2. Oblicz odchylenie standardowe próby dla wszystkich zmiennych EAST i WEST

In [404]:
east_stds = east_data.std()
west_stds = west_data.std()
print('Odchylenia dla EAST:\n', east_means)
print('\nOdchylenia dla WEST:\n', west_means)

Odchylenia dla EAST:
 Salinity       3.530087
O2             9.978242
Watertemp     17.181319
SS            87.982198
chla          55.123297
SRP           13.395604
DOP           22.474725
TP           168.264835
NH4N           0.030758
NO3N           0.036154
DON            0.538396
TN             1.349088
TOC           17.533224
DOC            8.031216
Windspeed      4.981319
Depth          3.171429
dtype: float64

Odchylenia dla WEST:
 Salinity       3.114568
O2            10.464154
Watertemp     17.586154
SS            85.474000
chla          62.054923
SRP           17.344615
DOP           22.346154
TP           177.236923
NH4N           0.027569
NO3N           0.038354
DON            0.623600
TN             1.486138
TOC           18.443195
DOC            8.451420
Windspeed      4.992308
Depth          2.816923
dtype: float64


Pytanie: wskaż zmienne, których różnice w odchyleniu std. są największe.

In [405]:
std_differences = abs(east_stds - west_stds)
top_std_differences = std_differences.sort_values(ascending=False).head(5)
print('Największe różnice w odchyleniach\n', top_std_differences)

Największe różnice w odchyleniach
 SRP     6.763388
SS      5.932693
TP      3.779099
DOP     1.862870
chla    1.734608
dtype: float64


### 3. Oblicz skośność i kurtozę dla wszystkich zmiennych EAST i WEST

In [406]:
east_skewness = east_data.skew()
east_kurtosis = east_data.kurtosis()
west_skewness = west_data.skew()
west_kurtosis = west_data.kurtosis()

Pytanie: Znajdź zmienne, które nie maja rozkładu normalnego (skew > 3 i kurtrosis > 10)

In [407]:
non_normal_east = east_data.columns[(east_skewness > 3) | (east_kurtosis > 10)]
non_normal_west = west_data.columns[(west_skewness > 3) | (west_kurtosis > 10)]
print('Zmienne bez rozkładu normalnego w EAST:\n', non_normal_east.values)
print('Zmienne bez rozkładu normalnego w WEST:\n', non_normal_west.values)

Zmienne bez rozkładu normalnego w EAST:
 ['NO3N']
Zmienne bez rozkładu normalnego w WEST:
 ['NH4N']


### 4. Przeprowadź test na normalność rozkładu Shapiro-Wilka dla wszystkich zmiennych EAST i WEST

In [408]:
shapiro_east = east_data.apply(lambda x: shapiro(x)[1])
shapiro_west = west_data.apply(lambda x: shapiro(x)[1])

Sprawdź, czy ocena normalności rozkładu jest taka sama jak po obliczeniu skośności i kurtozy.

In [409]:
normal_shapiro_east = shapiro_east[shapiro_east > 0.05].index.tolist()
normal_shapiro_west = shapiro_west[shapiro_west > 0.05].index.tolist()
non_normal_shapiro_east = shapiro_east[shapiro_east <= 0.05].index.tolist()
non_normal_shapiro_west = shapiro_west[shapiro_west <= 0.05].index.tolist()
print('Zmienne bez rozkładu normalnego w EAST:\n', non_normal_shapiro_east)
print('Zmienne bez rozkładu normalnego w WEST:\n', non_normal_shapiro_west)

Zmienne bez rozkładu normalnego w EAST:
 ['Salinity', 'O2', 'Watertemp', 'SS', 'chla', 'SRP', 'DOP', 'NH4N', 'NO3N', 'DON', 'DOC', 'Depth']
Zmienne bez rozkładu normalnego w WEST:
 ['O2', 'Watertemp', 'SS', 'SRP', 'DOP', 'NH4N', 'NO3N', 'TN', 'Depth']


Dla zmiennych NO3N w EAST i NH4N w WEST jest faktycznie taka sama, ale jednak test Shapiro-Wilka znalazł dużo więcej zmiennych bez rozkładu normalnego.

### 5. Przeprowadź dla par tych samych zmiennych dla zbiorów EAST i WEST test ANOVA dla z par zmiennych o rozkładzie normalnym i test Kruskala-Wallisa dla par zmiennych, w których obie zmienne mają rozkład inny niż Gaussa, lub jedna ze zmiennych ma taki rozkład.

In [410]:
anova_results = {}
kruskal_results = {}

for column in east_data.columns:
    east_vals = east_data[column]
    west_vals = west_data[column]
    if column in normal_shapiro_east and column in normal_shapiro_west:
        anova_results[column] = f_oneway(east_vals, west_vals).pvalue
    else:
        kruskal_results[column] = kruskal(east_vals, west_vals).pvalue

anova_df = pd.DataFrame(list(anova_results.items()), columns=['column', 'p-value']).set_index('column')
kruskal_df = pd.DataFrame(list(kruskal_results.items()), columns=['column', 'p-value']).set_index('column')

print('Test ANOVA dla par zmiennych o rozkładzie normalnym:\n', anova_df)
print('\nTest Kruskala-Wallisa dla pozostałych par zmiennych:\n', kruskal_df)

Test ANOVA dla par zmiennych o rozkładzie normalnym:
             p-value
column             
TP         0.286671
TOC        0.071637
Windspeed  0.979503

Test Kruskala-Wallisa dla pozostałych par zmiennych:
             p-value
column             
Salinity   0.001037
O2         0.004538
Watertemp  0.367638
SS         0.843261
chla       0.161839
SRP        0.262780
DOP        0.798544
NH4N       0.602036
NO3N       0.716419
DON        0.001638
TN         0.019934
DOC        0.003164
Depth      0.000030
