# Oneway ANOVA (單一自變數於各分群間的差異分析)

In [43]:
import numpy as np
import pandas as pd
from scipy.stats import f_oneway

In [44]:
cluster_path = './cluster-result/1714460704_som_sklearn/cluster_20.csv'
clusterData = pd.read_csv(cluster_path)
groupedClusters = clusterData.groupby('cluster')
independent_variables = list(clusterData.columns)
independent_variables.remove('id')
independent_variables.remove('cluster')
print(f"independent_variables: {independent_variables}")
p_value_threshold = 0.05

independent_variables: ['b1', 'b10', 'b2', 'b3', 'b4', 'b5', 'b6', 'b7', 'b9', 'ndbi', 'ndvi', 'ndwi']


In [45]:

def oneway_anova(groupedClusters, independent_variable):
	""" ANONVA analysis for one independent variable across all clusters"""
	groups = []
	for name, group in groupedClusters:
		groups.append(list(group[independent_variable]))
		 
	f_statistic, p_value = f_oneway(
		*groups
	)
	return f_statistic, p_value

print(f"顯著性水平為{p_value_threshold}")
for indp in independent_variables:
	f_statistic, p_value = oneway_anova(groupedClusters, indp)
	output = f"組別之間{indp}變數, f值為{f_statistic}，p值為{p_value}，"
	if p_value < p_value_threshold:
		output += "拒絕零假設，存在顯著差異。"
	else:
		output += "接受零假設，不存在顯著差異。"
	print(output)

顯著性水平為0.05
組別之間b1變數, f值為128829.36593843608，p值為0.0，拒絕零假設，存在顯著差異。
組別之間b10變數, f值為60073.25567049044，p值為0.0，拒絕零假設，存在顯著差異。
組別之間b2變數, f值為127544.15867862807，p值為0.0，拒絕零假設，存在顯著差異。
組別之間b3變數, f值為105773.20903582468，p值為0.0，拒絕零假設，存在顯著差異。
組別之間b4變數, f值為119153.83496500472，p值為0.0，拒絕零假設，存在顯著差異。
組別之間b5變數, f值為48175.7541607991，p值為0.0，拒絕零假設，存在顯著差異。
組別之間b6變數, f值為29945.808225810808，p值為0.0，拒絕零假設，存在顯著差異。
組別之間b7變數, f值為54296.627020047905，p值為0.0，拒絕零假設，存在顯著差異。
組別之間b9變數, f值為6574.200604109232，p值為0.0，拒絕零假設，存在顯著差異。
組別之間ndbi變數, f值為111205.7679296696，p值為0.0，拒絕零假設，存在顯著差異。
組別之間ndvi變數, f值為323950.51177029614，p值為0.0，拒絕零假設，存在顯著差異。
組別之間ndwi變數, f值為221116.35805952112，p值為0.0，拒絕零假設，存在顯著差異。
