# Гипотезы и их проверка

## Вспомогательные функции
### Импорты

In [19]:
import kagglehub
import os
import cv2
import numpy as np
from typing import List
from src.features import (
    HorizontalEdgeCount,
    VerticalEdgeCount,
    CornerCount,
    GreenPixelPercentage,
    BluePixelPercentage,
    ContrastMeasure,
    TextureComplexity,
    SkyPixelRatio,
    ShadowPresence,
    SymmetryMeasure,
    SharpnessMeasure,
    AverageBrightness,
)
from scipy.stats import (
    ttest_ind,
    ks_2samp,
    mannwhitneyu,
)

### Загрузка датасета

In [20]:
# Download latest version
path = os.path.join(kagglehub.dataset_download("rahmasleam/intel-image-dataset"), "Intel Image Dataset")

print("Путь к файлам датасета:", path)

Путь к файлам датасета: C:\Users\kadoc\.cache\kagglehub\datasets\rahmasleam\intel-image-dataset\versions\1\Intel Image Dataset


### Функция загрузки изображений из директории

In [21]:
def load_images_from_folder(folder: str) -> List[np.ndarray]:
    images = []
    for filename in os.listdir(folder):
        img_path = os.path.join(folder, filename)
        img = cv2.imread(img_path)
        if img is not None:
            images.append(img)
    return images

### Объявление категорий

In [22]:
categories = ['forest', 'glacier', 'street', 'sea']

### Функция загрузки изображений всех категорий, кроме указанной

In [23]:
def load_other_categories_images(exclude_category: str) -> List[np.ndarray]:
    images = []

    for category in categories:
        if category != exclude_category:
            category_path = os.path.join(path, category)
            images.extend(load_images_from_folder(category_path))

    return images

### Функция вывода результатов проверки

In [24]:
# Significance level for p-value
ALPHA = 0.05

def print_test_results(test_results: List[tuple[str, tuple]], success_message: str, failure_message: str) -> None:
    for test_name, stat, p_value in test_results:
        print(f"{test_name}:")
        print(f"Statistic: {stat}")
        print(f"P-value: {p_value}\n")

    if all([p_value < ALPHA for _, _, p_value in test_results]):
        print(f"Гипотеза подтверждена: {success_message}")
    else:
        print(f"Гипотеза не подтверждена: {failure_message}")

## Проверка гипотез

### Гипотеза 1: Улицы имеют больше горизонтальных линий по сравнению с другими категориями.

В данной гипотезе предполагается, что изображения улиц содержат больше горизонтальных краев (например, дороги, бордюры и здания), чем изображения других категорий, таких как леса, ледники или моря.

### Способы проверки:

1. **T-тест**:
   Сравнение средних значений количества горизонтальных краев между категориями "street" и другими категориями. Если p-value < 0.05, то это будет свидетельствовать о статистически значимой разнице.

2. **KS тест (Колмогорова-Смирнова)**:
   Сравнение распределений количества горизонтальных краев между категориями. Тест проверяет, различается ли форма распределения данных.

3. **Тест Манна-Уитни U**:
   Анализ медианных значений количества горизонтальных краев для двух групп, чтобы определить различия, если данные имеют ненормальное распределение.

In [25]:
# Instantiate the feature extractor
feature_extractor = HorizontalEdgeCount()

category = "street"
street_path = os.path.join(path, category)

# Load images from directories
street_images = load_images_from_folder(street_path)
other_images = load_other_categories_images(exclude_category=category)

print(len(street_images), len(other_images))

# Calculate features for both sets of images
street_features = [feature_extractor.calculate(img) for img in street_images]
other_features = [feature_extractor.calculate(img) for img in other_images]

t_stat, p_value_ttest = ttest_ind(street_features, other_features, equal_var=False)
ks_stat, p_value_ks = ks_2samp(street_features, other_features)
u_stat, p_value_u = mannwhitneyu(street_features, other_features, alternative='two-sided')

# Collect test results
test_results = [
    ("T-тест", t_stat, p_value_ttest),
    ("KS тест", ks_stat, p_value_ks),
    ("Критерий Манна-Уитни U", u_stat, p_value_u)
]

# Print results with conclusion
print_test_results(
    test_results,
    success_message="Улицы имеют больше горизонтальных линий.",
    failure_message="Значимой разницы не обнаружено."
)

501 1537
T-тест:
Statistic: -5.536182917334385
P-value: 3.678891287487302e-08

KS тест:
Statistic: 0.2585460179186195
P-value: 1.025658259575512e-22

Критерий Манна-Уитни U:
Statistic: 320440.0
P-value: 1.645966622884843e-08

Гипотеза подтверждена: Улицы имеют больше горизонтальных линий.


### Гипотеза 2: Ледники имеют больше вертикальных линий по сравнению с другими категориями.

Предполагается, что изображения ледников будут содержать больше вертикальных краев из-за текстур льда, трещин и вертикальных элементов пейзажа, чем изображения других категорий.

### Способы проверки:

1. **T-тест**:
   Сравнение средних значений количества вертикальных краев между категориями "glacier" и другими категориями. Если p-value < 0.05, то гипотеза подтверждается.

2. **KS тест (Колмогорова-Смирнова)**:
   Сравнение распределений количества вертикальных краев для оценки различий в формах распределений данных.

3. **Тест Манна-Уитни U**:
   Проверка медианных значений количества вертикальных краев для категорий, где данные могут иметь ненормальное распределение.

In [26]:
# Instantiate the feature extractor
feature_extractor = VerticalEdgeCount()

category = "glacier"
glacier_path = os.path.join(path, category)

# Load images from directories
glacier_images = load_images_from_folder(glacier_path)
other_images = load_other_categories_images(exclude_category=category)

print(len(glacier_images), len(other_images))

# Calculate features for both sets of images
glacier_features = [feature_extractor.calculate(img) for img in glacier_images]
other_features = [feature_extractor.calculate(img) for img in other_images]

t_stat, p_value_ttest = ttest_ind(glacier_features, other_features, equal_var=False)
ks_stat, p_value_ks = ks_2samp(glacier_features, other_features)
u_stat, p_value_u = mannwhitneyu(glacier_features, other_features, alternative='two-sided')

# Collect test results
test_results = [
    ("T-тест", t_stat, p_value_ttest),
    ("KS тест", ks_stat, p_value_ks),
    ("Критерий Манна-Уитни U", u_stat, p_value_u)
]

# Print results with conclusion
print_test_results(
    test_results,
    success_message="Ледники имеют больше вертикальных линий.",
    failure_message="Значимой разницы не обнаружено."
)


553 1485
T-тест:
Statistic: -7.623930677445486
P-value: 4.7065651314369605e-14

KS тест:
Statistic: 0.2293361584500825
P-value: 4.418618330372809e-19

Критерий Манна-Уитни U:
Statistic: 323342.5
P-value: 1.501613301896674e-13

Гипотеза подтверждена: Ледники имеют больше вертикальных линий.


### Гипотеза 3: Изображения улиц содержат больше углов (corner points), чем другие категории.

Предполагается, что изображения улиц будут содержать больше угловых точек из-за сложной структуры зданий, дорожной разметки и других элементов городской среды.

### Способы проверки:

1. **T-тест**:
   Сравнение средних значений количества угловых точек между изображениями улиц и других категорий. p-value < 0.05 подтвердит гипотезу.

2. **KS тест (Колмогорова-Смирнова)**:
   Анализ различий в распределении количества угловых точек между категориями.

3. **Тест Манна-Уитни U**:
   Проверка различий в медианных значениях между категориями, чтобы оценить статистическую значимость различий.

In [27]:
# Instantiate the feature extractor
feature_extractor = CornerCount()

category = "street"
street_path = os.path.join(path, category)

# Load images from directories
street_images = load_images_from_folder(street_path)
other_images = load_other_categories_images(exclude_category=category)

print(len(street_images), len(other_images))

# Calculate features for both sets of images
street_features = [feature_extractor.calculate(img) for img in street_images]
other_features = [feature_extractor.calculate(img) for img in other_images]

t_stat, p_value_ttest = ttest_ind(street_features, other_features, equal_var=False)
ks_stat, p_value_ks = ks_2samp(street_features, other_features)
u_stat, p_value_u = mannwhitneyu(street_features, other_features, alternative='two-sided')

# Collect test results
test_results = [
    ("T-тест", t_stat, p_value_ttest),
    ("KS тест", ks_stat, p_value_ks),
    ("Критерий Манна-Уитни U", u_stat, p_value_u)
]

# Print results with conclusion
print_test_results(
    test_results,
    success_message="Улицы содержат больше углов.",
    failure_message="Значимой разницы не обнаружено."
)


501 1537
T-тест:
Statistic: -5.938097772150784
P-value: 3.5466648252177397e-09

KS тест:
Statistic: 0.1637557675799994
P-value: 2.539754721124395e-09

Критерий Манна-Уитни U:
Statistic: 377413.0
P-value: 0.5061446015555684

Гипотеза не подтверждена: Значимой разницы не обнаружено.


### Гипотеза 4: Леса содержат больше зелёных пикселей по сравнению с другими категориями.

В данной гипотезе предполагается, что изображения лесов будут иметь значительно больше пикселей зелёного цвета, что связано с наличием деревьев, травы и других природных объектов в данной категории.

### Способы проверки:

1. **T-тест**:
   Сравнение средних значений доли зелёных пикселей между изображениями категории "forest" и других категорий. Если p-value < 0.05, то гипотеза подтверждается.

2. **KS тест (Колмогорова-Смирнова)**:
   Анализ различий в распределении доли зелёных пикселей между категориями.

3. **Тест Манна-Уитни U**:
   Проверка медианных значений доли зелёных пикселей между категориями, чтобы оценить статистическую значимость различий.

In [28]:
# Instantiate the feature extractor
feature_extractor = GreenPixelPercentage()

category = "forest"
forest_path = os.path.join(path, category)

# Load images from directories
forest_images = load_images_from_folder(forest_path)
other_images = load_other_categories_images(exclude_category=category)

print(len(forest_images), len(other_images))

# Calculate features for both sets of images
forest_features = [feature_extractor.calculate(img) for img in forest_images]
other_features = [feature_extractor.calculate(img) for img in other_images]

t_stat, p_value_ttest = ttest_ind(forest_features, other_features, equal_var=False)
ks_stat, p_value_ks = ks_2samp(forest_features, other_features)
u_stat, p_value_u = mannwhitneyu(forest_features, other_features, alternative='two-sided')

# Collect test results
test_results = [
    ("T-тест", t_stat, p_value_ttest),
    ("KS тест", ks_stat, p_value_ks),
    ("Критерий Манна-Уитни U", u_stat, p_value_u)
]

# Print results with conclusion
print_test_results(
    test_results,
    success_message="Леса содержат больше зелёных пикселей.",
    failure_message="Значимой разницы не обнаружено."
)


474 1564
T-тест:
Statistic: 24.33806175133911
P-value: 1.6210098356214556e-88

KS тест:
Statistic: 0.572795601454671
P-value: 1.4868903938523597e-111

Критерий Манна-Уитни U:
Statistic: 611598.5
P-value: 2.682172015791628e-102

Гипотеза подтверждена: Леса содержат больше зелёных пикселей.


### Гипотеза 5: Моря содержат больше синих пикселей по сравнению с другими категориями.

Предполагается, что изображения морей будут иметь значительно больше синих пикселей из-за воды и отражения неба, которые являются ключевыми элементами морских пейзажей.

### Способы проверки:

1. **T-тест**:
   Сравнение средних значений доли синих пикселей между изображениями категории "sea" и других категорий. p-value < 0.05 подтвердит гипотезу.

2. **KS тест (Колмогорова-Смирнова)**:
   Сравнение распределений доли синих пикселей между категориями.

3. **Тест Манна-Уитни U**:
   Проверка различий в медианных значениях доли синих пикселей между категориями.

In [29]:
# Instantiate the feature extractor
feature_extractor = BluePixelPercentage()

category = "sea"
sea_path = os.path.join(path, category)

# Load images from directories
sea_images = load_images_from_folder(sea_path)
other_images = load_other_categories_images(exclude_category=category)

print(len(sea_images), len(other_images))

# Calculate features for both sets of images
sea_features = [feature_extractor.calculate(img) for img in sea_images]
other_features = [feature_extractor.calculate(img) for img in other_images]

t_stat, p_value_ttest = ttest_ind(sea_features, other_features, equal_var=False)
ks_stat, p_value_ks = ks_2samp(sea_features, other_features)
u_stat, p_value_u = mannwhitneyu(sea_features, other_features, alternative='two-sided')

# Collect test results
test_results = [
    ("T-тест", t_stat, p_value_ttest),
    ("KS тест", ks_stat, p_value_ks),
    ("Критерий Манна-Уитни U", u_stat, p_value_u)
]

# Print results with conclusion
print_test_results(
    test_results,
    success_message="Моря содержат больше синих пикселей.",
    failure_message="Значимой разницы не обнаружено."
)


510 1528
T-тест:
Statistic: 1.1211738733521273
P-value: 0.26250286752501034

KS тест:
Statistic: 0.09975618519659173
P-value: 0.0009062921883123432

Критерий Манна-Уитни U:
Statistic: 415259.5
P-value: 0.025898217622063464

Гипотеза не подтверждена: Значимой разницы не обнаружено.


### Гипотеза 6: Ледники имеют более высокий контраст по сравнению с другими категориями.

Предполагается, что изображения ледников будут иметь более высокий уровень контраста из-за ярких белых областей снега и тёмных теней, создаваемых текстурой льда и окружающим ландшафтом.

### Способы проверки:

1. **T-тест**:
   Сравнение средних значений уровня контраста между изображениями категории "glacier" и других категорий. p-value < 0.05 подтверждает гипотезу.

2. **KS тест (Колмогорова-Смирнова)**:
   Анализ различий в распределении уровня контраста между категориями.

3. **Тест Манна-Уитни U**:
   Проверка медианных значений уровня контраста для категорий, чтобы выявить статистически значимые различия.

In [30]:
# Instantiate the feature extractor
feature_extractor = ContrastMeasure()

category = "glacier"
glacier_path = os.path.join(path, category)

# Load images from directories
glacier_images = load_images_from_folder(glacier_path)
other_images = load_other_categories_images(exclude_category=category)

print(len(glacier_images), len(other_images))

# Calculate features for both sets of images
glacier_features = [feature_extractor.calculate(img) for img in glacier_images]
other_features = [feature_extractor.calculate(img) for img in other_images]

t_stat, p_value_ttest = ttest_ind(glacier_features, other_features, equal_var=False)
ks_stat, p_value_ks = ks_2samp(glacier_features, other_features)
u_stat, p_value_u = mannwhitneyu(glacier_features, other_features, alternative='two-sided')

# Collect test results
test_results = [
    ("T-тест", t_stat, p_value_ttest),
    ("KS тест", ks_stat, p_value_ks),
    ("Критерий Манна-Уитни U", u_stat, p_value_u)
]

# Print results with conclusion
print_test_results(
    test_results,
    success_message="Ледники имеют более высокий контраст.",
    failure_message="Значимой разницы не обнаружено."
)


553 1485
T-тест:
Statistic: -13.990960367010493
P-value: 3.1520472056294343e-42

KS тест:
Statistic: 0.2924555987847127
P-value: 6.385535273860686e-31

Критерий Манна-Уитни U:
Statistic: 278524.0
P-value: 5.042885232479557e-29

Гипотеза подтверждена: Ледники имеют более высокий контраст.


### Гипотеза 7: Изображения улиц имеют более сложную текстуру по сравнению с другими категориями.

Предполагается, что изображения улиц характеризуются более высокой сложностью текстуры из-за присутствия множества различных объектов, таких как здания, дороги и автомобили, создающих разнообразные текстурные элементы.

### Способы проверки:

1. **T-тест**:
   Сравнение средних значений сложности текстуры между изображениями категории "street" и других категорий. Если p-value < 0.05, гипотеза подтверждается.

2. **KS тест (Колмогорова-Смирнова)**:
   Проверка различий в распределении значений сложности текстуры между категориями.

3. **Тест Манна-Уитни U**:
   Анализ различий в медианных значениях сложности текстуры между категориями.

In [31]:
# Instantiate the feature extractor
feature_extractor = TextureComplexity()

category = "street"
street_path = os.path.join(path, category)

# Load images from directories
street_images = load_images_from_folder(street_path)
other_images = load_other_categories_images(exclude_category=category)

print(len(street_images), len(other_images))

# Calculate features for both sets of images
street_features = [feature_extractor.calculate(img) for img in street_images]
other_features = [feature_extractor.calculate(img) for img in other_images]

t_stat, p_value_ttest = ttest_ind(street_features, other_features, equal_var=False)
ks_stat, p_value_ks = ks_2samp(street_features, other_features)
u_stat, p_value_u = mannwhitneyu(street_features, other_features, alternative='two-sided')

# Collect test results
test_results = [
    ("T-тест", t_stat, p_value_ttest),
    ("KS тест", ks_stat, p_value_ks),
    ("Критерий Манна-Уитни U", u_stat, p_value_u)
]

# Print results with conclusion
print_test_results(
    test_results,
    success_message="Улицы имеют более сложную текстуру.",
    failure_message="Значимой разницы не обнаружено."
)


501 1537
T-тест:
Statistic: 0.7054777037397897
P-value: 0.48062661242928806

KS тест:
Statistic: 0.21052365016226493
P-value: 3.726031893547964e-15

Критерий Манна-Уитни U:
Statistic: 386149.5
P-value: 0.9212717963343034

Гипотеза не подтверждена: Значимой разницы не обнаружено.


### Гипотеза 8: Моря содержат большее соотношение пикселей, относящихся к небу, по сравнению с другими категориями.

Предполагается, что изображения категории "sea" содержат больше пикселей, относящихся к небу, из-за открытого горизонта и отражения неба в воде.

### Способы проверки:

1. **T-тест**:
   Сравнение средних значений отношения пикселей неба между изображениями категории "sea" и других категорий. p-value < 0.05 подтверждает гипотезу.

2. **KS тест (Колмогорова-Смирнова)**:
   Проверка распределений соотношения пикселей неба между категориями.

3. **Тест Манна-Уитни U**:
   Анализ различий медианных значений соотношения пикселей неба между категориями.


In [32]:
# Instantiate the feature extractor
feature_extractor = SkyPixelRatio()

category = "sea"
sea_path = os.path.join(path, category)

# Load images from directories
sea_images = load_images_from_folder(sea_path)
other_images = load_other_categories_images(exclude_category=category)

print(len(sea_images), len(other_images))

# Calculate features for both sets of images
sea_features = [feature_extractor.calculate(img) for img in sea_images]
other_features = [feature_extractor.calculate(img) for img in other_images]

t_stat, p_value_ttest = ttest_ind(sea_features, other_features, equal_var=False)
ks_stat, p_value_ks = ks_2samp(sea_features, other_features)
u_stat, p_value_u = mannwhitneyu(sea_features, other_features, alternative='two-sided')

# Collect test results
test_results = [
    ("T-тест", t_stat, p_value_ttest),
    ("KS тест", ks_stat, p_value_ks),
    ("Критерий Манна-Уитни U", u_stat, p_value_u)
]

# Print results with conclusion
print_test_results(
    test_results,
    success_message="Моря содержат большее соотношение пикселей неба.",
    failure_message="Значимой разницы не обнаружено."
)


510 1528
T-тест:
Statistic: -0.4165409085755174
P-value: 0.6771190223957982

KS тест:
Statistic: 0.09969458987783596
P-value: 0.0009095121167548601

Критерий Манна-Уитни U:
Statistic: 357051.0
P-value: 0.004548822876826889

Гипотеза не подтверждена: Значимой разницы не обнаружено.


### Гипотеза 9: Ледники чаще содержат тени по сравнению с другими категориями.

Предполагается, что изображения категории "glacier" имеют большее присутствие теней, что связано с рельефной текстурой льда и снегом, создающим контрастные области.

### Способы проверки:

1. **T-тест**:
   Сравнение средних значений присутствия теней между изображениями категории "glacier" и других категорий. Если p-value < 0.05, гипотеза подтверждается.

2. **KS тест (Колмогорова-Смирнова)**:
   Проверка распределений значений присутствия теней между категориями.

3. **Тест Манна-Уитни U**:
   Анализ различий медианных значений присутствия теней между категориями.

In [33]:
# Instantiate the feature extractor
feature_extractor = ShadowPresence()

category = "glacier"
glacier_path = os.path.join(path, category)

# Load images from directories
glacier_images = load_images_from_folder(glacier_path)
other_images = load_other_categories_images(exclude_category=category)

print(len(glacier_images), len(other_images))

# Calculate features for both sets of images
glacier_features = [feature_extractor.calculate(img) for img in glacier_images]
other_features = [feature_extractor.calculate(img) for img in other_images]

t_stat, p_value_ttest = ttest_ind(glacier_features, other_features, equal_var=False)
ks_stat, p_value_ks = ks_2samp(glacier_features, other_features)
u_stat, p_value_u = mannwhitneyu(glacier_features, other_features, alternative='two-sided')

# Collect test results
test_results = [
    ("T-тест", t_stat, p_value_ttest),
    ("KS тест", ks_stat, p_value_ks),
    ("Критерий Манна-Уитни U", u_stat, p_value_u)
]

# Print results with conclusion
print_test_results(
    test_results,
    success_message="Ледники чаще содержат тени.",
    failure_message="Значимой разницы не обнаружено."
)


553 1485
T-тест:
Statistic: -17.46551188943875
P-value: 1.2931213830769387e-62

KS тест:
Statistic: 0.30897400770818495
P-value: 1.6037901870089859e-34

Критерий Манна-Уитни U:
Statistic: 239538.0
P-value: 1.5849262782772908e-47

Гипотеза подтверждена: Ледники чаще содержат тени.


### Гипотеза 10: Леса характеризуются более высокой симметрией по сравнению с другими категориями.

Предполагается, что изображения категории "forest" имеют более высокую симметрию из-за структур деревьев и общего распределения объектов в природе.

### Способы проверки:

1. **T-тест**:
   Сравнение средних значений меры симметрии между изображениями категории "forest" и других категорий. Если p-value < 0.05, гипотеза подтверждается.

2. **KS тест (Колмогорова-Смирнова)**:
   Проверка различий в распределении меры симметрии между категориями.

3. **Тест Манна-Уитни U**:
   Анализ различий медианных значений меры симметрии между категориями.


In [34]:
# Instantiate the feature extractor
feature_extractor = SymmetryMeasure()

category = "forest"
forest_path = os.path.join(path, category)

# Load images from directories
forest_images = load_images_from_folder(forest_path)
other_images = load_other_categories_images(exclude_category=category)

print(len(forest_images), len(other_images))

# Calculate features for both sets of images
forest_features = [feature_extractor.calculate(img) for img in forest_images]
other_features = [feature_extractor.calculate(img) for img in other_images]

t_stat, p_value_ttest = ttest_ind(forest_features, other_features, equal_var=False)
ks_stat, p_value_ks = ks_2samp(forest_features, other_features)
u_stat, p_value_u = mannwhitneyu(forest_features, other_features, alternative='two-sided')

# Collect test results
test_results = [
    ("T-тест", t_stat, p_value_ttest),
    ("KS тест", ks_stat, p_value_ks),
    ("Критерий Манна-Уитни U", u_stat, p_value_u)
]

# Print results with conclusion
print_test_results(
    test_results,
    success_message="Леса характеризуются более высокой симметрией.",
    failure_message="Значимой разницы не обнаружено."
)


474 1564
T-тест:
Statistic: -16.18171082533654
P-value: 5.2034930221251085e-49

KS тест:
Statistic: 0.5449701619778347
P-value: 2.812937505355035e-100

Критерий Манна-Уитни U:
Statistic: 117518.0
P-value: 1.1871953637884321e-112

Гипотеза подтверждена: Леса характеризуются более высокой симметрией.


### Гипотеза 11: Улицы имеют более высокую резкость по сравнению с другими категориями.

Предполагается, что изображения категории "street" характеризуются более высокой резкостью из-за наличия деталей, таких как здания, дороги и другие элементы городской среды.

### Способы проверки:

1. **T-тест**:
   Сравнение средних значений меры резкости между изображениями категории "street" и других категорий. Если p-value < 0.05, гипотеза подтверждается.

2. **KS тест (Колмогорова-Смирнова)**:
   Проверка различий в распределении меры резкости между категориями.

3. **Тест Манна-Уитни U**:
   Анализ различий медианных значений меры резкости между категориями.

In [35]:
# Instantiate the feature extractor
feature_extractor = SharpnessMeasure()

category = "street"
street_path = os.path.join(path, category)

# Load images from directories
street_images = load_images_from_folder(street_path)
other_images = load_other_categories_images(exclude_category=category)

print(len(street_images), len(other_images))

# Calculate features for both sets of images
street_features = [feature_extractor.calculate(img) for img in street_images]
other_features = [feature_extractor.calculate(img) for img in other_images]

t_stat, p_value_ttest = ttest_ind(street_features, other_features, equal_var=False)
ks_stat, p_value_ks = ks_2samp(street_features, other_features)
u_stat, p_value_u = mannwhitneyu(street_features, other_features, alternative='two-sided')

# Collect test results
test_results = [
    ("T-тест", t_stat, p_value_ttest),
    ("KS тест", ks_stat, p_value_ks),
    ("Критерий Манна-Уитни U", u_stat, p_value_u)
]

# Print results with conclusion
print_test_results(
    test_results,
    success_message="Улицы имеют более высокую резкость.",
    failure_message="Значимой разницы не обнаружено."
)


501 1537
T-тест:
Statistic: 2.4676286401229155
P-value: 0.013726133753605981

KS тест:
Statistic: 0.24363764338596716
P-value: 3.392692186955469e-20

Критерий Манна-Уитни U:
Statistic: 454814.0
P-value: 1.0494922205275562e-09

Гипотеза подтверждена: Улицы имеют более высокую резкость.


### Гипотеза 12: Моря имеют более высокую среднюю яркость по сравнению с другими категориями.

Предполагается, что изображения категории "sea" характеризуются более высокой средней яркостью из-за отражения солнечного света от воды и ясного неба.

### Способы проверки:

1. **T-тест**:
   Сравнение средних значений средней яркости между изображениями категории "sea" и других категорий. Если p-value < 0.05, гипотеза подтверждается.

2. **KS тест (Колмогорова-Смирнова)**:
   Проверка различий в распределении средней яркости между категориями.

3. **Тест Манна-Уитни U**:
   Анализ различий медианных значений средней яркости между категориями.

In [36]:
# Instantiate the feature extractor
feature_extractor = AverageBrightness()

category = "sea"
sea_path = os.path.join(path, category)

# Load images from directories
sea_images = load_images_from_folder(sea_path)
other_images = load_other_categories_images(exclude_category=category)

print(len(sea_images), len(other_images))

# Calculate features for both sets of images
sea_features = [feature_extractor.calculate(img) for img in sea_images]
other_features = [feature_extractor.calculate(img) for img in other_images]

t_stat, p_value_ttest = ttest_ind(sea_features, other_features, equal_var=False)
ks_stat, p_value_ks = ks_2samp(sea_features, other_features)
u_stat, p_value_u = mannwhitneyu(sea_features, other_features, alternative='two-sided')

# Collect test results
test_results = [
    ("T-тест", t_stat, p_value_ttest),
    ("KS тест", ks_stat, p_value_ks),
    ("Критерий Манна-Уитни U", u_stat, p_value_u)
]

# Print results with conclusion
print_test_results(
    test_results,
    success_message="Моря имеют более высокую среднюю яркость.",
    failure_message="Значимой разницы не обнаружено."
)


510 1528
T-тест:
Statistic: 10.656069550845766
P-value: 4.0483503793015046e-25

KS тест:
Statistic: 0.24509290627245664
P-value: 1.2037032921094994e-20

Критерий Манна-Уитни U:
Statistic: 506783.0
P-value: 2.4344668721364218e-24

Гипотеза подтверждена: Моря имеют более высокую среднюю яркость.


## Выводы

### Подтвержденные гипотезы:
- **Гипотеза 1**: Изображения улицы имеют больше горизонтальных линий.
- **Гипотеза 2**: Изображения ледников имеют больше вертикальных линий.
- **Гипотеза 4**: Изображения леса содержат больше зелёных пикселей.
- **Гипотеза 6**: Изображения ледников имеют более высокий контраст.
- **Гипотеза 9**: Ледники чаще содержат тени.
- **Гипотеза 10**: Леса характеризуются более высокой симметрией.
- **Гипотеза 11**: Улицы имеют более высокую резкость.
- **Гипотеза 12**: Моря имеют более высокую среднюю яркость.

### Опровергнутые гипотезы:
- **Гипотеза 3**: Изображения улиц содержат больше углов (corner points), чем другие категории. (Значимой разницы не обнаружено.)
- **Гипотеза 5**: Изображения моря содержат больше синих пикселей по сравнению с другими категориями. (Значимой разницы не обнаружено.)
- **Гипотеза 7**: Изображения улиц имеют более сложную текстуру по сравнению с другими категориями. (Значимой разницы не обнаружено.)
- **Гипотеза 8**: Изображения моря содержат большее соотношение пикселей, относящихся к небу, по сравнению с другими категориями. (Значимой разницы не обнаружено.)