In [12]:
import numpy as np
import pandas as pd
import rasterio
from prompt_toolkit.utils import to_str
from rasterio.enums import Resampling
import matplotlib.pyplot as plt
from PIL import Image
from catboost import CatBoostClassifier
import os
import cv2
import joblib
from sklearn.metrics import f1_score

Функция для отображения маски

In [13]:
def show_mask(mask):
    """Отображает маску с помощью matplotlib."""
    plt.figure(figsize=(10, 10))
    plt.imshow(mask, cmap='gray')
    plt.title("Предсказанная водная маска")
    plt.axis('off')
    plt.show()

Используем сглаживание по Гауссу для размытия и устранения лагов модели

In [14]:
def gaussian_smooth_mask(mask, kernel_size=(5, 5)):
    # Применяем фильтр Гаусса для размытия
    smoothed_mask = cv2.GaussianBlur(mask.astype(np.float32), kernel_size, 0)
    smoothed_mask = (smoothed_mask >= 0.95).astype(np.uint8)  # Бинаризуем после размытия
    
    return smoothed_mask

Функции для обработки изображения и создания маски при помощи индексов, расчитанных из каналов изображений

In [15]:
def create_water_mask(indices):
    # Условия для каждого индекса
    ndwi_mask = indices['NDWI'] < 1   #74
    ndmi_mask = indices['NDMI'] < 1   #50
    mndwi_mask = indices['MNDWI'] < 1   #70
    wri_mask = indices['WRI'] > 1      #70
    ndvi_mask = indices['NDVI'] > 1    #70
    awei_mask = indices['AWEI'] < 0   #62

    # Объединяем условия для создания водной маски
    water_mask = (ndwi_mask | mndwi_mask | wri_mask | ndvi_mask).astype(np.uint8)
    return water_mask

# Функции для расчета водных индексов
def calculate_indices(blue, green, red, nir, mir, swir):
    indices = {
        'NDWI': (green - nir) / (green + nir),
        'NDMI': (nir - mir) / (nir + mir),
        'MNDWI': (green - mir) / (green + mir),
        'WRI': (green + red) / (nir + mir),
        'NDVI': (nir - red) / (nir + red),
        'AWEI': 4 * (green - mir) - (0.25 * nir + 2.75 * swir)
    }
    return indices

# Функции для нормализации и увеличения яркости
def normalize(band):
    band_min, band_max = band.min(), band.max()
    return (band - band_min) / (band_max - band_min)

def brighten(band):
    alpha = 0.13
    beta = 0
    return np.clip(alpha * band + beta, 0, 255)
# Функция для преобразования изображения
def convert(im_path):
    with rasterio.open(im_path) as fin:
        red = fin.read(3)
        green = fin.read(2)
        blue = fin.read(1)

    red_b = brighten(red)
    green_b = brighten(green)
    blue_b = brighten(blue)

    red_bn = normalize(red_b)
    green_bn = normalize(green_b)
    blue_bn = normalize(blue_b)

    return np.dstack((blue_b, green_b, red_b)), np.dstack((red_bn, green_bn, blue_bn))

# Основная функция для обработки изображения Sentinel-2A и создания масок
def process_image(image_path):
    with rasterio.open(image_path) as src:
        # Считывание необходимых каналов с понижением разрешения до 20 м
        blue = src.read(1)
        green = src.read(2)
        red = src.read(3)
        nir = src.read(7)
        mir = src.read(9)
        swir = src.read(10)

        # Расчет индексов
        indices = calculate_indices(blue, green, red, nir, mir, swir)

        # Создание водной маски
        water_mask = create_water_mask(indices)
    
    return water_mask

Обработка изображения и создание маски при помощи CatBoost

In [16]:
def load_image_as_dataframe_cat(image_path):
    """Загружает TIFF-изображение и преобразует его в DataFrame с рассчитанными водными индексами."""
    with rasterio.open(image_path) as img:
        image_data = img.read()  # Чтение всех каналов изображения
        image_data = image_data.reshape(image_data.shape[0], -1).T  # Преобразуем в формат (кол-во пикселей, кол-во каналов)
    
    # Создаем DataFrame из данных изображения
    df = pd.DataFrame(image_data, columns=[f'{i}' for i in range(image_data.shape[1])])

    # Вычисляем водные индексы
    df['NDWI'] = (df['1'] - df['6']) / (df['1'] + df['6'])  # green - nir
    df['NDMI'] = (df['6'] - df['8']) / (df['6'] + df['8'])  # nir - mir
    df['MNDWI'] = (df['1'] - df['8']) / (df['1'] + df['8'])  # green - mir
    df['WRI'] = (df['1'] + df['2']) / (df['6'] + df['8'])  # green + red / nir + mir
    df['NDVI'] = (df['6'] - df['2']) / (df['6'] + df['2'])  # nir - red / nir + red
    df['AWEI'] = 4 * (df['1'] - df['8']) - (0.25 * df['6'] + 2.75 * df['9'])  # 4*(green - mir) - (0.25 * nir + 2.75 * swir)

    return df

def predict_water_pixels_cat(image_path, model):
    """Загружает изображение, предсказывает водные пиксели и возвращает бинарную матрицу."""
    df = load_image_as_dataframe_cat(image_path)
    
    # Предсказание класса "вода" или "не вода"
    y_pred = model.predict(df)
    
    # Преобразование предсказаний в исходное разрешение изображения
    with rasterio.open(image_path) as img:
        height, width = img.height, img.width
    binary_mask = y_pred.reshape((height, width)).astype(np.uint8)  # Приводим к uint8 для бинарного изображения

    return binary_mask

Создание маски и подгрузка изображения при помощи Логистической регрессис

In [17]:
def load_image_as_dataframe_log(image_path):
    """Загружает TIFF-изображение и преобразует его в DataFrame с рассчитанными водными индексами."""
    with rasterio.open(image_path) as img:
        image_data = img.read()  # Чтение всех каналов изображения
        image_data = image_data.reshape(image_data.shape[0], -1).T  # Преобразуем в формат (кол-во пикселей, кол-во каналов)
    
    # Создаем DataFrame из данных изображения
    df = pd.DataFrame(image_data, columns=[f'{i}' for i in range(image_data.shape[1])])

    # Вычисляем водные индексы
    df['NDWI'] = (df['1'] - df['6']) / (df['1'] + df['6'])  # green - nir
    df['NDMI'] = (df['6'] - df['8']) / (df['6'] + df['8'])  # nir - mir
    df['MNDWI'] = (df['1'] - df['8']) / (df['1'] + df['8'])  # green - mir
    df['WRI'] = (df['1'] + df['2']) / (df['6'] + df['8'])  # green + red / nir + mir
    df['NDVI'] = (df['6'] - df['2']) / (df['6'] + df['2'])  # nir - red / nir + red
    df['AWEI'] = 4 * (df['1'] - df['8']) - (0.25 * df['6'] + 2.75 * df['9'])  # 4*(green - mir) - (0.25 * nir + 2.75 * swir)

    return df

def predict_water_pixels_log(image_path, model):
    """Загружает изображение, предсказывает водные пиксели и возвращает бинарную матрицу."""
    df = load_image_as_dataframe_log(image_path)
    df.fillna(df.mean(), inplace=True)
    
    # Предсказание класса "вода" или "не вода"
    features = df[['NDWI', 'NDMI', 'MNDWI', 'WRI', 'NDVI', 'AWEI']]  # Используем только необходимые признаки
    y_pred = model.predict(features)
    
    # Преобразование предсказаний в исходное разрешение изображения
    with rasterio.open(image_path) as img:
        height, width = img.height, img.width
    binary_mask = y_pred.reshape((height, width)).astype(np.uint8)  # Приводим к uint8 для бинарного изображения

    binary_mask = np.where(binary_mask == 1, 0, 1).astype(np.uint8)
    
    return binary_mask

Подгрузка моделей

In [45]:
# Загрузка обученной модели CatBoost
model_path = 'catboost_model.cbm'  # Укажите путь к предварительно обученной модели
model_cat = CatBoostClassifier()
model_cat.load_model(model_path)

<catboost.core.CatBoostClassifier at 0x2967b1ef7a0>

In [46]:
# Загрузка обученной модели логистической регрессии
model_path = 'logistic_regression_model.joblib'
model_log = joblib.load(model_path)

https://scikit-learn.org/stable/model_persistence.html#security-maintainability-limitations


In [64]:
image_path = 'data/train/images/5.tif'
output_mask_path = 'zmasks/9_2.tif'

In [72]:
water_mask_index = process_image(image_path)
water_mask_cat = gaussian_smooth_mask(predict_water_pixels_cat(image_path, model_cat))
water_mask_log = predict_water_pixels_log(image_path, model_log)

In [73]:
def combine_masks(mask1, mask2, mask3):
    """Объединяет три бинарные маски в одну с помощью логического "ИЛИ"."""
    combined_mask = np.logical_or(mask1, mask2)
    combined_mask = np.logical_or(combined_mask, mask3).astype(np.uint8)
    return combined_mask

In [74]:
def combine_masks_mean(mask1, mask2, mask3, threshold=0):
    """Объединяет три бинарные маски, усредняя значения и применяя порог для бинаризации."""
    combined_mask = ((mask1 + mask2 + mask3) / 3) > threshold
    return combined_mask.astype(np.uint8)


In [75]:
def combine_masks_majority(mask1, mask2, mask3):
    """Объединяет три бинарные маски с помощью мажоритарного голосования."""
    combined_mask = ((mask1 + mask2 + mask3) >= 2).astype(np.uint8)
    return combined_mask


In [76]:
water_mask_result_1 = combine_masks(water_mask_index, water_mask_cat, water_mask_log)
water_mask_result_2 = combine_masks_mean(water_mask_index, water_mask_cat, water_mask_log)
water_mask_result_3 = combine_masks_majority(water_mask_index, water_mask_cat, water_mask_log)

In [77]:
from sklearn.metrics import f1_score

In [78]:
# Загрузка эталонной маски
with rasterio.open('data/train/masks/5.tif') as src:
    true_mask = src.read(1)

# Список масок для оценки
masks = {
    "Index-Based Mask": water_mask_index,
    "CatBoost Prediction Mask": water_mask_cat,
    "Logistic Regression Prediction Mask": water_mask_log,
    "Combined Mask (OR)": water_mask_result_1,
    "Combined Mask (Mean Threshold)": water_mask_result_2,
    "Combined Mask (Majority Vote)": water_mask_result_3
}

# Вычисление и вывод F1-метрики для каждой маски
for mask_name, mask in masks.items():
    f1 = f1_score(true_mask.flatten(), mask.flatten())
    print(f"{mask_name} - F1 Score: {f1:.4f}")


Index-Based Mask - F1 Score: 0.6981
CatBoost Prediction Mask - F1 Score: 0.6690
Logistic Regression Prediction Mask - F1 Score: 0.3413
Combined Mask (OR) - F1 Score: 0.6674
Combined Mask (Mean Threshold) - F1 Score: 0.6674
Combined Mask (Majority Vote) - F1 Score: 0.6792
