## Programmcode zur Masterthesis "Einsatz von Transfer Learning bei der Verarbeitung multispektraler Fernerkundungsdaten mit Deep Learning"
### Notebook zur Vorbereitung der Daten
Auszuführen mit conda-Environment "preprocess_data"

#### Importe

In [1]:
import rasterio
from rasterio.windows import Window
from patchify import patchify
import tifffile
import os
import splitfolders
import numpy as np

#### Aufteilen der Luftbilder in 224 * 224 Patches

In [2]:
patch_size = 224

img_dir ='../data/Potsdam/RGBIR_DOP'

img_list = os.listdir(img_dir)

image_dataset = []

if os.path.exists(f"../data/Potsdam/{patch_size}_patches") is False:
    os.mkdir(f"../data/Potsdam/{patch_size}_patches")

if os.path.exists(f"../data/Potsdam/{patch_size}_patches/images") is False:
    os.mkdir(f"../data/Potsdam/{patch_size}_patches/images")

for f in img_list:
    # .tif abschneiden
    f_name = f.split('.')[-2]

    print(f_name)

    with rasterio.open(os.path.join(img_dir, f)) as x:
        # Bestimmen der maximalen teilbaren Pixelanzahl
        SIZE_X = (x.shape[1]//patch_size)*patch_size
        SIZE_Y = (x.shape[0]//patch_size)*patch_size

        # Einlesen des teilbaren Fensters
        xx = x.read(window=Window(0, 0, SIZE_Y, SIZE_X))

        # Aufteilen des RGBIR-Bildes in 224er patches, keine Überschneidung der patches
        patches_xx = patchify(xx, (4, patch_size, patch_size), step=patch_size)

        # Dimension erzeugt durch patchify wird fallengelassen
        patches_xx = patches_xx[0]

        # Iterieren durch patchify-Liste
        for i in range(patches_xx.shape[0]):
            for j in range(patches_xx.shape[1]):
                single_patch_img = patches_xx[i,j,:,:,:]
                tifffile.imsave(f"../data/Potsdam/{patch_size}_patches/images/{f_name}_patch_{i}_{j}.tif", single_patch_img)
                image_dataset.append(single_patch_img)
                print("image: ", len(image_dataset), " von ", str((x.shape[0]//patch_size) * (x.shape[0]//patch_size) * len(img_list)))

top_potsdam_2_10_RGBIR


  dataset = DatasetReader(path, driver=driver, sharing=sharing, **kwargs)
  tifffile.imsave(f"../data/Potsdam/{patch_size}_patches/images/{f_name}_patch_{i}_{j}.tif", single_patch_img)


image:  1  von  16224
image:  2  von  16224
image:  3  von  16224
image:  4  von  16224
image:  5  von  16224
image:  6  von  16224
image:  7  von  16224
image:  8  von  16224
image:  9  von  16224
image:  10  von  16224
image:  11  von  16224
image:  12  von  16224
image:  13  von  16224
image:  14  von  16224
image:  15  von  16224
image:  16  von  16224
image:  17  von  16224
image:  18  von  16224
image:  19  von  16224
image:  20  von  16224
image:  21  von  16224
image:  22  von  16224
image:  23  von  16224
image:  24  von  16224
image:  25  von  16224
image:  26  von  16224
image:  27  von  16224
image:  28  von  16224
image:  29  von  16224
image:  30  von  16224
image:  31  von  16224
image:  32  von  16224
image:  33  von  16224
image:  34  von  16224
image:  35  von  16224
image:  36  von  16224
image:  37  von  16224
image:  38  von  16224
image:  39  von  16224
image:  40  von  16224
image:  41  von  16224
image:  42  von  16224
image:  43  von  16224
image:  44  von  162

#### Aufteilen der Labels in 224 * 224 Patches

In [3]:
mask_dir = '../data/Potsdam/BinaryLabels'
mask_list = os.listdir(mask_dir)

mask_dataset = []

if os.path.exists(f"../data/Potsdam/{patch_size}_patches/masks") is False:
    os.makedirs(f"../data/Potsdam/{patch_size}_patches/masks")

for f in mask_list:
    # Entferne Dateiendung .tif
    f_name = f.split('.')[-2]

    print(f_name)

    with rasterio.open(os.path.join(mask_dir, f)) as x:
        # Bestimmen der maximalen teilbaren Pixelanzahl
        print(x.shape)

        SIZE_X = (x.shape[1]//patch_size)*patch_size
        SIZE_Y = (x.shape[0]//patch_size)*patch_size

        # Einlesen des teilbaren Fensters
        xx = x.read(window=Window(0, 0, SIZE_Y, SIZE_X))

        # Aufteilen des RGBI-Bildes in 256er patches, keine Überschneidung der patches
        patches_xx = patchify(xx, (1, patch_size, patch_size), step=patch_size)

        # Dimension erzeugt durch patchify wird fallengelassen
        patches_xx = patches_xx[0]

        # Iterieren durch patchify-Liste
        for i in range(patches_xx.shape[0]):
            for j in range(patches_xx.shape[1]):
                single_patch_img = patches_xx[i,j,:,:,:]
                tifffile.imsave(f"../data/Potsdam/{patch_size}_patches/masks/{f_name}_patch_{i}_{j}.tif", single_patch_img)
                mask_dataset.append(single_patch_img)
                print("mask: ",len(mask_dataset), " von ", str((x.shape[1]//patch_size) * (x.shape[0]//patch_size) * len(mask_list)))

top_potsdam_2_10_label
(6000, 6000)


  tifffile.imsave(f"../data/Potsdam/{patch_size}_patches/masks/{f_name}_patch_{i}_{j}.tif", single_patch_img)


mask:  1  von  16224
mask:  2  von  16224
mask:  3  von  16224
mask:  4  von  16224
mask:  5  von  16224
mask:  6  von  16224
mask:  7  von  16224
mask:  8  von  16224
mask:  9  von  16224
mask:  10  von  16224
mask:  11  von  16224
mask:  12  von  16224
mask:  13  von  16224
mask:  14  von  16224
mask:  15  von  16224
mask:  16  von  16224
mask:  17  von  16224
mask:  18  von  16224
mask:  19  von  16224
mask:  20  von  16224
mask:  21  von  16224
mask:  22  von  16224
mask:  23  von  16224
mask:  24  von  16224
mask:  25  von  16224
mask:  26  von  16224
mask:  27  von  16224
mask:  28  von  16224
mask:  29  von  16224
mask:  30  von  16224
mask:  31  von  16224
mask:  32  von  16224
mask:  33  von  16224
mask:  34  von  16224
mask:  35  von  16224
mask:  36  von  16224
mask:  37  von  16224
mask:  38  von  16224
mask:  39  von  16224
mask:  40  von  16224
mask:  41  von  16224
mask:  42  von  16224
mask:  43  von  16224
mask:  44  von  16224
mask:  45  von  16224
mask:  46  von  162

#### Aussortieren der Bilder mit geringem Straßenanteil

In [4]:
train_img_dir = f"../data/Potsdam/{patch_size}_patches/images/"
train_mask_dir = f"../data/Potsdam/{patch_size}_patches/masks/"

img_list = os.listdir(train_img_dir)
msk_list = os.listdir(train_mask_dir)

if os.path.exists(f"../data/Potsdam/{patch_size}_patches/images_with_useful_info") is False:
    os.mkdir(f"../data/Potsdam/{patch_size}_patches/images_with_useful_info")

if os.path.exists(f"../data/Potsdam/{patch_size}_patches/images_with_useful_info/images") is False:
    os.mkdir(f"../data/Potsdam/{patch_size}_patches/images_with_useful_info/images")
    os.mkdir(f"../data/Potsdam/{patch_size}_patches/images_with_useful_info/masks")

useless = 0
other_files = 0

for img in range(len(img_list)):

    img_name=img_list[img]
    mask_name = msk_list[img]

    print("Bild und Maske: ", img)

    # aux-Dateien können sich einschleichen, deshalb prüfen ob TIF
    if img_list[img].endswith(".tif") and msk_list[img].endswith(".tif"):  

        temp_image = rasterio.open(train_img_dir+img_list[img])
        temp_image = temp_image.read()
    
        temp_mask = rasterio.open(train_mask_dir+msk_list[img])
        temp_mask = temp_mask.read()[0]
      
        # Ausgabe der Werte [0; 1] und ihrer Anzahl innerhalb der Maske
        val, counts = np.unique(temp_mask, return_counts=True)
        
        # Prüfen ob > 5% der Pixel Straßenlabel tragen
        if (1 - (counts[0]/counts.sum())) > 0.05:
            print("Speichern")
            tifffile.imsave(f"../data/Potsdam/{patch_size}_patches/images_with_useful_info/images/{img_name}", temp_image)
            tifffile.imsave(f"../data/Potsdam/{patch_size}_patches/images_with_useful_info/masks/{mask_name}", temp_mask)
            
        else:
            print("Verwerfen")   
            useless +=1

    else:
        print("Keine TIF-Datei")
        other_files +=1

    print("Nützliche Bilder: ", len(img_list)-useless)  #20,075
    print("Nicht nützliche Bilder: ", useless) #21,571
    print("Andere Dateien übersprungen: ", other_files)

Bild und Maske:  0
Speichern
Nützliche Bilder:  16224
Nicht nützliche Bilder:  0
Andere Dateien übersprungen:  0
Bild und Maske:  1
Speichern
Nützliche Bilder:  16224
Nicht nützliche Bilder:  0
Andere Dateien übersprungen:  0
Bild und Maske:  2
Speichern
Nützliche Bilder:  16224
Nicht nützliche Bilder:  0
Andere Dateien übersprungen:  0
Bild und Maske:  3
Speichern
Nützliche Bilder:  16224
Nicht nützliche Bilder:  0
Andere Dateien übersprungen:  0
Bild und Maske:  4


  tifffile.imsave(f"../data/Potsdam/{patch_size}_patches/images_with_useful_info/images/{img_name}", temp_image)
  tifffile.imsave(f"../data/Potsdam/{patch_size}_patches/images_with_useful_info/masks/{mask_name}", temp_mask)


Speichern
Nützliche Bilder:  16224
Nicht nützliche Bilder:  0
Andere Dateien übersprungen:  0
Bild und Maske:  5
Speichern
Nützliche Bilder:  16224
Nicht nützliche Bilder:  0
Andere Dateien übersprungen:  0
Bild und Maske:  6
Speichern
Nützliche Bilder:  16224
Nicht nützliche Bilder:  0
Andere Dateien übersprungen:  0
Bild und Maske:  7
Speichern
Nützliche Bilder:  16224
Nicht nützliche Bilder:  0
Andere Dateien übersprungen:  0
Bild und Maske:  8
Verwerfen
Nützliche Bilder:  16223
Nicht nützliche Bilder:  1
Andere Dateien übersprungen:  0
Bild und Maske:  9
Verwerfen
Nützliche Bilder:  16222
Nicht nützliche Bilder:  2
Andere Dateien übersprungen:  0
Bild und Maske:  10
Verwerfen
Nützliche Bilder:  16221
Nicht nützliche Bilder:  3
Andere Dateien übersprungen:  0
Bild und Maske:  11
Verwerfen
Nützliche Bilder:  16220
Nicht nützliche Bilder:  4
Andere Dateien übersprungen:  0
Bild und Maske:  12
Verwerfen
Nützliche Bilder:  16219
Nicht nützliche Bilder:  5
Andere Dateien übersprungen:  0

#### Aufteilen der oben sortierten nützlichen Bilder in 60% Training und 20% Validation und Test

In [5]:
train_size = 0.6
val_size = (1.0 - train_size) / 2.0

# Aufteilen der nützlichen Daten in Training, Validation und Testing
input_folder = f"../data/Potsdam/{patch_size}_patches/images_with_useful_info"
output_folder = f"../data/Potsdam/{patch_size}_patches/split_folders{train_size}/"

if os.path.exists(output_folder) is False:
    os.mkdir(output_folder)

# Zufällige Aufteilung der Patches im Verhältnis 60%, 20%, 20%
splitfolders.ratio(input_folder, output=output_folder, seed=42, ratio=(train_size, val_size, val_size), group_prefix=None)