In [1]:
import cv2 as cv
import numpy as np
import shutil
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import random
import os

indstillinger

In [2]:
full_set_plader = "Data/KD hele plader"
train_set_plader = "Data/KD train plader"
test_set_plader = "Data/KD Test plader"
train_set_tiles = "Data/KD train tiles" 

train_set_tiles_mixed = train_set_tiles + "/blandet"

test_size=0.2

crop_percentage = 0.01
circle_size = 0.2

n_clusters=7

Laver test split af hele plader

In [3]:
def copy_files(files, destination):
    for f in files:
        shutil.copy(os.path.join(full_set_plader, f), os.path.join(destination, f))

In [4]:
# Sikre, at destinationsmapperne eksisterer
os.makedirs(train_set_plader, exist_ok=True)
os.makedirs(test_set_plader, exist_ok=True)

# Hent alle filnavne fra data-mappen
all_files = [f for f in os.listdir(full_set_plader) if os.path.isfile(os.path.join(full_set_plader, f))]

# Bland listen i state 42 og lav et tilfældigt split
random.Random(42).shuffle(all_files)
split_point = int((1 - test_size) * len(all_files))

# Fordel filerne i train og test mapper
train_files = all_files[:split_point]
test_files = all_files[split_point:]

# Kopier filerne
copy_files(train_files, train_set_plader)
copy_files(test_files, test_set_plader)

Laver tile split

In [5]:
def get_tiles(image):
    # laver en tom liste 
    tiles = []
    # kører et for loop hvor elementer vil blive tilføjet til listen, hvor y repræsenterer en række af billedet
    for y in range(5):
        tiles.append([])
    # kører et nested loop, hvor billedet bliver delt op i en tavel med 25 kvadrater af 100,100 px og tilføjer til listen tiles
        for x in range(5):
            tiles[-1].append(image[y*100:(y+1)*100, x*100:(x+1)*100])
    return tiles

In [6]:
def zoom_tile(tile):
    height, width = tile.shape[:2]
    
    # Beregner hvor meget der skal beskæres fra hver side
    crop_height = int(height * crop_percentage)
    crop_width = int(width * crop_percentage)
    
    # Opdaterer udsnittets start- og slutpunkter for at fjerne de yderste 5%
    cropped_tile = tile[crop_height:height-crop_height, crop_width:width-crop_width]
    
    return cropped_tile

In [7]:
def remove_circle_from_tile(tile):
    if tile.shape[2] == 3:
        tile = cv.cvtColor(tile, cv.COLOR_BGR2BGRA)
    
    height, width = tile.shape[:2]
    diameter = int(circle_size * min(width, height))
    
    center = (width // 2, height // 2)
    
    mask = np.zeros((height, width), dtype=np.uint8)
    cv.circle(mask, center, diameter // 2, (255), -1)
    
    tile[mask == 255, 3] = 0

    return tile

In [8]:
all_tiles = []

for filename in os.listdir(train_set_plader):
    image_path = os.path.join(train_set_plader, filename)

    if not os.path.isfile(image_path):
        print(f"Image not found: {image_path}")
        continue
    
    image = cv.imread(image_path)
    tiles = get_tiles(image)
    
    for y, row in enumerate(tiles):
        for x, tile in enumerate(row):
            tile = zoom_tile(tile)
            new_tile = remove_circle_from_tile(tile)
            all_tiles.append(new_tile)

In [9]:
from skimage.feature import local_binary_pattern
import numpy as np

# Parametre for LBP
P = 8  # Antal cirkulære naboer
R = 1  # Radius

def calculate_lbp(image):
    # Konverter billedet til gråtoner
    gray_image = cv.cvtColor(image, cv.COLOR_BGR2GRAY)
    
    # Anvend LBP
    # P er antallet af cirkulære naboer (typisk 8)
    # R er radius (typisk 1)
    P, R = 8, 1
    lbp_image = local_binary_pattern(gray_image, P, R, method="uniform")
    
    # Beregn et histogram af LBP værdier; +2 fordi vi har P*(P-1) + 3 uniforme mønstre
    # 'n_bins' skal være lig antallet af mulige mønstre; for P=8, 256 mulige mønstre
    # Normaliser histogrammet for at repræsentere sandsynligheder
    (hist, _) = np.histogram(lbp_image.ravel(), bins=np.arange(0, P * (P - 1) + 3), range=(0, P * (P - 1) + 2))
    hist = hist.astype("float")
    hist /= (hist.sum() + 1e-7)
    
    return hist


In [10]:
tile_data = []
for tile in all_tiles:
    # HSV
    hsv = cv.cvtColor(tile, cv.COLOR_BGR2HSV)
    avg_color_per_row_hsv = np.median(hsv, axis=0)
    avg_color_hsv = np.median(avg_color_per_row_hsv, axis=0)

    lbp_features = calculate_lbp(tile)

    
    # Samler farveværdierne fra alle tre farverum i én enkelt array
    combined_avg_color = np.hstack((avg_color_hsv, lbp_features))
    
    tile_data.append(combined_avg_color)

tile_data = np.array(tile_data) 
scaler = StandardScaler()
tile_data = scaler.fit_transform(tile_data)


# Anvend K-means clustering på de fundne farver
kmeans = KMeans(n_clusters, random_state=42).fit(tile_data)

# Opret mapper til de forskellige clusters, hvis de ikke allerede findes
for i in range(n_clusters):
    os.makedirs(f'{train_set_tiles}/cluster_{i}', exist_ok=True)

# Gem hvert billede i den tilsvarende mappe baseret på dets cluster
for idx, tile in enumerate(all_tiles):
    cluster_index = kmeans.labels_[idx]
    tile_path = f'{train_set_tiles}/cluster_{cluster_index}/{idx}.png'
    cv.imwrite(tile_path, tile)

  super()._check_params_vs_input(X, default_n_init=10)
