<img src="https://www.th-ab.de/typo3conf/ext/th_ab/Resources/Public/assets/logo-th-ab.svg" alt="TH-AB Logo" width="200"/>

Prof. Dr. Möckel, Prof. Dr. Radke, K. Kuhnert

Maschinelles Lernen Schwerpunkt Data Science<br>
SoSe 2024

# Übung: Farbkompression mit K-Means

Ziel dieser Übung ist es, das Cluster-Verfahren K-Means einzusetzen, um die Farbaufösung eines Bildes zu reduzieren. Dazu sollen Cluster aufgrund ähnlicher Farbwerte gebildet werden.

Referenz: https://github.com/RPI-DATA/course-intro-ml-app/blob/master/content/notebooks/14-unsupervised/03-kmeans.ipynb

### Bilddaten laden

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.datasets import load_sample_image

china = load_sample_image("china.jpg")

### Bilddaten analysieren und verstehen

Führen Sie für das geladene Bild eine erste explorative Datenanalyse durch. Lassen Sie sich dazu zunächst das Bild mit dem Befehl imshow anzeigen:

In [None]:
ax = plt.axes(xticks=[], yticks=[])
ax.imshow()

Mit welcher Datenstruktur wird dieses Farbbild repräsentiert? 

In [None]:
print("### Shape ##############")
print(f"{ }\n")

Wandeln Sie nun das Bild in einen pandas dataframe mit 3 Spalten um und lassen Sie sich die üblichen Aussagen der deskriptiven Statistik ausgeben (vgl. Vorlesung):

In [None]:

# load dataset as DataFrame
df = pd.DataFrame(china.reshape())

# show semantics
print("### Semantics ##############")


# show potential null values
print(f"\n### NaN value summary ##############")


# show statistics
print("### Statistics ##############")


# preview dataset
print("### Preview ##############")



### Datensatz vorbereiten

Reskalieren Sie die Farbwerte in den Bereich [0,1] und stellen Sie das Bild durch 3 Spalten dar. 

In [None]:
# rescale colors to [0, 1]
X =          # use 0...1 scale

# reshape data to 3 columns
X = X.reshape()
X.shape

### Technischer Einschub: Spezielle Funktion zur Darstellung eines pixelweisen Bildplots

In [None]:
import numpy as np

def plot_pixels(data, title, colors=None, N=10000):
    if colors is None:
        colors = data
    
    # choose a random subset
    rng = np.random.RandomState(0)
    i = rng.permutation(data.shape[0])[:N]
    colors = colors[i]
    R, G, B = data[i].T
    
    fig, ax = plt.subplots(1, 2, figsize=(16, 6))
    ax[0].scatter(R, G, color=colors, marker='.')
    ax[0].set(xlabel='Red', ylabel='Green', xlim=(0, 1), ylim=(0, 1))

    ax[1].scatter(R, B, color=colors, marker='.')
    ax[1].set(xlabel='Red', ylabel='Blue', xlim=(0, 1), ylim=(0, 1))

    fig.suptitle(title, size=20);

## Clustering der Frabwerte mit K-Means

Nutzen Sie nun die MiniBatch-Variante des Clusteralgorithmus KMeans

#### Bestimmung der optimalen Anzahl an k-means Clustern

Testen Sie K-Means für alle Anzahlen an Clustern zwischen 1 und 30, bestimmen Sie für jeden Wert die inertia Restwerte und erstellen Sie einen elbow plot.

In [None]:
from sklearn.cluster import MiniBatchKMeans
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import pandas as pd

MAX_CLUSTERS = 
SEED = 42

# calculate inertia for different k values
inertia_values = []
for k in range(1, MAX_CLUSTERS):
    # apply KMeans for n clusters
    kmeans = MiniBatchKMeans(   )
    
    inertia_values.append(   )

# plot the elbow
plt.figure(figsize=(4, 4))
plt.plot(range(1, MAX_CLUSTERS), inertia_values, marker='o')
plt.xlabel('Number of clusters (k)')
plt.ylabel('Inertia')
plt.title('Elbow Method')
plt.show()

### K-Means anwenden (MiniBatchKMeans)

Führen Sie nun das Clustering für 16 Cluster durch

In [None]:
## setup hyperparameters
CLUSTERS = 
SEED = 42

## choose model
# apply k-means for n clusters

## fitting (training) model

# Zuweisung neuer Farbwerte
new_colors = kmeans.cluster_centers_[kmeans.predict(X)]

## show result
plot_pixels(X, colors=new_colors, title=f"Reduced color space: {CLUSTERS} colors")

### Augenscheinlicher Vergleich von Original zu reduzierter Version

Plotten Sie das Originalbild und das farbkomprimierte Bild nebeneinander

In [None]:
china_recolored = new_colors.reshape(china.shape)

fig, ax = plt.subplots(1, 2, figsize=(16, 6), subplot_kw=dict(xticks=[], yticks=[]))
fig.subplots_adjust(wspace=0.05)
ax[0].imshow(china)
ax[0].set_title('Original Image', size=16)
ax[1].imshow(china_recolored)
ax[1].set_title('16-color Image', size=16);