# KMeans-Clustering: Farbreduktion in Bildern

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import cluster, manifold

Einlesen eines Bildes

In [None]:
img = plt.imread('ostroh1.jpg')

Bilddimensionen: Breite, Höhe, 3 Farbkanäle (rot, grün, blau)

In [None]:
img.shape

Kontrollanzeige

In [None]:
plt.imshow(img)
plt.axis('off')
plt.show()

Umordnung: jeder Bildpunkt ist ein Datenpunkt mit 3 Features.

In [None]:
flat = img.reshape(-1, 3)
flat.shape

Auswahl einer Stichprobe (sonst zu langsam)

In [None]:
N_SAMPLE = 2000
idx = np.arange(flat.shape[0])
np.random.shuffle(idx)
idx_sample = idx[:N_SAMPLE]
#idx_sample.shape, idx_sample
sample = flat[idx_sample,:]
sample.shape

Projektion der 3-dimensionalen Punkte in die Ebene, wobei Punkte ähnlicher Farbe nahe beieinander liegen.

In [None]:
tsne = manifold.TSNE().fit_transform(sample)
tsne.shape

In [None]:
plt.scatter(tsne[:, 0], tsne[:, 1], alpha=0.5)
plt.show()

KMeans-Clustering

In [None]:
K = 4

Training auf der Stichprobe

In [None]:
kmeans = cluster.KMeans(n_clusters=K, n_init='auto')
kmeans.fit(sample)

Vorhersage für die Stichprobe, Plausibilitätskontrolle.

In [None]:
labels_sample = kmeans.predict(sample)
labels_sample, np.unique(labels_sample)

Zuordnung der Cluster in der ebenen Darstellung.

In [None]:
plt.scatter(tsne[:, 0], tsne[:, 1], c=labels_sample, alpha=0.5)
plt.show()

Bestimmen der Cluster für alle Bildpunkte.

In [None]:
labels = kmeans.predict(flat)
labels.shape

Statistik der Cluster

In [None]:
u, c = np.unique(labels, return_counts=True)
u, c

In [None]:
plt.bar(u, c)
plt.show()

Coordinaten (= Farben) der Cluster-Centren.

In [None]:
kmeans.cluster_centers_

Erzeugen des posterisierten Bildes mit K Farben, Typumwandlung nach `int` erforderlich.

In [None]:
posterized = kmeans.cluster_centers_[labels].astype(int)
posterized, posterized.shape

Rückumwandlung in die korrekten Bilddimensionen (Länge x Breite x Farbkanäle)

In [None]:
img_poster = posterized.reshape(img.shape)
img_poster.shape

Kontrollanzeige.

In [None]:
plt.imshow(img_poster)
plt.axis('off')
plt.show()

## Test mit verschiedenen Cluster-Zahlen.

Hilfsfunktion für Bildumwandlung.

In [None]:
def posterize(sample, data, k, shape):
    kmeans = cluster.KMeans(n_clusters=k, n_init='auto')
    kmeans.fit(sample)
    labels = kmeans.predict(data)
    return kmeans.cluster_centers_[labels].astype(int).reshape(shape)

Test der Hilfsfunktion

In [None]:
p = posterize(sample, flat, 4, img.shape)
plt.imshow(p)
plt.axis('off')
plt.show()

Ergebnis für Cluster-Zahlen von 2 bis 10

In [None]:
plt.figure(figsize=(15,12))
nr = 0
for k in range(2, 11):
    nr += 1
    plt.subplot(3, 3, nr)
    p = posterize(sample, flat, k, img.shape)
    plt.imshow(p)
    plt.title('K = {}'.format(k))
    plt.axis('off')
