# Actividad k-means (color quantization)

La actividad consiste en usar KMeans para aplicar *color quantization* a una imagen, es decir, reducir el número de colores de una imagen.

In [None]:
#Instalando las librerias requeridas
#import sys
#!{sys.executable} -m pip install numpy, pandas, plotnine, sklearn

In [None]:
import numpy as np
import pandas as pd
from plotnine import *

Primero cargamos una imagen. Puede usar la imagen que desee (recuerde ponerla en el directorio de este python notebook para que la encuentre).  Por defecto, puede usar el archivo que está comentado abajo (Starry Night, de Vincent Van Gogh)

In [None]:
#1 Cargar imagen
from PIL import Image 
#Cargue la imagen. Para ello descomente la siguiente línea y cambie nombreImagen por el nombre de la imagen.
# Ejemplo:
# image0=Image.open('Van_Gogh_-_Starry_Night_-_Google_Art_Project.jpg')
image0=Image.open('<su archivo>')


In [None]:
image0

El formato de la imagen es un color para cada *pixel* de la imagen. El color viene representado en formato RGB, que corresponder a 3 números entre 0 y 255, representando cuando rojo (R), verde (G) y azul (B) define el color de ese pixel.

Para poder verlo, debemos transformarlo en una matriz de datos.

In [None]:
image1 = np.array(image0)
#Ahora descomente y verifique el tamaño de la imagen. Ustede debería tener una matriz de 3 dimensiones (350x620x3).
image1.shape

Ahora image1 tiene un arreglo de # pixeles horizontal x # pixeles vertical x 3 colores RGB.  Para aplicar clustering, lo transformaremos en un arreglo de colores solamente.

In [None]:
data =  np.reshape(image1, (image1.shape[0]*image1.shape[1], 3))
data.shape

Contemos el número de colores que contiene la imagen. Para esto, vamos los valores únicos que aparecen en los datos


In [None]:
np.unique(data, axis=0).shape

Ahora estamos listos para aplicar K-Means, y así agrupar colores que sean similares, en un solo color definido por el centroide de cada cluster.

### Paso 1: Aplicar KMeans
Aplique K-Means a los datos, con un número de clusters que usted defina.


In [None]:
from sklearn.cluster import KMeans

KM = KMeans(n_clusters=  ... )
KM.fit(...)
KM.inertia_

### Paso 2: Validación # clusters
Validemos el numero de cluster que usaremos. Para esto, ejecutamos el comando anterior para distinto número de clusters, y creamos una lista donde guardamos el within cluster distance (`KM.inertia_`).  

OJO: Dependiendo del tamaño de su imagen, esto puede demorar mucho. 


In [None]:
#Ahora necesitamos crear el gráfico para analizar cuando se estabiliza el within cluster distance. 
#para ello, crearemos una lista vacia ([]) y la llamaremos sse. Aquí guardaremos los valores
#del within cluster distance para varias ejecuciones del k-means.
sse = []
maxClusters = ... # Ejemplo : 15

for numC in range(1,maxClusters):
    KM = KMeans(n_clusters=...)
    KM.fit(...)
    sse.append(KM.inertia_)
    

Plotee el número de clusters, y defina cuantos clusters son apropiados 

In [None]:
# Varias opciones:
# 1) usando Pandas: pd.DataFrame(sse, index=np.arange(1,maxClusters)).plot()
# 2) usando GGplot: 
# tempDataFrame=pd.DataFrame(range(1, maxClusters),columns=["numK"])
# tempDataFrame['sse']=sse
# (ggplot(tempDataFrame)+aes(x="numK",y="sse")+theme_bw()+geom_line()+labs(x="Número de clusters",y="WCD")


### Paso 3:  Clusterización definitiva y generar datos agrupados
Ejecute nuevamente KMeans con el número de clusters deseado, para obtener los *labels* que indican a que cluster pertenece cada pixel.

In [None]:
KM = KMeans(n_clusters=  ... )
KM.fit(...)


Para cada cluster, entonces recuperamos los centros y re-escribimos el color asociado a cada pixel.

OJO:  el centroide será un valor fraccionario (*float*), para que sea reconocido como un color, debemos transformarlo en entero, con la función `.astype('int')`


In [None]:
#4 Reemplazar cada pixel por el color correspondiente
# copiemos primero la data para tener un respaldo
dataQ = data.copy()

#Ahora vamos a reemplazar el pixel de cada punto con la media del cluster al que pertenece.
#Cree un ciclo for que itere para cada cluster
for clusterId in range( <el numero de clusters elegido> ):
    centroide = KM.cluster_centers_[clusterId]

    #Seleccione los puntos que pertenecen al i-ésimo cluster
    #Para ello vea a que cluster pertenece cada punto y cree un vector de TRUE y FALSE,
    #donde TRUE implica que el i-ésimo punto pertence al cluster i.
    #indices = #complete el código
    
    #Reemplazando los valores de dataQ pertenecientes al cluster i con su media.
    #dataQ[indices,:]= centroide.astype('int')

Veamos si funcionó volviendo a contar el # de colores que aparecen

In [None]:
np.unique(dataQ, axis=0).shape

### Paso 5 : Ver resultado
Ahora vemos el resultado. Para esto, primero debemos cambiar los datos nuevamente a su tamaño original (ancho x alto x 3)


In [None]:
nuevaImagen=np.reshape(dataQ, (image1.shape[0], image1.shape[1], 3))
nuevaImagen.shape



Y grabamos la imagen en un archivo nuevamente.

In [None]:
#6) Grabar la nueva imagen
#Finalmente estas líneas generan y guardan/muestran la nueva imagen
import matplotlib.pyplot as mpl
mpl.imsave('nuevaVG.jpg',nuevaImagen) #Comente esta línea
mpl.imshow(nuevaImagen) #Comente esta línea