El K-means es un método de Clustering que separa ‘K’ grupos de objetos (Clusters) de similar varianza, minimizando un concepto conocido como inercia
Python
Latest commit 76daa54 Jun 20, 2016 Ricardo Moya pequeños cambios
Permalink
Failed to load latest commit information.
dataSet subida del proyecto Mar 14, 2016
.gitignore code style May 8, 2016
Cluster.py pequeños cambios Jun 20, 2016
KMeans.py pequeños cambios Jun 20, 2016
KMeans_scikit.py pequeños cambios Jun 20, 2016
Point.py code style May 8, 2016
README.md añadidos en el readme May 16, 2016
UnitTest.py pequeños cambios Jun 20, 2016

README.md

K-Means

El K-means es un método de Clustering que separa ‘K’ grupos de objetos (Clusters) de similar varianza, minimizando un concepto conocido como inercia, que es la suma de las distancias al cuadrado de cada objeto del Cluster a un punto ‘μ’ conocido como Centroide (punto medio de todos los objetos del Cluster).

Para saber más sobre el K-means, ir al siguiente tutorial:

http://jarroba.com/machine-learning-python-ejemplos/

Pseudocódigo

A continuación se muestra el Pseudocódigo del K-means:

alt jarroba

Diagrama de Clases

A continuación se muestra el diagrama de clases para la implementación del KMeans, en el que se ven involucradas las clases Point (Point.py) y Cluster (Cluster.py). En el script KMeans.py (que no es una clase aunque así se representa en el diagrama de clases) está el método Main que ejecuta el K-Means.

alt jarroba

En el script KMeans_scikit.py se muestra una solución del K-Means utilizando la librería scikit-learn, por tanto no es una implementación propia (o desde cero) de este algoritmo.

Prerrequisitos

El código que se encuentra en este repositorio hace uso de las librerías de numpy, matplotlib, scipy y scikit-learn. Para descargar e instalar (o actualizar a la última versión con la opción -U) estas librerías con el sistema de gestión de paquetes pip, se deben ejecutar los siguiente comandos:

$ pip install -U numpy
$ pip install -U matplotlib
$ pip install -U scipy
$ pip install -U scikit-learn

Resultados esperados de los data set

El orden de los clusters no tiene porque coincidir con los propuestos, pero los centroides si que deben de tener valores muy similares a los indicados:

alt jarroba

Resultados:

alt jarroba alt jarroba alt jarroba alt jarroba

Para más detalles del proyecto vista la web de jarroba.com:

alt jarroba