Skip to content

Segmentación de clientes mediante algoritmo de aprendizaje no supervisado k-means.

Notifications You must be signed in to change notification settings

PabloJRW/segmentacion_de_clientes

Repository files navigation

Segmentación de clientes

La segmentación de clientes es el proceso que permite a las empresas dividir a sus consumidores en categorías específicas, basadas en características, que se extraen de su comportamiento como clientes y la información que pueden obtener de sus interacciones con la empresa.

Para este proyecto de segmentación de clientes, se usará un algoritmo de aprendizaje no supervisado, k-means; el cual, es un método de agrupamiento, que tiene como objetivo la partición de un conjunto de n observaciones (clientes en este caso) en k cantidades de segmentos, en el que cada observación o cliente quedará clasificado en uno de estos grupos.

La base de datos que se usará para la elaboración de este cuaderno fue tomado de Kaggle: Dataset

Dataset

Para esta tarea contamos con un conjunto de datos de 5 variables.

  • CustomerID: identificador único de los clientes.
  • Gender: género de los clientes. (Male, Female)
  • Age: edad de los clientes.
  • Annual Income: ingreso de los clientes por año.
  • Spending Score (1-100): puntuación de compra.
  • K-Means encuentra clústers basándose en la distancia, por lo que es importante que sólo utilizemos variables numéricas. También, excluiremos la variable "CustomerID", debido que sólo es un identificador que no nos aportará información. Nos quedamos con 3 variables.

    Distribución original:

    A estas variables le aplicamos un método de normalización.

    Elegir K (Cantidad de clusters)

    Cuando no tenemos una cantidad de segmentos en la que queramos clasificar nuestros datos, o queramos descubrir cuántos grupos similares tenemos en nuestros datos, el método de codo es el apropiado para ayudarnos a tomar esa decisión.

    Mediante el método de codo podemos observar que entre nuestros datos existen entre 4 y 6 segmentos de clientes bien definidos. Este es un punto donde entra el criterio experto para tomar la decisión de cuántos segmentos debemos establecer. El método de codo nos sugiere 4 clusters.

    Visualización de los 4 clusters

    Visualización de los 5 clusters

    Conclusión

    Como se menciona anteriormente, la cantidad de segmentos o clusters k es definido mediante criterio experto, el cual podría depender del problema al cual se busca hallar una solución. O bien, podríamos utilizar el método de codo para casos en el cual no tengamos una tarea definida o estemos desarrollando minería de datos, intentando descubrir patrones.

    About

    Segmentación de clientes mediante algoritmo de aprendizaje no supervisado k-means.

    Topics

    Resources

    Stars

    Watchers

    Forks

    Releases

    No releases published

    Packages

    No packages published