Segmentación de clientes

La segmentación de clientes es el proceso que permite a las empresas dividir a sus consumidores en categorías específicas, basadas en características, que se extraen de su comportamiento como clientes y la información que pueden obtener de sus interacciones con la empresa.

Para este proyecto de segmentación de clientes, se usará un algoritmo de aprendizaje no supervisado, k-means; el cual, es un método de agrupamiento, que tiene como objetivo la partición de un conjunto de n observaciones (clientes en este caso) en k cantidades de segmentos, en el que cada observación o cliente quedará clasificado en uno de estos grupos.

La base de datos que se usará para la elaboración de este cuaderno fue tomado de Kaggle: Dataset

Dataset

Para esta tarea contamos con un conjunto de datos de 5 variables.

CustomerID: identificador único de los clientes.
Gender: género de los clientes. (Male, Female)
Age: edad de los clientes.
Annual Income: ingreso de los clientes por año.
Spending Score (1-100): puntuación de compra.

K-Means encuentra clústers basándose en la distancia, por lo que es importante que sólo utilizemos variables numéricas. También, excluiremos la variable "CustomerID", debido que sólo es un identificador que no nos aportará información. Nos quedamos con 3 variables.

Distribución original:

A estas variables le aplicamos un método de normalización.

Elegir K (Cantidad de clusters)

Cuando no tenemos una cantidad de segmentos en la que queramos clasificar nuestros datos, o queramos descubrir cuántos grupos similares tenemos en nuestros datos, el método de codo es el apropiado para ayudarnos a tomar esa decisión.

Mediante el método de codo podemos observar que entre nuestros datos existen entre 4 y 6 segmentos de clientes bien definidos. Este es un punto donde entra el criterio experto para tomar la decisión de cuántos segmentos debemos establecer. El método de codo nos sugiere 4 clusters.

Visualización de los 4 clusters

Visualización de los 5 clusters

Conclusión

Como se menciona anteriormente, la cantidad de segmentos o clusters k es definido mediante criterio experto, el cual podría depender del problema al cual se busca hallar una solución. O bien, podríamos utilizar el método de codo para casos en el cual no tengamos una tarea definida o estemos desarrollando minería de datos, intentando descubrir patrones.

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
img		img
Mall_Customers.csv		Mall_Customers.csv
README.md		README.md
clustering_clientes.ipynb		clustering_clientes.ipynb
clusterized4_data.csv		clusterized4_data.csv
file4k.html		file4k.html
file5k.html		file5k.html
requirements.txt		requirements.txt
static_4k.png		static_4k.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

img

img

Mall_Customers.csv

Mall_Customers.csv

README.md

README.md

clustering_clientes.ipynb

clustering_clientes.ipynb

clusterized4_data.csv

clusterized4_data.csv

file4k.html

file4k.html

file5k.html

file5k.html

requirements.txt

requirements.txt

static_4k.png

static_4k.png

Repository files navigation

Segmentación de clientes

Dataset

Distribución original:

Elegir K (Cantidad de clusters)

Visualización de los 4 clusters

Visualización de los 5 clusters

Conclusión

About

Releases

Packages

Languages

PabloJRW/segmentacion_de_clientes

Folders and files

Latest commit

History

Repository files navigation

Segmentación de clientes

Dataset

Distribución original:

Elegir K (Cantidad de clusters)

Visualización de los 4 clusters

Visualización de los 5 clusters

Conclusión

About

Topics

Resources

Stars

Watchers

Forks

Languages