Skip to content

Este es un proyecto de Data Science en el que aplicaremos: EDA + Métodos de Clustering

Notifications You must be signed in to change notification settings

martabuaf/Customer-Segmentation

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Segmentación de bases de clientes

Captura de pantalla 2023-02-22 a las 21 13 00

Resumen:

En este proyecto, llevaremos a cabo la agrupación no supervisada de datos sobre los registros de clientes de la base de datos de una empresa de comestibles.

La segmentación de clientes es la práctica de separar a los clientes en grupos según sus similitudes y diferencias. Dividiremos a los clientes en grupos para resaltar las características más importantes de cada segmento y modificar los productos en función de las distintas necesidades y comportamientos de los clientes.

Los datos los encontramos aquí.

Paso 1: Carga de los datos y EDA

El análisis exploratorio de datos se refiere al proceso de realizar investigaciones iniciales sobre los datos para descubrir patrones, detectar anomalías, probar hipótesis y comprobar suposiciones con la ayuda de estadísticas resumidas y representaciones gráficas. Sacaremos una serie de conclusiones sobre los siguientes pasos para tratar los datos, dividiéndolos en datos numéricos y categóricos.

Paso 2: Procesamiento de los datos

Procesaremos los datos de manera que nos resulte más fácil su interpretación y, al mismo tiempo, reduciremos la cantidad de variables del modelo.

Paso 3: Ingeniería de datos

Compactaremos los datos de forma que los datos de las nuevas columnas resulten más representativos.

Paso 4: Agrupación

Llevaremos a cabo la agrupación no supervisada de los datos. Para ello utilizamos previamente el método del codo para determinar el número de clusters necesarios. Estudiaremos diferentes métodos de agrupación y buscaremos los valores óptimos de los parámetros.

La información sobre los distintos algoritmos de clustering la encontramos aquí.

Paso 5: Evaluación de los resultados

Tras la evaluación de los distintos métodos, nos centraremos en el que mejor resultados nos aporta para nuestro fin. Representaremos los datos resultantes de la agrupación para cada una de las variables que componen el DataFrame original.

Paso 6: Conclusiones

Una vez interpretados los resultados, definiremos las características más relevantes que componen cada uno de los grupos.

Información sobre el contenido del dataset

Personas

  • ID: Identificador único del cliente
  • Year_Birth: Año de nacimiento del cliente
  • Education: Nivel educativo del cliente
  • Marital_Status: Estado civil del cliente
  • Income: Ingresos anuales del hogar del cliente
  • Kidhome: Número de hijos en el hogar del cliente
  • Teenhome: Número de adolescentes en el hogar del cliente
  • Dt_Customer: Fecha de inscripción del cliente en la empresa
  • Recency: Número de días transcurridos desde la última compra del cliente
  • Complain: 1 si el cliente se ha quejado en los últimos 2 años, 0 en caso contrario

Productos

  • MntWines: Importe gastado en vino en los últimos 2 años
  • MntFruits: Importe gastado en frutas en los últimos 2 años
  • MntMeatProducts: Cantidad gastada en carne en los últimos 2 años
  • MntFishProducts: Cantidad gastada en pescado en los últimos 2 años
  • MntSweetProducts: Cantidad gastada en dulces en los últimos 2 años
  • MntGoldProds: Importe gastado en oro en los últimos 2 años

Promociones

  • NumDealsPurchases: Número de compras realizadas con descuento
  • AcceptedCmp1: 1 si el cliente aceptó la oferta en la 1ª campaña, 0 en caso contrario
  • AcceptedCmp2: 1 si el cliente aceptó la oferta en la 2ª campaña, 0 en caso contrario
  • AcceptedCmp3: 1 si el cliente aceptó la oferta en la 3ª campaña, 0 en caso contrario
  • AcceptedCmp4: 1 si el cliente aceptó la oferta en la 4ª campaña, 0 en caso contrario
  • AcceptedCmp5: 1 si el cliente aceptó la oferta en la 5ª campaña, 0 en caso contrario
  • Response: 1 si el cliente aceptó la oferta en la última campaña, 0 en caso contrario

Lugar

  • NumWebPurchases: Número de compras realizadas a través de la página web de la empresa
  • NumCatalogPurchases: Número de compras realizadas a través de un catálogo
  • NumStorePurchases: Número de compras realizadas directamente en tiendas
  • NumWebVisitsMonth: Número de visitas a la página web de la empresa en el último mes

Perfiles de los clientes:

atributos_clusters

Captura de pantalla 2023-02-22 a las 21 14 38

Esperamos que te haya gustado!! 😄

Autores:

Marta Búa Fernández ➡️ Ir al perfil de LinkedIn

Laura Arufe Jorge ➡️ Ir al perfil de LinkedIn

About

Este es un proyecto de Data Science en el que aplicaremos: EDA + Métodos de Clustering

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages