## Aprendizaje no supervisado y segmentación de clientes ##

En este capítulo, revisará una de las técnicas más poderosas en marketing: la segmentación de clientes. Comenzará por comprender la necesidad de la segmentación de clientes, después de lo cual estudiará e implementará el enfoque de aprendizaje automático para la segmentación. Utilizará el algoritmo de agrupación **cluster k-means** para segmentar a los clientes y luego analizará los segmentos obtenidos para obtener una comprensión de los resultados para que las empresas puedan actuar sobre ellos.

Se realiza segmentación utilizando herramientas y técnicas relevantes y analizar los resultados de los datos segmentados.

## Introducción ##

Póngase en el lugar del director de marketing de una empresa de comercio electrónico con una base de 1 millón de clientes que realizan transacciones. Desea que las campañas de marketing sean más efectivas, llegando al cliente correcto con el mensaje correcto. 

Al comprender mejor al cliente y sus necesidades, las campañas de marketing pueden proporcionar un impulso significativo al negocio. A medida que comienzamos a resolver este problema, se piensa en la experiencia del cliente. Un cliente promedio recibe varias mensajes sobre las últimas ofertas. Estos se envian por correo electrónico, notificaciones automáticas y campañas en las redes sociales. Esta puede no ser una gran experiencia para ellos, especialmente si estas comunicaciones son campañas genéricas/masivas. Si la empresa entendiera mejor las necesidades de los clientes y les enviara el contenido relevante, comprarían con mucha más frecuencia.

Varios ejemplos como este muestran que una comprensión profunda de los clientes y sus necesidades es beneficiosa no solo para la empresa sino también para el cliente. Si tiene una empresa pequeña, comprender las necesidades de todos los clientes es tan fácil como realizar una encuesta rápida. Sin embargo, para una empresa con una gran base de usuarios con millones de clientes, comprender sus necesidades sería extremadamente difícil, dado que cada cliente tendrá sus propios gustos y necesidades diferentes. Además, con clientes de diferentes orígenes, culturas y grupos de edad, este problema se vuelve aún más difícil de resolver.

Seguramente las cosas serían más fáciles si pudiéramos simplificar esta tarea y condensar a los clientes en unos pocos grupos. En lugar de tratar con un millón de clientes, ¿no sería más fácil tratar con, digamos, cinco tipos de clientes? La segmentación de clientes le permite haga exactamente eso: abstraiga potencialmente a millones de clientes a unos pocos segmentos y comprenda sus características y necesidades. Con tal entendimiento, el impacto te puedes dar cuenta es tremendo.

Puede enviar mensajes más dirigidos y específicos a través de campañas de marketing, ofrecer servicios diferenciales, hacer mejores recomendaciones de productos y más para mejorar la experiencia general del cliente; todo esto conduce a un impacto comercial significativo, no solo un impacto inmediato en los ingresos a través de campañas de marketing más eficientes, sino también un impacto positivo significativo en el valor a largo plazo que los clientes aportan a la plataforma.

En esta sección se comprenderá qué es la segmentación de clientes, cómo se usa y cómo usar ML para crear sus propios modelos de segmentación de clientes en Python.

Segmentación

La segmentación, en pocas palabras, significa agrupar entidades similares. Las entidades de cada grupo son similares entre sí, es decir, "los grupos son homogéneos", lo que significa que las entidades tienen propiedades similares.

**¿Qué entidades se pueden segmentar?** Puedes segmentar clientes, productos, ofertas, vehículos, frutas, animales, países o incluso estrellas. Si puede expresar, a través de datos, las propiedades de la entidad, puede comparar esa entidad con otras entidades y segmentarla. En este capítulo, nos centraremos en la **segmentación de clientes**, es decir, agrupar y segmentar clientes actuales/potenciales, un ejercicio que tiene una enorme utilidad en marketing.

Pasando al segundo aspecto clave, ¿de qué propiedades estamos hablando? Estamos hablando de propiedades relevantes para el ejercicio de agrupación. **Supongamos que está tratando de agrupar a los clientes en función de la frecuencia de compra de un producto.** En tales casos, es posible que datos como el género de los clientes, aunque estén fácilmente disponibles para usted, no ser relevante para su análisis. Es por eso que elegir los atributos relevantes es fundamental. Discutiremos este aspecto con más detalle más adelante en este capítulo, en la sección Elección de atributos relevantes (criterios de segmentación).



Un ejercicio general de segmentación de clientes implica los siguientes pasos clave:

1. Elegir los **atributos** relevantes para las entidades
2. Agrupación/agrupación de las **entidades**
3. **Comprender y describir** los segmentos

Si bien los pasos 1 y 2 generalmente se discuten y se les presta bastante atención, el paso 3 a menudo se ignora. Los segmentos determinados como resultado de esta actividad deben tener sentido para el negocio y ser accionables. Las partes interesadas del negocio, que desempeñan el papel fundamental del "humano en el circuito", deben poder comprender estos segmentos con claridad. Luego, con sus comentarios, estos segmentos se pueden refinar aún más, haciéndolos aún más prácticos e impulsados ​​por el negocio. El equipo de marketing puede entenderlos fácilmente y aprovecharlos para crear una campaña de marketing exitosa. Por eso, describir los segmentos obtenidos de forma que el negocio los entienda es un paso necesario.
Abordaremos todos estos pasos en detalle en este capítulo. 

Primero, ensuciémonos las manos cargando algunos datos y comencemos todo el proceso, cuyo resultado serán sus propios modelos de segmentación. Ayudará a un centro comercial a obtener una mejor comprensión de sus clientes para permitir una mejor orientación y aumentar las ventas.

## Exercise 3.01: Mall Customer Segmentation – Understanding the Data ##

Usted es un analista en una empresa de consultoría líder y entre sus clientes más nuevos se encuentra una popular cadena de centros comerciales repartidos en muchos países. El centro comercial desea obtener una mejor comprensión de sus clientes para rediseñar sus ofertas existentes y comunicaciones de marketing para mejorar las ventas en un área geográfica. Los datos sobre los clientes están disponibles en el archivo Mall_Customers.csv.

1. Importe numpy, pandas y pyplot desde matplotlib y seaborn usando el siguiente código:

In [1]:
import numpy as np, pandas as pd
import matplotlib.pyplot as plt, seaborn as sns
%matplotlib inline

2. Usando el método read_csv de pandas, importe el archivo Mall_Customers.csv en un DataFrame de pandas llamado data0 e imprima las primeras cinco filas:

In [3]:
!curl https://raw.githubusercontent.com/limspiga/customer-analytics/main/week-2a/Mall_Customers.csv -O

data0 = pd.read_csv("Mall_Customers.csv")
data0.head()

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0100    14  100    14    0     0    101      0 --:--:-- --:--:-- --:--:--   101


Unnamed: 0,404: Not Found


Vemos que tenemos información como el sexo y la edad de los clientes, junto con su ingreso anual estimado (**Ingreso Anual (k$)**). También tenemos un puntaje de gasto calculado por el centro comercial **(Puntuación de gasto (1-100)**), que indica la cantidad de compras que el cliente ha realizado en el centro comercial: un puntaje más alto significa un gasto más alto.

Use el método de información del DataFrame para imprimir información al respecto:

In [None]:
data0.info()

Puede observar que el conjunto de datos contiene los datos de 200 clientes. También puede ver que no faltan valores en el conjunto de datos para manejar.

4. Por conveniencia, cambie el nombre de Ingreso Anual (k$) y
Spending Score (1-100) columnas a Income y Spend_score respectivamente, e imprima los cinco registros principales usando el siguiente código:

In [None]:
data0.rename({'Annual Income (k$)':'Income', \
              'Spending Score (1-100)':'Spend_score'}, axis=1, \
             inplace=True)
data0.head()

5. Para obtener una comprensión de alto nivel de los datos del cliente, imprima el resumen descriptivo de los campos numéricos en los datos utilizando el método de descripción de DataFrame:

In [None]:
data0.describe()

Los promedios generales muestran que la edad promedio del cliente es de alrededor de 39 años y el ingreso promedio es de alrededor de 61,000 USD. Los puntajes de gasto parecen calcularse en base a percentiles, con un valor mínimo de 1 y un máximo de 99, lo cual es común con los percentiles (los puntajes de 0 a 1 también son comunes para los percentiles). El ingreso máximo ronda los 137.000 USD. Al observar estos valores, no sospechamos ningún valor atípico en los datos. Esto completa una comprensión de muy alto nivel de los datos.