# III Aprendizaje no supervisado y segmentación de clientes

En este capítulo, revisaremos una de las técnicas más poderosas en marketing: la segmentación de clientes. Comenzará por comprender la necesidad de la segmentación de clientes, después de lo cual estudiará e implementará el enfoque de aprendizaje automático para la segmentación. Utilizaremos el algoritmo de agrupación **cluster k-means** para segmentar a los clientes y luego analizará los segmentos obtenidos para obtener una comprensión de los resultados para que las empresas puedan actuar sobre ellos.

# 1. Introducción

Pongámonos en el lugar del director de marketing de una empresa de comercio electrónico con una base de 1 millón de clientes que realizan transacciones. Desea que las campañas de marketing sean más **efectivas**, llegando al cliente correcto con el mensaje correcto. 

Al comprender mejor al cliente y sus necesidades, las campañas de marketing pueden proporcionar un **impulso** significativo al negocio. A medida que comenzamos a resolver este problema, se piensa en la **experiencia del cliente**. Un cliente promedio recibe varios mensajes sobre las últimas ofertas. Estos se envían por correo electrónico, notificaciones automáticas y campañas en las redes sociales. Esta puede no ser una gran experiencia para ellos, especialmente si estas comunicaciones son **campañas genéricas/masivas.** Si la empresa entendiera mejor las necesidades de los clientes y les enviara el contenido relevante, comprarían con mucha más frecuencia.

Varios ejemplos como este muestran que una comprensión profunda de los clientes y sus necesidades es beneficiosa no solo para la empresa sino también para el cliente. Si tiene una empresa pequeña, comprender las necesidades de todos los clientes es tan fácil como realizar una **encuesta rápida**. Sin embargo, para una empresa con una gran base de usuarios con millones de clientes, comprender sus necesidades sería extremadamente difícil, dado que cada cliente tendrá sus propios gustos y necesidades diferentes. **Además, con clientes de diferentes orígenes, culturas y grupos de edad, este problema se vuelve aún más difícil de resolver**.

Seguramente las cosas serían más fáciles si pudiéramos simplificar esta tarea y condensar a los clientes en unos pocos grupos. En lugar de tratar con un millón de clientes, ¿no sería más fácil tratar con, digamos, cinco tipos de clientes? **La segmentación de clientes le permite hacer exactamente eso: abstraiga potencialmente a millones de clientes a unos pocos segmentos y comprenda sus características y necesidades**. Con este conocimiento, el impacto te puedes tener es mayor.

Puede enviar mensajes más dirigidos y específicos a través de campañas de marketing, ofrecer servicios diferenciales, hacer mejores recomendaciones de productos y más para mejorar la experiencia general del cliente; todo esto conduce a un impacto comercial significativo, no solo un impacto inmediato en los ingresos a través de campañas de marketing más eficientes, sino también un impacto positivo significativo en el valor a largo plazo que los clientes aportan a la plataforma.

En esta sección se comprenderá qué es la segmentación de clientes, cómo se usa y cómo usar ML para crear sus propios modelos de segmentación de clientes en Python.


In [19]:
#  http://tech.nitoyon.com/en/blog/2013/11/07/k-means/
#  http://nl-hugo.github.io/d3-kmeans/index.html

from IPython.display import IFrame
IFrame("https://nl-hugo.github.io/d3-kmeans/index.html", width=800, height=400)


# 2. Segmentación

La segmentación, en pocas palabras, significa agrupar entidades similares. Las entidades de cada grupo son similares entre sí, es decir, "los grupos son homogéneos", lo que significa que las entidades tienen propiedades similares.

**¿Qué entidades se pueden segmentar?** 
- Puedes segmentar clientes, 
- productos, 
- ofertas, 
- vehículos, 
- frutas, 
- animales, 
- países o incluso estrellas. 

Si puede expresar, a través de datos, las propiedades de la entidad, puede comparar esa entidad con otras entidades y segmentarla.

Pasando al segundo aspecto clave, ¿de qué propiedades estamos hablando? Estamos hablando de propiedades relevantes para el ejercicio de agrupación. 

**Supongamos que está tratando de agrupar a los clientes en función de la frecuencia de compra de un producto.** En tales casos, es posible que datos como el género de los clientes, aunque estén fácilmente disponibles para usted, no ser relevante para su análisis. 

Es por eso que elegir los atributos relevantes es fundamental. Discutiremos este aspecto con más detalle más adelante en este capítulo, en la sección Elección de atributos **relevantes criterios de segmentación**.



Un ejercicio general de segmentación de clientes implica los siguientes pasos clave:

1.	Selección de los atributos relevantes para las entidades ???
2.	Agrupación entidades
3.	Comprender y describir los segmentos

En el último paso los segmentos resultantes deben tener sentido para el negocio y ser accionables. Las partes interesadas del negocio, que desempeñan el papel fundamental del "Know-how", deben poder comprender estos segmentos con claridad. 

Posteriormente estos segmentos se pueden refinar, haciéndolos aún más prácticos e impulsados por el negocio. El equipo de marketing puede entenderlos fácilmente y aprovecharlos para crear una campaña de marketing exitosa. Por eso, describir los segmentos obtenidos de forma que el negocio los entienda es un paso necesario.


# Ejercicio 3.01: Segmentación de clientes de centros comerciales: comprensión de los datos

Eres analista en una empresa de consultoría líder y entre tus clientes más nuevos se incluye una popular cadena de centros comerciales repartidos por muchos países. El centro comercial quiere obtener una mejor comprensión de sus clientes para rediseñar sus ofertas existentes y comunicaciones de marketing para mejorar las ventas en un área geográfica. Los datos sobre los clientes están disponibles en el archivo mall_Customers.csv.

1. Importe numpy, pandas y pyplot desde matplotlib y seaborn usando el siguiente código:

In [None]:
import numpy as np, pandas as pd
import matplotlib.pyplot as plt, seaborn as sns
%matplotlib inline

2. Usando el método read_csv de pandas, importe el archivo Mall_Customers.csv en un DataFrame de pandas llamado data0 e imprima las primeras cinco filas:

In [23]:
!curl https://raw.githubusercontent.com/limspiga/customer-analytics/main/week-2a/mall_customers.csv -O

data0 = pd.read_csv("mall_customers.csv")
data0.head()

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0100    14  100    14    0     0     70      0 --:--:-- --:--:-- --:--:--    70


NameError: ignored

Vemos que tenemos información como el genero y la edad de los clientes, junto con su ingreso anual estimado (**Ingreso Anual (k$)**). También tenemos un puntaje de gasto calculado por el centro comercial **(Puntuación de gasto (1-100)**), que indica la cantidad de compras que el cliente ha realizado en el centro comercial: un puntaje más alto significa un gasto más alto.

Use el método de información del DataFrame para imprimir información al respecto:

In [None]:
data0.info()

Se puede observar que el conjunto de datos contiene los datos de 200 clientes. También puede ver que no faltan valores en el conjunto de datos para manejar.

4. Por conveniencia, cambie el nombre de Ingreso Anual (k$) y
Spending Score (1-100) columnas a Income y Spend_score respectivamente, e imprima los cinco registros principales usando el siguiente código:

In [22]:
data0.rename({'Annual Income (k$)':'Income', \
              'Spending Score (1-100)':'Spend_score'}, axis=1, \
             inplace=True)
data0.head()

NameError: ignored

5. Para obtener una comprensión de alto nivel de los datos del cliente, imprima el resumen descriptivo de los campos numéricos en los datos utilizando el método de descripción de DataFrame

In [21]:
data0.describe()

NameError: ignored

Los promedios generales muestran que la edad promedio del cliente es de alrededor de **39 años** y el ingreso promedio es de alrededor de **61,000 USD**. Los puntajes de gasto parecen calcularse en base a percentiles, con un **valor mínimo de 1 y un máximo de 99**, lo cual es común con los percentiles (los puntajes de 0 a 1 también son comunes para los percentiles). El ingreso máximo ronda los **137.000 USD**. Al observar estos valores, no sospechamos ningún valor atípico en los datos. Esto completa una comprensión de muy alto nivel de los datos.

# 3.1 Enfoques de la segmentación

Cada grupo de marketing hace, en efecto, cierta cantidad de segmentación de clientes. Sin embargo, los métodos que utilizan para hacer esto pueden no ser siempre claros. Estos pueden basarse en intuiciones  sobre ciertos grupos demográficos, o pueden ser el resultado de algún software de marketing, donde los métodos utilizados son oscuros. Hay ventajas y desventajas para cada método posible y comprenderlas le permite utilizar la herramienta adecuada para el trabajo. En las siguientes secciones, analizaremos algunos de los **enfoques** más utilizados para la segmentación de clientes junto con las consideraciones al usar dichos enfoques.

# 3.1.1 Métodos de segmentación tradicionales
Un método preferido por los analistas de marketing consiste en generar **agrupaciones** aproximadas basadas en:
- **intuiciones y umbrales arbitrarios**.

Para ello, aprovechan todos los datos sobre los clientes que tienen a su disposición, normalmente demográficos o de comportamiento. Un ejemplo de esto sería decidir segmentar a los clientes en diferentes niveles de ingresos en función de incrementos de $10,000. Otro enfoque podría ser observar cómo se distribuyen los valores de los atributos y buscar umbrales naturales a partir de los datos.

## Ejercicio 3.02: Segmentación Tradicional de Clientes de Centros Comerciales

El centro comercial quiere segmentar a sus clientes y planea utilizar los segmentos derivados para mejorar sus campañas de marketing. El equipo comercial cree que la segmentación en función de los:
- **niveles de ingresos** 

es relevante para sus ofertas. 

Se le pide que utilice un enfoque tradicional basado en reglas para definir los segmentos de clientes.


En este ejercicio, realizará su primera segmentación de clientes utilizando los **ingresos del cliente**, empleando un enfoque tradicional basado en **reglas** para definir segmentos de clientes. Graficará la distribución de la variable Ingresos y asignará grupos a los clientes en función de dónde vea que se encuentran los valores:

1. Grafique un histograma de la columna Ingresos usando el método de trazado de DataFrame usando el siguiente código:

In [20]:
data0.Income.plot.hist(color='gray') 
plt.xlabel('Income')
plt.show()

NameError: ignored