Segmentación del mercado de adolescentes --- 17:07 min
===

* 17:07 min | Ultima modificación: Abril 14, 2021 | [YouTube](https://youtu.be/sNHcKxjZcG4)

En este tutorial se aplica el algoritmo K-means para clasificar un grupo de adolecentes con base en sus intéreses, con el fin de diseñar estrategias publicitarias y servicios encaminados a cada grupo de interés.

Descripción del problema
---

Un vendedor desea enviar publicidad electrónica a una población de adolecentes y adultos jóvenes con el fin de maximizar sus ventas. Para ello, desea poder clasificar a sus clientes potenciales por grupos de interés de acuerdo con sus intereses y consecuentemente enviar publicidad específica a cada uno de ellos.   

En este problema se desea determina que grupos de interés existen en una población de clientes a partir de los mensajes enviados por un servicio de redes sociales. La información disponible consiste en 30000 observaciones de 40 variables que podrían caracterizar los intereses de la población analizada. Estas variables corresponden a palabras que pueden asociarse a un interés de la poblaión analizada. Cada variable mide la frecuencia con que una determinada palabra aparece en los mensajes de texto; adicionalmente, dentro de estas variables se incluye  información como el sexo, la edad y la cantidad de contactos de la persona. 

Carga de los datos
---

In [1]:
import pandas as pd

df = pd.read_csv(
    "https://raw.githubusercontent.com/jdvelasq/datalabs/master/datasets/snsdata.csv",
    sep=",",
    thousands=None,
    decimal=".",
    encoding="latin-1",
)

df.head(10)

Unnamed: 0,gradyear,gender,age,friends,basketball,football,soccer,softball,volleyball,swimming,...,blonde,mall,shopping,clothes,hollister,abercrombie,die,death,drunk,drugs
0,2006,M,18.982,7,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,2006,F,18.801,0,0,1,0,0,0,0,...,0,1,0,0,0,0,0,0,0,0
2,2006,M,18.335,69,0,1,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,2006,F,18.875,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,2006,,18.995,10,0,0,0,0,0,0,...,0,0,2,0,0,0,0,0,1,1
5,2006,F,,142,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,1,0
6,2006,F,18.93,72,0,0,0,0,0,0,...,0,2,0,0,2,0,0,0,0,0
7,2006,M,18.322,17,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
8,2006,F,19.055,52,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9,2006,F,18.708,39,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0


Análisis exploratorio
---

In [2]:
#
# Número de registros
#
len(df)

30000

In [3]:
#
# Valores diferentes de NA
#
df.gender.value_counts()

F    22054
M     5222
Name: gender, dtype: int64

In [4]:
#
# Número de registros con NA
#
df.gender.isna().sum()

2724

In [5]:
#
# La muestra contiene un rango de edades 
# por fuera de la población de interés
#
df.age.describe()

count    24914.000000
mean        17.993950
std          7.858054
min          3.086000
25%         16.312000
50%         17.287000
75%         18.259000
max        106.927000
Name: age, dtype: float64

In [6]:
#
# Se analizan los rangos de las variables 
# para determinar si hay datos por fuera de sus 
# rangos válidos. La variable `edad` contiene
# datos por fuera de la población de interés
#
df.age.describe()

count    24914.000000
mean        17.993950
std          7.858054
min          3.086000
25%         16.312000
50%         17.287000
75%         18.259000
max        106.927000
Name: age, dtype: float64

In [7]:
# cantidad de nulos en la columna age
df.age.isnull().sum()

5086

In [8]:
import numpy as np

#
# Se seleccionan las personas entre 13 y 20 años y 
# se descartan las demás observaciones
#
df['age'] = df['age'].map(lambda x: np.nan if x <  13 else x)
df['age'] = df['age'].map(lambda x: np.nan if x >= 20 else x)

#
# Se verifica la variable edad en los registros de las
# personas en la población de interés.
#
df.age.describe()

count    24477.000000
mean        17.252429
std          1.157465
min         13.027000
25%         16.304000
50%         17.265000
75%         18.220000
max         19.995000
Name: age, dtype: float64

In [9]:
#
# Se crean nuevas variables numéricas a partir 
# de información categórica
#
df['female'] = df['gender'].map(lambda x: 1 if x == 'F' else 0)
df['no_gender'] = df['gender'].map(lambda x: 1 if pd.isnull(x) else 0)

# Cantidad de hombres y mujeres en la muestra.
df.gender.value_counts()

F    22054
M     5222
Name: gender, dtype: int64

In [10]:
#
# Número de registros con NA
#
df.gender.isna().sum()

2724

In [11]:
#
# Cantidad de hombres y mujeres en la muestra
# 0=Male, 1=Female
#
df.female.value_counts()

1    22054
0     7946
Name: female, dtype: int64

In [12]:
#
# Cantidad de patrones para los que se 
# conoce y no se conoce el genero
#
df.no_gender.value_counts()

0    27276
1     2724
Name: no_gender, dtype: int64

In [13]:
#
# Edad sin tener en cuenta los datos faltantes
#
df.age.mean()

17.252428933284307

In [14]:
#
# Se calcula una tabla para determinar 
# la edad promedio por año de graduación
#
df.groupby("gradyear")['age'].mean()

gradyear
2006    18.655858
2007    17.706172
2008    16.767701
2009    15.819573
Name: age, dtype: float64

In [15]:
#
# Los valores faltantes se llenan con el promedio
# de acuerdo con el año de graduación
#
ave_age = df.groupby("gradyear")['age'].mean()
df.age = [x if not pd.isnull(x) else ave_age[y] for x, y in zip(df.age, df.gradyear)]
df.age.describe()

count    30000.000000
mean        17.237326
std          1.141821
min         13.027000
25%         16.282000
50%         17.238000
75%         18.212000
max         19.995000
Name: age, dtype: float64

Entrenamiento del modelo
---

In [16]:
#
# Se separa la información de las palabras relacionadas
# con los intereses del resto de la información
##
interests = df.iloc[:,4:].copy()
interests.head()

Unnamed: 0,basketball,football,soccer,softball,volleyball,swimming,cheerleading,baseball,tennis,sports,...,shopping,clothes,hollister,abercrombie,die,death,drunk,drugs,female,no_gender
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
2,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
4,0,0,0,0,0,0,0,0,0,0,...,2,0,0,0,0,0,1,1,0,1


In [17]:
#
# Se escala para eliminar problemas asociados
# a la medida de los datos.
#
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
interests_z = scaler.fit_transform(interests)
interests_z

array([[0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.06666667, 0.        , ..., 0.        , 1.        ,
        0.        ],
       [0.        , 0.06666667, 0.        , ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.        , 0.06666667, 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.08333333, 0.        , 0.        , ..., 0.        , 1.        ,
        0.        ]])

In [18]:
#
# Se usa el algoritmo para determinar los centros de 5 grupos
#
from sklearn.cluster import KMeans

df_clusters = KMeans(n_clusters=5, random_state=1).fit(interests_z)

Evaluación del modelo
---

In [19]:
#
# Número de patrones asignados a cada cluster
#
(pd.DataFrame(df_clusters.predict(interests_z)))[0].value_counts()

4    17136
1     5222
0     4259
2     2724
3      659
Name: 0, dtype: int64

In [20]:
#
# Frecuencia de las palabras en cada cluster
#
df_clusters.cluster_centers_

array([[ 2.00739875e-02,  2.70093458e-02,  1.30581516e-02,
         1.90764156e-02,  2.10280374e-02,  8.86343081e-03,
         8.95638629e-03,  8.54264019e-03,  8.97196262e-03,
         1.93341121e-02,  4.50415369e-02,  4.34292507e-03,
         1.38110073e-02,  3.40420561e-02,  1.14036664e-02,
         2.89719626e-02,  6.28363070e-03,  3.84451997e-03,
         1.82717582e-02,  2.11392968e-02,  7.96462794e-03,
         1.04078165e-02,  4.51713396e-03,  2.23024639e-03,
         3.09737307e-02,  3.88369678e-02,  9.23147275e-04,
         6.93535826e-02,  1.28929482e-01,  8.06366822e-02,
         2.73883697e-02,  2.28387850e-02,  1.40399320e-02,
         1.36348465e-02,  2.61682243e-02,  9.12675234e-03,
         1.00000000e+00, -1.45716772e-15],
       [ 1.31415167e-02,  2.98991446e-02,  7.78047293e-03,
         5.40698853e-04,  2.47578924e-03,  2.57595038e-03,
         9.57487553e-04,  1.69714669e-02,  6.88114388e-03,
         1.66443253e-02,  3.95761522e-03,  1.40767468e-03,
         4.57

**Actividad.---** Haga un heatmap para la interpretación de los grupos.

**Actividad.---** Cuál de los clusters anteriores tiene más interés en los deportes?

**Actividad.---** Cuál es el cluster de las princesas?

**Actividad.---** Cuál cluster representa las personas que no hablan o no han posteado sobre sus intereses?

Análisis del modelo
----

In [21]:
#
# Se asigna a cada ejemplo de los datos
# el cluster al que pertenece
#
df["cluster"] = df_clusters.predict(interests_z).tolist()

#
# clusters a los que pertenecen los primeros cinco patrones
#
df[["cluster", "gender", "age", "friends"]].head(5)

Unnamed: 0,cluster,gender,age,friends
0,1,M,18.982,7
1,0,F,18.801,0
2,1,M,18.335,69
3,4,F,18.875,0
4,2,,18.995,10


In [22]:
#
# Características demográficas de los clusters.
# Edad por cluster.
#
df.groupby("cluster")['age'].mean()

cluster
0    17.057595
1    17.432631
2    17.269795
3    16.990936
4    17.226794
Name: age, dtype: float64

In [23]:
# 
# Promedio de mujeres por cluster
#

#
# cluster	female
#       1 0.8381171
#       2 0.7250000
#       3 0.8378198
#       4 0.8027079
#       5 0.6994515
#
df.groupby("cluster")['female'].mean()

cluster
0    1
1    0
2    0
3    1
4    1
Name: female, dtype: int64

In [24]:
for a,b in df.groupby("cluster"):
    print(b['female'].sum())

4259
0
0
659
17136


In [25]:
#
# Cantidad promedio de amigos por cluster
#
df.groupby("cluster")['friends'].mean()

cluster
0    37.799483
1    24.926465
2    26.139134
3    40.025797
4    30.149977
Name: friends, dtype: float64

**Actividad.---** Al analizar las distintas variables presentadas, qué puede inferir de cada cluster?

**Actividad.---** Repita este ejercicio usando clustering jerárquico.