<a href="https://www.bigdatauniversity.com"><img src = "https://ibm.box.com/shared/static/cw2c7r3o20w9zn8gkecaeyjhgw3xdgbj.png" width = 400, align = "center"></a>

# <center>Agrupamiento por k medias</center>

## Introducción

Existen muchos modelos de **agrupamiento**. En este cuaderno presentaremos uno de los más simples. A pesar de su simplicidad, el modelo de **K medias** se utiliza ampliamente con fines de agrupamiento en aplicaciones de ciencia de datos, y es particularmente útil si se necesita conocer **datos sin etiquetar** rápidamente. Aquí aprenderemos a usarlo con fines de segmentación de clientes.

Algunas aplicaciones del agrupamiento por k medias en el mundo real:
- segmentación de clientes
- descubrir qué intentan hacer los visitantes de un sitio web
- reconocimiento de patrones
- aprendizaje automático
- compresión de datos
En este cuaderno, practicaremos el agrupamiento por K medias con dos ejemplos:
- k medias en un conjunto de datos generados al azar
- uso del modelo de k medias para segmentación de clientes


### Importación de las bibliotecas
Primero importemos las bibliotecas necesarias. 
También ejecutemos <b> %matplotlib inline </b> ya que en esta sección graficaremos.

In [None]:
import random 
import numpy as np 
import matplotlib.pyplot as plt 
from sklearn.cluster import KMeans 
from sklearn.datasets.samples_generator import make_blobs 
%matplotlib inline

#  medias en un conjunto de datos generados al azar
¡Creemos nuestro propio conjunto de datos para este laboratorio!


Primero necesitamos establecer una semilla generadora de números aleatorios. Usamos la función  <b>numpy's random.seed()</b>, con la cual establecemos la semilla en <b>0</b>

In [None]:
np.random.seed(0)

A continuación crearemos <i> clústeres de puntos aleatorios </i> mediante el uso de la clase <b> make_blobs </b>. La clase <b> make_blobs </b> acepta varios datos de entrada, pero solo usaremos los siguientes: <br> <br>
<b> <u> Entrada </u> </b>
<ul>
    <li> <b>n_samples</b>: Tes la cantidad total de puntos dividida por igual entre clústeres.</li>
    <ul> <li> El valor será: 5000 </li> </ul>
    <li> <b>centers</b>: es la cantidad de centros que se generarán, o la ubicación fija de los centros. </li>
    <ul> <li> El valor será: [[4, 4], [-2, -1], [2, -3],[1,1]] </li> </ul>
    <li> <b>cluster_std</b>: la desviación estándar de los clústeres. </li>
    <ul> <li> El valor será: 0.9 </li> </ul>
</ul>
<br>
<b> <u> Información de salida </u> </b>
<ul>
    <li> <b>X</b>: arreglo de forma [n_muestras, n_características] (matriz de características)</li>
    <ul> <li> Las muestras generadas. </li> </ul> 
    <li> <b>y</b>: arreglo de forma [n_muestras] (vector de respuesta)</li>
    <ul> <li> Las etiquetas enteras de pertenencias a clústeres de cada muestra. </li> </ul>
</ul>


In [None]:
X, y = make_blobs(n_samples=5000, centers=[[4,4], [-2, -1], [2, -3], [1, 1]], cluster_std=0.9)

Mostramos el diagrama de dispersión de los datos generados de manera aleatoria.

In [None]:
plt.scatter(X[:, 0], X[:, 1], marker='.')

## Preparación del agrupamiento por k medias
Ahora que tenemos nuestros datos aleatorios, preparemos nuestro agrupamiento por k medias.

Con la clase KMeans pueden usarse muchos parámetros, pero usaremos estos tres:
<ul>
    <li> <b>init</b>: método de inicialización de los baricentros. </li>
    <ul>
        <li> El valor será: "k-means++" </li>
        <li> k-means++: selecciona los centros de clústeres iniciales para agrupamiento por k medias de manera inteligente, para acelerar la convergencia. </li>
    </ul>
    <li> <b>n\_clusters</b>: cantidad de clústeres que se formarán y cantidad de baricentros que se generarán.</li>
    <ul> <li> El valor será: 4 (porque tenemos 4 centros) </li> </ul>
    <li> <b>n\_init</b>: cantidad de veces que se ejecuta el algoritmo de k medias con diferentes semillas de baricentro. Los resultados finales serán lo mejor que se obtenga con n\_init ejecuciones consecutivas en términos de inercia. </li>
    <ul> <li> El valor será: 12 </li> </ul>
</ul>

Iniciemos el algoritmo de k medias con estos parámetros, donde el parámetro de salida se llama  <b>k_means</b>.

In [None]:
k_means = KMeans(init = "k-means++", n_clusters = 4, n_init = 12)

Ahora apliquemos el modelo de k medias a la matriz de características que creamos antes, <b> X </b>

In [None]:
k_means.fit(X)

Ahora tomemos las etiquetas de cada punto del modelo mediante el uso del atributo, <b> .labels\_ </b> de la clase KMeans y guardémoslas como <b> k_means_labels </b> 

In [None]:
k_means_labels = k_means.labels_
k_means_labels

También tomaremos las coordenadas de los centros de clústeres por medio de <b> .cluster&#95;centers&#95; </b> de KMeans y las guardaremos como <b> k_means_cluster_centers </b>

In [None]:
k_means_cluster_centers = k_means.cluster_centers_
k_means_cluster_centers

## Creación de la representación visual
Ahora que hemos generado los datos aleatorios e iniciamos el modelo de k medias, ¡hagamos una representación gráfica de ellos para ver su aspecto!

Lea el código y los comentarios para entender cómo graficar el modelo.

In [None]:
# Initialize the plot with the specified dimensions.
fig = plt.figure(figsize=(6, 4))

# Colors uses a color map, which will produce an array of colors based on
# the number of labels there are. We use set(k_means_labels) to get the
# unique labels.
colors = plt.cm.Spectral(np.linspace(0, 1, len(set(k_means_labels))))

# Create a plot
ax = fig.add_subplot(1, 1, 1)

# For loop that plots the data points and centroids.
# k will range from 0-3, which will match the possible clusters that each
# data point is in.
for k, col in zip(range(len([[4,4], [-2, -1], [2, -3], [1, 1]])), colors):

    # Create a list of all data points, where the data poitns that are 
    # in the cluster (ex. cluster 0) are labeled as true, else they are
    # labeled as false.
    my_members = (k_means_labels == k)
    
    # Define the centroid, or cluster center.
    cluster_center = k_means_cluster_centers[k]
    
    # Plots the datapoints with color col.
    ax.plot(X[my_members, 0], X[my_members, 1], 'w', markerfacecolor=col, marker='.')
    
    # Plots the centroids with specified color, but with a darker outline
    ax.plot(cluster_center[0], cluster_center[1], 'o', markerfacecolor=col,  markeredgecolor='k', markersize=6)

# Title of the plot
ax.set_title('KMeans')

# Remove x-axis ticks
ax.set_xticks(())

# Remove y-axis ticks
ax.set_yticks(())

# Show the plot
plt.show()


## Práctica
Intente agrupar el conjunto de datos anterior en 3 clústeres.
Aviso: no vuelva a generar datos; use el mismo conjunto de antes.

In [None]:
# write your code here





Haga doble clic __aquí__ para ver la solución.

<!-- Your answer is below:

k_means3 = KMeans(init = "k-means++", n_clusters = 3, n_init = 12)
k_means3.fit(X)
fig = plt.figure(figsize=(6, 4))
colors = plt.cm.Spectral(np.linspace(0, 1, len(set(k_means3.labels_))))
ax = fig.add_subplot(1, 1, 1)
for k, col in zip(range(len(k_means3.cluster_centers_)), colors):
    my_members = (k_means3.labels_ == k)
    cluster_center = k_means3.cluster_centers_[k]
    ax.plot(X[my_members, 0], X[my_members, 1], 'w', markerfacecolor=col, marker='.')
    ax.plot(cluster_center[0], cluster_center[1], 'o', markerfacecolor=col,  markeredgecolor='k', markersize=6)
plt.show()


-->

# Segmentación de clientes con el método de k medias
Suponga que tiene un conjunto de datos de clientes y necesita aplicar segmentación de clientes en estos datos históricos. 
La segmentación de clientes es el método que consiste en particionar una base de clientes en grupos o personas que presentan características similares. Es una estrategia valiosa porque una empresa puede dirigirse a estos grupos de clientes en particular y asignar recursos de *marketing* de manera eficaz. Por ejemplo, un grupo podría contener clientes que representan mucha ganancia y poco riesgo. Es decir que representan una mayor probabilidad de adquirir productos o suscribirse a un servicio. Una tarea de la empresa es retener a esos clientes. Otro grupo podría incluir clientes de organizaciones sin fines de lucro. Y así sucesivamente.

Descarguemos el conjunto de datos. Para descargar los datos, usaremos **`!wget`**. Usaremos **`!wget`** para descargar los datos de IBM Object Storage.
__¿Sabía usted?__ Al usar aprendizaje automático, es probable que trabaje con grandes conjuntos de datos. Como empresa, ¿dónde puede alojar sus datos? IBM ofrece una oportunidad inigualable para empresas, con 10 TB de almacenamiento en IBM Cloud Object Storage: [Regístrese ahora gratis](http://cocl.us/ML0101EN-IBM-Offer-CC)

In [None]:
!wget -O Cust_Segmentation.csv https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/Cust_Segmentation.csv

### Carga de datos del archivo CSV
Antes de poder trabajar con los datos, debe usar el URL para obtener el archivo Cust_Segmentation.csv.

In [None]:
import pandas as pd
cust_df = pd.read_csv("Cust_Segmentation.csv")
cust_df.head()

### Preprocesamiento

Como puede observar, la __dirección [Address]__ en este conjunto de datos es una variable categórica. El algoritmo de k medias no es aplicable a variables categóricas de manera directa, porque la función de distancia euclidiana no es significativa para variables discretas. Por lo tanto, dejemos de lado esa característica y realicemos el agrupamiento.

In [None]:
df = cust_df.drop('Address', axis=1)
df.head()

#### Normalización sobre la desviación estándar
Ahora normalicemos el conjunto de datos. Pero, ¿por qué necesitamos normalizarlo en primer lugar? La normalización es un método estadístico que ayuda a algoritmos basados en matemática a interpretar características de diferentes magnitudes y distribuciones de la misma manera. Usamos __tandardScaler()__ para normalizar nuestro conjunto de datos.

In [None]:
from sklearn.preprocessing import StandardScaler
X = df.values[:,1:]
X = np.nan_to_num(X)
Clus_dataSet = StandardScaler().fit_transform(X)
Clus_dataSet

### Modelado

En nuestro ejemplo (si no tuviéramos acceso al algoritmo de k medias), sería lo mismo que conjeturar, con múltiples pruebas y experimentos, que cada grupo de clientes tendría cierta edad, ingresos, educación, etc. Sin embargo, con el agrupamiento por k medias, podemos realizar todo este proceso de manera mucho más sencilla.

Apliquemos el algoritmo de k medias a nuestro conjunto de datos y observemos las etiquetas de los clústeres.

In [None]:
clusterNum = 3
k_means = KMeans(init = "k-means++", n_clusters = clusterNum, n_init = 12)
k_means.fit(X)
labels = k_means.labels_
print(labels)

### Conocimientos
Asignamos las etiquetas a todas las filas de la hoja de datos.

In [None]:
df["Clus_km"] = labels
df.head(5)

Es fácil comprobar los valores de los baricentros: calculamos el promedio de las características en cada clúster.

In [None]:
df.groupby('Clus_km').mean()

Ahora observemos la distribución de clientes según su edad e ingresos:

In [None]:
area = np.pi * ( X[:, 1])**2  
plt.scatter(X[:, 0], X[:, 3], s=area, c=labels.astype(np.float), alpha=0.5)
plt.xlabel('Age', fontsize=18)
plt.ylabel('Income', fontsize=16)

plt.show()


In [None]:
from mpl_toolkits.mplot3d import Axes3D 
fig = plt.figure(1, figsize=(8, 6))
plt.clf()
ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)

plt.cla()
# plt.ylabel('Age', fontsize=18)
# plt.xlabel('Income', fontsize=16)
# plt.zlabel('Education', fontsize=16)
ax.set_xlabel('Education')
ax.set_ylabel('Age')
ax.set_zlabel('Income')

ax.scatter(X[:, 1], X[:, 0], X[:, 3], c= labels.astype(np.float))


El método de k medias hará una partición de los clientes en grupos mutuamente excluyentes. Por ejemplo, en 3 clústeres. Los clientes de cada clúster son similares entre sí desde el punto de vista demográfico. Ahora, considerando las características comunes de cada clúster, podemos crear un perfil para cada grupo. 

Por ejemplo, los tres clústeres pueden ser:
- DE BUENA POSICIÓN ECONÓMICA, EDUCADO Y DE EDAD AVANZADA
- DE MEDIANA EDAD Y MEDIANOS INGRESOS
- JOVEN Y DE BAJOS INGRESOS


## ¿Desea saber más?

IBM SPSS Modeler es una plataforma de análisis completa que tiene muchos algoritmos de aprendizaje automático. Ha sido diseñada para aportar inteligencia predictiva a las decisiones que toman personas, grupos, sistemas, su empresa como conjunto. Este curso le permite acceder a una evaluación gratuita, disponible en este enlace: [SPSS Modeler](http://cocl.us/ML0101EN-SPSSModeler).

También puede usar Watson Studio para ejecutar estos cuadernos más rápido con conjuntos de datos más grandes. Watson Studio es la solución de IBM en la nube número uno para científicos de datos, construida por científicos de datos. Con los cuadernos Jupyter, RStudio, Apache Spark y otras bibliotecas populares preempaquetadas en la nube, Watson Studio hace posible que los científicos de datos colaboren en sus proyectos sin necesidad de instalar nada. Súmese hoy mismo a la comunidad de usuarios de Watson Studio, que crece cada día más, con una cuenta gratuita en [Watson Studio](https://cocl.us/ML0101EN_DSX)

### ¡Gracias por completar esta lección!

Cuaderno creado por: <a href = "https://ca.linkedin.com/in/saeedaghabozorgi">Saeed Aghabozorgi</a>

<hr>
Copyright &copy; 2018 [Cognitive Class](https://cocl.us/DX0108EN_CC). Este cuaderno y su código fuente se difunden de conformidad con los términos de la [licencia del MIT](https://bigdatauniversity.com/mit-license/).​