# Introducción al aprendizaje No supervisado

Previamente, aprendimos a usar regresiones lineales para estudiar si ciertas caracteristicas son utiles para predecir el resultado observado. Luego, hemos usado metodos de ensamble para refinar nuestras predicciones.

En este notebook, pasaremos de la predicción a encontrar patrones.


Qué haremos en este notebook:
-----

1. Entregar una introducción general al aprendizaje no supervisado.
1. Usar agrupamiento k-means como tecnica de aprendizaje no supervisado.
1. Cargar y explorar un set de datos.
1. Encontrar grupos mediante algoritmos k-means.
1. Evaluar nuestro resultado con el método Elbow.
1. Visualizar los datos con PCA. 

Aprendizaje no supervisado: Búsqueda de patrones en los datos. 🔍
------

El Aprendizaje no supervisado es el proceso mediante el cual identificamos patrones en el conjunto de datos. A menudo, identificar patrones es un paso inicial para entender nuestro datos. Los métodos de Aprendizaje no supervisado con una serie de técnicas diseñadas para _explorar_ y encontrar "estructuras escondidas" más que predecir resultados.

El aprendizaje no supervisado no necesita datos etiquetados, por lo tanto puede trabajar en un rango más amplio de datos. De hecho, la mayor parte de los datos del mundo no están etiquetados. Sin embargo, ya que no hay etiquetas / respuestas correctas no siempre hay una retroalimentación clara para validar que los resultados son correctos.
 
El aprendizaje no supervisado también se conoce como **Data Mining**.

No supervisado
------

2 Tipos de Aprendizaje no Supervisado
--------

1. Reducción de dimensión (Dimension Reduction)

1. Agrupamiento (Clustering)

Qué es la reducción de dimensión?
------

La reducción de dimensión tiene como objetivo encontrar un menor número de características que se utilizarán para construir un modelo que sea significativo. Hay muchas razones para reducir el numero de carácteristicas en un conjunto de datos, desde evitar el sobreajuste (overfitting) o acelerando el tiempo de modelado.

Una de las técnicas más comunes para reducir dimensiones es el Análisis de Componentes Principales (Principal Component Analysis, PCA).

Qué es el Agrupamiento?
-----
<br>
<center><img src="./images/clustering.png" width="700"></center>

El agrupamiento (clustering), es tal como suena: juntar los datos en sub-grupos (clusters) basados en caracteristicas similares. Entonces, esos subgrupos son usados para el analisis posterior. El clustering es una forma intuitiva de entender los diversos segmentos naturales que conforman tu población de datos y ayuda a facilitar la visualización de los datos.

El método Clustering también es llamado [análisis de grupos](https://es.wikipedia.org/wiki/An%C3%A1lisis_de_grupos), segmentación de datos o paticionamiento de datos.

Nos enfocaremos en el clustering de datos en el resto de este notebook.

Introducción al agrupamiento usando K-means
------

<center><img src="./images/k_means.png" width="700"></center>


K-means es una de las técnicas de agrupamiento más usadas. El objetivo del algoritmo K-means, es encontrar un conjunto de puntos cercanos entre si (un cluster) y que además estén lejos de otros puntos (otros clusters).

Cómo hacemos un agrupamiento usando k-means?
-----

Inicialmente, los puntos están <i> asignados al azar</i> a un cluster. Con esto, el centro de cada grupo es calculado.

Luego se alterna entre dos pasos:

1. Paso de asignación: Las observaciones se asignan a un grupo donde el centro está más cerca de ellos.

2. Paso de actualización: Se determinan nuevos puntos centrales de los grupos.

El proceso se repite hasta que las observaciones barajadas se vuelven distantes a diferentes grupos y el centro de cada grupo no se mueve.

En otras palabras, las observaciones se reasignan constatemente a los grupos, hasta que se minimiza la distancia entre una observación y el punto central más cercano.

Ejemplo K-means
-----

![](../images/left.gif)

-----
Ajuste de K-means a los datos Kiva
------

Ahora vamos a ajustar k-means a una <b>partición</b> o <b>segmento</b> de los datos Kiva en clusters.

Importemos los paquetes más importantes para comenzar el código:

In [None]:
# Data loading and manipulation
import pandas as pd
import numpy as np

# K-Means clustering algorithm
from sklearn.cluster import KMeans

# Plotting
import seaborn as sns
import matplotlib.pyplot as plt

# Places the plots in the Jupyter Notebook
%matplotlib inline

# PCA dimension reduction
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# Keep everything visible
pd.set_option('display.max_columns', 80)
pd.set_option('expand_frame_repr', True)

----
Cargar y explorar los datos
-----

In [None]:
# Load data that is saved locally
path = '../data/'
filename = 'loans.csv'
df = pd.read_csv(path+filename)

In [None]:
# Load data from Github if using colab
#!git clone https://github.com/DeltaAnalytics/machine_learning_for_good_data
#df = pd.read_csv("machine_learning_for_good_data/loans.csv")

Siempre es una buena idea 💡 echar un vistazo a los datos sin procesar.

In [None]:
df.head(n=2)

In [None]:
print(f"Hay {df.shape[1]:,} columnas en el dataframe.")
print(f"Hay {df.shape[0]:,} filas en el dataframe.")

In [None]:
df.describe()

Ahora que 


Ahora que tenemos nuestros datos configurados, podemos comenzar a dividir nuestros datos en clústeres basados solo en algunas características. Pensemos cómo elegir estos ...

Como prestatario o prestamista potencial, ¿qué sería interesante explorar?

En los notebooks anteriores, hemos explorado algunas ideas interesantes:

- Cuánto dinero debe pedir prestado un prestatario
- El tiempo que lleva financiar un préstamo
- Qué características pueden influir en el monto del préstamo
- Si dividimos a los prestatarios en grupos distintos según la rapidez con la que pueden financiar un préstamo, ¿podremos aprender algo sobre estos grupos de prestatarios?

El algoritmo k-means utiliza características numéricas de valor continuo (k-means también se puede modificar para trabajar con características categóricas y ordinales).

-----

Escojamos un par de caracteristicas numéricas para el análisis:

¿Cómo se relacionan el monto financiado y los días para financiar?
----

In [None]:
# Mantener solo las columnas relevantes
column_1 = 'funded_amount'
column_2 = 'repayment_term'
df = df[[column_1, column_2]] 

In [None]:
ax = df.funded_amount.hist(grid=False);

ax.set(xlabel='Monto financiado', 
       ylabel='Cantidad', 
       title='Histograma del Monto Financiado');  

_¿Cómo podemos interpretar la cantidad de préstamos con diferentes montos de financiamiento?_

<br>
<br>
<br>

In [None]:
ax = df.repayment_term.hist(grid=False);

ax.set(xlabel='Plazo de amortización', 
       ylabel='Cantidad', 
       title='Histograma del Plazo de amortización');  

_¿Cómo podemos interpretar el número de préstamos para diferentes cantidades de tiempo?_

<br>
<br>
<br>

In [None]:
# Filtrar datos para eliminar valores atípicos (outliers)
funded_small = df.funded_amount < 2500  # Remover grandes préstamos
repayment_short = df.repayment_term < 60 # Remover largos periodos de amortización
df = df[funded_small & repayment_short]

In [None]:
ax = df.funded_amount.hist(grid=False);

ax.set(xlabel='Monto Financiado', 
       ylabel='Cantidad', 
       title='Histograma de montos financiados');  

In [None]:
print(f"Hay {df.shape[1]:,} columnas en el dataframe.")
print(f"Hay {df.shape[0]:,} filas en el dataframe.")

In [None]:
# Grafica la relación entre ambas variables
df.plot.scatter(x=column_1,
                y=column_2);

_¿Cómo podemos interpretar la relación entre el monto financiado y el tiempo para financiar?_

<br>
<br>
<br>

Clustering
======

----
Ajuste de nuestros datos con k-means usando scikit-learn
----

Ahora podemos correr el algoritmo k-means:

Podemos ver rápidamente la documentación de [scikit-learn](http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html) para k-means.

In [None]:
# Tomar la clase KMeans, inicializar y ajustar nuestros datos.
kmeans = KMeans(n_clusters=2) # El numero de clusters deberían ser 2 o 3
kmeans.fit(df);

Ahora que tenemos nuestros clusters, la mejor forma de entenderlo es visualizandolo.

In [None]:
# Agregar las etiquetas de los cluster a cada punto del dataframe
df['kmeans_labels'] = kmeans.labels_

In [None]:
# graficar k-means
kmeans_plot = sns.lmplot(x=column_1, 
                       y=column_2, 
                       data=df, 
                       fit_reg=False,        # No ajustar una regresión lineal a los datos
                       hue="kmeans_labels",  #'hue' le da un color a cada grupo
                       legend=True);

# Grafica el promedio del cluster #1
kmeans_plot.ax.plot(kmeans.cluster_centers_[0][0], kmeans.cluster_centers_[0][1], color='red', marker='*', markersize='8');

# Grafica el promedio del cluster #2
kmeans_plot.ax.plot(kmeans.cluster_centers_[1][0], kmeans.cluster_centers_[1][1], color='cyan', marker='*', markersize='8');

# # Grafica el promedio del cluster #3 (cuando corresponde)
# kmeans_plot.ax.plot(kmeans.cluster_centers_[2][0], kmeans.cluster_centers_[2][1], color='orange', marker='*');

_Por qué están los promedios en esa posición?_

<br>
<br>
<br>

Eligiendo la cantidad de clusters
-----

El algoritmo de k-means es "ingenuo", ya que agrupa los datos en k grupos, aún si k no es el número correcto de grupos que se debería usar.

Arbitrariamente, nosotros ajustamos el número de grupos para que sean 2, pero determinar el número apropiado de grupos (clusters, k) es la parte más desafiante del procedimiento de agrupación.

No existe una regla estricta sobre cuál debería ser el valor de k ya que el número de grupos dependerá de los datos y del objetivo del análisis. El número de grupos que elijas en la partición de tus datos, influenciará directamente los resultados que puedas encontrar. En la mayoría de las áreas del análisis de datos, es atractivo tomar un agrupamiento lo más granulado posible, pero tener muchos clusters puede ser contraproducente ya que el agrupamiento no te dará mucha información.

_¿Es posible tener demasiados grupos? ¿O muy pocos grupos?_

Piensa en estos ejemplos extremos: 

1. Un cluster para todos tus datos
2. Un cluster para cada punto

Ninguna de estas opciones te dirá nada nuevo acerca de tus datos!

Más bien, el método de agrupamiento es más efectivo cuando las observaciones en el mismo grupo son similares entre si, además queremos que las observaciones en los diferentes grupos sean tan diferente como sea posible uno de otro. 


El método Elbow para explorar el número de clusters
------

El método de elbow (codo) es una forma simple e intuitiva para explorar como el cambio en el número de clusters impactará al "apretamiento" de los clusters. 

El método elbow corre el agrupamiento de k-means en el mismo conjunto de datos para un rango de valores de k (digamos que k es [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) y para cada valor de k, calcula la suma de errores cuadrados (Sum of Squared Errors, SSE) dentro de cada cluster.

SSE es la distancia entre cada punto y el promedio más cercano*, al cuadrado y sumada.

SSE es una medida de agrupaciones internamente coherentes. Cuanto más bajo es SSE, mejor (una puntuación invertida), significa que cada grupo es muy similar a sí mismo. SSE es como un puntaje de golf o frecuencia cardíaca, más bajo es mejor.

A medida que k aumenta, la mejora en SSE disminuirá. En algún momento esta falta de mejora será rápida, creando la forma de "codo".

Se debe elegir una cantidad de clusters tal que al agregar otro cluster no proporcione un modelado mucho mejor de los datos.

<sub>*En la figura no se logra apreciar completamente porque cada eje está en escalas muy diferentes. Típicamente, los datos que se usan en k-means están normalizados, por lo que los datos están en la misma escala estándar.</sub>


![](../images/elbow_method.png)

Lo que el método de elbow realiza, es lo siguiente:

1. Corre el algoritmo de k-means sobre tu conjunto de datos para un rango de k.
2. Para cada valor de k, calcula como el modelo se ajusta.
3. Si vemos un "codo" en nuestra verificación graficada, entonces eso marca un buen valor para k.


In [None]:
# Ajustemos un modelo diferente para cada valor de k
k_values = range(1, 10)

# Ajusta un modelo para cada valor de k
k_mean_models = [KMeans(n_clusters=i) for i in k_values]

# Mira como los puntajes cambian
scores = [-k_mean_models[i].fit(df).score(df) 
              for i, model in enumerate(k_mean_models)] 

In [None]:
# Grafiquemos los efectos de k en el clustering
ax = sns.pointplot(x=list(k_values),
                   y=scores);
ax.set(xlabel='k', 
       ylabel='Ajuste', 
       title='Método de Elbow eligiendo k');

_¿Cómo podemos interpretar la relación entre el cambio de k y el ajuste del clustering?_  
_¿Podemos ver donde la "curva" parece un codo en un brazo?_


Visualización con PCA
------

Utilizamos solo dos características para el clustering, por lo que este paso de visualización con PCA no es realmente necesario. Sin embargo, para ilustrar el propósito de PCA, demostraremos cómo se pueden resumir dos características con un componente principal.


In [None]:
# Separa las caracteristicas del dataframe
x = df[[column_1, column_2]].values

# Estandarizar (normalizar) las características
x = StandardScaler().fit_transform(x)

# Obtener el primer componente principal
pca = PCA(n_components=1)
principalComponents = pca.fit_transform(x)
principalDf = pd.DataFrame(data = principalComponents, columns = ['pc1'])
data_pca_final = df.join(principalDf)
data_pca_final['funded_amount_standardized'] = pd.Series(data = x[:,0], name = 'funded_amount_standardized')
data_pca_final['repayment_term_standardized'] = pd.Series(data = x[:,1], name = 'repayment_term_standardized')

In [None]:
#Comprender la relación entre el componente principal y la cantidad financiada
plt.scatter(x=x[:,0], y=principalComponents[:,0])

In [None]:
# Comprender la relación entre el componente principal y el plazo de amortización
plt.scatter(x=x[:,1], y=principalComponents[:,0])

_¿Qué observa sobre la relación entre el componente y sus dos características subyacentes?_

In [None]:
# Vuelve a correr k-means en las caracteristicas estandarizadas
data_pca_final = data_pca_final.loc[data_pca_final[['funded_amount_standardized', 'repayment_term_standardized']].notnull().all(axis = 1)]
kmeans = KMeans(n_clusters=2) # Número de clusters debe ser 2 o 3
kmeans.fit(data_pca_final[['funded_amount_standardized', 'repayment_term_standardized']])
data_pca_final['kmeans_labels'] = kmeans.labels_

In [None]:
# Grafica el componente principal respecto a los clusters
kmeans_plot = sns.lmplot(x='pc1', 
                       y='kmeans_labels', 
                       data=data_pca_final, 
                       fit_reg=False,        # No agrega una regresion lineal al dato
                       legend=True)

_¿Qué notas sobre la relación con el componente principal y la etiqueta k-means?_

Resumen
------

- Hablamos sobre cómo el aprendizaje supervisado encuentra patrones en los datos.
- El clustering encuentra grupos dentro de un conjunto de datos.
- El clustering usando K-means es una técnica de agrupamiento popular que encuentra iterativamente los mejores grupos y el centro/medio de grupos.
- Ajustamos k-means a los datos y evaluamos los resultados.

Estudio adicional
-----

Si quieres entender k-mean en profundidad, empieza el notebook que encontrarás [aquí](https://jakevdp.github.io/PythonDataScienceHandbook/05.11-k-means.html)

Si estás interesado/a en la teoría detrás de k-means, te recomendamos este gran recurso [aquí](https://www-users.cs.umn.edu/~kumar/dmbook/ch8.pdf). 

Hay muchos otros métodos de agrupamiento. Otro método popular es el [Agrupamiento jerarquico](https://es.wikipedia.org/wiki/Agrupamiento_jer%C3%A1rquico).

<br>
<br> 
<br>

----