# Introducci√≥n al aprendizaje No supervisado

Previamente, aprendimos a usar regresiones lineales para estudiar si ciertas caracteristicas son utiles para predecir el resultado observado. Luego, hemos usado metodos de ensamble para refinar nuestras predicciones.

En este notebook, pasaremos de la predicci√≥n a encontrar patrones.


Qu√© haremos en este notebook:
-----

1. Entregar una introducci√≥n general al aprendizaje no supervisado.
1. Usar agrupamiento k-means como tecnica de aprendizaje no supervisado.
1. Cargar y explorar un set de datos.
1. Encontrar grupos mediante algoritmos k-means.
1. Evaluar nuestro resultado con el m√©todo Elbow.
1. Visualizar los datos con PCA. 

Aprendizaje no supervisado: B√∫squeda de patrones en los datos. üîç
------

El Aprendizaje no supervisado es el proceso mediante el cual identificamos patrones en el conjunto de datos. A menudo, identificar patrones es un paso inicial para entender nuestro datos. Los m√©todos de Aprendizaje no supervisado con una serie de t√©cnicas dise√±adas para _explorar_ y encontrar "estructuras escondidas" m√°s que predecir resultados.

El aprendizaje no supervisado no necesita datos etiquetados, por lo tanto puede trabajar en un rango m√°s amplio de datos. De hecho, la mayor parte de los datos del mundo no est√°n etiquetados. Sin embargo, ya que no hay etiquetas / respuestas correctas no siempre hay una retroalimentaci√≥n clara para validar que los resultados son correctos.
 
El aprendizaje no supervisado tambi√©n se conoce como **Data Mining**.

No supervisado
------

2 Tipos de Aprendizaje no Supervisado
--------

1. Reducci√≥n de dimensi√≥n (Dimension Reduction)

1. Agrupamiento (Clustering)

Qu√© es la reducci√≥n de dimensi√≥n?
------

La reducci√≥n de dimensi√≥n tiene como objetivo encontrar un menor n√∫mero de caracter√≠sticas que se utilizar√°n para construir un modelo que sea significativo. Hay muchas razones para reducir el numero de car√°cteristicas en un conjunto de datos, desde evitar el sobreajuste (overfitting) o acelerando el tiempo de modelado.

Una de las t√©cnicas m√°s comunes para reducir dimensiones es el An√°lisis de Componentes Principales (Principal Component Analysis, PCA).

Qu√© es el Agrupamiento?
-----
<br>
<center><img src="./images/clustering.png" width="700"></center>

El agrupamiento (clustering), es tal como suena: juntar los datos en sub-grupos (clusters) basados en caracteristicas similares. Entonces, esos subgrupos son usados para el analisis posterior. El clustering es una forma intuitiva de entender los diversos segmentos naturales que conforman tu poblaci√≥n de datos y ayuda a facilitar la visualizaci√≥n de los datos.

El m√©todo Clustering tambi√©n es llamado [an√°lisis de grupos](https://es.wikipedia.org/wiki/An%C3%A1lisis_de_grupos), segmentaci√≥n de datos o paticionamiento de datos.

Nos enfocaremos en el clustering de datos en el resto de este notebook.

Introducci√≥n al agrupamiento usando K-means
------

<center><img src="./images/k_means.png" width="700"></center>


K-means es una de las t√©cnicas de agrupamiento m√°s usadas. El objetivo del algoritmo K-means, es encontrar un conjunto de puntos cercanos entre si (un cluster) y que adem√°s est√©n lejos de otros puntos (otros clusters).

C√≥mo hacemos un agrupamiento usando k-means?
-----

Inicialmente, los puntos est√°n <i> asignados al azar</i> a un cluster. Con esto, el centro de cada grupo es calculado.

Luego se alterna entre dos pasos:

1. Paso de asignaci√≥n: Las observaciones se asignan a un grupo donde el centro est√° m√°s cerca de ellos.

2. Paso de actualizaci√≥n: Se determinan nuevos puntos centrales de los grupos.

El proceso se repite hasta que las observaciones barajadas se vuelven distantes a diferentes grupos y el centro de cada grupo no se mueve.

En otras palabras, las observaciones se reasignan constatemente a los grupos, hasta que se minimiza la distancia entre una observaci√≥n y el punto central m√°s cercano.

Ejemplo K-means
-----

![](../images/left.gif)

-----
Ajuste de K-means a los datos Kiva
------

Ahora vamos a ajustar k-means a una <b>partici√≥n</b> o <b>segmento</b> de los datos Kiva en clusters.

Importemos los paquetes m√°s importantes para comenzar el c√≥digo:

In [None]:
# Data loading and manipulation
import pandas as pd
import numpy as np

# K-Means clustering algorithm
from sklearn.cluster import KMeans

# Plotting
import seaborn as sns
import matplotlib.pyplot as plt

# Places the plots in the Jupyter Notebook
%matplotlib inline

# PCA dimension reduction
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# Keep everything visible
pd.set_option('display.max_columns', 80)
pd.set_option('expand_frame_repr', True)

----
Cargar y explorar los datos
-----

In [None]:
# Load data that is saved locally
path = '../data/'
filename = 'loans.csv'
df = pd.read_csv(path+filename)

In [None]:
# Load data from Github if using colab
#!git clone https://github.com/DeltaAnalytics/machine_learning_for_good_data
#df = pd.read_csv("machine_learning_for_good_data/loans.csv")

Siempre es una buena idea üí° echar un vistazo a los datos sin procesar.

In [None]:
df.head(n=2)

In [None]:
print(f"Hay {df.shape[1]:,} columnas en el dataframe.")
print(f"Hay {df.shape[0]:,} filas en el dataframe.")

In [None]:
df.describe()

Ahora que 


Ahora que tenemos nuestros datos configurados, podemos comenzar a dividir nuestros datos en cl√∫steres basados solo en algunas caracter√≠sticas. Pensemos c√≥mo elegir estos ...

Como prestatario o prestamista potencial, ¬øqu√© ser√≠a interesante explorar?

En los notebooks anteriores, hemos explorado algunas ideas interesantes:

- Cu√°nto dinero debe pedir prestado un prestatario
- El tiempo que lleva financiar un pr√©stamo
- Qu√© caracter√≠sticas pueden influir en el monto del pr√©stamo
- Si dividimos a los prestatarios en grupos distintos seg√∫n la rapidez con la que pueden financiar un pr√©stamo, ¬øpodremos aprender algo sobre estos grupos de prestatarios?

El algoritmo k-means utiliza caracter√≠sticas num√©ricas de valor continuo (k-means tambi√©n se puede modificar para trabajar con caracter√≠sticas categ√≥ricas y ordinales).

-----

Escojamos un par de caracteristicas num√©ricas para el an√°lisis:

¬øC√≥mo se relacionan el monto financiado y los d√≠as para financiar?
----

In [None]:
# Mantener solo las columnas relevantes
column_1 = 'funded_amount'
column_2 = 'repayment_term'
df = df[[column_1, column_2]] 

In [None]:
ax = df.funded_amount.hist(grid=False);

ax.set(xlabel='Monto financiado', 
       ylabel='Cantidad', 
       title='Histograma del Monto Financiado');  

_¬øC√≥mo podemos interpretar la cantidad de pr√©stamos con diferentes montos de financiamiento?_

<br>
<br>
<br>

In [None]:
ax = df.repayment_term.hist(grid=False);

ax.set(xlabel='Plazo de amortizaci√≥n', 
       ylabel='Cantidad', 
       title='Histograma del Plazo de amortizaci√≥n');  

_¬øC√≥mo podemos interpretar el n√∫mero de pr√©stamos para diferentes cantidades de tiempo?_

<br>
<br>
<br>

In [None]:
# Filtrar datos para eliminar valores at√≠picos (outliers)
funded_small = df.funded_amount < 2500  # Remover grandes pr√©stamos
repayment_short = df.repayment_term < 60 # Remover largos periodos de amortizaci√≥n
df = df[funded_small & repayment_short]

In [None]:
ax = df.funded_amount.hist(grid=False);

ax.set(xlabel='Monto Financiado', 
       ylabel='Cantidad', 
       title='Histograma de montos financiados');  

In [None]:
print(f"Hay {df.shape[1]:,} columnas en el dataframe.")
print(f"Hay {df.shape[0]:,} filas en el dataframe.")

In [None]:
# Grafica la relaci√≥n entre ambas variables
df.plot.scatter(x=column_1,
                y=column_2);

_¬øC√≥mo podemos interpretar la relaci√≥n entre el monto financiado y el tiempo para financiar?_

<br>
<br>
<br>

Clustering
======

----
Ajuste de nuestros datos con k-means usando scikit-learn
----

Ahora podemos correr el algoritmo k-means:

Podemos ver r√°pidamente la documentaci√≥n de [scikit-learn](http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html) para k-means.

In [None]:
# Tomar la clase KMeans, inicializar y ajustar nuestros datos.
kmeans = KMeans(n_clusters=2) # El numero de clusters deber√≠an ser 2 o 3
kmeans.fit(df);

Ahora que tenemos nuestros clusters, la mejor forma de entenderlo es visualizandolo.

In [None]:
# Agregar las etiquetas de los cluster a cada punto del dataframe
df['kmeans_labels'] = kmeans.labels_

In [None]:
# graficar k-means
kmeans_plot = sns.lmplot(x=column_1, 
                       y=column_2, 
                       data=df, 
                       fit_reg=False,        # No ajustar una regresi√≥n lineal a los datos
                       hue="kmeans_labels",  #'hue' le da un color a cada grupo
                       legend=True);

# Grafica el promedio del cluster #1
kmeans_plot.ax.plot(kmeans.cluster_centers_[0][0], kmeans.cluster_centers_[0][1], color='red', marker='*', markersize='8');

# Grafica el promedio del cluster #2
kmeans_plot.ax.plot(kmeans.cluster_centers_[1][0], kmeans.cluster_centers_[1][1], color='cyan', marker='*', markersize='8');

# # Grafica el promedio del cluster #3 (cuando corresponde)
# kmeans_plot.ax.plot(kmeans.cluster_centers_[2][0], kmeans.cluster_centers_[2][1], color='orange', marker='*');

_Por qu√© est√°n los promedios en esa posici√≥n?_

<br>
<br>
<br>

Eligiendo la cantidad de clusters
-----

El algoritmo de k-means es "ingenuo", ya que agrupa los datos en k grupos, a√∫n si k no es el n√∫mero correcto de grupos que se deber√≠a usar.

Arbitrariamente, nosotros ajustamos el n√∫mero de grupos para que sean 2, pero determinar el n√∫mero apropiado de grupos (clusters, k) es la parte m√°s desafiante del procedimiento de agrupaci√≥n.

No existe una regla estricta sobre cu√°l deber√≠a ser el valor de k ya que el n√∫mero de grupos depender√° de los datos y del objetivo del an√°lisis. El n√∫mero de grupos que elijas en la partici√≥n de tus datos, influenciar√° directamente los resultados que puedas encontrar. En la mayor√≠a de las √°reas del an√°lisis de datos, es atractivo tomar un agrupamiento lo m√°s granulado posible, pero tener muchos clusters puede ser contraproducente ya que el agrupamiento no te dar√° mucha informaci√≥n.

_¬øEs posible tener demasiados grupos? ¬øO muy pocos grupos?_

Piensa en estos ejemplos extremos: 

1. Un cluster para todos tus datos
2. Un cluster para cada punto

Ninguna de estas opciones te dir√° nada nuevo acerca de tus datos!

M√°s bien, el m√©todo de agrupamiento es m√°s efectivo cuando las observaciones en el mismo grupo son similares entre si, adem√°s queremos que las observaciones en los diferentes grupos sean tan diferente como sea posible uno de otro. 


El m√©todo Elbow para explorar el n√∫mero de clusters
------

El m√©todo de elbow (codo) es una forma simple e intuitiva para explorar como el cambio en el n√∫mero de clusters impactar√° al "apretamiento" de los clusters. 

El m√©todo elbow corre el agrupamiento de k-means en el mismo conjunto de datos para un rango de valores de k (digamos que k es [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) y para cada valor de k, calcula la suma de errores cuadrados (Sum of Squared Errors, SSE) dentro de cada cluster.

SSE es la distancia entre cada punto y el promedio m√°s cercano*, al cuadrado y sumada.

SSE es una medida de agrupaciones internamente coherentes. Cuanto m√°s bajo es SSE, mejor (una puntuaci√≥n invertida), significa que cada grupo es muy similar a s√≠ mismo. SSE es como un puntaje de golf o frecuencia card√≠aca, m√°s bajo es mejor.

A medida que k aumenta, la mejora en SSE disminuir√°. En alg√∫n momento esta falta de mejora ser√° r√°pida, creando la forma de "codo".

Se debe elegir una cantidad de clusters tal que al agregar otro cluster no proporcione un modelado mucho mejor de los datos.

<sub>*En la figura no se logra apreciar completamente porque cada eje est√° en escalas muy diferentes. T√≠picamente, los datos que se usan en k-means est√°n normalizados, por lo que los datos est√°n en la misma escala est√°ndar.</sub>


![](../images/elbow_method.png)

Lo que el m√©todo de elbow realiza, es lo siguiente:

1. Corre el algoritmo de k-means sobre tu conjunto de datos para un rango de k.
2. Para cada valor de k, calcula como el modelo se ajusta.
3. Si vemos un "codo" en nuestra verificaci√≥n graficada, entonces eso marca un buen valor para k.


In [None]:
# Ajustemos un modelo diferente para cada valor de k
k_values = range(1, 10)

# Ajusta un modelo para cada valor de k
k_mean_models = [KMeans(n_clusters=i) for i in k_values]

# Mira como los puntajes cambian
scores = [-k_mean_models[i].fit(df).score(df) 
              for i, model in enumerate(k_mean_models)] 

In [None]:
# Grafiquemos los efectos de k en el clustering
ax = sns.pointplot(x=list(k_values),
                   y=scores);
ax.set(xlabel='k', 
       ylabel='Ajuste', 
       title='M√©todo de Elbow eligiendo k');

_¬øC√≥mo podemos interpretar la relaci√≥n entre el cambio de k y el ajuste del clustering?_  
_¬øPodemos ver donde la "curva" parece un codo en un brazo?_


Visualizaci√≥n con PCA
------

Utilizamos solo dos caracter√≠sticas para el clustering, por lo que este paso de visualizaci√≥n con PCA no es realmente necesario. Sin embargo, para ilustrar el prop√≥sito de PCA, demostraremos c√≥mo se pueden resumir dos caracter√≠sticas con un componente principal.


In [None]:
# Separa las caracteristicas del dataframe
x = df[[column_1, column_2]].values

# Estandarizar (normalizar) las caracter√≠sticas
x = StandardScaler().fit_transform(x)

# Obtener el primer componente principal
pca = PCA(n_components=1)
principalComponents = pca.fit_transform(x)
principalDf = pd.DataFrame(data = principalComponents, columns = ['pc1'])
data_pca_final = df.join(principalDf)
data_pca_final['funded_amount_standardized'] = pd.Series(data = x[:,0], name = 'funded_amount_standardized')
data_pca_final['repayment_term_standardized'] = pd.Series(data = x[:,1], name = 'repayment_term_standardized')

In [None]:
#Comprender la relaci√≥n entre el componente principal y la cantidad financiada
plt.scatter(x=x[:,0], y=principalComponents[:,0])

In [None]:
# Comprender la relaci√≥n entre el componente principal y el plazo de amortizaci√≥n
plt.scatter(x=x[:,1], y=principalComponents[:,0])

_¬øQu√© observa sobre la relaci√≥n entre el componente y sus dos caracter√≠sticas subyacentes?_

In [None]:
# Vuelve a correr k-means en las caracteristicas estandarizadas
data_pca_final = data_pca_final.loc[data_pca_final[['funded_amount_standardized', 'repayment_term_standardized']].notnull().all(axis = 1)]
kmeans = KMeans(n_clusters=2) # N√∫mero de clusters debe ser 2 o 3
kmeans.fit(data_pca_final[['funded_amount_standardized', 'repayment_term_standardized']])
data_pca_final['kmeans_labels'] = kmeans.labels_

In [None]:
# Grafica el componente principal respecto a los clusters
kmeans_plot = sns.lmplot(x='pc1', 
                       y='kmeans_labels', 
                       data=data_pca_final, 
                       fit_reg=False,        # No agrega una regresion lineal al dato
                       legend=True)

_¬øQu√© notas sobre la relaci√≥n con el componente principal y la etiqueta k-means?_

Resumen
------

- Hablamos sobre c√≥mo el aprendizaje supervisado encuentra patrones en los datos.
- El clustering encuentra grupos dentro de un conjunto de datos.
- El clustering usando K-means es una t√©cnica de agrupamiento popular que encuentra iterativamente los mejores grupos y el centro/medio de grupos.
- Ajustamos k-means a los datos y evaluamos los resultados.

Estudio adicional
-----

Si quieres entender k-mean en profundidad, empieza el notebook que encontrar√°s [aqu√≠](https://jakevdp.github.io/PythonDataScienceHandbook/05.11-k-means.html)

Si est√°s interesado/a en la teor√≠a detr√°s de k-means, te recomendamos este gran recurso [aqu√≠](https://www-users.cs.umn.edu/~kumar/dmbook/ch8.pdf). 

Hay muchos otros m√©todos de agrupamiento. Otro m√©todo popular es el [Agrupamiento jerarquico](https://es.wikipedia.org/wiki/Agrupamiento_jer%C3%A1rquico).

<br>
<br> 
<br>

----