<a href="https://colab.research.google.com/github/ncadavia/DictamenJuridico/blob/master/NoSupervisado/AprendizajeNoSupervisado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

________________
# <center> Aprendizaje supervisado </center>
________________

<div align='justify'>
<h2> En el aprendizaje supervisado asumimos que existe una función $f$ entre las características $X$ y las etiquetas $Y$: 
$$Y = f(X)$$
$f$ es desconocida y entonces los objetivos del aprendizaje supervisado se centran en encontrar un modelo $\hat{f}$ que aproxime lo mejor posible a $f$: $$\hat{f} \approx f.$$
$\hat{f}$ puede ser una regresión, un árbol de decisión, ...</h2>
</div>

<p align="center">
<img src="https://raw.githubusercontent.com/garestrear/ninja-pythonist/master/NoSupervisado/Supervisado.png">
</p>

________________
# <center> Aprendizaje no supervisado </center>
________________

<h2> En el aprendizaje no supervisado contamos con las caracaterísticas $X$, pero no con las etiquetas $Y$. </h2>

<p align="center">
<img src="https://raw.githubusercontent.com/garestrear/ninja-pythonist/master/NoSupervisado/NoSupervisado.png">
</p>

<div align='justify'>
<h2>El objetivo de un algoritmo de aprendizaje no supervisado es crear un modelo que tome las características $X$ como entrada y nos devuelva unas nuevas características o  un valor que se puede utilizar para resolver un problema práctico. Por ejemplo, en la <u><em>reducción de dimensionalidad</em></u>, la salida del modelo serán una cantidad de características inferior  a la entrada original $X$. En el <u><em> agrupamiento </em></u>, el modelo devuelve la identificación del grupo para cada observación en el conjunto de datos.</h2>
</div>

________________
# <center> Reducción de dimensionalidad </center>
________________


<div align='justify'>
<h2>
La reducción de dimensionalidad es el proceso de tomar datos en un espacio de alta dimensión y llevarlos a un nuevo espacio cuya dimensionalidad es mucho más pequeña.
</h2>

<h2>
Hay varias razones para reducir la dimensionalidad de los datos:
</h2>
<h2>
$\circ$ filtrar características no tan relevantes y conservar la mayor cantidad posible de las interesantes,
</h2>
<h2>
$\circ$ los datos de alta dimensión imponen desafíos computacionales,
</h2>
<h2>
$\circ$ la reducción de dimensionalidad es ideal para explorar y mejorar nuestra comprensión sobre un conjunto de datos.
</h2> 
</div>

## <center> <u> <h2> Análisis de componente principales ─ PCA </h2> </u> </center>

<h2> Algunas células
<p align="center">
<img src="https://raw.githubusercontent.com/garestrear/ninja-pythonist/master/NoSupervisado/celulas.png">
&emsp;
&emsp;
&emsp;
&emsp;
&emsp;
&emsp;
<img src="https://raw.githubusercontent.com/garestrear/ninja-pythonist/master/NoSupervisado/celulas2.png">
</p>

<h2> Los datos </h2>

<p align="center">
<img src="https://raw.githubusercontent.com/garestrear/ninja-pythonist/master/NoSupervisado/tabla_celulas.png">
</br>
<img src="https://raw.githubusercontent.com/garestrear/ninja-pythonist/master/NoSupervisado/grafica_celulas_1.png">

<img src="https://raw.githubusercontent.com/garestrear/ninja-pythonist/master/NoSupervisado/grafica_celulas_2.png">

<img src="https://raw.githubusercontent.com/garestrear/ninja-pythonist/master/NoSupervisado/grafica_celulas_3.png">
</p>

<p align="center">
<img src="https://raw.githubusercontent.com/garestrear/ninja-pythonist/master/NoSupervisado/grafica_celulas_4.png">
</p>

<br>
<h2> <center> ¿Qué hacemos si hay 4 ó más células?</center></h2>

<h2> Un gráfico de análisis de componentes principales convierte las correlaciones (o la falta de ellas) entre todas las células en un gráfico 2-D o 3-D.  </h2>


<p align="center">
<img src="https://raw.githubusercontent.com/garestrear/ninja-pythonist/master/NoSupervisado/PCA.png">
</p>
<div align='justify'>
<h2> Las células que tienen correlaciones elevadas se agrupan juntas.
<br>
Los ejes están clasificados por orden de importancia. Las diferencias a lo largo del primer eje de análisis de componentes principales (PC1) son más importantes que las diferencias a lo largo del segundo  eje de análisis de componentes principales (PC2).   </h2>
</div>


<p align="center">
<img src="https://raw.githubusercontent.com/garestrear/ninja-pythonist/master/NoSupervisado/PCA2.png">
</p>


[Ver video ](https://www.youtube.com/watch?v=HMOI_lkzW08)

<div align='justify'>
<h2>
<u> Un poco más de detalle:</u> las componentes principales son vectores que definen un nuevo sistema de coordenadas en el que el primer eje va en la dirección de la varianza más alta en los datos. El segundo eje es ortogonal al primero y va en la dirección de la segunda varianza más alta en los datos. El tercer eje sería ortogonal tanto al primer como al segundo eje e iría en la dirección de la tercera varianza más alta y así sucesivamente.
</h2>

## <center> <u> <h2> PCA en scikit-learn </h2> </u> </center>

<div align='justify'>
<h2> scikit-learn tiene una implementación de PCA:
<br>
$\circ$ el método <u>fit()</u> aprende cómo mover y rotar los datos para que estén alineados con los ejes coordenados y tengan media $0$
<br>
$\circ$ el método <u>transform()</u> lleva a cabo la transformación que se aprendió con el método <u>fit()</u>,
<br>
$\circ$ antes de usar PCA es importante estandarizar los datos 
$$z = (x - u) / s$$
donde 
<br>
$u$ es la media de las muestras de entrenamiento o cero si `with_mean = False`, 
<br>
$s$ es la desviación estándar de las muestras de entrenamiento o uno si `with_std = False`,
<br>
Esto lo hacemos con `StandardScaler`
<br>   </h2>
<h2>
<strong> Pregunta:</strong>
¿Podremos usar PCA en muestras nuevas?
</h2>

In [1]:
import pandas as pd 

In [2]:
# Cada fila representa medidas para un pez individual entre ellas peso (g), 
# largo (cm), altura (?), cocientre entre altura y largo,...
fish = pd.read_csv('fish.csv', header = None)
display(fish.sample(5))
print("")
samples = fish.drop(columns=[0])
display(samples.sample(5))

# Guardamos las especies en una nueva lista
especies = fish[0]
# especies.value_counts()

# datos de http://jse.amstat.org/jse_data_archive.htm

FileNotFoundError: ignored

In [None]:
# Importando los paquetes necesario
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
import matplotlib.pyplot as plt

# Estandarizar las características eliminando la media y escalando a la varianza 
# de la unidad 
scaler_1 = StandardScaler()

# Creamos una instancia de PCA
pca_1 = PCA()

# Creamos pipeline
pipeline_1 = make_pipeline(scaler_1, pca_1)

# Ajustamos el pipeline a nuestros datos
pipeline_1.fit(samples)

# Graficamos
features = range(pca_1.n_components_)
plt.bar(features, pca_1.explained_variance_)
plt.xlabel('Característica de PCA')
plt.ylabel('Varianza')
plt.xticks(features)
plt.show()


<div align='justify'>
<h2>
La dimensión intrínseca de los datos es el número de características de PCA con varianza significativa.
<br>
<strong> Pregunta:</strong>
Según la gráfica anterior sería razonable decir que la dimensión intrínseca del conjunto de datos es ¿1, 2, 3,...?
</h2>

<div align='justify'>
<h2>
¿Qué haremos en la siguiente celda de código?
<br>
Vamos a realizar una reducción de dimensionalidad, para ello necesitamos saber:
<br>
$\circ$ ¿Cuántas características de PCA vamos a conservar? por ejemplo la dimensión intrínseca de los datos.
</h2>

In [None]:
# Importando los paquetes
from sklearn.decomposition import PCA

# Creamos una instancia de PCA: pca
pca_2 = PCA(n_components=2)

# Creamos pipeline
pipeline_2 = make_pipeline(scaler_1, pca_2)

# Ajustamos el pipeline a nuestros datos
pipeline_2.fit(samples)

# Hallamos las características de PCA
pca_2_features = pipeline_2.transform(samples)

# imprimimos 
print(pca_2_features.shape)

In [None]:
# Aquí solo transformamos las categorías especies en categorías numéricas
# para usarlas en la siguiente grafica
especies_unicas = especies.unique()
dic_esp = {especies_unicas[k]:k for k in range(len(especies_unicas))}
species = especies.apply(lambda x: dic_esp[x])

In [None]:
import matplotlib.pyplot as plt
xs = pca_2_features[:,0]
ys = pca_2_features[:,1]
plt.scatter(xs, ys, c=species)
plt.show()

________________
# <center> Agrupamiento ─ Clustering </center>
________________

<div align='justify'>
<h2>
$\circ$ Una vez se han reducido el conjunto de características originales a un conjunto más pequeño y manejable, podemos encontrar patrones interesantes agrupando instancias similares de datos. 
</h2>
<h2>
$\circ$ El objetivo aquí es agrupar datos con base en su similitud: comparar cuán similar es una observación a otras observaciones. No se usan etiquetas.
</h2>
<h2>
$\circ$ Así un <strong> grupo (cluster) </strong> en este contexto hace referencia a un conjunto de datos con características similares. 
</h2>
<h2>
$\circ$ El agrupamiento (clustering) se puede lograr con una variedad de algoritmos de aprendizaje no supervisados. Exploraremos los algoritmos <em> k-medias (k-means)</em> y <em>agrupamiento jerárquico (hierarchical clustering)</em>.
</h2>
</div>

<center> <h2> <u> k-medias ─ k-means </u> </h2> </center>


<p align="center">
<img src="https://raw.githubusercontent.com/garestrear/ninja-pythonist/master/NoSupervisado/K-means.png">
</p>


<p align="center">
<img src="https://raw.githubusercontent.com/garestrear/ninja-pythonist/master/NoSupervisado/GraficaInercia.png">
</p>


<div align='justify'>
<h2>
$\circ$ El agrupamiento k-medias es un método para encontrar grupos y centros de grupos en un conjunto de datos sin etiquetar. Se elige el número deseado de centros de grupos. Dado un conjunto inicial de centros, el algoritmo alterna los pasos: 
</h2>
<h2>
1. Para cada centro identificamos el subconjunto de puntos de entrenamiento (su grupo) que están más cerca de él que cualquier otro centro;
</h2>
<h2>
2. Se calcula el centro del grupo así: se calculan las medias de cada característica para los puntos de datos de cada grupo, y este vector de medias se convierte en el nuevo centro de ese grupo.
</h2>
<h2>
Estos dos pasos se repiten hasta la convergencia. Normalmente, los centros iniciales son observaciones elegidas aleatoriamente de los datos de entrenamiento. 
</h2>
<h2>
$\circ$ Diferentes ejecuciones de k-medias darán como resultado asignaciones de grupos ligeramente diferentes pues esta inicialización aleatoria es una fuente de aleatoriedad, lo que resulta en asignaciones de agrupamiento ligeramente diferentes, de una ejecución de k-medias a otra. 
</h2>

<h2>
$\circ$ El valor de k, el número de grupos, es un hiperparámetro que debe ser ajustado por el analista de datos. Existen algunas técnicas para seleccionar k. Ninguno de ellas ha demostrado ser óptima. La mayoría requiere que el analista haga una "suposición fundamentada" al observar algunas métricas o al examinar visualmente las asignaciones de grupos.
</h2>
<h2>
$\circ$ El algoritmo optimiza los grupos minimizando la variación dentro del grupo (también conocida como inercia) de modo que la suma de las variaciones dentro del grupo en todos los k grupos sea lo más pequeña posible.
</h2>
<h2>
$\circ$ Un buen agrupamiento busca que no haya muchos grupos y que dentro de cada grupo los datos no estén muy dispersos. Para esto hacemos una gráfica de k's vs inercia, como la última figura.
</h2>
<h2>
$\circ$ En K-medias la varianza de una característica corresponde a su influencia, por lo tanto debemos transformar las características para que tengan media $0$ y varianza $1$.
</h2>

<h2>
<strong> Pregunta:</strong>
¿Podremos usar KMeans en datos nuevos?
</h2>

<div align='justify'>
<h2>
¿Qué haremos en la siguiente celda de código?
<br>
Tenemos observaciones de medidas de peces. Cada fila representa un pez individual. Las medidas, como el peso en gramos, la longitud en centímetros y la relación porcentual de altura a longitud, tienen escalas muy diferentes. Para agrupar estos datos de manera eficaz, primero debemos estandarizar estas características para proceder a agrupar los datos. Usaremos un `pipeline` para hacer estos dos pasos.
</h2>

In [None]:
# Importando los paquetes
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

# Estandarizar las características: media 0 y varianza 1
scaler_2 = StandardScaler()

# Creamos una instancia de kmeans con k=4
kmeans = KMeans(n_clusters=4)

# Creamos pipeline, primero estandarizamos, luego agrupamos
pipeline_3 = make_pipeline(scaler_2, kmeans)

# Ajustamos el pipeline a nuestros datos
pipeline_3.fit(samples)

# Calculamos las etiquetas de los grupos
labels = pipeline_3.predict(samples)

# Veamos cómo agrupo KMeans
labels_2 = pd.Series(labels)
print('Así agrupó nuestro algoritmo KMeans')
print(labels_2.value_counts())

In [None]:
print('REALIDAD')
print(especies.value_counts())
print('')
print('KMeans')
print(labels_2.value_counts())

# # Creamos un DataFrame con las etiquetas y especies como columnas
# df = pd.DataFrame({'KMeans': labels, 'REALIDAD': especies})
# print('')
# # Create crosstab
# ct = pd.crosstab(df['REALIDAD'], df ['KMeans'])
# print("")
# print(ct)

<div align='justify'>
<h2>
¿Qué haremos en la siguiente celda de código?
<br>
Recordemos que en un buen agrupamiento las observaciones dentro de cada grupo no están dispersas y que medimos cuan dispersas están las observaciones dentro de cada grupo por medio de la "inercia". 
<br>
La inercia de un modelo KMeans es medida automáticamente cuando el método `fit` es usado y está disponible como un atributo.
</h2>

In [None]:
# Diferentes valores de k, desde 1 hasta 5
ks = range(1,6)

# En la lista inercia guardaremos la inercia para cada valor de k
inercias = []

for k in ks:
  # Creamos una instancia de KMeans con k clusters
  model = KMeans(n_clusters = k)

  # Ajustamos el modelo a los datos
  model.fit(samples)
  
  # Guardamos la inercia en la lista inercias
  inercias.append(model.inertia_)

# Grafica de ks vs inercias
plt.plot(ks, inercias, '-o')
plt.xlabel('número de grupos, k') 
plt.ylabel('inercia')
plt.xticks(ks)
plt.show()

print(inercias)

<center> <h2> <u>Agrupamiento jerárquico ─ Hierarchical clustering</u></h2></center>
<center> <h3><u> Agrupamiento aglomerativo </u> </h3></center>

<div align='justify'>
<h2>
Una posible desventaja de la agrupación de K-medias es que requiere que pre-especifiquemos el número de agrupaciones K. La agrupación jerárquica es un enfoque alternativo que no requiere que nos comprometamos con una elección particular de K. La agrupación jerárquica tiene una ventaja adicional sobre K-medias porque da como resultado una representación atractiva de las observaciones basada en árboles, llamada dendrograma. 
</h2>


<p align="center">
<img src="https://raw.githubusercontent.com/garestrear/ninja-pythonist/master/NoSupervisado/agrupamiento_jerarquico_aglomerativo.png">
</p>

<div align='justify'>
<h2>
$\circ$ Los métodos de agrupamiento jerárquico producen representaciones jerárquicas en las que los grupos en cada nivel de la jerarquía se crean fusionando grupos en el siguiente nivel inferior. En el nivel más bajo, cada grupo contiene una única observación. En el nivel más alto, solo hay un grupo que contiene todos los datos.
</h2>

<h2>
$\circ$ Las estrategias para la agrupación jerárquica se dividen en dos paradigmas básicos: aglomerativo (de abajo hacia arriba) y divisivo (de arriba hacia abajo). Nos centraremos en agrupamiento aglomerativo.
</h2>


<h2>
$\circ$ Los algoritmos de agrupamiento aglomerativo comienzan con cada observación representado un grupo único. En cada uno de los N-1 pasos, los dos grupos más cercanos (menos disímiles) se fusionan en un solo grupo, produciendo un grupo menos en el siguiente nivel. Por lo tanto, se debe definir una medida de disimilitud entre dos grupos de observaciones. 
</h2>



In [None]:
# Nuestros datos son sobre granos (contiene medidas como área, perímetro, 
# longitud y varias otras) de muestras de grano
# https://archive.ics.uci.edu/ml/datasets/seeds
grains = pd.read_csv('grains.csv', header = None)
grains = grains.drop(columns=[7])

# Creamos una lista que contiene cada fila de grain como una lista
ar = [list(grains.iloc[k].values) for k in range(len(grains))]

#  La lista de varieties contiene la variedad de cada muestra de grano
varieties = pd.read_csv('varieties.csv', header = None)
varieties = varieties.drop(columns=[1])

# Creamos una lista conteniendo el nombre de las variedad de cada observación
var = list(varieties[0])

In [None]:
# Importamos los paquetes necesarios
from scipy.cluster.hierarchy import linkage, dendrogram
import matplotlib.pyplot as plt

# Creamos una instancia de fog para que se vea mejor el dendrograma
fig = plt.subplots(1,1, figsize=(27,7))

# Calculamos el enlace: mergings
mergings = linkage(ar, method = 'complete')

# Graficamos el dendrograma usando las variedades como etiquetas
dendrogram(mergings, labels=var, leaf_rotation=90, leaf_font_size=10)

plt.show()

<div align='justify'>
<h2>
El agrupamiento jerárquico no es solo una herramienta visual. Podemos extraer  los agrupamientos en estados intermedios del agrupamiento jerárquico. Las etiquetas de estos grupos intermedios pueden ser usados en otros calculos.
<br>
Un estado intermedio de un agrupamiento en este caso es especificado al escoger una altura en el dendograma. El eje y del dendrograma codifica la distancia entre grupos fusionados y la distancia entre grupos está definida por un método "linkage method".
<br>
`complete linkage method`: la distancia entre los grupos es  la máxima distancia entre sus observaciones.
<br>
Diferentes `linkage methodes` producen diferentes  agrupamientos jerárquicos
</h2>

<p align="center">
<img src="https://raw.githubusercontent.com/garestrear/ninja-pythonist/master/
NoSupervisado/linkage_methods.png">
</p>




<div align='justify'>
<h2>
Las etiquetas de grupos  para cualquier estado intermedio en el agrupamiento jerárquico pueden ser extraídas usando la función `fcluster()` la cuál devuelve un arreglo en numpy de las etiquetas de los grupos.
</h2>

In [None]:
# Importando los paquetes necesarios
from scipy.cluster.hierarchy import linkage, dendrogram, fcluster

# Usando fcluster para extraer las etiquetas
labels_3 = fcluster(mergings, 6, criterion = 'distance')

# Creando df con  etiquetas y variedades como columnas
df2 = pd.DataFrame({'etiquetas':labels_3, 'variedades': var})

# Creando crosstab
ct2 = pd.crosstab(df2['etiquetas'], df2['variedades'])

#mostrando ct2
print(ct2)