## **Lo que van a encontrar en este notebook**

Tenemos dos metas:

1. Ver ejemplos de agrupamiento topologico utilizando $\varepsilon$-grafos y $k$-vecinos mas cercanos.

2. Utilizar lo aprendido para hacer un buen agrupamento del conjunto de digitos (clase = 1).

Completar las actividades marcadas con **Hacer** o **Tu Respuesta**. Sugiero leer atentamente el codigo y los comentarios para tener una idea de que esta pasando

---

En python es usual importar todas las librerias necesarias al principio.

In [None]:
import numpy as np
from matplotlib import pyplot as plt

from sklearn.datasets import make_moons

from scipy.sparse.csgraph import connected_components

from sklearn.neighbors import radius_neighbors_graph
from sklearn.neighbors import kneighbors_graph

### **1. Ejemplo de agrupamiento topologico**

In [None]:
# Primero generamos un conjunto de datos en dos lunas con un poco de ruido
X, _ = make_moons(n_samples=750, noise=0.1, random_state=42)

# Graficamos los datos para tener una mejor idea
plt.figure(figsize =  (5,3))
plt.scatter(X[:, 0], X[:, 1], s= 5);
plt.title('Datos en dos lunas con ruido')
plt.show()

### Agrupamiento con $\varepsilon$-grafos.

**Hacer:** En la celda de abajo, selecciona un valor de $\varepsilon > 0$ apropiado de tal forma que las componentes arco-conexas de $G_\varepsilon(X)$, denotadas con colores, correspondan a las dos lunas.




In [None]:
epsilon = 1.5 # Slecciona un valor de epsilon apropiado

# Esta linea calcula la matriz de adyacencia del epsilon-grafo
adjacency_matrix = radius_neighbors_graph(X, epsilon).toarray()

# Ahora calculamos las componentes arco-conexas resultantes
n_components, cluster_labels = connected_components(adjacency_matrix, directed=False, return_labels=True)

# Finalmente, graficamos los puntos coloreados por su componente arco-conexa
plt.figure(figsize=(5, 3))
plt.scatter(X[:, 0], X[:, 1], c=cluster_labels, s = 5, cmap='Accent')
plt.title(f'Componentes arco-conexas del epsilon-grafo (epsilon={epsilon})')
plt.show()
print(f'Numero de componentes encontradas: {n_components}')


---

### Agrupamiento con $k$-vecinos mas cercanos

**Hacer:** En la celda de abajo, selecciona un valor de $k \in \mathbb{N}$ apropiado de tal forma que las componentes arco-conexas de $G_k(X)$, denotadas con colores, correspondan a las dos lunas.




In [None]:
k = 21 # Selecciona un valor de k apropiado

# Esta linea calcula la matriz de adyacencia del grafo de k-vecinos mas cercanos
knn_adjacency_matrix = kneighbors_graph(X, k).toarray()

# calculamos las componentes arco-conexas resultantes
n_components_knn, c_labls = connected_components(knn_adjacency_matrix, directed=False, return_labels=True)

# graficamos los puntos coloreados por su componente arco-conexa
plt.figure(figsize=(5, 3))
plt.scatter(X[:, 0], X[:, 1], c=c_labls, s=7, cmap='Accent')
plt.title(f'Componentes arco-conexas del grafo por k-vecinos (k={k})')
plt.show()
print(f'Numero de componentes encontradas: {n_components_knn}')

---

## **2. Aplicacion: Agrupamiento de digitos**

En la celda siguiente cargamos los datos de los digitos con etiqueta 1.

In [None]:
# De el modulo de datasets de scikit learn, importar la funcion digits
from sklearn.datasets import load_digits

# Importar el conjunto de datos de digitos
digits = load_digits()

# Separamos los datos y sus etiquetas (i.e., el numero)
X = digits.data
etiquetas = digits.target

from sklearn.decomposition import PCA

indices = np.where(etiquetas==1)[0]

X = X[indices]
# PCA 2D solo para los  1's
pca = PCA(n_components=2)
proj = pca.fit_transform(X)

# Graficamos la proyeccion PCA 2D de los 1's
plt.figure(figsize=(5, 3))
plt.scatter(proj[:,0],proj[:,1], s=10)
plt.show()

**Hacer:** En la celda de abajo, utiliza lo aprendido para agrupar los diferentes tipos de 1's en el conjunto de datos de digitos. Pudiste lograrlo? Cuales fueron las innovaciones que incluiste?


In [None]:
# Tu codigo aqui








