## **Lo que van a encontrar en este notebook**

Tenemos dos metas:

1. Ver ejemplos de conjuntos de datos, y como PCA (Principal Component Analysis) puede ser utilizado para visualizarlos.

2. En el camino, aprenderemos a manipular Python de manera muy basica.

Completar las actividades marcadas con **Hacer** o **Tu Respuesta**. Sugiero leer atentamente el codigo y los comentarios para tener una idea de que esta pasando.

---

### 1. Importar librerias

**Hacer:** Importa ``numpy`` y llamalo ``np``, que es la practica estandard.
Numpy es una libreria (i.e., una coleccion de funciones, constantes, etc. Ver https://www.geeksforgeeks.org/libraries-in-python/) para operaciones con vectores y matrices (llamados numpy arrays). Ver: https://numpy.org/

Lee el contenido de la celda siguiente. Las lineas que empiezan con el numeral (#) son comentarios, los cuales no seran evaluados, y el resto es el codigo que si correra.

In [None]:
# Para correr esta celda, da click en cualquier lugar de ella (para seleccionarla) y:
#   opcion 1 (mouse): Da click en el boton Run (el triangulo negro)
#   opcion 2 (teclado): Oprime Ctrl + Enter (Windows, Linux) | Command + Enter (Mac)

import numpy as np

Si todo salio bien, el ``[ ]:`` en la parte superior izquierda de la celda anterior sera reemplazado por ``[ 1 ]:``.

Si corres la celda de nuevo, el contador `` 1 `` se incrementara. Despues de esto, numpy estara disponible para usar en este notebook.

**Hacer:** Correr la celda siguiente.

In [None]:
x = np.arange(7)
print('El numpy array x es igual a', x)
print('La suma de sus entradas es:', np.sum(x))

Si todo salio bien, podras ver el numpy array ``x`` y la suma de sus entradas.

**Importante:** Si te sale el error:  

``NameError: name 'np' is not defined``

es porque no importaste numpy (as np) antes de usarlo. Ve a las celdas anteriores y correlas.

_Leccion:_ El orden en el que se corren las celdas de un Juptyer notebook importa.

---

### 2. Para graficar

``matplotlib`` es la libreria estandard de Python para graficar y visualizar  (https://matplotlib.org/).
La celda que sigue importa una porcion de matplotlib (i.e., un modulo) llamado ``pyplot``.

In [None]:
# De la libreria matplotlib, importamos el modulo pyplot para graficar. Lo llamaremos plt, que es lo estandard
from matplotlib import pyplot as plt

La siguiente celda genera un conjunto de datos usando numpy, y luego los grafica usando matplotlib.

**Hacer:** Corre la siguiente celda

In [None]:
# Generar un conjunto de datos en R^2 con 200 puntos

n_data = 200
X = np.random.randn(n_data, 2)

# Graficar los datos
plt.figure(figsize=(5, 3))
plt.scatter(X[:, 0], X[:, 1], s=10)
plt.title('Mi primer conjunto de datos')
plt.show()

---

### 3. Ejemplo - digitos

``scikit-learn`` (ver https://scikit-learn.org/stable/) es una libreria estandard de Python para ciencia de datos. Trae conjuntos de datos populares, funcionalidad para graficar, analisis de regresion, reduccion de dimension (e.g., PCA, MDS, ISOMAP, etc) y mucho mas.

**Hacer:** Lee y corre las celdas que siguen para cargar e inspeccionar los datos de digitos (https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits)

In [None]:
# De el modulo de datasets de scikit learn, importar la funcion digits
from sklearn.datasets import load_digits

# Importar el conjunto de datos de digitos
digits = load_digits()

# Separamos los datos y sus etiquetas (i.e., el numero)
X = digits.data
etiquetas = digits.target

In [None]:
# Los datos X son una matriz numpy de 1,797 filas por 64 columnas. Cada imagen (8 x 8 pixeles) es una fila de X.
X.shape

**Hacer:** Cuantas imagenes hay en el conjunto de datos de digitos? Si cada imagen se piensa como un vector en $\mathbb{R}^n$, cual es el valor de $n$?

**Tu respuesta:** *has doble click en esta celda para editarla con tu respuesta*

In [None]:
# Veamos las primeras 25 imagenes con sus etiquetas correspondientes

fig = plt.figure(figsize=(4, 3))

for i in range(25):
    ax = fig.add_subplot(5, 5, i + 1, xticks=[], yticks=[])
    ax.imshow(digits.images[i], cmap=plt.cm.binary)
    ax.text(0, 7, str(etiquetas[i]))

_ = plt.figure()

---

Ahora utilizaremos Analisis de Componentes Principales (PCA, ver https://en.wikipedia.org/wiki/Principal_component_analysis) , para proyectar y visualizar los datos en $\mathbb{R}^2$.

In [None]:
# De scikit learn, importar el modulo de Analisis de Componentes Principales
from sklearn.decomposition import PCA

# Construimos un objeto PCA con 2 dimensiones
pca = PCA(n_components=2)

# Calculamos la proyeccion de los datos en sus primeras 2 componentes principales
X_pca_2d = pca.fit_transform(X)

# Graficamos la proyeccion PCA 2D de los datos, coloreados por sus etiquetas
plt.scatter(X_pca_2d[:, 0], X_pca_2d[:, 1], s= 10, c=etiquetas, cmap="Paired");
plt.colorbar();

**Hacer:** Dada la figura de arriba, que digito seria el mas facil de separar/clasificar del resto?

**Tu respuesta:**


In [None]:
# Ahora vamos a analizar las imagenes de un solo digito
# En particular, encontramos solo las imagenes que tenga etiqueta '1'
indices = np.where(etiquetas==1)[0]

# PCA 2D solo para los  1's
pca = PCA(n_components=2)
proj = pca.fit_transform(X[indices])

# Graficamos la proyeccion PCA 2D de los 1's
plt.figure(figsize=(5, 3))
plt.scatter(proj[:,0],proj[:,1], s=10)
plt.show()

**Hacer:** Los datos parecen dividirse en grupos diferentes. Cuantos Tipos de 1's parece haber en los datos?

**Tu respuesta:**

In [None]:
# para tener una mejor idea de cuales son los 1's que aparecen en los datos,
# vamos a visualizar algunas de las imagenes (en muestra):

muestra  = np.random.choice(len(indices), 100)

from matplotlib.offsetbox import OffsetImage, AnnotationBbox

fig, ax = plt.subplots(figsize=(10,7))
ax.scatter(proj[:,0], proj[:,1], s=10)

for x0, y0, im in zip(proj[muestra,0], proj[muestra,1],digits["images"][indices][muestra]):
    ab = AnnotationBbox(OffsetImage(im, cmap='binary',zoom=2), (x0, y0))
    ax.add_artist(ab)

**Hacer:** Dada la grafica de arriba, cuantos tipos de 1's hay en el conjunto de datos? Tu respuesta ha cambiado con respecto a la celda anterior?

**Tu respuesta:**