# <center><span style='color:#229954'>Taller 2 - Introducción al *Machine Learning*</span><center>

Ejemplos para presentación del taller número 2.

Hackathon ICC 2022/2023.

*Autor*: MSc. Bioing. BALDEZZARI Lucas

In [None]:
## importamos módulos

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## <span style='color:#3c3b5f'>Supervised Learning</span>

El aprendizaje supervisado se basa en entrenar modelos que aprenden de datos que poseen etiquetas. Luego, los modelos se utilizan para etiquetar datos desconocidos.

### Clasificación: Prediciendo *labels* discretas

A continuación realizaremos un ejemplo sencillo de clasificación utilizando un modelo llamado *Support Vector Machine*.

In [None]:
## Generamos algunos puntos en dos dimensiones

from sklearn.datasets import make_blobs

## creamos 100 puntos separables
X, y = make_blobs(n_samples=100, centers=2, random_state=2, cluster_std=0.8)

Analicemos brevemente que tenemos en $X$ y que en $y$.

In [None]:
print(X[:10])
print()
print("Etiquetas")
print(y[:10])

In [None]:
plt.style.use("seaborn")

# plot the data
fig, ax = plt.subplots(figsize=(8, 6))
estiloPuntos = dict(cmap='RdYlGn', s=45)
ax.set_xlabel("Feature 1")
ax.set_ylabel("Feature 2")
ax.set_title("Datos de entrada")
ax.scatter(X[:, 0], X[:, 1], c=y, **estiloPuntos)
ax.axis([-4, 4, -12, 2])

plt.show()

Primero importamos el modelo SVS de scikit-learn, el mismo corresponde a [sklearn.svm.SVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html).

In [None]:
from sklearn.svm import SVC

Ahora creamos el modelo y lo entrenamos.

In [None]:
# creamos el modelo y le pasamos los datos de entrada y sus correspondientes etiquetas.
svc = SVC(kernel='linear')
svc.fit(X, y) #entrenamos el modelo

Veamos que tan bien separa los datos el modelo entrenado.

In [None]:
xx = np.linspace(-4, 5, 15)
yy = np.linspace(-12, 2, 15)
xy1, xy2 = np.meshgrid(xx, yy)
Z = np.array([svc.decision_function([t])
              for t in zip(xy1.flat, xy2.flat)]).reshape(xy1.shape)


fig, ax = plt.subplots(figsize=(8, 6))
estiloLineas = dict(levels = [-1.0, 0.0, 1.0],
                  linestyles = ['dashed', 'solid', 'dashed'],
                  colors = 'blue', linewidths=1)
ax.set_xlabel("Feature 1")
ax.set_ylabel("Feature 2")
ax.set_title("SVC entrenado a partir de los datos")
ax.scatter(X[:, 0], X[:, 1], c=y, **estiloPuntos)
ax.contour(xy1, xy2, Z, **estiloLineas)

plt.show()

Veamos que tan bien funciona nuestro modelo para predecir nuevos puntos.

Para esto generaremos puntos nuevos y usaremos el modelo *svc* entrenado para predecir a qué clase pertenecen.

In [None]:
X2, _ = make_blobs(n_samples=100, centers=2, random_state=2, cluster_std=0.95)
X2 = X2[50:]

# Predecimos a que clase (etiqueta) pertenecen nuestros puntos utilizando el modelo entrenado
y2 = svc.predict(X2)

Ahora graficaremos los datos nuevos sin clasificación y luego habiendo sido clasificados.

In [None]:
fig, ax = plt.subplots(nrows=1, ncols = 2, figsize = (14,6))

ax[0].set_xlabel("Feature 1")
ax[0].set_ylabel("Feature 2")
ax[0].set_title("Datos de entrada nuevos (y desconocidos)")
ax[0].scatter(X2[:, 0], X2[:, 1])
ax[0].axis([-4, 4, -12, 2])

ax[1].set_xlabel("Feature 1")
ax[1].set_ylabel("Feature 2")
ax[1].set_title("Datos nuevos clasificados")
ax[1].scatter(X2[:, 0], X2[:, 1], c=y2, **estiloPuntos)
ax[1].contour(xy1, xy2, Z, **estiloLineas)
ax[1].axis([-4, 4, -12, 2])

plt.show()

### Ejemplo de Regresión

Ahora vamosa generar un sencillo ejemplo de regresión lineal para clasificar datos continuos.

In [None]:
## Generamos datos 
rng = np.random.RandomState(10)
X = rng.randn(200, 2) #posición de los puntos en el espacio
y = np.dot(X, [-2, 1]) + 1 * rng.randn(X.shape[0]) #etiquetas de los puntos

In [None]:
# Graficamos los puntos.
plt.style.use("seaborn")
fig, ax = plt.subplots(figsize=(8,5))
ax.scatter(X[:, 0], X[:, 1], c=y, s=40, cmap='winter')

ax.set_xlabel("Feature 1")
ax.set_ylabel("Feature 2")
ax.set_title("Datos de entrada")

ax.axis([-3, 3, -4, 4])
plt.show()

In [None]:
print("Posición de los puntos")
print(X[:10])
print()
print("Etiquetas")
print(y[:10])

Cada color representa una etiqueta diferente para cada punto.

Podríamos pensar también en que cada punto tiene una *altura* diferente y dicha altura se corresponde con la etiqueta. Esto lo podemos representar en un gráfico de tres dimensiones.

In [None]:
datos = np.hstack([X, y[:, None]])
datos.shape

In [None]:
fig = plt.figure(figsize=(10, 8))
ax = fig.add_subplot(projection='3d')

ax.scatter(datos[:,0], datos[:,1], datos[:,2],c=y, s=40, cmap='winter')
ax.set_xlabel("Feature 1")
ax.set_ylabel("Feature 2")
ax.set_zlabel("Labels")
ax.set_title("Datos de entrada")

# ax.view_init(-10, -120)
plt.show()

#### Etiquetando datos

A partir de analizar los datos en 3D podemos pensar que un plano ayudaría a separar los puntos. Una forma de hacer esto es entrenando un [Regresor Lineal](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html).

In [None]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(X,y)

Podemos proyectar los datos 3D en 2D con el plano obtenido luego de entrenar el regresor lineal con los datos de entrada.

In [None]:
from matplotlib.collections import LineCollection

fig, ax = plt.subplots()
pts = ax.scatter(X[:, 0], X[:, 1], c=y, s=40, cmap='winter', zorder=2)

# compute and plot model color mesh
xx, yy = np.meshgrid(np.linspace(-4, 4),np.linspace(-3, 3))
Xfit = np.vstack([xx.ravel(), yy.ravel()]).T
yfit = lr.predict(Xfit)
zz = yfit.reshape(xx.shape)
ax.set_xlabel("Feature 1")
ax.set_ylabel("Feature 2")
ax.set_title("Datos de entrada con el regresor lineal")
ax.pcolorfast([-4, 4], [-4, 4], zz, alpha=0.5, cmap='winter', norm=pts.norm, zorder=1)

ax.axis([-3, 3, -4, 4])
plt.show()

In [None]:
## Creamos nuevos datos
X2 = rng.randn(100, 2)

In [None]:
## Obtenemos las etiquetas para estos nuevos datos a través del modelo entrenado

y2 = lr.predict(X2)

In [None]:
# Graficamos los nuevos datos.
plt.style.use("seaborn")
fig, ax = plt.subplots(1,2,figsize=(16,5))

ax[0].set_xlabel("Feature 1")
ax[0].set_ylabel("Feature 2")
ax[0].set_title("Datos desconocidos")
ax[0].axis([-3, 3, -4, 4])
ax[0].scatter(X2[:, 0], X2[:, 1])

ax[1].set_xlabel("Feature 1")
ax[1].set_ylabel("Feature 2")
ax[1].set_title("Etiquetas para los nuevos datos usando el Regresor Lineal")
ax[1].axis([-3, 3, -4, 4])
ax[1].scatter(X2[:, 0], X2[:, 1], c=y2, s=40, cmap='winter')

plt.show()

## Unsupervised Learning

Hemos visto dos sencillos modelos de aprendizaje supervisado. Los mismos aprenden de datos etiquetados y una vez entrenados, sirven para etiquetar datos nuevos.

En el caso del aprendizaje no supervisado, el modelo *aprende* sin ninguna referencia a una etiqueta.

### Ejemplo de Clustering

Un método muy conocido de aprendizaje no supervisado es *Clustering*, en donde los datos son asignados a un número *n* de grupos discretos.

Veamos un ejemplo.

In [None]:
from sklearn.datasets import make_blobs

# creamos 100 puntos separados con cuatro centros. Sólo nos quedamos con las posiciones.
X, _ = make_blobs(n_samples = 100, centers = 4, random_state = 20, cluster_std=1.5)

In [None]:
plt.style.use("seaborn")

# plot the data
fig, ax = plt.subplots(figsize=(8, 6))
ax.set_xlabel("Feature 1")
ax.set_ylabel("Feature 2")
ax.set_title("Datos de entrada")
ax.scatter(X[:, 0], X[:, 1])
ax.axis([-15, 12, -5, 13])

plt.show()

#### Kmeans

Utilizaremos el algoritmo de Kmeans para separar en grupos los datos de entrada que hemos generado. Sikit-learn provee su propio método dado por [sklearn.cluster.KMeans](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html).

Veamos.

In [None]:
from sklearn.cluster import KMeans

km = KMeans(n_clusters = 4, random_state=0) #le decimos que queremos que nos separe en 4 grupos
km.fit(X)

Utilizamos el modelo entrenado para obtener los grupos.

In [None]:
y = km.predict(X)

In [None]:
plt.style.use("seaborn")

# plot the data
fig, ax = plt.subplots(figsize=(8, 6))
estiloPuntos = dict(cmap='magma_r', s=45)
ax.set_xlabel("Feature 1")
ax.set_ylabel("Feature 2")
ax.set_title("Datos de entrada agrupados con Kmeans")
ax.scatter(X[:, 0], X[:, 1], c=y, **estiloPuntos)
ax.axis([-15, 12, -5, 13])

plt.show()

**Importante**: Debemos tener en claro que los grupos se obtuvieron a partir del algortimo, es decir, que *Kmeans()* nos permitió agrupar los datos y luego los etiquetamos, esto puede verse gracias a los colores diferentes que toman los puntos, donde cada color representa un grupo.

### Reduciendo la dimensiones de mis datos

En muchos casos, los datos son 𝑁-dimensionales, con 𝑁>3. Podría ser útil reducir la dimensión de nuestros datos, para analizarlos, para procesarlos, etc.

In [None]:
from sklearn.datasets import make_swiss_roll

# make data
X, y = make_swiss_roll(200, noise=0.5, random_state=42)
X = X[:, [0, 2]]

# visualize data
fig, ax = plt.subplots()
ax.set_xlabel("Feature 1")
ax.set_ylabel("Feature 2")
ax.set_title("Datos originales")
ax.scatter(X[:, 0], X[:, 1], s=30)

plt.show()

#### Algoritmos del tipo *Manifold*

Podemos usar un algoritmo conocido como [Isometric Mapping](https://scikit-learn.org/stable/auto_examples/manifold/plot_lle_digits.html#sphx-glr-auto-examples-manifold-plot-lle-digits-py) para reducir la dimensión de nuestros datos. En escencia lo que intenta hacer el algoritmo es extraer información para representar los datos en dimensiones bajas, y al mismo tiempo, preservar las características relevantes del conjunto de datos, el cual se supone posee una estructura compleja.

In [None]:
from sklearn.manifold import Isomap

isomap = Isomap(n_neighbors=8, n_components=1)
y_Obtenidos = isomap.fit_transform(X).ravel()

# visualize data
fig, ax = plt.subplots()
ax.set_xlabel("Feature 1")
ax.set_ylabel("Feature 2")
ax.set_title("Variación de datos aprendido por Isomap")
pts = ax.scatter(X[:, 0], X[:, 1], c=y_Obtenidos, cmap='winter', s=30)
cb = fig.colorbar(pts, ax=ax)
cb.set_ticks([])
cb.set_label('Variación latente', color='gray')

plt.show()

## Introducción a *Scikit-Learn*

Sabemos que el ML trata de entrenar modelos a partir de datos para hacer algo con ellos.

Ahora bien, ¿qué estructura deben de tener los datos para poder entrenar algoritmos?

**Datos como tablas**

La forma básica es trabajar los datos como tablas.

Las columnas representan las características y las filas las observaciones.

Veamos un ejemplo con un set muy conocido, el cual se llama *Iris dataset*.

In [None]:
import seaborn as sns

iris = sns.load_dataset("iris")
iris.head()

In [None]:
iris.shape

Si tomamos a la columna *species* como el *vector de blancos* entonces podemos ver que nuestros datos poseen una matríz de características con un tamaño de $150 x 4$.

#### Pasos básicos para la implementación de un modelo.

1. Elegir un modelo adecuado al problema que queremos resolver/analizar.
2. Elegir los hiperparámetros del modelo instanciando esta clase con los valores deseados
3. Organizar los datos en una matriz de características y un vector blanco/target de la forma vista anteriormente.
4. Entrenar el modelo invocando al método fit().
5. Aplicar el modelo a nuevos datos:
    - Para aprendizaje supervisado, a menudo predecimos etiquetas para datos desconocidos usando el método de prediction().
    - Para aprendizaje no supervisado, a menudo transformamos o inferimos propiedades de los datos utilizando el método transform() o predict().

Veamos un ejemplo…


### Clasificando dígitos escritos a mano

Vamos a intentar clasificar números que han sido escritos a mano.

In [None]:
from sklearn.datasets import load_digits
digits = load_digits()
digits.images.shape

Podemos ver tenemos 1797 dígitos de $8x8$.

Vamos a graficar algunos.

In [None]:
fig, axes = plt.subplots(10, 10, figsize=(8, 8), subplot_kw={'xticks':[], 'yticks':[]},
                         gridspec_kw=dict(hspace=0.1, wspace=0.1))

for i, ax in enumerate(axes.flat):
    ax.imshow(digits.images[i], cmap='binary', interpolation='nearest')
    ax.text(0.05, 0.05, str(digits.target[i]),
            transform=ax.transAxes, color='blue')

#### Construyendo los datos en *matriz de características* y *target vector*

Primeramente debemos arreglar los datos de tal manera de poder entrenar modelos con Scikit-learn. Para esto necesitamos una tabla de dos dimensiones del tipo [$n_samples$ x $n_features$].

Debemos notar que cada dígito es una matriz de 8x8 pixéles. Por lo tanto, podemos formar vectores filas de 64 píxeles y acomodarlos de tal manera de que formen una matriz de *1797 x 64*.

Además también necesitamos un *target vector*. Estos datos los podemos obtener directamente de *digits = load_digits()*, veamos.

In [None]:
X = digits.data #Matriz de Características
X.shape

In [None]:
print(X[:2])

In [None]:
y = digits.target
y.shape

Ya tenemos los datos en la forma necesaria para ser utilizados con Scikit-learn.

#### Separando en datos de entrenamiento y de testeo

Antes que nada, es **de suma importancia** separar los datos en un set de entrenamiento y en otro de testeo. Volveremos sobre esto más adelante.

In [None]:
from sklearn.model_selection import train_test_split

Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, random_state=42)

#### Visualizando nuestros datos de entrenamiento.

Esta claro que tenemos datos que son difíciles de interpretar debido a que se encuentran en un espacio de 64 dimensiones. Por lo tanto, aplicaremos la estrategia de *reducción de dimensionalidad*, es decir, una estrategia de *aprendizaje no supervisado* para intentar analizar los datos que tenemos.

In [None]:
from sklearn.manifold import Isomap
isomap = Isomap(n_components=2)
isomap.fit(Xtrain)
datosProyectados = isomap.transform(Xtrain)

In [None]:
datosProyectados.shape

In [None]:
plt.scatter(datosProyectados[:, 0], datosProyectados[:, 1], c=ytrain, edgecolor='none', alpha=0.4,
            cmap=plt.cm.get_cmap('jet', 10))

plt.title("Isomap de los dígitos - Reducido de 64 a 2 dimensiones")
plt.colorbar(label='label de los dígitos', ticks=range(10))
plt.clim(-0.5, 9.5);

plt.show()

La gráfica de isomap nos da una buena idea de que tan bien los números escritos a mano se encuentran separados en el espacio de 64 dimensiones. Por ejemplo, los ceros y los unos pareciera ser que pueden separarse facilmente, al igual que los dígitos cuatro. Esto tiene sentido, por ejemplo, los ceros poseen un hueco en el medio, mientras que los unos son un *palo* en el centro de la imágen.

En el caso de los dos y los siete, parecen solaparse. Una vez más, intuitivamente esto tiene sentido, un dos y un siete tienen cierta similitud a la hora de dibujarse.

Podríamos decir que los datos están más o menos bien separados, ¿o no? Intentemos clasificar los números a partir de los datos reducidos en dimensiones.

Utilizaremos el clasificador llamado [sklearn.naive_bayes.GaussianNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html).

In [None]:
from sklearn.naive_bayes import GaussianNB # 1. elegimos el clasificador
model = GaussianNB()                       # 2. y 3. instanciamos el modelo
model.fit(Xtrain, ytrain)                  # 4. entrenamos el modelo con el método fit()

Debemos notar que hemos entrenado el modelo con los datos de entrenamiento *Xtrain* y las etiquetas de entrenamiento, es decir, *ytrain*.

Ahora vamos a clasificar los datos de *Xtest* para etiquetas datos **desconocidos** por el modelo.

In [None]:
yModelo = model.predict(Xtest)             # 5. clasificamos sobre los datos de testeo

Ahora vamos a medir la *performance* del modelo. Para esto vamos a comparar las etiquetas de testeo *ytest* versus las obtenidas *yModelo*.

In [None]:
from sklearn.metrics import accuracy_score
round(accuracy_score(ytest, yModelo),2)

Un 83% de precisión en la clasificación no esta nada mal para un procedimiento sumamente sencillo. Hemos entrenado un modelo y clasificado nuevos datos en muy pocas líneas de código.

Podemos utilizar una matriz de confusión para ver rápidamente la performance de nuestro clasificador.

In [None]:
from sklearn.metrics import confusion_matrix

mat = confusion_matrix(ytest, yModelo)

sns.heatmap(mat, square=True, annot=True, cbar=False)
plt.xlabel('Valores clasificados')
plt.ylabel('Valores verdaderos');

Analicemos qué números fueron los que se clasificaron incorrectamente.

In [None]:
fig, axes = plt.subplots(10, 10, figsize=(8, 8), subplot_kw={'xticks':[], 'yticks':[]},
                         gridspec_kw=dict(hspace=0.1, wspace=0.1))

imagenesTest = Xtest.reshape(-1, 8, 8)

for i, ax in enumerate(axes.flat):
    ax.imshow(imagenesTest[i], cmap='binary', interpolation='nearest')
    ax.text(0.05, 0.05, str(yModelo[i]),
            transform=ax.transAxes, color='green' if (ytest[i] == yModelo[i]) else 'red')

# <center> <span style='color:#3c3b5f'>FIN</span></center>