<a href="https://www.inove.com.ar"><img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/PA%20Banner.png" width="1000" align="center"></a>


# Aprendizaje No Supervisado

Programa creado para mostrar ejemplos prácticos de los visto durante la clase<br>
v1.1

### **Objetivo:** Diferenciar entre  Machine Learning supervisado y no supervisado.





## 1 - Machine Learning Supervisado, donde se conoce y dispone de la columna objetivo (target).

#### Utilizará el dataset de scikitlearn llamado Iris.

In [None]:
#Librerias a implementar
import os
import platform

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Para trabajar con el dataset de Moon (Lunas) disponible en la librería de sklearn
from  sklearn import  datasets

In [None]:
# Carga del dataset en la variable iris, a través de la herramienta importada como
# dataset --> "from  sklearn import  datasets"
# load.iris(), método para 
iris=datasets.load_iris()
iris

In [None]:
# De la información cargada en la variable iris se crea el DataFrame "df_data"
# Indicando los parámetros:
# data a partir de la data almacenada en iris.data
# Se especifica las columns, desde la variable iris.feature_names (Nombre de caracteríscas o columnas)
df_data = pd.DataFrame(data= iris.data, columns= iris.feature_names)
df_data.head()

In [None]:
# Se crea otra DataFrame llamado "df_target"
# que almacenará una columa llamda "species" con los datos de la especies del dataset
df_target = pd.DataFrame(data= iris.target, columns= ['species'])
df_target.head()

In [None]:
# Como la información de la columna "species" es numérica se aplica una lambda para cambiar los registros por datos tipo strings
# Es decir, que esté representada por el nombre de la especie.
# Para ello, se accede a la columna species del DataFrame df_target['species']
# Se aplica la lambda para cambiar por setosa, versicolor y virginica de acuerdo al número de su categoría.
df_target['species'] = df_target.apply(lambda x: 'setosa' if x.species == 0 else 'versicolor' if x.species == 1 else 'virginica', axis=1)
df_target.head()

In [None]:
# Concaneta ambos DataFrame
df = pd.concat([df_data, df_target], axis= 1)
df.head()

In [None]:
# Representar en un gráfico de dispersión el largo y ancho del pétalo discriminado por species
# El sistema supervisado tiene la ventaja de contar con la columna "species"
# para poder determinar el espacio que ocupa cada clase:
sns.scatterplot(x=df['petal length (cm)'], y=df['petal width (cm)'], hue=df['species'], palette='bright')
plt.show()

### **Importante:** Cuando trabajamos con algoritmos no supervisados, no se cuenta con la columna "species", que seria la columna objetivo con las categoría conocidas.

In [None]:
# En cambio, cuando trabajamos con algoritmos no supervisados es el caso
# cuando el sistema no nos brinda la columna "species" porque no la tenemos,
# no es posible categorizar por "labeling" (por nombre de clase) sino que hay
# clasificar por la distribución de los puntos en el espacio.
# Los datos crudos el algoritmo de clustering los veo como:
sns.scatterplot(x=df['petal length (cm)'], y=df['petal width (cm)'])
plt.show()

## 2 Machine Learning No Supervisado, donde no se conoce y dispone de la columna objetivo (target).

#### Utilizará el dataset de scikitlearn llamado Moons  (Lunas).

Kmeans vs DBSCAN

In [None]:
# Se almacena en la varible noisy_moons la información del dataset de las lunas
# Nos quedamos con el primer array que contiene todas la información de las caracteriscas
noisy_moons = datasets.make_moons(n_samples=1000, noise=.05)[0]
noisy_moons

In [None]:
# Exploramos la distribución del dataset
fig = plt.figure()
ax = fig.add_subplot()
sns.scatterplot(x=noisy_moons[:, 0], y=noisy_moons[:, 1], ax=ax)
ax.set_title("Datos originales")
plt.show()

In [None]:
# Se aplica el KMeans, considerando 2 clusters
# Se entrena y predice
from sklearn.cluster import KMeans 
X = noisy_moons

kmeans = KMeans(init="k-means++", n_clusters=2, n_init = 12)
kmeans.fit(X)
kmeans_labels = kmeans.predict(X)

In [None]:
# Se representa gráficamente el resultado del KMeans para separar los datos
fig = plt.figure()
ax = fig.add_subplot()

# Se gráfica los valores de la lunas discriminando por el resultado de la predicción que agrupa los datos.
sns.scatterplot(x=noisy_moons[:, 0], y=noisy_moons[:, 1], hue=kmeans_labels, ax=ax)

# Gráfica los centros de los clusters
sns.scatterplot(x=kmeans.cluster_centers_[:, 0], y=kmeans.cluster_centers_[:, 1], marker='x', s=100, ax=ax)
ax.set_title("Kmeans")
plt.show()

In [None]:
# Se implementa DBSCAN
from sklearn.cluster import DBSCAN

X = noisy_moons

# Crea y entrena el modelo con fit
dbscan_labels = DBSCAN(eps=0.25, min_samples=10).fit_predict(X)

In [None]:
# Se gráfica los valores de la lunas discriminando por el resultado de la predicción que agrupa los datos con DNSCAN.
fig = plt.figure()
ax = fig.add_subplot()
sns.scatterplot(x=noisy_moons[:, 0], y=noisy_moons[:, 1], hue=dbscan_labels, ax=ax)
ax.set_title("DBSCAN")
plt.show()

#### Utilizar dataset de scikitlearn + ruido

In [None]:
# Agregando más valores tipo ruido para desordenar un poco los datos y poder agruparlos con KMeans y DBSCAN
outliers = np.array([[-0.5, -0.25], [-0.47, -0.27], [1.5, 0.75], [1.65, 0.72]])
noisy_moons_outliers = np.concatenate((noisy_moons, outliers), axis=0)


# Exploramos la distribución del dataset
fig = plt.figure()
ax = fig.add_subplot()
sns.scatterplot(x=noisy_moons[:, 0], y=noisy_moons[:, 1], ax=ax)
sns.scatterplot(x=outliers[:, 0], y=outliers[:, 1], ax=ax)
ax.set_title("Datos originales + ruido")
plt.show()

In [None]:
# Se aplica de vuelta el KMenas con la información ruidosa incluida
from sklearn.cluster import KMeans 
X = noisy_moons_outliers

kmeans = KMeans(init="k-means++", n_clusters=2, n_init = 12)
kmeans.fit(X)
kmeans_labels = kmeans.predict(X)

fig = plt.figure()
ax = fig.add_subplot()
sns.scatterplot(x=noisy_moons_outliers[:, 0], y=noisy_moons_outliers[:, 1], hue=kmeans_labels, ax=ax)
sns.scatterplot(x=kmeans.cluster_centers_[:, 0], y=kmeans.cluster_centers_[:, 1], marker='x', s=100, ax=ax)
ax.set_title("Kmeans + ruido")
plt.show()

In [None]:
# Se aplica de vuelta el DBSCAN con la información ruidosa incluida
from sklearn.cluster import DBSCAN
X = noisy_moons_outliers

dbscan_labels = DBSCAN(eps=0.25, min_samples=10).fit_predict(X)

fig = plt.figure()
ax = fig.add_subplot()
sns.scatterplot(x=noisy_moons_outliers[:, 0], y=noisy_moons_outliers[:, 1], hue=dbscan_labels, palette='bright', ax=ax)
ax.set_title("DBSCAN + ruido")
plt.show()