In [3]:
# Hasta ahora nos hemos enfocado en algoritmos de aprendizaje SUPERVISADO, es
# decir, algoritmos a los que les entregamos las etiquetas y las características
# para que entrene y después genere predicciones.
# Con el DataSet de IRIS las características son las mediciones del pétalo y sépalo 
# y las etiquetas eran a que especie pertenecían cada una de estas mediciones.
# Pero no siempre vamos a tener los datos tan bonitos como nos los da SKLEARN, 
# muchas veces solo vamos a tener las características como datos.
# Para esto vamos a usar los algoritmos de aprendizaje NO SUPERVISADO.
# (No necesitan las etiquetas para aprender, solo las características).
# En el caso de IRIS solo le daríamos las mediciones y esperaríamos a que encontrase
# algún patrón entre ellas.
#
# K-MEANS: Algoritmo que nos ayuda a agrupar nuestros datos según las características
# que tiene.
# Por ejemplo:
# Tenemos un set de datos que queremos separ.
# Pues decimos la cantidad de cluster en los que queremos que los separe K-MEANS.
# Después de esto, lo primero que va a hacer es crear una serie de puntos aleatorios
# llamados CENTROIDES.
# Se va a comprobar cuales son los punto más cercanos a cada centroide y se va
# a sacar el promedio de cada grupo de puntos.
# En la siguiente iteración se va a mover el centroide al promedio obtenido (en forma de punto).
# En cada iteración se va a ir haciendo esto hasta que no cambie la posición de
# los centroides o llegue a las iteraciones pedidas por el usuario.
# Acabado esto se definen las clases.
# Mucho ensayo y error (clasifícalo en 3, 4, 5 grupos y veo en cual lo clasifica mejor).

In [4]:
# Vamos a entrenar nuestro algoritmo con el set de datos de IRIS pero solo 
# dándole las características y después le entregaremos las etiquetas para comparar (Nunca para entrenar).

In [5]:
from sklearn.cluster import KMeans
from sklearn import datasets
from sklearn import metrics

In [6]:
# Le paso mi set de datos a la variable "iris":

In [7]:
iris = datasets.load_iris()

In [8]:
# Divido los datos en X(datos) y y(etiquetas):

In [9]:
X = iris.data
y = iris.target

In [10]:
# "X" Cada renglón es una flor y cada columna es la medición de la longitud del grosor o tamanio del pétalo y sépalo.
# "y" Especie a la que pertenece cada una de esas mediciones. (0, 1, 2)

In [11]:
X

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [12]:
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [15]:
# A nuestra variable "km" vamos a pasarle nuestro algoritmo KMeans.
# Con un número máximo de 3000 iteraciones (cuantas veces voy a mover nuestro centroide).
# En dos grupos.

In [None]:
# A la variable la entreno con X (Mediciones de las flores)

In [16]:
km.fit(X)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=3000,
    n_clusters=2, n_init=10, n_jobs=None, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)

In [17]:
# Genero una varible llamada predicciones que va a contener todas las predicciones
# de a que grupo pertenece cada una de las mediciones que pertenece a X.

In [18]:
predicciones = km.predict(X)

In [19]:
predicciones

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [20]:
# Solo lo mete en dos grupos (0 y 1).

In [21]:
# Ahora vamos a comparar.
# Como ya teníamos las etiquetas las vamos a comparar con las mismas.

In [22]:
score = metrics.adjusted_rand_score(y, predicciones)

In [23]:
print(score)

0.5399218294207123


In [28]:
# Acertó el 53% de las veces. NO es muy bueno.
# Normalmente, cuando tenemos un número bajo en aprendizaje NO supervisado los más
# importante es meternos en nuestro set de datos e ir viendo que tipo de variable podemos
# cambiar o eliminar para mejorar la clasificación o cambiar el número de grupos(predicciones).
#
# Ensayo y error.
# El que mejor rendimiento tuvo es:
# " km = KMeans(n_clusters=3,max_iter=3000) "

In [30]:
# Aquí tenemos y para poder comparar pero en aprendizaje NO supervisado no siempre se tiene.
# Esto quiere decir que si queremos saber que tan bien ha apresndido tendremos que 
# meternos dentro de nuestras predicciones e ir viendo que variables ha tomado.
# Porque podemos correr el riesgo de que esté tomando características o variables que no deba o no nos interesen.
# Por ejemplo, nos lo empieza a agrupar por la fecha de la medición y no queremos eso.