# Biblioteca Scikit, algoritmos, particion de BD, evaluaciones

# K-Means

K-Means (traducido como K-Medias en español), es un método de agrupamiento o clustering.

El clustering es una técnica para encontrar y clasificar K grupos de datos (clusters). 
Así, los elementos que comparten características semejantes estarán juntos en un mismo grupo, 
separados de los otros grupos con los que no comparten características. 

Para saber si los datos son parecidos o diferentes el algoritmo K-means utiliza la distancia entre los datos.
Las observaciones que se parecen tendrán una menor distancia entre ellas

### Importar librerias

Utilizaremos la librería Scikit que cuenta con algoritmos de clasificación, 
regresión, clustering, además obtenedremos el dataset iris.

Importaremos también la librería pandas para analizar resultados finales.

In [None]:
from sklearn.datasets import load_iris  
from sklearn.cluster import KMeans as KM
from sklearn.model_selection import cross_val_score
import pandas as pd

### Cargar dataset Iris

Para esta actividad utilizaremos el dataset Iris, la cual es utilizada frecuentemente para el  aprendizaje de machine learning; este dataset cuenta con la información y características de 
tres tipos de flores.

En la siguiente celda, se carga el dataset a la variable iris y luego se imprimen sus etiquetas,
clases y características.

In [None]:
# Cargar la base de datos iris
iris = load_iris()

print("--------------Etiquetas---------------")
print(list(iris.target))
print("--------------Nombre de las clases--------------")
print(iris.target_names)
print("--------------Nombre de las características--------------")
print(iris.feature_names)

Obtenemos y mostramos las primeras cuatro características del dataset, la información será utilizada en las predicciones más adelante

In [None]:
X = iris.data[:, :4]
print(X)

## Clusters

Al utilizar K-Means, es necesario asignar la cantidad de clusters que se quieren crear.
En nuestro caso, elegimos crear tres clusters.

In [None]:
#Cantidad de clusters a crear
kmeans = KM(n_clusters = 3)


## Modelo

Para obtener nuestro modelo, debemos pasarle los datos de nuestro dataset y este sea entrenado.

Los datos de entrada serán las características de las flores.

In [None]:

#modelo
model = kmeans.fit(iris.data)

In [None]:
print(model.labels_)


### Centroides

Antes habíamos asignado la cantidad de clusters que se crearían para nuestro modelo; cada uno de esos clusters tiene un
representante denominado centroide, el cual será utilizado para hacer las observaciones de los puntos cercanos.

Estos centroides son asignados aleatoriamente por el algoritmo, en la siguiente celda se realiza una consulta de la ubicación
de los centroides.

In [None]:
model.cluster_centers_

## Predicciones

Para las predicciones, tomaremos un conjunto de características, que podemos consultar en celdas anteriores; con esta predicción podemos saber a que conjunto pertenece.

In [None]:

print(model.predict([[6.7, 3.,  5.,  1.7]]))

print(model.predict([[6.3, 2.5, 5.,  1.9]]))

print(model.predict([[6.3, 3.4, 5.6, 2.4]]))

### Validaciones

Se realiza la validación cruzada de los datos

In [None]:
scores = cross_val_score(model, iris.data, iris.target, cv=5)
scores 

Para este análisis utilizamos la librería pandas que devuelve la tabla de contingencia resultante de cruzar dos o más campos

In [None]:
pd.crosstab(model.labels_, iris.target)