**¿Qué librerías necesitamos?**

* Pandas

* Matplotlib

* Thinker -  Interfaces gráficas de usuario con Tk . https://docs.python.org/es/3/library/tk.html

Librería no vista hasta ahora - **Sklearn** dentro de la cual vamos a invocar a cluster KMeans

pip install -U scikit-learn

python -m pip show scikit-learn

conda install scikit-learn

conda list scikit-learn

Link a Librería Python: https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

**Parámetros** - class sklearn.cluster.KMeans(n_clusters=8, *, init='k-means++', n_init=10, max_iter=300, tol=0.0001, precompute_distances='deprecated', verbose=0, random_state=None, copy_x=True, n_jobs='deprecated', algorithm='auto')

* **n_clusters** : int, predeterminado = 8 . El número de clústeres que se formarán, así como el número de centroides que se generarán.

* **init**: {'k-significa ++', 'aleatorio', ndarray, invocable}, predeterminado = 'k-significa ++'
    Método de inicialización:

    'K-means ++': selecciona los centros de clústeres iniciales para el clustering de k-mean de una manera inteligente para 
    acelerar la convergencia. Consulte la sección Notas en k_init para obtener más detalles.

    "Aleatorio": elija n_clusters observaciones (filas) al azar de los datos para los centroides iniciales.

    Si se pasa un ndarray, debería tener forma (n_clusters, n_features) y proporcionar los centros iniciales.

    Si se pasa un invocable, debe tomar argumentos X, n_clusters y un estado aleatorio y devolver una inicialización

* **n_init**: int predeterminado = 10
     Número de veces que se ejecutará el algoritmo de k-medias con diferentes semillas de centroide. Los resultados finales
     serán el mejor resultado de n_init corridas consecutivas en términos de inercia.

* **max_iter**: int predeterminado = 300
    Número máximo de iteraciones del algoritmo k-means para una sola ejecución.

* **tol**: float, predeterminado = 1e-4
    Tolerancia relativa con respecto a la norma de Frobenius de la diferencia en los centros de los conglomerados de dos 
    iteraciones consecutivas para declarar convergencia.

* **precompute_distances**: {‘auto’, True, False}, default = ’auto’
    Calcule previamente distancias (más rápido pero requiere más memoria).

    "Auto": no precalcule distancias si n_samples * n_clusters> 12 millones. Esto corresponde a unos 100 MB de sobrecarga por 
    trabajo con doble precisión.

    Verdadero: siempre precalcule las distancias.

    Falso: nunca precalcule distancias.

    En desuso desde la versión 0.23: "precompute_distances" quedó obsoleto en la versión 0.22 y se eliminará en la 0.25. No 
    tiene ningún efecto.

* **verbose**: int, predeterminado = 0 Modo de verbosidad.

* **random_state**: int, instancia de RandomState, predeterminado = Ninguno
    Determina la generación de números aleatorios para la inicialización del centroide. Utilice un int para hacer que la 
    aleatoriedad sea determinista. Consulte el glosario.

* **copy_xbool**: predeterminado = Verdadero
    Cuando se calculan previamente las distancias, es más exacto numéricamente centrar los datos primero. Si copy_x es True 
    (predeterminado), los datos originales no se modifican. Si es False, los datos originales se modifican y se devuelven antes 
    de que vuelva la función, pero se pueden introducir pequeñas diferencias numéricas restando y luego sumando la media de los 
    datos. Tenga en cuenta que si los datos originales no son contiguos a C, se realizará una copia incluso si copy_x es False. 
    Si los datos originales son escasos, pero no en formato CSR, se realizará una copia incluso si copy_x es False.

* **n_jobs**: int, predeterminado = Ninguno
    El número de subprocesos OpenMP que se utilizarán para el cálculo. El paralelismo se realiza a modo de muestra en el ciclo 
    principal de cython, que asigna cada muestra a su centro más cercano.

    Ninguno o -1 significa utilizar todos los procesadores.

    En desuso desde la versión 0.23: n_jobs quedó obsoleto en la versión 0.23 y se eliminará en la 0.25.
    algoritmo {"auto", "completo", "elkan"}, predeterminado = "auto"
    Algoritmo K-means a utilizar. El algoritmo clásico de estilo EM es "completo". La variación "elkan" es más eficiente en 
    datos con grupos bien definidos, al usar la desigualdad del triángulo. Sin embargo, consume más memoria debido a la 
    asignación de una matriz adicional de formas (n_samples, n_clusters).

    Por ahora, "auto" (mantenido para compatibilidad con versiones anteriores) elige "elkan", pero podría cambiar en el futuro 
    para una mejor heurística.


In [None]:
from pandas import DataFrame
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
import tkinter as tk
from matplotlib.backends.backend_tkagg import FigureCanvasTkAgg

Data = {'x': [25,34,22,27,33,33,31,22,35,34,67,54,57,43,50,57,59,52,65,47,49,48,35,33,44,45,38,43,51,46],
        'y': [79,51,53,78,59,74,73,57,69,75,51,32,40,47,53,36,35,58,59,50,25,20,14,12,20,5,29,27,8,7]
       }
  
df = DataFrame(Data,columns=['x','y'])
  
kmeans = KMeans(n_clusters=4).fit(df)
centroids = kmeans.cluster_centers_

root= tk.Tk()

canvas1 = tk.Canvas(root, width = 100, height = 100)
canvas1.pack()

label1 = tk.Label(root, text=centroids, justify = 'center')
canvas1.create_window(70, 50, window=label1)

figure1 = plt.Figure(figsize=(5,4), dpi=100)
ax1 = figure1.add_subplot(111)
ax1.scatter(df['x'], df['y'], c= kmeans.labels_.astype(float), s=50, alpha=0.5)
ax1.scatter(centroids[:, 0], centroids[:, 1], c='red', s=50)
scatter1 = FigureCanvasTkAgg(figure1, root) 
scatter1.get_tk_widget().pack(side=tk.LEFT, fill=tk.BOTH)

root.mainloop()


