# Algoritmo K-Medias

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats
from math import exp, log
pd.set_option('display.max_columns',None)
pd.set_option('display.max_rows',None)
import warnings
warnings.filterwarnings('ignore')
pd.options.display.float_format = "{:,.5f}".format

# Metodología 1 (sin el uso de librerías)

In [None]:
#Lectura de archivo
M = pd.read_csv("C:\\Users\\ricardo\\Desktop\\Clusters\\ClustersEjemplo1.csv",dtype='str',encoding = "ISO-8859-1")
M[M.columns] = M[M.columns].astype(float)

In [None]:
#Gráfica de datos
fig = plt.figure(figsize=(6.,5.))
#Gráficas exposición
ax = fig.add_subplot(1,1,1)
ax.set_title("Agrupaciones")
plt.scatter(M["Coordenada_X"],M["Coordenada_Y"])
plt.xlim(-10,10)
plt.ylim(-1,6)
plt.ylabel("Densidad")
plt.xlabel("Miles de millones de pesos")
plt.show()

# Funciones auxiliares

In [None]:
#Distancia Euclidiana entre dos puntos
def D_Euc(v,w):
    n, d = len(v), 0
    for i in range(n):
        d = d + (v[i]-w[i])**2
    d = d**(0.5)
    return(d)
#Ejemplo
v, w = [0,0], [1,1]
d = D_Euc(v,w)
print("La distancia Euclidiana es igual a ",d)

In [None]:
#Distancia Euclidiana entre dos puntos (sin raíz)
def D_Euc2(v,w):
    n, d = len(v), 0
    for i in range(n):
        d = d + (v[i]-w[i])**2
    d = d**(1)
    return(d)
#Ejemplo
v, w = [0,0], [1,1]
d = D_Euc(v,w)
print("La distancia Euclidiana es igual a ",d)

In [None]:
#Cálculo de centroides
def Centroide(w):
    n = len(w)
    xC, yC = 0, 0
    for i in range(n):
        xC = xC + w[i][0]/n
        yC = yC + w[i][1]/n
    return ([xC,yC])
#Ejemplo
w = [[0,0],[1,1]]
C = Centroide(w)
print("El centroide es el vecto ",C)

# Algoritmo K-medias

In [None]:
def KMedias(M,C0_1,C0_2,maxiter=100):
    it = 0
    while it <= maxiter:
        vetiqueta, vG1, vG2 = [], [], []
        for i in M.iterrows():
            v = [i[1][0],i[1][1]]
            d1 =  D_Euc(v,C0_1)
            d2 =  D_Euc(v,C0_2)
            if d1<=d2:
                vetiqueta.extend([0])
                vG1.extend([v])
            else:
                vetiqueta.extend([1])
                vG2.extend([v])
        C0_1 = Centroide(vG1)
        C0_2 = Centroide(vG2)
        it = it + 1
    return [vetiqueta,C0_1,C0_2]         

In [None]:
P1, P2, P3, P4, P5, P6 = [M.iloc[0,0],M.iloc[0,1]], [M.iloc[1,0],M.iloc[1,1]], [M.iloc[2,0],M.iloc[2,1]], \
                        [M.iloc[3,0],M.iloc[3,1]], [M.iloc[4,0],M.iloc[4,1]], [M.iloc[5,0],M.iloc[5,1]]
C1, C2 = P1.copy(), P2.copy()
[vetiqueta,C0_1,C0_2] = KMedias(M,C1,C2,100)

In [None]:
#Etiqueta de colores
vcolor = []
for x in vetiqueta:
    if x == 0:
        vcolor.extend(["darkblue"])
    else:
        vcolor.extend(["red"])

In [None]:
#Gráfica con colores por grupos
fig = plt.figure(figsize=(6.,5.))
#Gráficas exposición
ax = fig.add_subplot(1,1,1)
ax.set_title("Agrupaciones")
plt.scatter(M["Coordenada_X"],M["Coordenada_Y"],color=vcolor)
plt.xlim(-10,10)
plt.ylim(-1,6)
plt.ylabel("Coordenada Y")
plt.xlabel("Coordenada X")
plt.show()

# Ejemplo círculos

In [None]:
#Lectura de archivo
M = pd.read_csv("C:\\Users\\ricardo\\Desktop\\Clusters\\ClustersCirculos.csv",dtype='str',encoding = "ISO-8859-1")
M[M.columns] = M[M.columns].astype(float)
M.head()

In [None]:
#Gráfica con colores por grupos
fig = plt.figure(figsize=(6.,5.))
#Gráficas exposición
ax = fig.add_subplot(1,1,1)
ax.set_title("Agrupaciones")
plt.scatter(M["Coordenada_X"],M["Coordenada_Y"])
plt.ylabel("Coordenada Y")
plt.xlabel("Coordenada X")
plt.show()

In [None]:
C1, C2 = [M.iloc[0,0],M.iloc[0,1]], [M.iloc[1,0],M.iloc[1,1]]
[vetiqueta,C0_1,C0_2] = KMedias(M,C1,C2,100)

In [None]:
#Etiqueta de colores
vcolor = []
for x in vetiqueta:
    if x == 0:
        vcolor.extend(["darkblue"])
    else:
        vcolor.extend(["red"])

In [None]:
#Gráfica con colores por grupos
fig = plt.figure(figsize=(6.,5.))
#Gráficas exposición
ax = fig.add_subplot(1,1,1)
ax.set_title("Agrupaciones")
plt.scatter(M["Coordenada_X"],M["Coordenada_Y"],color=vcolor)
plt.ylabel("Coordenada Y")
plt.xlabel("Coordenada X")
plt.show()

# Metodología 2 (con el uso de librerías)

In [None]:
M = pd.read_csv("C:\\Users\\ricardo\\Desktop\\Clusters\\ClustersCirculos.csv",dtype='str',encoding = "ISO-8859-1")
M[M.columns] = M[M.columns].astype(float)
from sklearn.cluster import KMeans #https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html
KM = KMeans(n_clusters=2)
KMedias = KM.fit(M)
centroides = KMedias.cluster_centers_
etiquetas = KMedias.predict(M)

In [None]:
print(centroides)

In [None]:
M["Etiquetas"] = etiquetas

In [None]:
M.head()

In [None]:
#Etiqueta de colores
vcolor = []
for x in etiquetas:
    if x == 0:
        vcolor.extend(["darkblue"])
    else:
        vcolor.extend(["red"])

In [None]:
#Gráfica con colores por grupos
fig = plt.figure(figsize=(6.,5.))
#Gráficas exposición
ax = fig.add_subplot(1,1,1)
ax.set_title("Agrupaciones")
plt.scatter(M["Coordenada_X"],M["Coordenada_Y"],color=vcolor)
plt.ylabel("Coordenada Y")
plt.xlabel("Coordenada X")
plt.show()

# Heurística para determinar el número de grupos

In [None]:
M = pd.read_csv("C:\\Users\\ricardo\\Desktop\\Clusters\\ClustersCirculos.csv",dtype='str',encoding = "ISO-8859-1")
M[M.columns] = M[M.columns].astype(float)
from sklearn.cluster import KMeans
KM = KMeans(n_clusters=2)
KMedias = KM.fit(M)
centroides = KMedias.cluster_centers_
etiquetas = KMedias.predict(M)
KMedias.inertia_

In [None]:
M["Etiquetas"] = etiquetas

In [None]:
N = range(1, 20)
KM = [KMeans(n_clusters=i) for i in N]
score = [KM[i].fit(M).inertia_ for i in range(len(KM))]
plt.plot(N,score,color="darkblue")
plt.xlabel("Número de agrupaciones")
plt.ylabel("Criterio")
plt.title("Suma distancias al cuadrado")
plt.show()

In [None]:
#Función auxiliar
#Distancia de un punto a un conjunto (suma)
def D_ConjPunto2(v,A):
    n = len(A)
    vaux = []
    for i in range(n):
        w = A[i].copy()
        d = D_Euc2(v,w)
        vaux.extend([d])
    dm = np.sum(vaux)
    return(dm)
#Ejemplo
v, A = [0,0], [[1,1],[0,0.5],[0.8,0]]
dm = D_ConjPunto2(v,A)
print("La distancia al conjunto A es igual a ",dm)     

In [None]:
#Ejemplo (A)
M.head()

In [None]:
#Ejemplo
Maux = M.loc[M["Etiquetas"]==0,:].copy(deep=True).reset_index(drop=True)
Maux

In [None]:
#Función auxiliar
def Dis_Grupos_Centroides(DF,vcent):
    n = len(vcent)
    vaux = []
    for j in range(n):
        Maux = DF.loc[DF["Etiquetas"]==j,:].copy(deep=True).reset_index(drop=True)
        Maux.drop("Etiquetas",axis=1,inplace=True)
        Gaux = []
        for i in Maux.iterrows():
            Gaux.extend([i[1].tolist()])
        vaux.extend([D_ConjPunto2(vcent[j],Gaux)])
    return np.sum(vaux)
S2 = Dis_Grupos_Centroides(M,centroides)
print("La suma de las distancias al cuadrado es igual a ",S2)

In [None]:
#Determinación de la agrupación de una nueva observación
agrupacion = KMedias.predict(np.asarray([[3,2]]))
print("La observación pertenece al grupo ",agrupacion[0])