# Clusters (distancia Euclidiana)

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats
from math import exp, log
pd.set_option('display.max_columns',None)
pd.set_option('display.max_rows',None)
import warnings
warnings.filterwarnings('ignore')
pd.options.display.float_format = "{:,.5f}".format

# Metodología 1 (sin el uso de librerías)

In [None]:
#Lectura de archivo
M = pd.read_csv("C:\\Users\\ricardo\\Desktop\\Clusters\\ClustersEjemplo1.csv",dtype='str',encoding = "ISO-8859-1")
M[M.columns] = M[M.columns].astype(float)

In [None]:
#Gráfica de datos
fig = plt.figure(figsize=(6.,5.))
#Gráficas exposición
ax = fig.add_subplot(1,1,1)
ax.set_title("Agrupaciones")
plt.scatter(M["Coordenada_X"],M["Coordenada_Y"])
plt.xlim(-10,10)
plt.ylim(-1,4)
plt.ylabel("Coordenada Y")
plt.xlabel("Coordenada X")
plt.show()

# Funciones auxiliares

In [None]:
#Distancia Euclidiana entre dos puntos
def D_Euc(v,w):
    n, d = len(v), 0
    for i in range(n):
        d = d + (v[i]-w[i])**2
    d = d**(0.5)
    return(d)
#Ejemplo
v, w = [0,0], [1,1]
d = D_Euc(v,w)
print("La distancia Euclidiana es igual a ",d)

In [None]:
#Distancia de un punto a un conjunto
def D_ConjPunto(v,A):
    n = len(A)
    vaux = []
    for i in range(n):
        w = A[i].copy()
        d = D_Euc(v,w)
        vaux.extend([d])
    dm = min(vaux)
    return(dm)
#Ejemplo
v, A = [0,0], [[1,1],[0,0.5],[0.8,0]]
dm = D_ConjPunto(v,A)
print("La distancia al conjunto A es igual a ",dm)     

In [None]:
#Distancia entre dos conjuntos
def D_ConjConj(A,B):
    n = len(A)
    vaux = []
    for i in range(n):
        v = A[i].copy()
        vaux.extend([D_ConjPunto(v,B)])
    dC = min(vaux)
    return(dC)
#Ejemplo
A, B = [[1,1],[0,0.5],[0.8,0]], [[0,0],[1,1]]
dC = D_ConjConj(A,B)
print("La distancia entre el conjunto A y el conjunto B es igual a ",dC)   

# Algoritmo Cluster

In [None]:
#Matriz de distancias
P1, P2, P3, P4, P5, P6 = [M.iloc[0,0],M.iloc[0,1]], [M.iloc[1,0],M.iloc[1,1]], [M.iloc[2,0],M.iloc[2,1]], \
                        [M.iloc[3,0],M.iloc[3,1]], [M.iloc[4,0],M.iloc[4,1]], [M.iloc[5,0],M.iloc[5,1]]
n = len(M.index)
vaux = ["Punto_" + str(i+1) for i in range(n)]
Md_P1 = pd.DataFrame(index=range(n),columns=vaux)
for i in range(n):
    vaux = []
    v = [M.iloc[i,0],M.iloc[i,1]]
    for j in range(n):
        w = [M.iloc[j,0],M.iloc[j,1]]
        d = D_Euc(v,w)
        Md_P1.iloc[i,j] = d
Md_P1     

In [None]:
#Paso 2. Se junta P1 y P2
P1_P2 = [P1,P2]
Md_P2 = pd.DataFrame(index=range(5),columns=["P1_P2","P3","P4","P5","P6"])
#Cálculo manual de distancias
Md_P2.iloc[0,:] = [0,D_ConjPunto(P3,P1_P2),D_ConjPunto(P4,P1_P2),D_ConjPunto(P5,P1_P2),D_ConjPunto(P6,P1_P2)]
Md_P2.iloc[1,:] = [D_ConjPunto(P3,P1_P2),D_Euc(P3,P3),D_Euc(P3,P4),D_Euc(P3,P5),D_Euc(P3,P6)]
Md_P2.iloc[2,:] = [D_ConjPunto(P4,P1_P2),D_Euc(P4,P3),D_Euc(P4,P4),D_Euc(P4,P5),D_Euc(P4,P6)]
Md_P2.iloc[3,:] = [D_ConjPunto(P5,P1_P2),D_Euc(P5,P3),D_Euc(P5,P4),D_Euc(P5,P5),D_Euc(P5,P6)]
Md_P2.iloc[4,:] = [D_ConjPunto(P6,P1_P2),D_Euc(P6,P3),D_Euc(P6,P4),D_Euc(P6,P5),D_Euc(P6,P6)]
Md_P2

In [None]:
#Paso 3. Se junta P1_P2 con P3
P1_P2_P3 = [P1,P2,P3]
Md_P3 = pd.DataFrame(index=range(4),columns=["P1_P2_P3","P4","P5","P6"])
#Cálculo manual de distancias
Md_P3.iloc[0,:] = [0,D_ConjPunto(P4,P1_P2_P3),D_ConjPunto(P5,P1_P2_P3),D_ConjPunto(P6,P1_P2_P3)]
Md_P3.iloc[1,:] = [D_ConjPunto(P4,P1_P2_P3),D_Euc(P4,P4),D_Euc(P4,P5),D_Euc(P4,P6)]
Md_P3.iloc[2,:] = [D_ConjPunto(P5,P1_P2_P3),D_Euc(P5,P4),D_Euc(P5,P5),D_Euc(P5,P6)]
Md_P3.iloc[3,:] = [D_ConjPunto(P6,P1_P2_P3),D_Euc(P6,P4),D_Euc(P6,P5),D_Euc(P6,P6)]
Md_P3

In [None]:
#Paso 4. Se junta P4 con P5
P1_P2_P3 = [P1,P2,P3]
P4_P5 = [P4,P5]
Md_P4 = pd.DataFrame(index=range(3),columns=["P1_P2_P3","P4_P5","P6"])
#Cálculo manual de distancias
Md_P4.iloc[0,:] = [0,D_ConjConj(P1_P2_P3,P4_P5),D_ConjPunto(P6,P1_P2_P3)]
Md_P4.iloc[1,:] = [D_ConjConj(P1_P2_P3,P4_P5),0,D_ConjPunto(P6,P4_P5)]
Md_P4.iloc[2,:] = [D_ConjPunto(P6,P1_P2_P3),D_ConjPunto(P6,P4_P5),D_Euc(P6,P6)]
Md_P4

In [None]:
#Paso 5. Se junta P4_P5 con P5
P1_P2_P3 = [P1,P2,P3]
P4_P5_P6 = [P4,P5,P6]
Md_P5 = pd.DataFrame(index=range(2),columns=["P1_P2_P3","P4_P5_P6"])
#Cálculo manual de distancias
Md_P5.iloc[0,:] = [D_ConjConj(P1_P2_P3,P1_P2_P3),D_ConjConj(P1_P2_P3,P4_P5_P6)]
Md_P5.iloc[1,:] = [D_ConjConj(P1_P2_P3,P4_P5_P6),D_ConjConj(P4_P5_P6,P4_P5_P6)]
Md_P5

In [None]:
#Gráfica con colores por grupos
c = ["darkblue","darkblue","darkblue","red","red","red"]
fig = plt.figure(figsize=(6.,5.))
#Gráficas exposición
ax = fig.add_subplot(1,1,1)
ax.set_title("Agrupaciones")
plt.scatter(M["Coordenada_X"],M["Coordenada_Y"],color=c)
plt.xlim(-10,10)
plt.ylim(-1,4)
plt.ylabel("Densidad")
plt.xlabel("Miles de millones de pesos")
plt.show()

In [None]:
import scipy.cluster.hierarchy as sch #https://docs.scipy.org/doc/scipy/reference/cluster.hierarchy.html
dendrogram = sch.dendrogram(sch.linkage(M, method = 'single',metric='euclidean'))
plt.title('Dendograma')
plt.xlabel('Puntos')
plt.ylabel('Distancias Euclidianas')
plt.show()

# Metodología 2 (usando librerías)

In [None]:
#Lectura de archivo
M = pd.read_csv("C:\\Users\\ricardo\\Desktop\\Clusters\\ClustersCirculos.csv",dtype='str',encoding = "ISO-8859-1")
M[M.columns] = M[M.columns].astype(float)
M.head()

In [None]:
#Gráfica de datos
fig = plt.figure(figsize=(6.,5.))
#Gráficas exposición
ax = fig.add_subplot(1,1,1)
ax.set_title("Agrupaciones")
plt.scatter(M["Coordenada_X"],M["Coordenada_Y"])
plt.ylabel("Coordenada Y")
plt.xlabel("Coordenada X")
plt.show()

In [None]:
import scipy.cluster.hierarchy as sch
dendrogram = sch.dendrogram(sch.linkage(M, method = 'single',metric='euclidean')) #https://docs.scipy.org/doc/scipy/reference/generated/scipy.cluster.hierarchy.linkage.html#scipy.cluster.hierarchy.linkage
plt.title('Dendograma')
plt.xlabel('Puntos')
plt.ylabel('Distancias Euclidianas')
plt.xticks(fontsize=5, rotation=90)
plt.show()

In [None]:
from sklearn.cluster import AgglomerativeClustering
CL = AgglomerativeClustering(n_clusters=2, affinity='euclidean', linkage='single')
cluster = CL.fit_predict(M)
M["Etiquetas"] = cluster
M.head()

In [None]:
plt.figure(figsize=(7, 5))
plt.scatter(M["Coordenada_X"], M["Coordenada_Y"], c=cluster, cmap='rainbow')
plt.show()