# Clustering con Incertidumbre

In [1]:
import pandas
import numpy as np
import statistics as stats

# 1) Estructura de datos:

In [2]:
class Cluster(): 
    def __init__(self, centro, radio):
        self.centro = centro
        self.radio = radio
        
    def print(self):
        print('Centro: ',self.centro, ' Radio: ',self.radio)
    def __repr__(self):
        return 'Centro: %s Radio: %s' % (self.centro,self.radio)
    def __str__(self):
        return 'Centro: %s Radio: %s' % (self.centro,self.radio)

# 2) Estimación:

In [3]:
def get_cluster(puntos): # REF: https://www.geeksforgeeks.org/equation-of-circle-when-three-points-on-the-circle-are-given/
    
    p1 = puntos[0]
    p2 = puntos[1]
    p3 = puntos[2]
    
    #Puntos medios de esos 3 puntos
    x12 = p1[0] - p2[0];  
    x13 = p1[0] - p3[0];  
  
    y12 = p1[1] - p2[1];  
    y13 = p1[1] - p3[1];    
  
    y31 = p3[1] - p1[1];  
    y21 = p2[1] - p1[1]; 
  
    x31 = p3[0] - p1[0];  
    x21 = p2[0] - p1[0];  
  
    #Calcular las 2 rectas  
    #x1^2 - x3^2  
    sx13 = pow(p1[0], 2) - pow(p3[0], 2);  
  
    # y1^2 - y3^2  
    sy13 = pow(p1[1], 2) - pow(p3[1], 2);  
  
    sx21 = pow(p2[0], 2) - pow(p1[0], 2);  
    sy21 = pow(p2[1], 2) - pow(p1[1], 2);  
  
    f = (((sx13) * (x12) + (sy13) * 
          (x12) + (sx21) * (x13) + 
          (sy21) * (x13)) // (2 * 
          ((y31) * (x12) - (y21) * (x13)))); 
              
    g = (((sx13) * (y12) + (sy13) * (y12) + 
          (sx21) * (y13) + (sy21) * (y13)) // 
          (2 * ((x31) * (y12) - (x21) * (y13))));  
  
    c = (-pow(p1[0], 2) - pow(p1[1], 2) - 
         2 * g * p1[0] - 2 * f * p1[1]);  
  
    # ecuación del circulo: x^2 + y^2 + 2*g*x + 2*f*y + c = 0  
    # con centro: (h = -g, k = -f)  
    # y radio: r^2 = h^2 + k^2 - c  
    h = -g;  
    k = -f;  
    sqr_of_r = h * h + k * k - c;  
  
    # r is the radius  
    r = round(np.sqrt(sqr_of_r), 5);  
    
    res = Cluster([h,k],r)
    
    return res
    
    

In [4]:
def obtener_3_puntos(puntos):
    aux_x_max = 0
    aux_x_min = 0
    aux_y_max = 0

    for i in range(len(puntos)):

        if(puntos[i][0] > aux_x_max or i==0):
            px_max = puntos[i]
            aux_x_max = puntos[i][0]

        if(puntos[i][0] < aux_x_min or i == 0):
            px_min = puntos[i]
            aux_x_min = puntos[i][0]   

        if(puntos[i][1] > aux_y_max or i == 0):
            py_max = puntos[i]
            aux_y_max = puntos[i][1]        
    
    return px_max,px_min,py_max 

El primer ejemplo es un circulo perfecto centrado en el origen y de radio 5.

In [5]:
puntos = pandas.read_csv('Data/puntos_1.csv', header=None, names=['x', 'y']).values
#print(puntos.shape)  # Número de filas y columnas
#puntoscsv.head(12)  # 10 primeras filas

In [6]:
print(puntos)

[[ 5  0]
 [ 4  3]
 [ 3  4]
 [ 0  5]
 [-3  4]
 [-4  3]
 [-5  0]
 [-4 -3]
 [-3 -4]
 [ 0 -5]
 [ 3 -4]
 [ 4 -3]]


In [7]:
#Obtenemos 3 puntos lo más alejados posibles
puntos = obtener_3_puntos(puntos)

cluster = get_cluster(puntos)
cluster

Centro: [0, 0] Radio: 5.0

Lo probamos con una lista de puntos no perfecta y de baricentro "1,0" y radio "4"

In [8]:
puntos = pandas.read_csv('Data/puntos_2.csv', header=None, names=['x', 'y']).values
#print(puntos.shape)  # Número de filas y columnas
#puntoscsv.head(12)  # 10 primeras filas

In [9]:
print(puntos)

[[ 5.    0.  ]
 [ 4.5   2.  ]
 [ 3.    3.5 ]
 [ 1.    4.  ]
 [ 0.    3.75]
 [-2.    2.5 ]
 [-3.    0.  ]
 [-2.   -2.5 ]
 [ 0.   -3.75]
 [ 1.   -4.  ]
 [ 3.   -3.5 ]
 [ 4.   -2.5 ]]


In [10]:
puntos = obtener_3_puntos(puntos)

cluster = get_cluster(puntos)
cluster

Centro: [1.0, -0.0] Radio: 4.0

# 3) Grados de pertenencia

In [11]:
def grados_pertenencia(p,clusters):
    
    #Calculamos la distancia de el punto a cada cluster
    distancias = []
    
    for i in range(len(clusters)):
        d = np.sqrt(pow(p[0] - clusters[i].centro[0],2) + pow(p[1] - clusters[i].centro[1],2))
        distancias.append(abs(d-clusters[i].radio))
        
    
    #Calculamos el grado de pertencia a cada cluster
    pertenencias = []
    
    for i in range(len(clusters)):
        per = 100/(pow(distancias[i],2))
        pertenencias.append(per)
        
    #Normalizamos
    suma = sum(pertenencias)
    pertenencias = pertenencias/suma
    
    return pertenencias

In [12]:
#Clusters:
cluster1 = Cluster([0,0],5)
cluster2 = Cluster([1,0],4)
cluster3 = Cluster([10,10],3)

clusters = [cluster1,cluster2,cluster3]

In [13]:
p = [2,0]
print(grados_pertenencia(p,clusters))

[0.47764808 0.47764808 0.04470383]


In [14]:
p = [10,8]
print(grados_pertenencia(p,clusters))
print(sum(grados_pertenencia(p,clusters)))

[0.01590335 0.01498611 0.96911054]
1.0


In [15]:
p = [-10,0]
print(grados_pertenencia(p,clusters))

[0.63415565 0.3235488  0.04229555]


In [16]:
clusters = [cluster1,cluster3]
p = [2,0]
print(grados_pertenencia(p,clusters))

[0.91441817 0.08558183]


# 4) Modificacion 2

In [66]:
#Le pasamos los 3 puntos con mayor grado de pertenencia a un cluster:
def puntos_mayor_grado_por_cluster(puntos,cluster,n_cluster):
    per = []
    res = []

    for i in range(len(puntos)):
        per.append(grados_pertenencia(puntos[i],cluster)[n_cluster])
    
    res.append(puntos[per.index(max(per))])
    puntos = np.delete(puntos,per.index(max(per)),0)
    per.remove(max(per))
    
    res.append(puntos[per.index(max(per))])
    puntos = np.delete(puntos,per.index(max(per)),0)
    per.remove(max(per))
    
    res.append(puntos[per.index(max(per))])
    
    return res


In [77]:
def get_real_clusters(puntos,clusters):
    res = []
    
    for i in range(len(clusters)):
        pts_pertenencia = puntos_mayor_grado_por_cluster(puntos,clusters,i)
        res.append(get_cluster(pts_pertenencia))
        
    return res 

In [78]:
#Clusters iniciales:
cluster1 = Cluster([1,1],4)
cluster2 = Cluster([7,7],2)

clusters = [cluster1,cluster2]

#Todos los puntos:
puntos = pandas.read_csv('Data/puntos_1_y_3.csv', header=None, names=['x', 'y']).values

print(cluster1)
print(cluster2)

Centro: [1, 1] Radio: 4
Centro: [7, 7] Radio: 2


In [79]:
clusters = get_real_clusters(puntos,clusters)
clusters

[Centro: [-0.0, 0.0] Radio: 5.0, Centro: [10.0, 10.0] Radio: 2.97321]