# Clustering con Incertidumbre

In [144]:
import pandas
import numpy as np
import statistics as stats

#Imports para calcular círculo a partir de tres puntos
from sympy import Eq
from sympy.geometry import Point, Circle

# 1) Estructura de datos:

In [145]:
class Punto(): 
    def __init__(self, x, y):
        self.x = x
        self.y = y
        
    def print(self):
        print('(',self.x, ', ',self.y,')')
    def __repr__(self):
        return '(%s, %s)' % (self.x,self.y)
    def __str__(self):
        return '(%s, %s)' % (self.x,self.y)

In [146]:
class Cluster(): 
    def __init__(self, x, y, radio):
        self.centro = Punto(x,y)
        self.radio = radio
        
    def print(self):
        print('Centro: ',self.centro, ' Radio: ',self.radio)
    def __repr__(self):
        return 'Centro: %s Radio: %s' % (self.centro,self.radio)
    def __str__(self):
        return 'Centro: %s Radio: %s' % (self.centro,self.radio)

# 2) Estimación:

In [147]:
def get_cluster(puntos): # REF: https://www.geeksforgeeks.org/equation-of-circle-when-three-points-on-the-circle-are-given/
    
    p1 = puntos[0]
    p2 = puntos[1]
    p3 = puntos[2]
    
    circle = Circle(Point(p1.x,p1.y), Point(p2.x,p2.y), Point(p3.x,p3.y))
    
    res = Cluster(float(circle.center.x),float(circle.center.y),float(circle.radius))
    
    return res

In [148]:
def obtener_3_puntos(puntos):
    aux_x_max = 0
    aux_x_min = 0
    aux_y_max = 0

    for i in range(len(puntos)):

        if(puntos[i].x > aux_x_max or i==0):
            px_max = puntos[i]
            aux_x_max = puntos[i].x

        if(puntos[i].x < aux_x_min or i == 0):
            px_min = puntos[i]
            aux_x_min = puntos[i].x   

        if(puntos[i].y > aux_y_max or i == 0):
            py_max = puntos[i]
            aux_y_max = puntos[i].y        
    
    return px_max,px_min,py_max 

El primer ejemplo es un circulo perfecto centrado en el origen y de radio 5.

In [149]:
puntoscsv = pandas.read_csv('Data/puntos_1.csv', header=None, names=['x', 'y']).values
puntos1 = []
for i in range(len(puntoscsv)):
    puntos1.append(Punto(puntoscsv[i][0],puntoscsv[i][1]))
puntos1

[(5, 0),
 (4, 3),
 (3, 4),
 (0, 5),
 (-3, 4),
 (-4, 3),
 (-5, 0),
 (-4, -3),
 (-3, -4),
 (0, -5),
 (3, -4),
 (4, -3)]

In [150]:
#Obtenemos 3 puntos lo más alejados posibles
puntos1 = obtener_3_puntos(puntos1)

cluster = get_cluster(puntos1)
cluster

Centro: (0.0, 0.0) Radio: 5.0

Lo probamos con una lista de puntos no perfecta y de baricentro "1,0" y radio "4"

In [151]:
puntoscsv = pandas.read_csv('Data/puntos_2.csv', header=None, names=['x', 'y']).values
puntos2 = []
for i in range(len(puntoscsv)):
    puntos2.append(Punto(puntoscsv[i][0],puntoscsv[i][1]))
puntos2

[(5.0, 0.0),
 (4.5, 2.0),
 (3.0, 3.5),
 (1.0, 4.0),
 (0.0, 3.75),
 (-2.0, 2.5),
 (-3.0, 0.0),
 (-2.0, -2.5),
 (0.0, -3.75),
 (1.0, -4.0),
 (3.0, -3.5),
 (4.0, -2.5)]

In [152]:
puntos2 = obtener_3_puntos(puntos2)

cluster = get_cluster(puntos2)
cluster

Centro: (1.0, 0.0) Radio: 4.0

In [153]:
puntoscsv = pandas.read_csv('Data/puntos_3.csv', header=None, names=['x', 'y']).values
puntos3 = []
for i in range(len(puntoscsv)):
    puntos3.append(Punto(puntoscsv[i][0],puntoscsv[i][1]))
puntos3

[(13.0, 10.0),
 (12.0, 12.5),
 (11.0, 13.0),
 (10.0, 13.0),
 (9.0, 12.75),
 (8.0, 12.0),
 (7.0, 10.0),
 (8.0, 7.5),
 (9.0, 7.2)]

In [154]:
puntos3 = obtener_3_puntos(puntos3)

cluster = get_cluster(puntos3)
cluster

Centro: (10.0, 10.166666666666666) Radio: 3.0046260628866577

# 3) Grados de pertenencia

In [302]:
def grados_pertenencia(p,clusters):
    
    #Calculamos la distancia de el punto a cada cluster
    distancias = []
    
    for i in range(len(clusters)):
        d = np.sqrt(pow(p.x - clusters[i].centro.x,2) + pow(p.y - clusters[i].centro.y,2))
        distancias.append(abs(d-clusters[i].radio))
    
    #Calculamos el grado de pertencia a cada cluster
    pertenencias = []
    
    for i in range(len(clusters)):
        if(distancias[i]==0.0):
            per = 100.0
        else:
            per = 100/(pow(distancias[i],2))
        pertenencias.append(per)
        
    #Normalizamos
    suma = sum(pertenencias)
    pertenencias = np.divide(pertenencias,suma)
    
    return pertenencias

In [253]:
#Clusters:
cluster1 = Cluster(0,0,5)
cluster2 = Cluster(1,0,4)
cluster3 = Cluster(10,10,3)

clusters = [cluster1,cluster2,cluster3]

In [254]:
p = Punto(2,0)
print(grados_pertenencia(p,clusters))

Suma =  11.11111111111111
Despues =  [1.]
[1.]


In [158]:
p = Punto(10,8)
print(grados_pertenencia(p,clusters))
print(sum(grados_pertenencia(p,clusters)))

[0.01590335 0.01498611 0.96911054]
1.0


In [159]:
p = Punto(-10,0)
print(grados_pertenencia(p,clusters))

[0.63415565 0.3235488  0.04229555]


In [160]:
clusters = [cluster1,cluster3]
p = Punto(2,0)
print(grados_pertenencia(p,clusters))

[0.91441817 0.08558183]


# 4) Modificacion 2

In [161]:
#Le pasamos los 3 puntos con mayor grado de pertenencia a un cluster:
def puntos_mayor_grado_por_cluster(puntos,cluster,n_cluster):
    per = []
    res = []

    for i in range(len(puntos)):
        per.append(grados_pertenencia(puntos[i],cluster)[n_cluster])
    
    res.append(puntos[per.index(max(per))])
    puntos = np.delete(puntos,per.index(max(per)),0)
    per.remove(max(per))
    
    res.append(puntos[per.index(max(per))])
    puntos = np.delete(puntos,per.index(max(per)),0)
    per.remove(max(per))
    
    res.append(puntos[per.index(max(per))])
    
    return res


In [162]:
def get_real_clusters(puntos,clusters):
    res = []
    
    for i in range(len(clusters)):
        pts_pertenencia = puntos_mayor_grado_por_cluster(puntos,clusters,i)
        res.append(get_cluster(pts_pertenencia))
        
    return res 

In [269]:
#Clusters iniciales:
cluster1 = Cluster(1,1,4)
cluster2 = Cluster(7,7,2)

clusters = [cluster1,cluster2]

#Todos los puntos:
puntoscsv = pandas.read_csv('Data/puntos_1_y_3.csv', header=None, names=['x', 'y']).values
puntos = []
for i in range(len(puntoscsv)):
    puntos.append(Punto(puntoscsv[i][0],puntoscsv[i][1]))
puntos

print(cluster1)
print(cluster2)

Centro: (1, 1) Radio: 4
Centro: (7, 7) Radio: 2


In [270]:
def iterar_get_real_cluster(puntos,prev_clusters,razon,imprimir):
    #raiz suma cuadrados centro y el radio
    #imprimir datos de como está funcionando el método
    iterar = 1
    while(iterar):
        nuevo_factor = []
        next_clusters = get_real_clusters(puntos,prev_clusters)
        if(imprimir):
            print(next_clusters)
        for i in range(len(prev_clusters)):
            nuevo_factor.append(np.sqrt((prev_clusters[i].centro.x - next_clusters[i].centro.x)**2 + (prev_clusters[i].centro.y - next_clusters[i].centro.y)**2) + abs(prev_clusters[i].radio - next_clusters[i].radio))
            if(imprimir):
                print(nuevo_factor)
        if(max(nuevo_factor) < razon):    
            iterar = 0
        prev_clusters = next_clusters
    return next_clusters

In [271]:
cluster = iterar_get_real_cluster(puntos,clusters,0.000000000000000000000002,1)
cluster

[Centro: (0.0, 0.0) Radio: 5.0, Centro: (9.113636363636363, 9.395454545454545) Radio: 2.1983934780419814]
[2.414213562373095]
[2.414213562373095, 3.393023528145559]
[Centro: (0.0, 0.0) Radio: 5.0, Centro: (9.22, 9.75) Radio: 2.559472601924076]
[0.0]
[0.0, 0.7312354455616514]
[Centro: (0.0, 0.0) Radio: 5.0, Centro: (10.46875, 9.75) Radio: 3.340243488504992]
[0.0]
[0.0, 2.0295208865809156]
[Centro: (0.0, 0.0) Radio: 5.0, Centro: (10.5, 10.75) Radio: 2.3048861143232218]
[0.0]
[0.0, 2.035845536280653]
[Centro: (0.0, 0.0) Radio: 5.0, Centro: (10.16304347826087, 10.157608695652174) Radio: 2.8413311681645568]
[0.0]
[0.0, 1.2179633257970122]
[Centro: (0.0, 0.0) Radio: 5.0, Centro: (10.5, 10.5) Radio: 2.5495097567963922]
[0.0]
[0.0, 0.7722082376191963]
[Centro: (0.0, 0.0) Radio: 5.0, Centro: (10.28125, 10.0) Radio: 3.0338262248355625]
[0.0]
[0.0, 1.0300742554320759]
[Centro: (0.0, 0.0) Radio: 5.0, Centro: (10.5, 9.927586206896551) Radio: 3.1128325550938842]
[0.0]
[0.0, 0.3094305475872064]
[Cent

[Centro: (0.0, 0.0) Radio: 5.0,
 Centro: (10.279166666666667, 9.975) Radio: 3.055632890435484]

In [309]:
#Clusters iniciales:
cluster1 = Cluster(-2,-5,2)
cluster2 = Cluster(-8,-2,10)

clusters = [cluster1,cluster2]

#Todos los puntos:
puntoscsv = pandas.read_csv('Data/puntos_1_y_3.csv', header=None, names=['x', 'y']).values
puntos = []
for i in range(len(puntoscsv)):
    puntos.append(Punto(puntoscsv[i][0],puntoscsv[i][1]))
puntos

print(cluster1)
print(cluster2)

Centro: (-2, -5) Radio: 2
Centro: (-8, -2) Radio: 10


In [310]:
cluster = iterar_get_real_cluster(puntos,clusters,0.000002,1)
cluster

[Centro: (0.0, 0.0) Radio: 5.0, Centro: (0.0, 0.0) Radio: 5.0]
[8.385164807134505]
[8.385164807134505, 13.246211251235321]
[Centro: (0.0, 0.0) Radio: 5.0, Centro: (0.0, 0.0) Radio: 5.0]
[0.0]
[0.0, 0.0]


[Centro: (0.0, 0.0) Radio: 5.0, Centro: (0.0, 0.0) Radio: 5.0]