<h1 style="font-size: 3em;">Algoritmo de agrupamiento CK-Means</h1>  

# 0) Marco teórico

### 0.1) Introducción: _Clustering_ y problema de particionamiento

El _clustering_ es una técnica de aprendizaje no supervisado cuyo objetivo es agrupar datos en subconjuntos homogéneos, de forma que los elementos que queden ubicados dentro de un mismo grupo sean más similares entre sí que con los elementos de otros grupos.  

En particular, los algoritmos de _clustering_ de tipo particionamiento dividen un conjunto de **N** datos en **k** grupos que son disjuntos entre sí.  

Para estudiar la similitud entre los datos, se pueden utilizar distintos criterios, siendo uno de los más conocidos y empleados el que se basa en la distancia euclidiana.  En los métodos de particionamiento, esta distancia se utiliza para definir una función objetivo global, conocida como SSE _(Sum of Squared Errors)_, la cual cuantifica la dispersión _intra-cluster_, y que se define matemáticamente como:

#### $SSE = \sum_{j=1}^k \sum_{x_{i} \in C_{j}} (x_{i} - \mu_{j})^2$  
en donde $C_{j}$ representa el conjunto de elementos del cluster $j$ junto a su centroide $\mu_{j}$ 






### 0.2) Algoritmo de _clustering_ K-Means (clásico)

CK-Means es un algoritmo de _clustering_ (agrupamiento de datos) que es una variante optimizada del clásico algoritmo de agrupamiento de K-Means.  

Ambos métodos agrupan los datos según la distancia que los separa definiendo centroides (dato representativo) para cada grupo.  La diferencia que hace que CK-Means sea más óptimo que K-Means es en que CK-Means utiliza programación dinámica para agrupar los datos de una forma más eficiente, minimizando la distancia _intracluster_.


## 1. Importación de librerías necesarias

In [1]:
import pandas as pd
import matplotlib.pylab as plb
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from ckmeans import ckmeans


In [2]:
data = pd.read_csv("data.csv")
data


Unnamed: 0,Persona,Presión sistólica,Presión diastólica
0,Ana,139,84
1,Pedro,128,92
2,Kevin,117,78
3,Julieta,126,85
4,Héctor,149,97
5,Tamara,142,88
6,Norberto,174,105
7,Olivia,107,59
8,Gerardo,126,70
9,Camila,130,82


In [3]:
data.shape

(15, 3)

In [4]:
data.dtypes

Persona               object
Presión sistólica      int64
Presión diastólica     int64
dtype: object

In [5]:
summary = data.describe().T
summary

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Presión sistólica,15.0,136.0,18.106826,107.0,125.5,130.0,145.5,174.0
Presión diastólica,15.0,83.266667,12.651746,59.0,77.5,84.0,91.0,105.0


In [17]:
presiones = data[["Presion_diastolica", "Presion_sistolica"]].values
scaler = StandardScaler()
presiones_std = scaler.fit_transform(presiones)
print("Medias:", scaler.mean_)
print("Desv.est:", scaler.scale_)
presiones_std

Medias: [136.          83.26666667]
Desv.est: [17.49285568 12.22274746]


array([[ 0.17149859,  0.05999742],
       [-0.45732956,  0.71451475],
       [-1.08615771, -0.43089057],
       [-0.57166195,  0.14181209],
       [ 0.74316054,  1.12358808],
       [ 0.34299717,  0.38725609],
       [ 2.17231541,  1.77810541],
       [-1.65781966, -1.98536923],
       [-0.57166195, -1.0854079 ],
       [-0.34299717, -0.10363191],
       [ 1.48632107,  0.55088542],
       [ 1.08615771, -0.26726124],
       [-0.91465912, -1.5762959 ],
       [ 0.22866478,  1.20540274],
       [-0.62882815, -0.51270524]])

In [19]:
pca = PCA(n_components=1, random_state=42)
pc1 = pca.fit_transform(presiones_std).ravel()  # vector 1D
pc1

array([ 0.1636924 ,  0.18185739, -1.07271513, -0.30394975,  1.3199906 ,
        0.51636703,  2.79336935, -2.57612356, -1.17172533, -0.31581445,
        1.44052252,  0.57904724, -1.76137118,  1.01403887, -0.807186  ])

In [20]:
ckmeans(pc1, 3)

[array([-2.57612356, -1.76137118, -1.17172533, -1.07271513, -0.807186  ]),
 array([-0.31581445, -0.30394975,  0.1636924 ,  0.18185739,  0.51636703,
         0.57904724]),
 array([1.01403887, 1.3199906 , 1.44052252, 2.79336935])]