In [1]:
%cd /home/users/adelgado

/home/users/adelgado


In [2]:
import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
import glob

# Example
descriptors = []
ip_desc = {}

files = glob.glob("descriptors/week/descriptor*.npy")
for file in files:
    partes = file.split("/")
    if len(partes) > 1:
        file_name = partes[-1]
        palabras = file_name.split("_")
        if len(palabras) > 1:
            ip_name = palabras[1]
        
    descriptor = np.load(file)
    avg_desc = descriptor.sum(axis=1) / descriptor.shape[1]
    
    ip_desc[ip_name] = avg_desc
    descriptors += [avg_desc]

descriptors = np.asarray(np.matrix(descriptors))
descriptors = np.nan_to_num(descriptors)

# Number of clusters to user
n_clusters = 3

# Kmeans object with n_clusters
kmeans = KMeans(n_clusters=n_clusters)

# Adjust k-means to our descriptor
kmeans.fit(descriptors)

# Get the labels assigned to every 
labels = kmeans.labels_

# Get the centroids coordinates of the cluster
centroids = kmeans.cluster_centers_ 

pca = PCA(n_components=2) 
descriptor_pca = pca.fit_transform(descriptors)

# Obtener las coordenadas de los centroides de los clústeres en el espacio PCA
centroids_pca = pca.transform(kmeans.cluster_centers_)

# Visualizar los clústeres en el espacio PCA
plt.figure(figsize=(8, 6))

# Dibujar cada punto de datos con un color correspondiente a su clúster asignado
for i in range(n_clusters):
    plt.scatter(descriptor_pca[labels == i, 0], descriptor_pca[labels == i, 1], label=f'Cluster {i+1}')

# Dibujar los centroides de los clústeres en el espacio PCA
plt.scatter(centroids_pca[:, 0], centroids_pca[:, 1], s=100, c='black', marker='x', label='Centroides')

plt.title('Agrupación de Descriptores con K-Means y PCA')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.legend()
plt.grid(True)
plt.savefig(f"descriptors/visual_desc/week/pca_week_cluster.pdf")
plt.close()


Matplotlib created a temporary cache directory at /tmp/matplotlib-qekbxmqb because the default path (/home/adelgado/.cache/matplotlib) is not a writable directory; it is highly recommended to set the MPLCONFIGDIR environment variable to a writable directory, in particular to speed up the import of Matplotlib and to better support multiprocessing.
  super()._check_params_vs_input(X, default_n_init=10)


In [3]:
# Primera componente es más importante que la segunda
pca.explained_variance_ratio_

array([0.94554966, 0.04885087])

In [4]:
# OUTLIER (-400000, 40000)

# Analize the point in (X, Y)
x = -400000  # X coord 
y = 40000  # Y coord

# Encuentra los índices de los puntos más cercanos en el espacio PCA
distancias = np.sqrt((descriptor_pca[:, 0] - x)**2 + (descriptor_pca[:, 1] - y)**2)
indice_punto_interes = np.argsort(distancias)[1:5]

# Accede al descriptor correspondiente al punto de interés
descriptor_interes = descriptors[indice_punto_interes]

for i in range(0,4):
    for clave, val in ip_desc.items():
        if str(val) == str(descriptor_interes[i]):
            print(clave)

172.30.5.22
172.30.0.62
172.31.172.69
172.31.132.251


In [5]:
# OUTLIER (-500000, -50000)

# Analize the point in (X, Y)
x = -500000  # X coord 
y = -50000  # Y coord

# Encuentra los índices de los puntos más cercanos en el espacio PCA
distancias = np.sqrt((descriptor_pca[:, 0] - x)**2 + (descriptor_pca[:, 1] - y)**2)
indice_punto_interes = np.argsort(distancias)[1:5]

# Accede al descriptor correspondiente al punto de interés
descriptor_interes = descriptors[indice_punto_interes]

for i in range(0,4):
    for clave, val in ip_desc.items():
        if str(val) == str(descriptor_interes[i]):
            print(clave)

172.30.0.62
172.31.172.69
172.30.5.22
172.31.132.251


In [6]:
# Centroid (0, 0)

# Analize the point in (X, Y)
x = 0  # X coord 
y = 0  # Y coord

# Encuentra los índices de los puntos más cercanos en el espacio PCA
distancias = np.sqrt((descriptor_pca[:, 0] - x)**2 + (descriptor_pca[:, 1] - y)**2)
indice_punto_interes = np.argsort(distancias)[1:5]

# Accede al descriptor correspondiente al punto de interés
descriptor_interes = descriptors[indice_punto_interes]

for i in range(0,4):
    for clave, val in ip_desc.items():
        if str(val) == str(descriptor_interes[i]):
            print(clave)

10.200.28.163
172.31.152.90
10.6.1.36
10.200.24.92


In [7]:
# Centroid (-20000, 0)

# Analize the point in (X, Y)
x = -20000  # X coord 
y = 0  # Y coord

# Encuentra los índices de los puntos más cercanos en el espacio PCA
distancias = np.sqrt((descriptor_pca[:, 0] - x)**2 + (descriptor_pca[:, 1] - y)**2)
indice_punto_interes = np.argsort(distancias)[1:5]

# Accede al descriptor correspondiente al punto de interés
descriptor_interes = descriptors[indice_punto_interes]

for i in range(0,4):
    for clave, val in ip_desc.items():
        if str(val) == str(descriptor_interes[i]):
            print(clave)

172.30.0.62
172.30.5.22
172.31.172.69
172.31.132.251


In [None]:
# Centroid (20000, 0)

# Analize the point in (X, Y)
x = 20000  # X coord 
y = 0  # Y coord

# Encuentra los índices de los puntos más cercanos en el espacio PCA
distancias = np.sqrt((descriptor_pca[:, 0] - x)**2 + (descriptor_pca[:, 1] - y)**2)
indice_punto_interes = np.argsort(distancias)[1:5]

# Accede al descriptor correspondiente al punto de interés
descriptor_interes = descriptors[indice_punto_interes]

for i in range(0,4):
    for clave, val in ip_desc.items():
        if str(val) == str(descriptor_interes[i]):
            print(clave)

10.2.4.18
10.2.4.19
