# üéì **Taller 4.1: Taller de Medidas de Similitud y Disimilitud**


## OBJETIVOS DEL TALLER:
Comprender y aplicar diferentes medidas de similitud y disimilitud en conjuntos de datos, analizando su comportamiento en distintos contextos de distribuci√≥n de datos. Implementar y calcular al menos 6 medidas de distancia diferentes:

* ‚úÖDistancia Euclidiana (L2)
* ‚úÖDistancia Manhattan (L1)
* ‚úÖDistancia Chebyshev (L‚àû)
* ‚úÖSimilitud de Coseno
* ‚úÖDistancia de Mahalanobis
* ‚úÖDistancia de Jaccard

Representar gr√°ficamente datasets en espacios bidimensionales

* ‚úÖVisualizar centros y puntos de referencia en gr√°ficos de dispersi√≥n
* ‚úÖInterpretar relaciones espaciales a partir de representaciones visuales

# üîß **CONFIGURACI√ìN INICIAL**

In [None]:
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = [8, 8]

In [None]:
import scipy.stats as st

def visualize_dataset(x, y, ds_center, c1, c2):
  fig, ax = plt.subplots()
  ax.scatter(x, y)
  ds_center_r = [np.mean(x), np.mean(y)]
  print(f'Centro real del cluster: x={ds_center_r[0]:.2f}, y={ds_center_r[1]:.2f}')
  print(f'Centro del cluster utilizado para el ejemplo: x={ds_center[0]:.2f}, y={ds_center[1]:.2f}')
  ax.scatter(ds_center[0], ds_center[1], s=200, c='b')
  # plot candidates
  ax.scatter(c1[0], c1[1], s=200, c='r')
  ax.scatter(c2[0], c2[1], s=200, c='g', marker='v')
  deltaX = (max(x) - min(x))/10
  deltaY = (max(y) - min(y))/10
  xmin = min(x) - deltaX
  xmax = max(x) + deltaX
  ymin = min(y) - deltaY
  ymax = max(y) + deltaY
  # Create meshgrid
  xx, yy = np.mgrid[xmin:xmax:100j, ymin:ymax:100j]
  positions = np.vstack([xx.ravel(), yy.ravel()])
  values = np.vstack([x, y])
  kernel = st.gaussian_kde(values)
  f = np.reshape(kernel(positions).T, xx.shape)
  # create gaussian contour lines
  cfset = ax.contourf(xx, yy, f, cmap='coolwarm', alpha=0.2)
  ax.imshow(np.rot90(f), cmap='coolwarm', extent=[xmin, xmax, ymin, ymax], alpha=0.2)
  # write labels
  cset = ax.contour(xx, yy, f, colors='k', linestyles='dotted')
  ax.clabel(cset, inline=1, fontsize=10)
  ax.set_xlabel('X')
  ax.set_ylabel('Y')
  plt.title('Kernel Gaussiano 2D')

In [None]:
def visualize_scatter(x, y, ds_center, c1, c2):
  ds_center_real= [np.mean(x), np.mean(y)]
  plt.figure(figsize=(8, 6))  # Tama√±o del gr√°fico
  plt.scatter(x, y, color='blue', alpha=0.6, label='Puntos de datos')
  plt.scatter(ds_center[0], ds_center[1], color='red', marker='X', s=100, label='Centro [2, 2]')
  plt.scatter(ds_center_real[0], ds_center_real[1], color='y', marker='X', s=100, label='Centro Real')
  plt.scatter(c1[0], c1[1], s=200, c='red', label='Candidato 1 (rojo)')
  plt.scatter(c2[0], c2[1], s=200, c='green', marker='v', label='Candidato 2 (verde)')
  plt.xlabel('Variable 1 (data_var_1)')
  plt.ylabel('Variable 2 (data_var_2)')
  plt.title('Dataset 2D con Distribuci√≥n Normal alrededor de [2, 2]')
  plt.grid(True, linestyle='--', alpha=0.5)
  plt.legend()
  plt.show()

# üìÅ **CREAR LOS DATASETS Y GRAFIQUE SUS DISTRIBUCIONES**

In [None]:
# Crear un dataset artificial alrededor de un punto
def cargar_datasetDistNormal(n_data_points = 50, ds_center = np.array([2, 2])):
    # para hacer los experimentos reproducibles
    np.random.seed(42)
    # generamos los puntox en 2D con funcion normal, al rededor del centro
    data_var_1 = np.random.randn(n_data_points) + ds_center[0]
    data_var_2 = np.random.randn(n_data_points) + ds_center[1]
    return data_var_1, data_var_2

In [None]:
# Crear un dataset artificial alrededor de un punto con una relacion lineal de dependencia entre las variables
def cargar_datasetRelacionLineal(factor=np.array([1, 1]), n_data_points = 50, ds_center = np.array([2, 2])):
    # para hacer los experimentos reproducibles
    np.random.seed(42)
    # generar los datos con una relacion lineal
    data_var_1b = factor[0] * np.random.randn(n_data_points) + ds_center[0]
    data_var_2b = data_var_1b + factor[1] * np.random.randn(n_data_points)
    return data_var_1b, data_var_2b

In [None]:
# Crear un dataset artificial alrededor de un punto con una relacion cuadratica de dependencia entre las variables
def cargar_datasetRelacionCuadratica(coeficientes=np.array([1, 0, 0]),
                                     n_data_points=50,
                                     rango_x=(-5, 5)):
    #coeficientes : array de 3 elementos [a, b, c]
    #    Coeficientes de la ecuaci√≥n cuadr√°tica: y = a*x¬≤ + b*x + c
    # Para hacer los experimentos reproducibles
    np.random.seed(42)
    # Extraer coeficientes
    a, b, c = coeficientes
    # Generar valores x uniformemente distribuidos
    x = np.random.uniform(rango_x[0], rango_x[1], n_data_points)
    # Aplicar la transformaci√≥n cuadr√°tica
    y_ideal = a * x**2 + b * x + c
    # A√±adir ruido aleatorio (proporcional al rango de y)
    rango_y = np.max(y_ideal) - np.min(y_ideal)
    ruido = 0.1 * rango_y * np.random.randn(n_data_points)
    y = y_ideal + ruido
    return x, y

In [None]:
# Cargar dataset
ds_center = np.array([2, 2])
dx, dy =cargar_datasetDistNormal(50, ds_center)
# establecemos nuestros dos puntos candidatos de prueba
c1 = np.array([ds_center[0] - 1, 3])
c2 = np.array([ds_center[1] + 1, 3])
visualize_scatter(dx, dy, ds_center, c1, c2)
visualize_dataset(dx, dy, ds_center, c1, c2)

# üéØ **EJ 1:GRAFIQUE LAS DISTRIBUCIONES DE LOS DATASETS**

In [None]:
# TODO 1.1 crear y vizualizar el dataset con relacion lineal y con relacion cuadratica
dxr, dyr = # Complete

dx2, dy2 = # Complete

In [None]:
# Dataset grande
dxGrande, dyGrande =cargar_datasetRelacionLineal([20,10], 1000, [50,100])

# üéØ **EJ 2: IDENTIFIQUE QUE TAN DEPENDIENTES SON LOS DATASETS**

In [None]:
# TODO 2.1 : Use la covarianza para identificar que tan dependiente es la relacion que existe entre los registros de los datasets {dx,dy}, {dxr, dyr}, {dx2, dy2} y {dxGrande, dyGrande}
# su codigo aqui np.cov
print(f'Covarianza dataset con distribuci√≥n normal:\n')

print(f'Covarianza dataset con relaci√≥n lineal :\n')


print(f'Covarianza dataset con relaci√≥n lineal Grande:\n')


print(f'Covarianza dataset con relaci√≥n cuadratica:\n')


### üìà **RESULTADOS:**
**Conteste las siguientes preguntas**

¬øQu√© dataset tiene una mayor dependencia lineal entre sus dos variables?

¬øCual es el problema que tiene la covarianza?

In [None]:
# TODO 2.2: Use el coeficiente de correlaci√≥n de Pearson para identificar que tan dependiente es la relacion que existe entre los registros de los datasets {dx,dy}, {dxr, dyr} y {dxGrande, dyGrande}
# su codigo aqui np.corrcoef

### üìà **RESULTADOS:**
**Conteste las siguientes preguntas**

¬øQu√© dataset tiene una mayor dependencia lineal entre sus dos variables?

¬øQue medida es mas facil de interpretar para identificar la dependencia entre dos variables de un dataset?

# üéØ **EJ 3: CREE LAS FUNCIONES DE LAS MEDIDAS DE DISIMILITUD**

In [None]:
#  TODO 3.1 completar el codigo de las funciones de las siguientes medidas de disimilitud:
#  Distancia Euclidiana, Distancia Manhattan, Distancia Chebyshev, Similitud de Coseno, Mahalanobis y Jaccard
#  En scipy.spatial.distance tenemos disponibles las distancias minkowski, mahalanobis, jaccard, hamming, euclidean, cosine, entre otras.
#  En numpy tenemos la norma p =  np.linalg.norm

In [None]:
def distancia_euclidiana(p1, p2):
   dist = np.linalg.norm(p2 - p1, ord= 1)
   print(f'Distancia euclidiana del punto {p1} al punto {p2} = {dist}')
   return dist

In [None]:
def distancia_manhattan(p1, p2):
   dist =  # ‚Üê COMPLETAR
   print(f'Distancia manhattan del punto {p1} al punto {p2} = {dist}')
   return dist

In [None]:
# ‚Üê COMPLETAR Chebyshev, Similitud de Coseno, Mahalanobis y Jaccard

In [None]:
# Ejecutar funciones
print("üîç calculando las distancias de los puntos candidatos al centro")
print('Distancias primer dataset:\n')
ds_center =  # ‚Üê COMPLETAR, calcule el centro del primer dataset
dist_euc1 = distancia_euclidiana(c1, ds_center)
dist_euc2 = distancia_euclidiana(c2, ds_center)
 # ‚Üê COMPLETAR, el resto de distancias
print('Distancias segundo dataset:\n')
# ‚Üê COMPLETAR, calcule el centro del segundo dataset

# ‚Üê COMPLETAR para el resto de datasets

### üìà **RESULTADOS:**
**Conteste las siguientes preguntas**

¬øQu√© medidas de disimilitud son de un punto a otro punto?
¬øQu√© medidas de disimilitud son de un punto a una distribuci√≥n?

¬øLa distancia de Mahalanobis es capaz de tener en cuenta la distribuci√≥n real de los datos?

# üîÑ **EJ 4: MATRIZ DE DISTANCIAS**

Cree un metodo que sea capaz de calcular la matriz de distancias de todos los puntos de un dataset, recive como parametros la medida de disimilitud y en algunos casos la matriz de covarianza

In [None]:
import itertools as it
#  TODO 4.1 completar el codigo
def matriz_distancias(X, distancia, mC=None):
    n_samples = X.shape[0]
    mD = np.zeros((n_samples, n_samples))
    for pair in it.product(np.arange(n_samples), repeat=2):
        if mC is not None:
            mD[pair] = # Complete
        else:
            mD[pair] =  # Complete
    return mD

In [None]:
 # ‚Üê COMPLETAR calcule y grafique la matriz de distancias para todos los datasets y use la medida de disimilitud euclidiana y mahalanobis
# calculamos primero la matriz de covarianzas
mC = np.cov(,)
Ma_mahalanobis = matriz_distancias(X, distancia_mahalanobis, mC)
print('Matriz distancias:\n', Ma_mahalanobis)


In [None]:
fig, ax = plt.subplots(1, 2)
ax[0].imshow(Ma_euclidea, cmap='jet')
ax[0].set_title('Euclidea')
ax[1].imshow(Ma_mahalanobis, cmap='jet')
ax[1].set_title('Mahalanobis')

In [None]:
#Hasta ahora hemos visto todo disimilitudes (distancias). ¬øY si quisi√©ramos una medida de similitud?
def matriz_similitud(X, distancia, mC=None):
    if mC is not None:
        mD = matriz_distancias(X, distancia, mC)
    else:
        mD = matriz_distancias(X, distancia)
    # complete
    return ## 4.2. Tu c√≥digo aqu√≠ ##

In [None]:
# Complete 4.3 Grafique la matriz de similitud

# ‚úÖ **RESULTADOS:**
¬øCual grafico es mas facil de interpretar: el de una medida de disimilitud o de similitud?



# üöÄ ¬°TALLER FINALIZADO!"