## **Medidas de Proximidad**

### Miden el grado de semejanza (o de desemejanza) que presentan dos elementos $(i,j)$, a causa de sus caracteristicas $d(i,j)$. Las métricas de disimilaridad, aumentan de valor al decrecer la semejanza. Del mismo modo, hay métricas de similaridad que aumentan de valor al crecer la semanaja y viceversa.

## **Medidas de Disimilaridad**

### De las medidas de distancia se fórmulan las siguientes propiedades:

* ### $(a)\quad d(i,j) \geq 0, \,\forall i,j$
* ### $(b)\quad d(i,i) = 0, \,\forall i$ 
* ### $(c)\quad d(i,j) = d(j,i), \,\forall i,j$
* ### $(d)\quad d(i,j) \leq d(i,k) + d(k,j), \,\forall i,j,k$

In [59]:
# Dependencias de la función
from typing import Literal
from scipy.spatial.distance import pdist, squareform
import pandas as pd
import numpy as np
import pyreadstat # Está no es una dependencia como tal pero
# me sirve puesto que los datos provienen de un archivo SPSS

# Definimos una funcion
def distances(
    data: pd.DataFrame,
    kind: Literal[
        "braycurtis", "canberra", "chebyshev", "cityblock", "correlation", "cosine", "dice",
        "euclidean", "hamming", "jaccard", "jensenshannon", "kulczynski1", "mahalanobis",
        "matching", "minkowski", "rogerstanimoto", "russellrao", "seuclidean", "sokalmichener",
        "sokalsneath", "sqeuclidean", "yule"
    ],
    p: int = 0
):

    # Una lista con los tipos de distancia posibles, mismos que de la función "pdist" de scipy
    allowed_kinds = [
        "braycurtis", "canberra", "chebyshev", "cityblock", "correlation", "cosine", "dice",
        "euclidean", "hamming", "jaccard", "jensenshannon", "kulczynski1", "mahalanobis",
        "matching", "minkowski", "rogerstanimoto", "russellrao", "seuclidean", "sokalmichener",
        "sokalsneath", "sqeuclidean", "yule"
    ]

    # Comprobar si kind está dentro de los permitidos
    if kind not in allowed_kinds:
        raise ValueError(f"Tipo inválido, de la lista: {allowed_kinds}, se escribió '{kind}' en su lugar.")
    if not isinstance(kind, str):
        raise TypeError("kind debe ser un string.")

    # Comprobar si p es igual a cero (que es por defecto)
    if p == 0: 
        distance_with_zero = pdist(X= data, 
                     metric = kind,
                    )
        matrix_with_zero = squareform(distance_with_zero)
        df_with_zero = pd.DataFrame(matrix_with_zero,
                                index=data.index,
                                columns= data.index)
        # Para que el DataFrame no tenga repetición de nombres
        df_with_zero.index.name = None

        return df_with_zero
    
    # Caso contrario
    else: 
        distance = pdist(X= data, 
                     metric = kind,
                    p = p)
        matrix = squareform(distance)
        df = pd.DataFrame(matrix,
                                index=data.index,
                                columns= data.index)
        # Para que el DataFrame no tenga repetición de nombres
        df.index.name = None
        
        return df
    

## **1. Medidas de Disimiliaridad**

In [60]:
# La ruta del archivo
file_path = "C:\\Users\\kike\\Documents\\SPSS\\Empresas_en_Espana.sav"

# Obtenemos un dataframe con sus metadatos aparte
df, meta = pyreadstat.read_sav(file_path)

# Establecemos "EMPRESA" como índice
df = df.set_index("EMPRESA")

# Miramos los metadatos y el
print(meta.column_names)
print(meta.column_labels)
del df["CA"] 
del df["CASO"]

df

['CASO', 'EMPRESA', 'CA', 'VENTAS', 'CAPITAL', 'RECPROP', 'ACTTO', 'BENEF', 'INMOV', 'CASHFL']
['Número de caso', 'Nombre de la Empresa', 'Código de Actividad', 'Cifras de Ventas', 'Capital Social', 'Recursos Propios', 'Activos Totales', 'Beneficios Netos', 'Inmovilizado Neto', 'Cash-flow']


Unnamed: 0_level_0,VENTAS,CAPITAL,RECPROP,ACTTO,BENEF,INMOV,CASHFL
EMPRESA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Telefónica,1271510.0,463480.0,1488378.0,3917167.0,83899.0,3568851.0,425802.0
El Corte Inglés,775104.0,46207.0,248813.0,463335.0,23795.0,173572.0,37005.0
Iberdrola,775218.0,437564.0,1028297.0,3133889.0,58778.0,2911741.0,164567.0
Repsol,700963.0,3247.0,4869.0,150236.0,1531.0,61898.0,1990.0
Seat,674063.0,84000.0,91056.0,472004.0,-12756.0,381012.0,7934.0
Tabacalera,631003.0,18442.0,84646.0,220062.0,14729.0,101784.0,21725.0
Renault,537744.0,22781.0,1294488.0,245723.0,9059.0,95735.0,30795.0
Campsa,489155.0,36154.0,101465.0,332985.0,12541.0,194837.0,26196.0
Pryca,448465.0,18925.0,94010.0,258782.0,13495.0,130790.0,22804.0
Iberia,445853.0,213281.0,138922.0,544617.0,-34824.0,424760.0,-8757.0


## **Distancia Euclídeana**

### La distancia Euclidiana se utiliza para medir la cercanía o disimilaridad entre dos puntos en un espacio 𝑛-dimensional. Es una métrica fundamental en matemáticas, estadística y aprendizaje automático porque proporciona una manera simple e intuitiva de cuantificar qué tan diferentes son dos objetos en función de sus características.
$$
\LARGE
d_{ij} = \sqrt{\sum_{k=1}^n (X_{ik} - X_{jk})^2}

In [61]:
euclidean = distances(data = df,
                        kind = "euclidean")
euclidean.round(3)

Unnamed: 0,Telefónica,El Corte Inglés,Iberdrola,Repsol,Seat,Tabacalera,Renault,Campsa,Pryca,Iberia
Telefónica,0.0,5056550.962,1254131.047,5423377.808,4966777.446,5332539.099,5145278.305,5207045.47,5309491.755,4901803.639
El Corte Inglés,5056550.962,0.0,3925261.728,423172.455,286028.791,336359.536,1097266.626,348232.876,418785.506,472893.748
Iberdrola,1254131.047,3925261.728,0.0,4277271.184,3812287.051,4182765.677,4073212.006,4043500.283,4144513.766,3725315.904
Repsol,5423377.808,423172.455,4277271.184,0.0,469340.704,136087.766,1304334.425,327190.177,298415.581,644831.752
Seat,4966777.446,286028.791,3812287.051,469340.704,0.0,385463.056,1266555.878,302571.326,405120.774,281134.588
Tabacalera,5332539.099,336359.536,4182765.677,136087.766,385463.056,0.0,1213772.311,205311.205,189080.175,536863.8
Renault,5145278.305,1097266.626,4073212.006,1304334.425,1266555.878,1213772.311,0.0,1201379.517,1204415.195,1257438.722
Campsa,5207045.47,348232.876,4043500.283,327190.177,302571.326,205311.205,1201379.517,0.0,107836.036,368469.685
Pryca,5309491.755,418785.506,4144513.766,298415.581,405120.774,189080.175,1204415.195,107836.036,0.0,459618.315
Iberia,4901803.639,472893.748,3725315.904,644831.752,281134.588,536863.8,1257438.722,368469.685,459618.315,0.0


## **Distancia Minkowski**

### Es una generalización de varias métricas de distancia, incluyendo la distancia Euclidiana y la Manhattan. Permite ajustar la métrica según el parámetro 𝑝, lo que la hace muy flexible para medir disimilaridad en diferentes contextos.

$$
\LARGE
d(i,j) = (\sum_{h=1}^p | x_{ih} - x _{jh}|^q)^{1/q}
$$

### Dónde:

* ### $q$: se obtiene la **Distancia Manhattan** o de **City-Block**.
* ### $q$: se obtiene la **Distancia Euclídea**
* ### $q \to \infty$: se obtiene la **Distancia de Chebychev**.

In [62]:
p_values = [1, 2, 40]

distances_within_minkowski = ["Manhattan", "euclidean", "Chebychev"]

for distance, p in zip(distances_within_minkowski, p_values):
    minkowski = distances(data=df, kind="minkowski", p=p)
    print(f"Distancia {distance} por Minkowski con un p = {p}:\n")
    print(minkowski.round(3))
    print("\n" + "-"*80 + "\n")

Distancia Manhattan por Minkowski con un p = 1:

                 Telefónica  El Corte Inglés  Iberdrola      Repsol  \
Telefónica              0.0        9451256.0  2709033.0  10294353.0   
El Corte Inglés   9451256.0              0.0  6742223.0    843097.0   
Iberdrola         2709033.0        6742223.0        0.0   7585320.0   
Repsol           10294353.0         843097.0  7585320.0         0.0   
Seat              9521774.0         578322.0  6812741.0    854953.0   
Tabacalera       10126696.0         675440.0  7417663.0    307577.0   
Renault           8982762.0        1622856.0  6806111.0   1638029.0   
Campsa           10025754.0         617028.0  7316721.0    692215.0   
Pryca            10231816.0         780560.0  7522783.0    567533.0   
Iberia            9495235.0        1043067.0  6786202.0   1403542.0   

                      Seat  Tabacalera    Renault      Campsa       Pryca  \
Telefónica       9521774.0  10126696.0  8982762.0  10025754.0  10231816.0   
El Corte Inglés

## **Distancia Mahalanobis**

### La distancia de Mahalanobis es una métrica que mide la distancia entre un punto y una distribución en un espacio multidimensional. Es particularmente útil cuando las variables están correlacionadas y tienen diferentes escalas, ya que ajusta las diferencias teniendo en cuenta la matriz de covarianza.


$$
\LARGE
d(i,j) = D^2 = (x_i - x_j)' \sum^{-1} (x_i - x_j)
$$

In [63]:
mahalanobis = distances(data = df,
                        kind = "mahalanobis")
mahalanobis.round(3)

Unnamed: 0,Telefónica,El Corte Inglés,Iberdrola,Repsol,Seat,Tabacalera,Renault,Campsa,Pryca,Iberia
Telefónica,0.0,4.24,4.243,3.71,3.921,3.996,4.242,3.549,3.797,4.226
El Corte Inglés,4.24,0.0,4.24,3.661,3.953,4.025,4.239,3.47,3.848,4.219
Iberdrola,4.243,4.24,0.0,3.708,3.923,3.997,4.242,3.556,3.792,4.226
Repsol,3.71,3.661,3.708,0.0,2.117,2.423,3.684,2.92,3.262,3.888
Seat,3.921,3.953,3.923,2.117,0.0,4.237,3.94,3.134,3.384,3.751
Tabacalera,3.996,4.025,3.997,2.423,4.237,0.0,4.01,3.171,3.519,3.849
Renault,4.242,4.239,4.242,3.684,3.94,4.01,0.0,3.588,3.764,4.221
Campsa,3.549,3.47,3.556,2.92,3.134,3.171,3.588,0.0,0.485,3.48
Pryca,3.797,3.848,3.792,3.262,3.384,3.519,3.764,0.485,0.0,3.83
Iberia,4.226,4.219,4.226,3.888,3.751,3.849,4.221,3.48,3.83,0.0


## **2. Medidas de Similiaridad**

### De las medidas de similiaridad se tienen las siguientes propiedades:

* ### $S(i,i) = 1, \forall i$
* ### $S(i,j) = S(j,i), \forall i, j$
* ### $ 0 \leq S(i,j) \leq 1, \forall i, i$


## **Coeficiente de Similiaridad Gower** 

### El coeficiente de Gower es una medida de similitud especialmente diseñada para trabajar con conjuntos de datos que contienen diferentes tipos de variables, como numéricas, binarias (sí/no) y categóricas (por ejemplo, color, género). Esto lo convierte en una herramienta invaluable en el análisis de datos cuando se enfrentan a conjuntos de datos heterogéneos, que son muy comunes en la práctica.

$$
\LARGE
d_{ij} = \frac{\sum_{k=1}^P W_k\,  \delta_{ijk} \, S_{ijk}}{\sum_{k=1}^P W_k \, \delta_{ikj}}
$$

In [64]:
# Creamos unos datos
# Los datos son de: https://pypi.org/project/gower/
df3=pd.DataFrame({'age':[21,21,19, 30,21,21,19,30],
'gender':['M','M','N','M','F','F','F','F'],
'salary':[3000.0,1200.0 ,32000.0,1800.0 ,2900.0 ,1100.0 ,10000.0,1500.0],
'available_credit':[2200,100,22000,1100,2000,100,6000,2200]})
df3["id"] = range(1, len(df3) + 1)
df3.set_index("id", inplace = True)

df3

Unnamed: 0_level_0,age,gender,salary,available_credit
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,21,M,3000.0,2200
2,21,M,1200.0,100
3,19,N,32000.0,22000
4,30,M,1800.0,1100
5,21,F,2900.0,2000
6,21,F,1100.0,100
7,19,F,10000.0,6000
8,30,F,1500.0,2200


In [65]:
# Dependencia de la función
import numpy
import gower
import pandas as pd

# Definimos una función
def gower_similarity(data: pd.DataFrame):

    # Hallamos los coeficientes de gower
    gower_coeficients = gower.gower_matrix(data)

    # Lo volvemos un dataframe porque el gower_matrix regresa un array
    gower_coeficients_df = pd.DataFrame(gower_coeficients,
                                        index = data.index,
                                        columns = data.index
                                        )
    
    # Ponemos "None" para que no repita el indetificativo,
    # ya que se intuye por los datos
    gower_coeficients_df.index.name = None

    # Devolvemos 
    return gower_coeficients_df

# probamos la función

gower_coeficients = 1 - gower_similarity(df3) # 1 - para que sea una similitud

gower_coeficients.round(3)

Unnamed: 0,1,2,3,4,5,6,7,8
1,1.0,0.961,0.244,0.773,0.747,0.711,0.605,0.533
2,0.961,1.0,0.205,0.779,0.715,0.749,0.566,0.519
3,0.244,0.205,1.0,0.017,0.241,0.205,0.389,0.027
4,0.773,0.779,0.017,1.0,0.526,0.528,0.378,0.735
5,0.747,0.715,0.241,0.526,1.0,0.964,0.851,0.782
6,0.711,0.749,0.205,0.528,0.964,1.0,0.815,0.768
7,0.605,0.566,0.389,0.378,0.851,0.815,1.0,0.638
8,0.533,0.519,0.027,0.735,0.782,0.768,0.638,1.0


## **Medidas de relación lineal ( $Y = a + bX$)**

### **Coeficiente de correlación lineal:**


### La correlación lineal mide la relación y la fuerza de asociación entre dos variables cuantitativas. Es una métrica fundamental en estadística y análisis de datos, ya que indica si dos variables están relacionadas de manera proporcional y en qué grado.

$$
\LARGE
d(X_i, X_j) = \frac{S_{xy}}{S_x\cdot S_y} = r_{xy}

In [66]:
file_path2 = "C:\\Users\\kike\\Documents\\SPSS\\Pruebas_habilidad.sav"

df2, meta2 = pyreadstat.read_sav(file_path2)

df2 = df2.set_index("id")

# Miramos los metadatos y el
print(meta2.column_names)
print(meta2.column_labels)
df2

['id', 'atletism', 'calculo']
['Número de identificación', 'Puesto en la Prueba de Atletismo', 'Puesto en la Prueba de Calculo']


Unnamed: 0_level_0,atletism,calculo
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1.0,2.0,10.0
2.0,8.0,3.0
3.0,1.0,8.0
4.0,5.0,6.0
5.0,3.0,9.0
6.0,4.0,7.0
7.0,7.0,5.0
8.0,6.0,4.0
9.0,9.0,1.0
10.0,10.0,2.0


In [67]:
pearson = df2.corr(method= "pearson").round(3)
pearson

Unnamed: 0,atletism,calculo
atletism,1.0,-0.939
calculo,-0.939,1.0


## **Medidas basadas en relación: $Y=bX$**

### **Coseno entre variables:**

### Es una medida de similitud entre dos vectores no nulos en un espacio vectorial. Conceptualmente, mide el coseno del ángulo entre estos dos vectores. Cuanto más pequeño sea el ángulo, más similares serán los vectores.

$$
\LARGE
d(X_i, X_j) = cos(\overline{X_i}, \overline{X_j})
$$

In [68]:
from scipy.spatial.distance import cosine

simil_cosine = 1 - cosine(df2["atletism"], df2["calculo"])

simil_cosine

0.5844155844155844

## **Coeficiente de Correlación de Spearman**

### Es una medida estadística que nos indica la fuerza y la dirección de la relación entre dos variables. A diferencia del coeficiente de Pearson, que asume una distribución normal de los datos, Spearman no tiene esta restricción. Esto lo hace especialmente útil cuando los datos no siguen una distribución normal o cuando estamos trabajando con variables ordinales (es decir, variables que expresan un orden, como el puesto en una carrera).

$$
\LARGE
\rho_s = 1 - \frac{6 \sum D_{i}^2}{N(N^2-1)}
$$

In [69]:
spearman = df2.corr(method= "spearman").round(3)
spearman

Unnamed: 0,atletism,calculo
atletism,1.0,-0.939
calculo,-0.939,1.0


### **Referencias:**

* ### Rudin, W. Principles of Mathematical Analysis
* ### Gower, J.C. (1971) “A General Coefficient of Similarity and some of its Properties” Biometrics, 27 pp.857-874
* ### Sedgwick P. Pearson’s correlation coefficient BMJ 2012; 345 :e4483 doi:10.1136/bmj.e4483
* ### Sedgwick P. Spearman’s rank correlation coefficient BMJ 2014; 349 :g7327 doi:10.1136/bmj.g7327