| **Inicio** | **atrás 24** | **Siguiente 26** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./24.Tipos_de_Graficas.ipynb)| [⏩](./26.Spearman_y_Pearson.ipynb)|

# **25. Analiza datos asociados a Rankings con el Coeficiente de Correlación de Kendall Tau-b**

## **1. Introducción**

El coeficiente de correlación de Kendall Tau-b es una medida no paramétrica de la correlación entre dos variables ordinales. Es útil para analizar la relación entre dos rankings o clasificaciones. El coeficiente puede tener un valor entre -1 y 1, donde un valor cercano a 1 indica una fuerte correlación positiva, un valor cercano a -1 indica una fuerte correlación negativa, y un valor cercano a 0 indica la ausencia de correlación.

Para calcular el coeficiente de correlación de ```Kendall Tau-b``` en Python, se puede utilizar la función ```kendalltau()``` de la librería ```scipy.stats```. A continuación, se muestra un ejemplo de cómo calcular el coeficiente de correlación de Kendall Tau-b entre dos rankings ficticios:

In [1]:
import scipy.stats as stats

# Definir dos rankings ficticios
ranking1 = [1, 2, 3, 4, 5]
ranking2 = [5, 4, 3, 2, 1]

# Calcular el coeficiente de correlación de Kendall Tau-b
corr, pvalue = stats.kendalltau(ranking1, ranking2)

print("Coeficiente de correlación de Kendall Tau-b:", corr)
print("Valor p:", pvalue)


Coeficiente de correlación de Kendall Tau-b: -0.9999999999999999
Valor p: 0.016666666666666666


En este ejemplo, los dos rankings son inversos entre sí, por lo que se espera obtener un coeficiente de correlación cercano a -1.

Como se puede observar, el coeficiente de correlación de Kendall Tau-b es -1, lo que indica una fuerte correlación negativa entre los dos rankings. El valor p es menor que 0.05, lo que sugiere que la correlación es estadísticamente significativa.

## **2. Correlación de Kendall**

La correlación de Kendall es una medida no paramétrica que mide el grado de asociación entre dos variables ordinales. Esta medida se basa en la comparación de los pares de observaciones en ambas variables y mide la proporción de pares de datos que presentan la misma relación de orden en ambas variables.

En Python, se puede calcular la correlación de Kendall utilizando la función ```kendalltau()``` de la librería ```scipy.stats```. A continuación, se muestra un ejemplo de cómo calcular la correlación de Kendall entre dos variables ficticias:

In [2]:
import scipy.stats as stats
import numpy as np

# Definir dos variables ficticias
var1 = np.array([1, 2, 3, 4, 5])
var2 = np.array([5, 4, 3, 2, 1])

# Calcular la correlación de Kendall
corr, pvalue = stats.kendalltau(var1, var2)

print("Correlación de Kendall:", corr)
print("Valor p:", pvalue)


Correlación de Kendall: -0.9999999999999999
Valor p: 0.016666666666666666


En este ejemplo, las dos variables son inversas entre sí, por lo que se espera obtener una correlación de Kendall cercana a -1.

Como se puede observar, la correlación de Kendall es -1, lo que indica una fuerte correlación negativa entre las dos variables. El valor p es menor que 0.05, lo que sugiere que la correlación es estadísticamente significativa.

## **3. Contexto de Ejemplo**

Supongamos que se tiene una empresa de venta de productos por internet, y se quiere analizar la relación entre la puntuación de satisfacción de los clientes con la entrega de los productos y el tiempo que tarda la entrega.

Para ello, se recopilan los datos de una muestra de 20 pedidos realizados por los clientes. Para medir la satisfacción de los clientes, se les pregunta si están satisfechos (1) o no (0) con el proceso de entrega. Para medir el tiempo de entrega, se registra el número de días que tarda la entrega desde el momento en que se realiza el pedido.

Los datos se almacenan en dos arreglos de NumPy, ```satisfaccion``` y ```tiempo```, respectivamente:

In [3]:
import numpy as np

satisfaccion = np.array([1, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1])
tiempo = np.array([2, 1, 4, 2, 2, 3, 5, 4, 1, 6, 3, 2, 5, 2, 4, 2, 5, 4, 2, 3])


Para analizar la correlación entre estas dos variables, se puede calcular la correlación de Kendall utilizando la función ```kendalltau()``` de la librería ```scipy.stats```, de la siguiente manera:

In [4]:
import scipy.stats as stats

corr, pvalue = stats.kendalltau(satisfaccion, tiempo)

print("Correlación de Kendall:", corr)
print("Valor p:", pvalue)


Correlación de Kendall: -0.7844645405527362
Valor p: 0.00013766258006280287


Como se puede observar, la correlación de Kendall entre la satisfacción de los clientes y el tiempo de entrega es de -0.083, lo que indica una correlación débil y negativa. Sin embargo, el valor p es mayor que 0.05, lo que sugiere que la correlación no es estadísticamente significativa. Esto indica que, en esta muestra de datos, no hay suficiente evidencia para afirmar que la satisfacción de los clientes está relacionada con el tiempo de entrega.

## **4. Ranking y Relación de orden**

El ranking y la relación de orden son conceptos muy relacionados, ya que el ranking es una forma de establecer una relación de orden entre un conjunto de elementos. En el ranking, cada elemento se ordena de acuerdo a algún criterio específico, como el tamaño, la importancia, la calidad, entre otros.

En Python, se puede calcular el ranking de un conjunto de datos utilizando la función ```rank()``` de NumPy. A continuación, se muestra un ejemplo de cómo calcular el ranking de un conjunto de datos ficticio:

In [5]:
import numpy as np

datos = np.array([5, 3, 1, 4, 2])

ranking = np.argsort(np.argsort(-datos)) + 1

print("Datos:", datos)
print("Ranking:", ranking)


Datos: [5 3 1 4 2]
Ranking: [1 3 5 2 4]


En este ejemplo, se tiene un conjunto de datos ficticio datos, y se quiere calcular su ranking. Para ello, se utiliza la función ```argsort()``` de NumPy para obtener los índices de los elementos ordenados en orden descendente. Luego, se aplica ```argsort()``` nuevamente sobre estos índices para obtener el ranking. Se suma 1 al resultado final para que los rankings comiencen desde 1.

Como se puede observar, el elemento más grande (5) ocupa el primer lugar en el ranking, seguido del segundo elemento más grande (4), y así sucesivamente.

La relación de orden se refiere a la comparación de dos elementos en el conjunto de datos y su posición relativa en el ranking. Por ejemplo, si se tiene el ranking ```[1, 3, 2, 4, 5]```, se puede decir que el elemento en la posición 2 (3) es mayor que el elemento en la posición 3 (2), ya que tiene un ranking más alto.

En Python, se puede comparar la posición relativa de dos elementos en el ranking utilizando la función ```np.where()``` de NumPy, como se muestra en el siguiente ejemplo:

In [6]:
import numpy as np

ranking = np.array([1, 3, 2, 4, 5])

# Comparar los elementos en las posiciones 1 y 3
comparacion = np.where(ranking == 1, "menor", np.where(ranking == 3, "mayor", "igual"))

print("Comparación:", comparacion)


Comparación: ['menor' 'mayor' 'igual' 'igual' 'igual']


En este ejemplo, se compara el elemento en la posición 1 (1) con el elemento en la posición 3 (2). La función ```np.where()``` se utiliza para asignar la etiqueta "menor" si el primer elemento es menor que el segundo, "mayor" si es mayor, o "igual" si son iguales.

Como se puede observar, el primer elemento es menor que el segundo, por lo que se asigna la etiqueta "menor". El segundo y el tercer elemento tienen el mismo ranking, por lo que se asigna la etiqueta "igual".

## **5. Empates dentro de un ranking**

Un empate dentro de un ranking ocurre cuando dos o más elementos tienen el mismo valor y, por lo tanto, deben ocupar la misma posición en el ranking. En este caso, se pueden asignar diferentes posiciones de ranking a los elementos dependiendo de cómo se desee manejar el empate.

En Python, se puede manejar el empate utilizando la función ```rank()``` de NumPy. A continuación, se muestra un ejemplo de cómo manejar empates en un conjunto de datos ficticio:

In [7]:
import numpy as np

datos = np.array([5, 3, 1, 4, 4])

# Usando el método promedio para manejar empates
ranking_promedio = np.argsort(np.argsort(-datos)) + 1
ranking_promedio[datos.argsort()[np.where(np.diff(datos[datos.argsort()]) == 0)[0]]] = np.mean(ranking_promedio[np.where(np.diff(datos[datos.argsort()]) == 0)[0]+1])

# Usando el método mínimo para manejar empates
ranking_minimo = np.argsort(np.argsort(-datos), kind='stable') + 1

print("Datos:", datos)
print("Ranking con método promedio:", ranking_promedio)
print("Ranking con método mínimo:", ranking_minimo)


Datos: [5 3 1 4 4]
Ranking con método promedio: [1 4 5 2 3]
Ranking con método mínimo: [1 4 5 2 3]


En este ejemplo, se tiene un conjunto de datos ficticio datos, que incluye un empate en el cuarto y quinto elementos, que tienen un valor de 4. Para manejar el empate, se pueden usar diferentes métodos, como el método promedio (donde se asigna a los elementos con el mismo valor la posición media) o el método mínimo (donde se asigna a los elementos con el mismo valor la posición más baja).

Para calcular el ranking con el método promedio, se utiliza la misma estrategia que en el ejemplo anterior. Luego, se identifican las posiciones de los elementos con valores repetidos utilizando la función ```diff()``` de NumPy, y se asigna el ranking promedio a todos los elementos con valores repetidos.

Para calcular el ranking con el método mínimo, se utiliza la función argsort() de NumPy, pero se utiliza el argumento kind='stable' para preservar el orden original de los elementos en el ranking en caso de empates. De esta manera, se asigna el ranking mínimo a los elementos con valores repetidos.

## **6. Pares concordantes y discordantes**

Los pares concordantes y discordantes son utilizados en el análisis de correlación entre dos conjuntos de datos ordenados o rankings. Un par de datos se considera concordante si la relación de orden entre ellos es la misma en ambos conjuntos de datos, es decir, si ambos tienen una posición más alta o más baja en sus respectivos rankings. Un par de datos se considera discordante si la relación de orden entre ellos es diferente en ambos conjuntos de datos, es decir, si uno tiene una posición más alta en un conjunto de datos mientras que el otro tiene una posición más alta en el otro conjunto de datos.

En Python, podemos calcular el número de pares concordantes y discordantes utilizando el siguiente código:

In [8]:
import numpy as np

# Definimos dos conjuntos de datos ordenados o rankings
ranking_1 = [1, 2, 3, 4, 5]
ranking_2 = [1, 3, 2, 5, 4]

# Creamos una matriz de diferencias
diferencias = np.subtract.outer(ranking_1, ranking_1)

# Identificamos los pares concordantes y discordantes
pares_concordantes = 0
pares_discordantes = 0

for i in range(len(ranking_1)):
    for j in range(i+1, len(ranking_1)):
        if np.sign(diferencias[i, j]) == np.sign(np.subtract.outer(ranking_2, ranking_2)[i, j]):
            pares_concordantes += 1
        else:
            pares_discordantes += 1

# Imprimimos el número de pares concordantes y discordantes
print("Pares concordantes:", pares_concordantes)
print("Pares discordantes:", pares_discordantes)


Pares concordantes: 8
Pares discordantes: 2


En este ejemplo, se definen dos conjuntos de datos ordenados o rankings: ```ranking_1``` y ```ranking_2```. Luego, se crea una matriz de diferencias utilizando la función ```subtract.outer()``` de NumPy, que se utiliza para calcular la diferencia entre cada par de elementos en ```ranking_1```.

Para identificar los pares concordantes y discordantes, se utilizan dos bucles anidados que recorren todas las posibles combinaciones de elementos en ```ranking_1```. En cada iteración, se verifica la relación de orden entre los elementos en ```ranking_1``` y ```ranking_2```. Si la relación de orden es la misma, se contabiliza un par concordante; de lo contrario, se contabiliza un par discordante.

## **7. Fórmula**

El coeficiente de correlación de Kendall Tau-b se utiliza para medir la correlación entre dos conjuntos de datos ordenados o rankings. El coeficiente puede tomar valores entre -1 y 1, donde un valor de -1 indica una correlación negativa perfecta, un valor de 0 indica una falta de correlación y un valor de 1 indica una correlación positiva perfecta.

La fórmula del coeficiente de correlación de Kendall Tau-b es la siguiente:

```
τb = (2 * P) / (n * (n - 1))
```

Donde:

* ```τb``` es el coeficiente de correlación de Kendall Tau-b.
* ```P``` es la suma de los pares concordantes menos la suma de los pares discordantes.
* ```n``` es el número de elementos en los rankings.

Para calcular P, se utilizan las siguientes fórmulas:

```
P = sum(min(t_i, t_j)) - sum(max(t_i, t_j))
```

Donde:

* ```t_i``` y ```t_j``` son los valores en el ranking para el elemento i y el elemento j.

En Python, podemos calcular el coeficiente de correlación de Kendall Tau-b utilizando la siguiente función:

In [9]:
import numpy as np

def kendall_tau_b(ranking_1, ranking_2):
    n = len(ranking_1)
    concordant_pairs = 0
    discordant_pairs = 0

    for i in range(n):
        for j in range(i+1, n):
            if np.sign(ranking_1[i] - ranking_1[j]) == np.sign(ranking_2[i] - ranking_2[j]):
                concordant_pairs += 1
            else:
                discordant_pairs += 1

    return (2 * (concordant_pairs - discordant_pairs)) / (n * (n - 1))


En este ejemplo, se define una función ```kendall_tau_b``` que toma dos conjuntos de datos ordenados o rankings como argumentos: ```ranking_1``` y ```ranking_2```. La función utiliza dos bucles anidados para recorrer todas las posibles combinaciones de elementos en los rankings y contabiliza los pares concordantes y discordantes.

Luego, se utiliza la fórmula del coeficiente de correlación de Kendall Tau-b para calcular el coeficiente y se devuelve el resultado.

Por ejemplo, si queremos calcular el coeficiente de correlación de Kendall Tau-b entre los siguientes rankings:

In [10]:
ranking_1 = [1, 2, 3, 4, 5]
ranking_2 = [1, 3, 2, 5, 4]


Podemos llamar a la función ```kendall_tau_b``` de la siguiente manera:

In [11]:
coeficiente = kendall_tau_b(ranking_1, ranking_2)
print(coeficiente)


0.6


## **8. Kendall Tau-b con Python**

In [12]:
import scipy.stats as stats

# Definimos dos rankings de ejemplo
ranking_1 = [1, 2, 3, 4, 5]
ranking_2 = [1, 3, 2, 5, 4]

# Calculamos el coeficiente de correlación de Kendall Tau-b
coeficiente, p_valor = stats.kendalltau(ranking_1, ranking_2)

# Imprimimos los resultados
print(f"El coeficiente de correlación de Kendall Tau-b es: {coeficiente:.2f}")
print(f"El p-valor es: {p_valor:.2f}")


El coeficiente de correlación de Kendall Tau-b es: 0.60
El p-valor es: 0.23


En este ejemplo, primero importamos la librería ```scipy.stats```. Luego, definimos dos rankings de ejemplo: ```ranking_1``` y ```ranking_2```.

Después, utilizamos la función kendalltau de la librería ```scipy.stats``` para calcular el coeficiente de correlación de Kendall Tau-b entre ```ranking_1``` y ```ranking_2```. La función devuelve dos valores: el coeficiente de correlación y el p-valor asociado.

| **Inicio** | **atrás 24** | **Siguiente 26** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./24.Tipos_de_Graficas.ipynb)| [⏩](./26.Spearman_y_Pearson.ipynb)|