# Correlación de Spearman

## Teoría y Fórmula

Aclaración: parte de la siguiente explicación teórica ha sido obtenida con la ayuda de ChatGPT + el material aportado por el contenido del canal de Yotube de [Código Máquina - Correlación de Spearman](https://www.youtube.com/watch?v=lzF6NggCSdY).

El coeficiente de correlación de *Spearman* es una medida no paramétrica de la relación entre dos variables. Se utiliza para evaluar si existe una relación monotónica (es decir, si a medida que una variable aumenta, la otra también tiende a aumentar o disminuir) entre dos conjuntos de datos. A diferencia del coeficiente de correlación de Pearson, que mide la relación lineal, Spearman se enfoca en las clasificaciones (rangos) de los datos, no en sus valores absolutos.

Cálculo del coeficiente de Spearman:
* Asignar rangos a cada valor de los dos conjuntos de datos (si hay empates, se les asigna el rango promedio).
* Calcular la diferencia entre los rangos correspondientes de cada par de datos.
* Elevar al cuadrado esas diferencias.
* Sumar los cuadrados de las diferencias.
* Usar la fórmula del coeficiente de correlación de Spearman:

![Fórmula](./img/spearman1.png)

## Ejemplo

### ¿Cómo se asignan los rangos?

En primer lugar, antes de pasar a un ejemplo completo concreto, es importante entender cómo se asignan los rangos de los cuales se hablaron más arriba.

- **Para los valores más bajos**: El valor más bajo de una variable recibe el **rango 1**.
- **Para los valores más altos**: El valor más alto recibe el **rango más alto**.
  
Por lo tanto, **los rangos no se asignan de mayor a menor**, sino de **menor a mayor**.

### Ejemplo con aclaración:

Imagina que tienes una lista de 5 valores, los cuales deben estar ordenados de menor a mayor:

| Estudiante | Puntuación (X) |
|------------|----------------|
| A          | 60             |
| B          | 70             |
| C          | 80             |
| D          | 90             |
| E          | 100            |

Los rangos se asignan como sigue, ordenando de menor a mayor:

| Estudiante | Puntuación (X) | Rango de X |
|------------|----------------|------------|
| A          | 60             | 1          |
| B          | 70             | 2          |
| C          | 80             | 3          |
| D          | 90             | 4          |
| E          | 100            | 5          |

### ¿Y si hay empates?

Si dos estudiantes tienen el mismo valor, les damos **el rango promedio** de las posiciones que ocuparían si no hubiera empate. 

Ejemplo:

| Estudiante | Puntuación (X) |
|------------|----------------|
| A          | 60             |
| B          | 70             |
| C          | 70             |
| D          | 90             |
| E          | 100            |

1. Ordenamos de menor a mayor:
   - \(60, 70, 70, 90, 100\)

2. Asignamos los rangos:
   - El **valor 60** recibe el rango **1**.
   - El **valor 70** aparece dos veces, por lo que el rango que les asignamos es el promedio entre **2 (porque el primer 70 ocuparía la posición 2) y 3 (porque el segundo 70 ocuparía la posición 3)**, que es
   $\frac{2+3}{2} = 2.5$.
   - El **valor 90** recibe el rango **4**.
   - El **valor 100** recibe el rango **5**.

| Estudiante | Puntuación (X) | Rango de X |
|------------|----------------|------------|
| A          | 60             | 1          |
| B          | 70             | 2.5        |
| C          | 70             | 2.5        |
| D          | 90             | 4          |
| E          | 100            | 5          |

### Resumen:
- Los **rangos se asignan de menor a mayor**. 
- En caso de **empates**, se asigna el **rango promedio** de las posiciones ocupadas por los valores idénticos.


### Ejemplo de Cálculo del Coeficiente de Correlación de Spearman

Imagina que tenemos los siguientes datos desordenados de dos variables: el número de **horas de estudio** (X) y las **calificaciones obtenidas** (Y) por cinco estudiantes.

| Estudiante | Horas de estudio (X) | Calificación (Y) |
|------------|----------------------|------------------|
| A          | 6                    | 75               |
| B          | 2                    | 80               |
| C          | 8                    | 65               |
| D          | 4                    | 85               |
| E          | 10                   | 90               |

#### Paso 1: Ordenar los datos

Primero, ordenamos los datos de ambas variables de menor a mayor y asignamos los **rangos** correspondientes.

##### Orden de **Horas de Estudio** (X):

| Estudiante | Horas de estudio (X) | Rango de X |
|------------|----------------------|------------|
| B          | 2                    | 1          |
| D          | 4                    | 2          |
| A          | 6                    | 3          |
| C          | 8                    | 4          |
| E          | 10                   | 5          |

##### Orden de **Calificaciones** (Y):

| Estudiante | Calificación (Y) | Rango de Y |
|------------|------------------|------------|
| C          | 65               | 1          |
| A          | 75               | 2          |
| B          | 80               | 3          |
| D          | 85               | 4          |
| E          | 90               | 5          |

#### Paso 2: Calcular las diferencias de los rangos (d) y sus cuadrados (d²)

Ahora, calculamos la diferencia entre los rangos de X y Y para cada estudiante, y luego elevamos esa diferencia al cuadrado.

| Estudiante | Rango de X | Rango de Y | Diferencia de rangos (d) | d²  |
|------------|------------|------------|-------------------------|-----|
| B          | 1          | 3          | -2  es decir (1-3)      | 4   |
| D          | 2          | 4          | -2  es decir (2-4)      | 4   |
| A          | 3          | 2          | 1   es decir (3-2)      | 1   |
| C          | 4          | 1          | 3   es decir (4-1)      | 9   |
| E          | 5          | 5          | 0   es decir (5-5)      | 0   |

**Suma de los cuadrados de las diferencias (∑d²):**

La fórmula de la suma de los cuadrados de las diferencias de rangos ($\sum d_i^2$) es:

$sum_{i=1}^{n} d_i^2 = 4 + 4 + 1 + 9 + 0 = 18$

#### Paso 3: Aplicar la fórmula de Spearman

La fórmula para calcular el coeficiente de Spearman ($\rho$) es:

$rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}$

Donde:
- $n$ es el número de pares de datos (en este caso, $n = 5$).
- $\sum d_i^2$ es la suma de los cuadrados de las diferencias de rangos.

Sustituyendo los valores:

$rho = 1 - \frac{6 \times 18}{5(5^2 - 1)} = 1 - \frac{108}{5(24)} = 1 - \frac{108}{120} = 1 - 0.9 = 0.1$

#### Paso 4: Interpretación del resultado

El coeficiente de correlación de Spearman es **0.1**, lo que indica una **relación débil y positiva** entre las horas de estudio y las calificaciones. Aunque hay una ligera tendencia de que conforme aumentan las horas de estudio, también lo hacen las calificaciones, la relación es muy débil.

---

### Resumen:

- Los **rangos** se asignan de menor a mayor.
- Se calculan las **diferencias de rangos** ($d$) y sus cuadrados ($d^2$).
- El coeficiente de Spearman (\(\rho\)) se calcula usando la fórmula:  
$rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}$
- En este caso, el **coeficiente es 0.1**, lo que sugiere que existe una **relación débil** entre las dos variables.


## Ejemplo en Python

In [12]:
from scipy import stats
import seaborn as sns
import numpy as np
import pandas as pd

In [11]:
# siguiendo el ejemplo de arriba:
horas = np.array([6, 2, 8, 4, 10])
calificaciones = np.array([75, 80, 65, 85, 90])
print(stats.spearmanr(horas, calificaciones))
print(stats.spearmanr(horas, calificaciones)[0])

SignificanceResult(statistic=0.09999999999999999, pvalue=0.8728885715695383)
0.09999999999999999


In [13]:
df = pd.DataFrame({"horas": horas, "calificaciones": calificaciones}, index=['A', 'B', 'C', 'D', 'E'])
df

Unnamed: 0,horas,calificaciones
A,6,75
B,2,80
C,8,65
D,4,85
E,10,90


In [14]:
df.corr(method='spearman')

Unnamed: 0,horas,calificaciones
horas,1.0,0.1
calificaciones,0.1,1.0


## Diferencia gráfica y visual entre correlación de Pearson y Spearman

![Pearson y Spearman](./img/spearman2.png)

![Pearson y Spearman](./img/spearman3.png)

![Pearson y Spearman](./img/spearman4.png)

![Pearson y Spearman](./img/spearman5.png)

![Pearson y Spearman](./img/spearman6.png)

![Pearson y Spearman](./img/spearman7.png)

![Pearson y Spearman](./img/spearman8.png)

![Pearson y Spearman](./img/spearman10.png)

![Pearson y Spearman](./img/spearman11.png)

![Pearson y Spearman](./img/spearman12.png)

![Pearson y Spearman](./img/spearman13.png)