##### CORRELACIÓN DE PEARSON

La **Correlación de Pearson** (denotada como **$r$**) es una medida estadística que cuantifica la fuerza y la dirección de la **relación lineal** entre dos variables numéricas.

En el contexto del ejercicio de clustering propuesta en la práctica (donde comparamos genes o muestras), es fundamental entenderla no solo como un número, sino como una medida de **"similitud de forma"**.

---

#### 1. ¿Qué mide exactamente?
Imagina que graficas los datos de dos genes a lo largo de varias muestras. 
*   Si cuando el Gen A sube, el Gen B también sube en la misma proporción, tienen una **correlación positiva alta**.
*   Si cuando el Gen A sube, el Gen B baja, tienen una **correlación negativa**.

#### 2. El rango de valores
El coeficiente de Pearson siempre oscila entre **-1 y +1**:

*   **$r = 1$**: Correlación positiva perfecta. Si dibujas los puntos en un gráfico, forman una línea recta ascendente.
*   **$r = 0$**: No hay relación lineal. Los cambios en una variable no predicen en absoluto los cambios en la otra.
*   **$r = -1$**: Correlación negativa perfecta. Forman una línea recta descendente.

#### 3. ¿Por qué usar Pearson en lugar de la Distancia Euclídea?
Supongamos que tenemos dos genes con estos niveles de expresión:
*   **Gen A:** [1, 2, 3]
*   **Gen B:** [10, 20, 30]

1.  **Distancia Euclídea:** Diría que estos genes son **muy diferentes** porque los números están muy lejos físicamente (el 1 está lejos del 10).
2.  **Correlación de Pearson:** Diría que son **idénticos ($r=1$)**. ¿Por qué? Porque ambos siguen exactamente la misma tendencia: aumentan en la misma proporción. 

**En biología y finanzas**, a menudo nos importa más la *tendencia* (si suben o bajan juntos) que el valor absoluto, por eso Pearson es la métrica preferida.

#### 4. La fórmula (Concepto)
Matemáticamente, Pearson es la **covarianza** de las dos variables dividida por el producto de sus **desviaciones estándar**:

$$r = \frac{\text{cov}(X, Y)}{\sigma_X \sigma_Y}$$

*   **La parte de arriba (Covarianza):** Indica si las variables varían juntas.
*   **La parte de abajo (Desviación):** Normaliza el resultado para que el valor no dependa de las unidades (por ejemplo, no importa si mides en metros o centímetros, el resultado será el mismo).

### 5. ¿Cómo se convierte en una "Distancia"?
Para hacer clustering jerárquico necesitamos una **distancia** (donde 0 sea "iguales" y un número alto sea "diferentes"). Como el coeficiente de Pearson mide **similitud** (donde 1 es "iguales"), el algoritmo de Python suele transformarlo así:

$$d = 1 - r$$

*   Si $r = 1$ (idénticos), la distancia es **0**.
*   Si $r = 0$ (sin relación), la distancia es **1**.
*   Si $r = -1$ (opuestos), la distancia es **2**.

#### 6. Limitaciones importantes
*   **Solo detecta relaciones lineales:** Si la relación es una curva (parábola), Pearson puede decir que es 0, aunque haya una relación clara.
*   **Sensible a "Outliers":** Un solo dato extremo puede arruinar la correlación de todo el grupo.
*   **No implica causalidad:** Que el Gen A y el Gen B tengan una correlación de 0.99 no significa que A cause a B; solo que se mueven igual.