<table width='100%'>
<tr>
<td style='background-color:white'>
    <p align="left">
    Departamento de estadística<br>
        <b>Inteligencia Artificial</b><br>
    Semestre 2023-I
    </p>
</td>
    <td style='background-color:white'> 
        <p align="right">
        <img src="logo.jpg" width="200"> 
    </td>
</tr>
</table>

<br>
<center>
    <h1>Análisis de la correlación canónica (CCA)</h1>
</center>
<br>

## Definición

El **análisis de la correlación canónica** (CCA, por sus siglas en inglés) es método de análisis multivariado desarrollado por Hotelling. Su objetivo es buscar la correlación entre dos grupos de variables, denominadas modalidades.

El propósito de este método es encontrar una proyección univariada de cada modalidad de tal forma que la correlación cruzada se maximice. Así, queremos maximizar la functión objetivo

$$J(w_x,w_y) =  w_x^\top C_{xy} w_y$$

sujeto a la restricción de que $w_x^\top C_{xx} w_x = 1$ y $w_y^\top C_{yy} w_y = 1$. Usando el método de los multiplicadores de Lagrange, este problema se reduce a encontrar el primer vector propio del problema de valores propio generalizado (_generalized eigenvalue problem_):

$$
\begin{bmatrix}0 & C_{xy}\\C_{yx} & 0\end{bmatrix}
\begin{bmatrix}w_x\\w_y\end{bmatrix} =
\lambda
\begin{bmatrix}C_{xx} & 0\\0 & C_{yy}\end{bmatrix}
\begin{bmatrix}w_x\\w_y\end{bmatrix} 
$$

## Ejemplo

Considere que queremos estudiar la correlación entre las características anatómicas de un pingüino y algunos atributos sobre su pico. Los datos a utilizar pueden ser consultados [aquí](https://raw.githubusercontent.com/mwaskom/seaborn-data/master/penguins.csv).

In [40]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy.linalg import eigh

link2data = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/penguins.csv"
df = pd.read_csv(link2data)
df = df.dropna()
df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,MALE
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,FEMALE
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,FEMALE
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,FEMALE
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,MALE


Así, definimos ambas modalidades:

In [41]:
X = np.array(df[['bill_length_mm','bill_depth_mm']]).T
Y = np.array(df[['flipper_length_mm','body_mass_g']]).T

In [53]:
def CCA(X,Y):
    d,N = X.shape
    
    # Centrar observaciones
    Xc = X-X.mean(axis=1,keepdims=True)
    Yc = Y-Y.mean(axis=1,keepdims=True)
    
    # Matrices de covarianza
    Cxx = np.dot(Xc,Xc.T) / N
    Cxy = np.dot(Xc,Yc.T) / N
    Cyx = np.dot(Yc,Xc.T) / N
    Cyy = np.dot(Yc,Yc.T) / N
    
    # Matrices para problema generalizado
    S = np.block([
        [Cxx*0,Cxy],
        [Cyx,Cyy*0]
    ])
    D = np.block([
        [Cxx,Cxy*0],
        [Cyx*0,Cyy]
    ])
    
    # Resultado
    eigvals,eigvecs = eigh(S, D)
    ind = np.argmax(eigvals)
    eigval = eigvals[ind]
    eigvec = eigvecs[:,ind]
    wx = eigvec[:d]
    wy = eigvec[d:]
    return wx,wy, eigval

wx, wy, corr = CCA(X,Y)

Las nuevas variables canónicas están determinadas por $w_x$ y $w_y$. Su correlación está dada por $\lambda$.

In [58]:
print("El coeficiente de correlación de Pearson entre las dos variables canónicas es", round(corr,2))

El coeficiente de correlación de Pearson entre las dos variables canónicas es 0.79


<table width='100%'  class="mytable">
<tr>
<td style='background-color:white' width="50%">
    <p align="left">
        <b>Sobre la autora</b><br><br>
     Soy estudiante de estadística y entusiasta por la inteligencia artificial. Desde hace algunos semestres me interesa el área de <i>human-centered data science</i> y me he formado en técnicas de aprendizaje de máquinas, así como modelamiento estadístico.
        Durante 2021 y 2022 trabajé como estudiante auxiliar en el proyecto MisiónTIC2022 generando informes estadísticos que permitieran predecir y prevenir la deserción estudiantil en el programa.
    </p>
</td>
    <td style='background-color:white' width="30%"> 
        <p align="right">
        <img src="foto.jpg" width="200"> 
    </td>
</tr>
</table>