# Análise de Correlações Canônicas

Referências

https://cran.r-project.org/web/packages/CCA/CCA.pdf (em R)
Exemplo: O conjunto de dados disponível em

https://stats.idre.ucla.edu/stat/data/mmreg.csv

contém observações de oito variáveis em 600 indivíduos. As variáveis de natureza psicológica são locus of control, self-concept e motivation. Foram coletadas também variáveis acadêmicas padronizadas de testes de reading, writing, math e science. Adicionalmente, a variável female é uma variável indicadora que assume 1 para estudante do sexo feminino e 0 para estudante do sexo masculino. O objetivo principal do pesquisador é avaliar quantas dimensões são necessárias para entender a associação entre os dois conjuntos de variáveis (psicológicas e acadêmicas).

a. Desenvolva uma análise exploratória dos dados em questão.

b. Realize uma análise de correlações canônicas.

(em R, os comandos estão disponíveis em https://stats.idre.ucla.edu/r/dae/canonical-correlation-analysis/ )

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cross_decomposition import CCA

plt.rcParams["figure.figsize"] = (12,12)

In [None]:
df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/mmreg.csv")
df.head()

In [None]:
df.shape

In [None]:
X = df.iloc[:,0:3]
Y = df.iloc[:,3:8]

In [None]:
X.head()

In [None]:
Y.head()

In [None]:
import seaborn as sns
sns.pairplot(df, hue='female', corner=True);

In [None]:
corr

In [None]:

corr = df.corr()
ax = plt.subplots(figsize=(10, 10))
ax = sns.heatmap(
    corr,
    vmin=-1, vmax=1, center=0,
    cmap=sns.diverging_palette(20, 220, n=200),
    square=True
)
ax.set_xticklabels(
    ax.get_xticklabels(),
    rotation=45,
    horizontalalignment='right'
);

In [None]:
X.shape

In [None]:
Y.shape

In [None]:
cca = CCA(n_components=3)

cca.fit(X, Y)

In [None]:
cca.x_loadings_

In [None]:
cca.y_loadings_

In [None]:
cca.x_rotations_

In [None]:
X_c, Y_c = cca.transform(X, Y)

Y_c.shape

In [None]:
df[['U1', 'U2', 'U3']] = X_c
df[['V1', 'V2', 'V3']] = Y_c

In [None]:
df

In [None]:
np.corrcoef(df['U1'],df['V1'])

In [None]:
np.corrcoef(df['U2'],df['V2'])

In [None]:
np.corrcoef(df['U3'],df['V3'])

In [None]:
corr = df[['U1','V1','U2','V2','U3','V3']].corr()
ax = plt.subplots(figsize=(12, 12))
ax = sns.heatmap(
    corr,
    vmin=-1, vmax=1, center=0,
    cmap=sns.diverging_palette(20, 220, n=200),
    square=True
)
ax.set_xticklabels(
    ax.get_xticklabels(),
    rotation=45,
    horizontalalignment='right'
);

Contas detalhadas, sem considerar sexo

In [None]:
import matplotlib.pyplot as plt
plt.rcParams["figure.figsize"] = (7,7)

In [None]:
dados = df.iloc[:,0:7]
dados.shape

In [None]:
S = np.cov(dados.T)
S.shape

In [None]:
S

In [None]:
S_xx = S[0:3,0:3]
S_xx

In [None]:
S_yy = S[3:7,3:7]
S_yy

In [None]:
S_xy = S[0:3,3:7]
S_xy

In [None]:

A = np.linalg.inv(S_xx).dot(S_xy).dot(np.linalg.inv(S_yy)).dot(S_xy.T)

In [None]:

np.linalg.eig(A)

In [None]:
autovaloresA = np.linalg.eig(A)[0]
autovaloresA

In [None]:

plt.plot(autovaloresA,'bo-')

In [None]:
autovetoresA = np.linalg.eig(A)[1]
autovetoresA

In [None]:
B = np.linalg.inv(S_yy).dot(S_xy.T).dot(np.linalg.inv(S_xx)).dot(S_xy)

In [None]:
np.linalg.eig(B)

In [None]:
autovaloresB = np.linalg.eig(B)[0]
autovaloresB

In [None]:

plt.plot(autovalores,'bo-')

In [None]:
autovetoresB = np.linalg.eig(B)[1]
autovetoresB

In [None]:
autovetoresB[:,0]

Cálculo de U1

In [None]:
autovetoresA[:,0].shape


In [None]:
dados.iloc[:,0:3].to_numpy().shape

In [None]:
autovetoresA[:,0].T.shape

In [None]:

dados.iloc[:,0:3].to_numpy().shape

In [None]:
dados['U1'] = dados.iloc[:,0:3].to_numpy().dot(autovetoresA[:,0])

In [None]:
dados

Cálculo de V1

In [None]:
autovetoresB[:,0].shape

In [None]:
dados.iloc[:,3:7].to_numpy().shape

In [None]:
autovetoresB[:,0].T.shape

In [None]:
dados.iloc[:,3:7].to_numpy().shape

In [None]:
dados.iloc[:,3:7].to_numpy().dot(autovetoresB[:,0]).shape

In [None]:
dados['V1'] = dados.iloc[:,3:7].to_numpy().dot(autovetoresB[:,0])

In [None]:
dados

# Cálculo da correlação

In [None]:
np.corrcoef(df['U1'], df['V1'])

In [None]:
n=len(dados)
p = 3
q = 4


Teste para 
, supondo que a amostra é suficientemente grande

In [None]:
menos2logLambda = -n*np.log(np.prod(1-autovaloresA))
menos2logLambda

In [None]:
menos2logLambda = -n*np.log(np.prod(1-autovaloresB))
menos2logLambda

In [None]:
import scipy.stats as stats
stats.chi2.ppf(0.95,p*q)

In [None]:

S_xx.shape

In [None]:

S_xx.dot(autovetoresA[:,0].T)