In [26]:
from sklearn.datasets import load_iris
from sklearn.cross_decomposition import CCA
from sklearn.preprocessing import StandardScaler
import pandas as pd
import numpy as np


### Analiza canonica se face pe doua seturi de date
Folosim setul de date iris din sklearn iar din el facem doua subseturi de date
- Primul set de date contine informatii legate de sepale
- Al doilea set de date contine informatii legate de petale

In [6]:
iris = load_iris()
df_iris_raw = pd.DataFrame(iris.data, columns=iris.feature_names)
df_iris_raw

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


Set de date cu sepale

In [9]:
df_iris_sepal = df_iris_raw.iloc[:, :2]
df_iris_sepal

Unnamed: 0,sepal length (cm),sepal width (cm)
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6
...,...,...
145,6.7,3.0
146,6.3,2.5
147,6.5,3.0
148,6.2,3.4


Set de date cu petale

In [11]:
df_iris_petal = df_iris_raw.iloc[:, 2:]
df_iris_petal

Unnamed: 0,petal length (cm),petal width (cm)
0,1.4,0.2
1,1.4,0.2
2,1.3,0.2
3,1.5,0.2
4,1.4,0.2
...,...,...
145,5.2,2.3
146,5.0,1.9
147,5.2,2.0
148,5.4,2.3


### 0_ Se standardieaza datele folosind standardScaler

In [17]:
scaler_sepale = StandardScaler()
scaler_petale = StandardScaler()

df_iris_sepal_scaled = pd.DataFrame(scaler_sepale.fit_transform(df_iris_sepal), columns=df_iris_sepal.columns) 
df_iris_petal_scaled = pd.DataFrame(scaler_petale.fit_transform(df_iris_petal), columns=df_iris_petal.columns)

### 1_ Calcul scoruri canonice (pe variabile canonice)
- Calculul de scoruri canonice este realizat folosind modelul CCA

In [25]:
cca = CCA(n_components=2)
cca.fit(df_iris_petal_scaled, df_iris_sepal_scaled)

petal_scores, sepal_scores = cca.transform(df_iris_petal_scaled, df_iris_sepal_scaled)
df_petal_scores = pd.DataFrame(petal_scores, columns=df_iris_petal_scaled.columns)
df_sepal_socres = pd.DataFrame(sepal_scores, columns=df_iris_sepal_scaled.columns)

### 2_ Calcul corelatii canonice 
Full correlation matrix might look like:
- z1   z2  |  u1   u2   u3
- z1  1.0  0.8 | 0.9  0.7  0.5
- z2  0.8  1.0 | 0.6  0.8  0.4
- |||||||||||||||||||
- u1  0.9  0.6 | 1.0  0.7  0.6
- u2  0.7  0.8 | 0.7  1.0  0.8
- u3  0.5  0.4 | 0.6  0.8  1.0

[:m, m:] selecteaza cadranul din dreapta sus :
0.9  0.7  0.5
0.6  0.8  0.4

In [34]:
canonic_corr_matrix = np.diag(np.corrcoef(petal_scores, sepal_scores)[:len(df_petal_scores), len(df_petal_scores):])
canonic_corr_matrix

array([ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1., -1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1., -1.,
        1.,  1.,  1.,  1., -1., -1.,  1., -1.,  1., -1.,  1.,  1., -1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1., -1., -1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1., -1.,  1.,  1.,  1.,  1., -1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1., -1.,  1.,  1.,  1.,  1.,  1.,  1., -1., -1.,  1.,  1.,
       -1.,  1.,  1., -1., -1.,  1.,  1., -1.,  1., -1.,  1.,  1.,  1.,
        1., -1., -1.,  1.,  1.,  1.,  1.,  1., -1., -1., -1., -1.,  1.,
        1.,  1., -1., -1., -1.,  1.,  1.])