In [1]:
import torch
from sklearn.manifold import MDS
from sklearn.metrics.pairwise import cosine_distances
from sklearn.linear_model import LinearRegression

# 가상의 embedding 데이터 생성 (예: 100개의 데이터 포인트, 각각 50차원)
num_samples = 100
embedding_dim = 50
embeddings = torch.rand((num_samples, embedding_dim))

# 1. MDS를 사용하여 차원 축소
# 우선 cosine distance를 계산합니다.
distance_matrix = cosine_distances(embeddings)

# MDS를 이용해 2D 공간으로 차원을 축소합니다.
mds = MDS(n_components=2, dissimilarity='precomputed')
low_dim_embeddings = mds.fit_transform(distance_matrix)

# 2. Projection matrix는 MDS에 의해 내부적으로 처리됩니다. 
# MDS는 원래 공간과 축소된 공간 사이의 거리를 보존하려고 노력하므로 
# 명시적인 projection matrix를 제공하지 않습니다.

# 3. 각 acoustic feature에 대해 multi-linear regression을 사용하여 approximation
# 예를 들어, 우리가 가지고 있는 acoustic feature가 phone duration이라고 가정합니다.
phone_durations = torch.rand(num_samples)  # 가상의 phone duration 데이터

# MDS로 얻은 low_dim_embeddings를 사용하여 regression 모델 학습
model = LinearRegression()
model.fit(low_dim_embeddings, phone_durations)

# 이제 이 model을 사용하여 low_dim_embeddings로부터 phone duration을 예측할 수 있습니다.
predicted_durations = model.predict(low_dim_embeddings)

In [7]:
mds.

AttributeError: 'MDS' object has no attribute 'transform'

In [6]:
embeddings.shape

torch.Size([100, 50])

In [4]:
low_dim_embeddings.shape

(100, 2)