#### 10 주성분 분석 - 샘플 코드

In [1]:
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# 붓꽃 데이터세트 불러오기
data = load_iris()

# 차원을 축소시켜 2로 설정
n_components = 2

# 주성분 분석 모델 생성
model = PCA(n_components=n_components)

model = model.fit(data.data)      # 학습
print(model.transform(data.data)) # 주성분 2개로 바꾼 데이터 출력

[[-2.68412563  0.31939725]
 [-2.71414169 -0.17700123]
 [-2.88899057 -0.14494943]
 [-2.74534286 -0.31829898]
 [-2.72871654  0.32675451]
 [-2.28085963  0.74133045]
 [-2.82053775 -0.08946138]
 [-2.62614497  0.16338496]
 [-2.88638273 -0.57831175]
 [-2.6727558  -0.11377425]
 [-2.50694709  0.6450689 ]
 [-2.61275523  0.01472994]
 [-2.78610927 -0.235112  ]
 [-3.22380374 -0.51139459]
 [-2.64475039  1.17876464]
 [-2.38603903  1.33806233]
 [-2.62352788  0.81067951]
 [-2.64829671  0.31184914]
 [-2.19982032  0.87283904]
 [-2.5879864   0.51356031]
 [-2.31025622  0.39134594]
 [-2.54370523  0.43299606]
 [-3.21593942  0.13346807]
 [-2.30273318  0.09870885]
 [-2.35575405 -0.03728186]
 [-2.50666891 -0.14601688]
 [-2.46882007  0.13095149]
 [-2.56231991  0.36771886]
 [-2.63953472  0.31203998]
 [-2.63198939 -0.19696122]
 [-2.58739848 -0.20431849]
 [-2.4099325   0.41092426]
 [-2.64886233  0.81336382]
 [-2.59873675  1.09314576]
 [-2.63692688 -0.12132235]
 [-2.86624165  0.06936447]
 [-2.62523805  0.59937002]
 

#### 11 잠재 의미 분석 - 샘플 코드

In [2]:
from sklearn.decomposition import TruncatedSVD

data = [[1, 0, 0, 0],
        [1, 0, 0, 0],
        [1, 1, 0, 0],
        [0, 1, 0, 0],
        [0, 0, 1, 1],
        [0, 0, 1, 0],
        [0, 0, 1, 1],
        [0, 0, 0, 1]]

n_components = 2 # 잠재 변수 개수

# 잠재 의미 분석에 사용할 절단된 특잇값 분해 모델 생성
model = TruncatedSVD(n_components=n_components)

model.fit(data) # 학습

print(model.transform(data))                # 변환한 데이터 출력
print(model.explained_variance_ratio_)      # 기여율
print(sum(model.explained_variance_ratio_)) # 누적 기여율

[[ 0.00000000e+00  8.50650808e-01]
 [ 0.00000000e+00  8.50650808e-01]
 [-5.43895982e-16  1.37638192e+00]
 [-5.43895982e-16  5.25731112e-01]
 [ 1.41421356e+00  4.04384525e-16]
 [ 7.07106781e-01  2.02192262e-16]
 [ 1.41421356e+00  4.04384525e-16]
 [ 7.07106781e-01  2.02192262e-16]]
[0.38596491 0.27999429]
0.6659592065833296


#### 12 음수 미포함 행렬 분해 - 샘플 코드

In [3]:
from sklearn.decomposition import NMF
from sklearn.datasets.samples_generator import make_blobs

# 데이터의 중심 위치 정의
centers = [[5, 10, 5], [10, 4, 10], [6, 8, 8]]

# centers를 중심으로 특징과 종속 변수 생성
X, _ = make_blobs(centers=centers)

n_components = 2 # 잠재 변수의 개수

# 음수 미포함 행렬 분해 모델 생성
model = NMF(n_components=n_components)

model.fit(X) # 학습
W = model.transform(X) # 특징 데이터를 행렬 분해해 행렬 W 저장
H = model.components_  # 특징 데이터를 행렬 분해해 행렬 H 저장

print(W)
print(H)

[[0.84771224 0.77857858]
 [1.41413036 0.        ]
 [1.48359286 0.18251239]
 [0.94268801 0.80686183]
 [1.43236928 0.08428247]
 [1.37651734 0.41683653]
 [0.83853769 0.75305671]
 [0.77879332 0.83918082]
 [1.08713292 0.78878607]
 [0.41652324 0.96090821]
 [0.57524631 1.16508157]
 [1.03170434 0.73896789]
 [0.62231548 0.95005087]
 [0.8767821  0.66717479]
 [0.38214817 0.88504524]
 [1.45748136 0.17099134]
 [0.8136471  0.7519396 ]
 [1.44466244 0.22902416]
 [0.93756031 0.78838917]
 [1.44783042 0.2670703 ]
 [1.31262155 0.1438377 ]
 [0.77415573 0.8848717 ]
 [1.2356352  0.12035487]
 [0.55702013 1.09398135]
 [1.19893201 0.32387581]
 [0.73003125 0.94718285]
 [0.71785056 1.0485002 ]
 [0.54194874 0.83690486]
 [0.74572303 0.88939339]
 [1.27916835 0.15264951]
 [1.2746995  0.18868605]
 [0.58118753 1.1727735 ]
 [1.27356302 0.21665899]
 [0.72944343 0.90906944]
 [1.33376691 0.26403218]
 [0.47189442 1.12427679]
 [1.3061001  0.4503104 ]
 [0.74456214 0.89266778]
 [0.67519354 0.93946046]
 [0.81443607 0.67426229]


#### 13 잠재 디리클레 할당 - 샘플 코드

In [4]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

# remove 인자로 본문 이외의 뉴스 그룹 게시물 데이터 제거
data = fetch_20newsgroups(remove=('headers', 'footers', 'quotes'))

# 특징 개수의 최댓값으로 1000을 설정
max_features = 1000

# 뉴스 그룹 본문 게시물을 벡터로 변환
tf_vectorizer = CountVectorizer(max_features=max_features, stop_words='english')

# 벡터로 변환한 본문 게시물을 학습해 얻은 주제를 배열로 변환
tf = tf_vectorizer.fit_transform(data.data)

# 주제 개수를 20으로 설정
n_topics = 20

# 잠재 디리클레 할당 모델 생성
model = LatentDirichletAllocation(n_components=n_topics)

model.fit(tf) # 학습

print(model.components_)   # 주제 각각에 해당하는 단어 분포 출력
print(model.transform(tf)) # 주제로 생성하는 문서 출력

[[5.00000004e-02 5.00000002e-02 5.00000001e-02 ... 5.00000009e-02
  5.00000001e-02 5.00000004e-02]
 [5.00000002e-02 5.00000004e-02 5.00000001e-02 ... 1.96778966e+01
  5.00000006e-02 5.44894807e-02]
 [5.00000001e-02 1.32606292e+01 5.00000001e-02 ... 4.43268712e+01
  5.00000011e-02 1.31748063e+01]
 ...
 [5.00000006e-02 1.42193499e+02 5.00000017e-02 ... 9.94099547e-01
  1.04858666e+02 4.01459030e+01]
 [2.35901197e+01 5.00000004e-02 2.59486149e+01 ... 5.00000008e-02
  4.09227499e+00 1.50852686e+01]
 [5.00000002e-02 1.18492406e+02 5.00000001e-02 ... 1.97475443e+00
  4.95850818e+01 5.00000016e-02]]
[[2.08333334e-03 2.08333335e-03 2.08333334e-03 ... 2.08333336e-03
  2.08333333e-03 5.81475232e-02]
 [2.50000002e-03 2.50000007e-03 2.50000002e-03 ... 2.50000005e-03
  2.50000000e-03 2.50000004e-03]
 [6.02409643e-04 6.02409657e-04 6.02409647e-04 ... 6.02409644e-04
  6.02409639e-04 6.02409643e-04]
 ...
 [9.96859614e-02 4.54545471e-03 4.54545465e-03 ... 4.54545457e-03
  4.54545462e-03 4.54545458e-03]

#### 14 k-평균 알고리즘 - 샘플 코드

In [5]:
from sklearn.cluster import KMeans
from sklearn.datasets import load_iris

data = load_iris()

# 집단 개수를 3으로 설정
n_clusters = 3

# k-평균 알고리즘 모델 생성
model = KMeans(n_clusters=n_clusters)
model.fit(data.data) # 학습

print(model.labels_)          # 데이터 포인트 각각이 속한 집단 출력
print(model.cluster_centers_) # fit 메서드로 학습한 집단의 중심

[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 2 2 2 2 0 2 2 2 2
 2 2 0 0 2 2 2 2 0 2 0 2 0 2 2 0 0 2 2 2 2 2 0 2 2 2 2 0 2 2 2 0 2 2 2 0 2
 2 0]
[[5.9016129  2.7483871  4.39354839 1.43387097]
 [5.006      3.428      1.462      0.246     ]
 [6.85       3.07368421 5.74210526 2.07105263]]


#### 15 가우시안 혼합 모델 - 샘플 코드

In [6]:
from sklearn.datasets import load_iris
from sklearn.mixture import GaussianMixture

data = load_iris()

# 가우스 분포의 개수를 3으로 설정
n_components = 3

# 가우시안 혼합 모델을 생성
model = GaussianMixture(n_components=n_components)
model.fit(data.data) # 학습

print(model.predict(data.data)) # 각 데이터가 속하는 집단을 예측
print(model.means_)             # 가우스 분포 각각의 평균 계산
print(model.covariances_)       # 가우스 분포 각각의 분산 계산

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 2 1 2 1
 1 1 1 2 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
[[5.006      3.428      1.462      0.246     ]
 [5.91697517 2.77803998 4.20523542 1.29841561]
 [6.54632887 2.94943079 5.4834877  1.98716063]]
[[[0.121765   0.097232   0.016028   0.010124  ]
  [0.097232   0.140817   0.011464   0.009112  ]
  [0.016028   0.011464   0.029557   0.005948  ]
  [0.010124   0.009112   0.005948   0.010885  ]]

 [[0.27550587 0.09663458 0.18542939 0.05476915]
  [0.09663458 0.09255531 0.09103836 0.04299877]
  [0.18542939 0.09103836 0.20227635 0.0616792 ]
  [0.05476915 0.04299877 0.0616792  0.03232217]]

 [[0.38741443 0.09223101 0.30244612 0.06089936]
  [0.09223101 0.11040631 0.08386768 0.0557538 ]
  [0.30244612 0.08386768 0.32595958 0.07283247]
  [0.06089936 0.0557

#### 16 국소 선형 임베딩 - 샘플 코드

In [7]:
from sklearn.datasets import samples_generator
from sklearn.manifold import LocallyLinearEmbedding

# 스위스 롤 데이터세트에서 data와 color라는 서로 다른 학습 데이터 생성
data, color = samples_generator.make_swiss_roll(n_samples=1500)

n_neighbors = 12 # 근처에 있는 점 개수
n_components = 2 # 차원 축소 후 차원 수

# 국소 선형 임베딩 모델 생성
model = LocallyLinearEmbedding(n_neighbors=n_neighbors, n_components=n_components)

model.fit(data) # 학습
print(model.transform(data)) # 차원 축소한 데이터 출력

[[ 0.0317716  -0.0349128 ]
 [ 0.03465116  0.07509286]
 [ 0.03658822  0.02799221]
 ...
 [-0.02942759  0.00920855]
 [ 0.03499788 -0.00234989]
 [ 0.03731633 -0.01159203]]


#### 17 t-분포 확률적 임베딩 - 샘플 코드

In [8]:
from sklearn.manifold import TSNE
from sklearn.datasets import load_digits

# 필기체 숫자 이미지 데이터세트 불러오기
data = load_digits()

# 2차원으로 차원 축소
n_components = 2

# t 분포 확률적 임베딩 모델 생성
model = TSNE(n_components=n_components)

# 특징으로 학습한 2차원 공간 값 출력
print(model.fit_transform(data.data))

[[ -3.227167   -59.79021   ]
 [ 21.115236    18.25154   ]
 [ 10.207265    24.056372  ]
 ...
 [  0.55929786  14.416822  ]
 [-19.986444    -3.1221652 ]
 [ -5.687326    15.050824  ]]
