<목차>
- sklearn.pipeline.Pipeline
- sklearn.preprocessing.PolynomialFeatures
- sklearn.manifold.TSNE

##### `class sklearn.pipeline.Pipeline(steps, *, memory=None, verbose=False)`
- 최종 추정기를 사용한 변환 파이프라인
- 순차적으로 transforms 와 final estimator를 적용한다.
- 파이프라인의 중간 단계는 반드시 'transforms' 여야 한다. 즉, fit, transform 메소드를 구현하여야 한다.
- 최종 추정자는 fit만 구현하면 된다.
- 파이프라인에 존재하는 transformers는 memory 인자로 캐시화 될 수 있다.
- https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html#sklearn.pipeline.Pipeline
  
- pipeline의 목적은 교차 검증이 적용가능 할때, 서로 다른 파라미터를 적용한 몇몇 스텝을 합치기 위함이다.

In [None]:
polyfitting_model = RANSACRegressor(make_pipeline(PolynomialFeatures(degree=3), LinearRegression()), # Model Declaration
            #residual_threshold=2,
            max_trials=1000,
            random_state=42,
            min_samples=0.1
        ) 

In [1]:
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline

X, y = make_classification(random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    random_state=0)
pipe = Pipeline([('scaler', StandardScaler()), ('svc', SVC())])
# The pipeline can be used as any other estimator
# and avoids leaking the test set into the train set
pipe.fit(X_train, y_train).score(X_test, y_test)
# An estimator's parameter can be set using '__' syntax
pipe.set_params(svc__C=10).fit(X_train, y_train).score(X_test, y_test)

0.76

##### class sklearn.preprocessing.PolynomialFeatures(degree=2, *, interaction_only=False, include_bias=True, order='C')

##### `class sklearn.manifold.TSNE(n_components=2, *, perplexity=30.0, early_exaggeration=12.0, learning_rate='auto', n_iter=1000, n_iter_without_progress=300, min_grad_norm=1e-07, metric='euclidean', metric_params=None, init='pca', verbose=0, random_state=None, method='barnes_hut', angle=0.5, n_jobs=None)`
- https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html
- t-SNE는 고차원 데이터를 시각화 하는 도구
- 데이터 점간의 유사성을 결합 확률 분포로 변환하여, `저차원 임베딩의 결합 확률`과 `고차원 데이터 간 KL-발산`을 최소화 한다. 
- t-SNE에는 볼록하지 않은 비용함수가 있어서, 초기화 값이 다르면 결과가 달라 질 수 있다.
  
- 만약 데이터 차원이 매우 높다면, (Dense 데이터의 경우) PCA 혹은 (Sparse 데이터의 경우) TruncatedSVD를 사용하는 것이 권장된다.
  - 차원 약 50으로 조정 위해

특징이 너무 많으면 모델 성능을 저하시킬 수 있다(?)  
Dimensionality Reduction은 다음과 같은 방법으로 사용 할 수 있다.
- 특징 제거
  - 특징을 단순히 삭제
- 특징 선택
  - 통계적인 방법을 이용하여 feature들의 중요도에 rank를 정한다.
  - 이 방법에서는 정보 손실이 발생할 수 있다.

In [1]:
import numpy as np
from sklearn.manifold import TSNE
X = np.array([[0, 0, 0],
              [0, 1, 1],
              [1, 0, 1], [1, 1, 1]])
X_embedded = TSNE(n_components=2, learning_rate='auto',
                   init='random', perplexity=3).fit_transform(X)
print(X_embedded.shape)


(4, 2)


In [1]:
from sklearn.manifold import TSNE # sklearn 사용하면 easy !! 
import numpy as np
from matplotlib import pyplot as plt

import torch
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader
import torch.nn as nn

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=16)

# 이하 참고 : https://velog.io/@pppanghyun/%EC%8B%9C%EA%B0%81%ED%99%94-t-SNE-t-Stochastic-Neighbor-Embedding

Files already downloaded and verified


: 

기타 참고
- https://www.kaggle.com/code/danielkorth/visualizing-neural-networks-using-t-sne-and-umap
- https://towardsdatascience.com/t-sne-clearly-explained-d84c537f53a