# Снижение размерности методом t-SNE

In [None]:
import pandas as pd
import numpy as np

from sklearn.manifold import TSNE # Метод t-SNE
from sklearn.preprocessing import StandardScaler  # z-нормировка
# from sklearn.preprocessing import MinMaxScaler, RobustScaler # другие способы нормировки

import matplotlib.pyplot as plt # 2D-визуализация
import plotly.express as px # 3D-визуализация

In [None]:
df = pd.read_csv('./datasets/countries.csv')

In [None]:
# Удалим нечисловые переменные
X = df.drop(columns=['Страны'])
X

## Нормирование данных

Основные методы нормировки в `scikit-learn`

|Методы|формула|класс в `scikit-learn`|
|-|-|-|
| z-нормировка | $(x_i-\bar{x})/s.d.(x)$ |`StandardScaler`|
| min-max- нормировка | $(x_i-x_{\min})/(x_{\max}-x_{\min})$ | `MinMaxScaler` |
| робастная нормировка | $(x_i-x_{med})/IQR$ | `RobustScaler` |

In [None]:
# Специфицируем метод нормировки
scaler = StandardScaler(with_mean=True, with_std=True)
# scaler = MinMaxScaler()
# scaler = RobustScaler()

X_norm = scaler.fit_transform(X)

## Снижение размерности методом t-SNE (2D)
Вложим нормированные данные `X_norm` в пространство $\mathbb R^2$ (`n_components=2`)

Выберем параметр `perplexity=10`

In [None]:
tsne = TSNE(n_components=2, perplexity=10, random_state=2)
X_embedded = tsne.fit_transform(X_norm)
X_embedded.shape

Визуализация вложенных данных

In [None]:
plt.scatter(x=X_embedded[:,0], y=X_embedded[:,1])
plt.title('Страны')
plt.show()

## Снижение размерности методом t-SNE (3D)
Вложим нормированные данные `X_norm` в пространство $\mathbb R^3$ (`n_components=3`)

Выберем параметр `perplexity=5`

In [None]:
tsne = TSNE(n_components=3, perplexity=5, random_state=2)
X_embedded_3d = tsne.fit_transform(X_norm)
X_embedded_3d.shape

In [None]:
fig = px.scatter_3d(x=X_embedded_3d[:,0], y=X_embedded_3d[:,1], z=X_embedded_3d[:,2])
fig.update_traces(marker_size=3)
fig.show()