In [1]:
from collections import defaultdict

import matplotlib
import matplotlib.cm as cm
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.preprocessing import StandardScaler

%matplotlib inline
pd.options.display.float_format = "{:.2f}".format

In [2]:
import warnings

warnings.filterwarnings("ignore")

## Проклятие размерности (curse of dimentionality)

Часто датасеты состоят из очень большого количества признаков - тысячи.  
Это затрудняет поиск моделей.  
Можно сильно уменьшить размерность без больших потерь информации, то есть сократить объем входных данных, упростить расчет модели.

Пространство вариантов растет экспоненциально:

Рассмотрим отрезок длины 10  

$$10^1 = 10$$
$$10^2 = 100$$
$$10^3 = 1000$$
...

Экспоненциальный рост

![](https://images.slideplayer.com/12/3353293/slides/slide_5.jpg)

Рассмотрим единичный гиперкуб.

В двумерном пространстве это просто квадрат $1\times1$

Какова вероятность того, что точка попадет в отступ 0.001 от границы?

In [3]:
# площадь внешнего квадрата
1 * 1

# площадь внутреннего квадрата
(1 - 0.001 * 2) * (1 - 0.001 * 2)

0.996004

In [4]:
1 * 1 - (1 - 0.001 * 2) * (1 - 0.001 * 2)

0.0039959999999999996

In [5]:
def point_prob(n_dimensions, length, margin):
    return (
        length**n_dimensions - (length - margin * 2) ** (n_dimensions)
    ) / length**n_dimensions

In [6]:
point_prob(2, 1, 0.001)

0.0039959999999999996

In [7]:
point_prob(3, 1, 0.001)

0.005988007999999989

In [8]:
point_prob(10, 1, 0.001)

0.019820956648050614

In [9]:
point_prob(10000, 1, 0.001)

0.999999997979714

Среднее расстояние между точками гиперкуба:

In [10]:
from scipy.spatial import distance


def avg_dist(n_dimensions):
    dist = 0.0
    n_points = 100000
    for i in range(n_points):
        p1 = np.random.rand(n_dimensions)
        p2 = np.random.rand(n_dimensions)
        dist += distance.euclidean(p1, p2)
    return dist / n_points

In [11]:
avg_dist(2)

0.521710338749159

In [12]:
avg_dist(561)

9.665427752796319

In [13]:
# this is tooo sloooow
# avg_dist(1)
# 0.3332980439577846

In [14]:
# avg_dist(2)
# 0.5218287867554282

In [15]:
# avg_dist(3)
# 0.6621043139420382

In [16]:
# avg_dist(10)
# 1.2674922241953468

In [17]:
# avg_dist(100)
# 4.076181952866157

In [18]:
# avg_dist(1000)
# 12.906989192432318

In [19]:
# avg_dist(10000)
# 40.82415131097075

Новая точка будет далеко от других, что означает, что построенная модель скорее всего не учитывает новые данные, то есть модель недообучена или переобучена