# Прокрустово преобразование

### Условие задачи

**Дано:**
- 5 датасетов: `tiny`, `small`, `medium`, `large`, `xlarge`
- каждый датасет содержит массив фигур (кривых) в трехмерном пространстве
- каждая фигура состоит из 1000 точек
- прокрустово преобразование
- метод главных компонент [`PCA`](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html)
- метод [кластеризации](https://scikit-learn.org/stable/modules/clustering.html), например, [`k-средних`](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.k_means.html)

**Требуется:**
- выполнить описанные ниже требования для каждого датасета
- для каждой пары фигур выполнить прокрустово преобразование и вычислить расстояние между кривыми
    - расстояние между кривыми = среднее евклидово расстояние между соответствующими точками фигур (т.е. точками с одинаковыми индексами)
- во время выполнения расчетов выводить время, затраченное на них
- построить матрицу расстояний между кривыми, где в i-й строке (и столбце) расположен вектор расстояний от i-й кривой до всех остальных
- сохранить матрицу расстояний в файл
- к матрице расстояний применить метод главных компонент (`PCA`):
    - выделить 2 главных направления (компоненты), метод `fit`
    - спроецировать векторы расстояний на плоскость, заданную найденными направлениями, метод `transform`
    - на выходе будут получена матрица из двумерных векторов (`проекция`)
    - методы класса `PCA`: `fit` + `transform` или `fit_transform`
- полученную `проекцию` отобразить на рисунке (график 1)
- по графику 1 определить количество кластеров (визуально), если это требует выбранный метод кластеризации
- применить метод кластеризации к векторам `проекции`:
    - определить номер кластера для каждого вектора `проекции`, а, следовательно, для каждой фигуры
    - определить центры кластеров
- отобразить `проекцию`, центры и номера кластеров (график 2)
- для каждого кластера построить рисунок (графики 3):
    - три проекции фигур этого кластера (`x-y`, `x-z`, `y-z`)
    - фигуры отображать полупрозрачным цветом
    - см. Рис. 1
- задокументировать функции

<center>
<img src="procrustus_cluster_example.png" width=800 />
    Рис. 1. Пример рисунка с проекциями фигур (график 3)
</center>


**Материалы:**
- [Прокрустов анализ](https://en.wikipedia.org/wiki/Procrustes_analysis)
- [Прокрустово преобразование](https://en.wikipedia.org/wiki/Orthogonal_Procrustes_problem)
- [Метод главных компонент](https://ru.wikipedia.org/wiki/Метод_главных_компонент)
- [Методы кластеризации](https://scikit-learn.org/stable/modules/clustering.html)
- [Метод k-средних](https://ru.wikipedia.org/wiki/Метод_k-средних)


**Рекомендации:**
- распараллеливать расчеты при помощи `joblib.Parallel` с параметром `prefer = 'processes'`
- использовать аргумент `mmap_mode = 'r'` при загрузке датасетов функцией `np.load` во избежание избыточного потребления памяти (важно для датасета `xlarge`)

**Правила оценивания:**

- оценка за корректно выполненный расчет для каждого датасета, баллов из 100:
```
    dataset    =  tiny, small, medium, large, xlarge
    g(dataset) =   1.0,   3.7,   10.2,  25.1,   60.0
```
    
- штрафы $p(i)$, баллов:
    - не выведено время расчета - 20
    - не сохранена матрица расстояний в файл - 20
    - не построен график 1 - 20
    - не построен график 2 - 20
    - не построен график 3 - 30
    - нет документации функций - 20
    - менее значимые недоработки - 10


- итоговая оценка за задание = $\sum_{dataset=tiny}^{xlarge}{g(dataset)} - \sum_{i}{p(i)}$
