# Постановка задач машинного обучения

#### Панасик Александра, Б03-004

## №1. Определение типа внезапного стратосферного потепления
**Класс задачи МО:** С учителем <br />
**Вид задачи МО:** классификация <br />

**Постановка задачи:** <br />
Стратосферный полярный вихрь (СПВ), образующийся над северной приполярной областью в зимний период, иногда ослабевает и разрушается в середине зимы – это событие называется внезапным стратосферным потеплением (ВСП), и влияет на погодные условия в тропосфере. Разрушение вихря бывает двух типов: «split» – когда вихрь смещается от полюса,  и «displacement» – когда вихрь распадается на 2 и более мелких вихря. <br />
Есть поля измеренной (или посчитанной в модели) геопотенциальной высоты на определенном уровне давления в стратосфере (обычно берется 10 гПа) в полярной области (60-90 с.ш.), на сетке с шагом в 1 градус (т. е. 30 $\times$ 360 точек на всю полярную область), в даты когда происходили ВСП. <br />
Нужно по этим данным определять тип ВСП. <br />

**Целевая переменная:** $y$ - вероятность конкретного события принадлежать первому типу ВСП (тогда вероятность принадлежать второму типу будет $1 - y$). <br />
$y$ - действительное число от 0 до 1, размерность 1.

**Объекты (события):** внезапные стратосферные потепление (ВСП). <br />
Событие описывается полем геопотенциальной высоты (на 10 гПа, 60-90 с.ш.) для конкретной даты (события), действительные величины, размерность 30 $\times$ 360 <br />

**Функция потерь:** <br />
У нас задача бинарной классификации, поэтому используем логарифмическую функцию потерь: <br />
$$
L(y, \hat{y}) = - ( \hat{y} \ln(y) + (1 - \hat{y})  \ln (1 - y) )
$$

$\hat{y} \in \{0, 1\}$– истинное значение <br /> 
$y \in (0, 1)$ – прогнозируемое значение <br />
Чем ближе прогнозируемое значение к истинному, тем меньше значение функции потерь <br />

**Мера качества:** <br />
Поскольку зарнее неизвестно, каково в реальности отношение числа событий одного типа к другому, нужно использовать две метрики качества, оценивающих точность ответа модели для обоих типов.
Если один тип 0 (N), другой 1 (P), то: <br />

$ P = \frac{TP}{TP+FP} $ - precision, точность - доля верных ответов для типа 1

$ NPV = \frac{TN}{TN+FN} $ - negative predictive value - доля верных ответов для типа 0 <br />

Оба этих параметра должны быть максимизированы. <br />

**Возможные варианты дополнения признакового описания и понижения размерности** <br />
Скорее всего, только некоторые области на полярной шапке отвечают за тип ВСП, и нет необходимости использовать всё поле из 30 $\times$ 360 значений. Поэтому можно решить отдельную задачу МО по понижению размерности и выявлению регионов, сильнее всего связанных с типом ВСП, и в дальнейшем использовать только поля геопотенциальной высоты в этих регионах.

## №2. Анализ состава осадочных пород
**Класс задачи МО:** Без учителя <br />
**Вид задачи МО:** кластеризация <br />

**Постановка задачи:** <br />
Имеются серии снимков образца осадочной породы, сделанные с разным увеличением (6 штук для каждого участка образца). Требуется выделить на фотографиях участки, на которых есть частицы породы. <br />

**Целевая переменная:** расположение частиц геологических пород на снимке конкретного образца. <br />
Т.е. предполагается, что модель для каждого объекта выдает список координат кластеров, соответствующих частицам на фото. Размерность $n \times 2$, где $n$ - число найденных на снимке кластеров. (за координаты кластера можно считать координаты его центральной точки)  <br />

**Объект:** участок исследуемого образца <br />
Признаковое описание объекта: для каждого объекта есть 6 снимков размером $w \times h$ ($w$ - ширина изображения в пикселях, $h$ - высота), каждый пиксель описывается 3 действительными значениями (rgb); итого, каждый объект описывается массивом действительных чисел размерностью $6 \times w \times h \times 3$ <br />

**Функция потерь:** <br />
Алгоритм должен будет минимизировать функцию квадратичного отклонения точек найденных кластеров от центров этих кластеров: 
$$
L(X, \vec \mu) = \sum_{i=0}^{n} \sum_{x \in K_i} ||x-\mu_i||^2
$$
$X$ - множество точек на изображении<br />
$\vec \mu$ - вектор центров масс найденных кластеров<br />
$n$ - число кластеров<br />
$K_i$ - i-ый найденный кластер<br />
$x$ - точка, принадлежащая i-ому кластеру<br />
$\mu_i$ - центр масс всех векторов $x$, принадлежащих кластеру $K_i$<br />

<br />

**Мера качества:** <br />
Пусть известно истинное расположение кластеров на изображении, N - число точек изображения ($N = w \times h$). $A$ - число пар объектов, имеющих одинаковые метки и находящихся в одном кластере, $B$ — число пар объектов, имеющих различные метки и находящихся в разных кластерах.<br />
Для оценки качества работы модели можно использовать adjusted rand index:

$ ARI = \frac{RI - E[RI]}{max(RI) - E[RI]} $, <br />
где <br />
$ RI = \frac{2(A+B)}{N(N-1)} $, <br />
$ E[RI]$ - матожидание<br />
ARI должен быть максимизирован. <br />

**Возможные варианты дополнения признакового описания и понижения размерности** <br />
Вероятно, для выявления на снимке областей, на которых представлены частицы породы, информация об значениях rgb каждого пикселя избыточна, и можно рассматривать чб изображения (т.е. уменьшить размерность каждого пикселя с 3 до 1)