# Постановка задач машинного обучения
##### Белоусова Ольга, Б03-904а

### Задача №1. Определение облака по снимку

<img src="https://raw.githubusercontent.com/MKrinitskiy/ML4ES1-F2022-S2023/main/HW02/img/img-2016-10-22T10-18-13devID1.jpg" alt="" title="Снимки видимой полусферы небосвода над океаном" width="550"/>

По данному цифровому снимку небосвода определить, какие области неба заняты облачностью, а какие — свободны.

Метод состоит в следующем. Мы пробегаем по всем пикселям изображения и измеряем параметры RGB. Отношение синего компонента к двум другим (красному и зелёному) для точек неба значительно больше, чем для точек облака (где оно близко к единице). 

Исключение — область картинки, занятая солнцем. Для пикселей солнца все значения RGB близки к 255, этот случай алгоритм должен рассмотреть отдельно.

**1. Тип задачи МО:** обучение с учителем. Мы вручную даём программе значения, по которым определяется, данная область является облаком или нет.

**2. Вид задачи:** Классификация.

**3. Целевая переменная:** бинарный ответ. Размерность: *1*. Область либо является частью облака (*1*), либо нет (*0*).

**4. Функция потерь:** Логистическая функция потерь. 

$\mathrm{logloss} = -\frac{1}{N} \displaystyle\sum_{i=1}^{N} (y_i - log(\hat{y_i})) + (1 - y_i)$, здесь 

* $\mathrm{N = w \times l}$ — размер выборки пикселей, равный произведению ширины изображения на высоту;

* $\hat{y_i}$ — это ответ алгоритма на $i$-ом объекте;

* $y_i$ — истинная метка класса на $i$-ом объекте.

**5. События:** $x_i$: наблюдения за пикселем, который является малым участком снимка неба.

**6. Признаковое описание событий:** $\overrightarrow{x_i}$: значения компонентов красного, синего и зеленого цвета (шкала RGB) для пикселя на снимке. Тип признаков: *действительные величины*. Размерность: *3*.

**7. Возможные варианты дополнения признакового описания или понижения его размерности.** В нашей задаче важно отношение интенсивности двух других компонентов цвета (красного и зелёного) к основному цвету неба (синему). Кроме того, в большинстве снимков, снятых камерой и имеющих значение для задачи, интенсивность красного и зелёного цвета примерно равна. В связи с этим мы можем упростить задачу и рассматривать только 2 признака вместо 3: красный и синий либо зелёный и синий.

**8. Метрика качества.** 

Введем метрики precision (точность) и recall (полнота).


$\large precision = \frac{TP}{TP + FP}$


$\large recall = \frac{TP}{TP + FN}$

Здесь TP — true positive, FP — false positive, TN — true negative, FN — false negative.

Precision — это доля объектов, названных классификатором положительными и действительно являющихся положительными, а recall —  доля объектов положительного класса, найденных алгоритмом, из всех объектов.

Мы стремимся к тому, чтобы обе метрики были как можно ближе к единице.



### Задача №2. Определение размера образцов осадочных пород

<img src="https://sun9-24.userapi.com/impg/A4iidrsUsqhqsLX49wzH_a-LF8BQbkB89e_7bA/Rrmm3tzwNDQ.jpg?size=991x491&quality=96&sign=47c962f8924365f7684e611123bae98d&type=album" alt="" title="Снимки видимой полусферы небосвода над океаном" width="850"/>

По данному цифровому снимку крупиц некоторой осадочной породы приблизительно определить их размер.

На снимке представлены несколько образцов осадочных пород на контрастном зелёном фоне. Аналогично методу предыдущей задачи, мы вначале определим все искомые образцы на снимке. Для зеленого фона отношение зеленого компонента цвета RGB к красному значительно (в 2-3 раза) больше, чем для пикселей камней. 
Далее мы определим все связанные области на фотографии — количество связанных пикселей приблизительно одного цвета. Затем рассматривая по отдельности полученные области, мы будем решать задачу с определением размеров образцов.

**1. Тип задачи МО:** обучение с учителем. Мы можем обучить модель по частицам, размер которых нам уже известен. 

**2. Вид задачи:** Регрессия.

**3. Целевая переменная:** $\mathrm{x, y}$ — размеры образца по двум измерениям. Тип переменныых: действительные величины. Размерность: *2*.

**4. Функция потерь:** 

Используем формулу средней квадратичной ошибки:

$$MSE_x = \frac{1}{N} \displaystyle\sum_{i=1}^{N} \parallel (\hat{x_i} - x_i) \parallel^2;$$

$$MSE_y = \frac{1}{N} \displaystyle\sum_{i=1}^{N} \parallel (\hat{y_i} - y_i) \parallel^2;$$

где x, y – фактические ожидаемые результаты, а $\hat{x_i}$ и $\hat{y_i}$ – прогноз модели.

Тогда формула для общей ошибки будет: $MSE = \sqrt{MSE_x^2 + MSE_y^2}$

**5. События, объекты:** образцы породы и их фотографии с разным фокусным расстоянием камеры.

**6. Признаковое описание событий:** , $\overrightarrow{x_i^p}$ — ширина i-ого образца породы в пикселях на снимке, $\overrightarrow{y_i^p}$ — длина i-ого образца породы в пикселях на снимке. Тип признаков: *действительные величины*. Размерность: 2.

**7. Возможные варианты дополнения признакового описания или понижения его размерности.** Возможно также определение третьего измерения образца (высоты) через фокусное расстояние камеры. Сначала мы определим снимок с наилучшей фокусировкой по методу контрастности (изображение в фокусе, когда оно обладает наибольшей контрастностью). Далее мы уменьшаем фокусное расстояние до тех пор, пока наш объект окажется не в фокусе и полностью размыт. Разность между двумя значениями ФР на двух снимках позволит нам определить вертикальный размер образца. 

Дополнительное признаковое описания событий: $\overrightarrow{f_i}$ — фокусное расстояние камеры для данного снимка, $\overrightarrow{k_i(f)}$ — контрастность данной области изображения (с i-ым образцом) при данном фокусном расстоянии. 

**8. Метрика качества.** 

Метрику качества в данной задаче определим как функцию потерь с противоположным знаком. Чем ближе значение меры качества к нулю, тем модель лучше.