# Статанализ масок облаков и снега

В документе исследуется вопрос о том, как построить маски облачности и снега, пользуясь статистическими методами. Здесь были использованы выборки с двух сцен Landsat-8 и размеченные данные по трем классам: облако, снег, остальное. Документ состоит из нескольких связанных разделов.

 * В разделе [Предобработка](#Preprocessing) дается ссылка на исходные данные и производится очистка данных от явно ошибочных значений.
 * В разделе [Первый взгляд на данные](#Exploration) производится разведочный анализ данных. Раздел состоит из следующих частей:
   - [Отражающая способность различных объектов](#Reflectance): здесь рассматривается вопрос о том, какими спектральными характеристиками обладает каждый из интересующих классов.
   - [Зависимость от сцены](#Reflectance-Scene): здесь исследуюется вопрос о том, в каких каналах вариативность данных в зависимости от сцены высока, а в каких нет.
   - [Вывод](#Exploration-Resume): сводка основных полученных результатов.
 * Раздел [Простая модель](#SimpleModel) посвящен разработке статистических моделей для классификации. Здесь содержатся следующие подразделы:
   - [Выбор объясняющих переменных](#CovariatesSelection): в этом подразделе производится визуальная оценка тех каналов, которые потенциально будут наиболее полезными при построении модели.
   - [Фиктивные переменные](#DummyVars): строятся фиктивные переменные, которые будут использоваться при построении моделей.
   - [Построение моделей](#Modelling): в разделе создаются различного рода статмодели и исследуется их качество. Это наиболее обширный подраздел во всем документе и он делится на несколько секций. В первых секциях исследуются модели на базе логистической регрессии. Затем рассматриваются аддитивные модели.
   Все секции устроены одинаково, но логика и ход создания модели подробно описаны только для первой из них (облачность). Вторая секция (снег) в основном следует описанной логике и подробности в ней опускаются.
     + [ЛР модель для облаков](#Clouds)
       * [Построение собственно модели](#CloudsModel)
       * [Валидация модели](#CloudsValidation)
       * [Вывод по модели](#CloudsResume)
     + [ЛР модель для снега](#Snow)
       * [Модель-1](#SnowModel1)
       * [Валидация модели-1](#SnowValidation1)
       * [Модель-2](#SnowModel2)
       * [Валидация модели-2](#SnowValidation2)
       * [Модель-3](#SnowModel3)
       * [Валидация модели-3](#SnowValidation3)
       * [Вывод по модели](#SnowResume)


<a id='Preprocessing'></a>
## Предобработка 

В файл были экспортированы обучающие данные по облачности и снегу (см. https://176.9.38.120/cruncher/notebooks/deforestation/CMask_trainings.ipynb).

In [1]:
points = read.table('data/CMask_trainings/random_points.csv', header=TRUE, sep=';')

# summary(points)

Содержимое колонок:

  * cat -- идентификатор точки, в которой производились измерения;
  * l1_b1 -- l1_b11 -- данные LANDSAT8 (после атмосферной коррекции) по сцене LC81120282015365LGN00;
  * l2_b1 -- l2_b11 -- данные LANDSAT8 (после атмосферной коррекции) по сцене LC81130272015356LGN00;
  * t1, t2 -- данные по наземным объектам сцен LC81120282015365LGN00 и LC81130272015356LGN00 соответственно, значения: 1-облака;2-снег;3-остальное.
  * x, y -- координаты (UTM);

Соберем данные в dataframe для удобства анализа так, чтобы в нем одна строка соответствовала одному измерению, а не двум, как сейчас:

In [2]:
tmp1 = points[c('cat', 'x', 'y', 't1',
                'l1_b1', 'l1_b2', 'l1_b3', 'l1_b4', 'l1_b5', 'l1_b6', 
                'l1_b7', 'l1_b8', 'l1_b9', 'l1_b10', 'l1_b11'
               )]
names(tmp1) = c('cat', 'x', 'y', 't',
                'b1', 'b2', 'b3', 'b4', 'b5', 'b6', 'b7', 'b8', 'b9', 'b10', 'b11'
               )

tmp1$scene = 'S1' # 'LC81120282015365LGN00'

tmp2 = points[c('cat', 'x', 'y', 't2',
                'l2_b1', 'l2_b2', 'l2_b3', 'l2_b4', 'l2_b5', 'l2_b6', 
                'l2_b7', 'l2_b8', 'l2_b9', 'l2_b10', 'l2_b11'
               )]
names(tmp2) = c('cat', 'x', 'y', 't',
                'b1', 'b2', 'b3', 'b4', 'b5', 'b6', 'b7', 'b8', 'b9', 'b10', 'b11'
               )
tmp2$scene = 'S2' # 'LC81130272015356LGN00'


points = rbind(tmp1, tmp2)

points$t[points$t==0] = NA

points$scene = factor(points$scene)
points$t = factor(points$t)
levels(points$t) <- list(Cloud=1, Snow=2, Other=3)

points = na.omit(points)

summary(points)

      cat              x                y               t        
 Min.   :    1   Min.   :434113   Min.   :4979683   Cloud: 1579  
 1st Qu.:12508   1st Qu.:496221   1st Qu.:5060181   Snow : 3644  
 Median :24998   Median :536605   Median :5117104   Other:45316  
 Mean   :24998   Mean   :541089   Mean   :5112347                
 3rd Qu.:37496   3rd Qu.:586255   3rd Qu.:5165598                
 Max.   :50000   Max.   :664168   Max.   :5215814                
       b1               b2                b3                b4         
 Min.   :0.1124   Min.   :0.08453   Min.   :0.04529   Min.   :0.02953  
 1st Qu.:0.2011   1st Qu.:0.16832   1st Qu.:0.11290   1st Qu.:0.09587  
 Median :0.2291   Median :0.19891   Median :0.14421   Median :0.13350  
 Mean   :0.2529   Mean   :0.22642   Mean   :0.17388   Mean   :0.17051  
 3rd Qu.:0.2732   3rd Qu.:0.24862   3rd Qu.:0.19710   3rd Qu.:0.19912  
 Max.   :0.9407   Max.   :1.07539   Max.   :1.17382   Max.   :1.45950  
       b5               b6        

Видим, что в 9-м канале после атмосферной коррекции получились отрицательные значения. Объясняется это, по всей видимости, тем, что используемые в ходе коррекции константы (gain или bias, см. метаданные) содержали неподходящие для данной сцены значения. Аналогично, почти во всех каналах значения отражающей способности оказались выше 1.

In [3]:
# Число примеров, оставшихся после удаления отсутсвующих данных
dim(points)

In [4]:
points$b8[points$b9 < 0] = 0.0

points$b2[points$b2 > 1] = 1.0
points$b3[points$b3 > 1] = 1.0
points$b4[points$b4 > 1] = 1.0
points$b5[points$b5 > 1] = 1.0
points$b8[points$b8 > 1] = 1.0

<a id='Exploration'></a>
## Первый взгляд на данные

<a id='Reflectance'></a>
### Отражающая способность различных объектов

Построим ящики с усами по каждому каналу и сравним какие значения отражающей способности типичны для каждого типа поверхности.

In [5]:
opar = par(no.readonly = TRUE)      # make a copy of current settings

png("Img/CMASK/type_vs_bands.png", width=728, height=728, units="px")
    par(mfrow = c(3,4))
    boxplot(b1 ~ t, data=points, ylab='b1')
    boxplot(b2 ~ t, data=points, ylab='b2')
    boxplot(b3 ~ t, data=points, ylab='b3')
    boxplot(b4 ~ t, data=points, ylab='b4')

    boxplot(b5 ~ t, data=points, ylab='b5')
    boxplot(b6 ~ t, data=points, ylab='b6')
    boxplot(b7 ~ t, data=points, ylab='b7')
    boxplot(b8 ~ t, data=points, ylab='b8')

    boxplot(b9 ~ t, data=points, ylab='b9')
    boxplot(b10 ~ t, data=points, ylab='b10')
    boxplot(b11 ~ t, data=points, ylab='b11')
    par(opar)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/type_vs_bands.png">

* 1-й--5-й и 8-й каналы ведут себя примерно одинаково: яркости пикслеей, соотвествующие снегу, выше, чем яркости облачных пикселей. А яркость пикселей облаков и снега обычно выше, чем пикселей других объектов. Однако, нельзя провести четкой границы -- области яркостей пикселей различных объектов довольно сильно пересекаются. Видно, что в этих каналах распределение имеет длинный правый хвост: на графиках видны выбросы в верхней части ящиков. Возможно, что стоит преобразовать каналы, чтобы получить более симметричное распределение. Поскольку восьмой канал - панхроматический, то он несет в основном пространственную информацию, а ничего нового с точки зрения спектральной информации не привносит. Поэтому в дальнейшем он буде опущен при анализе.
* 6-й--7-й каналы: высокое отражение в облачных областях, чуть меньшее в заснеженных и еще меньше для остальных объектов. Точно также данные показывают длинный правый хвост в распределении.
* 9-й канал: очень длинный правый хвост в облачных пикселях. Значения облачных пикселей в целом значительно выше, чем у остальных. Поскольку этот канал был разработан для исследования атмосферных эффектов, то, возможно, этот канал будет одним из основных маркеров облако/не облако.
* 10-й и 11-й каналы (температура) cхожи между собой: на них заметно, что температура облаков обычно выше, чем остальных объектов (зима?), хотя у облаков бросается в глаза очень длинный левый хвост распределения.

Преобразуем данные, чтобы получить более равномерные распределения. При этом выкинем из анализа 8-й канал, основную часть каналов прологарифмируем для избавления от длинных хвостов, 9-й канал возведем в степень, а 10-й и 11-й каналы оставим без изменений (длинный хвост только у облаков, а не у всего канала):

In [6]:
png("Img/CMASK/type_vs_logbands.png", width=728, height=728, units="px")
    par(mfrow = c(2, 4))
    boxplot(log(b1) ~ t, data=points, ylab='log(b1')
    boxplot(log(b2) ~ t, data=points, ylab='log(b2')
    boxplot(log(b3) ~ t, data=points, ylab='log(b3')
    boxplot(log(b4) ~ t, data=points, ylab='log(b4')

    boxplot(log(b5) ~ t, data=points, ylab='log(b5)')
    boxplot(log(b6) ~ t, data=points, ylab='log(b6)')
    boxplot(log(b7) ~ t, data=points, ylab='log(b7)')

    boxplot(I(b9^0.5) ~ t, data=points, ylab='sqrt(b9)')
    par(opar)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/type_vs_logbands.png">

Видно, что распределения частично выровнялись, хотя местами по-прежнему остались длинные хвосты.

<a id='Reflectance-Scene'></a>
### Зависимость от сцены

Построим те же самые ящики с усами, но попробуем понять, насколько отличаются данные не только из-за объектов, но и из-за того, что они представлены в разных сценах.

In [7]:
png("Img/CMASK/scene_vs_logbands.png", width=728, height=728, units="px")
    par(mfrow = c(3, 4))
    boxplot(log(b1) ~ scene, data=points, ylab='log(b1)')
    boxplot(log(b2) ~ scene, data=points, ylab='log(b2)')
    boxplot(log(b3) ~ scene, data=points, ylab='log(b3)')
    boxplot(log(b4) ~ scene, data=points, ylab='log(b4)')

    boxplot(log(b5) ~ scene, data=points, ylab='log(b5)')
    boxplot(log(b6) ~ scene, data=points, ylab='log(b6)')
    boxplot(log(b7) ~ scene, data=points, ylab='log(b7)')

    boxplot(I(b9^0.5) ~ scene, data=points, ylab='sqrt(b9)')

    boxplot(b10 ~ scene, data=points, ylab='b10')
    boxplot(b11 ~ scene, data=points, ylab='b11')

    par(opar)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_vs_logbands.png">

Итак, мы видим, что сцена 2 (LC81130272015356LGN00) более яркая, чем сцена 1 (LC81120282015365LGN00) во всех каналах. Вопрос в том, насколько велика эта вариативность данных, которая вносится разными условиями съемки, и не может ли оказаться так, что условия съемки влияют на яркость пикселей гораздо больше, чем тип обеъкта (см., например, различия якркостей в 10-м и 11-м каналах).

Для того, чтобы ответить на этот вопрос построим ящики для отдельных каналов.

#### Канал B1

В первом канале видно, что яркость снега может меняться в достаточно широких пределах в зависимости от сцены, настолько, что она яркости облаков и снежных участков могут пересекаться в большой степени.

In [8]:
png("Img/CMASK/scene_type_vs_b1.png", width=728, height=728, units="px")
    boxplot(log(b1) ~ scene+t, data=points, ylab='log(b1)')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b1.png">

#### Канал B2

Аналогичная картина и во втором канале.

In [9]:
png("Img/CMASK/scene_type_vs_b2.png", width=728, height=728, units="px")
    boxplot(log(b2) ~ scene+t, data=points, ylab='log(b2)')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b2.png">

#### Канал B3

Аналогично и в третьем:

In [10]:
png("Img/CMASK/scene_type_vs_b3.png", width=728, height=728, units="px")
    boxplot(log(b3) ~ scene+t, data=points, ylab='log(b3)')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b3.png">

#### Канал B4

In [11]:
png("Img/CMASK/scene_type_vs_b4.png", width=728, height=728, units="px")
    boxplot(log(b4) ~ scene+t, data=points, ylab='log(b4)')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b4.png">

#### Канал B5

In [12]:
png("Img/CMASK/scene_type_vs_b5.png", width=728, height=728, units="px")
    boxplot(log(b5) ~ scene+t, data=points, ylab='log(b5)')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b5.png">

#### Канал B6

Зато 6-й канал, похоже, меньше зависит от сцены, чем предыдущие:

In [13]:
png("Img/CMASK/scene_type_vs_b6.png", width=728, height=728, units="px")
    boxplot(log(b6) ~ scene+t, data=points, ylab='log(b6)')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b6.png">

#### Канал B7

Очень похож на 6-й канал, но вариативность данных внутри классов в нем чуть меньше.

In [14]:
png("Img/CMASK/scene_type_vs_b7.png", width=728, height=728, units="px")
    boxplot(log(b7) ~ scene+t, data=points, ylab='log(b7)')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b7.png">

#### Канал B9

В 9-м канале вариативность яркостей облачных пикселей между сценами очень велика. Похоже, что от сцены тут зависит больше, чем от типа объекта.

In [15]:
png("Img/CMASK/scene_type_vs_b9.png", width=728, height=728, units="px")
    boxplot(I(b9^0.5) ~ scene+t, data=points, ylab='sqrt(b9)')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b9.png">

#### Канал B10

Аналогичная проблема облачных пикселей и в 10-м канале: от сцены зависит больше, чем от типа объекта, особенно ярко это проявляется для облаков.

In [16]:
png("Img/CMASK/scene_type_vs_b10.png", width=728, height=728, units="px")
    boxplot(b10 ~ scene+t, data=points, ylab='b10')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b10.png">

#### Канал B11

Та же самая проблема: от сцены зависит больше, чем от типа объекта.

In [17]:
png("Img/CMASK/scene_type_vs_b11.png", width=728, height=728, units="px")
    boxplot(b11 ~ scene+t, data=points, ylab='b11')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b11.png">

<a id='Exploration-Resume'></a>
### Вывод

 * Для различения облаков и снега, видимо, необходимо использовать каналы 1--7. В каналах 9--11 также содержится полезная информация, но воспользоваться ей будет сложнее из-за большей вариативности из-за условий съемки.
 * Каналы 1--5 и каналы 6--7 образуют две группы переменных. Переменные в каждой группе ведут себя схожим образом (поведение каналов 1--5 очень похоже между собой для выбранных классов; аналогично с каналами 6 и 7). Поскольку многие методы очень чувствительны к корреляции объясняющих переменных, то есть смысл подумать о том, чтобы выбрать по одному каналу из каждой группы. Возможно такое уменьшение числа переменных (но и корреляции между ними) даст положительный эффект на точность распознавания.

<a id='SimpleModel'></a>
## Простая модель

В этом разделе построим простейшую модель на основе логистической регрессии и посмотрим, насколько она решает задачу разделения интересующих нас объектов. Пойдем по следующей схеме работы:

1. Предварительный выбор объясняющих переменных. Объясняющих переменных (каналов, в нашем случае) много, но они сильно коррелируют между собой. Для большей устойчивости решения выберем несколько переменных, остальные пока проигнорируем (на следующем этапе оценим правильность выбора переменных).
2. Создание фиктивных переменных. Поскольку у нас выделено три объекта (класс "все остальное" назовем условно одним объектом), и они не упорядочены, то нам понадобится создать фиктивные переменные, которые мы будем использовать.
3. Построение моделей, отражающих связь между объясняющими переменными и зависимыми.
4. Исследуем модели, проверив, выполняются ли условия, на которые опирается процедура построения логистической регрессии.
5. Посмотрим, насколько изменится качество модели, если выбрать другой набор объясняющих переменных.

<a id='CovariatesSelection'></a>
### Предварительный выбор объясняющих переменных

Посмотрим еще раз на взаимную корреляциию объясняющих переменных (для ускорения отрисовки сделаем небольшую подвыборку данных). 

In [18]:
psample_ind = sample(1:length(points[, 1]), size=500)
psample = points[psample_ind, ]

png("Img/CMASK/all_bands.png", width=728, height=728, units="px")
  pairs(~log(b1)+log(b2)+log(b3)+log(b4)+log(b5)+log(b6)+log(b7)+sqrt(b9)+b10+b11, data=psample, pch=19, cex=0.1) 
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/all_bands.png">

Итак, мы видим, что очень сильна корреляция между 6-м и 7-м каналами, затем между 10-м и 11-м каналами, а также между 1-м, 2-м, 3-м и 4-м каналами, на эти 4 канала довольно похож 5-й, но все-таки, видимо, его следует выделить в отдельную группу. Ту же самую картину мы увидим, если расчитаем коэффициент корреляции между этими переменными:

In [19]:
cor(data.frame(log(points$b1), log(points$b2), log(points$b3), log(points$b4), log(points$b5),
    log(points$b6), log(points$b7), sqrt(points$b9+0.001), points$b10, points$b11))

Unnamed: 0,log.points.b1.,log.points.b2.,log.points.b3.,log.points.b4.,log.points.b5.,log.points.b6.,log.points.b7.,sqrt.points.b9...0.001.,points.b10,points.b11
log.points.b1.,1.0,0.9964358,0.97639013,0.95335102,0.77517809,0.5620097,0.62302423,0.29965771,0.01198254,0.02497259
log.points.b2.,0.9964358,1.0,0.99003616,0.9737249,0.8142512,0.60139706,0.66104285,0.30740816,0.01601809,0.02772027
log.points.b3.,0.97639013,0.99003616,1.0,0.99513008,0.87490047,0.6688906,0.72503729,0.32957731,0.03250238,0.03846062
log.points.b4.,0.95335102,0.9737249,0.99513008,1.0,0.90503815,0.7137883,0.76718334,0.32889596,0.04236531,0.04731348
log.points.b5.,0.7751781,0.8142512,0.8749005,0.9050381,1.0,0.8445939,0.8719638,0.3426454,0.1084817,0.1027279
log.points.b6.,0.5620097,0.60139706,0.6688906,0.7137883,0.84459391,1.0,0.9918878,0.44287939,0.0826638,0.06304586
log.points.b7.,0.62302423,0.66104285,0.72503729,0.76718334,0.87196375,0.9918878,1.0,0.44975283,0.05640044,0.03886842
sqrt.points.b9...0.001.,0.2996577,0.3074082,0.3295773,0.328896,0.3426454,0.4428794,0.4497528,1.0,-0.3242166,-0.4123782
points.b10,0.01198254,0.01601809,0.03250238,0.04236531,0.10848175,0.0826638,0.05640044,-0.32421662,1.0,0.98045369
points.b11,0.02497259,0.02772027,0.03846062,0.04731348,0.10272787,0.06304586,0.03886842,-0.41237817,0.98045369,1.0


<a id='DummyVars'></a>
### Фиктивные переменные

Возможно, есть хороший способ создания фиктивных переменных вместо одной зависимой переменной, но я всю процедуру сделаю руками: введу три новых переменных answ1, answ2, answ3 которые будут кодировать тот факт, что пиксель принадлежит облачному, снежному или иному участку снимка соответственно. Для этого создам новый набор данных, в котором будут содержаться только интересующие нас переменные.

In [20]:
pdata = data.frame(answ1=(points$t=='Cloud'), answ2=(points$t=='Snow'), answ3=(points$t=='Other'), 
                   b1=points$b1, b2=points$b2, b3=points$b3, b4=points$b4, b5=points$b5, b6=points$b6, 
                   b7=points$b7, b9=points$b9, b10=points$b10, b11=points$b11, scene=points$scene
                  )

<a id='Modelling'></a>
### Построение моделей

Построим три модели (по числу фиктивных переменных) на базе логистической регрессии. Также не будем использовать преобразование переменных на этом этапе построения моделей. Начанем с определения того, что пиксель является облаком.

<a id='Clouds'></a>
#### Облако-не-облако

<a id='CloudsModel'></a>
##### Модель

Построим модель определяющую, явлеяется ли данный пиксель облаком и найдем те каналы, которые дают наибольшее качество модели (как отмечалось выше, среди имеющихся объясняющих переменных очень высокая корреляция). Для начала построим модель со всеми имеющимися переменными, включая название сцены.

In [21]:
simple.glm1 = glm(answ1~b1 + b2 + b3 + b4 + b5 + b6 +b7 + b9 + b10 + b11 + scene, data=pdata, family=binomial)
summary(simple.glm1)

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + b9 + 
    b10 + b11 + scene, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.3471  -0.0178  -0.0075  -0.0043   3.7550  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -9.2134    12.6052  -0.731  0.46483    
b1            3.8466    36.9262   0.104  0.91703    
b2           14.6088    37.8190   0.386  0.69929    
b3          -99.3805    39.7492  -2.500  0.01241 *  
b4           85.4198    27.3904   3.119  0.00182 ** 
b5          -37.1751     3.9036  -9.523  < 2e-16 ***
b6          -10.9699    12.0687  -0.909  0.36337    
b7          112.6315    14.7005   7.662 1.83e-14 ***
b9           52.7175     8.2705   6.374 1.84e-10 ***
b10          -0.1721     0.1278  -1.347  0.17794    
b11           0.1736     0.1287   1.349  0.17749    
sceneS2       4.5265     0.5016   9.023  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’

Оценкой качества модели может служить несколько параметров, например отклонения (остатки, Deviance) прогнозируемых величин от тех, что зафиксированы на самом деле, другая оценка качества - Akaike Information Criterion (AIC), в котором учитывается как качество подгонки модели, так и ее сложность.  Если оринтироваться на Akaike Information Criterion, то AIC коэффициент у simple.glm2 равен 1313.2 (чем меньше, тем лучше). Но мы видим, что часть коэффициентов регрессии статистически не значимы.

Последовательно будем избавляться от "лишних" коэффициентов регрессии. Для этого в цикле будем удалять по одному коэффициенту и оценивать, как изменился результат. Качество будем оценивать по отклонениям прогнозных значений от реальных. Однако, поскольку у полной модели больше коэффициентов в уравнении регрессии, то и отклонения полной модели будут меньше. Поэтому значимость определенного коэффициента, будем определять по следующей схеме: 
 * выкинем одну переменную, например, b1;
 * очевидно, что в модели без этой переменной (т.е. с коэффициентом b1 == 0) отклонения должны быть больше, чем в модели с этим коэффициентом, поскольку в полной модели $p_2 = 11$ параметров, а в "урезанной" модели $p_1=10$ параметров;
 * соответственно мы можем выдвинуть гипотезу, что коэффициент перед b1 равен нулю и проверить ее, сравнив величины отклонений этих двух моделей: чем больше разность отклонений моделей, тем больше вероятность того, что коэффициент перед b1 ненулевой;
 * разность отклонений двух моделей ассимтотически распределена как Хи-квадрат с $p_2 - p_1 = 1$ степенями свободы: $D_1 - D_1 \sim X^2_{p_2 - p_1}$
 * пробежавшись по всем переменным мы можем определить значимость каждой из них.
 
Эту процедуру автоматизирует функция drop1. Воспользуемся ей:

In [22]:
drop1(simple.glm1, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1289.236,1313.236,,
b1,1.0,1289.247,1311.247,0.01085342,0.9170267
b2,1.0,1289.3857572,1311.3857572,0.1494317,0.699079
b3,1.0,1295.625,1317.625,6.388735,0.01148469
b4,1.0,1299.156,1321.156,9.919714,0.001635178
b5,1.0,1394.102,1416.102,104.8654,1.307192e-24
b6,1.0,1290.0648232,1312.0648232,0.8284977,0.3627073
b7,1.0,1353.729,1375.729,64.49295,9.687858e-16
b9,1.0,1336.635,1358.635,47.399,5.791226e-12
b10,1.0,1291.0570998,1313.0570998,1.8207743,0.1772211


Итого, у модели, содержащей все переменные, остатки (Deviance) равняются 1289.236. Если мы викинем b1, то остатки будут равны 1.289247e+03(=1289.247), разность остатков составляет 1.085342e-02=0.01085, соотвественно p-значение распределения Хи-квадрат с одной степенью свободы равно 9.170267e-01, что явно очень много и мы можем выкинуть эту переменную безбоязненно.

Повторяем данную процедуру для нового набора переменных:

In [23]:
simple.glm2 = glm(answ1~ b2 + b3 + b4 + b5 + b6 +b7 + b9 + b10 + b11 + scene, data=pdata, family=binomial)
summary(simple.glm2)
drop1(simple.glm2, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b2 + b3 + b4 + b5 + b6 + b7 + b9 + b10 + 
    b11 + scene, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.3477  -0.0178  -0.0075  -0.0043   3.7519  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -9.1119    12.5661  -0.725 0.468381    
b2           18.2279    14.9870   1.216 0.223889    
b3          -97.4374    35.1160  -2.775 0.005525 ** 
b4           83.7884    22.4958   3.725 0.000196 ***
b5          -37.2842     3.7608  -9.914  < 2e-16 ***
b6          -10.7796    11.9278  -0.904 0.366136    
b7          112.3931    14.5178   7.742 9.81e-15 ***
b9           52.7780     8.2485   6.399 1.57e-10 ***
b10          -0.1730     0.1275  -1.357 0.174754    
b11           0.1745     0.1284   1.360 0.173874    
sceneS2       4.5337     0.4969   9.124  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family take

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1289.247,1311.247,,
b2,1.0,1290.736493,1310.736493,1.489314,0.222323
b3,1.0,1296.72,1316.72,7.472685,0.006264206
b4,1.0,1302.318,1322.318,13.07111,0.0002998858
b5,1.0,1403.461,1423.461,114.2136,1.1700269999999999e-26
b6,1.0,1290.0659227,1310.0659227,0.8187438,0.3655477
b7,1.0,1354.922,1374.922,65.67495,5.317747e-16
b9,1.0,1337.127,1357.127,47.87991,4.531409e-12
b10,1.0,1291.0949258,1311.0949258,1.8477469,0.1740457
b11,1.0,1291.1067768,1311.1067768,1.8595978,0.1726712


AIC улучшилось, но остаются еще незначимые коэффициенты. Выкидываем b6 и продолжаем:

In [24]:
simple.glm3 = glm(answ1~ b2 + b3 + b4 + b5 +b7 + b9 + b10 + b11 + scene, data=pdata, family=binomial)
summary(simple.glm3)
drop1(simple.glm3, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b2 + b3 + b4 + b5 + b7 + b9 + b10 + b11 + 
    scene, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.3163  -0.0181  -0.0077  -0.0044   3.7809  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -7.0150    12.3120  -0.570 0.568830    
b2           19.0142    14.9371   1.273 0.203035    
b3          -96.5989    35.0669  -2.755 0.005875 ** 
b4           83.9253    22.4924   3.731 0.000191 ***
b5          -38.2918     3.5976 -10.644  < 2e-16 ***
b7           99.8653     4.0618  24.586  < 2e-16 ***
b9           51.7107     8.1173   6.370 1.88e-10 ***
b10          -0.1684     0.1272  -1.324 0.185347    
b11           0.1612     0.1273   1.266 0.205495    
sceneS2       4.4812     0.4922   9.104  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 14053.6  on 50538  degrees 

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1290.066,1310.066,,
b2,1.0,1291.6942095,1309.6942095,1.6282868,0.2019402
b3,1.0,1297.433,1315.433,7.36696,0.006643313
b4,1.0,1303.18,1321.18,13.11393,0.0002931089
b5,1.0,1424.451,1442.451,134.3853,4.499798000000001e-31
b7,1.0,4899.839,4917.839,3609.773,0.0
b9,1.0,1337.128,1355.128,47.06173,6.878583e-12
b10,1.0,1291.825125,1309.825125,1.759202,0.184724
b11,1.0,1291.676106,1309.676106,1.610184,0.204466
scene,1.0,1396.101,1414.101,106.0354,7.243042e-25


Выкидываем b11:

In [25]:
simple.glm4 = glm(answ1~ b2 + b3 + b4 + b5 +b7 + b9 + b10 + scene, data=pdata, family=binomial)
summary(simple.glm4)
drop1(simple.glm4, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b2 + b3 + b4 + b5 + b7 + b9 + b10 + scene, 
    family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.2828  -0.0182  -0.0079  -0.0045   3.8098  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -4.43754   12.15280  -0.365 0.715003    
b2            21.35727   14.89459   1.434 0.151602    
b3          -100.04779   35.09888  -2.850 0.004366 ** 
b4            85.05952   22.54604   3.773 0.000161 ***
b5           -38.14592    3.59761 -10.603  < 2e-16 ***
b7            99.46042    4.05353  24.537  < 2e-16 ***
b9            47.12670    7.24054   6.509 7.58e-11 ***
b10           -0.01923    0.04797  -0.401 0.688521    
sceneS2        4.49335    0.49467   9.084  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 14053.6  on 50538  degrees of freedom
Residual deviance:  1291.7  

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1291.676,1309.676,,
b2,1.0,1293.7482433,1309.7482433,2.072137,0.1500112
b3,1.0,1299.534,1315.534,7.857899,0.005059917
b4,1.0,1305.059,1321.059,13.38269,0.0002539573
b5,1.0,1424.819,1440.819,133.1431,8.412265e-31
b7,1.0,5055.419,5071.419,3763.743,0.0
b9,1.0,1343.497,1359.497,51.82112,6.079422e-13
b10,1.0,1291.8368792,1307.8368792,0.1607729,0.6884459
scene,1.0,1397.027,1413.027,105.351,1.023088e-24


Выкидываем b10:

In [26]:
simple.glm5 = glm(answ1~ b2 + b3 + b4 + b5 +b7 + b9 + scene, data=pdata, family=binomial)
summary(simple.glm5)
drop1(simple.glm5, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b2 + b3 + b4 + b5 + b7 + b9 + scene, family = binomial, 
    data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.2833  -0.0181  -0.0078  -0.0044   3.8032  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -9.2983     0.8449 -11.005  < 2e-16 ***
b2           21.1895    14.8760   1.424 0.154329    
b3          -99.2954    35.0346  -2.834 0.004594 ** 
b4           84.8760    22.5369   3.766 0.000166 ***
b5          -38.4694     3.5044 -10.977  < 2e-16 ***
b7           99.6230     4.0391  24.665  < 2e-16 ***
b9           48.4723     6.4534   7.511 5.86e-14 ***
sceneS2       4.3921     0.4248  10.340  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 14053.6  on 50538  degrees of freedom
Residual deviance:  1291.8  on 50531  degrees of freedom
AIC: 1307.8

Number of Fisher Scoring iterations: 

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1291.837,1307.837,,
b2,1.0,1293.8817588,1307.8817588,2.0448796,0.1527191
b3,1.0,1299.609,1313.609,7.772014,0.005306184
b4,1.0,1305.183,1319.183,13.3464,0.0002589188
b5,1.0,1440.487,1454.487,148.6501,3.420042e-34
b7,1.0,5110.063,5124.063,3818.226,0.0
b9,1.0,1362.258,1376.258,70.42144,4.7896590000000003e-17
scene,1.0,1448.253,1462.253,156.4162,6.866207999999999e-36


Избавляемся от незначимого коэффициента b2:

In [27]:
simple.glm6 = glm(answ1~ b3 + b4 + b5 +b7 + b9 + scene, data=pdata, family=binomial)
summary(simple.glm6)
drop1(simple.glm6, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b3 + b4 + b5 + b7 + b9 + scene, family = binomial, 
    data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.2517  -0.0178  -0.0077  -0.0044   3.7779  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -8.6519     0.7169 -12.069  < 2e-16 ***
b3          -58.9995    21.2553  -2.776 0.005507 ** 
b4           69.9411    20.2974   3.446 0.000569 ***
b5          -39.8046     3.3812 -11.772  < 2e-16 ***
b7           99.1685     4.0099  24.731  < 2e-16 ***
b9           48.9073     6.4829   7.544 4.56e-14 ***
sceneS2       4.4688     0.4258  10.494  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 14053.6  on 50538  degrees of freedom
Residual deviance:  1293.9  on 50532  degrees of freedom
AIC: 1307.9

Number of Fisher Scoring iterations: 11


: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1293.882,1307.882,,
b3,1.0,1301.168,1313.168,7.286727,0.006946592
b4,1.0,1305.237,1317.237,11.35539,0.0007522941
b5,1.0,1492.95,1504.95,199.0681,3.335693e-45
b7,1.0,5114.362,5126.362,3820.481,0.0
b9,1.0,1367.413,1379.413,73.53171,9.903246e-18
scene,1.0,1462.616,1474.616,168.734,1.3985659999999998e-38


Больше удалять нечего. Эта модель -- максимум точности, которой мы можем достичь при анализе. К сожалению, среди значимых коэффициентов осталась переменная scene, что означает, что в модели должен фигурировать идентификатор сцены. Автоматически это означает, что для каждой сцены, по сути, мы должы будем строить свою модель. Альтернативный вариант -- использование смешанных моделей (mixed effects), что даст значительно усложнение всех вычислений.

Итак, надежда на то, что сцена окажется не значимой, и можно построить модель, в которой не фигурирует идентификатор сцены, не оправдалась. Вернемся на шаг назад, вручную удалим все переменные, которые зависят от сцены (см. первый этап анализа), затем повторим процедуру отбора оптимальной модели и посмотрим, насколько ухудшадся показатели такой модели по сравнению с simple.glm6. 

Ниже повторяется вся процедура отбора переменных без дополнительных комментарив:

In [28]:
simple.glm7 = glm(answ1~b1 + b2 + b3 + b4 + b5 + b6 +b7, data=pdata, family=binomial)
summary(simple.glm7)
drop1(simple.glm7, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7, family = binomial, 
    data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.3647  -0.0290  -0.0156  -0.0091   4.3224  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -15.105      1.288 -11.725  < 2e-16 ***
b1           102.756     36.813   2.791  0.00525 ** 
b2           -65.801     40.518  -1.624  0.10437    
b3           -70.817     33.606  -2.107  0.03509 *  
b4            47.993     21.618   2.220  0.02642 *  
b5           -30.658      3.171  -9.670  < 2e-16 ***
b6            34.449     11.312   3.045  0.00232 ** 
b7            80.444     13.096   6.142 8.13e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 14053.6  on 50538  degrees of freedom
Residual deviance:  1438.2  on 50531  degrees of freedom
AIC: 1454.2

Number of Fisher Scoring iterations: 10


: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1438.155,1454.155,,
b1,1.0,1446.026,1460.026,7.871087,0.005023144
b2,1.0,1440.805798,1454.805798,2.651043,0.103482
b3,1.0,1442.571,1456.571,4.416502,0.03559292
b4,1.0,1443.011,1457.011,4.855902,0.02755171
b5,1.0,1545.974,1559.974,107.8194,2.9442220000000003e-25
b6,1.0,1447.446,1461.446,9.291302,0.002302445
b7,1.0,1477.756,1491.756,39.60169,3.11414e-10


In [29]:
simple.glm8 = glm(answ1~b1 + b3 + b4 + b5 + b6 +b7, data=pdata, family=binomial)
summary(simple.glm8)
drop1(simple.glm8, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b1 + b3 + b4 + b5 + b6 + b7, family = binomial, 
    data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.3814  -0.0291  -0.0158  -0.0093   4.3174  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -13.943      1.065 -13.093  < 2e-16 ***
b1            47.000     13.733   3.422 0.000621 ***
b3           -63.187     33.583  -1.882 0.059902 .  
b4            29.917     18.754   1.595 0.110650    
b5           -31.536      3.131 -10.073  < 2e-16 ***
b6            38.963     10.989   3.545 0.000392 ***
b7            75.563     12.743   5.930 3.04e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 14053.6  on 50538  degrees of freedom
Residual deviance:  1440.8  on 50532  degrees of freedom
AIC: 1454.8

Number of Fisher Scoring iterations: 10


: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1440.806,1454.806,,
b1,1.0,1457.519,1469.519,16.71286,4.348525e-05
b3,1.0,1444.625,1456.625,3.819134,0.05067041
b4,1.0,1443.3783405,1455.3783405,2.5725424,0.1087329
b5,1.0,1558.526,1570.526,117.7206,1.9961970000000003e-27
b6,1.0,1453.345,1465.345,12.53926,0.0003984911
b7,1.0,1477.811,1489.811,37.0051,1.178204e-09


In [30]:
simple.glm9 = glm(answ1~b1 + b3 + b5 + b6 +b7, data=pdata, family=binomial)
summary(simple.glm9)
drop1(simple.glm9, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b1 + b3 + b5 + b6 + b7, family = binomial, 
    data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.3205  -0.0293  -0.0163  -0.0096   4.2957  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -13.513      1.000 -13.512  < 2e-16 ***
b1            32.036      9.411   3.404 0.000664 ***
b3           -13.358     10.785  -1.239 0.215518    
b5           -32.009      3.074 -10.411  < 2e-16 ***
b6            42.514     10.723   3.965 7.34e-05 ***
b7            70.289     12.227   5.749 8.99e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 14053.6  on 50538  degrees of freedom
Residual deviance:  1443.4  on 50533  degrees of freedom
AIC: 1455.4

Number of Fisher Scoring iterations: 10


: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1443.378,1455.378,,
b1,1.0,1457.523,1467.523,14.14423,0.000169316
b3,1.0,1444.9792568,1454.9792568,1.6009163,0.2057734
b5,1.0,1567.276,1577.276,123.8977,8.869957e-29
b6,1.0,1459.115,1469.115,15.73627,7.281458e-05
b7,1.0,1477.851,1487.851,34.4723,4.323603e-09


In [31]:
simple.glm10 = glm(answ1~b1 + b5 + b6 +b7, data=pdata, family=binomial)
summary(simple.glm10)
drop1(simple.glm10, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b1 + b5 + b6 + b7, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.3348  -0.0290  -0.0160  -0.0096   4.2994  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -12.4185     0.4587 -27.073  < 2e-16 ***
b1           20.8339     2.6116   7.977 1.49e-15 ***
b5          -34.7703     2.1604 -16.095  < 2e-16 ***
b6           45.3291    10.4937   4.320 1.56e-05 ***
b7           67.9584    12.0931   5.620 1.91e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 14054  on 50538  degrees of freedom
Residual deviance:  1445  on 50534  degrees of freedom
AIC: 1455

Number of Fisher Scoring iterations: 10


: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1444.979,1454.979,,
b1,1.0,1514.534,1522.534,69.55486,7.431837e-17
b5,1.0,2008.89,2016.89,563.9107,1.18553e-124
b6,1.0,1463.68,1471.68,18.70055,1.529382e-05
b7,1.0,1477.961,1485.961,32.98191,9.302018e-09


Итак, в этом случае оптимальный набор переменных: b1, b5, b6, b7. AIC: 1455 (для сравнения: AIC у simple.glm6 равен 1307.9).

<a id='CloudsValidation'></a>
##### Валидация модели

Посмотрим, нет ли каких-либо закономерностей в ответах. Для этого построим график зависимостей остатков от подогнанных значений.

Для оценки качества модели изучим поведение зависимости остатков (невязка модели) от прогнозируемой величины и от независимых переменных. В идеале остатки не должны показывать каких-либо закономерностей.

In [32]:
E10 = resid(simple.glm10, type="response")
png("Img/CMASK/glm10_res_fitted.png", width=728, height=728, units="px")
  plot(simple.glm10$fitted.values, E10, cex=0.1)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/glm10_res_fitted.png">

Поскольку ответ логистической регрессии это один или ноль, а значений, использующихся для подгонки достаточно много, то на графике видим две полосы точек (остатков). В итогое понять, есть ли закономерность в остатках становится сложно. Поэтому упорядочим полученные ответы по возрастанию fitted.values, разобьем их на группы и посчитаем в каждой группе среднее значение невязки (средний остаток).

In [33]:
ER10 = data.frame(err=E10, fitted=simple.glm10$fitted.values, 
                b1=pdata$b1, b2=pdata$b2, b3=pdata$b3, b4=pdata$b4, b5=pdata$b5, b6=pdata$b6, 
                b7=pdata$b7, b9=pdata$b9, b10=pdata$b10, b11=pdata$b11, scene=pdata$scene)

# Сортируем по порядку прогнозируемых величин
ER10 = ER10[order(ER10$fitted), ]

# Разбиваем на группы
group_size = 100
ER10 = cbind(id=(1:length(ER10$fitted))%/% group_size, ER10)
# Вычислим среднее значение ошибки в каждой группе и поместим в таблицу
lookup_table = aggregate(ER10['err'], by=list(ER10$id), FUN=mean)
names(lookup_table) = c('id', 'err')

# Создадим вектор из средний значений ошибок 
a = sapply(ER10$id, function(id){lookup_table[lookup_table$id==id, 'err']})

ER10 = cbind(ER10, mean.err=a)


png("Img/CMASK/glm10_res_fitted_srt.png", width=728, height=728, units="px")
  plot(ER10$fitted, ER10$mean.err, cex=0.1)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/glm10_res_fitted_srt.png">

Как видим, в усредненных остатках есть некоторая тенденция: если прогнозируемое значение близко к нулю (не облако), то остаток скорее будет отцательным, для средних прогнозируемых значений остатки чаще положительны, а если прогнозируемое значение близко к единице, то отстаток опять будет скорее отрицательным. Для идеально подогнанной кривой усредненные остатки должны быть более-менее равномерно разбросаны вокруг нуля и не зависеть от прогнозируемой величины.

Аналогично, построим графики зависимостей остатков от всех переменных (как использованных в модели, так и не использованных).

In [34]:
png("Img/CMASK/glm10_res_bXX_srt.png", width=728, height=728, units="px")
    par(mfrow = c(3, 4))
    plot(ER10$b1, ER10$mean.err, cex=0.1)
    plot(ER10$b2, ER10$mean.err, cex=0.1)
    plot(ER10$b3, ER10$mean.err, cex=0.1)
    plot(ER10$b4, ER10$mean.err, cex=0.1)

    plot(ER10$b5, ER10$mean.err, cex=0.1)
    plot(ER10$b6, ER10$mean.err, cex=0.1)
    plot(ER10$b7, ER10$mean.err, cex=0.1)

    plot(ER10$b9, ER10$mean.err, cex=0.1)

    plot(ER10$b10, ER10$mean.err, cex=0.1)
    plot(ER10$b11, ER10$mean.err, cex=0.1)

    boxplot(ER10$mean.err ~ ER10$scene, cex=0.1)

    par(opar)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/glm10_res_bXX_srt.png">

Каких-то бросающихся в глаза тенденций (например, низких значений остатков при высоких величинах переменных или чего-нибудь в этом роде) в зависимости остатков от каналов не заметно: отрицательные остатки обычно уравновешиваются положительными. Также хорошая новость в том, что остатки не показывают зависимости от сцены.

<a id='CloudsResume'></a>
##### Вывод

Таким образом возьмем в качестве первого приближения данную модель:

In [36]:
cloud.model = simple.glm10

Будем считать с некоторыми оговорками (см. закономерности в остатах на графике остатки-прогнозные величины), что модель отражает реальное положение дел.

<a id='Snow'></a>
#### Снег-не-снег

<a id='SnowModel1'></a>
#### Построение модели

Построим модель определяющую, явлеяется ли данный пиксель снегом. Для начала построим модель со всеми имеющимися переменными, включая название сцены. Логика построения следует логике, описанной в разделе построения модели по облакам. Поэтому подробности здесь опускаются.

In [38]:
simple.glm11 = glm(answ2~b1 + b2 + b3 + b4 + b5 + b6 +b7 + b9 + b10 + b11 + scene, data=pdata, family=binomial)
summary(simple.glm11)
drop1(simple.glm11, test="Chi")


Call:
glm(formula = answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + b9 + 
    b10 + b11 + scene, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-5.4517  -0.0508  -0.0264  -0.0154   4.6237  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  33.24812    5.69266   5.841 5.20e-09 ***
b1          -14.17302   10.64750  -1.331  0.18315    
b2           10.32504   11.31638   0.912  0.36156    
b3          -23.81504    9.11468  -2.613  0.00898 ** 
b4           71.49703    6.89834  10.364  < 2e-16 ***
b5           -4.11483    1.46946  -2.800  0.00511 ** 
b6           34.39465    8.34044   4.124 3.73e-05 ***
b7          -85.42956    9.90302  -8.627  < 2e-16 ***
b9            1.81237    2.95947   0.612  0.54028    
b10           0.03536    0.07452   0.474  0.63516    
b11          -0.20574    0.07156  -2.875  0.00404 ** 
sceneS2      -3.08600    0.22752 -13.564  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,4111.006,4135.006,,
b1,1.0,4112.7820595,4134.7820595,1.7756547,0.1826838
b2,1.0,4111.8393444,4133.8393444,0.8329396,0.3614239
b3,1.0,4117.866,4139.866,6.859756,0.008815857
b4,1.0,4222.33,4244.33,111.324,5.0248169999999997e-26
b5,1.0,4118.951,4140.951,7.945046,0.004821919
b6,1.0,4128.463,4150.463,17.45688,2.93899e-05
b7,1.0,4189.994,4211.994,78.98715,6.251514999999999e-19
b9,1.0,4111.3809981,4133.3809981,0.3745933,0.5405111
b10,1.0,4111.2316338,4133.2316338,0.225229,0.6350842


In [None]:
drop1(simple.glm11, test="Chi")

In [39]:
simple.glm12 = glm(answ2~b1 + b2 + b3 + b4 + b5 + b6 +b7 + b9 + b11 + scene, data=pdata, family=binomial)
summary(simple.glm12)
drop1(simple.glm12, test="Chi")


Call:
glm(formula = answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + b9 + 
    b11 + scene, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-5.4573  -0.0508  -0.0263  -0.0154   4.6179  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  34.09838    5.40337   6.311 2.78e-10 ***
b1          -14.72704   10.58590  -1.391  0.16417    
b2           10.48689   11.31599   0.927  0.35407    
b3          -23.17515    9.01273  -2.571  0.01013 *  
b4           71.15259    6.86105  10.371  < 2e-16 ***
b5           -4.07003    1.46638  -2.776  0.00551 ** 
b6           34.46864    8.31974   4.143 3.43e-05 ***
b7          -85.55749    9.87576  -8.663  < 2e-16 ***
b9            2.36791    2.71726   0.871  0.38352    
b11          -0.17332    0.02123  -8.166 3.20e-16 ***
sceneS2      -3.06232    0.22178 -13.808  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial 

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,4111.232,4133.232,,
b1,1.0,4113.1714514,4133.1714514,1.9398176,0.1636883
b2,1.0,4112.09098,4132.09098,0.8593462,0.3539217
b3,1.0,4117.874,4137.874,6.642334,0.009958336
b4,1.0,4222.863,4242.863,111.6313,4.3033789999999997e-26
b5,1.0,4119.037,4139.037,7.805142,0.005209777
b6,1.0,4128.843,4148.843,17.61181,2.709011e-05
b7,1.0,4190.758,4210.758,79.52612,4.758928e-19
b9,1.0,4111.9898219,4131.9898219,0.7581881,0.3838962
b11,1.0,4179.633,4199.633,68.40134,1.333869e-16


In [40]:
simple.glm13 = glm(answ2~b1 + b2 + b3 + b4 + b5 + b6 +b7 + b11 + scene, data=pdata, family=binomial)
summary(simple.glm13)
drop1(simple.glm13, test="Chi")


Call:
glm(formula = answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + b11 + 
    scene, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-5.4431  -0.0509  -0.0263  -0.0152   4.6231  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  36.81251    4.43940   8.292  < 2e-16 ***
b1          -15.17628   10.57761  -1.435  0.15136    
b2           10.79602   11.31651   0.954  0.34008    
b3          -22.05583    8.91525  -2.474  0.01336 *  
b4           69.92144    6.70580  10.427  < 2e-16 ***
b5           -3.79797    1.43135  -2.653  0.00797 ** 
b6           34.88959    8.36651   4.170 3.04e-05 ***
b7          -85.25847    9.94872  -8.570  < 2e-16 ***
b11          -0.18434    0.01715 -10.749  < 2e-16 ***
sceneS2      -3.02956    0.21920 -13.821  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26184  on 50538  

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,4111.99,4131.99,,
b1,1.0,4114.0531486,4132.0531486,2.0633267,0.1508805
b2,1.0,4112.9005246,4130.9005246,0.9107027,0.3399281
b3,1.0,4118.135,4136.135,6.145505,0.01317465
b4,1.0,4224.519,4242.519,112.5294,2.735712e-26
b5,1.0,4119.116,4137.116,7.126318,0.007596057
b6,1.0,4129.763,4147.763,17.7736,2.488116e-05
b7,1.0,4190.824,4208.824,78.83422,6.754666999999999e-19
b11,1.0,4221.619,4239.619,109.6292,1.181485e-25
scene,1.0,4322.975,4340.975,210.985,8.374491999999999e-48


In [41]:
simple.glm14 = glm(answ2~b1 + b3 + b4 + b5 + b6 +b7 + b11 + scene, data=pdata, family=binomial)
summary(simple.glm14)
drop1(simple.glm14, test="Chi")


Call:
glm(formula = answ2 ~ b1 + b3 + b4 + b5 + b6 + b7 + b11 + scene, 
    family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-5.4438  -0.0509  -0.0262  -0.0152   4.6187  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  36.17094    4.39281   8.234  < 2e-16 ***
b1           -5.78434    3.85134  -1.502  0.13312    
b3          -23.09351    8.84408  -2.611  0.00902 ** 
b4           72.35617    6.20721  11.657  < 2e-16 ***
b5           -3.48863    1.39372  -2.503  0.01231 *  
b6           33.55301    8.24377   4.070  4.7e-05 ***
b7          -83.75310    9.81167  -8.536  < 2e-16 ***
b11          -0.18271    0.01708 -10.694  < 2e-16 ***
sceneS2      -3.05746    0.21716 -14.079  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26183.7  on 50538  degrees of freedom
Residual deviance:  4112.9  on 50530  

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,4112.901,4130.901,,
b1,1.0,4115.1544676,4131.1544676,2.2539431,0.1332744
b3,1.0,4119.748,4135.748,6.847703,0.00887553
b4,1.0,4254.2,4270.2,141.2991,1.384008e-32
b5,1.0,4119.240989,4135.240989,6.3404644,0.0118014
b6,1.0,4129.821,4145.821,16.92082,3.897174e-05
b7,1.0,4191.1,4207.1,78.19986,9.312502999999998e-19
b11,1.0,4221.65,4237.65,108.7494,1.8415520000000002e-25
scene,1.0,4333.768,4349.768,220.8676,5.849798999999999e-50


In [42]:
simple.glm15 = glm(answ2 ~ b3 + b4 + b5 + b6 +b7 + b11 + scene, data=pdata, family=binomial)
summary(simple.glm15)
drop1(simple.glm15, test="Chi")


Call:
glm(formula = answ2 ~ b3 + b4 + b5 + b6 + b7 + b11 + scene, family = binomial, 
    data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-5.4249  -0.0506  -0.0259  -0.0150   4.6135  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  34.01617    4.14562   8.205 2.30e-16 ***
b3          -32.34756    6.36748  -5.080 3.77e-07 ***
b4           74.41082    6.05557  12.288  < 2e-16 ***
b5           -2.15573    1.06873  -2.017 0.043685 *  
b6           30.29606    7.90794   3.831 0.000128 ***
b7          -80.01316    9.42609  -8.488  < 2e-16 ***
b11          -0.17615    0.01649 -10.679  < 2e-16 ***
sceneS2      -3.14354    0.20940 -15.012  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26183.7  on 50538  degrees of freedom
Residual deviance:  4115.2  on 50531  degrees of freedom
AIC: 4131.2

Number of Fisher Scoring it

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,4115.154,4131.154,,
b3,1.0,4140.997,4154.997,25.84229,3.704807e-07
b4,1.0,4273.135,4287.135,157.9808,3.124854e-36
b5,1.0,4119.261,4133.261,4.106518,0.04271824
b6,1.0,4130.038,4144.038,14.88334,0.0001143688
b7,1.0,4191.505,4205.505,76.35068,2.3750960000000002e-18
b11,1.0,4222.762,4236.762,107.6074,3.2766370000000002e-25
scene,1.0,4373.083,4387.083,257.9285,4.853573e-58


In [43]:
simple.glm16 = glm(answ2 ~ b3 + b4 + b6 +b7 + b11 + scene, data=pdata, family=binomial)
summary(simple.glm16)
drop1(simple.glm16, test="Chi")


Call:
glm(formula = answ2 ~ b3 + b4 + b6 + b7 + b11 + scene, family = binomial, 
    data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-5.3954  -0.0504  -0.0255  -0.0148   4.5795  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  34.19077    4.12776   8.283  < 2e-16 ***
b3          -25.06529    5.25553  -4.769 1.85e-06 ***
b4           66.09273    4.42352  14.941  < 2e-16 ***
b6           28.22973    7.78989   3.624  0.00029 ***
b7          -78.21511    9.32161  -8.391  < 2e-16 ***
b11          -0.17823    0.01639 -10.873  < 2e-16 ***
sceneS2      -3.10642    0.20840 -14.906  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26183.7  on 50538  degrees of freedom
Residual deviance:  4119.3  on 50532  degrees of freedom
AIC: 4133.3

Number of Fisher Scoring iterations: 9


: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,4119.261,4133.261,,
b3,1.0,4142.048,4154.048,22.78739,1.809492e-06
b4,1.0,4355.058,4367.058,235.797,3.244709e-53
b6,1.0,4132.546,4144.546,13.28467,0.0002675846
b7,1.0,4193.61,4205.61,74.34896,6.54596e-18
b11,1.0,4231.264,4243.264,112.0034,3.5669819999999997e-26
scene,1.0,4373.469,4385.469,254.2077,3.141538e-57


Здесь также, как и в предыдущем случае, остались переменные, зависящие от сцены. У данной модели AIC равен 4133.3. Построим модель, в которой не будет тепловых каналов и идентификатора сцены.

In [48]:
simple.glm17 = glm(answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 +b7, data=pdata, family=binomial)
summary(simple.glm17)
drop1(simple.glm17, test="Chi")


Call:
glm(formula = answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7, family = binomial, 
    data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-5.6076  -0.0759  -0.0432  -0.0320   3.6605  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -4.730      0.426 -11.103  < 2e-16 ***
b1           -57.366      9.232  -6.213 5.18e-10 ***
b2            46.454     10.064   4.616 3.91e-06 ***
b3           -23.972      8.120  -2.952  0.00316 ** 
b4            67.635      5.946  11.375  < 2e-16 ***
b5            -7.566      1.342  -5.638 1.72e-08 ***
b6           -12.266      7.752  -1.582  0.11357    
b7           -25.834      9.313  -2.774  0.00554 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26183.7  on 50538  degrees of freedom
Residual deviance:  5135.5  on 50531  degrees of freedom
AIC: 5151.5

Number of Fisher Scoring iterations: 8


: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,5135.475,5151.475,,
b1,1.0,5174.659,5188.659,39.18435,3.856181e-10
b2,1.0,5156.883,5170.883,21.40826,3.711685e-06
b3,1.0,5144.243,5158.243,8.768644,0.003064533
b4,1.0,5270.597,5284.597,135.1221,3.1048080000000003e-31
b5,1.0,5168.265,5182.265,32.78981,1.026816e-08
b6,1.0,5137.9712192,5151.9712192,2.4965271,0.1140977
b7,1.0,5143.285,5157.285,7.809859,0.005196196


In [49]:
simple.glm18 = glm(answ2 ~ b1 + b2 + b3 + b4 + b5 +b7, data=pdata, family=binomial)
summary(simple.glm18)
drop1(simple.glm18, test="Chi")


Call:
glm(formula = answ2 ~ b1 + b2 + b3 + b4 + b5 + b7, family = binomial, 
    data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-5.6318  -0.0763  -0.0435  -0.0324   3.6541  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -4.6623     0.4245 -10.984  < 2e-16 ***
b1          -60.6583     9.0127  -6.730 1.69e-11 ***
b2           48.9352     9.9530   4.917 8.81e-07 ***
b3          -21.1969     7.9413  -2.669   0.0076 ** 
b4           66.8803     5.9383  11.263  < 2e-16 ***
b5           -8.1754     1.2890  -6.342 2.26e-10 ***
b7          -40.4613     1.2929 -31.296  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26184  on 50538  degrees of freedom
Residual deviance:  5138  on 50532  degrees of freedom
AIC: 5152

Number of Fisher Scoring iterations: 8


: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,5137.971,5151.971,,
b1,1.0,5183.923,5195.923,45.95177,1.212001e-11
b2,1.0,5162.247,5174.247,24.27528,8.350384e-07
b3,1.0,5145.148,5157.148,7.17687,0.007384942
b4,1.0,5270.858,5282.858,132.8873,9.569505e-31
b5,1.0,5179.596,5191.596,41.62431,1.106093e-10
b7,1.0,7193.12,7205.12,2055.149,0.0


Итак оптимальный набор переменных: b1, b2, b3, b4, b5, b7. AIC: 5152 (для сравнения: AIC у simple.glm16 равен 4133.3).

<a id='SnowValidation1'></a>
##### Валидация модели

In [51]:
E18 = resid(simple.glm18, type="response")
ER18 = data.frame(err=E18, fitted=simple.glm18$fitted.values, 
                b1=pdata$b1, b2=pdata$b2, b3=pdata$b3, b4=pdata$b4, b5=pdata$b5, b6=pdata$b6, 
                b7=pdata$b7, b9=pdata$b9, b10=pdata$b10, b11=pdata$b11, scene=pdata$scene)

# Сортируем по порядку прогнозируемых величин
ER18 = ER18[order(ER18$fitted), ]

# Разбиваем на группы
group_size = 100
ER18 = cbind(id=(1:length(ER18$fitted))%/% group_size, ER18)
# Вычислим среднее значение ошибки в каждой группе и поместим в таблицу
lookup_table = aggregate(ER18['err'], by=list(ER18$id), FUN=mean)
names(lookup_table) = c('id', 'err')

# Создадим вектор из средний значений ошибок 
a = sapply(ER18$id, function(id){lookup_table[lookup_table$id==id, 'err']})

ER18 = cbind(ER18, mean.err=a)


png("Img/CMASK/glm18_res_fitted_srt.png", width=728, height=728, units="px")
  plot(ER18$fitted, ER18$mean.err, cex=0.1)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/glm18_res_fitted_srt.png">

Как и ранее, в остатках очень нехорошее поведение -- для средних значений прогнозных величин остатки имеют тенденцию увеличиваться.

Зависимость остатков от объясняющих переменных:

In [52]:
png("Img/CMASK/glm18_res_bXX_srt.png", width=728, height=728, units="px")
    par(mfrow = c(3, 4))
    plot(ER18$b1, ER18$mean.err, cex=0.1)
    plot(ER18$b2, ER18$mean.err, cex=0.1)
    plot(ER18$b3, ER18$mean.err, cex=0.1)
    plot(ER18$b4, ER18$mean.err, cex=0.1)

    plot(ER18$b5, ER18$mean.err, cex=0.1)
    plot(ER18$b6, ER18$mean.err, cex=0.1)
    plot(ER18$b7, ER18$mean.err, cex=0.1)

    plot(ER18$b9, ER18$mean.err, cex=0.1)

    plot(ER18$b10, ER18$mean.err, cex=0.1)
    plot(ER18$b11, ER18$mean.err, cex=0.1)

    boxplot(ER18$mean.err ~ ER18$scene, cex=0.1)

    par(opar)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/glm18_res_bXX_srt.png">

В целом графики остатков чуть хуже, чем для модели облачности. В частности, видно, что остатки для второй сцены имеют больший разброс, чем для первой, заметны также некоторые закономерности в размещении остатков в зависимости от значений объясняющих переменных. Например, для значений b5 из диапазона 0.6--0.8 остатки с большой вероятностью будут отрицательными. Аналогичные проблемы видны в b3, b4 и b9, но 9-й канал у нас не используется в модели, поскольку температура очень сильно колеблется от сцены к сцене.

<a id='SnowModel2'></a>
#### Построение модели-2

Поскольку модель, построенная в предыдущем разделе показывает не очень хорошее поведение остатков в зависимости от объясняющих переменных, попробуем ее улучшить. Для этого добавим в модель квадратичные члены для b3, b4, b5 и посмотрим, улучшится ли модель.

In [53]:
simple.glm19 = glm(answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 +b7 + I(b3^2) + I(b4^2) + I(b5^2), data=pdata, family=binomial)
summary(simple.glm19)
drop1(simple.glm19, test="Chi")


Call:
glm(formula = answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + I(b3^2) + 
    I(b4^2) + I(b5^2), family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.3219  -0.0398  -0.0139  -0.0065   4.5141  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -8.1972     0.6243 -13.130  < 2e-16 ***
b1           -94.5588     8.8780 -10.651  < 2e-16 ***
b2            76.7963     9.9764   7.698 1.38e-14 ***
b3             7.1260    11.9593   0.596   0.5513    
b4           118.2437    10.6754  11.076  < 2e-16 ***
b5           -48.2176     4.7824 -10.082  < 2e-16 ***
b6             6.2635     7.2951   0.859   0.3906    
b7           -38.3978     8.6063  -4.462 8.13e-06 ***
I(b3^2)       19.9117     8.5997   2.315   0.0206 *  
I(b4^2)     -109.8865     8.7341 -12.581  < 2e-16 ***
I(b5^2)       39.3102     4.8756   8.063 7.47e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter fo

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,4383.646,4405.646,,
b1,1.0,4501.077,4521.077,117.4315,2.309395e-27
b2,1.0,4443.611,4463.611,59.96528,9.654562e-15
b3,1.0,4384.0004338,4404.0004338,0.354928,0.5513367
b4,1.0,4507.22,4527.22,123.5748,1.0437640000000001e-28
b5,1.0,4497.308,4517.308,113.6623,1.5450239999999998e-26
b6,1.0,4384.3836678,4404.3836678,0.7381619,0.3902503
b7,1.0,4404.078,4424.078,20.43274,6.176414e-06
I(b3^2),1.0,4388.833,4408.833,5.187063,0.02275564
I(b4^2),1.0,4521.703,4541.703,138.0578,7.078595e-32


In [54]:
simple.glm20 = glm(answ2 ~ b1 + b2 + b4 + b5 + b6 +b7 + I(b3^2) + I(b4^2) + I(b5^2), data=pdata, family=binomial)
summary(simple.glm20)
drop1(simple.glm20, test="Chi")


Call:
glm(formula = answ2 ~ b1 + b2 + b4 + b5 + b6 + b7 + I(b3^2) + 
    I(b4^2) + I(b5^2), family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.3308  -0.0398  -0.0140  -0.0065   4.5190  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -8.0645     0.5821 -13.854  < 2e-16 ***
b1           -92.7050     8.3211 -11.141  < 2e-16 ***
b2            75.8724     9.8649   7.691 1.46e-14 ***
b4           123.5774     5.8349  21.179  < 2e-16 ***
b5           -48.7298     4.7049 -10.357  < 2e-16 ***
b6             5.6561     7.2329   0.782    0.434    
b7           -37.7132     8.5405  -4.416 1.01e-05 ***
I(b3^2)       24.1449     4.8031   5.027 4.98e-07 ***
I(b4^2)     -113.1112     6.8502 -16.512  < 2e-16 ***
I(b5^2)       39.8459     4.7905   8.318  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26184 

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,4384.0,4404.0,,
b1,1.0,4514.639,4532.639,130.6385,2.9706429999999998e-30
b2,1.0,4444.088,4462.088,60.0874,9.073754e-15
b4,1.0,4960.808,4978.808,576.8075,1.855752e-127
b5,1.0,4505.077,4523.077,121.0762,3.6772450000000004e-28
b6,1.0,4384.6130013,4402.6130013,0.6125675,0.4338228
b7,1.0,4404.083,4422.083,20.08251,7.417181e-06
I(b3^2),1.0,4409.985,4427.985,25.98474,3.441267e-07
I(b4^2),1.0,4646.765,4664.765,262.7642,4.285389e-59
I(b5^2),1.0,4461.275,4479.275,77.27437,1.487845e-18


In [55]:
simple.glm21 = glm(answ2 ~ b1 + b2 + b4 + b5 +b7 + I(b3^2) + I(b4^2) + I(b5^2), data=pdata, family=binomial)
summary(simple.glm21)
drop1(simple.glm21, test="Chi")


Call:
glm(formula = answ2 ~ b1 + b2 + b4 + b5 + b7 + I(b3^2) + I(b4^2) + 
    I(b5^2), family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.3185  -0.0398  -0.0140  -0.0065   4.5174  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -8.091      0.581 -13.927  < 2e-16 ***
b1           -91.610      8.187 -11.190  < 2e-16 ***
b2            74.884      9.772   7.663 1.81e-14 ***
b4           122.713      5.717  21.464  < 2e-16 ***
b5           -48.133      4.638 -10.379  < 2e-16 ***
b7           -31.108      1.167 -26.648  < 2e-16 ***
I(b3^2)       23.435      4.687   5.000 5.74e-07 ***
I(b4^2)     -112.092      6.706 -16.716  < 2e-16 ***
I(b5^2)       39.501      4.769   8.283  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26183.7  on 50538  degrees of freedom
Residual deviance:  4384.6  on 50530 

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,4384.613,4402.613,,
b1,1.0,4515.572,4531.572,130.9591,2.527597e-30
b2,1.0,4444.103,4460.103,59.4896,1.229423e-14
b4,1.0,4975.129,4991.129,590.516,1.934956e-130
b5,1.0,4506.136,4522.136,121.523,2.935795e-28
b7,1.0,6054.201,6070.201,1669.588,0.0
I(b3^2),1.0,4409.987,4425.987,25.37362,4.723338e-07
I(b4^2),1.0,4648.852,4664.852,264.2395,2.043795e-59
I(b5^2),1.0,4461.277,4477.277,76.66359,2.027064e-18


Итак новый оптимальный набор переменных: b1, b2, b3, b4, b5, b7 и квадратичные члены каналов b3, b4, b5. AIC модели значительно улучшился, дойдя до значения 4402.6 (для сравнения: AIC у simple.glm16 равен 4133.3).

<a id='SnowValidation2'></a>
##### Валидация модели-2

In [56]:
E21 = resid(simple.glm21, type="response")
ER21 = data.frame(err=E21, fitted=simple.glm21$fitted.values, 
                b1=pdata$b1, b2=pdata$b2, b3=pdata$b3, b4=pdata$b4, b5=pdata$b5, b6=pdata$b6, 
                b7=pdata$b7, b9=pdata$b9, b10=pdata$b10, b11=pdata$b11, scene=pdata$scene)

# Сортируем по порядку прогнозируемых величин
ER21 = ER21[order(ER21$fitted), ]

# Разбиваем на группы
group_size = 100
ER21 = cbind(id=(1:length(ER21$fitted))%/% group_size, ER21)
# Вычислим среднее значение ошибки в каждой группе и поместим в таблицу
lookup_table = aggregate(ER21['err'], by=list(ER21$id), FUN=mean)
names(lookup_table) = c('id', 'err')

# Создадим вектор из средний значений ошибок 
a = sapply(ER21$id, function(id){lookup_table[lookup_table$id==id, 'err']})

ER21 = cbind(ER21, mean.err=a)


png("Img/CMASK/glm21_res_fitted_srt.png", width=728, height=728, units="px")
  plot(ER21$fitted, ER21$mean.err, cex=0.1)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/glm21_res_fitted_srt.png">

Проблемы подгонки модели сохранились: остатки для средних значений прогнозируемой величины положительны, а для низких и высоких величин -- отрицательны.

Посмотрим на зависимость остатков от объясняющих переменных.

In [57]:
png("Img/CMASK/glm21_res_bXX_srt.png", width=728, height=728, units="px")
    par(mfrow = c(3, 4))
    plot(ER21$b1, ER21$mean.err, cex=0.1)
    plot(ER21$b2, ER21$mean.err, cex=0.1)
    plot(ER21$b3, ER21$mean.err, cex=0.1)
    plot(ER21$b4, ER21$mean.err, cex=0.1)

    plot(ER21$b5, ER21$mean.err, cex=0.1)
    plot(ER21$b6, ER21$mean.err, cex=0.1)
    plot(ER21$b7, ER21$mean.err, cex=0.1)

    plot(ER21$b9, ER21$mean.err, cex=0.1)

    plot(ER21$b10, ER21$mean.err, cex=0.1)
    plot(ER21$b11, ER21$mean.err, cex=0.1)

    boxplot(ER21$mean.err ~ ER21$scene, cex=0.1)

    par(opar)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/glm21_res_bXX_srt.png">

Несмотря на то, что численно новая модель показывает более хорошее поведение, чем simple.glm18, проблема в зависимости остатков от объясняющих переменных в новой модели не изчезла: на графиках видны все те же проблемы, что и ранее.

<a id='SnowModel3'></a>
#### Построение модели-3

Посмотрим, как будет влиять на качество модели добавление членов, описывающих взаимодействие между переменными. Начнем с модели, содержащей все члены и будем постепенно избавляться от незначащих коэффициентов.

In [59]:
simple.glm22 = glm(answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + 
                   b1:b2 + b1:b3 + b1:b4 + b1:b5 + b1:b6 + b1:b7 +
                   b2:b3 + b2:b4 + b2:b5 + b2:b6 + b2:b7 +
                   b3:b4 + b3:b5 + b3:b6 + b3:b7+
                   b4:b5 + b4:b6 + b4:b7 +
                   b5:b6 + b5:b7 +
                   b6:b7, 
                   data=pdata, family=binomial)
summary(simple.glm22)
drop1(simple.glm22, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + b1:b2 + 
    b1:b3 + b1:b4 + b1:b5 + b1:b6 + b1:b7 + b2:b3 + b2:b4 + b2:b5 + 
    b2:b6 + b2:b7 + b3:b4 + b3:b5 + b3:b6 + b3:b7 + b4:b5 + b4:b6 + 
    b4:b7 + b5:b6 + b5:b7 + b6:b7, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.4512  -0.0201  -0.0042  -0.0013   4.6723  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -27.278      3.223  -8.464  < 2e-16 ***
b1            110.583     61.932   1.786 0.074172 .  
b2            -84.763     76.813  -1.103 0.269813    
b3             57.737     80.208   0.720 0.471617    
b4             76.813     50.301   1.527 0.126741    
b5            -27.402     11.332  -2.418 0.015603 *  
b6           -386.755     95.589  -4.046 5.21e-05 ***
b7            433.011    115.792   3.740 0.000184 ***
b1:b2         113.433    153.215   0.740 0.459089    
b1:b3       -1243.721    794.490  -1.565 0.117481   

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,3866.176,3924.176,,
b1:b2,1.0,3866.7291358,3922.7291358,0.5528413,0.4571591
b1:b3,1.0,3868.6985404,3924.6985404,2.5222458,0.1122506
b1:b4,1.0,3868.4555489,3924.4555489,2.2792543,0.1311149
b1:b5,1.0,3870.411,3926.411,4.234946,0.03959989
b1:b6,1.0,3882.187,3938.187,16.01057,6.298984e-05
b1:b7,1.0,3880.179,3936.179,14.00295,0.0001825245
b2:b3,1.0,3867.7967063,3923.7967063,1.6204117,0.2030344
b2:b4,1.0,3868.936,3924.936,2.759903,0.09665409
b2:b5,1.0,3870.635,3926.635,4.458361,0.03473081


Выкинем взаимодействие b4 и b7:

In [61]:
simple.glm23 = glm(answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + 
                   b1:b2 + b1:b3 + b1:b4 + b1:b5 + b1:b6 + b1:b7 +
                   b2:b3 + b2:b4 + b2:b5 + b2:b6 + b2:b7 +
                   b3:b4 + b3:b5 + b3:b6 + b3:b7+
                   b4:b5 + b4:b6 + 
                   b5:b6 + b5:b7 +
                   b6:b7, 
                   data=pdata, family=binomial)
summary(simple.glm23)
drop1(simple.glm23, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + b1:b2 + 
    b1:b3 + b1:b4 + b1:b5 + b1:b6 + b1:b7 + b2:b3 + b2:b4 + b2:b5 + 
    b2:b6 + b2:b7 + b3:b4 + b3:b5 + b3:b6 + b3:b7 + b4:b5 + b4:b6 + 
    b5:b6 + b5:b7 + b6:b7, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.4510  -0.0201  -0.0042  -0.0013   4.6711  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -27.25       3.20  -8.515  < 2e-16 ***
b1            110.68      61.88   1.789 0.073655 .  
b2            -84.92      76.77  -1.106 0.268657    
b3             56.53      79.06   0.715 0.474641    
b4             78.03      48.44   1.611 0.107209    
b5            -27.61      11.08  -2.493 0.012666 *  
b6           -388.00      94.62  -4.101 4.12e-05 ***
b7            434.43     114.76   3.786 0.000153 ***
b1:b2         111.90     152.17   0.735 0.462132    
b1:b3       -1229.89     778.52  -1.580 0.114158    
b1:b4        1012

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,3866.184,3922.184,,
b1:b2,1.0,3866.7292953,3920.7292953,0.5448302,0.4604378
b1:b3,1.0,3868.7309681,3922.7309681,2.5465029,0.1105387
b1:b4,1.0,3868.5177606,3922.5177606,2.3332954,0.1266335
b1:b5,1.0,3870.469,3924.469,4.284563,0.03845998
b1:b6,1.0,3883.862,3937.862,17.67717,2.617498e-05
b1:b7,1.0,3881.677,3935.677,15.49285,8.281815e-05
b2:b3,1.0,3867.798419,3921.798419,1.613953,0.203937
b2:b4,1.0,3868.983,3922.983,2.798285,0.09436521
b2:b5,1.0,3870.7075391,3924.7075391,4.5230739,0.0334407


In [71]:
simple.glm24 = glm(answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + 
                   b1:b2 + b1:b3 + b1:b4 + b1:b5 + b1:b6 + b1:b7 +
                   b2:b3 + b2:b4 + b2:b5 + b2:b6 + b2:b7 +
                   b3:b4 +         b3:b6 + b3:b7+
                   b4:b5 + b4:b6 + 
                   b5:b6 + b5:b7 +
                   b6:b7, 
                   data=pdata, family=binomial)
summary(simple.glm24)
drop1(simple.glm24, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + b1:b2 + 
    b1:b3 + b1:b4 + b1:b5 + b1:b6 + b1:b7 + b2:b3 + b2:b4 + b2:b5 + 
    b2:b6 + b2:b7 + b3:b4 + b3:b6 + b3:b7 + b4:b5 + b4:b6 + b5:b6 + 
    b5:b7 + b6:b7, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.4702  -0.0201  -0.0042  -0.0013   4.6733  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -27.208      3.175  -8.571  < 2e-16 ***
b1            107.130     60.470   1.772  0.07646 .  
b2            -76.799     72.775  -1.055  0.29129    
b3             46.865     73.693   0.636  0.52481    
b4             81.923     46.901   1.747  0.08069 .  
b5            -27.520     11.003  -2.501  0.01238 *  
b6           -388.401     94.499  -4.110 3.95e-05 ***
b7            434.567    114.615   3.792  0.00015 ***
b1:b2          99.147    147.270   0.673  0.50080    
b1:b3       -1084.735    652.319  -1.663  0.09633 .  
b1:b4         

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,3866.304,3920.304,,
b1:b2,1.0,3866.7599748,3918.7599748,0.4559029,0.499545
b1:b3,1.0,3869.074,3921.074,2.769765,0.09606025
b1:b4,1.0,3868.6804496,3920.6804496,2.3763776,0.1231829
b1:b5,1.0,3870.66,3922.66,4.356334,0.03687157
b1:b6,1.0,3884.327,3936.327,18.02313,2.182375e-05
b1:b7,1.0,3882.001,3934.001,15.69655,7.435981e-05
b2:b3,1.0,3868.0073137,3920.0073137,1.7032417,0.1918646
b2:b4,1.0,3869.656,3921.656,3.351529,0.06714263
b2:b5,1.0,3870.742,3922.742,4.437662,0.03515436


In [72]:
simple.glm25 = glm(answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + 
                           b1:b3 + b1:b4 + b1:b5 + b1:b6 + b1:b7 +
                   b2:b3 + b2:b4 + b2:b5 + b2:b6 + b2:b7 +
                   b3:b4 +         b3:b6 + b3:b7+
                   b4:b5 + b4:b6 + 
                   b5:b6 + b5:b7 +
                   b6:b7, 
                   data=pdata, family=binomial)
summary(simple.glm25)
drop1(simple.glm25, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + b1:b3 + 
    b1:b4 + b1:b5 + b1:b6 + b1:b7 + b2:b3 + b2:b4 + b2:b5 + b2:b6 + 
    b2:b7 + b3:b4 + +b3:b6 + b3:b7 + b4:b5 + b4:b6 + b5:b6 + 
    b5:b7 + b6:b7, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.4503  -0.0200  -0.0042  -0.0013   4.6730  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -28.231      2.798 -10.090  < 2e-16 ***
b1            113.760     60.265   1.888 0.059070 .  
b2            -58.513     67.586  -0.866 0.386627    
b3             16.468     58.235   0.283 0.777337    
b4             85.498     46.607   1.834 0.066586 .  
b5            -25.017     10.285  -2.432 0.015002 *  
b6           -382.304     94.033  -4.066 4.79e-05 ***
b7            430.699    114.427   3.764 0.000167 ***
b1:b3        -965.089    628.694  -1.535 0.124767    
b1:b4         845.621    574.794   1.471 0.141244    
b1:b5        -354.168

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,3866.76,3918.76,,
b1:b3,1.0,3869.1229698,3919.1229698,2.3629949,0.1242435
b1:b4,1.0,3868.8894687,3918.8894687,2.1294939,0.1444885
b1:b5,1.0,3870.679,3920.679,3.919339,0.04773366
b1:b6,1.0,3884.343,3934.343,17.58296,2.750418e-05
b1:b7,1.0,3882.086,3932.086,15.32584,9.047043e-05
b2:b3,1.0,3868.5935228,3918.5935228,1.833548,0.1757091
b2:b4,1.0,3869.676,3919.676,2.916182,0.08769515
b2:b5,1.0,3870.803,3920.803,4.043187,0.04434998
b2:b6,1.0,3876.692,3926.692,9.932245,0.001624083


In [73]:
simple.glm26 = glm(answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + 
                           b1:b3 + b1:b4 + b1:b5 + b1:b6 + b1:b7 +
                   b2:b3 + b2:b4 + b2:b5 + b2:b6 + b2:b7 +
                                   b3:b6 + b3:b7+
                   b4:b5 + b4:b6 + 
                   b5:b6 + b5:b7 +
                   b6:b7, 
                   data=pdata, family=binomial)
summary(simple.glm26)
drop1(simple.glm26, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + +b1:b3 + 
    b1:b4 + b1:b5 + b1:b6 + b1:b7 + b2:b3 + b2:b4 + b2:b5 + b2:b6 + 
    b2:b7 + b3:b6 + b3:b7 + b4:b5 + b4:b6 + b5:b6 + b5:b7 + b6:b7, 
    family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.4021  -0.0202  -0.0043  -0.0013   4.6661  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -27.880      2.654 -10.505  < 2e-16 ***
b1            120.375     59.245   2.032 0.042173 *  
b2            -77.897     64.163  -1.214 0.224730    
b3             39.131     53.241   0.735 0.462359    
b4             77.917     46.230   1.685 0.091909 .  
b5            -27.494      9.635  -2.854 0.004323 ** 
b6           -394.217     93.302  -4.225 2.39e-05 ***
b7            448.293    113.221   3.959 7.51e-05 ***
b1:b3       -1049.421    628.814  -1.669 0.095139 .  
b1:b4         809.498    576.625   1.404 0.160361    
b1:b5        -257.386    152.

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,3868.019,3918.019,,
b1:b3,1.0,3870.8450601,3918.8450601,2.8263013,0.0927317
b1:b4,1.0,3869.9748339,3917.9748339,1.9560751,0.1619337
b1:b5,1.0,3870.747,3918.747,2.727912,0.09860813
b1:b6,1.0,3885.137,3933.137,17.11816,3.512481e-05
b1:b7,1.0,3883.301,3931.301,15.28259,9.256558e-05
b2:b3,1.0,3870.398028,3918.398028,2.379269,0.122955
b2:b4,1.0,3870.4156007,3918.4156007,2.3968419,0.1215805
b2:b5,1.0,3870.813,3918.813,2.79415,0.09460892
b2:b6,1.0,3876.887,3924.887,8.868206,0.002901801


In [74]:
simple.glm27 = glm(answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + 
                           b1:b3 + b1:b4 + b1:b5 + b1:b6 + b1:b7 +
                   b2:b3 + b2:b4 + b2:b5 + b2:b6 + b2:b7 +
                                    b3:b6 + b3:b7+
                           b4:b6 + 
                   b5:b6 + b5:b7 +
                   b6:b7, 
                   data=pdata, family=binomial)
summary(simple.glm27)
drop1(simple.glm27, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + b1:b3 + 
    b1:b4 + b1:b5 + b1:b6 + b1:b7 + b2:b3 + b2:b4 + b2:b5 + b2:b6 + 
    b2:b7 + b3:b6 + b3:b7 + b4:b6 + b5:b6 + b5:b7 + b6:b7, family = binomial, 
    data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.4811  -0.0203  -0.0043  -0.0013   4.6742  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -27.635      2.648 -10.436  < 2e-16 ***
b1            104.893     56.335   1.862 0.062607 .  
b2            -54.790     58.429  -0.938 0.348389    
b3             31.392     52.739   0.595 0.551694    
b4             77.519     46.472   1.668 0.095302 .  
b5            -29.055      9.584  -3.032 0.002433 ** 
b6           -394.350     93.382  -4.223 2.41e-05 ***
b7            450.126    113.312   3.972 7.11e-05 ***
b1:b3       -1120.630    617.564  -1.815 0.069586 .  
b1:b4         853.754    571.147   1.495 0.134965    
b1:b5        -184.234    132.247  -1.3

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,3868.813,3916.813,,
b1:b3,1.0,3872.167,3918.167,3.353503,0.06706216
b1:b4,1.0,3871.0160396,3917.0160396,2.2028431,0.1377565
b1:b5,1.0,3870.7473697,3916.7473697,1.9341732,0.1643026
b1:b6,1.0,3886.203,3932.203,17.39024,3.043858e-05
b1:b7,1.0,3885.062,3931.062,16.24876,5.554602e-05
b2:b3,1.0,3871.918,3917.918,3.104986,0.07805288
b2:b4,1.0,3871.7105629,3917.7105629,2.8973664,0.0887244
b2:b5,1.0,3870.913427,3916.913427,2.1002305,0.1472769
b2:b6,1.0,3878.064,3924.064,9.250584,0.002354204


In [75]:
simple.glm28 = glm(answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + 
                           b1:b3 + b1:b4 +          b1:b6 + b1:b7 +
                   b2:b3 + b2:b4 + b2:b5 + b2:b6 + b2:b7 +
                                   b3:b6 + b3:b7+
                           b4:b6 + 
                   b5:b6 + b5:b7 +
                   b6:b7, 
                   data=pdata, family=binomial)
summary(simple.glm28)
drop1(simple.glm28, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + b1:b3 + 
    b1:b4 + b1:b6 + b1:b7 + b2:b3 + b2:b4 + b2:b5 + b2:b6 + b2:b7 + 
    b3:b6 + b3:b7 + b4:b6 + b5:b6 + b5:b7 + b6:b7, family = binomial, 
    data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.4772  -0.0204  -0.0043  -0.0013   4.6240  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -27.043      2.712  -9.971  < 2e-16 ***
b1             86.737     56.768   1.528 0.126531    
b2            -37.374     58.757  -0.636 0.524726    
b3             10.223     50.454   0.203 0.839438    
b4            100.548     43.434   2.315 0.020614 *  
b5            -33.760      9.284  -3.636 0.000277 ***
b6           -394.275     93.274  -4.227 2.37e-05 ***
b7            450.040    113.191   3.976 7.01e-05 ***
b1:b3        -664.799    528.779  -1.257 0.208668    
b1:b4         276.997    400.789   0.691 0.489485    
b1:b6        6212.489   1480.506   4.196 2.71e

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,3870.747,3916.747,,
b1:b3,1.0,3872.3713167,3916.3713167,1.623947,0.2025423
b1:b4,1.0,3871.2249435,3915.2249435,0.4775738,0.4895233
b1:b6,1.0,3887.734,3931.734,16.98623,3.765184e-05
b1:b7,1.0,3886.91,3930.91,16.16224,5.814171e-05
b2:b3,1.0,3872.2045051,3916.2045051,1.4571354,0.2273865
b2:b4,1.0,3871.774665,3915.774665,1.0272953,0.3107948
b2:b5,1.0,3870.9248991,3914.9248991,0.1775294,0.6735051
b2:b6,1.0,3879.677,3923.677,8.929364,0.002806221
b2:b7,1.0,3879.639,3923.639,8.891892,0.002864398


In [76]:
simple.glm29 = glm(answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + 
                           b1:b3 + b1:b4 +          b1:b6 + b1:b7 +
                   b2:b3 + b2:b4 +         b2:b6 + b2:b7 +
                                   b3:b6 + b3:b7+
                           b4:b6 + 
                   b5:b6 + b5:b7 +
                   b6:b7, 
                   data=pdata, family=binomial)
summary(simple.glm29)
drop1(simple.glm29, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + b1:b3 + 
    b1:b4 + b1:b6 + b1:b7 + b2:b3 + b2:b4 + b2:b6 + b2:b7 + b3:b6 + 
    b3:b7 + b4:b6 + b5:b6 + b5:b7 + b6:b7, family = binomial, 
    data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.4549  -0.0203  -0.0043  -0.0013   4.6141  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -27.728      2.217 -12.508  < 2e-16 ***
b1             94.808     54.444   1.741 0.081617 .  
b2            -44.803     56.823  -0.788 0.430422    
b3             18.889     46.078   0.410 0.681856    
b4             92.145     38.544   2.391 0.016818 *  
b5            -30.457      5.123  -5.946 2.75e-09 ***
b6           -384.416     90.517  -4.247 2.17e-05 ***
b7            436.976    109.193   4.002 6.28e-05 ***
b1:b3        -741.330    499.490  -1.484 0.137762    
b1:b4         319.658    389.606   0.820 0.411951    
b1:b6        6033.430   1420.333   4.248 2.16e-05 ***


: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,3870.925,3914.925,,
b1:b3,1.0,3873.1378988,3915.1378988,2.2129997,0.1368523
b1:b4,1.0,3871.5941222,3913.5941222,0.6692231,0.4133226
b1:b6,1.0,3888.397,3930.397,17.47205,2.915622e-05
b1:b7,1.0,3887.508,3929.508,16.58322,4.656112e-05
b2:b3,1.0,3872.741901,3914.741901,1.8170019,0.1776706
b2:b4,1.0,3872.0501138,3914.0501138,1.1252147,0.2887984
b2:b6,1.0,3879.813,3921.813,8.888473,0.002869766
b2:b7,1.0,3879.719,3921.719,8.794342,0.003021662
b3:b6,1.0,3876.2377981,3918.2377981,5.312899,0.0211681


In [68]:
simple.glm30 = glm(answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + 
                           b1:b3 +         b1:b6 + b1:b7 +
                   b2:b3 + b2:b4 +         b2:b6 + b2:b7 +
                                   b3:b6 + b3:b7+
                           b4:b6 + 
                   b5:b6 + b5:b7 +
                   b6:b7, 
                   data=pdata, family=binomial)
summary(simple.glm30)
drop1(simple.glm30, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + +b1:b3 + 
    b1:b6 + b1:b7 + b2:b3 + b2:b4 + b2:b6 + b2:b7 + b3:b6 + b3:b7 + 
    b4:b6 + b5:b6 + b5:b7 + b6:b7, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.6181  -0.0205  -0.0043  -0.0013   4.6103  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -27.055      2.045 -13.228  < 2e-16 ***
b1             75.686     48.513   1.560 0.118736    
b2            -25.564     51.130  -0.500 0.617082    
b3              5.723     42.836   0.134 0.893717    
b4            102.164     36.238   2.819 0.004814 ** 
b5            -30.909      5.078  -6.087 1.15e-09 ***
b6           -390.731     90.072  -4.338 1.44e-05 ***
b7            441.502    108.906   4.054 5.04e-05 ***
b1:b3        -347.468    132.789  -2.617 0.008879 ** 
b1:b6        6243.856   1399.967   4.460 8.20e-06 ***
b1:b7       -7226.277   1695.947  -4.261 2.04e-05 ***
b2:b3       

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,3871.594,3913.594,,
b1:b3,1.0,3880.972,3920.972,9.377737,0.002196365
b1:b6,1.0,3890.858,3930.858,19.26417,1.138222e-05
b1:b7,1.0,3889.298,3929.298,17.7039,2.58097e-05
b2:b3,1.0,3874.307,3914.307,2.713121,0.09952609
b2:b4,1.0,3873.2736451,3913.2736451,1.6795229,0.1949879
b2:b6,1.0,3881.522,3921.522,9.927394,0.001628369
b2:b7,1.0,3881.009,3921.009,9.415305,0.002151817
b3:b6,1.0,3876.695,3916.695,5.100386,0.02392052
b3:b7,1.0,3877.991,3917.991,6.396965,0.01143156


In [77]:
simple.glm31 = glm(answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + 
                           b1:b3 +         b1:b6 + b1:b7 +
                   b2:b3 +         b2:b6 + b2:b7 +
                                   b3:b6 + b3:b7+
                           b4:b6 + 
                   b5:b6 + b5:b7 +
                   b6:b7, 
                   data=pdata, family=binomial)
summary(simple.glm31)
drop1(simple.glm31, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + b1:b3 + 
    b1:b6 + b1:b7 + b2:b3 + b2:b6 + b2:b7 + b3:b6 + b3:b7 + b4:b6 + 
    b5:b6 + b5:b7 + b6:b7, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.7820  -0.0213  -0.0046  -0.0014   4.5718  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -26.905      1.908 -14.099  < 2e-16 ***
b1             49.157     36.630   1.342 0.179607    
b2              2.305     41.182   0.056 0.955358    
b3             41.872     27.307   1.533 0.125179    
b4             64.454     17.285   3.729 0.000192 ***
b5            -29.799      4.839  -6.158 7.39e-10 ***
b6           -406.420     85.289  -4.765 1.89e-06 ***
b7            465.817    101.209   4.603 4.17e-06 ***
b1:b3        -234.118     86.638  -2.702 0.006887 ** 
b1:b6        6535.895   1370.104   4.770 1.84e-06 ***
b1:b7       -7687.165   1634.561  -4.703 2.57e-06 ***
b2:b3          81.669

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,3873.274,3913.274,,
b1:b3,1.0,3881.385,3919.385,8.11139,0.004398799
b1:b6,1.0,3895.842,3933.842,22.56818,2.028162e-06
b1:b7,1.0,3895.738,3933.738,22.46388,2.141327e-06
b2:b3,1.0,3874.4045223,3912.4045223,1.1308771,0.2875883
b2:b6,1.0,3884.545,3922.545,11.27126,0.0007871649
b2:b7,1.0,3884.374,3922.374,11.10009,0.0008632366
b3:b6,1.0,3879.19,3917.19,5.916294,0.01500148
b3:b7,1.0,3882.873,3920.873,9.598942,0.001946895
b4:b6,1.0,3882.673,3920.673,9.399606,0.00217032


In [78]:
simple.glm32 = glm(answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + 
                           b1:b3 +         b1:b6 + b1:b7 +
                                   b2:b6 + b2:b7 +
                                   b3:b6 + b3:b7+
                           b4:b6 + 
                   b5:b6 + b5:b7 +
                   b6:b7, 
                   data=pdata, family=binomial)
summary(simple.glm32)
drop1(simple.glm32, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ2 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + b1:b3 + 
    b1:b6 + b1:b7 + b2:b6 + b2:b7 + b3:b6 + b3:b7 + b4:b6 + b5:b6 + 
    b5:b7 + b6:b7, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.5997  -0.0211  -0.0045  -0.0014   4.5748  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -26.023      1.682 -15.473  < 2e-16 ***
b1             29.625     29.427   1.007 0.314070    
b2             21.293     35.594   0.598 0.549690    
b3             34.736     25.898   1.341 0.179836    
b4             65.834     16.956   3.883 0.000103 ***
b5            -29.578      4.779  -6.190 6.03e-10 ***
b6           -441.624     76.501  -5.773 7.80e-09 ***
b7            510.671     88.710   5.757 8.58e-09 ***
b1:b3        -144.494      8.057 -17.934  < 2e-16 ***
b1:b6        7153.253   1231.782   5.807 6.35e-09 ***
b1:b7       -8498.161   1433.141  -5.930 3.03e-09 ***
b2:b6       -5533.573   1379.

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,3874.405,3912.405,,
b1:b3,1.0,4128.872,4164.872,254.4673,2.7577849999999996e-57
b1:b6,1.0,3908.466,3944.466,34.0617,5.339184e-09
b1:b7,1.0,3910.565,3946.565,36.16032,1.817337e-09
b2:b6,1.0,3889.894,3925.894,15.48929,8.297409e-05
b2:b7,1.0,3890.13,3926.13,15.7259,7.321467e-05
b3:b6,1.0,3881.29,3917.29,6.885112,0.008691664
b3:b7,1.0,3885.605,3921.605,11.20096,0.000817549
b4:b6,1.0,3885.247,3921.247,10.84249,0.0009919722
b5:b6,1.0,3927.467,3963.467,53.06237,3.231242e-13


Пришли к тому моменту, когда нет возможности выкинуть незначимые члены. Заметим, что команда `summary(simple.glm32)` говорит о том, что у коэффициенты перед b1, b2, b3 незначимы, но мы не можем убрать эти переменные, поскольку они учавствуют во взаимодействиях сдругими переменными.

Поэтому остановимся на данной модели и посмотрим, как ведут себя ее остатки.

<a id='SnowValidation3'></a>
##### Валидация модели-3

In [79]:
E32 = resid(simple.glm32, type="response")
ER32 = data.frame(err=E32, fitted=simple.glm32$fitted.values, 
                b1=pdata$b1, b2=pdata$b2, b3=pdata$b3, b4=pdata$b4, b5=pdata$b5, b6=pdata$b6, 
                b7=pdata$b7, b9=pdata$b9, b10=pdata$b10, b11=pdata$b11, scene=pdata$scene)

# Сортируем по порядку прогнозируемых величин
ER32 = ER32[order(ER32$fitted), ]

# Разбиваем на группы
group_size = 100
ER32 = cbind(id=(1:length(ER32$fitted))%/% group_size, ER32)
# Вычислим среднее значение ошибки в каждой группе и поместим в таблицу
lookup_table = aggregate(ER32['err'], by=list(ER32$id), FUN=mean)
names(lookup_table) = c('id', 'err')

# Создадим вектор из средний значений ошибок 
a = sapply(ER32$id, function(id){lookup_table[lookup_table$id==id, 'err']})

ER32 = cbind(ER32, mean.err=a)


png("Img/CMASK/glm32_res_fitted_srt.png", width=728, height=728, units="px")
  plot(ER32$fitted, ER32$mean.err, cex=0.1)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/glm32_res_fitted_srt.png">

На этом графике принципиальных улучшений не видно.

Посмотрим графики зависимостей остатков от объясняющих переменных.

In [80]:
png("Img/CMASK/glm32_res_bXX_srt.png", width=728, height=728, units="px")
    par(mfrow = c(3, 4))
    plot(ER32$b1, ER32$mean.err, cex=0.1)
    plot(ER32$b2, ER32$mean.err, cex=0.1)
    plot(ER32$b3, ER32$mean.err, cex=0.1)
    plot(ER32$b4, ER32$mean.err, cex=0.1)

    plot(ER32$b5, ER32$mean.err, cex=0.1)
    plot(ER32$b6, ER32$mean.err, cex=0.1)
    plot(ER32$b7, ER32$mean.err, cex=0.1)

    plot(ER32$b9, ER32$mean.err, cex=0.1)

    plot(ER32$b10, ER32$mean.err, cex=0.1)
    plot(ER32$b11, ER32$mean.err, cex=0.1)

    boxplot(ER32$mean.err ~ ER32$scene, cex=0.1)

    par(opar)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/glm32_res_bXX_srt.png">

На графиках видно, что закономерности в распределении остатков не исчезли, например, видна тенденция к низким значениям отстаков при низких значениях b4. У части других переменных та же самая проблема.

Таким образом, несмотря на улучшившийся AIC, снизившийся до 3912.4, нельзя сказать, что данная модель дает хорошее описание классов снег-не-снег.

<a id='SnowResume'></a>
##### Вывод

В этом разделе были построены модели логистической регрессии с различными вариантами объясняющих переменных. Наиболее точной моделью является модель `simple.glm32`. К сожалению, все модели, в том числе и `simple.glm32` показывают определенные закономерности в распределении остатков. Это говорит о том, что:

 * либо выбрана неверная статистическая модель;
 * либо выбранные объясняющие переменные не позволяют качественно отделить классы.
 
Таким образом следует или дальше пытаться подобрать переменные, включая в модель степенные члены и члены с их взаимодействием, или строить классификатор на базе других статистических моделей, а не логистической регрессии. Первый путь сопряжен с большим объемом работ, поэтому в следующем разделе будет представлена попытка построить аддитивную модель.

In [35]:
library(mgcv)

Loading required package: nlme
This is mgcv 1.7-28. For overview type 'help("mgcv-package")'.
