# Статанализ масок облаков и снега

В файл были экспортированы обучающие данные по облачности и снегу (см. https://176.9.38.120/cruncher/notebooks/deforestation/CMask_trainings.ipynb).

In [1]:
points = read.table('data/CMask_trainings/random_points.csv', header=TRUE, sep=';')

# summary(points)

Содержимое колонок:

  * cat -- идентификатор точки, в которой производились измерения;
  * l1_b1 -- l1_b11 -- данные LANDSAT8 (после атмосферной коррекции) по сцене LC81120282015365LGN00;
  * l2_b1 -- l2_b11 -- данные LANDSAT8 (после атмосферной коррекции) по сцене LC81130272015356LGN00;
  * t1, t2 -- данные по наземным объектам сцен LC81120282015365LGN00 и LC81130272015356LGN00 соответственно, значения: 1-облака;2-снег;3-остальное.
  * x, y -- координаты (UTM);

Соберем данные в dataframe для удобства анализа так, чтобы в нем одна строка соответствовала одному измерению, а не двум, как сейчас:

In [2]:
tmp1 = points[c('cat', 'x', 'y', 't1',
                'l1_b1', 'l1_b2', 'l1_b3', 'l1_b4', 'l1_b5', 'l1_b6', 
                'l1_b7', 'l1_b8', 'l1_b9', 'l1_b10', 'l1_b11'
               )]
names(tmp1) = c('cat', 'x', 'y', 't',
                'b1', 'b2', 'b3', 'b4', 'b5', 'b6', 'b7', 'b8', 'b9', 'b10', 'b11'
               )

tmp1$scene = 'S1' # 'LC81120282015365LGN00'

tmp2 = points[c('cat', 'x', 'y', 't2',
                'l2_b1', 'l2_b2', 'l2_b3', 'l2_b4', 'l2_b5', 'l2_b6', 
                'l2_b7', 'l2_b8', 'l2_b9', 'l2_b10', 'l2_b11'
               )]
names(tmp2) = c('cat', 'x', 'y', 't',
                'b1', 'b2', 'b3', 'b4', 'b5', 'b6', 'b7', 'b8', 'b9', 'b10', 'b11'
               )
tmp2$scene = 'S2' # 'LC81130272015356LGN00'


points = rbind(tmp1, tmp2)

points$t[points$t==0] = NA

points$scene = factor(points$scene)
points$t = factor(points$t)
levels(points$t) <- list(Cloud=1, Snow=2, Other=3)

points = na.omit(points)

summary(points)

      cat              x                y               t        
 Min.   :    1   Min.   :434113   Min.   :4979683   Cloud: 1579  
 1st Qu.:12508   1st Qu.:496221   1st Qu.:5060181   Snow : 3644  
 Median :24998   Median :536605   Median :5117104   Other:45316  
 Mean   :24998   Mean   :541089   Mean   :5112347                
 3rd Qu.:37496   3rd Qu.:586255   3rd Qu.:5165598                
 Max.   :50000   Max.   :664168   Max.   :5215814                
       b1               b2                b3                b4         
 Min.   :0.1124   Min.   :0.08453   Min.   :0.04529   Min.   :0.02953  
 1st Qu.:0.2011   1st Qu.:0.16832   1st Qu.:0.11290   1st Qu.:0.09587  
 Median :0.2291   Median :0.19891   Median :0.14421   Median :0.13350  
 Mean   :0.2529   Mean   :0.22642   Mean   :0.17388   Mean   :0.17051  
 3rd Qu.:0.2732   3rd Qu.:0.24862   3rd Qu.:0.19710   3rd Qu.:0.19912  
 Max.   :0.9407   Max.   :1.07539   Max.   :1.17382   Max.   :1.45950  
       b5               b6        

Видим, что в 9-м канале после атмосферной коррекции получились отрицательные значения. Объясняется это, по всей видимости, тем, что используемые в ходе коррекции константы (gain или bias, см. метаданные) содержали неподходящие для данной сцены значения. Аналогично, почти во всех каналах значения отражающей способности оказались выше 1.

In [3]:
# Число примеров, оставшихся после удаления отсутсвующих данных
dim(points)

In [4]:
points$b8[points$b9 < 0] = 0.0

points$b2[points$b2 > 1] = 1.0
points$b3[points$b3 > 1] = 1.0
points$b4[points$b4 > 1] = 1.0
points$b5[points$b5 > 1] = 1.0
points$b8[points$b8 > 1] = 1.0

## Первый взгляд на данные

### Отражающая способность различных объектов

Построим ящики с усами по каждому каналу и сравним какие значения отражающей способности типичны для каждого типа поверхности.

In [5]:
opar = par(no.readonly = TRUE)      # make a copy of current settings

png("Img/CMASK/type_vs_bands.png", width=728, height=728, units="px")
    par(mfrow = c(3,4))
    boxplot(b1 ~ t, data=points, ylab='b1')
    boxplot(b2 ~ t, data=points, ylab='b2')
    boxplot(b3 ~ t, data=points, ylab='b3')
    boxplot(b4 ~ t, data=points, ylab='b4')

    boxplot(b5 ~ t, data=points, ylab='b5')
    boxplot(b6 ~ t, data=points, ylab='b6')
    boxplot(b7 ~ t, data=points, ylab='b7')
    boxplot(b8 ~ t, data=points, ylab='b8')

    boxplot(b9 ~ t, data=points, ylab='b9')
    boxplot(b10 ~ t, data=points, ylab='b10')
    boxplot(b11 ~ t, data=points, ylab='b11')
    par(opar)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/type_vs_bands.png">

* 1-й--5-й и 8-й каналы ведут себя примерно одинаково: яркости пикслеей, соотвествующие снегу, выше, чем яркости облачных пикселей. А яркость пикселей облаков и снега обычно выше, чем пикселей других объектов. Однако, нельзя провести четкой границы -- области яркостей пикселей различных объектов довольно сильно пересекаются. Видно, что в этих каналах распределение имеет длинный правый хвост: на графиках видны выбросы в верхней части ящиков. Возможно, что стоит преобразовать каналы, чтобы получить более симметричное распределение. Поскольку восьмой канал - панхроматический, то он несет в основном пространственную информацию, а ничего нового с точки зрения спектральной информации не привносит. Поэтому в дальнейшем он буде опущен при анализе.
* 6-й--7-й каналы: высокое отражение в облачных областях, чуть меньшее в заснеженных и еще меньше для остальных объектов. Точно также данные показывают длинный правый хвост в распределении.
* 9-й канал: очень длинный правый хвост в облачных пикселях. Значения облачных пикселей в целом значительно выше, чем у остальных. Поскольку этот канал был разработан для исследования атмосферных эффектов, то, возможно, этот канал будет одним из основных маркеров облако/не облако.
* 10-й и 11-й каналы (температура) cхожи между собой: на них заметно, что температура облаков обычно выше, чем остальных объектов (зима?), хотя у облаков бросается в глаза очень длинный левый хвост распределения.

Преобразуем данные, чтобы получить более равномерные распределения. При этом выкинем из анализа 8-й канал, основную часть каналов прологарифмируем для избавления от длинных хвостов, 9-й канал возведем в степень, а 10-й и 11-й каналы оставим без изменений (длинный хвост только у облаков, а не у всего канала):

In [6]:
png("Img/CMASK/type_vs_logbands.png", width=728, height=728, units="px")
    par(mfrow = c(2, 4))
    boxplot(log(b1) ~ t, data=points, ylab='log(b1')
    boxplot(log(b2) ~ t, data=points, ylab='log(b2')
    boxplot(log(b3) ~ t, data=points, ylab='log(b3')
    boxplot(log(b4) ~ t, data=points, ylab='log(b4')

    boxplot(log(b5) ~ t, data=points, ylab='log(b5)')
    boxplot(log(b6) ~ t, data=points, ylab='log(b6)')
    boxplot(log(b7) ~ t, data=points, ylab='log(b7)')

    boxplot(I(b9^0.5) ~ t, data=points, ylab='sqrt(b9)')
    par(opar)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/type_vs_logbands.png">

Видно, что распределения частично выровнялись, хотя местами по-прежнему остались длинные хвосты.

### Зависимость от сцены

Построим те же самые ящики с усами, но попробуем понять, насколько отличаются данные не только из-за объектов, но и из-за того, что они представлены в разных сценах.

In [7]:
png("Img/CMASK/scene_vs_logbands.png", width=728, height=728, units="px")
    par(mfrow = c(3, 4))
    boxplot(log(b1) ~ scene, data=points, ylab='log(b1)')
    boxplot(log(b2) ~ scene, data=points, ylab='log(b2)')
    boxplot(log(b3) ~ scene, data=points, ylab='log(b3)')
    boxplot(log(b4) ~ scene, data=points, ylab='log(b4)')

    boxplot(log(b5) ~ scene, data=points, ylab='log(b5)')
    boxplot(log(b6) ~ scene, data=points, ylab='log(b6)')
    boxplot(log(b7) ~ scene, data=points, ylab='log(b7)')

    boxplot(I(b9^0.5) ~ scene, data=points, ylab='sqrt(b9)')

    boxplot(b10 ~ scene, data=points, ylab='b10')
    boxplot(b11 ~ scene, data=points, ylab='b11')

    par(opar)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_vs_logbands.png">

Итак, мы видим, что сцена 2 (LC81130272015356LGN00) более яркая, чем сцена 1 (LC81120282015365LGN00) во всех каналах. Вопрос в том, насколько велика эта вариативность данных, которая вносится разными условиями съемки, и не может ли оказаться так, что условия съемки влияют на яркость пикселей гораздо больше, чем тип обеъкта (см., например, различия якркостей в 10-м и 11-м каналах).

Для того, чтобы ответить на этот вопрос построим ящики для отдельных каналов.

#### Канал B1

В первом канале видно, что яркость снега может меняться в достаточно широких пределах в зависимости от сцены, настолько, что она яркости облаков и снежных участков могут пересекаться в большой степени.

In [8]:
png("Img/CMASK/scene_type_vs_b1.png", width=728, height=728, units="px")
    boxplot(log(b1) ~ scene+t, data=points, ylab='log(b1)')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b1.png">

#### Канал B2

Аналогичная картина и во втором канале.

In [9]:
png("Img/CMASK/scene_type_vs_b2.png", width=728, height=728, units="px")
    boxplot(log(b2) ~ scene+t, data=points, ylab='log(b2)')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b2.png">

#### Канал B3

Аналогично и в третьем:

In [10]:
png("Img/CMASK/scene_type_vs_b3.png", width=728, height=728, units="px")
    boxplot(log(b3) ~ scene+t, data=points, ylab='log(b3)')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b3.png">

#### Канал B4

In [11]:
png("Img/CMASK/scene_type_vs_b4.png", width=728, height=728, units="px")
    boxplot(log(b4) ~ scene+t, data=points, ylab='log(b4)')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b4.png">

#### Канал B5

In [12]:
png("Img/CMASK/scene_type_vs_b5.png", width=728, height=728, units="px")
    boxplot(log(b5) ~ scene+t, data=points, ylab='log(b5)')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b5.png">

#### Канал B6

Зато 6-й канал, похоже, меньше зависит от сцены, чем предыдущие:

In [13]:
png("Img/CMASK/scene_type_vs_b6.png", width=728, height=728, units="px")
    boxplot(log(b6) ~ scene+t, data=points, ylab='log(b6)')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b6.png">

#### Канал B7

Очень похож на 6-й канал, но вариативность данных внутри классов в нем чуть меньше.

In [14]:
png("Img/CMASK/scene_type_vs_b7.png", width=728, height=728, units="px")
    boxplot(log(b7) ~ scene+t, data=points, ylab='log(b7)')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b7.png">

#### Канал B9

В 9-м канале вариативность яркостей облачных пикселей между сценами очень велика. Похоже, что от сцены тут зависит больше, чем от типа объекта.

In [15]:
png("Img/CMASK/scene_type_vs_b9.png", width=728, height=728, units="px")
    boxplot(I(b9^0.5) ~ scene+t, data=points, ylab='sqrt(b9)')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b9.png">

#### Канал B10

Аналогичная проблема облачных пикселей и в 10-м канале: от сцены зависит больше, чем от типа объекта, особенно ярко это проявляется для облаков.

In [16]:
png("Img/CMASK/scene_type_vs_b10.png", width=728, height=728, units="px")
    boxplot(b10 ~ scene+t, data=points, ylab='b10')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b10.png">

#### Канал B11

Та же самая проблема: от сцены зависит больше, чем от типа объекта.

In [17]:
png("Img/CMASK/scene_type_vs_b11.png", width=728, height=728, units="px")
    boxplot(b11 ~ scene+t, data=points, ylab='b11')
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/scene_type_vs_b11.png">

### Вывод

 * Для различения облаков и снега, видимо, необходимо использовать каналы 1--7. В каналах 9--11 также содержится полезная информация, но воспользоваться ей будет сложнее из-за большей вариативности из-за условий съемки.
 * Каналы 1--5 и каналы 6--7 образуют две группы переменных. Переменные в каждой группе ведут себя схожим образом (поведение каналов 1--5 очень похоже между собой для выбранных классов; аналогично с каналами 6 и 7). Поскольку многие методы очень чувствительны к корреляции объясняющих переменных, то есть смысл подумать о том, чтобы выбрать по одному каналу из каждой группы. Возможно такое уменьшение числа переменных (но и корреляции между ними) даст положительный эффект на точность распознавания.

## Простая модель

В этом разделе построим простейшую модель на основе логистической регрессии и посмотрим, насколько она решает задачу разделения интересующих нас объектов. Пойдем по следующей схеме работы:

1. Предварительный выбор объясняющих переменных. Объясняющих переменных (каналов, в нашем случае) много, но они сильно коррелируют между собой. Для большей устойчивости решения выберем несколько переменных, остальные пока проигнорируем (на следующем этапе оценим правильность выбора переменных).
2. Создание фиктивных переменных. Поскольку у нас выделено три объекта (класс "все остальное" назовем условно одним объектом), и они не упорядочены, то нам понадобится создать фиктивные переменные, которые мы будем использовать.
3. Построение моделей, отражающих связь между объясняющими переменными и зависимыми.
4. Исследуем модели, проверив, выполняются ли условия, на которые опирается процедура построения логистической регрессии.
5. Посмотрим, насколько изменится качество модели, если выбрать другой набор объясняющих переменных.

### Предварительный выбор объясняющих переменных

Посмотрим еще раз на взаимную корреляциию объясняющих переменных (для ускорения отрисовки сделаем небольшую подвыборку данных). 

In [18]:
psample_ind = sample(1:length(points[, 1]), size=500)
psample = points[psample_ind, ]

png("Img/CMASK/all_bands.png", width=728, height=728, units="px")
  pairs(~log(b1)+log(b2)+log(b3)+log(b4)+log(b5)+log(b6)+log(b7)+sqrt(b9)+b10+b11, data=psample, pch=19, cex=0.1) 
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/all_bands.png">

Итак, мы видим, что очень сильна корреляция между 6-м и 7-м каналами, затем между 10-м и 11-м каналами, а также между 1-м, 2-м, 3-м и 4-м каналами, на эти 4 канала довольно похож 5-й, но все-таки, видимо, его следует выделить в отдельную группу. Ту же самую картину мы увидим, если расчитаем коэффициент корреляции между этими переменными:

In [19]:
cor(data.frame(log(points$b1), log(points$b2), log(points$b3), log(points$b4), log(points$b5),
    log(points$b6), log(points$b7), sqrt(points$b9+0.001), points$b10, points$b11))

Unnamed: 0,log.points.b1.,log.points.b2.,log.points.b3.,log.points.b4.,log.points.b5.,log.points.b6.,log.points.b7.,sqrt.points.b9...0.001.,points.b10,points.b11
log.points.b1.,1.0,0.9964358,0.97639013,0.95335102,0.77517809,0.5620097,0.62302423,0.29965771,0.01198254,0.02497259
log.points.b2.,0.9964358,1.0,0.99003616,0.9737249,0.8142512,0.60139706,0.66104285,0.30740816,0.01601809,0.02772027
log.points.b3.,0.97639013,0.99003616,1.0,0.99513008,0.87490047,0.6688906,0.72503729,0.32957731,0.03250238,0.03846062
log.points.b4.,0.95335102,0.9737249,0.99513008,1.0,0.90503815,0.7137883,0.76718334,0.32889596,0.04236531,0.04731348
log.points.b5.,0.7751781,0.8142512,0.8749005,0.9050381,1.0,0.8445939,0.8719638,0.3426454,0.1084817,0.1027279
log.points.b6.,0.5620097,0.60139706,0.6688906,0.7137883,0.84459391,1.0,0.9918878,0.44287939,0.0826638,0.06304586
log.points.b7.,0.62302423,0.66104285,0.72503729,0.76718334,0.87196375,0.9918878,1.0,0.44975283,0.05640044,0.03886842
sqrt.points.b9...0.001.,0.2996577,0.3074082,0.3295773,0.328896,0.3426454,0.4428794,0.4497528,1.0,-0.3242166,-0.4123782
points.b10,0.01198254,0.01601809,0.03250238,0.04236531,0.10848175,0.0826638,0.05640044,-0.32421662,1.0,0.98045369
points.b11,0.02497259,0.02772027,0.03846062,0.04731348,0.10272787,0.06304586,0.03886842,-0.41237817,0.98045369,1.0


### Фиктивные переменные

Возможно, есть хороший способ создания фиктивных переменных вместо одной зависимой переменной, но я всю процедуру сделаю руками: введу три новых переменных answ1, answ2, answ3 которые будут кодировать тот факт, что пиксель принадлежит облачному, снежному или иному участку снимка соответственно. Для этого создам новый набор данных, в котором будут содержаться только интересующие нас переменные.

In [20]:
pdata = data.frame(answ1=(points$t=='Cloud'), answ2=(points$t=='Snow'), answ3=(points$t=='Other'), 
                   b1=points$b1, b2=points$b2, b3=points$b3, b4=points$b4, b5=points$b5, b6=points$b6, 
                   b7=points$b7, b9=points$b9, b10=points$b10, b11=points$b11, scene=points$scene
                  )

### Построение моделей

Построим три модели (по числу фиктивных переменных) на базе логистической регрессии. Также не будем использовать преобразование переменных на этом этапе построения моделей. Начанем с определения того, что пиксель является облаком.

#### Облако-не-облако

Построим модель определяющую, явлеяется ли данный пиксель облаком и найдем те каналы, которые дают наибольшее качество модели (как отмечалось выше, среди имеющихся объясняющих переменных очень высокая корреляция). Для начала построим модель со всеми имеющимися переменными, включая название сцены.

In [21]:
simple.glm1 = glm(answ1~b1 + b2 + b3 + b4 + b5 + b6 +b7 + b9 + b10 + b11 + scene, data=pdata, family=binomial)
summary(simple.glm1)

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7 + b9 + 
    b10 + b11 + scene, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.3471  -0.0178  -0.0075  -0.0043   3.7550  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -9.2134    12.6052  -0.731  0.46483    
b1            3.8466    36.9262   0.104  0.91703    
b2           14.6088    37.8190   0.386  0.69929    
b3          -99.3805    39.7492  -2.500  0.01241 *  
b4           85.4198    27.3904   3.119  0.00182 ** 
b5          -37.1751     3.9036  -9.523  < 2e-16 ***
b6          -10.9699    12.0687  -0.909  0.36337    
b7          112.6315    14.7005   7.662 1.83e-14 ***
b9           52.7175     8.2705   6.374 1.84e-10 ***
b10          -0.1721     0.1278  -1.347  0.17794    
b11           0.1736     0.1287   1.349  0.17749    
sceneS2       4.5265     0.5016   9.023  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’

Оценкой качества модели может служить несколько параметров, например отклонения (остатки, Deviance) прогнозируемых величин от тех, что зафиксированы на самом деле, другая оценка качества - Akaike Information Criterion (AIC), в котором учитывается как качество подгонки модели, так и ее сложность.  Если оринтироваться на Akaike Information Criterion, то AIC коэффициент у simple.glm2 равен 1313.2 (чем меньше, тем лучше). Но мы видим, что часть коэффициентов регрессии статистически не значимы.

Последовательно будем избавляться от "лишних" коэффициентов регрессии. Для этого в цикле будем удалять по одному коэффициенту и оценивать, как изменился результат. Качество будем оценивать по отклонениям прогнозных значений от реальных. Однако, поскольку у полной модели больше коэффициентов в уравнении регрессии, то и отклонения полной модели будут меньше. Поэтому значимость определенного коэффициента, будем определять по следующей схеме: 
 * выкинем одну переменную, например, b1;
 * очевидно, что в модели без этой переменной (т.е. с коэффициентом b1 == 0) отклонения должны быть больше, чем в модели с этим коэффициентом, поскольку в полной модели $p_2 = 11$ параметров, а в "урезанной" модели $p_1=10$ параметров;
 * соответственно мы можем выдвинуть гипотезу, что коэффициент перед b1 равен нулю и проверить ее, сравнив величины отклонений этих двух моделей: чем больше разность отклонений моделей, тем больше вероятность того, что коэффициент перед b1 ненулевой;
 * разность отклонений двух моделей ассимтотически распределена как Хи-квадрат с $p_2 - p_1 = 1$ степенями свободы: $D_1 - D_1 \sim X^2_{p_2 - p_1}$
 * пробежавшись по всем переменным мы можем определить значимость каждой из них.
 
Эту процедуру автоматизирует функция drop1. Воспользуемся ей:

In [22]:
drop1(simple.glm1, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1289.236,1313.236,,
b1,1.0,1289.247,1311.247,0.01085342,0.9170267
b2,1.0,1289.3857572,1311.3857572,0.1494317,0.699079
b3,1.0,1295.625,1317.625,6.388735,0.01148469
b4,1.0,1299.156,1321.156,9.919714,0.001635178
b5,1.0,1394.102,1416.102,104.8654,1.307192e-24
b6,1.0,1290.0648232,1312.0648232,0.8284977,0.3627073
b7,1.0,1353.729,1375.729,64.49295,9.687858e-16
b9,1.0,1336.635,1358.635,47.399,5.791226e-12
b10,1.0,1291.0570998,1313.0570998,1.8207743,0.1772211


Итого, у модели, содержащей все переменные, остатки (Deviance) равняются 1289.236. Если мы викинем b1, то остатки будут равны 1.289247e+03(=1289.247), разность остатков составляет 1.085342e-02=0.01085, соотвественно p-значение распределения Хи-квадрат с одной степенью свободы равно 9.170267e-01, что явно очень много и мы можем выкинуть эту переменную безбоязненно.

Повторяем данную процедуру для нового набора переменных:

In [23]:
simple.glm2 = glm(answ1~ b2 + b3 + b4 + b5 + b6 +b7 + b9 + b10 + b11 + scene, data=pdata, family=binomial)
summary(simple.glm2)
drop1(simple.glm2, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b2 + b3 + b4 + b5 + b6 + b7 + b9 + b10 + 
    b11 + scene, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.3477  -0.0178  -0.0075  -0.0043   3.7519  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -9.1119    12.5661  -0.725 0.468381    
b2           18.2279    14.9870   1.216 0.223889    
b3          -97.4374    35.1160  -2.775 0.005525 ** 
b4           83.7884    22.4958   3.725 0.000196 ***
b5          -37.2842     3.7608  -9.914  < 2e-16 ***
b6          -10.7796    11.9278  -0.904 0.366136    
b7          112.3931    14.5178   7.742 9.81e-15 ***
b9           52.7780     8.2485   6.399 1.57e-10 ***
b10          -0.1730     0.1275  -1.357 0.174754    
b11           0.1745     0.1284   1.360 0.173874    
sceneS2       4.5337     0.4969   9.124  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family take

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1289.247,1311.247,,
b2,1.0,1290.736493,1310.736493,1.489314,0.222323
b3,1.0,1296.72,1316.72,7.472685,0.006264206
b4,1.0,1302.318,1322.318,13.07111,0.0002998858
b5,1.0,1403.461,1423.461,114.2136,1.1700269999999999e-26
b6,1.0,1290.0659227,1310.0659227,0.8187438,0.3655477
b7,1.0,1354.922,1374.922,65.67495,5.317747e-16
b9,1.0,1337.127,1357.127,47.87991,4.531409e-12
b10,1.0,1291.0949258,1311.0949258,1.8477469,0.1740457
b11,1.0,1291.1067768,1311.1067768,1.8595978,0.1726712


AIC улучшилось, но остаются еще незначимые коэффициенты. Выкидываем b6 и продолжаем:

In [24]:
simple.glm3 = glm(answ1~ b2 + b3 + b4 + b5 +b7 + b9 + b10 + b11 + scene, data=pdata, family=binomial)
summary(simple.glm3)
drop1(simple.glm3, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b2 + b3 + b4 + b5 + b7 + b9 + b10 + b11 + 
    scene, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.3163  -0.0181  -0.0077  -0.0044   3.7809  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -7.0150    12.3120  -0.570 0.568830    
b2           19.0142    14.9371   1.273 0.203035    
b3          -96.5989    35.0669  -2.755 0.005875 ** 
b4           83.9253    22.4924   3.731 0.000191 ***
b5          -38.2918     3.5976 -10.644  < 2e-16 ***
b7           99.8653     4.0618  24.586  < 2e-16 ***
b9           51.7107     8.1173   6.370 1.88e-10 ***
b10          -0.1684     0.1272  -1.324 0.185347    
b11           0.1612     0.1273   1.266 0.205495    
sceneS2       4.4812     0.4922   9.104  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 14053.6  on 50538  degrees 

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1290.066,1310.066,,
b2,1.0,1291.6942095,1309.6942095,1.6282868,0.2019402
b3,1.0,1297.433,1315.433,7.36696,0.006643313
b4,1.0,1303.18,1321.18,13.11393,0.0002931089
b5,1.0,1424.451,1442.451,134.3853,4.499798000000001e-31
b7,1.0,4899.839,4917.839,3609.773,0.0
b9,1.0,1337.128,1355.128,47.06173,6.878583e-12
b10,1.0,1291.825125,1309.825125,1.759202,0.184724
b11,1.0,1291.676106,1309.676106,1.610184,0.204466
scene,1.0,1396.101,1414.101,106.0354,7.243042e-25


Выкидываем b11:

In [25]:
simple.glm4 = glm(answ1~ b2 + b3 + b4 + b5 +b7 + b9 + b10 + scene, data=pdata, family=binomial)
summary(simple.glm4)
drop1(simple.glm4, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b2 + b3 + b4 + b5 + b7 + b9 + b10 + scene, 
    family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.2828  -0.0182  -0.0079  -0.0045   3.8098  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -4.43754   12.15280  -0.365 0.715003    
b2            21.35727   14.89459   1.434 0.151602    
b3          -100.04779   35.09888  -2.850 0.004366 ** 
b4            85.05952   22.54604   3.773 0.000161 ***
b5           -38.14592    3.59761 -10.603  < 2e-16 ***
b7            99.46042    4.05353  24.537  < 2e-16 ***
b9            47.12670    7.24054   6.509 7.58e-11 ***
b10           -0.01923    0.04797  -0.401 0.688521    
sceneS2        4.49335    0.49467   9.084  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 14053.6  on 50538  degrees of freedom
Residual deviance:  1291.7  

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1291.676,1309.676,,
b2,1.0,1293.7482433,1309.7482433,2.072137,0.1500112
b3,1.0,1299.534,1315.534,7.857899,0.005059917
b4,1.0,1305.059,1321.059,13.38269,0.0002539573
b5,1.0,1424.819,1440.819,133.1431,8.412265e-31
b7,1.0,5055.419,5071.419,3763.743,0.0
b9,1.0,1343.497,1359.497,51.82112,6.079422e-13
b10,1.0,1291.8368792,1307.8368792,0.1607729,0.6884459
scene,1.0,1397.027,1413.027,105.351,1.023088e-24


Выкидываем b10:

In [26]:
simple.glm5 = glm(answ1~ b2 + b3 + b4 + b5 +b7 + b9 + scene, data=pdata, family=binomial)
summary(simple.glm5)
drop1(simple.glm5, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b2 + b3 + b4 + b5 + b7 + b9 + scene, family = binomial, 
    data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.2833  -0.0181  -0.0078  -0.0044   3.8032  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -9.2983     0.8449 -11.005  < 2e-16 ***
b2           21.1895    14.8760   1.424 0.154329    
b3          -99.2954    35.0346  -2.834 0.004594 ** 
b4           84.8760    22.5369   3.766 0.000166 ***
b5          -38.4694     3.5044 -10.977  < 2e-16 ***
b7           99.6230     4.0391  24.665  < 2e-16 ***
b9           48.4723     6.4534   7.511 5.86e-14 ***
sceneS2       4.3921     0.4248  10.340  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 14053.6  on 50538  degrees of freedom
Residual deviance:  1291.8  on 50531  degrees of freedom
AIC: 1307.8

Number of Fisher Scoring iterations: 

: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1291.837,1307.837,,
b2,1.0,1293.8817588,1307.8817588,2.0448796,0.1527191
b3,1.0,1299.609,1313.609,7.772014,0.005306184
b4,1.0,1305.183,1319.183,13.3464,0.0002589188
b5,1.0,1440.487,1454.487,148.6501,3.420042e-34
b7,1.0,5110.063,5124.063,3818.226,0.0
b9,1.0,1362.258,1376.258,70.42144,4.7896590000000003e-17
scene,1.0,1448.253,1462.253,156.4162,6.866207999999999e-36


Избавляемся от незначимого коэффициента b2:

In [27]:
simple.glm6 = glm(answ1~ b3 + b4 + b5 +b7 + b9 + scene, data=pdata, family=binomial)
summary(simple.glm6)
drop1(simple.glm6, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b3 + b4 + b5 + b7 + b9 + scene, family = binomial, 
    data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.2517  -0.0178  -0.0077  -0.0044   3.7779  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -8.6519     0.7169 -12.069  < 2e-16 ***
b3          -58.9995    21.2553  -2.776 0.005507 ** 
b4           69.9411    20.2974   3.446 0.000569 ***
b5          -39.8046     3.3812 -11.772  < 2e-16 ***
b7           99.1685     4.0099  24.731  < 2e-16 ***
b9           48.9073     6.4829   7.544 4.56e-14 ***
sceneS2       4.4688     0.4258  10.494  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 14053.6  on 50538  degrees of freedom
Residual deviance:  1293.9  on 50532  degrees of freedom
AIC: 1307.9

Number of Fisher Scoring iterations: 11


: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1293.882,1307.882,,
b3,1.0,1301.168,1313.168,7.286727,0.006946592
b4,1.0,1305.237,1317.237,11.35539,0.0007522941
b5,1.0,1492.95,1504.95,199.0681,3.335693e-45
b7,1.0,5114.362,5126.362,3820.481,0.0
b9,1.0,1367.413,1379.413,73.53171,9.903246e-18
scene,1.0,1462.616,1474.616,168.734,1.3985659999999998e-38


Больше удалять нечего. Эта модель -- максимум точности, которой мы можем достичь при анализе. К сожалению, среди значимых коэффициентов осталась переменная scene, что означает, что в модели должен фигурировать идентификатор сцены. Автоматически это означает, что для каждой сцены, по сути, мы должы будем строить свою модель. Альтернативный вариант -- использование смешанных моделей (mixed effects), что даст значительно усложнение всех вычислений.

Итак, надежда на то, что сцена окажется не значимой, и можно построить модель, в которой не фигурирует идентификатор сцены, не оправдалась. Вернемся на шаг назад, вручную удалим все переменные, которые зависят от сцены (см. первый этап анализа), затем повторим процедуру отбора оптимальной модели и посмотрим, насколько ухудшадся показатели такой модели по сравнению с simple.glm6. 

Ниже повторяется вся процедура отбора переменных без дополнительных комментарив:

In [28]:
simple.glm7 = glm(answ1~b1 + b2 + b3 + b4 + b5 + b6 +b7, data=pdata, family=binomial)
summary(simple.glm7)
drop1(simple.glm7, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b1 + b2 + b3 + b4 + b5 + b6 + b7, family = binomial, 
    data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.3647  -0.0290  -0.0156  -0.0091   4.3224  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -15.105      1.288 -11.725  < 2e-16 ***
b1           102.756     36.813   2.791  0.00525 ** 
b2           -65.801     40.518  -1.624  0.10437    
b3           -70.817     33.606  -2.107  0.03509 *  
b4            47.993     21.618   2.220  0.02642 *  
b5           -30.658      3.171  -9.670  < 2e-16 ***
b6            34.449     11.312   3.045  0.00232 ** 
b7            80.444     13.096   6.142 8.13e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 14053.6  on 50538  degrees of freedom
Residual deviance:  1438.2  on 50531  degrees of freedom
AIC: 1454.2

Number of Fisher Scoring iterations: 10


: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1438.155,1454.155,,
b1,1.0,1446.026,1460.026,7.871087,0.005023144
b2,1.0,1440.805798,1454.805798,2.651043,0.103482
b3,1.0,1442.571,1456.571,4.416502,0.03559292
b4,1.0,1443.011,1457.011,4.855902,0.02755171
b5,1.0,1545.974,1559.974,107.8194,2.9442220000000003e-25
b6,1.0,1447.446,1461.446,9.291302,0.002302445
b7,1.0,1477.756,1491.756,39.60169,3.11414e-10


In [29]:
simple.glm8 = glm(answ1~b1 + b3 + b4 + b5 + b6 +b7, data=pdata, family=binomial)
summary(simple.glm8)
drop1(simple.glm8, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b1 + b3 + b4 + b5 + b6 + b7, family = binomial, 
    data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.3814  -0.0291  -0.0158  -0.0093   4.3174  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -13.943      1.065 -13.093  < 2e-16 ***
b1            47.000     13.733   3.422 0.000621 ***
b3           -63.187     33.583  -1.882 0.059902 .  
b4            29.917     18.754   1.595 0.110650    
b5           -31.536      3.131 -10.073  < 2e-16 ***
b6            38.963     10.989   3.545 0.000392 ***
b7            75.563     12.743   5.930 3.04e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 14053.6  on 50538  degrees of freedom
Residual deviance:  1440.8  on 50532  degrees of freedom
AIC: 1454.8

Number of Fisher Scoring iterations: 10


: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1440.806,1454.806,,
b1,1.0,1457.519,1469.519,16.71286,4.348525e-05
b3,1.0,1444.625,1456.625,3.819134,0.05067041
b4,1.0,1443.3783405,1455.3783405,2.5725424,0.1087329
b5,1.0,1558.526,1570.526,117.7206,1.9961970000000003e-27
b6,1.0,1453.345,1465.345,12.53926,0.0003984911
b7,1.0,1477.811,1489.811,37.0051,1.178204e-09


In [30]:
simple.glm9 = glm(answ1~b1 + b3 + b5 + b6 +b7, data=pdata, family=binomial)
summary(simple.glm9)
drop1(simple.glm9, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b1 + b3 + b5 + b6 + b7, family = binomial, 
    data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.3205  -0.0293  -0.0163  -0.0096   4.2957  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -13.513      1.000 -13.512  < 2e-16 ***
b1            32.036      9.411   3.404 0.000664 ***
b3           -13.358     10.785  -1.239 0.215518    
b5           -32.009      3.074 -10.411  < 2e-16 ***
b6            42.514     10.723   3.965 7.34e-05 ***
b7            70.289     12.227   5.749 8.99e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 14053.6  on 50538  degrees of freedom
Residual deviance:  1443.4  on 50533  degrees of freedom
AIC: 1455.4

Number of Fisher Scoring iterations: 10


: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1443.378,1455.378,,
b1,1.0,1457.523,1467.523,14.14423,0.000169316
b3,1.0,1444.9792568,1454.9792568,1.6009163,0.2057734
b5,1.0,1567.276,1577.276,123.8977,8.869957e-29
b6,1.0,1459.115,1469.115,15.73627,7.281458e-05
b7,1.0,1477.851,1487.851,34.4723,4.323603e-09


In [31]:
simple.glm10 = glm(answ1~b1 + b5 + b6 +b7, data=pdata, family=binomial)
summary(simple.glm10)
drop1(simple.glm10, test="Chi")

: glm.fit: fitted probabilities numerically 0 or 1 occurred


Call:
glm(formula = answ1 ~ b1 + b5 + b6 + b7, family = binomial, data = pdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-4.3348  -0.0290  -0.0160  -0.0096   4.2994  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -12.4185     0.4587 -27.073  < 2e-16 ***
b1           20.8339     2.6116   7.977 1.49e-15 ***
b5          -34.7703     2.1604 -16.095  < 2e-16 ***
b6           45.3291    10.4937   4.320 1.56e-05 ***
b7           67.9584    12.0931   5.620 1.91e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 14054  on 50538  degrees of freedom
Residual deviance:  1445  on 50534  degrees of freedom
AIC: 1455

Number of Fisher Scoring iterations: 10


: glm.fit: fitted probabilities numerically 0 or 1 occurred

Unnamed: 0,Df,Deviance,AIC,LRT,Pr(>Chi)
<none>,,1444.979,1454.979,,
b1,1.0,1514.534,1522.534,69.55486,7.431837e-17
b5,1.0,2008.89,2016.89,563.9107,1.18553e-124
b6,1.0,1463.68,1471.68,18.70055,1.529382e-05
b7,1.0,1477.961,1485.961,32.98191,9.302018e-09


Итак, в этом случае оптимальный набор переменных: b1, b5, b6, b7. AIC: 1455 (для сравнения: AIC у simple.glm6 равен 1307.9).

##### Валидация модели

Посмотрим, нет ли каких-либо закономерностей в ответах. Для этого построим график зависимостей остатков от подогнанных значений.

Для оценки качества модели изучим поведение зависимости остатков (невязка модели) от прогнозируемой величины и от независимых переменных. В идеале остатки не должны показывать каких-либо закономерностей.

In [32]:
E10 = resid(simple.glm10, type="response")
png("Img/CMASK/glm10_res_fitted.png", width=728, height=728, units="px")
  plot(simple.glm10$fitted.values, E10, cex=0.1)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/glm10_res_fitted.png">

Поскольку ответ логистической регрессии это один или ноль, а значений, использующихся для подгонки достаточно много, то на графике видим две полосы точек (остатков). В итогое понять, есть ли закономерность в остатках становится сложно. Поэтому упорядочим полученные ответы по возрастанию fitted.values, разобьем их на группы и посчитаем в каждой группе среднее значение невязки (средний остаток).

In [33]:
ER10 = data.frame(err=E10, fitted=simple.glm10$fitted.values, 
                b1=pdata$b1, b2=pdata$b2, b3=pdata$b3, b4=pdata$b4, b5=pdata$b5, b6=pdata$b6, 
                b7=pdata$b7, b9=pdata$b9, b10=pdata$b10, b11=pdata$b11, scene=pdata$scene)

# Сортируем по порядку прогнозируемых величин
ER10 = ER10[order(ER10$fitted), ]

# Разбиваем на группы
group_size = 100
ER10 = cbind(id=(1:length(ER10$fitted))%/% group_size, ER10)
# Вычислим среднее значение ошибки в каждой группе и поместим в таблицу
lookup_table = aggregate(ER10['err'], by=list(ER10$id), FUN=mean)
names(lookup_table) = c('id', 'err')

# Создадим вектор из средний значений ошибок 
a = sapply(ER10$id, function(id){lookup_table[lookup_table$id==id, 'err']})

ER10 = cbind(ER10, mean.err=a)


png("Img/CMASK/glm10_res_fitted_srt.png", width=728, height=728, units="px")
  plot(ER10$fitted, ER10$mean.err, cex=0.1)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/glm10_res_fitted_srt.png">

Как видим, в усредненных остатках есть некоторая тенденция: если прогнозируемое значение близко к нулю (не облако), то остаток скорее будет отцательным, для средних прогнозируемых значений остатки чаще положительны, а если прогнозируемое значение близко к единице, то отстаток опять будет скорее отрицательным. Для идеально подогнанной кривой усредненные остатки должны быть более-менее равномерно разбросаны вокруг нуля и не зависеть от прогнозируемой величины.

Аналогично, построим графики зависимостей остатков от всех переменных (как использованных в модели, так и не использованных).

In [34]:
png("Img/CMASK/glm10_res_bXX_srt.png", width=728, height=728, units="px")
    par(mfrow = c(3, 4))
    plot(ER10$b1, ER10$mean.err, cex=0.1)
    plot(ER10$b2, ER10$mean.err, cex=0.1)
    plot(ER10$b3, ER10$mean.err, cex=0.1)
    plot(ER10$b4, ER10$mean.err, cex=0.1)

    plot(ER10$b5, ER10$mean.err, cex=0.1)
    plot(ER10$b6, ER10$mean.err, cex=0.1)
    plot(ER10$b7, ER10$mean.err, cex=0.1)

    plot(ER10$b9, ER10$mean.err, cex=0.1)

    plot(ER10$b10, ER10$mean.err, cex=0.1)
    plot(ER10$b11, ER10$mean.err, cex=0.1)

    boxplot(ER10$mean.err ~ ER10$scene, cex=0.1)

    par(opar)
dev.off()

<img src="https://176.9.38.120/cruncher/files/deforestation/Img/CMASK/glm10_res_bXX_srt.png">

Каких-то бросающихся в глаза тенденций (например, низких значений остатков при высоких величинах переменных или чего-нибудь в этом роде) в зависимости остатков от каналов не заметно: отрицательные остатки обычно уравновешиваются положительными. Также хорошая новость в том, что остатки не показывают зависимости от сцены.

In [35]:
library(mgcv)

Loading required package: nlme
This is mgcv 1.7-28. For overview type 'help("mgcv-package")'.
