# Схлопывание размерности данных

Часто возникает ситуация, когда необходимо сделать сабсет (выборку) данных. В R для этого используются операторы [, [[ и \\$. Это справедливо для S3 объектов. Для объектов S4 существуют два дополнительных оператора: аналогом \\$ является @, аналогом [[ является slot()). В разных структурах данных (векторах, матрицах, фреймах или списках) они работают по-разному. Разница заключается в возвращаемом объекте, точнее в его атрибуте dim().

Понятно, что если речь идет о схлопывании (сокращении) размерности данных, то изменения касаются атрибута dim, то есть уменьшения его значений. Например, посмотрим на размерность данных вектора, матрицы и датафрейма.

In [72]:
# размерность вектора
dim(c(1:4)) 

NULL

In [73]:
# размерность матрицы
dim(matrix(c(1:4)))

In [74]:
# размерность датафрейма
dim(data.frame(1:4, 1:4))

Размерность вектора NULL, матрица 4 на 1 (4 строки и 1 столбец), фрейм 4 на 2 (4 строки и 2 столбца).

Схлопывание происходит в случае, если осуществляется сабсет из **матрицы или датафрейма** с помощью оператора [, за которым следует одиночный вектор (то есть одно число, одно имя или одно логическое значение TRUE). Например,

In [2]:
df <- data.frame(x = c(1, 3, 7, 9), y = c(2, 4, 6, 8))
str(df[ , 2])
str(df[ , "y"])
str(df[ , c(FALSE, TRUE)])

 num [1:4] 2 4 6 8
 num [1:4] 2 4 6 8
 num [1:4] 2 4 6 8


Чтобы избежать такого поведения (оно работает по умолчанию), необходимо указывать параметр **drop = FALSE**.

In [3]:
df <- data.frame(x = c(1, 3, 7, 9), y = c(2, 4, 6, 8))
str(df[ , 2, drop = FALSE])
str(df[ , "y", drop = FALSE])
str(df[ , c(FALSE, TRUE), drop = FALSE])

'data.frame':	4 obs. of  1 variable:
 $ y: num  2 4 6 8
'data.frame':	4 obs. of  1 variable:
 $ y: num  2 4 6 8
'data.frame':	4 obs. of  1 variable:
 $ y: num  2 4 6 8


В этом случае на выходе получаем точно такой же по размерности объект как исходный, то есть из матрицы получаем матрицу, а из фрейма данных получаем фрейм, но не вектор значений. Особено полезно помнить при написании функций, которые работают с матрицами, массивами и датафреймами либо развить привычку указывать drop = FALSE. 

Альтернативой может быть использование тибблов (tibble) вместо датафреймов. У них по умолчанию выставлен drop = FALSE, а \[ всегда возвращает тиббл.
