# Дата фреймы

- **Дата фрейм** (data frame) - двумерная таблица с данными (Excel spreadsheet, SQL-таблица)
- Фактически стандартный способ хранения данных в формате "наблюдения-переменные"
- Дата фрейм наследует свойства матрицы (прямоугольная форма) и списка (переменные могут быть разных типов)

## Создание data frame

Осуществляется одноимённой функцией **`data.frame`**, синтаксис схож с созданием именованных списков и именованных векторов:

In [1]:
df <- data.frame(x = 1:4, y = LETTERS[1:4], z = c(TRUE, FALSE))
df

x,y,z
1,A,True
2,B,False
3,C,True
4,D,False


Для получения свойств о любом объекте в R существует функция **`str`**:

In [2]:
str(df)

# Здесь переменная y имеет тип Фактор. Подробно о них будет рассказано чуть позже

'data.frame':	4 obs. of  3 variables:
 $ x: int  1 2 3 4
 $ y: Factor w/ 4 levels "A","B","C","D": 1 2 3 4
 $ z: logi  TRUE FALSE TRUE FALSE


Чтобы задать имена строчкам дата фрейма, можно воспользоваться аргументом `row.names` функции **`data.frame`**:

In [2]:
df <- data.frame(x = 1:4, y = LETTERS[1:4], z = c(TRUE), row.names = c("Analysis", "Bioinformatics",
                                                                             "Calculating", "Development"))
df

Unnamed: 0,x,y,z
Analysis,1,A,True
Bioinformatics,2,B,True
Calculating,3,C,True
Development,4,D,True


Векторы имён столбцов и строк можно получить с помощью функций **`colnames`** и **`rownames`** (**`dimnames`** - лист всех имён):

In [10]:
colnames(df)
rownames(df)
dimnames(df) # Возвращает list!

## Размерности

Количество столбцов, строк можно узнать с помощью функций **`ncol`** и **`nrow`** соответственно (**`dim`** - все размерности):

In [11]:
ncol(df)
nrow(df)
dim(df)

**!** Два важных момента:
- Функция **`length`** в случае с **data frame** возвращает количество столбцов (переменных), а не общее количество элементов
- Функция **`names`** также возвращает имена столбцов

In [13]:
length(df)
names(df)

## Индексация

Работают все виды индексаций, как для матрицы (положительная, отрицательная, именная, логическая):

In [24]:
df[3:4, -1] # 3-я и 4-я строки по всем стобцам кроме 1-го

Unnamed: 0,y,z
Calculating,C,True
Development,D,True


In [32]:
df[c(TRUE, FALSE), c("x", "z")]

Unnamed: 0,x,z
Analysis,1,True
Calculating,3,True


Один индекс можно пропустить, чтобы обратиться к столбцу или строке целиком (**!не забывайте про схлопывание размерности**):

In [34]:
df[, 1]
df[, 1, drop = FALSE]

Unnamed: 0,x
Analysis,1
Bioinformatics,2
Calculating,3
Development,4


Но для обращения к единичному столбцу (переменной) удобно использовать индексацию, как у списка:

In [4]:
df$x # df[[1]], df[["x"]]

## Фильтрация по условию: `subset`

Как и во многих объектах языка R, чтобы выбрать элементы по некоторым признакам, можно воспользоваться логическим индексированием:

In [5]:
df[df$x > 2, ] # Вернёт полные строки, в которых значение x больше 2

Unnamed: 0,x,y,z
Calculating,3,C,True
Development,4,D,True


Также существует функция **`subset`**, позволяющая не дублировать название **data frame**:

In [3]:
subset(df, x > 2)

Unnamed: 0,x,y,z
Calculating,3,C,True
Development,4,D,True


С помощью аргумента `select` можно выбрать отдельные столбцы:

In [4]:
subset(df, x > 2, select = c(x, z))

Unnamed: 0,x,z
Calculating,3,True
Development,4,True


## Комбинирование data frame: `rbind` / `cbind`

Обе функции работают, как для матриц:

In [6]:
rbind(df, data.frame(x = 5:6, y = c("E", "F"), z = TRUE, row.names = c("Experiment", "Function")))

Unnamed: 0,x,y,z
Analysis,1,A,True
Bioinformatics,2,B,True
Calculating,3,C,True
Development,4,D,True
Experiment,5,E,True
Function,6,F,True


In [7]:
cbind(df, data.frame(i = 4:1, j = c("Error")))

Unnamed: 0,x,y,z,i,j
Analysis,1,A,True,4,Error
Bioinformatics,2,B,True,3,Error
Calculating,3,C,True,2,Error
Development,4,D,True,1,Error


## Комбинирование data frame: `merge`

Функция **`merge`** позволяет комбинировать **data frame** по ключу (аргумент `by`) - выбранной нами переменной из **data frame**, по которой строки комбинируемых структур будут соотнесены между собой:

In [5]:
df_amount <- data.frame(x = c(3, 2, 9, 1), amount = c(400, 300, 1000, 60), y = c("C", "B", "D", "Q"))
df; df_amount
merge(df, df_amount, by = "x")

# Здесь merge сопоставит столбцы x между собой по значениям в них, соотнеся остальные значения строк data frame'ов

Unnamed: 0,x,y,z
Analysis,1,A,True
Bioinformatics,2,B,True
Calculating,3,C,True
Development,4,D,True


x,amount,y
3,400,C
2,300,B
9,1000,D
1,60,Q


x,y.x,z,amount,y.y
1,A,True,60,Q
2,B,True,300,B
3,C,True,400,C


Обязательно, чтобы переменная-ключ присутствовала в обоих **data frame**, т.к. именно по ней сопоставляются данные.  
Кроме этого можно включать в соединение все элементы по вертикали и горизонтали (аргументы `all.x`, `all.y`, `all`), а также вообще не указывать ключ (полное соединение по всем совпавшим переменным):

In [6]:
merge(df, df_amount)

# Сопоставление всех значений одноимённых столбцов (у строки совпадать должны значения во ВСЕХ одноимённых столбцов)

x,y,z,amount
2,B,True,300
3,C,True,400


In [11]:
merge(df, df_amount, by = c("x", "y"), all = TRUE)

# Сопоставление всех по x и y + всё остальное, что не удалось полностью сопоставить из обоих data frame

x,y,z,amount
1,A,True,
1,Q,,60.0
2,B,True,300.0
3,C,True,400.0
4,D,True,
9,D,,1000.0


In [17]:
merge(df, df_amount, by = c("x", "y"), all.x = TRUE)

# Сопоставление всех по x и y + все несопоставившиеся строки из первого data frame (присоединяем второй к первому)

x,y,z,amount
1,A,True,
2,B,True,300.0
3,C,True,400.0
4,D,True,


In [18]:
merge(df, df_amount, by = c("x", "y"), all.y = TRUE)

# Сопоставление всех по x и y + все несопоставившиеся строки из второго data frame (присоединяем первый ко второму)

x,y,z,amount
1,Q,,60
2,B,True,300
3,C,True,400
9,D,,1000
