# Матрица

Матрица - двумерній массив данніх одного типа

По сути, это вектор, уложенный по столбцам(!)

Для создании матрицы нужно можно использовать функцию `matrix`

In [1]:
matrix(1:6, nrow = 2, ncol = 3)

0,1,2
1,3,5
2,4,6


## Создание матриц

Избавимся от ненужной избыточности:


In [3]:
matrix(1:6,nrow = 2)

0,1,2
1,3,5
2,4,6


In [12]:
matrix(1:6, nrow = 3, byrow = TRUE)

0,1
1,2
3,4
5,6


In [13]:
matrix(1:6, nrow = 3, byrow = FALSE)

0,1
1,4
2,5
3,6


In [16]:
matrix(7:8, nrow = 2, ncol = 5 )

0,1,2,3,4
7,7,7,7,7
8,8,8,8,8


## Атрибут dim

In [17]:
m <- matrix(1:6, ncol = 3)
dim(m)          # размерность

In [18]:
c(nrow(m), ncol(m))

In [20]:
dim(m) <- NULL; m

In [21]:
dim(m) <- c(2,3); m

0,1,2
1,3,5
2,4,6


## Арифметические операторы 

Действуют поэлементно, с учетом правил переписывания:

In [28]:
m1 <- matrix(1:4, nrow = 2)
m2 <- matrix(c(1,2,3,4), nrow = 2)

In [29]:
m1

0,1
1,3
2,4


In [30]:
m2

0,1
1,3
2,4


In [31]:
m1 + m2

0,1
2,6
4,8


In [34]:
m1 + 5

0,1
6,8
7,9


In [35]:
m1*m2 #поэлементное умножение

0,1
1,9
4,16


In [37]:
m1 %*% m2  #умножение в смысле линейной алгебры

0,1
7,15
10,22


## Индексирование матриц

Те же правила что и для векторов, но с учетом двух размерностей:

In [44]:
m <- matrix(1:10, ncol = 5)
m

0,1,2,3,4
1,3,5,7,9
2,4,6,8,10


In [45]:
m[1,3]

In [46]:
m[2,]

In [47]:
m[,2]

In [49]:
m[1,] <- 0
m

0,1,2,3,4
0,0,0,0,0
2,4,6,8,10


In [54]:
m[, -5] <-11:18
m

0,1,2,3,4
11,13,15,17,0
12,14,16,18,10


## Схлопывание размерности

In [57]:
m <- matrix(1:10, ncol =5)
m

0,1,2,3,4
1,3,5,7,9
2,4,6,8,10


In [58]:
ind <- c(1,3,5)

In [59]:
m[, ind]

0,1,2
1,5,9
2,6,10


In [61]:
ind <- 3
m[,ind]    #вектор

In [63]:
m[,ind, drop = FALSE]  # именно подматрица, то есть столбец

0
5
6


У `TRUE` и `FALSE` есть обуквенные сокращения (`T`и `F`): `drop = F`

## Именованые матрицы : `rownames` / `colnames`

In [69]:
m <- matrix(1:10, ncol = 5)
m

0,1,2,3,4
1,3,5,7,9
2,4,6,8,10


In [70]:
rownames(m) <- c("row1","row2")
colnames(m) <- paste0("column", 1:5)

In [71]:
m

Unnamed: 0,column1,column2,column3,column4,column5
row1,1,3,5,7,9
row2,2,4,6,8,10


In [72]:
m['row1', c("column2","column4"), drop = F]

Unnamed: 0,column2,column4
row1,3,7


## Присоединение матриц : `rbind` / `cbind`

In [83]:
m1

0,1
1,3
2,4


In [84]:
m2

0,1
1,3
2,4


In [74]:
rbind(m1,m2)

0,1
1,3
2,4
1,3
2,4


In [79]:
cbind(m1,m2)

0,1,2,3
1,3,1,3
2,4,2,4


## Аргумент `...` (ellipsis)

Новый аспект R: аргумент `...` позволяет предавать любое количество обьектов


In [86]:
cbind(m1, m2, 1:2, c(5,3), m2[,1], m1*3, cbind(m2,m1))

0,1,2,3,4,5,6,7,8,9,10,11,12
1,3,1,3,1,5,1,3,9,1,3,1,3
2,4,2,4,2,3,2,6,12,2,4,2,4


Другие примеры: `c, paste, paste0, sum`

## Применение функций к матрице: `apply` 

In [88]:
m <- matrix(1:25, 5)
f <- function(x) sum(x^2)

In [90]:
m

0,1,2,3,4
1,6,11,16,21
2,7,12,17,22
3,8,13,18,23
4,9,14,19,24
5,10,15,20,25


Тип аргумента функции `apply`:

- Массив (матрица)
- Индекс (1 - по строкам, 2 - по столбцам)
- Функция 


In [89]:
apply(m, 1,f)

In [91]:
apply(m,2,f)

In [93]:
apply(m,1:2, function(i) if (i >13) i else 13) # такая функция без имени наз анонимно

0,1,2,3,4
13,13,13,16,21
13,13,13,17,22
13,13,13,18,23
13,13,14,19,24
13,13,15,20,25


In [94]:
m[m <= 13] <- 13
m

0,1,2,3,4
13,13,13,16,21
13,13,13,17,22
13,13,13,18,23
13,13,14,19,24
13,13,15,20,25


##  `rowSums`, `rowMeans`, `colSums`, `colMeans` 

In [97]:
m <- matrix(1:25, 5)
m
rowSums(m)

0,1,2,3,4
1,6,11,16,21
2,7,12,17,22
3,8,13,18,23
4,9,14,19,24
5,10,15,20,25


In [98]:
all.equal(rowSums(m), apply(m, 1,sum))

In [99]:
colMeans(m)

In [101]:
all.equal(colMeans(m), apply(m,2,mean))

# 2.1 Матрицы и списки


Если матрица mat имеет размерность m на n (например, mat <- matrix(0, m, n)), то какой объект будет возвращён после выполнения следующих операций?

In [2]:
m <- 3
n <- 2

In [6]:
 mat <- matrix(c(1,2,3,4,5,6), m, n)

In [9]:
mat[m,n]  #Вектор длины 1, содержащий элемент в правом нижнем углу

In [16]:
mat[n,m]   #Скорее всего, ошибочная запись: ошибки не будет только при m=n

ERROR: Error in mat[n, m]: подгруппа выходит за пределы


In [19]:
mat[m, ]   #Вектор, содержащий строку (ряд) номер m

In [22]:
mat[m, , drop = FALSE]   #Матрица, состоящая из одной строки (ряда) номер m

0,1
3,6


In [23]:
mat[, n, drop = F]    #Матрица, состоящая из одного столбца (колонки) номер n

0
4
5
6


In [24]:
mat[, n, drop = TRUE]  # Вектор, содержащий столбец (колонку) номер n

In [25]:
mat >5                         #Матрица m на n логического типа по условию

0,1
False,False
False,False
False,True


In [29]:
mat[mat > 2]                #Вектор, содержащий все значения по условию (возможно, пустой)

In [60]:
find_closest <- function(v, n) {
    a <- v[which.min(abs(abs(v) - abs(n)))]
    which(v == n + abs(n-a) | v == n - abs(n-a))
}

In [61]:
v <- c(1, 1, 1, 1, 1, 1, 15)
n <- 2

In [63]:
find_closest(v,n)

In [65]:
bind_diag <- function(m1,m2,fill) {
    m3 <- matrix(fill, nrow = nrow(m1)+nrow(m2),
                       ncol = ncol(m1)+ncol(m2))
    m3[1:nrow(m1),1:ncol(m1)] <- m1
    m3[nrow(m1) + 1:nrow(m2),ncol(m1)+ 1:ncol(m2)] <- m2
    m3 
}

In [67]:
m1 <- matrix (1:12,nrow = 4)
m2 <- matrix(10:15, ncol = 3)
bind_diag(m1,m2,fill = NA)
bind_diag(m1,m2,fill = 0)

0,1,2,3,4,5
1.0,5.0,9.0,,,
2.0,6.0,10.0,,,
3.0,7.0,11.0,,,
4.0,8.0,12.0,,,
,,,10.0,12.0,14.0
,,,11.0,13.0,15.0


0,1,2,3,4,5
1,5,9,0,0,0
2,6,10,0,0,0
3,7,11,0,0,0
4,8,12,0,0,0
0,0,0,10,12,14
0,0,0,11,13,15


In [452]:
build_ziggurat <- function(n) {
    m <- matrix(1, nrow = n*2 - 1
                 , ncol = n*2 - 1)
    for (i in 1:n){
        if (i == n){
            m[i,i] <- matrix(i)
            return(m)
        }
        r <- nrow(m)-i
        d <- 1 +i
        m[d : r,  d : r] <- matrix(d)
    }
}

In [453]:
build_ziggurat(3)

0,1,2,3,4
1,1,1,1,1
1,2,2,2,1
1,2,3,2,1
1,2,2,2,1
1,1,1,1,1


In [3]:
m = matrix(4,4,5)
m

0,1,2,3,4
4,4,4,4,4
4,4,4,4,4
4,4,4,4,4
4,4,4,4,4


In [5]:
diag(m)

In [6]:
diag(3)

0,1,2
1,0,0
0,1,0
0,0,1


In [7]:
diag(c(1,2))

0,1
1,0
0,2


In [30]:
#get the longest element
get_longest <- function(l){
    len <- sapply(l,length)
    ind <- which.max(len == max(len))
    list(number = ind, element = l[[ind]])
}

#generate list with random length and contents
gen_list <- function(n_elements, max_len, seed = 111){
    set.seed(seed)
    len <- sample(1:max_len, n_elements)
    lapply(1:n_elements, function(i) rnorm(len[i]))
}
            
l1 <- gen_list(4,10)

In [31]:
l1

In [32]:
gl1 <- get_longest(l1)
gl1$number

In [33]:
l2 <- gen_list(4,10,777)

In [34]:
get_longest(l2)

Если вектор достаточно длинный, то визуально сложно оценить, какие в нём содержатся элементы и сколько раз они повторяются. В этом случае полезно будет посмотреть на таблицу частот элементов.

Пусть x -- целочисленный вектор. Напишите функцию, которая вернёт матрицу из двух строк. В первой строке перечислите все различные элементы вектора, упорядоченные по возрастанию. Во второй строке укажите частоты (количество повторов) этих элементов.

Пример. Пусть x <- c(5, 2, 7, 7, 7, 2, 0, 0). Тогда функция должна вернуть матрицу 2х4 с элементами

0 2 5 7


2 2 1 3

In [234]:
count_elements <- function(x) {
    x <-  t(as.matrix(table(x)))
    q <- as.numeric(colnames(x))
    colnames(x) <- c()
    q <- matrix(q, ncol = ncol(x))
    return (rbind(q,x))
}

In [235]:
x <- c(5, 2, 7, 7, 7, 2, 0, 0)
count_elements(x)

0,1,2,3
0,2,5,7
2,2,1,3


Парижане бунтуют! По слухам, Бастилия плохо охраняется, а её арсеналы полны пороха и мушкетов.
Пришло время решительных действий. Наши агенты смогли подсчитать количество солдат в патрулях в каждой из восьми башен крепости. Вот эти данные:

In [34]:
set.seed(1789)
bastille <- list(
  "La Chapelle Tower" = rbinom(5, 10, 1/2), 
  "Tresor Tower" = rbinom(8, 12, 1/4), 
  "Comte Tower" = rbinom(14, 3, 1/5) + 1,
  "Baziniere Tower" = rbinom(8, 4, 4/5), 
  "Bertaudiere Tower" = rbinom(4, 8, 2/3),
  "Liberte Tower" = rbinom(1, 100, 0.1), 
  "Puits Tower" = rbinom(5, 5, 0.7),
  "Coin Tower" = rbinom(3, 16, 0.4)
)

Составьте короткий отчёт: какая из башен менее всего защищена, сколько в ней солдат, и сколько всего солдат в Бастилии? Свобода, равенство, братство!


P.S. Формат ответа: tower_name, XX, YY﻿: полное название башни как в списке (без кавычек) и два числа. В качестве разделителя -- запятая и пробел.

In [36]:
bastille

In [37]:
bastille[names(which.min(sapply(bastille, sum)))]

In [49]:
sum(sapply(bastille, sum))

Общий глоссарий для этого урока:

?matrix

?dim, ?rownames, ?colnames

?rbind, ?cbind, ?apply

?rowSums, ?rowMeans, ?colSums, ?colMeans

?list, ?unlist

?"[" (?"[[", ?"$")

?lapply, ?sapply

Partial matching, ?"..." (ellipsis)

?diag

# 2.2 Дата фреймы

В этом уроке мы:

+ узнаем, как лучше всего хранить табличные данные;
+ познакомимся с тонкостями импорта данных в сессию R;
+ рассмотрим типичные этапы предобработки данных;
+ исследуем места обитания редких птиц.

Дата фрейм и эффективная работа с ним -- это хребет не только этого курса, но, пожалуй, и всего языка в целом. Это достаточно сложная структура, сочетающая в себе сильные стороны вектора, матрицы и списка. Крайне важно почувствовать себя в условиях, "приближенных к боевым", именно поэтому я уделяю особое внимание практической работе с дата фреймом.

## Создание дата фреймов

In [6]:
df <- data.frame(x = 1:4, y = LETTERS[1:4], z = c(T,F))
df

x,y,z
1,A,True
2,B,False
3,C,True
4,D,False


Функция `str` - сводка об обьекте

In [8]:
str(df)

'data.frame':	4 obs. of  3 variables:
 $ x: int  1 2 3 4
 $ y: Factor w/ 4 levels "A","B","C","D": 1 2 3 4
 $ z: logi  TRUE FALSE TRUE FALSE


## Имена

In [6]:
df <- data.frame(x = 1:4, y = LETTERS[1:4], z = c(T,F),
                row.names = c("Alpha", "Bravo", "Charlie", "Delta"))
df

Unnamed: 0,x,y,z
Alpha,1,A,True
Bravo,2,B,False
Charlie,3,C,True
Delta,4,D,False


In [7]:
rownames(df)
colnames(df)
dimnames(df)                   # універсальний варіант

## Размерности

In [8]:
nrow(df)

In [9]:
ncol(df)

In [10]:
dim(df)

Две важные особенности:

+ `length(df)` возвращает количество столбцов(переменных), а не общеее количество элементов.

+ `names(df)` также возвращает имена столбцов

In [11]:
length(df)

In [12]:
names(df)  # тоже самое что и colnames(df)

In [13]:
names(df)  == colnames(df)

## Индексация `data frame`

Как для матрицы: 

In [14]:
df[3:4,-1]

Unnamed: 0,y,z
Charlie,C,True
Delta,D,False


In [15]:
df[c(F,T),c("z","x")]

Unnamed: 0,z,x
Bravo,False,2
Delta,False,4


In [16]:
df[,1]

In [17]:
df[,1, drop = FALSE]

Unnamed: 0,x
Alpha,1
Bravo,2
Charlie,3
Delta,4


Как для списка:

In [18]:
df$z 

In [19]:
df$x

## Фильтрация по условию

In [20]:
df[df$x >2,]

Unnamed: 0,x,y,z
Charlie,3,C,True
Delta,4,D,False


In [21]:
subset(df,x >2)

Unnamed: 0,x,y,z
Charlie,3,C,True
Delta,4,D,False


In [22]:
subset(df,x >2, select = c(x,z))

Unnamed: 0,x,z
Charlie,3,True
Delta,4,False


## Комбинирование data frame

In [23]:
rbind(df, data.frame(x = 5:6, y = c("K","Z"), z =TRUE, 
                    row.names = c("Kappa", "Zulu")))

Unnamed: 0,x,y,z
Alpha,1,A,True
Bravo,2,B,False
Charlie,3,C,True
Delta,4,D,False
Kappa,5,K,True
Zulu,6,Z,True


In [24]:
cbind(df, data.frame(season = c("Summer","Autumn", "Winter", "Spring"), 
                     temp = c(20,5,-10,5) ))

Unnamed: 0,x,y,z,season,temp
Alpha,1,A,True,Summer,20
Bravo,2,B,False,Autumn,5
Charlie,3,C,True,Winter,-10
Delta,4,D,False,Spring,5


## Комбинирование data frame: `merge`

In [25]:
df

Unnamed: 0,x,y,z
Alpha,1,A,True
Bravo,2,B,False
Charlie,3,C,True
Delta,4,D,False


In [26]:
df_salary <- data.frame(x = c(3,2,6,1), salay = c(100,1000,300,500))
merge(df,df_salary, by = "x")

x,y,z,salay
1,A,True,500
2,B,False,1000
3,C,True,100


In [27]:
m =3
n =4
mat <- matrix(c(1,2,3,4,5,6), m, n)
mat

0,1,2,3
1,4,1,4
2,5,2,5
3,6,3,6


In [33]:
d = as.matrix(df)
d

Unnamed: 0,x,y,z
Alpha,1,A,True
Bravo,2,B,False
Charlie,3,C,True
Delta,4,D,False


In [32]:
class(d)

In [35]:
attitude #встроенный массив данных

rating,complaints,privileges,learning,raises,critical,advance
43,51,30,39,61,92,45
63,64,51,54,63,73,47
71,70,68,69,76,86,48
61,63,45,47,54,84,35
81,78,56,66,71,83,47
43,55,49,44,54,49,34
58,67,42,56,66,68,35
71,75,50,55,70,66,41
72,82,72,67,71,83,31
67,61,45,47,62,80,41


In [36]:
help(attitude )

Анализ данных -- это далеко не всегда заумные академические модели в вакууме. Иногда на основе простых манипуляций можно сделать разумные выводы и облегчить принятие повседневных решений.

Дата фрейм `attitude` -- встроенный массив данных, содержащий рейтинг департаментов одной финансовой компании, составленный сотрудниками. Представьте, что вы хотите устраиваться как раз в эту компанию, и дата фрейм (совершенно случайно!) оказался в вашем распоряжении. 

Вы решили, что самое главное для вас -- это возможность учиться новому (learning). Возьмите 5 топовых департаментов по этому показателю. Из этого набора вам более всего подойдёт тот департамент, который имеет наибольшую сумму баллов по трём показателям: реакция на жалобы работников (complaints), надбавки в зависимости от результатов работы (raises) и возможность продвижения (advance).

Какой же департамент вам выбрать? Напишите его номер XX (номер строки в дата фрейме).

In [38]:
df = attitude

In [56]:
rev(sort(df[,4]))

In [65]:
e = subset(df, learning >= rev(sort(df[,4]))[5] )
e

Unnamed: 0,rating,complaints,privileges,learning,raises,critical,advance
15,77,77,54,72,79,77,46
16,81,90,50,72,60,54,36
18,65,60,65,75,55,80,60
27,78,75,58,74,80,78,49
29,85,85,71,71,77,74,55


In [100]:
rest <- c()
for (i in 1:nrow(e) ) {
    rest[i] <- e[i,]$complaints + e[i,]$raises + e[i,]$advance
}
rest
which.max(rest)

In [101]:
e[which.max(rest),][0]

29


## Импорт данных

+ Из файла
    + Comma separated values(`.csv`), tab separated values
    + Неструктурированый текст - `readlines, scan` 
    + XML, HTML - `library(XML)`, `library(httr)`, ...
    + JSON, YAML - `library(rjson)`, `library(RJSONIO)`,...
    + Excel - `library(XLConnect)`, `library(readxl)`
    + SAS, Stats,SPSS, MATLAB - `library(foreign)`, `library(sas7bdat)`
+ Web - `library(rvest)`
+ Базы даннных:
    + Реляционные - `library(DBI)`, `library(RSQLite)`,...
    + Нереляционные - `library(rmongodb)`,...
+ ...

## Чтение табличных данных 

Основной инструмент: `read.table`


+ `file` - имя файла
+ `header` - наличие или отсутствие заголовка в первой строке
+ `sep` - разделитель значений
+ `quote` - символы, обозначающие кавычки(для строкового типа)
+ `na.strings` - строки, кодирующие пропущенное значение
+ `colClasses` - типы столбцов (для быстродействия и указания типа: строка - фактор- дата/время)
+ `comment.char` - символ, обозначающий комментарий 
+ `skip` - количество строк пропускаемых с начала файла

Функции `read.csv`, `read.csv2`, `read.delim`, `read.delim2` суть оболочки `read.table` с расставленными умолчаниями

## Типичные этапы(пред) обработки данных

+ Импорт в дата фрейм
+ Очистка значений, проверка типов
+ Работа со строками: имена, переменные строкового типа, факторы 
+ Пропущенные значения: идентификация, способ обработки
+ Манипулирование переменными: преобразование, создание, удаление
+ Подсчет описательных статистик: split - apply -combine
+ Визуализаця данных 
+ Экспорт

In [1]:
help(factor)

Вернёмся ненадолго к дата фрейму attitude. Какими из нижеуказанных способов можно выбрать только те строки, которые соответствуют департаментам с рейтингом (rating) ниже пятидесяти, при этом сохранив все столбцы, кроме rating?

Убедитесь, что вы понимаете, почему работает (не работает) каждый из способов!

P.S. Попробуйте сначала отметить верные ответы, а потом их проверять: так интереснее.

In [3]:
attitude[attitude$rating < 50, names(attitude) != "rating"]

Unnamed: 0,complaints,privileges,learning,raises,critical,advance
1,51,30,39,61,92,45
6,55,49,44,54,49,34
24,37,42,58,50,57,49
28,57,44,45,51,83,38


In [4]:
subset(attitude, rating < 50, -rating)

Unnamed: 0,complaints,privileges,learning,raises,critical,advance
1,51,30,39,61,92,45
6,55,49,44,54,49,34
24,37,42,58,50,57,49
28,57,44,45,51,83,38


In [5]:
attitude[attitude$rating < 50, -"rating"]

ERROR: Error in -"rating": неправильный аргумент для унарного оператора


In [6]:
attitude[rating < 50, names(attitude) != "rating"]

ERROR: Error in `[.data.frame`(attitude, rating < 50, names(attitude) != "rating"): объект 'rating' не найден


In [7]:
subset(sel = -rating, sub = rating < 50, attitude)

Unnamed: 0,complaints,privileges,learning,raises,critical,advance
1,51,30,39,61,92,45
6,55,49,44,54,49,34
24,37,42,58,50,57,49
28,57,44,45,51,83,38


In [8]:
quakes

lat,long,depth,mag,stations
-20.42,181.62,562,4.8,41
-20.62,181.03,650,4.2,15
-26.00,184.10,42,5.4,43
-17.97,181.66,626,4.1,19
-20.42,181.96,649,4.0,11
-19.68,184.31,195,4.0,12
-11.70,166.10,82,4.8,43
-28.11,181.93,194,4.4,15
-28.74,181.74,211,4.7,35
-17.47,179.59,622,4.3,19


In [10]:
?quakes

__Format__

A data frame with 1000 observations on 5 variables.

[,1]	lat	numeric	Latitude of event

[,2]	long	numeric	Longitude

[,3]	depth	numeric	Depth (km)

[,4]	mag	numeric	Richter Magnitude

[,5]	stations	numeric	Number of stations reporting

__Details__

There are two clear planes of seismic activity. One is a major plate junction; the other is the Tonga trench off New Zealand. These data constitute a subsample from a larger dataset of containing 5000 observations.

__Source__

This is one of the Harvard PRIM-H project data sets. They in turn obtained it from Dr. John Woodhouse, Dept. of Geophysics, Harvard University.

Максимальная сила землетрясений по шкале Рихтера

In [25]:
quakes[which.max(quakes[,4]),]

Unnamed: 0,lat,long,depth,mag,stations
152,-15.56,167.62,127,6.4,122


Минимальная сила землетрясений по шкале Рихтера

In [26]:
quakes[which.min(quakes[,4]),]

Unnamed: 0,lat,long,depth,mag,stations
5,-20.42,181.96,649,4,11


Медианная глубина землетрясений (км)

In [28]:
median(quakes[,3])

Средняя глубина землетрясений (км)

In [30]:
mean(quakes[,3])

Количество станций, зарегистрировавших землетрясение, записанное третьим

In [1]:
quakes$stations[3]

Количество станций, зарегистрировавших землетрясение, записанное предпоследним

In [9]:
quakes$stations[length(quakes$stations)-1]

Доцент кафедры прикладного анализа данных Арчибальд Нелёгких проделал ту же работу над массивом avianHabitat, что и мы, и отправил результаты учёным из Аляски. Сегодня утром он обнаружил в почтовом ящике письмо следующего содержания.

`Дорогой Арчи!
Получил твои расчёты. Твой вопрос относительно покрытия растительностью действительно обоснован: общее покрытие в самом деле достаточно низкое. Ты ведь не забыл, что мы работаем в Аляске? Смотри сам (фото справа):`
http://minerals.usgs.gov/alaska/economic/sewpen.html 

`Ладно, слушай, у меня к тебе ещё одна просьба. У нас тут стажёр из аспирантуры работает, зовут его Карлош Линнейес или как-то так. В общем, он забыл прикрепить свои измерения к общему файлу. Ты не мог бы принять его кусок данных, прикрепить его к общему массиву и пересчитать показатели?
Только имей в виду: этот аспирант рассеянный тип, наверняка он что-нибудь напортачил. Впрочем, для тебя это наверняка пустяки! Файл avianHabitat2.csv прикрепляю.
Заранее спасибо!
Дж.`


Помогите Арчибальду! Cкачайте файл по ссылке, добавьте новые данные в общий дата фрейм и повторите подсчёт общего покрытия, добавив переменную total_coverage. В качестве ответа пришлите величину среднего покрытия с точностью до второго знака: X.XX 

Подсказки:

общий массив будет содержать 1088 наблюдений;

добавление данных Карлоша увеличит среднее по переменной общего покрытия, но незначительно.


In [2]:
s <- read.csv('https://raw.githubusercontent.com/tonytonov/Rcourse/master/R%20programming/avianHabitat.csv')
s1 <- read.csv('https://raw.githubusercontent.com/tonytonov/Rcourse/master/R%20programming/avianHabitat2.csv',
               skip = 5, sep = ';',comment.char = "%",na.strings = "Don't remember")
s = s[names(s) != "Observer"]
s1$Subpoint[8] = 8
s1$Subpoint[9] = 9
new <- rbind(s,s1)
total_coverage <- c(seq(1,nrow(new)))
new <- cbind(new, total_coverage)
for (i in seq(1,nrow(new)) ){
    new$total_coverage[i] <- new[i,4] + new[i,6] +new[i,8]+new[i,10]+new[i,12]+new[i,14] + new[i,16]
}
nrow(new)
mean(new$total_coverage)

На массиве avianHabitat найдите максимальные высоты по каждому виду растений и отсортируйте эти виды по убыванию, от самого высокого к самому низкому.

Подсказки:

вас будут интересовать только данные переменных, отвечающих за высоты растений. Такие переменные заканчиваются на Ht;

In [16]:
avian <- read.csv('https://raw.githubusercontent.com/tonytonov/Rcourse/master/R%20programming/avianHabitat.csv')
r <-c( "DB"= max(avian[,6]),
        "W" =  max(avian[,8]),    
        "E" = max(avian[,10]),   
        "A" = max(avian[,12]),   
        "H" = max(avian[,14]),   
        "L" = max(avian[,16]) )
sort(r,decreasing = TRUE)