# Задачи по статистике в R

Различные задачи по языку R и  статистике в R:
- [Основы программирования на R](https://stepik.org/course/497)
- [Анализ данных в R на Stepik](https://stepik.org/course/129/)

Данные приводятся исключительно для ознакомления в качестве личного конспекта. Перед решениями не стоит задачи строгого соответствия вопросам упомянутых курсов.

---
# Синтаксис языка R: Факторы и строки

**Задача**. Превратите количественную переменную `mag` (сила землетрясения в баллах по шкале Рихтера) датафрейма `quakes` в качественную. Интервалы должны быть длиной в полбалла, начиная с минимального, при этом левый конец интервала включается. Далее отсортируйте общее количество случаев, попавших в каждую категорию, в порядке убывания.

In [None]:
t <- cut(quakes$mag, breaks = 0.5*(8:13), right=F)
sort(table(t), decreasing = T)

**Задача**. Найдите самый высокий экземпляр вида в датасете, записанном в файле `avianHabitat.csv` для каждого из исследователей (`Observer`). Высота видов записывается в полях, содержащих в конце названия `Ht` (сокр от Height). 

In [None]:
avian <- read.csv('datasets/avianHabitat.csv')
sapply(avian[, grepl("Ht", names(avian))], function(name) {tapply(name, avian$Observer, max)})

# Синтаксис языка R: Функции

**Задача**. Напишите функцию, которая выводит номера позиций пропущенных наблюдений в векторе. На вход функция получает числовой вектор с пропущенными значениями. Функция возвращает новый вектор с номерами позиций пропущенных значений.

In [32]:
my_vector <- c(1, 2, 3, NA, NA)
NA.position <- function(x){
    res <- which(is.na(x))
    return(res)
}

print(NA.position(my_vector))

[1] 4 5


**Продолжение**. Напишите функцию `NA.counter` для подсчета пропущенных значений в векторе.

На вход функция `NA.counter` должна принимать один аргумент – числовой вектор. Функция должна возвращать количество пропущенных значений.

In [33]:
NA.counter <- function(x){
    res <- sum(is.na(x))
    return(res)
}

print(NA.counter(my_vector))

[1] 2


**Задача**. Напишите функцию `filtered.sum`, которая на вход получает вектор с пропущенными, положительными и отрицательными значениями и возвращает сумму положительных элементов вектора.

In [46]:
my_vector <- c(1, -2, 3, NA, NA)
filtered.sum <- function(x) {
    return(sum(x[x > 0], na.rm = T))
}

print(filtered_sum(my_vector))

[1] 4


**Задача на выбросы**. Напишите функцию `outliers.rm`, которая находит и удаляет выбросы. Для обнаружения выбросов воспользуемся самым простым способом, с которым вы не раз встречались, используя график `box plot`. 

Выбросами будем считать те наблюдения, которые отклоняются от 1 или 3 квартиля более, чем на `1,5 *  IQR`, где  `IQR` – межквартильный размах.

На вход функция получает числовой вектор `x`. Функция должна возвращать модифицированный вектор `x` с удаленными выбросами.

In [90]:
x = c(-10, -2, -1, 1, 2, 3, 100)

outliers.rm <- function(x){    
    q <- quantile(x, 0.25) + quantile(x, 0.75)    
    return(x[abs(x - q/2) <= 2*IQR(x)])
}

outliers.rm(x)

# Анализ номинативных данных

---
**Задача**. Воспользуемся данными diamonds из библиотеки `ggplot2`. При помощи критерия Хи-квадрат проверьте гипотезу о взаимосвязи качества огранки бриллианта (`сut`) и его цвета (`color`). В переменную `main_stat` сохраните значение статистики критерия Хи-квадрат.

In [None]:
# install.packages("ggplot2")
library(ggplot2)
options(repr.plot.width = 5, repr.plot.height = 2.5, repr.plot.res = 100)

diamonds_table <- table(diamonds$cut, diamonds$color)    
chi_result <- chisq.test(diamonds_table )    
main_stat <- chi_result$statistic

In [None]:
chi_result

In [None]:
main_stat

---
**Задача**. Вновь воспользуемся данными `diamonds` из библиотеки `ggplot2`. При помощи критерия Хи-квадрат проверьте гипотезу о взаимосвязи цены (`price`) и каратов (`carat`) бриллиантов. Для этого сначала нужно перевести эти количественные переменные в формат пригодный для Хи-квадрат. Создайте две новые переменные в данных `diamonds`:

- `factor_price` - 1, если значение цены больше либо равно, чем среднее, и 0, если значение цены ниже среднего цены по выборке.
- `factor_carat` - 1, если число карат больше либо равно, чем среднее, и 0, если ниже среднего числа карат по выборке.

Важный момент - на больших данных цикл for() работает довольно медленно, постарайтесь решить эту задачу без его использования!
Используя эти шкалы при помощи Хи-квадрат проверьте исходную гипотезу. Сохраните в переменную `main_stat` значение критерия  Хи-квадрат.

Пример перевода количественной шкалы в номинативную:

```R
> x <- (1, 2, 3, 5, 6, 7) # mean(x) = 4
> factor_x <- (0, 0, 0, 1, 1, 1)
```

In [None]:
factor_price <- ifelse(diamonds$price >= mean(diamonds$price), 1, 0)
factor_carat <- ifelse(diamonds$carat >= mean(diamonds$carat), 1, 0)
diamonds_table <- table(factor_price, factor_carat)
chi_result <- chisq.test(diamonds_table )    
main_stat <- chi_result$statistic
main_stat

**Задача**. При помощи точного критерия Фишера проверьте гипотезу о взаимосвязи типа коробки передач (`am`) и типа двигателя (`vs`) в данных `mtcars`.

In [None]:
fisher.test(table(mtcars$am, mtcars$vs))$p

# Сравнение двух групп

Рассмотрим t-критерий на примере датасета `iris`. Выделим два вида.

In [None]:
df <- subset(iris, Species != 'setosa')
table(df$Species)

Проверим форму распределений.

In [None]:
ggplot(df, aes(x = Sepal.Length)) +
geom_histogram(fill="white",
               col="black", 
               binwidth=0.4) +
facet_grid(Species ~ .)

In [None]:
ggplot(df, aes(Sepal.Length, fill = Species )) +
geom_density(alpha = 0.5)

In [None]:
ggplot(df, aes(Species, Sepal.Length, fill = Species )) +
geom_boxplot()

Видим приблизительно симметричные, близкие к нормальным распределения, гомогенные. Проверим эти предположения с помощью тестов.

Сначала проверим нормальность с помощью [критерия Шапиро-Уилка](https://ru.wikipedia.org/wiki/%D0%9A%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B8_%D0%BD%D0%BE%D1%80%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D1%81%D1%82%D0%B8).

In [None]:
shapiro.test(df$Sepal.Length)

In [None]:
shapiro.test(df$Sepal.Length[df$Species == "versicolor"])

In [None]:
shapiro.test(df$Sepal.Length[df$Species == "virginica"])

Проверим гомогенность дисперсии по [критерию Бартлетта](https://ru.wikipedia.org/wiki/%D0%9A%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%91%D0%B0%D1%80%D1%82%D0%BB%D0%B5%D1%82%D1%82%D0%B0).

In [None]:
bartlett.test(Sepal.Length ~ Species, df)

Данные проверили, теперь выполним сам t-тест.

In [None]:
t_test <- t.test(Sepal.Length ~ Species, df)

In [None]:
t_test$p.value

Тест пройден.

Рассмотрим ситуацию для парной выборки:

In [None]:
t.test(df$Petal.Length,
       df$Petal.Width,
       paired = T)

# Памятка
t-Критерий Стьюдента для независимых выборок

```
t.test(Var1 ~ Var2, data) # если первая переменная количественная, а вторая фактор
t.test(data$Var1, data$Var2) # если обе переменные количественные
```

t-Критерий Стьюдента для зависимых выборок

```
t.test(data$Var1, data$Var2, paired = T)
```

Проверка на нормальность распределения

```
shapiro.test(Var1) # проверка на нормальность распределения переменной Var1
# но не удобно когда есть группирующая факторная переменная
```

Поможет функция by(), которая применяет различные функции на каждом уровне фактора.  

```
by(iris$Sepal.Length, INDICES = iris$Species, shapiro.test) # проверка на нормальность переменной 
# Sepal.Length в трех разных группах в соответствии с переменной Species
```

Проверка на гомогенность дисперсий

```
bartlett.test(mpg ~ am, mtcars) #Критерий Бартлетта
```

---
**Задача про свинок**. Воспользуемся встроенным набором данных в R - `ToothGrowth`. Данные позволяют исследовать рост зубов у морских свинок в зависимости от дозировки витамина C и типа потребляемых продуктов.

Сравните среднее значение длины зубов свинок, которые потребляли апельсиновый сок (OJ) с дозировкой 0.5 миллиграмм, со средним значением длины зубов свинок, которые потребляли аскорбиновую кислоту (VC) с дозировкой 2 миллиграмма. 

Значение t-критерия сохраните в переменную `t_stat`.

In [None]:
data <- subset(ToothGrowth, supp=='OJ' & dose==0.5 | supp=='VC' & dose==2)    
t_stat <- t.test(len ~ supp, data)$statistic

In [None]:
t_stat

# Применение дисперсионного анализа

**Задача на взаимодействие переменных**. Воспользуемся встроенными данными `npk`, иллюстрирующими влияние применения различных удобрений на урожайность гороха (`yield`). Нашей задачей будет выяснить, существенно ли одновременное применение азотных (фактор N) и фосфатных (фактор P) удобрений. Примените дисперсионный анализ, где будет проверяться влияние фактора применения азотных (N), влияние фактора применения фосфатных (P) удобрений и их взаимодействие.

In [None]:
head(npk)

In [None]:
fit <- aov(yield ~ N * P, data=npk)
summary(fit)

cat("Оценка влияния фактора взаимодействия Pr(>F):",
    summary(fit)[[1]]["N:P", "Pr(>F)"])

**Задача на попарные сравнения**. Проведите однофакторный дисперсионный анализ на встроенных данных `iris`. Зависимая переменная – ширина чашелистика (`Sepal.Width`), независимая переменная – вид (`Species`). Затем проведите попарные сравнения видов. Какие виды статистически значимо различаются по ширине чашелистика (`p < 0.05`)?

In [None]:
fit <- aov(Sepal.Width ~ Species, data=iris)
summary(fit)

In [None]:
TukeyHSD(fit)

Все три вида статистически значимо различаются по ширине чашелистика.

**Задача на использование данных от одних тех же пациентов**. В этой задаче вам дан набор данных (datasets/Pilukin.csv), в котором представлена информация о температуре нескольких пациентов, которые лечатся разными таблетками и у разных врачей.

Проведите однофакторный дисперсионный анализ с повторными измерениями: влияние типа таблетки (`pill`) на температуру (`temperature`) с учётом испытуемого (`patient`). Каково p-value для влияния типа таблеток на температуру?

In [3]:
data <- read.csv('datasets/Pillulkin.csv')
data$patient <- as.factor(data$patient)


In [4]:
fit <- aov(temperature ~ pill + Error(patient/pill), data=data)
summary(fit)


Error: patient
          Df Sum Sq Mean Sq F value Pr(>F)
Residuals  9  42.82   4.758               

Error: patient:pill
          Df Sum Sq Mean Sq F value Pr(>F)
pill       1  0.133   0.133   0.051  0.826
Residuals  9 23.479   2.609               

Error: Within
          Df Sum Sq Mean Sq F value Pr(>F)
Residuals 20  87.51   4.375               

Дисперсионный анализ учитывает различия как между разными группами, так и внутри одной группы. Когда вы вводите испытуемых, то как бы разбиваете все данные помимо групп по цене и типам терапии также еще и по испытуемым, и учитываете вариативность относительно каждого испытуемого, которая вносится в общую вариативность.

**Продолжение задачи**. Теперь вашей задачей будет провести двухфакторный дисперсионный анализ с повторными измерениями: влияние факторов `doctor`, влияние фактора `pill` и их взаимодействие на `temperature`. Учтите обе внутригрупповые переменные: и тот факт, что один и тот же больной принимает разные таблетки, и тот факт, что один и тот же больной лечится у разных врачей! Каково F-значение для взаимодействия факторов доктора (`doctor`) и типа таблеток (`pill`)?

In [22]:
summary(aov(temperature ~ pill*doctor +
            Error(patient/(doctor+pill)),
            data=data))[[4]]

            Df Sum Sq Mean Sq F value Pr(>F)
pill:doctor  1  0.422  0.4215   0.146  0.711
Residuals    9 26.014  2.8905               