<a href="https://colab.research.google.com/github/MaximTislenko/GB_med_stat_R/blob/main/%D0%94%D0%BE%D0%BF_%D1%83%D0%BF%D1%80%D0%B0%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Дополнительные приемы управления данными
В главе 3 мы рассмотрели основные способы управления наборами данных в R. В этой главе мы сосредоточимся на более сложных подходах. Глава делится на три основные части. В первой части мы кратко познакомимся с многочисленными функциями, выполняющими математические и статистические вычисления, а также преобразование текстовых значений. Для придания этой части большей актуальности мы начнем с описания задачи по преобразованию данных, которую можно решить с использованием этих функций. После знакомства с функциями мы рассмотрим одно из возможных решений данной задачи.

Затем мы поговорим о том, как писать свои собственные функции для управления данными и их анализа. Сначала мы исследуем способы управления потоком выполнения инструкций с использованием циклов и условных операторов. Потом познакомимся со структурой пользовательских функций и узнаем, как их применять.

Наконец, мы рассмотрим способы агрегирования, обобщения и преобразования наборов данных. При агрегировании данных можно использовать любые встроенные или написанные пользователем функции, поэтому знания, полученные в первых двух разделах этой главы, вам действительно пригодятся.

In [None]:
library(tidyverse)
library(readxl)

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mggplot2  [39m 3.4.4     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.3     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.0.2     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mpurrr[39m::[32m%||%()[39m   masks [34mbase[39m::%||%()
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


## Задача по управлению данными
Прежде чем начинать обсуждение числовых и текстовых функций, определим задачу, которую затем будем решать. Группа студентов сдавала экзамены по математике, естественным наукам и английскому языку. Полученные ими баллы по трем предметам нужно объединить и получить единый показатель успеваемости для каждого студента. Кроме того, необходимо поставить оценку A первым по успеваемости 20 % студентов, оценку B – следующим по успеваемости 20 % и т. д. Наконец, список студентов нужно
отсортировать в алфавитном порядке.

\begin{array}{l|c|c|c}
Студент&Математика&Естественные~науки&Английский~язык\\\hline
John~Davis&502&95&25\\
Angela~Williams&600&99&22\\
Bullwinkie~Moose&412&80&18\\
David~Jones&358&82&15\\
Janice~Markhammer&495&75&20\\
Cheryl~Cushing&512&85&28\\
Reuven~Ytzrhak&410&80&15\\
Greg~Knox&625&95&30\\
Joel~England&573&89&27\\
Mary~Rayburn&522&86&18
\end{array}

При взгляде на эти данные сразу можно заметить несколько проблем. Во-первых, баллы, полученные на экзаменах по разным предметам, несопоставимы между собой. Их средние значения и стандартные отклонения сильно различаются, поэтому усреднять их не имеет смысла. Для вычисления единого показателя успеваемости необходимо преобразовать эти баллы так, чтобы их можно было сопоставлять между собой. Во-вторых, нам понадобится метод для определения мест студентов в общем рейтинге успеваемости, чтобы поставить им итоговую оценку. В-третьих, для нормальной сортировки студентов в алфавитном порядке нужно разбить первый столбец на два – с именем и фамилией.

Все перечисленные проблемы можно устранить с помощью числовых и текстовых функций в R. После знакомства с функциями в следующем разделе мы сможем найти подходящее решение для нашей задачи по управлению данными.


## Числовые и текстовые функции
В этом разделе перечисляются функции R, которые можно использовать для управления данными. Их можно разделить на числовые (математические, статистические, вероятностные) и текстовые. После знакомства с функциями обоих типов я покажу вам, как применять их к столбцам (переменным) и строкам (наблюдениям) таблиц данных

### Математические функции
\begin{array}{r|l}
Функция&Описание\\\hline
abs(x)&Абсолютное~значение\\
~&abs(-4)~вернет~4\\\hline
sqrt(x)&Квадратный~корень\\
~&sqrt(25)~вернет~5\\
~&То~же~самое, что~и~25**(0.5)\\\hline
ceiling(x)&Ближайшее~целое~число, не~меньшее, чем~x\\
~&ceiling(3.457)~вернет~4\\\hline
floor(x)&Ближайшее~целое~число, не~большее, чем~x\\
~&floor(3.457)~вернет~3\\\hline
trunk(x)&Целое~число, полученное~округлением~x~в~сторону~нуля\\
~&trunk(5.99)~вернет~5\\\hline
round(x,~ digits=n)&Округляет~x~до~заданного~числа~знаков~n~после~запятой\\
~&round(3.475,~digits=2)~вернет~3.48\\\hline
signif(x,~digits=n)&Округляет~x~до~заданного~числа~n~значащих~цифр\\
~&signif(3.475,~digits=2)~вернет~3.5\\\hline
cos(x), sin(x), tan(x)&Косинус, синус~и~тангенс\\
~&cos(2) вернет –0.416\\\hline
acos(x), asin(x),atan(x)&Арккосинус, арксинус~и~арктангенс\\
~&acos(-0.416)~вернет~2\\\hline
cosh(x), sinh(x), tanh(x)&Гиперболические~косинус, синус~и~тангенс\\
~&sinh(2)~вернет~3.627\\\hline
acosh(x), asinh(x), atanh(x)&Гиперболические~арккосинус, арксинус~и~арктангенс\\
~&asinh(3.627)~вернет~2\\\hline
log(x,~base=n)&Логарифм~x~по~основанию~n\\
log(x)&Для~удобства:\\
log10(x)&log(x) – натуральный~логарифм\\
~&log10(x) – десятичный логарифм\\
~&log(10)~вернет~2.3026\\
~&log10(10)~вернет~1\\\hline
exp(x)&Экспоненциальная~функция\\
~&exp(2.3026)~вернет~10\\\hline
\end{array}

В основном эти функции применяются для преобразования данных. К примеру, данные с положительно асимметричным распределением перед дальнейшей обработкой обычно логарифмируют. Математические функции также используют при реализации вычислений по формулам, создании графиков (например, кривая зависимости `x` от `sin(x)`) и форматировании числовых значений перед выводом на экран.

В таблице показаны примеры применения математических функций к скалярам (отдельным числам). Когда эти функции применяются к числовым векторам, матрицам или таблицам данных, они преобразуют каждое число отдельно. Например, `sqrt(c(4, 16, 25))` вернет вектор `c(2, 4, 5)`.

### Статистические функции

Самые распространенные статистические функции перечислены
в таблице ниже. Многие из них принимают дополнительные параметры, влияющие на результат. Например,
```
y <- mean(x)
```
вычислит среднее арифметическое по всем элементам объекта x, а
```
z <- mean(x, trim = 0.05, na.rm=TRUE)
```
вычислит усеченное среднее, исключив 5 % наибольших и 5 % наименьших значений в выборке, а также пропущенные значения. Используйте `help()`, чтобы узнать больше о каждой функции и ее аргументах.

\begin{array}{r|l}
Функция&Описание\\\hline
mean(x)&Среднее~арифметическое\\
~&mean(c(1,2,3,4))~вернет~2.5\\\hline
median(x)&Медиана\\
~&median(c(1,2,3,4))~вернет~2.5\\\hline
sd(x)&Стандартное~отклонение\\
~&sd(c(1,2,3,4))~вернет~1.29\\\hline
var(x)&Дисперсия\\
~&var(c(1,2,3,4))~вернет~1.67\\\hline
mad(x)&Абсолютное~отклонение~медианы\\
~&mad(c(1,2,3,4))~вернет~1.48\\\hline
quantile(x,~probs)&Квантили, где~x~–~числовой~вектор, для~которого~вычисляются~квантили,\\
~&а~probs~–~числовой~вектор~с~вероятностями~в~диапазоне~[0; 1]\\
~&\# 30^й~и~84^й~процентили~x\\
~&y <- quantile(x, c(.3,.84))\\\hline
range(x)&Размах~значений\\
~&x <- c(1,2,3,4)\\
~&range(x)~ вернет~ c(1,4).\\
~&diff(range(x))~ вернет~3\\\hline
sum(x)&Сумма\\
~&sum(c(1,2,3,4))~ вернет~ 10\\\hline
diff(x,~ lag=n)&Разности~между~значениями~в~выборке, взятыми~с~заданным~интервалом\\
~&lag.~По~умолчанию~интервал~равен~1.\\
~&x <- c(1,5,23,29)\\
~&diff(x)~вернет~c(4, 18, 6)\\\hline
min(x)&Минимум\\
~&min(c(1,2,3,4))~вернет~1\\\hline
max(x)&Максимум\\
~&max(c(1,2,3,4))~вернет~4\\\hline
scale(x,&Значения~объекта~x,~центрированные~(center=TRUE)~или~стандартизиро-\\
center=TRUE,&ванные~(center=TRUE,~scale=TRUE)~по~столбцам.~Пример~использования\\
scale=TRUE)&приводится~в~листинге~ниже.\\\hline
\end{array}



In [2]:
x <- c(1,2,3,4,5,6,7,8)

In [3]:
# Стеднее арифметическое
mean(x)

In [5]:
# Стандартное отклонение
sd(x)

In [7]:
# Долгий способ
n <- length(x)
meanx <- sum(x)/n
css <- sum((x - meanx)^2)
sdx <- sqrt(css / (n-1))
meanx
sdx

#### Стандартизация данных
По умолчанию функция `scale()` стандартизирует заданный столбец матрицы или таблицы данных так, чтобы его среднее арифметическое стало равно нулю, а стандартное отклонение – единице 1:
```
newdata <- scale(mydata)
```
Для стандартизации каждого столбца так, чтобы его среднее арифметическое и стандартное отклонение приобрели заданные значения, можно использовать примерно такой программный код:
```
newdata <- scale(mydata)*SD + M
```
где M – желаемое значение среднего арифметического, а SD – стандартного отклонения.

Применение функции `scale()` к столбцам с нечисловыми данными вызывает сообщение об ошибке. Чтобы стандартизировать определенный столбец, а не всю матрицу или таблицу данных целиком, можно использовать такой программный код:
```
newdata <- transform(mydata, myvar = scale(myvar)*10+50)
```
Этот код преобразует вектор myvar так, что его среднее арифметическое становится равным 50, а стандартное отклонение – 10. Мы будем использовать функцию scale() для решения описанной выше задачи

# P/n 142