<a href="https://colab.research.google.com/github/MaximTislenko/GB_med_stat_R/blob/main/%D0%94%D0%BE%D0%BF_%D1%83%D0%BF%D1%80%D0%B0%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Дополнительные приемы управления данными
В главе 3 мы рассмотрели основные способы управления наборами данных в R. В этой главе мы сосредоточимся на более сложных подходах. Глава делится на три основные части. В первой части мы кратко познакомимся с многочисленными функциями, выполняющими математические и статистические вычисления, а также преобразование текстовых значений. Для придания этой части большей актуальности мы начнем с описания задачи по преобразованию данных, которую можно решить с использованием этих функций. После знакомства с функциями мы рассмотрим одно из возможных решений данной задачи.

Затем мы поговорим о том, как писать свои собственные функции для управления данными и их анализа. Сначала мы исследуем способы управления потоком выполнения инструкций с использованием циклов и условных операторов. Потом познакомимся со структурой пользовательских функций и узнаем, как их применять.

Наконец, мы рассмотрим способы агрегирования, обобщения и преобразования наборов данных. При агрегировании данных можно использовать любые встроенные или написанные пользователем функции, поэтому знания, полученные в первых двух разделах этой главы, вам действительно пригодятся.

In [None]:
library(tidyverse)
library(readxl)

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mggplot2  [39m 3.4.4     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.3     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.0.2     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mpurrr[39m::[32m%||%()[39m   masks [34mbase[39m::%||%()
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


## Задача по управлению данными
Прежде чем начинать обсуждение числовых и текстовых функций, определим задачу, которую затем будем решать. Группа студентов сдавала экзамены по математике, естественным наукам и английскому языку. Полученные ими баллы по трем предметам нужно объединить и получить единый показатель успеваемости для каждого студента. Кроме того, необходимо поставить оценку A первым по успеваемости 20 % студентов, оценку B – следующим по успеваемости 20 % и т. д. Наконец, список студентов нужно
отсортировать в алфавитном порядке.

\begin{array}{l|c|c|c}
Студент&Математика&Естественные~науки&Английский~язык\\\hline
John~Davis&502&95&25\\
Angela~Williams&600&99&22\\
Bullwinkie~Moose&412&80&18\\
David~Jones&358&82&15\\
Janice~Markhammer&495&75&20\\
Cheryl~Cushing&512&85&28\\
Reuven~Ytzrhak&410&80&15\\
Greg~Knox&625&95&30\\
Joel~England&573&89&27\\
Mary~Rayburn&522&86&18
\end{array}

При взгляде на эти данные сразу можно заметить несколько проблем. Во-первых, баллы, полученные на экзаменах по разным предметам, несопоставимы между собой. Их средние значения и стандартные отклонения сильно различаются, поэтому усреднять их не имеет смысла. Для вычисления единого показателя успеваемости необходимо преобразовать эти баллы так, чтобы их можно было сопоставлять между собой. Во-вторых, нам понадобится метод для определения мест студентов в общем рейтинге успеваемости, чтобы поставить им итоговую оценку. В-третьих, для нормальной сортировки студентов в алфавитном порядке нужно разбить первый столбец на два – с именем и фамилией.

Все перечисленные проблемы можно устранить с помощью числовых и текстовых функций в R. После знакомства с функциями в следующем разделе мы сможем найти подходящее решение для нашей задачи по управлению данными.


## Числовые и текстовые функции
В этом разделе перечисляются функции R, которые можно использовать для управления данными. Их можно разделить на числовые (математические, статистические, вероятностные) и текстовые. После знакомства с функциями обоих типов я покажу вам, как применять их к столбцам (переменным) и строкам (наблюдениям) таблиц данных

### Математические функции
\begin{array}{r|l}
Функция&Описание\\\hline
abs(x)&Абсолютное~значение\\
~&abs(-4)~вернет~4\\\hline
sqrt(x)&Квадратный~корень\\
~&sqrt(25)~вернет~5\\
~&То~же~самое, что~и~25(0.5)
\end{array}