<a href="https://colab.research.google.com/github/MaximTislenko/GB_med_stat_R/blob/main/Regression_03_08_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
library(tidyverse)
library(readxl)

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mggplot2  [39m 3.4.4     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.3     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.0.2     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mpurrr[39m::[32m%||%()[39m   masks [34mbase[39m::%||%()
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


# Часть II
# Базовые методы


# Глава 7
# Основные методы статистической обработки данных
В предыдущих главах вы узнали, как импортировать данные в R и как использовать разнообразные функции для упорядочения и преобразования данных в нужный формат. Затем мы рассмотрели базовые методы визуализации данных.

Обычно следующий шаг после упорядочения данных и их визуального исследования – описание распределения значений каждой переменной при помощи числовых показателей. Затем, как правило, исследуют взаимосвязи между парами переменных. Цель этих процедур – ответить на следующие вопросы:
* Каков расход топлива у современных автомобилей? А именно как распределены значения расхода топлива (среднее, стандартное отклонение, медиана, размах и т. д.) в имеющихся данных по разным маркам машин?
* Отличается ли действие нового лекарства (нет улучшения, некоторое улучшение, заметное улучшение) по сравнению с плацебо? Зависит ли результат испытаний от пола пациентов?
* Как взаимосвязаны доход и средняя продолжительность жизни? Можно ли утверждать, что коэффициент корреляции значимо отличается от нуля?
* Правда ли, что вероятность сесть в тюрьму за преступление неодинакова в разных штатах США? Значимы ли различия между штатами?

В этой главе мы рассмотрим функции R, позволяющие вычислять описательные и предсказательные статистики. Для начала познакомимся с методами оценки центральной тенденции и разброса значений количественных переменных. Затем узнаем, как создавать таблицы частот и сопряженности (и как проверить соответствие критерию хи-квадрат) для категориальных переменных. Потом исследуем разные формы коэффициентов корреляции, применимые к непрерывным и порядковым переменным. Наконец,
обратимся к исследованию различий между группами при помощи параметрических (критерий Стьюдента) и непараметрических (критерии Манна–Уитни и Краскела–Уоллиса) методов. Основное наше внимание будет сосредоточено на числовых показателях, тем не менее постоянно будут упоминаться графические методы, которые можно использовать для визуализации этих показателей.

С обсуждаемыми в этой главе статистическими методами люди обычно знакомятся на первых курсах вузов. Если эти методы незнакомы вам, я рекомендую два замечательных пособия: MacCall (2000) и Kirk (2008)1.


> На русском языке основные статистические методы кратко описаны в пособии П. А. Волковой и А. Б. Шипунова «Статистическая обработка данных в учебно-исследовательских работах» (Форум, 2012).


По каждой теме существует также множество источников в интернете (таких как Википедия).


In [None]:
sapply(mtcars[myvars], mystats)

Unnamed: 0,mpg,hp,wt
n,32.0,32.0,32.0
mean,20.090625,146.6875,3.21725
stdev,6.026948,68.5628685,0.97845744
skew,0.610655,0.7260237,0.42314646
kurtosis,-0.372766,-0.1355511,-0.02271075


Согласно полученным результатам, средний пробег в милях на галлон по всем маркам автомобилей составляет 20.1 мили со стандартным отклонением 6.0. Максимум кривой распределения значений смещен вправо (+0.61) и находится немного ниже максимума кривой нормального распределения (–0.37). Это будет хорошо заметно на графике. Отметьте также, что если понадобится удалить строки с пропущенными значениями, то вызов функции следует записать так:
```
sapply(mtcars[vars], mystats, na.omit=TRUE).
```

### Дополнительные возможности
Функции для вычисления описательных статистик имеются также в некоторых дополнительных пакетах, таких как `Hmisc`, `pastecs`, `psych`, `skimr` и `summytools`. Из-за ограниченного пространства в книге я продемонстрирую только первые три, но вы в своей работе с успехом можете использовать все пять. Не забудьте установить эти пакеты перед первым использованием, потому что они не входят в состав дистрибутива R.


>install.packages("survival")

>install.packages("lattice")

>install.packages("ggplot2")

>install.packages("Hmisc")



Функция `describe()` из пакета `Hmisc` выводит число переменных и наблюдений, число пропущенных и неповторяющихся значений, среднее, квартили, а также пять наименьших и пять наибольших значений. Пример представлен ниже.

In [None]:
install.packages("Hmisc")
library(Hmisc)
myvars <- c("mpg", "hp", "wt")
describe(mtcars[myvars])

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘checkmate’, ‘htmlwidgets’, ‘gridExtra’, ‘htmlTable’, ‘viridis’, ‘Formula’



Attaching package: ‘Hmisc’


The following objects are masked from ‘package:dplyr’:

    src, summarize


The following objects are masked from ‘package:base’:

    format.pval, units




mtcars[myvars] 

 3  Variables      32  Observations
--------------------------------------------------------------------------------
mpg 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
      32        0       25    0.999    20.09    6.796    12.00    14.34 
     .25      .50      .75      .90      .95 
   15.43    19.20    22.80    30.09    31.30 

lowest : 10.4 13.3 14.3 14.7 15  , highest: 26   27.3 30.4 32.4 33.9
--------------------------------------------------------------------------------
hp 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
      32        0       22    0.997    146.7    77.04    63.65    66.00 
     .25      .50      .75      .90      .95 
   96.50   123.00   180.00   243.50   253.55 

lowest :  52  62  65  66  91, highest: 215 230 245 264 335
--------------------------------------------------------------------------------
wt 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
      32    

В пакете `pastecs` есть функция `stat.desc()`, вычисляющая множество описательных статистик. Она имеет следующий синтаксис:
```
stat.desc(x, basic=TRUE, desc=TRUE, norm=FALSE, p=0.95)
```
где x – это таблица данных или временной ряд. Если basic=TRUE (по умолчанию), то вычисляется число действительных, пустых (null) и пропущенных значений, минимум, максимум, размах и сумма. Если desc=TRUE (тоже по умолчанию), то вычисляются медиана, среднее арифметическое, стандартная ошибка среднего, 95%-ный доверительный интервал для среднего, дисперсия, стандартное отклонение и коэффициент вариации. Наконец, если norm=TRUE (не по умолчанию), вычисляются статистики нормального распределения, включая асимметрию и эксцесс (и их достоверность), и критерий Шапиро–Уилка (Shapiro-Wilk) соответствия нормальному распределению. Параметр p используется при вычислении доверительного интервала для среднего арифметического (по умолчанию он получает значение 0.95). Пример ниже:

In [None]:
install.packages("pastecs")
library(pastecs)
myvars <- c("mpg", "hp", "wt")
stat.desc(mtcars[myvars])

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)


Attaching package: ‘pastecs’


The following objects are masked from ‘package:dplyr’:

    first, last


The following object is masked from ‘package:tidyr’:

    extract




Unnamed: 0_level_0,mpg,hp,wt
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>
nbr.val,32.0,32.0,32.0
nbr.null,0.0,0.0,0.0
nbr.na,0.0,0.0,0.0
min,10.4,52.0,1.513
max,33.9,335.0,5.424
range,23.5,283.0,3.911
sum,642.9,4694.0,102.952
median,19.2,123.0,3.325
mean,20.090625,146.6875,3.21725
SE.mean,1.065424,12.1203173,0.1729685


Как будто этого недостаточно, в пакете psych тоже есть функция с именем describe(), которая выводит на экран число действительных значений, среднее арифметическое, стандартное отклонение, усеченное среднее, минимум, максимум, размах, асимметрию, эксцесс и стандартную ошибку среднего.

In [None]:
install.packages("psych")
library(psych)
myvars <- c("mpg", "hp", "wt")
describe(mtcars[myvars])

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘mnormt’, ‘GPArotation’



Attaching package: ‘psych’


The following object is masked from ‘package:Hmisc’:

    describe


The following objects are masked from ‘package:ggplot2’:

    %+%, alpha




Unnamed: 0_level_0,vars,n,mean,sd,median,trimmed,mad,min,max,range,skew,kurtosis,se
Unnamed: 0_level_1,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
mpg,1,32,20.09062,6.0269481,19.2,19.696154,5.41149,10.4,33.9,23.5,0.610655,-0.37276603,1.065424
hp,2,32,146.6875,68.5628685,123.0,141.192308,77.0952,52.0,335.0,283.0,0.7260237,-0.13555112,12.1203173
wt,3,32,3.21725,0.9784574,3.325,3.152692,0.7672455,1.513,5.424,3.911,0.4231465,-0.02271075,0.1729685


####Я же говорил вам, что возможности потрясают воображение!


>ПРИМЕЧАНИЕ. Как показывают предыдущие примеры, функция с именем describe() определена и в пакете psych, и в пакете Hmisc. Как R узнает, какую из них выбрать? Очень просто: преимущество имеет пакет, загруженный последним, как это видно в листинге выше. В данном случае пакет psych загружается после Hmisc, и на экран выводится сообщение о том, что функция describe() из пакета Hmisc «замаскирована» функцией с таким же именем из пакета psych. Встретив вызов функции, R начинает поиск с пакета psych, обнаруживает ее там и вызывает. Чтобы воспользоваться функцией из пакета Hmisc, ее можно вызвать так: Hmisc::describe(mt). Сама функция никуда не делась, просто нужно подсказать R, где ее следует искать.

Теперь, познакомившись со способами вычисления описательных статистик для набора данных в целом, посмотрим, как получить их для отдельных групп.

### Вычисление описательных статистик для групп данных
При сравнении групп объектов или наблюдений обычно обращают внимание на значения описательных статистик, характеризующих эти группы, а не на всю выборку в целом. Описательные статистики для групп можно получить с помощью функции by(), имеющей следующий синтаксис:
```
by(data, INDICES, FUN)
```
где data – это таблица данных или матрица, INDICES – фактор или список факторов, определяющих группы, и FUN – произвольная функция, оперирующая всеми столбцами в таблице данных. Пример использования этой функции приводится ниже.

In [None]:
dstats <- function(x)sapply(x, mystats)
myvars <- c("mpg", "hp", "wt")
by(mtcars[myvars], mtcars$am, dstats)

mtcars$am: 0
                 mpg           hp         wt
n        19.00000000  19.00000000 19.0000000
mean     17.14736842 160.26315789  3.7688947
stdev     3.83396639  53.90819573  0.7774001
skew      0.01395038  -0.01422519  0.9759294
kurtosis -0.80317826  -1.20969733  0.1415676
------------------------------------------------------------ 
mtcars$am: 1
                 mpg          hp         wt
n        13.00000000  13.0000000 13.0000000
mean     24.39230769 126.8461538  2.4110000
stdev     6.16650381  84.0623243  0.6169816
skew      0.05256118   1.3598859  0.2103128
kurtosis -1.45535200   0.5634635 -1.1737358

В этом примере `dstats()` применяет функцию `mystats()` из листинга к каждому столбцу в таблице данных. Поместив ее в вызов функции `by()`, мы получаем описательные статистики для автомобилей с разными типами трансмиссии (am).

Следующий пример демонстрирует получение описательных статистик для двух переменных (am и vs – тип трансмиссии и расположение цилиндров) и выводит результаты для каждой группы под заданными нами подписями (mpg, hp и wt – пробег в милях на галлон, мощность в лошадиных силах и вес соответственно). Кроме того, перед вычислением статистик он удаляет
пропущенные значения.

In [None]:
dstats <- function(x)sapply(x, mystats, na.omit=TRUE)
myvars <- c("mpg", "hp", "wt")
by(mtcars[myvars], list(Transmission=mtcars$am, Engine=mtcars$vs), FUN=dstats)

Transmission: 0
Engine: 0
                mpg          hp         wt
n        12.0000000  12.0000000 12.0000000
mean     15.0500000 194.1666667  4.1040833
stdev     2.7743959  33.3598379  0.7683069
skew     -0.2843325   0.2785849  0.8542070
kurtosis -0.9635443  -1.4385375 -1.1433587
------------------------------------------------------------ 
Transmission: 1
Engine: 0
                mpg          hp          wt
n         6.0000000   6.0000000  6.00000000
mean     19.7500000 180.8333333  2.85750000
stdev     4.0088652  98.8158219  0.48672117
skew      0.2050011   0.4842372  0.01270294
kurtosis -1.5266040  -1.7270981 -1.40961807
------------------------------------------------------------ 
Transmission: 0
Engine: 1
                mpg          hp         wt
n         7.0000000   7.0000000  7.0000000
mean     20.7428571 102.1428571  3.1942857
stdev     2.4710707  20.9318622  0.3477598
skew      0.1014749  -0.7248459 -1.1532766
kurtosis -1.7480372  -0.7805708 -0.1170979
------------------

В предыдущих примерах использовалась функция `mystats()`, но точно так же можно было бы использовать функцию `description()` из пакетов `Hmisc` и `psych` или `stat.desc()` из пакета `pastecs`. Фактически функция` by()` обеспечивает лишь общий механизм выполнения любого анализа по подгруппам.

### Получение описательных статистик в интерактивном режиме с помощью dplyr
До сих пор мы рассматривали методы, генерирующие полный набор описательных статистик для заданной таблицы данных. Однако в ходе интерактивных исследований часто стоит цель – получить ответы на конкретные вопросы. В таких случаях желательно получить ограниченное количество статистик по конкретным группам наблюдений.

Пакет dplyr содержит инструменты для быстрого и гибкого решения этой задачи. Функции summarize() и summarize_all() можно использовать для вы
числения любых статистик, а функцию group_by() – для описания групп, по которым следует вычислять статистики.

В качестве примера зададим и ответим на ряд вопросов, используя таблицу данных Salaries из пакета carData. Этот набор данных содержит информацию о размере заработной платы за девять месяцев в долларах США (salary) в 2008–2009 годах для 397 преподавателей университета в США. Данные были собраны в рамках мониторинга разницы в заработной плате между преподавателями мужского и женского полов.

Прежде чем продолжить, установите пакеты carData и dplyr
(install.packages(c("carData", "dplyr")) и затем загрузите их:

In [None]:
install.packages("carData")
library(dplyr)
library(carData)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



In [None]:
Salaries

rank,discipline,yrs.since.phd,yrs.service,sex,salary
<fct>,<fct>,<int>,<int>,<fct>,<int>
Prof,B,19,18,Male,139750
Prof,B,20,16,Male,173200
AsstProf,B,4,3,Male,79750
Prof,B,45,39,Male,115000
Prof,B,40,41,Male,141500
AssocProf,B,6,6,Male,97000
Prof,B,30,23,Male,175000
Prof,B,45,45,Male,147765
Prof,B,21,20,Male,119250
Prof,B,18,18,Female,129000


In [None]:
Salaries %>%
  summarise(med = median(salary), min = min(salary), max = max(salary))

med,min,max
<int>,<int>,<int>
107300,57800,231545


Набор данных Salaries передается функции summarise(), которая вычисляет медиану, минимальное и максимальное значения зарплаты и возвращает результат в виде однострочной таблицы данных.

Средняя зарплата за девять месяцев составляет 107 300 долларов, и по крайней мере один человек заработал более 230 000 долларов. Очевидно, что я имею полное право просить о повышении.

Каково количество преподавателей, средняя заработная плата
и размах в зависимости от пола и должности?

In [None]:
Salaries %>%
  group_by(rank, sex)%>%
  summarise(n = length(salary), med = median(salary), min = min(salary), max = max(salary))

[1m[22m`summarise()` has grouped output by 'rank'. You can override using the
`.groups` argument.


rank,sex,n,med,min,max
<fct>,<fct>,<int>,<dbl>,<int>,<int>
AsstProf,Female,11,77000.0,63100,97032
AsstProf,Male,56,80182.0,63900,95079
AssocProf,Female,10,90556.5,62884,109650
AssocProf,Male,54,95626.5,70000,126431
Prof,Female,18,120257.5,90450,161101
Prof,Male,248,123996.0,57800,231545


Когда функции `by_group()` передаются категориальные переменные, функция `summary()` генерирует статистики для каждой комбинации их значений. На всех факультетах у женщин медианная заработная плата ниже, чем у мужчин. Кроме того, в этом университете очень много профессоров-мужчин.

Каков средний стаж работы и как давно получена докторская степень для преподавателей в разбивке по полу и должности?

In [None]:
Salaries %>%
  group_by(rank, sex) %>%
  select(yrs.service, yrs.since.phd) %>%
  summarize_all(mean)

[1m[22mAdding missing grouping variables: `rank`, `sex`


rank,sex,yrs.service,yrs.since.phd
<fct>,<fct>,<dbl>,<dbl>
AsstProf,Female,2.545455,5.636364
AsstProf,Male,2.339286,5.0
AssocProf,Female,11.5,15.5
AssocProf,Male,12.037037,15.444444
Prof,Female,17.111111,23.722222
Prof,Male,23.229839,28.633065


Функция `summarize_all()` вычисляет сводные статистики для каждой негрупповой переменной (yrs.service и yrs.since.phd). Чтобы получить более одной статистики для каждой переменной, их нужно представить в виде списка. Например, `summarize_all(list (mean=mean, std=sd))` вычислит среднее значение и стандартное отклонение для каждой переменной. Мужчины и женщины имеют сопоставимый стаж работы на должности ассистента и доцента. Однако женщины-профессора имеют меньший стаж, чем их коллеги-мужчины.

Одно из преимуществ пакета `dplyr` – результаты возвращаются в виде усовершенствованных таблиц данных (tibbles). Это позволяет применять дополнительные виды анализа к сводным результатам, отображать их в графическом виде и выводить на печать. Он также предоставляет простой механизм агрегирования данных.

Как правило, у аналитиков есть свои предпочтения в отношении описательных статистик и формата их отображения. Вероятно, поэтому существует множество вариантов. Выберите тот, который лучше подходит для вас, или создайте свой!

### Визуализация результатов
Представление характеристик распределения данных в числовом виде полезно, но не заменяет графического изображения. Для отображения количественных данных можно использовать гистограммы (раздел 6.4), диаграммы плотности рассеяния (раздел 6.5), коробчатые диаграммы (раздел 6.6) и точечные диаграммы (раздел 6.7). Они помогают заметить вещи, которые легко упустить, если полагаться на небольшой набор описательных статистик.

Функции, которые мы рассматривали до сих пор, позволяют охарактеризовать количественные данные. Функции, описанные в следующем разделе, предназначены для анализа распределения категориальных переменных.

## Таблицы частот и таблицы сопряженности
В этом разделе мы рассмотрим таблицы частот и таблицы сопряженности для категориальных переменных, а также познакомимся с критериями независимости, мерами связи и способами графического представления результатов. Мы будем использовать функции, имеющиеся в базовой версии R, а также функции из пакетов vcd и gmodels. В примерах, представленных ниже, буквами A, B и C будут обозначаться категориальные переменные.

В примерах в этом разделе использован набор данных Arthritis из пакета vcd. Эти данные опубликованы в Kock & Edward (1988) и представляют результаты клинического исследования нового способа лечения ревматоидного артрита двойным слепым методом. Вот первые несколько наблюдений:

In [None]:
install.packages("vcd")
library(vcd)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘zoo’, ‘lmtest’


Loading required package: grid



In [None]:
Arthritis

Unnamed: 0_level_0,ID,Treatment,Sex,Age,Improved
Unnamed: 0_level_1,<int>,<fct>,<fct>,<int>,<ord>
1,57,Treated,Male,27,Some
2,46,Treated,Male,29,
3,77,Treated,Male,30,
4,17,Treated,Male,32,Marked
5,36,Treated,Male,46,Marked
6,23,Treated,Male,58,Marked
7,75,Treated,Male,59,
8,39,Treated,Male,59,Marked
9,33,Treated,Male,63,
10,55,Treated,Male,63,


Способ лечения (Treatment: плацебо – Placebo и лекарство – Treated), пол (Sex: мужской – Male и женский – Female) и степень улучшения состояния больных (Improved: нет – None, некоторое – Some, заметное – Marked) – это категориальные факторы. В следующем подразделе мы создадим таблицы частот и сопряженности для этих данных.

### Создание таблиц частот
R предлагает несколько методов создания таблиц частот и сопряженности. Самые важные функции перечислены в таблице.
\begin{array}{|l|l|}
\hline
Функция&Описание\\\hline
table(var1,~var2,~...,&Создает~N-мерную~таблицу~сопряженности~для~N~категориальных\\
varN)&переменных~(факторов)\\\hline
xtabs(formula, data)&Создает~N-мерную~таблицу~сопряженности~на~основе~формулы\\
~&и~матрицы~или~таблицы~данных\\\hline
prop.table(table,~margins)&Представляет~значения~таблицы~в~виде~долей~от~суммы~всех\\
~&значений~в~строке~таблицы,~заданной~параметром~margins\\\hline
margin.table(table,~margins)&Суммирует~значения~таблицы~по~строкам~или~столбцам~(опреде-\\
~&ляется~параметром~margins)\\\hline
addmargins(table,~margins)&Вычисляет~описательные~статистики~margins~(суммы~по~умолча-\\
~&нию)~для~заданной~таблицы\\\hline
ftable(table)&Создает~компактную~«плоскую»~таблицу~сопряженности\\\hline
\end{array}

В следующих подразделах мы используем все эти функции для исследования категориальных переменных. Для начала вычислим простые частоты, потом построим таблицы сопряженности для двух переменных и закончим созданием таблиц сопряженности для нескольких переменных. В качестве первого шага создадим таблицу при помощи функций table() и xtabs(), а затем будем исследовать ее при помощи других функций.



#### Таблицы для одной переменной
Частоты значений одной переменной можно рассчитать при помощи функции `table()`. Например:

Эти частоты можно преобразовать в доли от общей суммы при помощи функции `prop.table()`:

Или в проценты, используя инструкцию `prop.table()*100`:

In [None]:
mytable <- with(Arthritis, table(Improved), table(Treatment))
mytable
prop.table(mytable)
prop.table(mytable)*100

Improved
  None   Some Marked 
    42     14     28 

Improved
     None      Some    Marked 
0.5000000 0.1666667 0.3333333 

Improved
    None     Some   Marked 
50.00000 16.66667 33.33333 

In [None]:
mytable <- with(Arthritis, table(Treatment))
mytable
prop.table(mytable)
prop.table(mytable)*100

Treatment
Placebo Treated 
     43      41 

Treatment
  Placebo   Treated 
0.5119048 0.4880952 

Treatment
 Placebo  Treated 
51.19048 48.80952 

In [None]:
mytable <- with(Arthritis, table(Sex))
mytable
prop.table(mytable)
prop.table(mytable)*100

Sex
Female   Male 
    59     25 

Sex
  Female     Male 
0.702381 0.297619 

Sex
 Female    Male 
70.2381 29.7619 

Судя по результатам, у половины пациентов после лечения имело место некоторое или заметное улучшение состояния (16.7 + 33.3).

#### Таблицы для двух переменных
В случае двух переменных синтаксис применения функции `table()` имеет следующий вид:
```
mytable <- table(A, B)
```
где A – это переменная, определяющая строки таблицы сопряженности, а B – столбцы.

Как вариант можно воспользоваться функцией `xtabs()`, которая позволяет при создании таблицы сопряженности вводить данные в виде формулы:
```
mytable <- xtabs(~ A + B, data=mydata)
```
где mydata – это матрицы или таблица данных. В общем случае переменные, для которых строится таблица сопряженности, находятся
в правой части формулы (то есть справа от знака ~) и разделяются знаками +. Если переменная находится в левой части формулы, предполагается, что это вектор с частотами значений (удобно, если вы их уже вычислили).

Для набора данных Arthritis у нас получится такая таблица:

In [None]:
mytable <- xtabs(~ Treatment + Improved, data=Arthritis)
mytable

         Improved
Treatment None Some Marked
  Placebo   29    7      7
  Treated   13    7     21

С помощью функций `margin.table()` и `prop.table()` можно рассчитать соответственно частоты и доли от сумм по столбцам или строкам. При суммировании и вычислении долей по **строкам** получаем:

In [None]:
margin.table(mytable, 1)

Treatment
Placebo Treated 
     43      41 

In [None]:
prop.table(mytable, 1)

         Improved
Treatment      None      Some    Marked
  Placebo 0.6744186 0.1627907 0.1627907
  Treated 0.3170732 0.1707317 0.5121951

\begin{array}{|c|c|c|c|c|}
\hline
Improved/Treatment&None&Some&Marked&Summ\\\hline
Placebo&29/43&7/43&7/43&1\\\hline
Treatment&13/41&7/41&21/41&1\\\hline
~&~&~&~\\\hline
~&~&~&~\\\hline
\end{array}

In [None]:
prop.table(mytable, 1)*100

         Improved
Treatment     None     Some   Marked
  Placebo 67.44186 16.27907 16.27907
  Treated 31.70732 17.07317 51.21951

Индекс 1 в вызове `table()` относится к первой переменной. Рассматривая полученную таблицу, можно заметить, что у 51 % пациентов, получавших настоящее лекарство, наступило заметное улучшение. Для сравнения: такой эффект наступил только у 16 % пациентов, получавших плацебо.

При суммировании и вычислении долей по **столбцам** получаем:

In [None]:
margin.table(mytable, 2)

Improved
  None   Some Marked 
    42     14     28 

In [None]:
prop.table(mytable, 2)

         Improved
Treatment      None      Some    Marked
  Placebo 0.6904762 0.5000000 0.2500000
  Treated 0.3095238 0.5000000 0.7500000

\begin{array}{|c|c|c|c|c|}
\hline
Improved/Treatment&None&Some&Marked&Summ\\\hline
Placebo&29/43&7/43&7/43&1\\\hline
Treatment&13/41&7/41&21/41&1\\\hline
\end{array}

In [None]:
prop.table(mytable, 2)*100

         Improved
Treatment     None     Some   Marked
  Placebo 69.04762 50.00000 25.00000
  Treated 30.95238 50.00000 75.00000

\begin{array}{|c|c|c|c|c|}
\hline
Improved/Treatment&None&Some&Marked&Summ\\\hline
Placebo&29/42&7/14&7/28&~\\\hline
Treatment&13/42&7/14&21/28&~\\\hline
Summ&1&1&1\\\hline
\end{array}

В этом случае индекс 2 в вызове `table()` относится к первой переменной.

При суммировании и вычислении долей по всем ячейкам таблицы получаем:

In [None]:
prop.table(mytable)

         Improved
Treatment       None       Some     Marked
  Placebo 0.34523810 0.08333333 0.08333333
  Treated 0.15476190 0.08333333 0.25000000

\begin{array}{|c|c|c|c|c|}
\hline
Improved/Treatment&None&Some&Marked&Summ\\\hline
Placebo&29/84&7/84&7/84&0.512\\\hline
Treatment&13/84&7/84&21/84&0.488\\\hline
Summ&0.5&0.167&0.333&1\\\hline
\end{array}

Сумма всех долей равна 1.

Для вычисления сумм по столбцам или строкам можно использовать функцию `addmargins()`:

In [None]:
addmargins(mytable)

Unnamed: 0,None,Some,Marked,Sum
Placebo,29,7,7,43
Treated,13,7,21,41
Sum,42,14,28,84


In [None]:
addmargins(prop.table(mytable))

Unnamed: 0,None,Some,Marked,Sum
Placebo,0.3452381,0.08333333,0.08333333,0.5119048
Treated,0.1547619,0.08333333,0.25,0.4880952
Sum,0.5,0.16666667,0.33333333,1.0


По умолчанию функция `addmargins()` вычисляет суммы и по столбцам, и по строкам таблицы. Также можно вычислить суммы только по строкам:

In [None]:
addmargins(prop.table(mytable, 1), 2)

Unnamed: 0,None,Some,Marked,Sum
Placebo,0.6744186,0.1627907,0.1627907,1
Treated,0.3170732,0.1707317,0.5121951,1


или только по столбцам:

In [None]:
addmargins(prop.table(mytable, 2), 1)

Unnamed: 0,None,Some,Marked
Placebo,0.6904762,0.5,0.25
Treated,0.3095238,0.5,0.75
Sum,1.0,1.0,1.0


Судя по полученным результатам, 25 % пациентов, чье состояние заметно улучшилось после лечения, получали плацебо.


> ПРИМЕЧАНИЕ. Функция `table()` по умолчанию игнорирует пропущенные значения `(NA)`. Чтобы добавить их в таблицу сопряженности как одно из возможных значений, используйте параметр `useNA="ifany"`.

Третий способ создания таблиц сопряженности для двух переменных – использовать функцию `CrossTable()` из пакета gmodels. Эта функция создает такую же таблицу, как функции `PROC FREQ` в `SAS` или `CROSSTABS` в `SPSS`.



In [None]:
install.packages("gmodels")
library(gmodels)
CrossTable(Arthritis$Treatment, Arthritis$Improved)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘gtools’, ‘gdata’





 
   Cell Contents
|-------------------------|
|                       N |
| Chi-square contribution |
|           N / Row Total |
|           N / Col Total |
|         N / Table Total |
|-------------------------|

 
Total Observations in Table:  84 

 
                    | Arthritis$Improved 
Arthritis$Treatment |      None |      Some |    Marked | Row Total | 
--------------------|-----------|-----------|-----------|-----------|
            Placebo |        29 |         7 |         7 |        43 | 
                    |     2.616 |     0.004 |     3.752 |           | 
                    |     0.674 |     0.163 |     0.163 |     0.512 | 
                    |     0.690 |     0.500 |     0.250 |           | 
                    |     0.345 |     0.083 |     0.083 |           | 
--------------------|-----------|-----------|-----------|-----------|
            Treated |        13 |         7 |        21 |        41 | 
                    |     2.744 |     0.004 |     3.935 |        

Функция `CrossTable()` принимает дополнительные параметры, управляющие вычислением процентов (по строкам, столбцам и ячейкам); округлением результатов до заданного числа знаков после запятой; вычислением критериев хи-квадрат, Фишера и Мак-Немара; вычислением ожидаемых значений и остатков (по Пирсону, стандартизованные, скорректированные стандартизованные); учетом пропущенных значений; добавлением подписей в виде имен строк и столбцов; форматированием результатов в стиле SAS
и SPSS. Более подробную информацию можно получить, вызвав `help(CrossTable)`.

Если в наборе данных имеется больше двух категориальных переменных, то есть возможность строить многомерные таблицы сопряженности. Давайте рассмотрим их.

#### Многомерные таблицы
Функции `table()` и `xtabs()` можно использовать для создания многомерных таблиц сопряженности для трех и более категориальных переменных. Функции `margin.table()`, `prop.table()` и `addmargins()`
тоже можно применять к многомерным таблицам. Кроме того, функция `ftable()` позволяет выводить многомерные таблицы в компактном и удобном виде. Примеры использования этих функций показаны ниже.

In [None]:
# Формирование трехмерной таблицы
mytable <- xtabs(~ Treatment+Sex+Improved, data=Arthritis)
mytable

, , Improved = None

         Sex
Treatment Female Male
  Placebo     19   10
  Treated      6    7

, , Improved = Some

         Sex
Treatment Female Male
  Placebo      7    0
  Treated      5    2

, , Improved = Marked

         Sex
Treatment Female Male
  Placebo      6    1
  Treated     16    5


In [None]:
# Доли от общей суммы по всем ячейкам
ftable(mytable)

                 Improved None Some Marked
Treatment Sex                             
Placebo   Female            19    7      6
          Male              10    0      1
Treated   Female             6    5     16
          Male               7    2      5

Инструкция ❶ вычисляет частоты для сочетаний всех трех факторов. Эта инструкция также демонстрирует, как можно использовать функцию `ftable()` для представления результатов в более удобном и компактном виде.

In [None]:
# Доли от суммы по строкам и столбцам
margin.table(mytable, 1)
margin.table(mytable, 2)
margin.table(mytable, 3)

Treatment
Placebo Treated 
     43      41 

Sex
Female   Male 
    59     25 

Improved
  None   Some Marked 
    42     14     28 

Инструкция ❷ вычисляет частоты для отдельных факторов Treatment, Sex и Improved. Поскольку исходная таблица была создана при помощи формулы ~ Treatment+Sex+Improved, индекс 1 соответствует переменной Treatment, индекс 2 – переменной Sex, а индекс 3 – переменной Improved.

In [None]:
# Доли от сумм по столбцам Treatment и Improved
margin.table(mytable, c(1, 3))

         Improved
Treatment None Some Marked
  Placebo   29    7      7
  Treated   13    7     21

Инструкция ❸ вычисляет частоты по всем сочетаниям значений Treatment и Improved, объединяя данные для мужчин и женщин.

In [None]:
# Доли от сумм по столбцам Treatment и Sex
ftable(prop.table(mytable, c(1, 2)))

                 Improved       None       Some     Marked
Treatment Sex                                             
Placebo   Female          0.59375000 0.21875000 0.18750000
          Male            0.90909091 0.00000000 0.09090909
Treated   Female          0.22222222 0.18518519 0.59259259
          Male            0.50000000 0.14285714 0.35714286

In [None]:
ftable(addmargins(prop.table(mytable, c(1, 2)), 3))

                 Improved       None       Some     Marked        Sum
Treatment Sex                                                        
Placebo   Female          0.59375000 0.21875000 0.18750000 1.00000000
          Male            0.90909091 0.00000000 0.09090909 1.00000000
Treated   Female          0.22222222 0.18518519 0.59259259 1.00000000
          Male            0.50000000 0.14285714 0.35714286 1.00000000

Инструкция ❹ вычисляет долю пациентов с разной степенью улучшения для каждого сочетания типа лечения и пола (Treatment и Sex). Здесь можно заметить, что заметное улучшение наступило у 36 % мужчин и 59 % женщин, получавших настоящее лекарство. В общем случае частоты вычисляются так, чтобы их сумма для всех значений фактора (в данном случае Improved), не указанного в вызове prop.table(), была равна единице. Это видно в последнем примере, где частоты суммируются по строкам.

Чтобы представить результаты в процентах, а не в долях от еди-
ницы, можно умножить все значения на 100. Например, следую-
щая инструкция:

In [None]:
ftable(addmargins(prop.table(mytable, c(1, 2)), 3)) * 100

                 Improved       None       Some     Marked        Sum
Treatment Sex                                                        
Placebo   Female           59.375000  21.875000  18.750000 100.000000
          Male             90.909091   0.000000   9.090909 100.000000
Treated   Female           22.222222  18.518519  59.259259 100.000000
          Male             50.000000  14.285714  35.714286 100.000000

Таблицы сопряженности содержат информацию о частотах всех сочетаний значений факторов, но нередко желательно также знать, связаны ли эти факторы между собой или они независимы. Критерии независимости обсуждаются в следующем разделе.

### Критерии независимости
Проверить независимость категориальных данных в R можно несколькими способами. В этом разделе описаны три критерия: хиквадрат, Фишера и Кохрана–Мантеля–Хензеля.

#### Хи-квадрат
К двумерной таблице можно применить функцию chisq.test(), чтобы проверить значение критерия хи-квадрат для переменных, представляющих строки и столбцы.

In [None]:
install.packages("vcd")
library(vcd)
mytable <- xtabs(~Treatment+Improved, data=Arthritis)
chisq.test(mytable)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)




	Pearson's Chi-squared test

data:  mytable
X-squared = 13.055, df = 2, p-value = 0.001463


Переменные Treatment и Improved не являются независимыми.

Как показывают результаты вычисления критерия хи-квадрат ❶,
между типом лечения (Treatment) и степенью улучшения (Improved)
состояния пациентов существует связь (p < 0.01). А вот между по-
лом пациентов и степенью улучшения их состояния связи нет

In [None]:
mytable <- xtabs(~Improved+Sex, data=Arthritis)
chisq.test(mytable)

“Chi-squared approximation may be incorrect”



	Pearson's Chi-squared test

data:  mytable
X-squared = 4.8407, df = 2, p-value = 0.08889


Переменные Sex и Improved не зависят друг от друга.

Как показывают результаты вычисления критерия хи-квадрат ❶, между типом лечения (Treatment) и степенью улучшения (Improved) состояния пациентов существует связь (p < 0.01). А вот между полом пациентов и степенью улучшения их состояния связи нет (p > 0.05) ❷. Значение статистической ошибки первого рода (p-value) – это вероятность отсутствия зависимости между данными переменными в генеральной совокупности. Поскольку эта вероятность достаточно мала в случае ❶, можно отвергнуть гипотезу о независимости результата лечения от его типа. Однако в случае ❷ недостаточно мала, поэтому есть основание полагать, что способ лечения и пол пациентов не зависят друг от друга. Предупреждение (warning message) в результатах в листинге появляется потому, что в одной из шести ячеек таблицы сопряженности (некоторое
улучшение состояния у мужчин) ожидаемое значение меньше 5, что может сделать недействительным критерий хи-квадрат.

#### Точный критерий Фишера
Точный критерий Фишера (Fisher’s exact test) можно вычислить с помощью функции fisher.test(). Этот критерий проверяет нулевую гипотезу о независимости столбцов и строк в таблице сопряженности. Эта функция имеет следующий синтаксис:
```
fisher.test(mytable)
где mytable – это двухмерная таблица.
```
Вот пример:

In [None]:
mytable <- xtabs(~Treatment+Improved, data=Arthritis)
fisher.test(mytable)


	Fisher's Exact Test for Count Data

data:  mytable
p-value = 0.001393
alternative hypothesis: two.sided


В отличие от многих статистических программ, функцию `fisher.test()` в R можно применять к любой таблице сопряженности (с двумя и более столбцами и строками), а не только к таблице размерности 2×2.

#### Критерий Кохрана–Мантеля–Хензеля
Функция mantelhaen.test() позволяет вычислить критерий хиквадрат Кохрана–Мантеля–Хензеля (Cochran-Mantel-Haenszel), проверяющий нулевую гипотезу о независимости двух номинальных переменных для каждого значения третьей переменной. Приведенный ниже код проверяет гипотезу о независимости переменных Treatment и Improved для каждого значения переменной Sex. При этом предполагается отсутствие трехсторонней взаимозависимости (Treatment × Improved × Sex).

In [None]:
mytable <- xtabs(~Treatment+Improved+Sex, data=Arthritis)
mantelhaen.test(mytable)


	Cochran-Mantel-Haenszel test

data:  mytable
Cochran-Mantel-Haenszel M^2 = 14.632, df = 2, p-value = 0.0006647


Полученный результат позволяет считать, что вне зависимости от пола пациентов между способом лечения и его результатом имеется выраженная связь.

### Меры тесноты связи
Статистические критерии значимости, описанные в предыдущем разделе, оценивали достаточность оснований для отклонения нулевой гипотезы о независимости двух переменных. Если нулевую гипотезу можно отвергнуть, то возникает следующий естественный вопрос: насколько сильна обнаруженная взаимосвязь. Функция `assocstats()` из пакета `vcd` вычисляет фи-коэффициент (phi coefficient), коэффициент сопряженности и V-коэффициент Крамера (Cramer’s V) для двумерной таблицы.

In [None]:
mytable <- xtabs(~Treatment+Improved, data=Arthritis)
assocstats(mytable)

                    X^2 df  P(> X^2)
Likelihood Ratio 13.530  2 0.0011536
Pearson          13.055  2 0.0014626

Phi-Coefficient   : NA 
Contingency Coeff.: 0.367 
Cramer's V        : 0.394 

В общем случае чем больше значения коэффициентов, тем теснее связь. В пакете vcd также имеется функция `kappa()`, которая вычисляет каппу Коэна (Cohen’s kappa) и взвешенную каппу для матрицы соответствий (например, степень согласованности между двумя суждениями, классифицирующими набор объектов по категориям).

In [None]:
kappa(mytable)

### Визуализация результатов
В R реализованы способы визуализации взаимосвязей между категориальными переменными, которые выходят далеко за пределы возможностей большинства других статистических программ. Обычно для визуализации частот значений одной переменной используются столбиковые диаграммы (раздел 6.1). В пакете `vcd` имеются замечательные функции визуализации взаимосвязей между категориальными переменными в многомерных наборах данных с использованием мозаичных диаграмм и диаграмм связей (раздел 11.4). Наконец, функции анализа соответствий в пакете `ca` позволяют визуально исследовать связи между строками и столбцами таблиц сопряженности при помощи различных геометрических
образов (Nenadic, Greenacre, 2007).

На этом мы приостанавливаем обсуждение таблиц сопряженности и возобновим его после знакомства с более сложными темами в главах 11 и 19. Теперь давайте познакомимся с разными типами коэффициентов корреляции.

## Корреляция
Коэффициенты корреляции используются для описания тесноты связей между количественными переменными. Знак коэффициента (+ или –) свидетельствует о направлении связи (положительная или отрицательная), а величина коэффициента показывает силу связи (от 0 – нет связи до 1 – абсолютно предсказуемая взаимосвязь).


В этом разделе мы рассмотрим разные коэффициенты корреляции наряду с критериями оценки их значимости. В наших примерах мы используем набор данных state.x77, входящий в состав базового дистрибутива R. В нем содержатся сведения о численности, доходе, проценте неграмотного населения, средней продолжительности жизни, уровне преступности и доле людей со средним образованием по 50 штатам США в 1977 году. Там также есть данные о температурном режиме и о площади штатов, но мы опустим
их, чтобы сэкономить место. Выполните вызов help(state.x77), чтобы узнать больше об этих данных. В дополнение к базовой версии R нам понадобятся пакеты psych и ggm.

### Типы корреляций
В R можно вычислять разные коэффициенты корреляции, включая коэффициенты Пирсона, Спирмена, Кенделла, частные, полихорические и многорядные. Рассмотрим их по порядку.

#### Коэффициенты Пирсона, Спирмена и Кенделла
Коэффициент линейной корреляции Пирсона (Pearson product moment correlation) отражает тесноту линейной связи между двумя количественными переменными. Коэффициент ранговой корреляции Спирмана (Spearman’s Rank Order correlation) отражает тесноту связи между двумя ранжированными переменными. Тау Кенделла (Kendall’s Tau) – еще один непараметрический показатель ранговой корреляции.

Функция `cor()` вычисляет все три коэффициента, а функция `cov()` вычисляет ковариации. У этих функций есть много дополнительных параметров, но в общем случае синтаксис вычисления корреляций выглядит так:
```
cor(x, use= , method= )
```

\begin{array}{|c|l|}\hline
Параметр&Описание\\\hline
x&Матрица~или~таблица~данных\\\hline
use&Определяет~необходимость~обработки~пропущенных~данных.~Может~ принимать~сле-\\
~&дующие~значения:~all.obs~(предполагается,~что~в~наборе~данных~нет~пропущенных\\
~&значений~и~их~появление~вызовет~сообщение~об~ошибке),~everything~(коэффициен-\\
~&ты~корреляции~для~строк~с~отсутствующими~значениями~будут~пропускаться~и~обо-\\
~&значаться~как missing),~complete.obs~(учитывать~только~строки~без~пропущенных\\
~&значений)~и~pairwise.complete.obs~(учитывать~все~полные~наблюдения~для~каждой\\
~&пары~переменных~в~отдельности)\\
method&Определяет~тип~коэффициента~корреляции.~Возможные~значения:~pearson,~spearman\\
~&и~kendall\\\hline
\end{array}
По умолчанию параметры принимают следующие значения:
use="everything" и method="pearson".

In [None]:
states<- state.x77[,1:6]
states

Unnamed: 0,Population,Income,Illiteracy,Life Exp,Murder,HS Grad
Alabama,3615,3624,2.1,69.05,15.1,41.3
Alaska,365,6315,1.5,69.31,11.3,66.7
Arizona,2212,4530,1.8,70.55,7.8,58.1
Arkansas,2110,3378,1.9,70.66,10.1,39.9
California,21198,5114,1.1,71.71,10.3,62.6
Colorado,2541,4884,0.7,72.06,6.8,63.9
Connecticut,3100,5348,1.1,72.48,3.1,56.0
Delaware,579,4809,0.9,70.06,6.2,54.6
Florida,8277,4815,1.3,70.66,10.7,52.6
Georgia,4931,4091,2.0,68.54,13.9,40.6


In [None]:
cov(states) # выводит таблицу дисперсий и ковариаций

Unnamed: 0,Population,Income,Illiteracy,Life Exp,Murder,HS Grad
Population,19931683.7588,571229.7796,292.8679592,-407.8424612,5663.523714,-3551.509551
Income,571229.7796,377573.3061,-163.7020408,280.6631837,-521.894286,3076.76898
Illiteracy,292.868,-163.702,0.3715306,-0.4815122,1.581776,-3.235469
Life Exp,-407.8425,280.6632,-0.4815122,1.8020204,-3.86948,6.312685
Murder,5663.5237,-521.8943,1.5817755,-3.8694804,13.627465,-14.549616
HS Grad,-3551.5096,3076.769,-3.2354694,6.3126849,-14.549616,65.237894


In [None]:
cor(states) # таблица коэффициентов корреляции Пирсона

Unnamed: 0,Population,Income,Illiteracy,Life Exp,Murder,HS Grad
Population,1.0,0.2082276,0.1076224,-0.06805195,0.3436428,-0.09848975
Income,0.20822756,1.0,-0.4370752,0.34025534,-0.2300776,0.61993232
Illiteracy,0.10762237,-0.4370752,1.0,-0.58847793,0.7029752,-0.65718861
Life Exp,-0.06805195,0.3402553,-0.5884779,1.0,-0.7808458,0.5822162
Murder,0.34364275,-0.2300776,0.7029752,-0.78084575,1.0,-0.48797102
HS Grad,-0.09848975,0.6199323,-0.6571886,0.5822162,-0.487971,1.0


In [None]:
cor(states, method="spearman") # коэффициенты ранговой корреляции Спирмена

Unnamed: 0,Population,Income,Illiteracy,Life Exp,Murder,HS Grad
Population,1.0,0.1246098,0.3130496,-0.1040171,0.3457401,-0.3833649
Income,0.1246098,1.0,-0.3145948,0.324105,-0.2174623,0.5104809
Illiteracy,0.3130496,-0.3145948,1.0,-0.5553735,0.6723592,-0.6545396
Life Exp,-0.1040171,0.324105,-0.5553735,1.0,-0.7802406,0.523941
Murder,0.3457401,-0.2174623,0.6723592,-0.7802406,1.0,-0.436733
HS Grad,-0.3833649,0.5104809,-0.6545396,0.523941,-0.436733,1.0


Судя по полученным результатам, например, между средним доходом и долей людей со средним образованием существует сильная положительная
корреляция, а между средней продолжительностью жизни и долей неграмотного населения – сильная отрицательная корреляция.

Обратите внимание на то, что по умолчанию получается квадратная таблица (выводятся все комбинации всех переменных со
всеми). Но при желании можно вывести прямоугольную таблицу,
как показано в следующем примере:

In [None]:
x <- states[,c("Population", "Income", "Illiteracy", "HS Grad")]
y <- states[,c("Life Exp", "Murder")]
cor(x,y)

Unnamed: 0,Life Exp,Murder
Population,-0.06805195,0.3436428
Income,0.34025534,-0.2300776
Illiteracy,-0.58847793,0.7029752
HS Grad,0.5822162,-0.487971


Этот способ применения функции `cor()` может пригодиться в случаях, когда требуется определить наличие связи между двумя наборами переменных. Учтите, что эти результаты не позволяют узнать, отличаются ли достоверно коэффициенты корреляции от нуля (иными словами, можно ли на основании имеющейся выборки уверенно утверждать, что коэффициент корреляции для генеральной совокупности отличается от нуля). Для этого нужно использовать критерии, описанные в разделе 7.3.2.(Проверка статистической значимости корреляций).


#### Частные корреляции
Частная корреляция – это корреляция между двумя количественными переменными, зависящими, в свою очередь, от одной или более других количественных переменных. Для вычисления коэффициентов частной корреляции можно использовать функцию `pcor()` из пакета `ggm`. Этот пакет не входит в состав дистрибутива R, и его следует устанавливать отдельно. Функция `pcor()` имеет следующий синтаксис:
```
pcor(u, S)
```
где u – числовой вектор, где первые два числа определяют номера переменных, для которых нужно вычислить коэффициент корреляции, а остальные числа – номера «влияющих» переменных (воздействие которых должно быть отделено). S – это ковариационная матрица для всех этих переменных. Проиллюстрируем применение этой функции на примере:

In [None]:
install.packages("BiocManager")
BiocManager::install("graph")

install.packages("ggm")
library(ggm)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

'getOption("repos")' replaces Bioconductor standard repositories, see
'help("repositories", package = "BiocManager")' for details.
Replacement repositories:
    CRAN: https://cran.rstudio.com

Bioconductor version 3.19 (BiocManager 1.30.23), R 4.4.1 (2024-06-14)

Installing package(s) 'BiocVersion', 'graph'

also installing the dependency ‘BiocGenerics’


Old packages: 'backports', 'bit', 'brio', 'broom', 'bslib', 'cachem', 'callr',
  'cli', 'crayon', 'curl', 'data.table', 'DBI', 'dbplyr', 'devtools', 'digest',
  'evaluate', 'farver', 'fastmap', 'fs', 'gargle', 'ggplot2', 'gh', 'gtable',
  'highr', 'htmltools', 'httr2', 'isoband', 'knitr', 'munsell', 'openssl',
  'pkgbuild', 'pkgload', 'processx', 'ragg', 'remotes', 'rlang', 'rmarkdown',
  'roxygen2', 'rstudioapi', 'rvest', 'sass', 'stringi', 'systemfonts',
  'testthat', 'textshaping', 'tidyselect', 'tinytex', 'usethis', 'whisker',
  'xfun', 'xopen', 'zi

In [None]:
pcor(c(1,5,2,3,6), cov(states))

В данном случае 0.346272371372947 – это коэффициент корреляции между численностью населения и уровнем преступности после исключения влияния величины дохода и долей неграмотного населения и людей со средним образованием (переменные 2, 3 и 6 соответственно). Частные корреляции обычно используются в социологии.

#### Другие виды корреляций
Функция `hetcor()` из пакета `polycor` позволяет вычислить комбинированную корреляционную матрицу, содержащую коэффициенты
корреляции Пирсона для числовых переменных, многорядные корреляции между числовыми и порядковыми переменными, полихорические корреляции между порядковыми переменными и тетрахорические корреляции между двумя дихотомическими переменными. Многорядные, полихорические и тетрахорические корреляции могут вычисляться для порядковых и дихотомических переменных, подчиняющихся нормальному распределению.
Дополнительную информацию об этих видах корреляций можно найти в справке пакета.

### Проверка статистической значимости корреляций
Как проверить статистическую значимость вычисленных коэффициентов корреляции? Стандартная нулевая гипотеза – отсутствие связи (то есть коэффициент корреляции для генеральной совокупности равен нулю). Для проверки значимости отдельных коэффициентов корреляции Пирсона, Спирмена и Кенделла можно использовать функцию cor.test(). Она имеет следующий синтаксис:
```
cor.test(x, y, alternative = , method = )
```
где x и y – это переменные, корреляция между которыми исследуется, параметр alternative определяет тип проверки критерия ("two.side", "less" или "greater"), параметр method определяет тип критерия ("pearson", "kendall" или "spearman"). Параметр alternative="less" проверяет гипотезу о том, что в генеральной совокупности коэффициент корреляции меньше нуля, а параметр alternative="greater" – что он больше нуля. По умолчанию используется тип проверки alternative="two.side" (проверяется гипотеза о том, что коэффициент корреляции в генеральной совокупности не равен нулю). Пример использования cor.test() ниже:

In [None]:
cor.test(states[,3], states[,5])


	Pearson's product-moment correlation

data:  states[, 3] and states[, 5]
t = 6.8479, df = 48, p-value = 1.258e-08
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.5279280 0.8207295
sample estimates:
      cor 
0.7029752 


Здесь проверяется нулевая гипотеза о том, что коэффициент корреляции Пирсона между средней продолжительностью жизни и уровнем преступности равен нулю. Если в генеральной совокупности этот коэффициент равен нулю, то его значение для случайной выборки будет превышать 0,703 реже, чем в одном случае из 10 млн (это и означает p-value = 1.258e–08). Учитывая, насколько мала вероятность, можно отвергнуть нулевую гипотезу и принять альтернативную – о том, что значение этого коэффициента для генеральной совокупности не равно нулю.

К сожалению, при помощи функции `cor.test()` одновременно можно проверить значимость только одного коэффициента корреляции. Зато в пакете `psych` есть функция `corr.test()`, которая позволяет сделать больше. С ее помощью можно вычислить коэффициенты корреляции Пирсона, Спирмена и Кенделла между несколькими переменными и оценить их значимость, как показано в листинге:

In [None]:
library(psych)
corr.test(states, use="complete")

Call:corr.test(x = states, use = "complete")
Correlation matrix 
           Population Income Illiteracy Life Exp Murder HS Grad
Population       1.00   0.21       0.11    -0.07   0.34   -0.10
Income           0.21   1.00      -0.44     0.34  -0.23    0.62
Illiteracy       0.11  -0.44       1.00    -0.59   0.70   -0.66
Life Exp        -0.07   0.34      -0.59     1.00  -0.78    0.58
Murder           0.34  -0.23       0.70    -0.78   1.00   -0.49
HS Grad         -0.10   0.62      -0.66     0.58  -0.49    1.00
Sample Size 
[1] 50
Probability values (Entries above the diagonal are adjusted for multiple tests.) 
           Population Income Illiteracy Life Exp Murder HS Grad
Population       0.00   0.59       1.00      1.0   0.10       1
Income           0.15   0.00       0.01      0.1   0.54       0
Illiteracy       0.46   0.00       0.00      0.0   0.00       0
Life Exp         0.64   0.02       0.00      0.0   0.00       0
Murder           0.01   0.11       0.00      0.0   0.00       0
H

Параметр `use=` может принимать значения "pairwise" и "complete" (для попарного или построчного удаления пропущенных значений соответственно). Параметр `method=` может принимать значения "pearson" (по умолчанию), "spearman" и "kendall". Из приведенного примера видно, что коэффициент корреляции между неграмотностью и ожидаемой продолжительностью жизни (–0.59) значимо отличается от нуля (p = 0.00), откуда можно сделать вывод, что с ростом неграмотности снижается продолжительность жизни. Однако коэффициент корреляции между численно-
стью населения и долей людей со средним образованием (–0.10) не отличается значимо от нуля (p = 0.5).

#### Другие критерии статистической значимости
В разделе выше мы обсуждали частные корреляции. Отсутствие зависимости между двумя переменными при исключении влияния других переменных можно проверить при помощи функции `pcor.test()` из пакета `psych`, при условии что значения всех этих переменных распределены нормально. Эта функция имеет следующий синтаксис:
```
pcor.test(r, q, n)
```
где r – частная корреляция, вычисленная при помощи функции pcor(), q – число переменных, влияние которых исключается, n – объем выборки.

Прежде чем закончить обсуждение этой темы, я должен упомянуть функцию r.test() из пакета psych, которая позволяет вычислить несколько критериев статистической значимости. Эту функцию можно использовать для проверки значимости:
* коэффициента корреляции;
* различий между двумя независимыми корреляциями;
* различий между двумя зависимыми корреляциями, имеющими одну общую переменную;
* различий между двумя зависимыми корреляциями разных пар переменных.

Подробности ищите в справке help(r.test).

### Визуализация корреляций
Корреляции между парами переменных можно визуализировать при помощи диаграмм рассеяния и составленных из них матриц. Коррелограммы – это непревзойденный и действенный метод сравнения большого числа коэффициентов корреляции в легко интерпретируемой форме. Оба этих подхода мы рассмотрим в главе 11.

## Критерий Стьюдента
Очень часто исследователям приходится сравнивать две группы объектов. И отвечать на такие вопросы: верно ли, что больные, получающие новое лекарство, показывают лучшую динамику выздоровления, чем пациенты, которых лечат старым способом? Верно ли, что одна технология производства характеризуется меньшим процентом брака, чем другая? Какой из методов преподавания эффективнее по отношению цена/качество? Если результат выражен в виде категориальной переменной, можно использовать методы, описанные в разделе 7.3. Здесь мы сосредоточимся на сравнении групп по значениям непрерывной переменной, распределенным нормально.

Для иллюстрации используем набор данных UScrime, входящий в пакет MASS. Эти данные содержат информацию о влиянии карательного законодательства на уровень преступности в 47 штатах США в 1960 году. Мы исследуем переменные Prob (вероятность угодить в тюрьму), U1 (уровень безработицы для городских жителей мужского пола в возрасте от 14 до 24 лет) и U2 (этот же показатель для мужчин в возрасте 35–39 лет). Категориальная переменная So (признак принадлежности штата к группе южных штатов) будет использована в качестве группирующей. Данные были масштабированы авторами исследования. (Приступая к работе над этим разделом, я хотел назвать его «Преступление и наказание на Далеком Юге», но благоразумие взяло верх).



> Далекий Юг (Deep South) – традиционное название южных штатов, связанное с особым укладом жизни и традициями населения.



### Критерий Стьюдента для независимых выборок
Верно ли, что вероятность оказаться в тюрьме после совершения преступления выше в южных штатах? Чтобы ответить на этот вопрос, нужно сравнить вероятность лишения свободы в южных штатах и в остальных. Для проверки гипотезы о равенстве двух средних значений можно использовать критерий Стьюдента для независимых выборок. В данном случае подразумевается, что эти две группы не зависят друг от друга и данные происходят из нормальных распределений. Функция `t.test()` поддерживает
два синтаксиса:
```
t.test(y ~ x, data)
```
где y – числовая переменная, а x – дихотомическая, или:
```
t.test(y1, y2)
```
где y1 и y2 – это числовые векторы (анализируемые значения для каждой из групп). Необязательный аргумент data – это матрица или таблица данных, в которой содержатся данные. В отличие от большинства статистических программ, в R по умолчанию не подразумевается равенство дисперсий и используется трансформация степеней свободы Уэлча (Welch degrees of freedom modification). Указать на равенство дисперсий можно, добавив параметр var.equal=TRUE. По умолчанию используется двухсторонняя альтернативная гипотеза (о том, что средние значения различаются, но не важно, в какую сторону). Также можно использовать
параметр alternative="less" или alternative="greater", чтобы проверить значимость различий в определенном направлении.

Следующий код сравнивает вероятность попасть в тюрьму в южных (группа 1) и остальных (группа 0) штатах при помощи двухстороннего критерия, не предполагая равенства дисперсий:

In [None]:
install.packages("BiocManager")
library(MASS)
t.test(Prob ~ So, data=UScrime)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)


Attaching package: ‘MASS’


The following object is masked from ‘package:dplyr’:

    select





	Welch Two Sample t-test

data:  Prob by So
t = -3.8954, df = 24.925, p-value = 0.0006506
alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
95 percent confidence interval:
 -0.03852569 -0.01187439
sample estimates:
mean in group 0 mean in group 1 
     0.03851265      0.06371269 


Согласно этому критерию (p < 0.001), можно отвергнуть гипотезу о равенстве шансов попасть в тюрьму в южных и остальных штатах.

>ПРИМЕЧАНИЕ. Поскольку исследуемая переменная выражена в долях единицы, перед вычислением критерия Стьюдента можно попробовать привести ее к нормальному распределению. В данном случае все разумные преобразования этой переменной (Y/1-Y, log(Y/1-Y), arcsin(Y) и arcsin(sqrt(Y))) приведут к одному и тому же результату. Преобразования переменных подробно обсуждаются в главе 8.

### Критерий Стьюдента для зависимых выборок
В качестве второго примера можно узнать, верно ли, что уровень безработицы у юношей (14–24 года) выше, чем у мужчин (35–39 лет). В данном случае эти две группы не независимы. Вы ведь не станете ожидать, что уровень безработицы у юношей и у мужчин в Алабаме – независимые величины? Когда данные для двух групп связаны между собой, следует вычислять критерий в предположении зависимости переменных. Это же относится и к результатам повторных измерений или к измерениям одного и того же объекта, проведенным до и после какого-либо воздействия. Подразумевается, что разность значений для двух групп имеет нормальное распределение. В данном случае синтаксис вызова
функции `t.test()` имеет следующий вид:
```
t.test(y1, y2, paired=TRUE)
```
где y1 и y2 – это числовые векторы, представляющие две зависимые группы. Результаты вычисления критерия выглядят следующим образом:

In [None]:
sapply(UScrime[c("U1","U2")], function(x)(c(mean=mean(x),sd=sd(x))))

Unnamed: 0,U1,U2
mean,95.46809,33.97872
sd,18.02878,8.44545


In [None]:
with(UScrime, t.test(U1, U2, paired=TRUE))


	Paired t-test

data:  U1 and U2
t = 32.407, df = 46, p-value < 2.2e-16
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
 57.67003 65.30870
sample estimates:
mean difference 
       61.48936 


Разность средних (61.5) достаточно велика, чтобы отклонить гипотезу о равенстве уровня безработицы для юношей и мужчин (у юношей она выше). В самом деле, вероятность получить такое значение разности средних для выборок, в то время как они будут равны в генеральных совокупностях, меньше 0.00000000000000022 (т. е. 2.2e–16).

### Когда имеется больше двух групп
Что делать, если понадобится одновременно сравнить больше двух групп? Если предположить, что эти группы независимы и подчиняются закону нормального распределения, то можно использовать дисперсионный анализ (ANOVA). Это сложный подход, который можно применять для анализа разных типов экспериментов и квазиэкспериментов, поэтому он заслуживает отдельной главы. Вы можете спокойно прервать чтение данного раздела в любом месте и перейти к главе 9.

## Непараметрические критерии межгрупповых различий
Если ваши данные не удовлетворяют условиям применения таких параметрических методов, как критерий Стьюдента или ANOVA, можно обратиться к непараметрическим методам. Описанные в этом разделе методы можно использовать, например, если исследуемые переменные порядковые или их распределение сильно отличается от нормального.

### Сравнение двух групп
Если две группы независимы, можно использовать критерий Вилкоксона ранговых сумм, более известный как критерий МаннаУитни (Mann-Whitney U test), чтобы узнать, принадлежат ли наблюдения одному и тому же распределению вероятностей (иными словами, действительно ли вероятность получить более высокие значения выше в одной выборке, чем в другой). Эта функция имеет следующий синтаксис:
```
wilcox.test(y ~ x, data)
```
где y – числовая переменная, а x – дихотомическая, или такой:
```
wilcox.test(y1, y2)
```
где y1 и y2 – исследуемые переменные, представляющие группы.

Необязательный аргумент data определяет матрицу или таблицу данных, содержащую исследуемые переменные. По умолчанию вычисляется двухсторонний критерий, однако можно добавить параметр exact, чтобы вычислить точный критерий (exact test), и параметр alternative="less" или alternative="greater", чтобы проверить соответствующую одностороннюю гипотезу. Если применить критерий Манна–Уитни для ответа на вопрос о вероятности попадания в тюрьму, обсуждаемый в предыдущем
разделе, получится следующий результат:


In [None]:
with(UScrime, by(Prob, So, median))

So: 0
[1] 0.038201
------------------------------------------------------------ 
So: 1
[1] 0.055552

In [None]:
wilcox.test(Prob ~ So, data=UScrime)


	Wilcoxon rank sum exact test

data:  Prob by So
W = 81, p-value = 8.488e-05
alternative hypothesis: true location shift is not equal to 0


И снова есть все основания отвергнуть гипотезу о равенстве вероятностей оказаться в тюрьме в южных и в других штатах (p < 0.01). Критерий Вилкоксона (Для зависимых выборок) – это непараметрическая альтернатива критерию Стьюдента для зависимых выборок. Его следует применять в случаях, когда имеет место зависимость между группами, распределение которых отличается от нормального. Синтаксис применения функции такой же, как и в предыдущем примере, нужно лишь добавить параметр `paired=TRUE`. Давайте применим этот критерий, чтобы ответить на вопрос о безработице из предыдущего раздела.

In [None]:
sapply(UScrime[c("U1","U2")], median)

In [None]:
with(UScrime, wilcox.test(U1, U2, paired=TRUE))

“cannot compute exact p-value with ties”



	Wilcoxon signed rank test with continuity correction

data:  U1 and U2
V = 1128, p-value = 2.464e-09
alternative hypothesis: true location shift is not equal to 0


И снова мы приходим к тому же выводу, что и при использовании критерия Стьюдента для зависимых переменных. В данном случае параметрический критерий Стьюдента и его непараметрические аналоги дали одинаковые результаты. Когда условия применения критерия Стьюдента выполняются, параметрические критерии имеют большую мощность (большую вероятность обнаружить существующие различия) по сравнению с непараметрическими. Непараметрические критерии разумно применять, когда условия применения параметрических критериев существенно нарушаются (например, для порядковых переменных).

### Сравнение более двух групп
Когда нужно сравнить больше двух групп, приходится использовать другие методы. Вернемся к набору данных state.x77, представленному в разделе выше. Он содержит данные о численности населения, доходе, уровне неграмотности, средней продолжительности жизни, уровне преступности и доле людей со средним образованием в разных штатах Америки. Представьте, что вам понадобилось сравнить уровень неграмотности в четырех регионах страны (северо-восток – Northeast, юг – South, север – North Central и запад – West). Это называется **однофакторный дизайн** эксперимента, и для ответа на поставленный вопрос можно использовать как параметрические, так и непараметрические методы. Если данные не удовлетворяют требованиям ANOVA для оценки межгрупповых различий средних значений, то можно использовать непараметрические методы. Если группы независимы, лучше всего подойдет критерий Краскела–Уоллиса (Kruskal-Wallis test). Если группы зависимы (например, это результаты повторных измерений или данные эксперимента с блочным дизайном), то следует использовать критерий Фридмана (Friedman test). Синтаксис применения критерия Краскела–Уоллиса имеет следующий вид:
```
kruskal.test(y ~ A, data)
```
где y – это числовая переменная, A – группирующая переменная, принимающая два значения и более (в случае с двумя значениями этот критерий идентичен критерию Вилкоксона). Синтаксис применения критерия Фридмана имеет следующий вид:
```
friedman.test(y ~ A | B, data)
```
где y – числовая переменная, A – группирующая переменная, B –
блочная переменная, идентифицирующая парные наблюдения. В обоих случаях data – это необязательный аргумент, матрица или таблица данных, содержащая исследуемые переменные.

Давайте используем критерий Краскела–Уоллиса для ответа на вопрос об уровне неграмотности. Сначала добавим в набор данных информацию о региональной принадлежности штатов. Эта информация имеется в наборе данных state.region, входящем в дистрибутив R.

In [None]:
states <- data.frame(state.region, state.x77)
states

Unnamed: 0_level_0,state.region,Population,Income,Illiteracy,Life.Exp,Murder,HS.Grad,Frost,Area
Unnamed: 0_level_1,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
Alabama,South,3615,3624,2.1,69.05,15.1,41.3,20,50708
Alaska,West,365,6315,1.5,69.31,11.3,66.7,152,566432
Arizona,West,2212,4530,1.8,70.55,7.8,58.1,15,113417
Arkansas,South,2110,3378,1.9,70.66,10.1,39.9,65,51945
California,West,21198,5114,1.1,71.71,10.3,62.6,20,156361
Colorado,West,2541,4884,0.7,72.06,6.8,63.9,166,103766
Connecticut,Northeast,3100,5348,1.1,72.48,3.1,56.0,139,4862
Delaware,South,579,4809,0.9,70.06,6.2,54.6,103,1982
Florida,South,8277,4815,1.3,70.66,10.7,52.6,11,54090
Georgia,South,4931,4091,2.0,68.54,13.9,40.6,60,58073


Теперь можно вычислить критерий:

In [None]:
kruskal.test(Illiteracy ~ state.region, data=states)


	Kruskal-Wallis rank sum test

data:  Illiteracy by state.region
Kruskal-Wallis chi-squared = 22.672, df = 3, p-value = 4.726e-05


Значимость критерия свидетельствует о том, что уровень неграмотности неодинаков во всех четырех регионах (p < 0.001).

Мы отвергли нулевую гипотезу об отсутствии различий, но из полученных результатов не ясно, какие регионы значимо отличаются от других. Чтобы ответить на этот вопрос, можно сравнить попарно все группы, используя критерий Вилкоксона. Более изящное решение состоит в одновременном множественном сравнении всех пар регионов с контролем значений статистической ошибки первого рода (вероятность посчитать значимыми незначимые различия). Этот подход реализован в функции `wmc()`. Она сравнивает группы попарно, используя критерий Вилкоксона, и корректирует значения вероятности, используя функцию `p.adj()`.

Честно говоря, здесь я немного вышел за пределы основных методов, заявленных в названии этой главы, но поскольку рассмотрение данного подхода здесь вполне уместно, я надеюсь, что вы меня простите. Для начала загрузите текстовый файл с исходным кодом функции `wmc()`, доступный по адресу: https://rkabacoff.com/RiA/wmc.R. Листинг ниже демонстрирует применение этой функции для сравнения уровней неграмотности в четырех регионах США.

In [None]:
source("/content/wmc_02.R")
states <- data.frame(state.region, state.x77)
wmc(Illiteracy ~ state.region, data=states, method="holm")

Descriptive Statistics

           West North Central Northeast    South
n      13.00000      12.00000   9.00000 16.00000
median  0.60000       0.70000   1.10000  1.75000
mad     0.14826       0.14826   0.29652  0.59304

Multiple Comparisons (Wilcoxon Rank Sum Tests)
Probability Adjustment = holm

        Group.1       Group.2    W            p    
1          West North Central 88.0 8.665618e-01    
2          West     Northeast 46.5 8.665618e-01    
3          West         South 39.0 1.788186e-02   *
4 North Central     Northeast 20.5 5.359707e-02   .
5 North Central         South  2.0 8.051509e-05 ***
6     Northeast         South 18.0 1.187644e-02   *
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1


Функция `source()` загружает и запускает сценарий R, определяющий функцию `wmc()`. Эта функция имеет следующий синтаксис:
```
wmc(y ~ A, data, method), где y – числовая переменная, A – группи-
рующая переменная, data – таблица данных, содержащая эти пере-
менные, а method – метод ограничения ошибок первого рода.
```
Код в листинге использует метод корректировки, разработанный Холмом (Holm, 1979), который обеспечивает строгий контроль над коэффициентом ошибок по семействам (вероятность совершения одной или нескольких ошибок первого рода в наборе сравнений). Описание других доступных методов ищите в справке help(p.adjust).

Функция `wmc(`) сначала определяет размеры выборки, медианы и абсолютные отклонения медиан для каждой группы. На западе самый низкий уровень неграмотности, а на юге – самый высокий. Затем функция генерирует шесть статистических сравнений (запад и север, запад и северо-восток, запад и юг, север и северо-восток, север и юг и северо-восток и юг). Из двусторонних значений p можно заключить, что юг значительно отличается от трех других регионов и что остальные три региона не отличаются друг от друга на уровне p < 0.05.

## Визуализация групповых различий
В разделах выше мы рассмотрели статистические методы сравнения групп. Визуальный анализ межгрупповых различий – это тоже очень важный этап комплексного подхода к анализу данных. Он позволяет получить информацию о величине различий, выявить особенности распределения значений (асимметрию, бимодальность, выбросы), которые влияют на результаты сравнения, и оценить, насколько данные удовлетворяют статистическим критериям. В R реализовано множество графических методов для сравнения групп, включая коробчатые диаграммы (простые, с насечками и скрипичные), которые описаны в разделе 6.6; наложенные друг на друга диаграммы ядерной плотности, рассмотренные в разделе 6.5, и графические методы оценки соответствия данных статистическим критериям, которые обсуждаются в главе 9.

# Итоги
* Описательные статистики позволяют численно описать распределение количественной переменной. В R есть множество пакетов, вычисляющих описательные статистики для таблиц данных. Выбор пакета зависит прежде всего от личных предпочтений.
* Таблицы частот и сопряженности обобщают распределение категориальных переменных.
* Для сравнения двух групп по количественным переменным можно использовать критерии Стьюдента и Манна–Уитни.
* Для оценки тесноты связи между двумя категориальными переменными можно использовать критерий хи-квадрат, а для оценки тесноты связи между двумя количественными переменными – коэффициент корреляции.
* Числовые сводки и результаты проверки статистических критериев должны сопровождаться визуализацией данных, иначе можно упустить из виду важные особенности данных.

# Загрузка функции
Чтение кода R из файла, соединения или выражений
## Описание
`source` заставляет R принимать входные данные напрямую из именованного файла, URL-адреса, соединения или выражения. Ввод считывается и анализируется из этого файла до тех пор, пока не будет достигнут конец файла, затем анализируемые выражения последовательно оцениваются в выбранной среде.

`withAutoprint(exprs)` — это оболочка для `source(exprs = exprs, ..)` с разными значениями по умолчанию. Его основная цель — вычислить и автоматически распечатать выражения, как если бы они находились в контексте верхнего уровня, например, как в консоли R.

Применение
```
source(file,
 local = FALSE,
 echo = verbose,
 print.eval = echo,
 exprs,
 spaced = use_file,
 verbose = getOption("verbose"),
 prompt.echo = getOption("prompt"),
 max.deparse.length = 150,
 width.cutoff = 60L,
 deparseCtrl = "showAttributes",
 chdir = FALSE,
 encoding = getOption("encoding"),
 continue.echo = getOption("continue"),
 skip.echo = 0, keep.source = getOption("keep.source"))

withAutoprint(exprs,
             evaluated = FALSE,
             local = parent.frame(),
             print. = TRUE,
             echo = TRUE,
             max.deparse.length = Inf,
             width.cutoff = max(20, getOption("width")),
             deparseCtrl = c("keepInteger", "showAttributes","keepNA"),
              ...)
```
\begin{array}{|l|l|}
\hline
Аргумент&Описание\\\hline
file&соединение~или~строка~символов,~указывающая~путь~к~файлу~или~URL-адрес~для~чтения.\\~&~""~указывает~на~соединение~со~стандартным~вводом(stdin()).\\\hline
local&TRUE,~FALSE~или~среда,~определяющая,~где оцениваются~анализируемые~выражения.~FALSE~(по умолчанию)~соответствует~рабочей~области~пользователя~(глобальной~среде),~а~TRUE~—~среде,~из~которой~вызывается источник.
\end{array}



Аргументы
*



*


* echo
логичный; если TRUE, каждое выражение выводится после синтаксического анализа перед оценкой.

print.eval, print.
логичный; если TRUE, результат eval(i) выводится для каждого выражения i; по умолчанию используется значение echo.

exprs
для source() и withAutoprint(*, Assessment=TRUE): вместо указания файла, выражения, вызова или списка вызовов, но не неоцененного «выражения».
for withAutoprint() (with default evaluated=FALSE): одно или несколько неоцененных «выражений».

evaluated
logical indicating that exprs is passed to source(exprs= *) and hence must be evaluated, i.e., a formal expression, call or list of calls.

spaced
logical indicating if newline (hence empty line) should be printed before each expression (when echo = TRUE).

verbose
if TRUE, more diagnostics (than just echo = TRUE) are printed during parsing and evaluation of input, including extra info for each expression.

prompt.echo
character; gives the prompt to be used if echo = TRUE.

max.deparse.length
integer; is used only if echo is TRUE and gives the maximal number of characters output for the deparse of a single expression.

width.cutoff
integer, passed to deparse() which is used (only) when there are no source references.

deparseCtrl
character vector, passed as control to deparse(), see also .deparseOpts. In R version <= 3.3.x, this was hardcoded to "showAttributes", which is the default currently; deparseCtrl = "all" may be preferable, when strict back compatibility is not of importance.

chdir
logical; if TRUE and file is a pathname, the R working directory is temporarily changed to the directory containing file for evaluating.

encoding
character vector. The encoding(s) to be assumed when file is a character string: see file. A possible value is "unknown" when the encoding is guessed: see the ‘Encodings’ section.

continue.echo
character; gives the prompt to use on continuation lines if echo = TRUE.

skip.echo
integer; how many comment lines at the start of the file to skip if echo = TRUE.

keep.source
logical: should the source formatting be retained when echoing expressions, if possible?

...
(for withAutoprint():) further (non-file related) arguments to be passed to source(.).

Details
Note that running code via source differs in a few respects from entering it at the R command line. Since expressions are not executed at the top level, auto-printing is not done. So you will need to include explicit print calls for things you want to be printed (and remember that this includes plotting by lattice, FAQ Q7.22). Since the complete file is parsed before any of it is run, syntax errors result in none of the code being run. If an error occurs in running a syntactically correct script, anything assigned into the workspace by code that has been run will be kept (just as from the command line), but diagnostic information such as traceback() will contain additional calls to withVisible.

All versions of R accept input from a connection with end of line marked by LF (as used on Unix), CRLF (as used on DOS/Windows) or CR (as used on classic Mac OS) and map this to newline. The final line can be incomplete, that is missing the final end-of-line marker.

If keep.source is true (the default in interactive use), the source of functions is kept so they can be listed exactly as input.

Unlike input from a console, lines in the file or on a connection can contain an unlimited number of characters.

When skip.echo > 0, that many comment lines at the start of the file will not be echoed. This does not affect the execution of the code at all. If there are executable lines within the first skip.echo lines, echoing will start with the first of them.

If echo is true and a deparsed expression exceeds max.deparse.length, that many characters are output followed by .... [TRUNCATED] .

Encodings
By default the input is read and parsed in the current encoding of the R session. This is usually what is required, but occasionally re-encoding is needed, e.g. if a file from a UTF-8-using system is to be read on Windows (or vice versa).

The rest of this paragraph applies if file is an actual filename or URL (and not "" nor a connection). If encoding = "unknown", an attempt is made to guess the encoding: the result of localeToCharset() is used as a guide. If encoding has two or more elements, they are tried in turn until the file/URL can be read without error in the trial encoding. If an actual encoding is specified (rather than the default or "unknown") in a Latin-1 or UTF-8 locale then character strings in the result will be translated to the current encoding and marked as such (see Encoding).

If file is a connection (including one specified by ""), it is not possible to re-encode the input inside source, and so the encoding argument is just used to mark character strings in the parsed input in Latin-1 and UTF-8 locales: see parse.

References
Becker, R. A., Chambers, J. M. and Wilks, A. R. (1988) The New S Language. Wadsworth & Brooks/Cole.

See Also
demo which uses source; eval, parse and scan; options("keep.source").

sys.source which is a streamlined version to source a file into an environment.

‘The R Language Definition’ for a discussion of source directives.

Examples
someCond <- 7 > 6
## want an if-clause to behave "as top level" wrt auto-printing :
## (all should look "as if on top level", e.g. non-assignments should print:)
if(someCond) withAutoprint({
   x <- 1:12
   x-1
   (y <- (x-5)^2)
   z <- y
   z - 10
})

## If you want to source() a bunch of files, something like
## the following may be useful:
 sourceDir <- function(path, trace = TRUE, ...) {
    op <- options(); on.exit(options(op)) # to reset after each
    for (nm in list.files(path, pattern = "[.][RrSsQq]$")) {
       if(trace) cat(nm,":")
       source(file.path(path, nm), ...)
       if(trace) cat("\n")
       options(op)
    }
 }

suppressWarnings( rm(x,y) ) # remove 'x' or 'y' from global env
withAutoprint({ x <- 1:2; cat("x=",x,"\n"); y <- x^2 })
## x and y now exist:
stopifnot(identical(x, 1:2), identical(y, x^2))

withAutoprint({ formals(sourceDir); body(sourceDir) },
              max.deparse.length = 20, verbose = TRUE)



\begin{array}{|l|l|}
\hline
Аргумент&Описание\\\hline
file&соединение~или~строка~символов,~указывающая~путь~к~файлу~или~URL-адрес~для~чтения.\\~&~""~указывает~на~соединение~со~стандартным~вводом(stdin()).\\\hline
local&TRUE,~FALSE~или~среда,~определяющая,~где оцениваются~анализируемые~выражения.\\
~&FALSE~(по умолчанию)~соответствует~рабочей~области~пользователя~(глобальной~среде),\\
~&а~TRUE~—~среде,~из~которой~вызывается~источник.
\end{array}



Аргументы
*



*


* echo
логичный; если TRUE, каждое выражение выводится после синтаксического анализа перед оценкой.

print.eval, print.
логичный; если TRUE, результат eval(i) выводится для каждого выражения i; по умолчанию используется значение echo.

exprs
для source() и withAutoprint(*, Assessment=TRUE): вместо указания файла, выражения, вызова или списка вызовов, но не неоцененного «выражения».
for withAutoprint() (with default evaluated=FALSE): одно или несколько неоцененных «выражений».

evaluated
logical indicating that exprs is passed to source(exprs= *) and hence must be evaluated, i.e., a formal expression, call or list of calls.

spaced
logical indicating if newline (hence empty line) should be printed before each expression (when echo = TRUE).

verbose
if TRUE, more diagnostics (than just echo = TRUE) are printed during parsing and evaluation of input, including extra info for each expression.

prompt.echo
character; gives the prompt to be used if echo = TRUE.

max.deparse.length
integer; is used only if echo is TRUE and gives the maximal number of characters output for the deparse of a single expression.

width.cutoff
integer, passed to deparse() which is used (only) when there are no source references.

deparseCtrl
character vector, passed as control to deparse(), see also .deparseOpts. In R version <= 3.3.x, this was hardcoded to "showAttributes", which is the default currently; deparseCtrl = "all" may be preferable, when strict back compatibility is not of importance.

chdir
logical; if TRUE and file is a pathname, the R working directory is temporarily changed to the directory containing file for evaluating.

encoding
character vector. The encoding(s) to be assumed when file is a character string: see file. A possible value is "unknown" when the encoding is guessed: see the ‘Encodings’ section.

continue.echo
character; gives the prompt to use on continuation lines if echo = TRUE.

skip.echo
integer; how many comment lines at the start of the file to skip if echo = TRUE.

keep.source
logical: should the source formatting be retained when echoing expressions, if possible?

...
(for withAutoprint():) further (non-file related) arguments to be passed to source(.).
