<a href="https://colab.research.google.com/github/MaximTislenko/GB_med_stat_R/blob/main/Base_Stats_02_07_02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
library(tidyverse)
library(readxl)

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mggplot2  [39m 3.4.4     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.3     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.0.2     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mpurrr[39m::[32m%||%()[39m   masks [34mbase[39m::%||%()
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


# Часть II
# Базовые методы


# Глава 7
# Основные методы статистической обработки данных
В предыдущих главах вы узнали, как импортировать данные в R и как использовать разнообразные функции для упорядочения и преобразования данных в нужный формат. Затем мы рассмотрели базовые методы визуализации данных.

Обычно следующий шаг после упорядочения данных и их визуального исследования – описание распределения значений каждой переменной при помощи числовых показателей. Затем, как правило, исследуют взаимосвязи между парами переменных. Цель этих процедур – ответить на следующие вопросы:
* Каков расход топлива у современных автомобилей? А именно как распределены значения расхода топлива (среднее, стандартное отклонение, медиана, размах и т. д.) в имеющихся данных по разным маркам машин?
* Отличается ли действие нового лекарства (нет улучшения, некоторое улучшение, заметное улучшение) по сравнению с плацебо? Зависит ли результат испытаний от пола пациентов?
* Как взаимосвязаны доход и средняя продолжительность жизни? Можно ли утверждать, что коэффициент корреляции значимо отличается от нуля?
* Правда ли, что вероятность сесть в тюрьму за преступление неодинакова в разных штатах США? Значимы ли различия между штатами?

В этой главе мы рассмотрим функции R, позволяющие вычислять описательные и предсказательные статистики. Для начала познакомимся с методами оценки центральной тенденции и разброса значений количественных переменных. Затем узнаем, как создавать таблицы частот и сопряженности (и как проверить соответствие критерию хи-квадрат) для категориальных переменных. Потом исследуем разные формы коэффициентов корреляции, применимые к непрерывным и порядковым переменным. Наконец,
обратимся к исследованию различий между группами при помощи параметрических (критерий Стьюдента) и непараметрических (критерии Манна–Уитни и Краскела–Уоллиса) методов. Основное наше внимание будет сосредоточено на числовых показателях, тем не менее постоянно будут упоминаться графические методы, которые можно использовать для визуализации этих показателей.

С обсуждаемыми в этой главе статистическими методами люди обычно знакомятся на первых курсах вузов. Если эти методы незнакомы вам, я рекомендую два замечательных пособия: MacCall (2000) и Kirk (2008)1.


> На русском языке основные статистические методы кратко описаны в пособии П. А. Волковой и А. Б. Шипунова «Статистическая обработка данных в учебно-исследовательских работах» (Форум, 2012).


По каждой теме существует также множество источников в интернете (таких как Википедия).


## Описательные статистики
В этом разделе мы обсудим числовые характеристики центральной тенденции, разброса и типа распределения значений непрерывных переменных на примере нескольких переменных из набора данных `mtcars` с характеристиками разных марок автомобилей, с которыми вы познакомились еще в первой главе. Мы сосредоточимся на расходе топлива (в милях на галлон – `miles per gallon, mpg`), мощности (лошадиных сил – `horsepower, hp`) и весе (`weight, wt`):

In [2]:
myvars <- c("mpg", "hp", "wt")
head(mtcars[myvars])
mtcars[myvars]

Unnamed: 0_level_0,mpg,hp,wt
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>
Mazda RX4,21.0,110,2.62
Mazda RX4 Wag,21.0,110,2.875
Datsun 710,22.8,93,2.32
Hornet 4 Drive,21.4,110,3.215
Hornet Sportabout,18.7,175,3.44
Valiant,18.1,105,3.46


Unnamed: 0_level_0,mpg,hp,wt
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>
Mazda RX4,21.0,110,2.62
Mazda RX4 Wag,21.0,110,2.875
Datsun 710,22.8,93,2.32
Hornet 4 Drive,21.4,110,3.215
Hornet Sportabout,18.7,175,3.44
Valiant,18.1,105,3.46
Duster 360,14.3,245,3.57
Merc 240D,24.4,62,3.19
Merc 230,22.8,95,3.15
Merc 280,19.2,123,3.44


Для начала рассмотрим описательные статистики для всех 32 марок автомобилей в целом. Затем вычислим описательные статистики отдельно для каждого типа трансмиссии (am) и вида двигателя по расположению цилиндров (vs). Переменная, описывающая тип трансмиссии, имеет два возможных значения: 0 (автоматическая коробка) и 1 (механическая коробка). Переменная, описывающая расположение цилиндров, тоже имеет два значения: 0 (V-образное) и 1 (рядное).

### Калейдоскоп методов
Возможности R в отношении вычисления описательных статистик потрясают воображение. Начнем с функций, которые включены в базовую версию. Затем познакомимся с расширенными возможностями, которые становятся доступными после установки дополнительных пакетов. В базовой версии имеется функция summary(), вычисляющая описательные статистики.

In [3]:
summary(mtcars[myvars])

      mpg              hp              wt       
 Min.   :10.40   Min.   : 52.0   Min.   :1.513  
 1st Qu.:15.43   1st Qu.: 96.5   1st Qu.:2.581  
 Median :19.20   Median :123.0   Median :3.325  
 Mean   :20.09   Mean   :146.7   Mean   :3.217  
 3rd Qu.:22.80   3rd Qu.:180.0   3rd Qu.:3.610  
 Max.   :33.90   Max.   :335.0   Max.   :5.424  

Функция `summary()` вычисляет минимум, максимум, квартили и среднее для числовых переменных и частоты значений для факторов и логических векторов. Можно также использовать функции `apply()` или `sapply()`, описанные в главе 5, и вычислять любые описательные статистики с их помощью. Функция `sapply()` имеет следующий синтаксис:
```
sapply(x, FUN, options)
```
где x – это таблица данных, а FUN – произвольная функция. Если заданы дополнительные параметры options, то они передаются функции FUN. Обычно в роли такой функции используются mean, sd, var, min, max, median, length, range и quantile. Функция fivenum() вычисляет пять описательных статистик Тьюки (Tukey) (минимум, нижний квартиль, медиана, верхний квартиль, максимум).

Удивительно, но в базовой версии R нет функций для вычисления таких характеристик, как асимметрия и эксцесс распределения значений, однако вы можете написать их самостоятельно. Смотри ниже.

In [4]:
mystats <- function(x, na.omit=FALSE){
  if (na.omit)
  x <- x[!is.na(x)]
  m <- mean(x)
  n <- length(x)
  s <- sd(x)
  skew <- sum((x-m)^3/s^3)/n
  kurt <- sum((x-m)^4/s^4)/n - 3
  return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt))
  }

In [5]:
sapply(mtcars[myvars], mystats)

Unnamed: 0,mpg,hp,wt
n,32.0,32.0,32.0
mean,20.090625,146.6875,3.21725
stdev,6.026948,68.5628685,0.97845744
skew,0.610655,0.7260237,0.42314646
kurtosis,-0.372766,-0.1355511,-0.02271075


Согласно полученным результатам, средний пробег в милях на галлон по всем маркам автомобилей составляет 20.1 мили со стандартным отклонением 6.0. Максимум кривой распределения значений смещен вправо (+0.61) и находится немного ниже максимума кривой нормального распределения (–0.37). Это будет хорошо заметно на графике. Отметьте также, что если понадобится удалить строки с пропущенными значениями, то вызов функции следует записать так:
```
sapply(mtcars[vars], mystats, na.omit=TRUE).
```

### Дополнительные возможности
Функции для вычисления описательных статистик имеются также в некоторых дополнительных пакетах, таких как `Hmisc`, `pastecs`, `psych`, `skimr` и `summytools`. Из-за ограниченного пространства в книге я продемонстрирую только первые три, но вы в своей работе с успехом можете использовать все пять. Не забудьте установить эти пакеты перед первым использованием, потому что они не входят в состав дистрибутива R.


>install.packages("survival")

>install.packages("lattice")

>install.packages("ggplot2")

>install.packages("Hmisc")



Функция `describe()` из пакета `Hmisc` выводит число переменных и наблюдений, число пропущенных и неповторяющихся значений, среднее, квартили, а также пять наименьших и пять наибольших значений. Пример представлен ниже.

In [6]:
install.packages("Hmisc")
library(Hmisc)
myvars <- c("mpg", "hp", "wt")
describe(mtcars[myvars])

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘checkmate’, ‘htmlwidgets’, ‘gridExtra’, ‘htmlTable’, ‘viridis’, ‘Formula’



Attaching package: ‘Hmisc’


The following objects are masked from ‘package:dplyr’:

    src, summarize


The following objects are masked from ‘package:base’:

    format.pval, units




mtcars[myvars] 

 3  Variables      32  Observations
--------------------------------------------------------------------------------
mpg 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
      32        0       25    0.999    20.09    6.796    12.00    14.34 
     .25      .50      .75      .90      .95 
   15.43    19.20    22.80    30.09    31.30 

lowest : 10.4 13.3 14.3 14.7 15  , highest: 26   27.3 30.4 32.4 33.9
--------------------------------------------------------------------------------
hp 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
      32        0       22    0.997    146.7    77.04    63.65    66.00 
     .25      .50      .75      .90      .95 
   96.50   123.00   180.00   243.50   253.55 

lowest :  52  62  65  66  91, highest: 215 230 245 264 335
--------------------------------------------------------------------------------
wt 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
      32    

В пакете `pastecs` есть функция `stat.desc()`, вычисляющая множество описательных статистик. Она имеет следующий синтаксис:
```
stat.desc(x, basic=TRUE, desc=TRUE, norm=FALSE, p=0.95)
```
где x – это таблица данных или временной ряд. Если basic=TRUE (по умолчанию), то вычисляется число действительных, пустых (null) и пропущенных значений, минимум, максимум, размах и сумма. Если desc=TRUE (тоже по умолчанию), то вычисляются медиана, среднее арифметическое, стандартная ошибка среднего, 95%-ный доверительный интервал для среднего, дисперсия, стандартное отклонение и коэффициент вариации. Наконец, если norm=TRUE (не по умолчанию), вычисляются статистики нормального распределения, включая асимметрию и эксцесс (и их достоверность), и критерий Шапиро–Уилка (Shapiro-Wilk) соответствия нормальному распределению. Параметр p используется при вычислении доверительного интервала для среднего арифметического (по умолчанию он получает значение 0.95). Пример ниже:

In [7]:
install.packages("pastecs")
library(pastecs)
myvars <- c("mpg", "hp", "wt")
stat.desc(mtcars[myvars])

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)


Attaching package: ‘pastecs’


The following objects are masked from ‘package:dplyr’:

    first, last


The following object is masked from ‘package:tidyr’:

    extract




Unnamed: 0_level_0,mpg,hp,wt
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>
nbr.val,32.0,32.0,32.0
nbr.null,0.0,0.0,0.0
nbr.na,0.0,0.0,0.0
min,10.4,52.0,1.513
max,33.9,335.0,5.424
range,23.5,283.0,3.911
sum,642.9,4694.0,102.952
median,19.2,123.0,3.325
mean,20.090625,146.6875,3.21725
SE.mean,1.065424,12.1203173,0.1729685


Как будто этого недостаточно, в пакете psych тоже есть функция с именем describe(), которая выводит на экран число действительных значений, среднее арифметическое, стандартное отклонение, усеченное среднее, минимум, максимум, размах, асимметрию, эксцесс и стандартную ошибку среднего.

In [8]:
install.packages("psych")
library(psych)
myvars <- c("mpg", "hp", "wt")
describe(mtcars[myvars])

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘mnormt’, ‘GPArotation’



Attaching package: ‘psych’


The following object is masked from ‘package:Hmisc’:

    describe


The following objects are masked from ‘package:ggplot2’:

    %+%, alpha




Unnamed: 0_level_0,vars,n,mean,sd,median,trimmed,mad,min,max,range,skew,kurtosis,se
Unnamed: 0_level_1,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
mpg,1,32,20.09062,6.0269481,19.2,19.696154,5.41149,10.4,33.9,23.5,0.610655,-0.37276603,1.065424
hp,2,32,146.6875,68.5628685,123.0,141.192308,77.0952,52.0,335.0,283.0,0.7260237,-0.13555112,12.1203173
wt,3,32,3.21725,0.9784574,3.325,3.152692,0.7672455,1.513,5.424,3.911,0.4231465,-0.02271075,0.1729685


####Я же говорил вам, что возможности потрясают воображение!


>ПРИМЕЧАНИЕ. Как показывают предыдущие примеры, функция с именем describe() определена и в пакете psych, и в пакете Hmisc. Как R узнает, какую из них выбрать? Очень просто: преимущество имеет пакет, загруженный последним, как это видно в листинге выше. В данном случае пакет psych загружается после Hmisc, и на экран выводится сообщение о том, что функция describe() из пакета Hmisc «замаскирована» функцией с таким же именем из пакета psych. Встретив вызов функции, R начинает поиск с пакета psych, обнаруживает ее там и вызывает. Чтобы воспользоваться функцией из пакета Hmisc, ее можно вызвать так: Hmisc::describe(mt). Сама функция никуда не делась, просто нужно подсказать R, где ее следует искать.

Теперь, познакомившись со способами вычисления описательных статистик для набора данных в целом, посмотрим, как получить их для отдельных групп.

### Вычисление описательных статистик для групп данных
При сравнении групп объектов или наблюдений обычно обращают внимание на значения описательных статистик, характеризующих эти группы, а не на всю выборку в целом. Описательные статистики для групп можно получить с помощью функции by(), имеющей следующий синтаксис:
```
by(data, INDICES, FUN)
```
где data – это таблица данных или матрица, INDICES – фактор или список факторов, определяющих группы, и FUN – произвольная функция, оперирующая всеми столбцами в таблице данных. Пример использования этой функции приводится ниже.

In [9]:
dstats <- function(x)sapply(x, mystats)
myvars <- c("mpg", "hp", "wt")
by(mtcars[myvars], mtcars$am, dstats)

mtcars$am: 0
                 mpg           hp         wt
n        19.00000000  19.00000000 19.0000000
mean     17.14736842 160.26315789  3.7688947
stdev     3.83396639  53.90819573  0.7774001
skew      0.01395038  -0.01422519  0.9759294
kurtosis -0.80317826  -1.20969733  0.1415676
------------------------------------------------------------ 
mtcars$am: 1
                 mpg          hp         wt
n        13.00000000  13.0000000 13.0000000
mean     24.39230769 126.8461538  2.4110000
stdev     6.16650381  84.0623243  0.6169816
skew      0.05256118   1.3598859  0.2103128
kurtosis -1.45535200   0.5634635 -1.1737358

В этом примере `dstats()` применяет функцию `mystats()` из листинга к каждому столбцу в таблице данных. Поместив ее в вызов функции `by()`, мы получаем описательные статистики для автомобилей с разными типами трансмиссии (am).

Следующий пример демонстрирует получение описательных статистик для двух переменных (am и vs – тип трансмиссии и расположение цилиндров) и выводит результаты для каждой группы под заданными нами подписями (mpg, hp и wt – пробег в милях на галлон, мощность в лошадиных силах и вес соответственно). Кроме того, перед вычислением статистик он удаляет
пропущенные значения.

In [10]:
dstats <- function(x)sapply(x, mystats, na.omit=TRUE)
myvars <- c("mpg", "hp", "wt")
by(mtcars[myvars], list(Transmission=mtcars$am, Engine=mtcars$vs), FUN=dstats)

Transmission: 0
Engine: 0
                mpg          hp         wt
n        12.0000000  12.0000000 12.0000000
mean     15.0500000 194.1666667  4.1040833
stdev     2.7743959  33.3598379  0.7683069
skew     -0.2843325   0.2785849  0.8542070
kurtosis -0.9635443  -1.4385375 -1.1433587
------------------------------------------------------------ 
Transmission: 1
Engine: 0
                mpg          hp          wt
n         6.0000000   6.0000000  6.00000000
mean     19.7500000 180.8333333  2.85750000
stdev     4.0088652  98.8158219  0.48672117
skew      0.2050011   0.4842372  0.01270294
kurtosis -1.5266040  -1.7270981 -1.40961807
------------------------------------------------------------ 
Transmission: 0
Engine: 1
                mpg          hp         wt
n         7.0000000   7.0000000  7.0000000
mean     20.7428571 102.1428571  3.1942857
stdev     2.4710707  20.9318622  0.3477598
skew      0.1014749  -0.7248459 -1.1532766
kurtosis -1.7480372  -0.7805708 -0.1170979
------------------

В предыдущих примерах использовалась функция `mystats()`, но точно так же можно было бы использовать функцию `description()` из пакетов `Hmisc` и `psych` или `stat.desc()` из пакета `pastecs`. Фактически функция` by()` обеспечивает лишь общий механизм выполнения любого анализа по подгруппам.

### Получение описательных статистик в интерактивном режиме с помощью dplyr
До сих пор мы рассматривали методы, генерирующие полный набор описательных статистик для заданной таблицы данных. Однако в ходе интерактивных исследований часто стоит цель – получить ответы на конкретные вопросы. В таких случаях желательно получить ограниченное количество статистик по конкретным группам наблюдений.

Пакет dplyr содержит инструменты для быстрого и гибкого решения этой задачи. Функции summarize() и summarize_all() можно использовать для вы
числения любых статистик, а функцию group_by() – для описания групп, по которым следует вычислять статистики.

В качестве примера зададим и ответим на ряд вопросов, используя таблицу данных Salaries из пакета carData. Этот набор данных содержит информацию о размере заработной платы за девять месяцев в долларах США (salary) в 2008–2009 годах для 397 преподавателей университета в США. Данные были собраны в рамках мониторинга разницы в заработной плате между преподавателями мужского и женского полов.

Прежде чем продолжить, установите пакеты carData и dplyr
(install.packages(c("carData", "dplyr")) и затем загрузите их:

In [11]:
install.packages("carData")
library(dplyr)
library(carData)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



In [12]:
Salaries

rank,discipline,yrs.since.phd,yrs.service,sex,salary
<fct>,<fct>,<int>,<int>,<fct>,<int>
Prof,B,19,18,Male,139750
Prof,B,20,16,Male,173200
AsstProf,B,4,3,Male,79750
Prof,B,45,39,Male,115000
Prof,B,40,41,Male,141500
AssocProf,B,6,6,Male,97000
Prof,B,30,23,Male,175000
Prof,B,45,45,Male,147765
Prof,B,21,20,Male,119250
Prof,B,18,18,Female,129000


In [13]:
Salaries %>%
  summarise(med = median(salary), min = min(salary), max = max(salary))

med,min,max
<int>,<int>,<int>
107300,57800,231545


Набор данных Salaries передается функции summarise(), которая вычисляет медиану, минимальное и максимальное значения зарплаты и возвращает результат в виде однострочной таблицы данных.

Средняя зарплата за девять месяцев составляет 107 300 долларов, и по крайней мере один человек заработал более 230 000 долларов. Очевидно, что я имею полное право просить о повышении.

Каково количество преподавателей, средняя заработная плата
и размах в зависимости от пола и должности?

In [14]:
Salaries %>%
  group_by(rank, sex)%>%
  summarise(n = length(salary), med = median(salary), min = min(salary), max = max(salary))

[1m[22m`summarise()` has grouped output by 'rank'. You can override using the
`.groups` argument.


rank,sex,n,med,min,max
<fct>,<fct>,<int>,<dbl>,<int>,<int>
AsstProf,Female,11,77000.0,63100,97032
AsstProf,Male,56,80182.0,63900,95079
AssocProf,Female,10,90556.5,62884,109650
AssocProf,Male,54,95626.5,70000,126431
Prof,Female,18,120257.5,90450,161101
Prof,Male,248,123996.0,57800,231545


Когда функции `by_group()` передаются категориальные переменные, функция `summary()` генерирует статистики для каждой комбинации их значений. На всех факультетах у женщин медианная заработная плата ниже, чем у мужчин. Кроме того, в этом университете очень много профессоров-мужчин.

Каков средний стаж работы и как давно получена докторская степень для преподавателей в разбивке по полу и должности?

In [15]:
Salaries %>%
  group_by(rank, sex) %>%
  select(yrs.service, yrs.since.phd) %>%
  summarize_all(mean)

[1m[22mAdding missing grouping variables: `rank`, `sex`


rank,sex,yrs.service,yrs.since.phd
<fct>,<fct>,<dbl>,<dbl>
AsstProf,Female,2.545455,5.636364
AsstProf,Male,2.339286,5.0
AssocProf,Female,11.5,15.5
AssocProf,Male,12.037037,15.444444
Prof,Female,17.111111,23.722222
Prof,Male,23.229839,28.633065


Функция `summarize_all()` вычисляет сводные статистики для каждой негрупповой переменной (yrs.service и yrs.since.phd). Чтобы получить более одной статистики для каждой переменной, их нужно представить в виде списка. Например, `summarize_all(list (mean=mean, std=sd))` вычислит среднее значение и стандартное отклонение для каждой переменной. Мужчины и женщины имеют сопоставимый стаж работы на должности ассистента и доцента. Однако женщины-профессора имеют меньший стаж, чем их коллеги-мужчины.

Одно из преимуществ пакета `dplyr` – результаты возвращаются в виде усовершенствованных таблиц данных (tibbles). Это позволяет применять дополнительные виды анализа к сводным результатам, отображать их в графическом виде и выводить на печать. Он также предоставляет простой механизм агрегирования данных.

Как правило, у аналитиков есть свои предпочтения в отношении описательных статистик и формата их отображения. Вероятно, поэтому существует множество вариантов. Выберите тот, который лучше подходит для вас, или создайте свой!

### Визуализация результатов
Представление характеристик распределения данных в числовом виде полезно, но не заменяет графического изображения. Для отображения количественных данных можно использовать гистограммы (раздел 6.4), диаграммы плотности рассеяния (раздел 6.5), коробчатые диаграммы (раздел 6.6) и точечные диаграммы (раздел 6.7). Они помогают заметить вещи, которые легко упустить, если полагаться на небольшой набор описательных статистик.

Функции, которые мы рассматривали до сих пор, позволяют охарактеризовать количественные данные. Функции, описанные в следующем разделе, предназначены для анализа распределения категориальных переменных.

## Таблицы частот и таблицы сопряженности
В этом разделе мы рассмотрим таблицы частот и таблицы сопряженности для категориальных переменных, а также познакомимся с критериями независимости, мерами связи и способами графического представления результатов. Мы будем использовать функции, имеющиеся в базовой версии R, а также функции из пакетов vcd и gmodels. В примерах, представленных ниже, буквами A, B и C будут обозначаться категориальные переменные.

В примерах в этом разделе использован набор данных Arthritis из пакета vcd. Эти данные опубликованы в Kock & Edward (1988) и представляют результаты клинического исследования нового способа лечения ревматоидного артрита двойным слепым методом. Вот первые несколько наблюдений:

In [16]:
install.packages("vcd")
library(vcd)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘zoo’, ‘lmtest’


Loading required package: grid



In [17]:
Arthritis

Unnamed: 0_level_0,ID,Treatment,Sex,Age,Improved
Unnamed: 0_level_1,<int>,<fct>,<fct>,<int>,<ord>
1,57,Treated,Male,27,Some
2,46,Treated,Male,29,
3,77,Treated,Male,30,
4,17,Treated,Male,32,Marked
5,36,Treated,Male,46,Marked
6,23,Treated,Male,58,Marked
7,75,Treated,Male,59,
8,39,Treated,Male,59,Marked
9,33,Treated,Male,63,
10,55,Treated,Male,63,


Способ лечения (Treatment: плацебо – Placebo и лекарство – Treated), пол (Sex: мужской – Male и женский – Female) и степень улучшения состояния больных (Improved: нет – None, некоторое – Some, заметное – Marked) – это категориальные факторы. В следующем подразделе мы создадим таблицы частот и сопряженности для этих данных.

### Создание таблиц частот
R предлагает несколько методов создания таблиц частот и сопряженности. Самые важные функции перечислены в таблице.
\begin{array}{|l|l|}
\hline
Функция&Описание\\\hline
table(var1,~var2,~...,&Создает~N-мерную~таблицу~сопряженности~для~N~категориальных\\
varN)&переменных~(факторов)\\\hline
xtabs(formula, data)&Создает~N-мерную~таблицу~сопряженности~на~основе~формулы\\
~&и~матрицы~или~таблицы~данных\\\hline
prop.table(table,~margins)&Представляет~значения~таблицы~в~виде~долей~от~суммы~всех\\
~&значений~в~строке~таблицы,~заданной~параметром~margins\\\hline
margin.table(table,~margins)&Суммирует~значения~таблицы~по~строкам~или~столбцам~(опреде-\\
~&ляется~параметром~margins)\\\hline
addmargins(table,~margins)&Вычисляет~описательные~статистики~margins~(суммы~по~умолча-\\
~&нию)~для~заданной~таблицы\\\hline
ftable(table)&Создает~компактную~«плоскую»~таблицу~сопряженности\\\hline
\end{array}

В следующих подразделах мы используем все эти функции для исследования категориальных переменных. Для начала вычислим простые частоты, потом построим таблицы сопряженности для двух переменных и закончим созданием таблиц сопряженности для нескольких переменных. В качестве первого шага создадим таблицу при помощи функций table() и xtabs(), а затем будем исследовать ее при помощи других функций.



#### Таблицы для одной переменной
Частоты значений одной переменной можно рассчитать при помощи функции `table()`. Например:

Эти частоты можно преобразовать в доли от общей суммы при помощи функции `prop.table()`:

Или в проценты, используя инструкцию `prop.table()*100`:

In [25]:
mytable <- with(Arthritis, table(Improved), table(Treatment))
mytable
prop.table(mytable)
prop.table(mytable)*100

Improved
  None   Some Marked 
    42     14     28 

Improved
     None      Some    Marked 
0.5000000 0.1666667 0.3333333 

Improved
    None     Some   Marked 
50.00000 16.66667 33.33333 

In [26]:
mytable <- with(Arthritis, table(Treatment))
mytable
prop.table(mytable)
prop.table(mytable)*100

Treatment
Placebo Treated 
     43      41 

Treatment
  Placebo   Treated 
0.5119048 0.4880952 

Treatment
 Placebo  Treated 
51.19048 48.80952 

In [27]:
mytable <- with(Arthritis, table(Sex))
mytable
prop.table(mytable)
prop.table(mytable)*100

Sex
Female   Male 
    59     25 

Sex
  Female     Male 
0.702381 0.297619 

Sex
 Female    Male 
70.2381 29.7619 

Судя по результатам, у половины пациентов после лечения имело место некоторое или заметное улучшение состояния (16.7 + 33.3).

#### Таблицы для двух переменных
В случае двух переменных синтаксис применения функции `table()` имеет следующий вид:
```
mytable <- table(A, B)
```
где A – это переменная, определяющая строки таблицы сопряженности, а B – столбцы.

Как вариант можно воспользоваться функцией `xtabs()`, которая позволяет при создании таблицы сопряженности вводить данные в виде формулы:
```
mytable <- xtabs(~ A + B, data=mydata)
```
где mydata – это матрицы или таблица данных. В общем случае переменные, для которых строится таблица сопряженности, находятся
в правой части формулы (то есть справа от знака ~) и разделяются знаками +. Если переменная находится в левой части формулы, предполагается, что это вектор с частотами значений (удобно, если вы их уже вычислили).

Для набора данных Arthritis у нас получится такая таблица:

In [28]:
mytable <- xtabs(~ Treatment + Improved, data=Arthritis)
mytable

         Improved
Treatment None Some Marked
  Placebo   29    7      7
  Treated   13    7     21

С помощью функций `margin.table()` и `prop.table()` можно рассчитать соответственно частоты и доли от сумм по столбцам или строкам. При суммировании и вычислении долей по **строкам** получаем:

In [29]:
margin.table(mytable, 1)

Treatment
Placebo Treated 
     43      41 

In [32]:
prop.table(mytable, 1)

         Improved
Treatment      None      Some    Marked
  Placebo 0.6744186 0.1627907 0.1627907
  Treated 0.3170732 0.1707317 0.5121951

\begin{array}{|c|c|c|c|c|}
\hline
Improved/Treatment&None&Some&Marked&Summ\\\hline
Placebo&29/43&7/43&7/43&1\\\hline
Treatment&13/41&7/41&21/41&1\\\hline
~&~&~&~\\\hline
~&~&~&~\\\hline
\end{array}

In [31]:
prop.table(mytable, 1)*100

         Improved
Treatment     None     Some   Marked
  Placebo 67.44186 16.27907 16.27907
  Treated 31.70732 17.07317 51.21951

Индекс 1 в вызове `table()` относится к первой переменной. Рассматривая полученную таблицу, можно заметить, что у 51 % пациентов, получавших настоящее лекарство, наступило заметное улучшение. Для сравнения: такой эффект наступил только у 16 % пациентов, получавших плацебо.

При суммировании и вычислении долей по **столбцам** получаем:

In [33]:
margin.table(mytable, 2)

Improved
  None   Some Marked 
    42     14     28 

In [34]:
prop.table(mytable, 2)

         Improved
Treatment      None      Some    Marked
  Placebo 0.6904762 0.5000000 0.2500000
  Treated 0.3095238 0.5000000 0.7500000

\begin{array}{|c|c|c|c|c|}
\hline
Improved/Treatment&None&Some&Marked&Summ\\\hline
Placebo&29/43&7/43&7/43&1\\\hline
Treatment&13/41&7/41&21/41&1\\\hline
\end{array}

In [35]:
prop.table(mytable, 2)*100

         Improved
Treatment     None     Some   Marked
  Placebo 69.04762 50.00000 25.00000
  Treated 30.95238 50.00000 75.00000

\begin{array}{|c|c|c|c|c|}
\hline
Improved/Treatment&None&Some&Marked&Summ\\\hline
Placebo&29/42&7/14&7/28&~\\\hline
Treatment&13/42&7/14&21/28&~\\\hline
Summ&1&1&1\\\hline
\end{array}

В этом случае индекс 2 в вызове `table()` относится к первой переменной.

При суммировании и вычислении долей по всем ячейкам таблицы получаем:

In [36]:
prop.table(mytable)

         Improved
Treatment       None       Some     Marked
  Placebo 0.34523810 0.08333333 0.08333333
  Treated 0.15476190 0.08333333 0.25000000

\begin{array}{|c|c|c|c|c|}
\hline
Improved/Treatment&None&Some&Marked&Summ\\\hline
Placebo&29/84&7/84&7/84&0.512\\\hline
Treatment&13/84&7/84&21/84&0.488\\\hline
Summ&0.5&0.167&0.333&1\\\hline
\end{array}

Сумма всех долей равна 1.

Для вычисления сумм по столбцам или строкам можно использовать функцию `addmargins()`:

In [37]:
addmargins(mytable)

Unnamed: 0,None,Some,Marked,Sum
Placebo,29,7,7,43
Treated,13,7,21,41
Sum,42,14,28,84


In [38]:
addmargins(prop.table(mytable))

Unnamed: 0,None,Some,Marked,Sum
Placebo,0.3452381,0.08333333,0.08333333,0.5119048
Treated,0.1547619,0.08333333,0.25,0.4880952
Sum,0.5,0.16666667,0.33333333,1.0


По умолчанию функция `addmargins()` вычисляет суммы и по столбцам, и по строкам таблицы. Также можно вычислить суммы только по строкам:

In [39]:
addmargins(prop.table(mytable, 1), 2)

Unnamed: 0,None,Some,Marked,Sum
Placebo,0.6744186,0.1627907,0.1627907,1
Treated,0.3170732,0.1707317,0.5121951,1


или только по столбцам:

In [40]:
addmargins(prop.table(mytable, 2), 1)

Unnamed: 0,None,Some,Marked
Placebo,0.6904762,0.5,0.25
Treated,0.3095238,0.5,0.75
Sum,1.0,1.0,1.0


Судя по полученным результатам, 25 % пациентов, чье состояние заметно улучшилось после лечения, получали плацебо.


> ПРИМЕЧАНИЕ. Функция `table()` по умолчанию игнорирует пропущенные значения `(NA)`. Чтобы добавить их в таблицу сопряженности как одно из возможных значений, используйте параметр `useNA="ifany"`.

Третий способ создания таблиц сопряженности для двух переменных – использовать функцию `CrossTable()` из пакета gmodels. Эта функция создает такую же таблицу, как функции `PROC FREQ` в `SAS` или `CROSSTABS` в `SPSS`.



In [41]:
install.packages("gmodels")
library(gmodels)
CrossTable(Arthritis$Treatment, Arthritis$Improved)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘gtools’, ‘gdata’





 
   Cell Contents
|-------------------------|
|                       N |
| Chi-square contribution |
|           N / Row Total |
|           N / Col Total |
|         N / Table Total |
|-------------------------|

 
Total Observations in Table:  84 

 
                    | Arthritis$Improved 
Arthritis$Treatment |      None |      Some |    Marked | Row Total | 
--------------------|-----------|-----------|-----------|-----------|
            Placebo |        29 |         7 |         7 |        43 | 
                    |     2.616 |     0.004 |     3.752 |           | 
                    |     0.674 |     0.163 |     0.163 |     0.512 | 
                    |     0.690 |     0.500 |     0.250 |           | 
                    |     0.345 |     0.083 |     0.083 |           | 
--------------------|-----------|-----------|-----------|-----------|
            Treated |        13 |         7 |        21 |        41 | 
                    |     2.744 |     0.004 |     3.935 |        

Функция `CrossTable()` принимает дополнительные параметры, управляющие вычислением процентов (по строкам, столбцам и ячейкам); округлением результатов до заданного числа знаков после запятой; вычислением критериев хи-квадрат, Фишера и Мак-Немара; вычислением ожидаемых значений и остатков (по Пирсону, стандартизованные, скорректированные стандартизованные); учетом пропущенных значений; добавлением подписей в виде имен строк и столбцов; форматированием результатов в стиле SAS
и SPSS. Более подробную информацию можно получить, вызвав `help(CrossTable)`.

Если в наборе данных имеется больше двух категориальных переменных, то есть возможность строить многомерные таблицы сопряженности. Давайте рассмотрим их.

#### Многомерные таблицы
Функции `table()` и `xtabs()` можно использовать для создания многомерных таблиц сопряженности для трех и более категориальных переменных. Функции `margin.table()`, `prop.table()` и `addmargins()`
тоже можно применять к многомерным таблицам. Кроме того, функция `ftable()` позволяет выводить многомерные таблицы в компактном и удобном виде. Примеры использования этих функций показаны ниже.

In [42]:
# Формирование трехмерной таблицы
mytable <- xtabs(~ Treatment+Sex+Improved, data=Arthritis)
mytable

, , Improved = None

         Sex
Treatment Female Male
  Placebo     19   10
  Treated      6    7

, , Improved = Some

         Sex
Treatment Female Male
  Placebo      7    0
  Treated      5    2

, , Improved = Marked

         Sex
Treatment Female Male
  Placebo      6    1
  Treated     16    5


In [43]:
# Доли от общей суммы по всем ячейкам
ftable(mytable)

                 Improved None Some Marked
Treatment Sex                             
Placebo   Female            19    7      6
          Male              10    0      1
Treated   Female             6    5     16
          Male               7    2      5

Инструкция ❶ вычисляет частоты для сочетаний всех трех факторов. Эта инструкция также демонстрирует, как можно использовать функцию `ftable()` для представления результатов в более удобном и компактном виде.

In [45]:
# Доли от суммы по строкам и столбцам
margin.table(mytable, 1)
margin.table(mytable, 2)
margin.table(mytable, 3)

Treatment
Placebo Treated 
     43      41 

Sex
Female   Male 
    59     25 

Improved
  None   Some Marked 
    42     14     28 

Инструкция ❷ вычисляет частоты для отдельных факторов Treatment, Sex и Improved. Поскольку исходная таблица была создана при помощи формулы ~ Treatment+Sex+Improved, индекс 1 соответствует переменной Treatment, индекс 2 – переменной Sex, а индекс 3 – переменной Improved.

In [46]:
# Доли от сумм по столбцам Treatment и Improved
margin.table(mytable, c(1, 3))

         Improved
Treatment None Some Marked
  Placebo   29    7      7
  Treated   13    7     21

Инструкция ❸ вычисляет частоты по всем сочетаниям значений Treatment и Improved, объединяя данные для мужчин и женщин.

In [47]:
# Доли от сумм по столбцам Treatment и Sex
ftable(prop.table(mytable, c(1, 2)))

                 Improved       None       Some     Marked
Treatment Sex                                             
Placebo   Female          0.59375000 0.21875000 0.18750000
          Male            0.90909091 0.00000000 0.09090909
Treated   Female          0.22222222 0.18518519 0.59259259
          Male            0.50000000 0.14285714 0.35714286

In [48]:
ftable(addmargins(prop.table(mytable, c(1, 2)), 3))

                 Improved       None       Some     Marked        Sum
Treatment Sex                                                        
Placebo   Female          0.59375000 0.21875000 0.18750000 1.00000000
          Male            0.90909091 0.00000000 0.09090909 1.00000000
Treated   Female          0.22222222 0.18518519 0.59259259 1.00000000
          Male            0.50000000 0.14285714 0.35714286 1.00000000

Инструкция ❹ вычисляет долю пациентов с разной степенью улучшения для каждого сочетания типа лечения и пола (Treatment и Sex). Здесь можно заметить, что заметное улучшение наступило у 36 % мужчин и 59 % женщин, получавших настоящее лекарство. В общем случае частоты вычисляются так, чтобы их сумма для всех значений фактора (в данном случае Improved), не указанного в вызове prop.table(), была равна единице. Это видно в последнем примере, где частоты суммируются по строкам.

Чтобы представить результаты в процентах, а не в долях от еди-
ницы, можно умножить все значения на 100. Например, следую-
щая инструкция:

In [49]:
ftable(addmargins(prop.table(mytable, c(1, 2)), 3)) * 100

                 Improved       None       Some     Marked        Sum
Treatment Sex                                                        
Placebo   Female           59.375000  21.875000  18.750000 100.000000
          Male             90.909091   0.000000   9.090909 100.000000
Treated   Female           22.222222  18.518519  59.259259 100.000000
          Male             50.000000  14.285714  35.714286 100.000000

Таблицы сопряженности содержат информацию о частотах всех сочетаний значений факторов, но нередко желательно также знать, связаны ли эти факторы между собой или они независимы. Критерии независимости обсуждаются в следующем разделе.

### Критерии независимости
Проверить независимость категориальных данных в R можно несколькими способами. В этом разделе описаны три критерия: хиквадрат, Фишера и Кохрана–Мантеля–Хензеля.

#### Хи-квадрат
К двумерной таблице можно применить функцию chisq.test(), чтобы проверить значение критерия хи-квадрат для переменных, представляющих строки и столбцы.

In [50]:
install.packages("vcd")
library(vcd)
mytable <- xtabs(~Treatment+Improved, data=Arthritis)
chisq.test(mytable)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)




	Pearson's Chi-squared test

data:  mytable
X-squared = 13.055, df = 2, p-value = 0.001463


Переменные Treatment и Improved не являются независимыми.

Как показывают результаты вычисления критерия хи-квадрат ❶,
между типом лечения (Treatment) и степенью улучшения (Improved)
состояния пациентов существует связь (p < 0.01). А вот между по-
лом пациентов и степенью улучшения их состояния связи нет

In [51]:
mytable <- xtabs(~Improved+Sex, data=Arthritis)
chisq.test(mytable)

“Chi-squared approximation may be incorrect”



	Pearson's Chi-squared test

data:  mytable
X-squared = 4.8407, df = 2, p-value = 0.08889


Переменные Sex и Improved не зависят друг от друга.

Как показывают результаты вычисления критерия хи-квадрат ❶, между типом лечения (Treatment) и степенью улучшения (Improved) состояния пациентов существует связь (p < 0.01). А вот между полом пациентов и степенью улучшения их состояния связи нет (p > 0.05) ❷. Значение статистической ошибки первого рода (p-value) – это вероятность отсутствия зависимости между данными переменными в генеральной совокупности. Поскольку эта вероятность достаточно мала в случае ❶, можно отвергнуть гипотезу о независимости результата лечения от его типа. Однако в случае ❷ недостаточно мала, поэтому есть основание полагать, что способ лечения и пол пациентов не зависят друг от друга. Предупреждение (warning message) в результатах в листинге появляется потому, что в одной из шести ячеек таблицы сопряженности (некоторое
улучшение состояния у мужчин) ожидаемое значение меньше 5, что может сделать недействительным критерий хи-квадрат.

#### Точный критерий Фишера
Точный критерий Фишера (Fisher’s exact test) можно вычислить с помощью функции fisher.test(). Этот критерий проверяет нулевую гипотезу о независимости столбцов и строк в таблице сопряженности. Эта функция имеет следующий синтаксис:
```
fisher.test(mytable)
где mytable – это двухмерная таблица.
```
Вот пример:

In [52]:
mytable <- xtabs(~Treatment+Improved, data=Arthritis)
fisher.test(mytable)


	Fisher's Exact Test for Count Data

data:  mytable
p-value = 0.001393
alternative hypothesis: two.sided


В отличие от многих статистических программ, функцию `fisher.test()` в R можно применять к любой таблице сопряженности (с двумя и более столбцами и строками), а не только к таблице размерности 2×2.

#### Критерий Кохрана–Мантеля–Хензеля
Функция mantelhaen.test() позволяет вычислить критерий хиквадрат Кохрана–Мантеля–Хензеля (Cochran-Mantel-Haenszel), проверяющий нулевую гипотезу о независимости двух номинальных переменных для каждого значения третьей переменной. Приведенный ниже код проверяет гипотезу о независимости переменных Treatment и Improved для каждого значения переменной Sex. При этом предполагается отсутствие трехсторонней взаимозависимости (Treatment × Improved × Sex).

In [53]:
mytable <- xtabs(~Treatment+Improved+Sex, data=Arthritis)
mantelhaen.test(mytable)


	Cochran-Mantel-Haenszel test

data:  mytable
Cochran-Mantel-Haenszel M^2 = 14.632, df = 2, p-value = 0.0006647


Полученный результат позволяет считать, что вне зависимости от пола пациентов между способом лечения и его результатом имеется выраженная связь.

### Меры тесноты связи
Статистические критерии значимости, описанные в предыдущем разделе, оценивали достаточность оснований для отклонения нулевой гипотезы о независимости двух переменных. Если нулевую гипотезу можно отвергнуть, то возникает следующий естественный вопрос: насколько сильна обнаруженная взаимосвязь. Функция `assocstats()` из пакета `vcd` вычисляет фи-коэффициент (phi coefficient), коэффициент сопряженности и V-коэффициент Крамера (Cramer’s V) для двумерной таблицы.

In [54]:
mytable <- xtabs(~Treatment+Improved, data=Arthritis)
assocstats(mytable)

                    X^2 df  P(> X^2)
Likelihood Ratio 13.530  2 0.0011536
Pearson          13.055  2 0.0014626

Phi-Coefficient   : NA 
Contingency Coeff.: 0.367 
Cramer's V        : 0.394 

В общем случае чем больше значения коэффициентов, тем теснее связь. В пакете vcd также имеется функция `kappa()`, которая вычисляет каппу Коэна (Cohen’s kappa) и взвешенную каппу для матрицы соответствий (например, степень согласованности между двумя суждениями, классифицирующими набор объектов по категориям).

In [55]:
kappa(mytable)

### Визуализация результатов
В R реализованы способы визуализации взаимосвязей между категориальными переменными, которые выходят далеко за пределы возможностей большинства других статистических программ. Обычно для визуализации частот значений одной переменной используются столбиковые диаграммы (раздел 6.1). В пакете `vcd` имеются замечательные функции визуализации взаимосвязей между категориальными переменными в многомерных наборах данных с использованием мозаичных диаграмм и диаграмм связей (раздел 11.4). Наконец, функции анализа соответствий в пакете `ca` позволяют визуально исследовать связи между строками и столбцами таблиц сопряженности при помощи различных геометрических
образов (Nenadic, Greenacre, 2007).

На этом мы приостанавливаем обсуждение таблиц сопряженности и возобновим его после знакомства с более сложными темами в главах 11 и 19. Теперь давайте познакомимся с разными типами коэффициентов корреляции.

## Корреляция
Коэффициенты корреляции используются для описания тесноты связей между количественными переменными. Знак коэффициента (+ или –) свидетельствует о направлении связи (положительная или отрицательная), а величина коэффициента показывает силу связи (от 0 – нет связи до 1 – абсолютно предсказуемая взаимосвязь).


В этом разделе мы рассмотрим разные коэффициенты корреляции наряду с критериями оценки их значимости. В наших примерах мы используем набор данных state.x77, входящий в состав базового дистрибутива R. В нем содержатся сведения о численности, доходе, проценте неграмотного населения, средней продолжительности жизни, уровне преступности и доле людей со средним образованием по 50 штатам США в 1977 году. Там также есть данные о температурном режиме и о площади штатов, но мы опустим
их, чтобы сэкономить место. Выполните вызов help(state.x77), чтобы узнать больше об этих данных. В дополнение к базовой версии R нам понадобятся пакеты psych и ggm.

### Типы корреляций
В R можно вычислять разные коэффициенты корреляции, включая коэффициенты Пирсона, Спирмена, Кенделла, частные, полихорические и многорядные. Рассмотрим их по порядку.

#### Коэффициенты Пирсона, Спирмена и Кенделла
Коэффициент линейной корреляции Пирсона (Pearson product moment correlation) отражает тесноту линейной связи между двумя количественными переменными. Коэффициент ранговой корреляции Спирмана (Spearman’s Rank Order correlation) отражает тесноту связи между двумя ранжированными переменными. Тау Кенделла (Kendall’s Tau) – еще один непараметрический показатель ранговой корреляции.

Функция cor() вычисляет все три коэффициента, а функция cov() вычисляет ковариации. У этих функций есть много дополнительных параметров, но в общем случае синтаксис вычисления корреляций выглядит так:
```
cor(x, use= , method= )
```

# P.N. 227

Параметр Описание
x Матрица или таблица данных
use Определяет необходимость обработки пропущенных данных. Может принимать сле-
дующие значения: all.obs (предполагается, что в наборе данных нет пропущенных
значений и их появление вызовет сообщение об ошибке), everything (коэффициен-
ты корреляции для строк с отсутствующими значениями будут пропускаться и обо-
значаться как missing), complete.obs (учитывать только строки без пропущенных
значений) и pairwise.complete.obs (учитывать все полные наблюдения для каждой
пары переменных в отдельности)
method Определяет тип коэффициента корреляции. Возможные значения: pearson, spearman
и kendall
По умолчанию параметры принимают следующие значения:
use="everything" и method="pearson".