# Глава 2. Типы признаков

Для того чтобы проанализировать данные, нам необходимо из получить. Собранные данные, как правило, оформляют в таблицу. По строкам идут **объекты (наблюдения)**, а по столбцам — их **признаки**. Например, если мы исследуем студентов первого курса, то студенты являются объектами, а их характеристики (баллы за егэ, знание языков, возраст и т.д.) — признаками. Или, если мы хотим предсказать цену на квартиры, то квартиры в этом случае будут объектам, а особенности квартиры (этаж, площадь, удаленность от метро и т.д.) — признаками.

Нам не очень интересно знать, какие значения признаков у какого-то конкретного наблюдения (объекта). Обычно нам важнее обобщить полученные данные, путем вычисления подходящих статистик и поиска закономерностей и зависимостей. Например, если мы хотим узнать, по карману ли нам обед в ресторане, то для нас не будет показателен счет одного конкретного посетителя. А вот средний чек может дать нам достаточное представление об уровне цен в этом заведении.

Для того чтобы понять, какие статистики и методы будут подходящими для конкретных данных, нам необходимо знать характеристики этих данных. А именно, их тип. Так как некоторые методы можно применять только в отдельных случаях. Например, мы привыкли, что часто для выявления общей тенденции считают среднее арифметическое. Но если наши данные — это названия иностранных языков, на которых говорят студенты, то мы не сможем посчитать среднее, так как не получится сложить английский и французский и поделить найденную сумму.

Представим, что мы опросили какое-то количество людей в ходе социологического исследования и получили таблицу следующего вида:

| Имя   | Возраст | Город  | Образование         |   |
|-------|---------|--------|---------------------|---|
| Мария | 34      | Самара | Среднее специальное |   |
| Антон | 27      | Москва | Кандидат наук       |   |
| Инна  | 30      | Омск   | Высшее              |   |
|       |         |        |                     |   |

Мы видим, что у каждого человека есть несколько характеристик — признаков. Причем эти характеристики обладают своими особенностями. Возраст мы можем сравнивать: говорить, кто старше и на сколько лет. Уровень образования можем упорядочить, но уже не можем сравнить, на сколько одно образование «больше» чем другое. А города проживания уже никак нельзя ранжировать. Конечно, мы можем сказать, что один город больше другого по площади или по развитию инфраструктуры, но у нас нет универсального критерия для сравнения как в случае с образованием или возрастом.

То есть, мы видим, что существует несколько типов признаков. Давайте разберемся, какие именно и как их можно различить.

Данные бывают трех типов. Глобально они делятся на две группы: ***количественные*** и ***качественные***. Могут встречаться и другие названия: например, качественные называют категориальными.

#### Количественные
данные выражаются числами. Причем важно отметить, что числа имеют математическое значение. Например, вес, рост или зарплата. Количественные данные можно сравнивать друг с другом. Можно сказать, что зарплата в  будет на   больше, чем зарплата в  . Или что вес    кг в полтора раза больше, чем вес    кг.

Выделяют два подтипа количественных данных: **интервальные данные и данные, измеренные по шкале отношений**. Основным аспектом, который отличает эти два вида является наличие в шкале измерений. У интервальных данный нулевое значение существует просто для удобства вычислений, и выбирается произвольно. Например, можно вспомнить про измерение температуры по шкалам Фаренгейта и Цельсия: в этих двух системах ноль обозначает разную температуру, и в каждом случае выбран просто как условная точка отсчета. Это влияет на возможности сравнения двух показателей: мы можем сказать, что одна температура на  градусов больше другой, но не можем сказать, что одна температура в  раз выше другой, так как у нас нет абсолютного нуля, от которого можно вести отсчет. То есть, мы можем вычитать или складывать наши данные, но не можем их умножать или делить.

Для **шкалы отношений** же ноль имеет содержательный смысл, и его значение фиксированное. Предположим, что мы оцениваем количество воды в бутылке. Очевидно, что нулю здесь будет соответствовать отсутствие воды, и никак нельзя выбрать нулевую точку иначе. И в таком случае можно уже сказать, что в одной бутылке в два раза больше воды, чем в другой, так как такое отношение будет иметь уже содержательный смысл. С данными, измеренными по шкале отношений, мы можем производить любые арифметические действия.

Количественные данные также можно разделить на две других подгруппы: **непрерывные** и **дискретные**. Дискретные данные измеряются определенным, счетным набором значений. Например, если мы говорим о количестве людей в комнате, то это значение может быть равно , , ) или даже ) - но количество таких возможных значений ограничено. Непрерывные данные же могут принимать абсолютно любое значение из какого-то интервала. Допустим, если мы говорим о длине, то на каком-то промежутке чисел может быть бесконечное количество возможных длин.

#### Качественные данные
бывают двух типов: порядковые (их еще называют ординальными) и номинальные. Оба типа отражают принадлежность к категориям. Однако есть фундаментальное отличие. Порядковые данные можно упорядочить, а номинальные — нет.

Рассмотрим примеры порядковых данных:

- Степень ожога — всегда можно однозначно упорядочить, какой ожог сильнее, а какой — слабее;
- Спортивный разряд — очевидно, что мастер спорта «больше», чем человек с первым юношеским разрядом;
- Уровень образования — кандидат наук будет «выше» в данной иерархии, чем человек со средним специальным образованием

В этих примерах есть одна общая черта: мы всегда однозначно можем упорядочить признаки по возрастанию или по убыванию.

С номинальными признаками так уже не получится. Номинальными признаками являются:

- Группа крови — нельзя сказать, что первая группа крови «больше» или «меньше», чем вторая или четвертая.
- Пол — нельзя упорядочить мужчин и женщин и сказать, что кто-то лучше или «больше».

Важно отметить, что несмотря на то, что в качественных признаках не фигурируют числа, они могут быть закодированы через них. Например, иногда в социологических опросниках мужской пол обозначают как $1$, а женский как $0$. Однако здесь эти числа не имеют математического значения, поэтому данные не являются количественными. То есть, $1$ и $0$ здесь просто являются символами для обозначения мужчин и женщин. И ни в коем случае нельзя воспринимать их как числа и говорить, что мужчина на  больше, чем женщина. Или в социологических опросах часто кодируют шкалы числами. Например, $1$ — «согласен», $2$ — «почти согласен», $3$ — «затрудняюсь ответить», $4$ — «скорее не согласен», $5$ — «не согласен». Нельзя сказать, что человек, ответивший «скорее не согласен» на некую условную единицу более согласен, чем тот, который ответил «не согласен». Такой признак абсолютно точно будет порядковым. То есть, для того, чтобы понять тип данных надо не только посмотреть на способ его представления, но и осознать, какой смысл он несет.

Итак, мы выяснили, что данные, с которыми мы будем работать, могут быть разных типов: номинальные, порядковые и количественные. В следующих частях мы уже научимся некоторым методам анализа данных и разберемся, как можно исследовать каждый из типов.