# Основы работы с количественными данными

*Алла Тамбовцева*

## Практикум 1. Введение в работу с данными

### Часть 1: краткое знакомство с Python

В Python, вне зависимости от того, с чем мы работаем (с отдельными числами, с набором чисел, с таблицами), интересующие нас объекты имеет смысл сохранять в **переменные**. 

На переменную можно смотреть как на контейнер, в который можно «положить» любой объект, чтобы потом удобным образом обратиться к нему по короткому названию. Например, мы можем сохранить в переменные `x` и `y` числа 2 и 3, а затем, не переписывая сами числа, производить с ними любые манипуляции:

In [1]:
x = 2
y = 3

(x + y) / x * y

7.5

Если мы хотим изменить значение переменной, мы можем перезаписать его еще раз через `=`:

In [2]:
# изменяем значение x на 4
# смотрим на изменившийся ответ выражения с x и y

x = 4
(x + y) / x * y

5.25

Мы будем сохранять в переменные либо **числовые массивы** (если работаем с небольшими выборками), либо **датафреймы** – таблицы с данными (если загружаем реальные данные из файлов Excel). 

Выполнение операций в Python происходит благодаря операторам или функциям. На **операторы** можно смотреть как на специальные символы, отвечающие за определенные действия. Так, в примерах выше мы уже видели оператор `=` для присваивания значения переменной, оператор `/` для деления, `+` и `*` для сложения и умножения соответственно. На самом деле, операторов больше, и некоторые из них мы увидим позже, например, операторы, позволящие формулировать логические выражения для условий. 

**Функции** – это своего рода команды, которые выполняют определенные операции. Как и у функций в математике, у функций в Python есть аргумент – то, к чему эту функцию необходимо применить, чтобы получить результат. Аргумент указывается в круглых скобках после названия функции, таков синтаксис Python. 

Например, мы можем вывести на экран значения переменных `x` или `y`, применив к ним функцию `print()`:

In [3]:
print(x)

4


In [4]:
print(y)

3


Или округлить число 5.67 до целых с помощью функции `round()`:

In [5]:
round(5.67)

6

Аргументов у функции может быть несколько. Тогда они перечисляются в круглых скобках через запятую. Так, мы можем вывести на экран сразу несколько элементов:

In [6]:
print(x, y)

4 3


In [7]:
print("S", "O", "S")

S O S


Или округлить число 5.67 до первого знака после запятой:

In [8]:
round(5.67, 1)

5.7

Функции `print()` и `round()`, которые мы рассмотрели – базовые. Это означает, что для их использования не нужно подгружать специальные наборы функций, можно просто написать их названия и запускать код. Но часто этих функций не хватает для полноценной работы, особенно если речь идет о работе с данными. Поэтому возникает необходимость в **библиотеках** – наборах функций, которые служат для решения конкретной группы задач. В ближайшее время мы будем работать с двумя библиотеками:

* библиотека `numpy` (от *Numeric Python*) для эффективной работы с числовыми массивами;
* библиотека `pandas` для загрузки и обработки данных в табличном виде.

Чтобы использовать функции из определенной библиотеки, ее сначала нужно импортировать. Иначе Python не поймет, откуда ему эту команду брать, и выдаст ошибку. Например, далее для создания числового массива нам понадобится функция `array()`, которая хранится внутри библиотеки `numpy`. Попробуем вызвать эту функцию просто так:

In [9]:
array()

NameError: name 'array' is not defined

Ошибка `NameError` – Python пишет, что `array` не определено. Такое возможно в двух случаях:

* такой функции, действительно, нет, мы опечатались;
* такая функция есть, но она спрятана в библиотеке.

Наш случай – второй, поэтому давайте импортируем библиотеку `numpy` и перейдем к работе с числовым массивом! 

Но перед этим отметим еще один вариант возникновения `NameError` – когда объект еще не определен, а мы его пытаемся вызвать. Так, если мы попробуем вывести на экран значение переменной `age`, ничего не получится, в рамках этого файла мы его не создавали:

In [10]:
print(age)

NameError: name 'age' is not defined

И еще: Python чувствителен к регистру, название маленькими буквами и то же название большими буквами – это разные вещи. Так, получить значение `X` мы не сможем, Python знает только про `x`, который мы создавали ранее:

In [11]:
print(x)  # ок
print(X)  # нет такого

4


NameError: name 'X' is not defined

Все, пора переходить к массивам.

### Часть 2: работа с выборкой, сохраненной в массив

В Python существует много различных структур данных: списки, кортежи, словари, массивы, датафреймы... У каждой структуры есть свои особенности, полезные для решения определенных практических задач. Для того, чтобы работать с выборками, состоящими из числовых значений, удобнее всего использовать **массивы**, которые создаются с помощью библиотеки `numpy` (название от *Numeric Python*). 

Импортируем библиотеку `numpy` с сокращенным названием `np`:

In [12]:
import numpy as np

Вообще для импорта этой библиотеки достаточно использовать выражение `import numpy`. Но здесь мы пошли немного дальше – название `numpy` считается достаточно длинным, поэтому мы его сократили до `np`. Зачем? Чтобы потом при вызове функций нам не пришлось таскать за собой слово `numpy`. Сравните: `numpy.array()` или `np.array()`. 

> Не совсем серьезное отступление. На самом деле, конструкция `import ... as ...` позволяет присваивать библиотекам любые названия из одного слова без пробелов. Например, можно написать `import numpy as pain`, и тогда дальше Python будет понимать, что в выражениях `pain.array()` мы вызываем `numpy`.

Как мы уже выяснили, для создания массива нам понадобится функция `array()`. Создадим массив с пятью значениями заработной платы и сохраним его в переменную `salary`:

In [13]:
salary = np.array([70, 80, 50, 90, 60])

Разберемся, что тут к чему.
    
Функция `array()` будет работать только тогда, когда мы укажем, что она из библиотеки `numpy`, поэтому получаем выражение `np.array()`.

Массив создается на основе списка значений, а для создания списка значения нужно перечислить в квадратных скобках через запятую. Поэтому `np.array([70, 80, 50, 90, 60])`, а не `np.array(70, 80, 50, 90, 60)`.

Пробелы после запятых добавлены для удобства и лучшей читаемости, если где-то пропустим его, не проблема.

Внутри библиотеки `numpy` хранится много функций для вычисления различных характеристик массива, в частности, описательных статистик. Функции для описательных статистик имеют говорящие названия – названия статистик на английском языке:

* функция `min()` вычисляет минимальное значение;
* функция `max()` вычисляет максимальное значение;
* функция `mean()` вычисляет среднее арифметическое;
* функция `median()` вычисляет медиану;
* функция `quantile()` вычисляет квантили разных уровней.

Так как все эти функции входят в `numpy`, перед их названием всегда нужно будет указывать `np` (как в коде выше). Найдем минимальное значение в массиве:

In [14]:
np.min(salary)

50

А теперь максимальное:

In [15]:
np.max(salary)

90

А теперь среднее (среднее арифметическое):

In [16]:
np.mean(salary)

70.0

И медиану:

In [17]:
np.median(salary)

70.0

Так получилось, что среднее и медиана в нашем примере совпали. 

Для вычисления квантилей нам понадобится дополнительная информация – квантили какого уровня мы хотим получить. На лекции мы выяснили, что иногда полезно определять квартили: нижний квартиль – квантиль уровня 0.25, верхний квартиль – квантиль уровня 0.75. Воспользуемся этой информацией и укажем нужные уровни в функции `quantile()`. Посчитаем нижний квартиль:

In [18]:
np.quantile(salary, 0.25)

60.0

Посчитаем верхний квартиль:

In [19]:
np.quantile(salary, 0.75)

80.0

Давайте проинтерпретируем полученные результаты (у нас неприлично маленькая выборка, от 5 наблюдений проценты считать несерьезно, но пусть, возьмем грех на душу). У 50% респондентов заработная плата не превышает 70 тысяч (медиана). У 25% респондентов заработная плата не превышает 60 тысяч (нижний квартиль), у 75% заработная плата не превышает 80 тысяч (верхний квартиль). 

Квантиль может быть любого уровня от 0 до 1, можем для примера определить квантиль уровня 0.3 или 30-ый процентиль:

In [20]:
np.quantile(salary, 0.3) # у 30% людей зарплата не более 62 тысяч

62.0

И, наконец, функция `quantile()` хороша тем, что умеет считать квантили разных уровней сразу. Уровни квантилей в таком случае можно записать в виде списка – перечня значений через запятую в квадратных скобках.

In [21]:
np.quantile(salary, [0.25, 0.75]) # оба квартиля сразу

array([60., 80.])