# Основы анализа данных в Python

## Практикум 1. Списки и массивы NumPy

*Алла Тамбовцева*

На курсе по Python мы познакомились с последовательностями разных видов: строками (тип `string`), списками (тип `list`) и кортежами (тип `tuple`). Самой универсальной последовательностью из перечисленных является список – во-первых, он позволяет хранить элементы разных типов, а во-вторых, его можно изменять. 

Не будем смешивать типы, рассмотрим простой список из целых чисел. Пусть это будет выборка значений веса пингвинов, обитающих на острове Мечты в Антарктике. На этом острове обитают пингвины Адели и антарктические пингвины, которые довольно небольшие.

In [1]:
# вес в граммах

weight = [3250, 3900, 3300, 3900, 3325, 4150, 3950, 3550, 3300, 4650, 3150,
       3900, 3100, 4400, 3000, 4600, 3425, 2975, 3450, 4150, 3350, 3550,
       3800, 3500, 3950, 3600, 3550, 4300, 3400, 4450, 3300, 4300, 3700,
       4350, 2900, 4100, 3500, 4475, 3425, 3900, 3175, 3975, 3400, 4250,
       3400, 3475, 3050, 3725, 3000, 3650, 4250, 3475, 3450, 3750, 3700,
       4000, 3500, 3900, 3650, 3525, 3725, 3950, 3250, 3750, 4150, 3700,
       3800, 3775, 3700, 4050, 3575, 4050, 3300, 3700, 3450, 4400, 3600,
       3400, 2900, 3800, 3300, 4150, 3400, 3800, 3700, 4550, 3200, 4300,
       3350, 4100, 3600, 3900, 3850, 4800, 2700, 4500, 3950, 3650, 3550,
       3500, 3675, 4450, 3400, 4300, 3250, 3675, 3325, 3950, 3600, 4050,
       3350, 3450, 3250, 4050, 3800, 3525, 3950, 3650, 3650, 4000, 3400,
       3775, 4100, 3775]

Предположим, мы хотим выполнить стандартизацию этих данных (вспоминаем ТВиМС) – вычесть из каждого значения выборки её среднее $\bar{y}$ и поделить результат на её стандартное отклонение $s$:

$$
y' = \frac{y-\bar{y}}{s}.
$$

*(вспоминаем и привыкаем к формулам)*

$$
\bar{y} = \frac{\sum_{i=1}^{n}y_i}{n}; \text{ }
s^2 = \frac{\sum_{i=1}^{n}{(y_i - \bar{y})}^2}{n - 1}.
$$

Тут возникает сразу две проблемы:

* на списках не определены готовые методы, которые вычисляют среднее и стандартное отклонение;
* без циклов и аналогичных конструкций не обойтись – нужен перебор элементов. 

Давайте вспомним, как применить цикл `for` для решения этой задачи. 

>**Задача 1.** Используя только базовые функции Python и цикл `for`:
* вычислите выборочное среднее `avg` и выборочное стандартное отклонение `s`;
* получите список `weight_norm` со стандартизованными значениями выборки `weight`.

In [2]:
# объем выборки
n = len(weight)

# среднее
avg = sum(weight) / n

In [3]:
# считаем sums – сумму квадратов отклонений от среднего
# из каждого значения weight (назвали i в цикле)
# вычитаем среднее avg, возводим разность в квадрат,
# на каждом шаге цикла увеличиваем sums на этот результат
# через +=

sums = 0
for i in weight:
    sums += (i - avg) ** 2

**NB.** Если забыли, как работают циклы в Python, не очень страшно, при работе с таблицами на базовом уровне они нам активно не понадобятся. Тем не менее, рекомендую скопировать код ниже в [визуализатор](https://pythontutor.com/visualize.html#mode=edit), запустить его через *Visualise execution*, прокликать по стрелочке *Next* и посмотреть, что происходит на каждом шаге цикла (список `weight` урезан, чтобы не проходить по 124 элементам вручную:):

    weight = [3250, 3900, 3300, 3900, 3325, 4150, 3950, 3550, 3300, 4650]
    n = len(weight)
    avg = sum(weight) / n
    sums = 0
    for i in weight:
        sums += (i - avg) ** 2

In [4]:
# выборочная дисперсия
s2 = sums / (n - 1)

# выборочное ст отклонение
# квадратный корень = возведение в степень 0.5
s = s2 ** 0.5

# выводим среднее и ст отклонение
print(avg, s)

3712.9032258064517 416.64411163709883


In [5]:
# стандартизация: из каждого значения вычитаем среднее
# и делим на ст отклонение

# вариант 1 через цикл и .append()

weight_norm = []
for i in weight:
    r = (i - avg) / s
    weight_norm.append(r)

In [6]:
# вариант 2 – через списковое включение

weight_norm = [(i - avg) / s for i in weight]

In [7]:
# отсортируем и выведем на экран

print(sorted(weight_norm))

[-2.4310993423776033, -1.9510733575769301, -1.9510733575769301, -1.7710636132766777, -1.7110603651765934, -1.7110603651765934, -1.591053868976425, -1.4710473727762567, -1.3510408765760886, -1.2910376284760043, -1.2310343803759203, -1.111027884175752, -1.111027884175752, -1.111027884175752, -1.111027884175752, -0.9910213879755836, -0.9910213879755836, -0.9910213879755836, -0.9910213879755836, -0.9910213879755836, -0.9310181398754995, -0.9310181398754995, -0.8710148917754154, -0.8710148917754154, -0.8710148917754154, -0.751008395575247, -0.751008395575247, -0.751008395575247, -0.751008395575247, -0.751008395575247, -0.751008395575247, -0.751008395575247, -0.6910051474751628, -0.6910051474751628, -0.6310018993750787, -0.6310018993750787, -0.6310018993750787, -0.6310018993750787, -0.5709986512749946, -0.5709986512749946, -0.5109954031749104, -0.5109954031749104, -0.5109954031749104, -0.5109954031749104, -0.45099215507482626, -0.45099215507482626, -0.3909889069747421, -0.3909889069747421, -

In [8]:
# для желающих - сортировка по убыванию

print(sorted(weight_norm, reverse = True))

[2.6091734980294654, 2.2491540094289606, 2.1291475132287925, 2.009141017028624, 1.8891345208284558, 1.8291312727283715, 1.7691280246282874, 1.7691280246282874, 1.649121528428119, 1.649121528428119, 1.5291150322279508, 1.4091085360277824, 1.4091085360277824, 1.4091085360277824, 1.4091085360277824, 1.289102039827614, 1.289102039827614, 1.0490890474272776, 1.0490890474272776, 1.0490890474272776, 1.0490890474272776, 0.9290825512271093, 0.9290825512271093, 0.9290825512271093, 0.8090760550269409, 0.8090760550269409, 0.8090760550269409, 0.8090760550269409, 0.6890695588267727, 0.6890695588267727, 0.6290663107266885, 0.5690630626266043, 0.5690630626266043, 0.5690630626266043, 0.5690630626266043, 0.5690630626266043, 0.5690630626266043, 0.44905656642643604, 0.44905656642643604, 0.44905656642643604, 0.44905656642643604, 0.44905656642643604, 0.44905656642643604, 0.3290500702262677, 0.2090435740260994, 0.2090435740260994, 0.2090435740260994, 0.2090435740260994, 0.2090435740260994, 0.1490403259260152

>**Вопрос.** Есть ли в выборке пингвины, которые обладают весом, нехарактерно большим или нехарактерно маленьким для этого набора данных? Как это понять по стандартизованным значениям?

> **Ответ.** Есть. По правилу трёх сигм, 99.8% значений стандартной нормальной случайной величины лежат в интервале от -3 до 3, а 95% значений – в интервале от -2 до 2. Здесь точно есть потенциально нехарактерные значения, по модулю превосходящие 2, но особого внимания требует самое большое число 2.61. Если вычислять границы нехарактерных значений более привычным способом, через межквартильный размах, выбросом окажется только наблюдение, чье стандартизованное значение как раз 2.61, остальные попадут в границы типичных.

Отлично! Всё получилось, однако это выглядит слишком громоздко, даже если мы заменим циклы списковыми включениями/генераторами списков. Поэтому перейдём к более удобной структуре данных – **массиву** из библиотеки `numpy` (сокращение от *Numeric Python*) для работы с числовыми массивами. Импортируем эту библиотеку с сокращённым названием:

In [9]:
import numpy as np

Создадим массив (*array*) на основе списка `weight` с помощью функции `array()`:

In [10]:
Weight = np.array(weight)
Weight

array([3250, 3900, 3300, 3900, 3325, 4150, 3950, 3550, 3300, 4650, 3150,
       3900, 3100, 4400, 3000, 4600, 3425, 2975, 3450, 4150, 3350, 3550,
       3800, 3500, 3950, 3600, 3550, 4300, 3400, 4450, 3300, 4300, 3700,
       4350, 2900, 4100, 3500, 4475, 3425, 3900, 3175, 3975, 3400, 4250,
       3400, 3475, 3050, 3725, 3000, 3650, 4250, 3475, 3450, 3750, 3700,
       4000, 3500, 3900, 3650, 3525, 3725, 3950, 3250, 3750, 4150, 3700,
       3800, 3775, 3700, 4050, 3575, 4050, 3300, 3700, 3450, 4400, 3600,
       3400, 2900, 3800, 3300, 4150, 3400, 3800, 3700, 4550, 3200, 4300,
       3350, 4100, 3600, 3900, 3850, 4800, 2700, 4500, 3950, 3650, 3550,
       3500, 3675, 4450, 3400, 4300, 3250, 3675, 3325, 3950, 3600, 4050,
       3350, 3450, 3250, 4050, 3800, 3525, 3950, 3650, 3650, 4000, 3400,
       3775, 4100, 3775])

Вычислим безо всяких циклов среднее и стандартное отклонение – воспользуемся методами `.mean()` и `.std()`:

In [11]:
# ddof = 1, так как используем оценку с (n-1) в знаменателе

average = Weight.mean()
stdev = Weight.std(ddof=1)

print(average)
print(stdev)

3712.9032258064517
416.6441116370989


Ура! Что ещё замечательней – для стандартизации циклы нам тоже не понадобятся. Операции на массивах являются *векторизованными* (в некоторых языках программирования массивы называются векторами), то есть при применении к массиву они применяются к каждому элементу по отдельности:

In [12]:
(Weight - average) / stdev

array([-1.11102788,  0.44905657, -0.99102139,  0.44905657, -0.93101814,
        1.04908905,  0.56906306, -0.39098891, -0.99102139,  2.24915401,
       -1.35104088,  0.44905657, -1.47104737,  1.64912153, -1.71106037,
        2.12914751, -0.69100515, -1.77106361, -0.6310019 ,  1.04908905,
       -0.87101489, -0.39098891,  0.20904357, -0.5109954 ,  0.56906306,
       -0.27098241, -0.39098891,  1.40910854, -0.7510084 ,  1.76912802,
       -0.99102139,  1.40910854, -0.03096942,  1.52911503, -1.95107336,
        0.92908255, -0.5109954 ,  1.82913127, -0.69100515,  0.44905657,
       -1.29103763,  0.62906631, -0.7510084 ,  1.28910204, -0.7510084 ,
       -0.57099865, -1.59105387,  0.02903383, -1.71106037, -0.15097591,
        1.28910204, -0.57099865, -0.6310019 ,  0.08903708, -0.03096942,
        0.68906956, -0.5109954 ,  0.44905657, -0.15097591, -0.45099216,
        0.02903383,  0.56906306, -1.11102788,  0.08903708,  1.04908905,
       -0.03096942,  0.20904357,  0.14904033, -0.03096942,  0.80

Результат действия выше – тоже массив, сохраним его в переменную и выведем на экран (при выводе на экран запятые убираются для красоты):

In [13]:
Res = (Weight - average) / stdev
print(Res)

[-1.11102788  0.44905657 -0.99102139  0.44905657 -0.93101814  1.04908905
  0.56906306 -0.39098891 -0.99102139  2.24915401 -1.35104088  0.44905657
 -1.47104737  1.64912153 -1.71106037  2.12914751 -0.69100515 -1.77106361
 -0.6310019   1.04908905 -0.87101489 -0.39098891  0.20904357 -0.5109954
  0.56906306 -0.27098241 -0.39098891  1.40910854 -0.7510084   1.76912802
 -0.99102139  1.40910854 -0.03096942  1.52911503 -1.95107336  0.92908255
 -0.5109954   1.82913127 -0.69100515  0.44905657 -1.29103763  0.62906631
 -0.7510084   1.28910204 -0.7510084  -0.57099865 -1.59105387  0.02903383
 -1.71106037 -0.15097591  1.28910204 -0.57099865 -0.6310019   0.08903708
 -0.03096942  0.68906956 -0.5109954   0.44905657 -0.15097591 -0.45099216
  0.02903383  0.56906306 -1.11102788  0.08903708  1.04908905 -0.03096942
  0.20904357  0.14904033 -0.03096942  0.80907606 -0.33098566  0.80907606
 -0.99102139 -0.03096942 -0.6310019   1.64912153 -0.27098241 -0.7510084
 -1.95107336  0.20904357 -0.99102139  1.04908905 -0.7

>**Задача 2.** Создайте массив `Weight_kg` со значениями веса пингвинов в килограммах.

In [14]:
Weight_kg = Weight / 1000

Теперь посмотрим, как выбрать элементы массива, которые удовлетворяют некоторому условию. Допустим, мы хотим выбрать только тех пингвинов, чей вес превышает 4 килограмма. Сформулируем условие и проверим его выполнение для всех элементов массива:

In [15]:
Weight_kg > 4

array([False, False, False, False, False,  True, False, False, False,
        True, False, False, False,  True, False,  True, False, False,
       False,  True, False, False, False, False, False, False, False,
        True, False,  True, False,  True, False,  True, False,  True,
       False,  True, False, False, False, False, False,  True, False,
       False, False, False, False, False,  True, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False,  True, False, False, False, False,  True, False,  True,
       False, False, False,  True, False, False, False, False, False,
        True, False, False, False,  True, False,  True, False,  True,
       False, False, False,  True, False,  True, False, False, False,
       False, False,  True, False,  True, False, False, False, False,
       False,  True, False, False, False,  True, False, False, False,
       False, False, False, False, False,  True, False])

Операция сравнения вновь выполнена поэлементно, на месте элементов, для которых условие верно, стоит `True`, а на месте элементов, для которых условие неверно – `False`. А как отфильтровать сами значения? Поместить условие в квадратные скобки, они всегда используются для выбора элементов:

In [16]:
Weight_kg[Weight_kg > 4]

array([4.15 , 4.65 , 4.4  , 4.6  , 4.15 , 4.3  , 4.45 , 4.3  , 4.35 ,
       4.1  , 4.475, 4.25 , 4.25 , 4.15 , 4.05 , 4.05 , 4.4  , 4.15 ,
       4.55 , 4.3  , 4.1  , 4.8  , 4.5  , 4.45 , 4.3  , 4.05 , 4.05 ,
       4.1  ])

Для объединения нескольких условий используются символьные операторы:

* `&` (символьное обозначение для `and`): оба условия верны;
* `|` (символьное обозначение для `or`): хотя бы одно из условий верно;
* `^` (во многих языках `xor`): ровно одно из условий верно.

Важно: каждая часть условия должна заключаться в круглые скобки, так как символьные операторы очень сильные, и условие Python будет читать, начиная с них, что приведёт либо к ошибкам `TypeError`, либо к некорректным результатам фильтрации. 

>**Задача 3.** Используя массив `Weight_kg`, выведите на экран:
* вес пингвинов не ниже 3.5 килограммов и не выше 4.5 килограммов;
* вес пингвинов ниже 3 килограммов или выше 4.5 килограммов.

In [17]:
# первое – одновременное выполнений условий
Weight_kg[(Weight_kg >= 3.5) & (Weight_kg <= 4.5)]

array([3.9  , 3.9  , 4.15 , 3.95 , 3.55 , 3.9  , 4.4  , 4.15 , 3.55 ,
       3.8  , 3.5  , 3.95 , 3.6  , 3.55 , 4.3  , 4.45 , 4.3  , 3.7  ,
       4.35 , 4.1  , 3.5  , 4.475, 3.9  , 3.975, 4.25 , 3.725, 3.65 ,
       4.25 , 3.75 , 3.7  , 4.   , 3.5  , 3.9  , 3.65 , 3.525, 3.725,
       3.95 , 3.75 , 4.15 , 3.7  , 3.8  , 3.775, 3.7  , 4.05 , 3.575,
       4.05 , 3.7  , 4.4  , 3.6  , 3.8  , 4.15 , 3.8  , 3.7  , 4.3  ,
       4.1  , 3.6  , 3.9  , 3.85 , 4.5  , 3.95 , 3.65 , 3.55 , 3.5  ,
       3.675, 4.45 , 4.3  , 3.675, 3.95 , 3.6  , 4.05 , 4.05 , 3.8  ,
       3.525, 3.95 , 3.65 , 3.65 , 4.   , 3.775, 4.1  , 3.775])

In [18]:
# второе – хотя бы одно верно (здесь то же, что ровно одно верно)
Weight_kg[(Weight_kg < 3) | (Weight_kg > 4.5)]

array([4.65 , 4.6  , 2.975, 2.9  , 2.9  , 4.55 , 4.8  , 2.7  ])

Отлично! Массивы – очень полезная структура в Python, однако долго на них останавливаться не будем, поскольку на практике мы часто имеем дело с таблицами или базами данных, а не с небольшими перечнями элементов. Тем не менее, отметим одну важную деталь: массивы всегда хранят данные только одного типа. Если в массив вперемешку вписать элементы разных типов, более сильный тип вытеснит более слабый:

In [19]:
# тип float вытеснил integer, все числа дробные
print(np.array([2, 6, 7, 8, 5.5, 3]))

# тип string вытеснил integer, всё в кавычках
print(np.array([0, 1, 0, 1, 0, 0, "0"]))

[2.  6.  7.  8.  5.5 3. ]
['0' '1' '0' '1' '0' '0' '0']


Эту особенность стоит иметь в виду при работе с реальными данными. Как мы сейчас увидим, на столбцы таблицы можно смотреть как на массивы, а это значит, что если на этапе описания числовых данных мы получаем что-то очень странное или сталкиваемся с сообщением об ошибке, не исключено, что в столбец с интересующим нам числовым показателем закрался текст (пробел, фраза `нет ответа`, дробное число с запятой вместо точки в качестве разделителя).