# Основы анализа данных в Python

## Практикум 1. Списки и массивы NumPy

*Алла Тамбовцева*

На курсе по Python мы познакомились с последовательностями разных видов: строками (тип `string`), списками (тип `list`) и кортежами (тип `tuple`). Самой универсальной последовательностью из перечисленных является список – во-первых, он позволяет хранить элементы разных типов, а во-вторых, его можно изменять. 

Не будем смешивать типы, рассмотрим простой список из целых чисел. Пусть это будет выборка значений веса пингвинов, обитающих на острове Мечты в Антарктике. На этом острове обитают пингвины Адели и антарктические пингвины, которые довольно небольшие.

In [None]:
# вес в граммах

weight = [3250, 3900, 3300, 3900, 3325, 4150, 3950, 3550, 3300, 4650, 3150,
       3900, 3100, 4400, 3000, 4600, 3425, 2975, 3450, 4150, 3350, 3550,
       3800, 3500, 3950, 3600, 3550, 4300, 3400, 4450, 3300, 4300, 3700,
       4350, 2900, 4100, 3500, 4475, 3425, 3900, 3175, 3975, 3400, 4250,
       3400, 3475, 3050, 3725, 3000, 3650, 4250, 3475, 3450, 3750, 3700,
       4000, 3500, 3900, 3650, 3525, 3725, 3950, 3250, 3750, 4150, 3700,
       3800, 3775, 3700, 4050, 3575, 4050, 3300, 3700, 3450, 4400, 3600,
       3400, 2900, 3800, 3300, 4150, 3400, 3800, 3700, 4550, 3200, 4300,
       3350, 4100, 3600, 3900, 3850, 4800, 2700, 4500, 3950, 3650, 3550,
       3500, 3675, 4450, 3400, 4300, 3250, 3675, 3325, 3950, 3600, 4050,
       3350, 3450, 3250, 4050, 3800, 3525, 3950, 3650, 3650, 4000, 3400,
       3775, 4100, 3775]

Предположим, мы хотим выполнить стандартизацию этих данных (вспоминаем ТВиМС) – вычесть из каждого значения выборки её среднее $\bar{y}$ и поделить результат на её стандартное отклонение $s$:

$$
y' = \frac{y-\bar{y}}{s}.
$$

*(вспоминаем и привыкаем к формулам)*

$$
\bar{y} = \frac{\sum_{i=1}^{n}y_i}{n}; \text{ }
s^2 = \frac{\sum_{i=1}^{n}{(y_i - \bar{y})}^2}{n - 1}.
$$

Тут возникает сразу две проблемы:

* на списках не определены готовые методы, которые вычисляют среднее и стандартное отклонение;
* без циклов и аналогичных конструкций не обойтись – нужен перебор элементов. 

Давайте вспомним, как применить цикл `for` для решения этой задачи. 

>**Задача 1.** Используя только базовые функции Python и цикл `for`:
* вычислите выборочное среднее `avg` и выборочное стандартное отклонение `s`;
* получите список `weight_norm` со стандартизованными значениями выборки `weight`.

In [None]:
### YOUR CODE HERE ###

>**Вопрос.** Есть ли в выборке пингвины, которые обладают весом, нехарактерно большим или нехарактерно маленьким для этого набора данных? Как это понять по стандартизованным значениям?

Отлично! Всё получилось, однако это выглядит слишком громоздко, даже если мы заменим циклы списковыми включениями/генераторами списков. Поэтому перейдём к более удобной структуре данных – **массиву** из библиотеки `numpy` (сокращение от *Numeric Python*) для работы с числовыми массивами. Импортируем эту библиотеку с сокращённым названием:

In [None]:
import numpy as np

Создадим массив (*array*) на основе списка `weight` с помощью функции `array()`:

In [None]:
Weight = np.array(weight)

Вычислим безо всяких циклов среднее и стандартное отклонение – воспользуемся методами `.mean()` и `.std()`:

In [None]:
# ddof = 1, так как используем оценку с (n-1) в знаменателе

average = Weight.mean()
stdev = Weight.std(ddof=1)

print(average)
print(stdev)

Ура! Что ещё замечательней – для стандартизации циклы нам тоже не понадобятся. Операции на массивах являются *векторизованными* (в некоторых языках программирования массивы называются векторами), то есть при применении к массиву они применяются к каждому элементу по отдельности:

In [None]:
(Weight - average) / stdev

Результат действия выше – тоже массив, сохраним его в переменную и выведем на экран (при выводе на экран запятые убираются для красоты):

In [None]:
Res = (Weight - average) / stdev
print(Res)

>**Задача 2.** Создайте массив `Weight_kg` со значениями веса пингвинов в килограммах.

In [None]:
### YOUR CODE HERE ###

Теперь посмотрим, как выбрать элементы массива, которые удовлетворяют некоторому условию. Допустим, мы хотим выбрать только тех пингвинов, чей вес превышает 4 килограмма. Сформулируем условие и проверим его выполнение для всех элементов массива:

In [None]:
Weight_kg > 4

Операция сравнения вновь выполнена поэлементно, на месте элементов, для которых условие верно, стоит `True`, а на месте элементов, для которых условие неверно – `False`. А как отфильтровать сами значения? Поместить условие в квадратные скобки, они всегда используются для выбора элементов:

In [None]:
Weight_kg[Weight_kg > 4]

Для объединения нескольких условий используются символьные операторы:

* `&` (символьное обозначение для `and`): оба условия верны;
* `|` (символьное обозначение для `or`): хотя бы одно из условий верно;
* `^` (во многих языках `xor`): ровно одно из условий верно.

Важно: каждая часть условия должна заключаться в круглые скобки, так как символьные операторы очень сильные, и условие Python будет читать, начиная с них, что приведёт либо к ошибкам `TypeError`, либо к некорректным результатам фильтрации. 

>**Задача 3.** Используя массив `Weight_kg`, выведите на экран:
* вес пингвинов не ниже 3.5 килограммов и не выше 4.5 килограммов;
* вес пингвинов ниже 3 килограммов или выше 4.5 килограммов.

In [None]:
### YOUR CODE HERE ###

Отлично! Массивы – очень полезная структура в Python, однако долго на них останавливаться не будем, поскольку на практике мы часто имеем дело с таблицами или базами данных, а не с небольшими перечнями элементов. Тем не менее, отметим одну важную деталь: массивы всегда хранят данные только одного типа. Если в массив вперемешку вписать элементы разных типов, более сильный тип вытеснит более слабый:

In [None]:
# тип float вытеснил integer, все числа дробные
print(np.array([2, 6, 7, 8, 5.5, 3]))

# тип string вытеснил integer, всё в кавычках
print(np.array([0, 1, 0, 1, 0, 0, "0"]))

Эту особенность стоит иметь в виду при работе с реальными данными. Как мы сейчас увидим, на столбцы таблицы можно смотреть как на массивы, а это значит, что если на этапе описания числовых данных мы получаем что-то очень странное или сталкиваемся с сообщением об ошибке, не исключено, что в столбец с интересующим нам числовым показателем закрался текст (пробел, фраза `нет ответа`, дробное число с запятой вместо точки в качестве разделителя).