# НИС «Основы анализа данных в Python»

*Алла Тамбовцева*

## Необходимая теория к лабораторной работе №1

* Вспоминаем списки: выбор элемента по индексу, срезы
* Вспоминаем массивы: создание массива и тип элементов
* Проверка условий и булевы массивы
* Фильтрация и объединение условий на массивах

### Вспоминаем списки

Создадим список `data` и проверим, что полученный объект имеет тип `list`:

In [1]:
data = [23, 45, 74, 88, 90, 92, 45, 34, 21, 
        77, 68, 83, 94, 95.0]

print(data)
print(type(data))

[23, 45, 74, 88, 90, 92, 45, 34, 21, 77, 68, 83, 94, 95.0]
<class 'list'>


Обратим внимание на то, что список умеет хранить объекты разных типов (целые числа типа `int` и дробное число типа `float`), а также вычислим количество элементов – длину списка:

In [2]:
print(data)
print("Количество элементов:", len(data))

[23, 45, 74, 88, 90, 92, 45, 34, 21, 77, 68, 83, 94, 95.0]
Количество элементов: 14


Список – упорядоченная структура, его элементы можно выбирать по индексу – порядковому номеру. Вспомним, что нумерация в Python начинается с нуля и что Python поддерживает отрицательные индексы (тогда элементы считаются с конца):

In [3]:
print(data[0])
print(data[3])
print(data[-1])

23
88
95.0


Также Python позволяет выбирать несколько элементов подряд. Для такого выбора нам нужны срезы, которые можно получить, указав индекс стартового и конечного элемента (левая и правая граница). При этом нужно помнить, что правый конец среза не учитывается при выборе:

In [4]:
# элементы с индексами 2, 3, 4

print(data[2:5])

[74, 88, 90]


Если поставить еще одно двоеточие, можно зафиксировать шаг среза. Например, мы можем выбирать элементы через один, а не подряд (шаг равен 2, а не 1 – значение по умолчанию):

In [5]:
print(data[0:10:2])

[23, 74, 90, 45, 21]


Кроме того, левую или правую границу можно опустить. Если пропущена правая граница, Python выбирает элементы от левой границы до конца списка, если левая – от начала списка до правой границы:

In [6]:
print(data[1:])
print(data[:7])

# если обе – выбирается все элементы
print(data[:])

[45, 74, 88, 90, 92, 45, 34, 21, 77, 68, 83, 94, 95.0]
[23, 45, 74, 88, 90, 92, 45]
[23, 45, 74, 88, 90, 92, 45, 34, 21, 77, 68, 83, 94, 95.0]


У списков есть недостаток – даже если все элементы внутри одного типа, без дополнительных функций или циклов нельзя выбрать элементы, удовлетворяющие условиям. Если мы проверим равенство `data` значению 45, Python просто выдаст ответ `False`, так как список `data` не равен этому числу:

In [7]:
data == 45

False

А если мы сформулируем условие с каким-то более интересным оператором, например, `>` или `<`, мы вообще получим ошибку, ошибку `TypeError`, потому что такие сравнения недопустимы для объектов разного типа (здесь список `list` и целое число `int`):

In [8]:
data > 45

TypeError: '>' not supported between instances of 'list' and 'int'

### Вспоминаем массивы

Чтобы обойти эту проблему, перейдем к более удобной структуре данных – массиву из библиотеки NumPy (от *Numeric Python*). Импортируем библиотеку с сокращенным названием `np`:

In [9]:
import numpy as np

Переделаем список `data` в массив и сохраним его с названием `index`:

In [10]:
index = np.array(data)
index

array([23., 45., 74., 88., 90., 92., 45., 34., 21., 77., 68., 83., 94.,
       95.])

Если выводить массив не в «сыром» виде, как в ячейке выше, а полноценно через функцию `print()`, он будет оформлен несколько иначе – будут убраны лишние скобки и запятые, плюс, название `array`:

In [11]:
print(index)

[23. 45. 74. 88. 90. 92. 45. 34. 21. 77. 68. 83. 94. 95.]


Заметим, что массив, в отличие от списка, умеет хранить только элементы одного типа. Если типов внутри массива несколько, более сильный тип вытеснит более слабый. В нашем случае тип `int` (целое число) слабее типа `float` (вещественное, дробное число), поэтому все целые числа в списке превратились в дробные с нулевой частью. Ради экономии места дробная часть `.0` полностью не указывается, поэтому у всех чисел просто в конце стоит `.`. 

Почему тип `float` сильнее? Потому что из любого целого числа можно сделать дробное – дописать нулевую дробную часть. А наоборот проделать подобную операцию однозначно не получится – чтобы дробное число сделать целым, нужно договориться о правилах округления или отбрасывания дробной части. По схожим причинам строковый (текстовый) тип `str` будет сильнее типа `float` и `int`, потому что числа всегда можно перевести в текст, добавив кавычки, но не любой текст можно сконвертировать в число (только те записи, где внутри цифры или цифры с точкой).

Проверим тип элементов через атрибут `.dtype`:

In [12]:
print(index.dtype)

float64


Еще одно отличие массива от списка – поддержка векторизованных или векторных операций, то есть тех, которые одновременно применяются ко всем элементам. Так, мы можем разделить массив `index` на 100, и это будет означать, что каждый его элемент должен быть поделен на 100:

In [13]:
index / 100

array([0.23, 0.45, 0.74, 0.88, 0.9 , 0.92, 0.45, 0.34, 0.21, 0.77, 0.68,
       0.83, 0.94, 0.95])

### Проверка условий и булевы массивы

Описанная выше особенность позволяет эффективно формулировать условия для всех элементов массива сразу. Так, мы можем проверить, какие элементы массива равны 45:

In [14]:
index == 45

array([False,  True, False, False, False, False,  True, False, False,
       False, False, False, False, False])

На местах элементов, равных 45, стоят значения `True`, во всех остальных случаях – значения `False`. Условие было проверено одновременно для всех чисел. Проверим обратное условие – вспомним оператор «не равно»:

In [15]:
index != 45

array([ True, False,  True,  True,  True,  True, False,  True,  True,
        True,  True,  True,  True,  True])

Массивы из `True` и `False` выше – булевы массивы, то есть массивы из значений логического типа или булева типа (`boolean`), названного в честь английского математика Дж.Буля. Сами по себе эти массивы нужны нам нечасто, но их можно эффективно использовать для дальнейших преобразований и вычислений. 

Во-первых, тип `boolean` можно поменять на тип `int` и получить бинарный массив из 0 и 1, где 1 соответствует объектам, удовлетворяющим условиям. Этот прием часто используется при перекодировании данных и при попытке представить текстовые данные в количественном виде. Применим метод `.astype()`:

In [16]:
(index == 45).astype(int)

array([0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0])

Во-вторых, булев массив может быть полезен для вычисления количества интересующих нас элементов. Так, если нам нужно узнать, сколько значений 45 в массиве `index`, совсем необязательно выбирать эти элементы и считать длину полученного массива – это излишняя операция, потому что набор из чисел 45 вряд ли нам нужен сам по себе. Вместо этого мы можем посчитать сумму по полученному массиву из `True` и `False`:

In [17]:
(index == 45).sum()

2

Для Python значения `True` эквиваленты 1, значение `False` – 0, поэтому сумма по булеву массиву совпадает с суммой по набору из 0 и 1. А сумма по набору из 0 и 1 – и есть число единиц, то есть количество интересующих нас значений. Число 45 встречается в массиве два раза.

Аналогичным образом можно определить не количество, а долю значений, удовлетворяющих условиям. Тогда вместо суммы можно вычислить среднее:

In [18]:
(index == 45).mean()

0.14285714285714285

Как считается среднее арифметическое? Сумма элементов делится на их количество. А как считается доля? Число интересующих элементов делится на их количество. Раз массив из `True` и `False` воспринимается Python как массив из 0 и 1, то сумма элементов в данном случае совпадает с числом 1 (0 при суммировании не учитываются), а значит, среднее и доля единиц совпадают.

Можем округлить полученную долю:

In [19]:
# метод .round() из современных версий numpy
# округление до сотых

(index == 45).mean().round(2)

0.14

In [20]:
# функция round() из базового Python
# округление дло сотых

round((index == 45).mean(), 2)

0.14

### Фильтрация и объединение условий

Наконец (и это самое главное!), булевы массивы можно использовать для фильтрации элементов. Сформулируем условие со знаком `>`:

In [21]:
index > 80

array([False, False, False,  True,  True,  True, False, False, False,
       False, False,  True,  True,  True])

Чтобы выбрать из `index` элементы больше 80, это выражение нужно поместить в квадратные скобки:

In [22]:
index[index > 80]

array([88., 90., 92., 83., 94., 95.])

Квадратные скобки сами по себе используются для выбора элементов (видели это на примере индексов и срезов), поэтому никто не мешает вписать в них условие – критерий отбора. Код выше означает, что нужно из массива `index` выбрать элементы, на которых при проверке условия `index > 80` было возвращено `True`. 

Сформулируем нестрогое неравенство для разнообразия:

In [23]:
index[index <= 45]

array([23., 45., 45., 34., 21.])

Более сложные условия тоже возможны. Можем, например, выбрать только четные элементы – проверить, равен ли остаток от деления на 2 нулю:

In [24]:
index[index % 2 == 0]

array([74., 88., 90., 92., 34., 68., 94.])

И, конечно, условия можно объединять через логические операторы:
    
* оператор `&` (символьный вариант `and`) для одновременного выполнения условий;
* оператор `|` (символьный вариант `or`) для случая, когда верно хотя бы одно из условий.

Базовые «словесные» операторы `and` и `or` здесь не подойдут, поскольку они позволяют объединять и сравнивать лишь отдельные элементы (`True or True`, `False and True`, например), а здесь требуется логическое объединение массивов (например, `np.array([True, True]) | np.array([True, False])`).

Выберем числа выше 30, но ниже 70:

In [25]:
index[(index > 30) & (index < 70)]

array([45., 45., 34., 68.])

А теперь числа, которые либо меньше 25, либо больше 90 (теоретически выражение ниже охватывает случаи, когда оба эти условия верны, но в данном случае это невозможно, число не может быть одновременно меньше 25 и больше 90):

In [26]:
index[(index < 25) | (index > 90)]

array([23., 92., 21., 94., 95.])

Обратим внимание на круглые скобки. Они необходимы для фиксации порядка действий. Убрав скобки внутри фильтра, мы получим ошибку:

In [27]:
index[index > 30 & index < 70]

TypeError: ufunc 'bitwise_and' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

Оператор `&` здесь самый сильный, поэтому Python начинает читать условие с середины `30 & index`. А объединить число с массивом он не может (разные типы), из-за этого все ломается. 

Кроме того, стоит помнить, что оператор `&` вообще самый сильный, сильнее оператора `|` как минимум. А значит, при объединении частей условия через `&` и `|` стоит помнить о дополнительных скобках, закрепляющих порядок действий. Допустим, мы хотим выбрать сильно маленькие или сильно большие значения (меньше 25 или больше 90), которые являются четными. Попробуем написать фильтр:

In [28]:
index[(index < 25) | (index > 90) & (index % 2 == 0)]

array([23., 92., 21., 94.])

Результат получился неверным – в списке есть и нечетные числа тоже. Это потому, что первое действия для Python здесь – это `(index > 90) & (index % 2 == 0)`, а значит, он проверяет четность только для чисел больше 90. Чтобы это условие относилось ко всем значениям, поставим скобки вокруг первых двух частей:

In [29]:
index[((index < 25) | (index > 90)) & (index % 2 == 0)]

array([92., 94.])

Теперь все верно!