# Основы работы с количественными данными

*Алла Тамбовцева*

## Лекция 2. Последовательности: строки, списки, массивы Numpy

* Типы объектов в Python
* Функции и методы
* Списки и массивы NumPy
* Фильтрация элементов массива

### Типы объектов в Python

В предыдущей лекции мы познакомились с объектами базовых типов в Python:
    
* тип `integer`, сокращается до `int`, целые числа;
* тип `float`, от *floating point numbers*, числа с плавающей точкой – дробные или вещественные числа;
* тип `string`, сокращается до `str`, текстовые строки;
* тип `boolean`, сокращается до `bool`, логические значения `True` и `False`.

Некоторые объекты являются атомарными – не делятся на части, а некоторые являются составными. Посмотрим на пример составного объекта – строковой переменной с текстом внутри:

In [2]:
text = "Python will help you, belive"

На текст можно смотреть как на **последовательность** символов, на упорядоченный набор элементов. Число элементов можно узнать, запросив **длину** последовательности через функцию `len()`:

In [3]:
print(len(text))

28


Из последовательности можно выбирать символы по их порядковому номеру – **индексу** (указывается в квадратных скобках). Всё довольно интуитивно, однако стоит учесть, что в Python, как в большинстве языков программирования, нумерация начинается с нуля:

In [2]:
print(text[0]) # 1-ый элемент
print(text[2]) # 3-ий элемент

P
t


Что удобно – элементы можно отсчитывать и с конца, тогда индекс будет отрицательным:

In [4]:
print(text[-1]) # последний элемент
print(text[-3]) # 3-ий элемент с конца

e
i


Если мы укажем некорректный индекс – слишком большое число, мы получим ошибку индекса, исключение `IndexError`:

In [5]:
print(text[30])

IndexError: string index out of range

Кроме того, можно осуществлять выбор сразу нескольких элементов, если они стоят подряд. Для этого используются **срезы** (они же *slices*), два индекса указываются через двоеточие, левая граница указанного интервала включается в выбор, а правая – нет:

In [10]:
print(text[12:16]) # элементы 12, 13, 14, 15

help


Если указать только левую границу, будут выбраны все элементы до конца:

In [12]:
print(text[22:])

belive


А если только правую – все элементы с начала:

In [13]:
print(text[:7])

Python 


Если проигнорировать обе границы, будут выбраны все элементы:

In [14]:
print(text[:])

Python will help you, belive


Строки – не единственные последовательности в Python, и, конечно, чаще мы будем работать не с текстами, а с наборами числовых значений. Однако все последовательности устроены одинаково, понимая, как осуществляется выбор элементов на строках, легко будет освоить работу с числовыми массивами и таблицами.

### Функции и методы

Рассмотрим на примере строк ещё один ключевой момент, который позволит понимать дальнейшие конструкции в коде, а именно – различие между функциями и методами. До настоящего момента мы сталкивались только с функциями. Как мы уже убедились, функция – команда, которая принимает на вход какой-то агрумент и производит с ним определённую операцию. А что такое метод? **Метод** – функция, определённая на объектах фиксированного типа. Разберёмся с этим на примерах. 

Итак, у нас была функция `print()`. Она совершенно «всеядная», она принимает на вход объекты совершенно разных типов, объединяет их в одну строку и выводит её на экран:

In [17]:
# типы str, float, int и boolean

print("Hello!", 2.5, "+", 4.5, "=", 7, True, "or", False)

Hello! 2.5 + 4.5 = 7 True or False


Функция `len()` для определения длины последовательности – тоже вполне универсальная. Мы пока не рассматривали другие последовательности, но можно проверить, что она вычисляет длину у разных объектов:

In [18]:
print(len("abc")) # строка
print(len([1, 3, 7, 8])) # список – перечень в квадратных скобках
print(len((5, 0))) # кортеж – перечень в круглых скобках

3
4
2


А вот методы у каждого типа данных свои. У строк будет свой набор методов, у списков – свой, у таблиц – тоже, и так далее. Это выглядит вполне логично – операции, которые производятся с текстом (сделать буквы заглавными, разбить текст на части и подобное), не подходят для чисел или таблиц. В отличие от функций, методы пишутся не перед объектом, а после него через точку. Рассмотрим примеры некоторых методов на строках, используя переменную `text`: 

In [19]:
# метод .upper() делает все буквы заглавными
# метод .lower() делает все буквы строчными
# метод .isalnum() проверяет, все ли символы являются буквами или цифрами

print(text.upper())
print(text.lower())
print(text.isalnum())

PYTHON WILL HELP YOU, BELIVE
python will help you, belive
False


Как и функции (методы – тоже функции), методы могут принимать на вход аргументы:

In [21]:
# метод .split() разбивает строку по определенному символу
# метод .startswith() проверяет, начинается ли строка с набора символов

print(text.split(","))
print(text.startswith("Python"))

['Python will help you', ' belive']
True


Чтобы узнать, какие ещё методы есть, в Jupyter Notebook после названия переменной можно поставить точку и нажать на клавиатуре *Tab* (в Google Colab – подождать или нажать на стрелку вниз). А документацию по конкретному методу можно запросить через `help()`:

In [22]:
help(text.replace)

Help on built-in function replace:

replace(old, new, count=-1, /) method of builtins.str instance
    Return a copy with all occurrences of substring old replaced by new.
    
      count
        Maximum number of occurrences to replace.
        -1 (the default value) means replace all occurrences.
    
    If the optional argument count is given, only the first count occurrences are
    replaced.



И последний важный момент, который будет актуален не только для строк. Выше мы много чего проделали со строкой `text`. Давайте посмотрим на неё:

In [23]:
print(text)

Python will help you, belive


Ничего в строке `text` не изменилось, хотя мы изменили регистр (строчные/заглавные) и даже разбивали её. Это объясняется тем, что строки – неизменяемый тип. А значит, методы возвращают изменённую копию строки, а не вносят в неё изменения «как есть». Это во многом удобно, так как защищает данные от случайных изменений. Чтобы сохранить изменения, строку нужно будет перезаписать через `=`:

In [24]:
text = text.upper()
print(text)

PYTHON WILL HELP YOU, BELIVE


Итак, объекты разных типов могут быть **изменяемыми** и **неизменяемыми**, плюс, даже если объект изменяемый, какие-то методы будут его «молча» изменять, какие-то – возвращать изменённую копию и менять оригинал, а какие-то – изменять тогда, мы пропишем это в специальном аргументе. Понимание этих особенностей помогут нам в дальнейшем при работе с таблицами, так как нам нужно будет решать, например, сохранить результат сортировки в данных, удалить ли строки с пропусками насовсем и проч.

### Списки и массивы NumPy

На практике при работе с данными мы часто будем сталкиваться с последовательностями разного типа. Например, со списками. **Список** (в Python тип `list`) – это перечень элементов разного типа, перечисленных в квадратных скобках:

In [7]:
# рост в сантиметрах
height = [168, 172, 175, 166, 164, 182]

Так как список является последовательностью, по аналогии со строками, можно узнать его длину и извлекать элементы по индексам:

In [6]:
print(len(height))
print(height[0])
print(height[1:4])

6
168
[172, 175, 166]


С одной стороны, список – структура довольно понятная и удобная. С другой стороны, использование списков для хранения реальных данных неэффективно из-за ряда ограничений. Во-первых, без использования специальных конструкций (циклов и прочих) невозможно выполнять преобразования всех элементов списка сразу. Попробуем перевести значения роста в сантиметрах в списке `height` в метры, поделив список на 100:     

In [8]:
height / 100 # ошибка, операция не поддерживается

TypeError: unsupported operand type(s) for /: 'list' and 'int'

Во-вторых, списки позволяют выбирать элементы только по их индексам. На практике же часто возникает необходимость выбирать элементы по условиям, добавляя фильтры на значения. Все эти неудобства объясняются просто: списки изначально задумывались как универсальные контейнеры, которые могут хранить элементы разных типов, а раз внутри находятся не только числа, не совсем понятно, как определять общие для всех типов операторы и функции.

Поэтому для работы с данными обычно используют не списки, а **массивы** – последовательности элементов одного типа. Чаще всего используются массивы, создаваемые с помощью библиотеки NumPy. NumPy – сокращение от *Numeric Python*, библиотека для работы с количественными данными, широко используется в статистике и машинном обучении.

Импортируем библиотеку `numpy` с сокращённым названием `np`:

In [10]:
import numpy as np

Вообще для импорта этой библиотеки достаточно использовать выражение `import numpy`. Но здесь мы пошли немного дальше – название `numpy` считается достаточно длинным, поэтому мы его сократили до `np`. Зачем? Чтобы потом при вызове функций нам не пришлось таскать за собой слово `numpy`. Сравните: `numpy.array()` или `np.array()`.

> Не совсем серьёзное отступление. На самом деле, конструкция `import ... as ...` позволяет присваивать библиотекам любые названия из одного слова без пробелов. Например, можно написать `import numpy as pain`, и тогда дальше Python будет понимать, что в выражениях `pain.array()` мы вызываем `numpy`.

Итак, для создания массива нам потребуется функция `array()` из `numpy`, то есть из `np`. Внутри этой функции нужно перечислить элементы в квадратных скобках через запятую (как для списка):

In [19]:
Height = np.array([168, 164, 172, 175, 178, 182, 
                   162, 162, 168, 174, 185, 178])

При выводе на экран для экономии места запятые игнорируются:

In [12]:
print(Height)

[168 164 172 175 178 182 162 162 169 174 185 178]


Визуально массивы и списки очень похожи. Можно точно так же запросить длину массива и выбирать его элементы по индексу:

In [15]:
print(len(Height))
print(Height[0:2])

12
[168 164]


Теперь посмотрим, как массив позволяет решить проблемы, которые мы перечислили для работы со списками. Попробуем поделить все элементы массива `Height` на 100:

In [13]:
Height / 100

array([1.68, 1.64, 1.72, 1.75, 1.78, 1.82, 1.62, 1.62, 1.69, 1.74, 1.85,
       1.78])

Работает! Первая проблема решена. Операции на массивах являются **векторизованными** – они применяются сразу ко всем элементам массива, что удобно и эффективно, если оценивать время исполнения кода. 

Кроме того, если у нас будет несколько массивов одинаковой длины, мы сможем без дополнительных конструкций перебирать их элементы попарно и производить с ними вычисления. Представим, что у нас есть вес участников эксперимента до и после следования определённой диете:

In [16]:
before = np.array([88, 77, 85, 90, 80, 80])
after = np.array([86, 77, 80, 88, 76, 82])

Вычислим, сколько каждый человек потерял (или набрал) по итогам диеты – достаточно из первого массива вычесть второй:

In [17]:
before - after

array([ 2,  0,  5,  2,  4, -2])

Python выполнил вычитание поэлементно, из первого элемента массива `before` вычел первый элемент массива `after`, из второго элемента массива `before` – второй элемент массива `after`, и так далее. Очень полезная особенность, она же будет наблюдаться и при работе с таблицами – столбцы в таблице будут восприниматься Python как массивы, а значит, для получения нового столбца на основе старого можно будет использовать простые операторы для сложения, умножения, вычитания или деления значений.

Осталось убедиться, что массивы справляются и со второй проблемой списков – позволяют выбирать элементы по условию, а не только по индексу.

### Фильтрация элементов массива

Вернёмся к массиву `Height`:

In [20]:
print(Height)

[168 164 172 175 178 182 162 162 168 174 185 178]


Предположим, мы хотим узнать, есть ли в массиве рост 168 сантиметров. Попробуем сформулировать простое условие через проверку равенства с помощью оператора `==`:

In [21]:
Height == 168

array([ True, False, False, False, False, False, False, False,  True,
       False, False, False])

Что произошло? Как мы уже выяснили, операции на массиве автоматически применяются к каждому его элементу, поэтому Python честно проверил равенство числу 168 для каждого значения в `Height` и вернул новый массив из `True` и `False` (выполняется условие или нет). Значения `True` стоят на тех местах, где в `Height` находится число 168. 

Аналогичным образом можем сформулировать более сложные условия. Например, условие для выявления респондентов с ростом не ниже 175:

In [22]:
Height >= 175

array([False, False, False,  True,  True,  True, False, False, False,
       False,  True,  True])

Или с ростом не менее 170 и не более 180:

In [23]:
(Height >= 170) & (Height <= 180)

array([False, False,  True,  True,  True, False, False, False, False,
        True, False,  True])

Во всех случаях проверки условий Python не отфильтровывает значения, удовлетворящие условиям, а просто возвращает массив из `True` и `False`, то есть **булев массив**. А как всё-таки отфильтровать значения? Вспомнить, что для выбора элементов используются квадратные скобки! Только теперь вместо индекса элементов в квадратных скобках мы будем размещать выражения с условиями (фильтры):

In [24]:
Height[Height == 168]

array([168, 168])

In [25]:
Height[Height >= 175]

array([175, 178, 182, 185, 178])

In [26]:
Height[(Height >= 170) & (Height <= 180)]

array([172, 175, 178, 174, 178])

Как работает фильтрация? Python выбирает из массива `Height` только те элементы, на которых условие в квадратных скобках возвращает значение `True`. Полученный результат мы можем сохранить в новый массив и далее работать с ним, исходный массив не изменится:

In [27]:
Filtered = Height[(Height >= 170) & (Height <= 180)]
print(Filtered) # отфильтрованные значения
print(Height) # исходный массив

[172 175 178 174 178]
[168 164 172 175 178 182 162 162 168 174 185 178]


**Дополнение.** Сами булевы массивы из `True` и `False` тоже могут пригодиться. Если, например, нам нужно только проверить, есть ли в массиве какие-то значения или узнать их количество, не отбирая эти элементы в новый массив, можно воспользоваться функцией `sum()` и тем фактом, что для Python значение `True` эквивалентно 1, а значение `False` – 0:

In [32]:
Height >= 175 # проверяем условие

array([False, False, False,  True,  True,  True, False, False, False,
       False,  True,  True])

In [33]:
sum(Height >= 175) # считаем True

5

Что происходит при использовании функции `sum()`? Функция считает сумму элементов массива из `True` и `False`, который «внутри» Python выглядит как массив из 1 и 0. Сумма такого массива совпадает с числом единиц, поэтому мы получаем ровно то, что хотели – число элементов, удовлетворящих условию. Сами элементы при этом мы никак не отбираем и никуда не сохраняем. Это тоже довольно полезный аспект работы с массивами – при работе с данными на этапе разведывательного анализа требуется просто понять, есть ли в таблице пропущенные значения или «странные» значения, а уже потом при их наличии отбирать соответствующие строки и их изучать.