# Python для сбора и анализа данных

*Алла Тамбовцева, НИУ ВШЭ*

## Строки, кортежи, списки и цикл for

* Неизменяемость vs изменяемость
* Строки и методы на строках
* Кортежи и методы на кортежах
* Списки, цикл for и функция `range()`

## Неизменяемость vs изменяемость

Объекты в Python могут быть неизменяемыми (*immutable*) и изменяемыми (*mutable*). Изменяемость в программировании означает возможность изменять объект «как есть», без явного переопределения через присваивание.

К неизменяемым типам относятся все базовые типы в Python, а также кортежи:

* `int`: целые числа;
* `float`: вещественные числа;
* `bool`: логические значения;
* `str`: строки;
* `tuple`: кортежи.

К изменяемым типам относятся:

* `list`: списки;
* `set`: множества;
* `dict`: словари.

Как выражается неизменяемость в числовых типах? На объектах этих типов не определены методы, которые позволяют их изменять – для них вообще никаких методов не существует. Например, если мы захотим увеличить `x` на 1, нам придётся переопределить его через `=`, никакого условного метода `.add()` нет:

In [1]:
x = 5
x += 1
print(x)

6


Давайте посмотрим на примеры методов на строках. 

## Строки и примеры методов на строках

Создадим строку `text`:

In [2]:
text = "питон греется на солнышке"

Применим метод `.upper()`, который приводит все буквы к верхнему регистру, то есть делает их заглавными:

In [3]:
print(text.upper())

ПИТОН ГРЕЕТСЯ НА СОЛНЫШКЕ


В самой строке при этом ничего не изменилось – строки неизменяемы:

In [4]:
print(text)

питон греется на солнышке


Для изменения строки нужно её перезаписать:

In [5]:
text = text.upper()
print(text)

ПИТОН ГРЕЕТСЯ НА СОЛНЫШКЕ


Вернём всё обратно, применим метод `.lower()` и приведём всё к нижнему регистру:

In [6]:
text = text.lower()
print(text)

питон греется на солнышке


Для работы с регистром есть ещё два метода. Метод `.capitalize()` делает первую букву строки заглавной (если на первом месте стоит другой символ – ничего не происходит), а метод `.title()` производит ту же операцию для каждого слова в строке.

In [7]:
print(text.capitalize())

Питон греется на солнышке


In [8]:
print(text.title())

Питон Греется На Солнышке


Кроме того, существует метод `.swapcase()`, он меняет регистр каждого символа – если буква заглавная, он делает её строчной, если строчная – заглавной:

In [9]:
print("WakeUP".swapcase())

wAKEup


Если нам нужно заменить какой-то символ или подстроку в строке, пригодится метод `.replace()`.

In [10]:
# что заменяем, на что заменяем

text = text.replace("питон", "Python")
print(text)

Python греется на солнышке


При работе с реальными текстами также может понадобиться метод `.strip()`, он убирает лишние пробелы и отступы в начале и конце строки:

In [11]:
s = "  hello\n"
s.strip()

'hello'

Но пробелы внутри строки этот метод не трогает:

In [12]:
print(text.strip())

Python греется на солнышке


Некоторые методы на строках похожи на методы на списках и на кортежах. Действительно, кто мешает в последовательности символов найти нужные элементы или посчитать их количество:

In [13]:
# индекс буквы h
print(text.index("h"))

3


In [14]:
# индекс первой буквы е
print(text.index("е"))

9


In [15]:
# считаем буквы е
print(text.count("е"))

3


А ещё есть методы, которые проверяют соответствие определённым условиям и возвращают ответ логического типа `True` или `False`:

In [16]:
# начинается ли с I
print(text.startswith("I"))

False


In [17]:
# заканчивается ли на е
print(text.endswith("е")) 

True


In [18]:
# все ли маленькими буквами
print(text.isupper())

False


Более специфический метод – метод `.isalnum()`, проверяет, правда ли строка является последовательностью исключительно из букв и цифр (*alpha* + *numeric*):

In [19]:
# есть пробелы, поэтому False
print(text.isalnum())

False


In [20]:
 # ok
print("password1234".isalnum())

True


Похожий метод, только исключительно для цифр:

In [21]:
print("12340".isnumeric())

True


In [22]:
print("12.67".isnumeric())

False


Ещё один полезный метод – метод `.zfill()`. Он расшифровывается как *fill with zeroes* и добавляет нули в начало строки, столько нулей, сколько нужно для получения строки заданной длины. Особенно актуален этот метод при работе с файлами. Если у нас есть 100 файлов с названиями вида `1.png`, `2.png`, `100.png`, правильно упорядочить по возрастанию их не получится. Python будет посимвольно сравнивать строки, и тогда файлы `1.png`, `10.png` и `100.png` окажутся рядом, что противоречит выбранной сортировке. Проверим:

In [23]:
files = ["1.png", "2.png", "100.png", "3.png", "10.png"]
print(sorted(files))

['1.png', '10.png', '100.png', '2.png', '3.png']


Изменим все названия на трёхзначные числа – дозаполним названия нулями:

In [24]:
# zfill(7): добавить нули в начале, если длина строки не 7
# 7 – максимальная длина строки в списке, это 100.png

new = []
for f in files:
    new.append(f.zfill(7)) 
print(new)

['001.png', '002.png', '100.png', '003.png', '010.png']


Теперь с сортировкой всё в порядке:

In [25]:
print(sorted(new))

['001.png', '002.png', '003.png', '010.png', '100.png']


## Кортежи и методы на кортежах

Кортежи встречаются не только в программировании, но и в математике. В математике под кортежем обычно понимают упорядоченный набор элементов, то есть набор, порядок элементов которого фиксирован. В кортеже мы точно знаем, какой элемент является первым, какой – вторым, и так далее.

Кортежи Python создаёт сам, если получает на вход перечень элементов через запятую:

In [26]:
1, 8, 9

(1, 8, 9)

Можем создать кортеж явно, используя круглые скобки:

In [27]:
t = (1, 6, 8, 9, 10)
print(t, type(t))

(1, 6, 8, 9, 10) <class 'tuple'>


К элементам кортежа можно обращаться по индексу (нумерация с нуля):

In [28]:
t[0]

1

А вот заменить элемент не получится, кортежи неизменяемы:

In [29]:
t[0] = 6

TypeError: 'tuple' object does not support item assignment

Иногда это свойство бывает полезным (некоторая «защита» от изменений), иногда – не очень, но для нас пока важно познакомиться с разными объектами в Python, чтобы потом не удивляться. Ведь многие более продвинутые функции могут возвращать результат или, наоборот, принимать на вход только кортежи или только списки.

Если посмотреть на методы, применяемые к кортежам (например, набрать `t.` и нажать *Tab*), то можно заметить, что их всегда два:

In [30]:
# индекс элемента
t.index(8)

2

In [31]:
# считаем 2
t.count(2)

0

Во многом это связано с тем, что кортеж нельзя изменить. Но вот «склеивать» кортежи, создавая при этом новый, легко, оператор `+` одинаково работает с последовательностями разных типов:

In [32]:
new = t + (7, 8)
print(new)

(1, 6, 8, 9, 10, 7, 8)


## Списки, цикл `for` и функция `range()`

*Этот раздел частично основана на [лекции](http://nbviewer.math-hse.info/github/ischurov/pythonhse/blob/master/Lecture%202.ipynb) Щурова И.В., курс «Программирование на языке Python для сбора и анализа данных» (НИУ ВШЭ).*

### Знакомство со списками: создание и выбор элементов

Создадим список `age` из значений возраста респондентов. Элементы списка перечисляются в квадратных скобках через запятую:

In [33]:
age = [25, 35, 48, 20]
print(age)

[25, 35, 48, 20]


Список может содержать элементы любого типа, необязательно числового. Например, мы можем создать список имён `name`, полностью состоящий из строк:

In [34]:
name = ["Ann", "Nick", "Ben", "George", "James"]
print(name)

['Ann', 'Nick', 'Ben', 'George', 'James']


А можем создать список, состоящий из элементов разных типов. Представим, что не очень сознательный исследователь закодировал пропущенные значения в списке текстом, написав «нет ответа»:

In [35]:
mixed = [23, 25, "no answer", 32]
print(mixed)

[23, 25, 'no answer', 32]


Элементы разных типов спокойно уживаются в списке: Python не меняет тип элементов. Все элементы, которые являются строками, останутся строками, а числа – числами. Список может иметь более сложную структуру, например, представлять собой список списков:

In [36]:
L = [[1, 2, 3], [4, 5]]
print(L)

[[1, 2, 3], [4, 5]]


У списка всегда есть длина – количество элементов в нём. Длина определяется с помощью функции `len()`.

In [37]:
print(len(age)) # четыре элемента

4


Если список пустой, то, как несложно догадаться,  его длина равна нулю:

In [38]:
empty = []
print(len(empty))

0


Раз список состоит из элементов, к ним можно обращаться по отдельности. Главное, нужно помнить, что нумерация в Python начинается с нуля, а не с единицы. Существует несколько обоснований, почему это так, с одним из них мы познакомимся чуть позже, когда будем обсуждать срезы.

In [39]:
age[0] # первый элемент age

25

Порядковый номер элемента в списке называется индексом. Далее, чтобы не путаться, будем разделять термины: порядковые числительные останутся для обозначения номера элемента в нашем обычном понимании, а индексы – для обозначения номера элемента в Python. Например, если нас будет интересовать элемент 35 из списка `age`, мы можем сказать, что нас интересует второй элемент или элемент с индексом 1:

In [40]:
print(age)
print(age[1])

[25, 35, 48, 20]
35


Если элемента с интересующим нас индексом в списке нет, Python выдаст ошибку, а точнее, исключение, под названием `IndexError`.

In [41]:
age[5]

IndexError: list index out of range

А как обратиться к последнему элементу списка, да так, чтобы код был универсальным – работал и в случае, когда мы изменим длину списка? Давайте подумаем. Длина списка `age`, как мы уже убедились, равна 4, но нумерация самих элементов начинается с нуля. Поэтому: 

In [42]:
age[len(age)-1] # последний элемент - 20

20

Конечно, в том, что нумерация элементов в списке начинается с нуля, есть некоторое неудобство – индекс последнего элемента не совпадает с длиной списка. Но, на самом деле, обращаться к последнему элементу списка можно и по-другому: считать элементы с конца!

In [43]:
age[-1] # последний элемент - он же первый с конца

20

Отрицательные индексы элементов в Python – абсолютно нормальная вещь. Можем так же получить второй элемент с конца:

In [44]:
age[-2]

48

### Знакомство со списками: изменение и добавление элементов

Список – изменяемый тип в Python. Это означает, что список можно изменять, не перезаписывая его, то есть не создавая новую переменную с тем же названием. Заменим последний элемент списка `age` на число 30:

In [45]:
age[-1] = 30
print(age)

[25, 35, 48, 30]


А ещё можно дописывать элементы в конец списка. Для этого существует два метода: `.append()` и `.extend()`. Метод `.append()` используется для присоединения одного элемента, `.extend()` – для добавления целого списка. 

In [46]:
age.append(27) # добавили 27
print(age)

[25, 35, 48, 30, 27]


In [47]:
age.extend([43, 33])  # добавили 43 и 33
print(age)

[25, 35, 48, 30, 27, 43, 33]


Важный момент: методы `.append()` и `extend()`, да и почти все методы, которые затрагивают исходный список, молча вносят изменения в сам список, а не возвращают его обновлённую копию. Возвращают они пустое значение `None`, поэтому использовать одновременно, например, `.append()` и `=` для изменения списка – ошибочное решение:

In [48]:
# якобы добавляем 90 и сохраняем обновленный список в age2

age2 = age.append(90) 
print(age2)  # но нет

None


Методы `.append()` и `.extend()` приписывают значения только в конец списка. Для добавления элементов в любое другое место существует метод `.insert()`, он «втискивает» элемент на место с указанным индексом:

In [49]:
print(age) # до

age.insert(3, 29) # добавили 29 четвертым элементом (индекс 3)

print(age) # после 

[25, 35, 48, 30, 27, 43, 33, 90]
[25, 35, 48, 29, 30, 27, 43, 33, 90]


Также списки можно склеивать, то есть использовать операцию, которая называется *конкатенацией*. В этом смысле списки очень похожи на строки, и для их конкатенации тоже используется знак `+` (история про перегрузку операторов, когда одни и те же операторы выполняют разные операции на разных типах, мы уже такое обсуждали):

In [50]:
L = [4, 5, 6] + [7, 8, 9] 
print(L)

[4, 5, 6, 7, 8, 9]


Запись через `+` кажется очень интуитивной и заманчивой, но не стоит ей часто пользоваться, когда списки очень большие и их много. При такой конкатенации списков происходит создание нового списка, который «склеивается» из отдельных частей, чего не происходит при использовании `.extend()`: там элементы просто дописываются в уже существующий список. Поэтому приписывание одного списка в конец другого быстрее и эффективнее делать именно через `.extend()`.

На данный момент мы достаточно хорошо познакомились со списками. Но списки не так просты, как кажется. И это снова связано с тем, что список – изменяемый тип. Давайте попробуем сделать следующее: скопировать один список в другой путем присваивания.

In [51]:
age2 = age  # сохранили список L1 в L2
print(age, age2)

[25, 35, 48, 29, 30, 27, 43, 33, 90] [25, 35, 48, 29, 30, 27, 43, 33, 90]


Пока все ожидаемо. А теперь допишем в `age2` элемент 18:

In [52]:
age2.append(18)

И сравним оба списка:

In [53]:
print(age, age2)

[25, 35, 48, 29, 30, 27, 43, 33, 90, 18] [25, 35, 48, 29, 30, 27, 43, 33, 90, 18]


Несмотря на то, что список `age` мы не трогали, он изменился точно так же, как и список `age2`! Что произошло? На самом деле, когда мы записали `age2 = age`, мы скопировали не сам список, а ссылку на него. Другими словами, проводя аналогию с папкой и ярлыком, вместо того, чтобы создать новую папку `age2` с элементами, такими же, как в `age`, мы создали ярлык `age2`, который сам по себе ничего не представляет, а просто ссылается на папку `age`. 

Так как же тогда копировать списки? Можно воспользоваться методом `.copy()`. 

In [54]:
age2 = age.copy() 
age2.append(18)

print(age)
print(age2)

[25, 35, 48, 29, 30, 27, 43, 33, 90, 18]
[25, 35, 48, 29, 30, 27, 43, 33, 90, 18, 18]


### Выбор нескольких элементов: срезы

Мы уже познакомились с тем, как выбирать отдельные элементы из списка, однако мы ещё не обсудили, как выбирать несколько элементов подряд. Такие части списков называются срезами (*slices*). Индексы элементов, которые должны войти в срез, указываются в квадратных скобках, через двоеточие (`начало` : `конец`).

In [55]:
age[2:5]

[48, 29, 30]

Важно: правый конец не включается в срез! В срез выше вошли элементы с индексами 2, 3, 4, элемент с индексом 5 включён не был.

Если мы хотим задать только начало или конец среза, один из индексов легко можно опустить: 

In [56]:
print(age[2:])
print(age[:5])

[48, 29, 30, 27, 43, 33, 90, 18]
[25, 35, 48, 29, 30]


Тут мы подходим к тому, [почему](http://python-history.blogspot.ru/2013/10/why-python-uses-0-based-indexing.html) нумерация элементов в Python начинается с нуля. В частности, для удобных срезов. Если нам нужны первые два элемента списка, нам не нужно долго думать и сдвигать номера элементов на единицу, достаточно просто написать, например, `age[:2]`.  

Можно ли сделать срез, который будет включать в себя весь список? Легко!

In [57]:
age[:] # опускаем все индексы

[25, 35, 48, 29, 30, 27, 43, 33, 90, 18]

Срезы можно задействовать и для изменения списка:

In [58]:
print(age)

age[1:3] = [28, 26] # заменим элементы с индексами 1 и 2

print(age)

[25, 35, 48, 29, 30, 27, 43, 33, 90, 18]
[25, 28, 26, 29, 30, 27, 43, 33, 90, 18]


Длина списка, на который мы заменяем срез, не обязательно должна совпадать с длиной среза. Можно взять список с большим числом элементов, тогда исходный список расширится, а можно с меньшим – список сузится. Замены остальных элементов при этом не произойдет, новый срез просто «вклинится» в середину списка.

In [59]:
age[1:3] = [18, 32, 45]
print(age)

[25, 18, 32, 45, 29, 30, 27, 43, 33, 90, 18]


### Цикл for

Раз есть списки, хочется научиться «пробегаться» по их элементам. Например, выводить на экран не весь список `age` сразу, а постепенно, каждый элемент с новой строки. Для этого существуют циклы. Они позволяют выполнять одну и ту же операцию или набор операций несколько раз, не копируя один и тот же код и не запуская его заново. 

Рассмотрим цикл `for`. Создадим список `nums` и последовательно выведем его элементы на экран:

In [60]:
nums = [1, 10, 23, -8, 6] 

In [61]:
for i in nums:
    print(i)

1
10
23
-8
6


Как устроен цикл выше? Кодом выше мы доносим до Python мысль: пробегайся по всем элементам списка `age` и выводи каждый элемент на экран. Вообще любой цикл `for` имеет такую структуру: сначала указывается, по каким значениям нужно пробегаться, а потом, что нужно делать. Действия, которые нужно выполнить в цикле, указываются после двоеточия в `for` – эта часть назвается *телом* цикла.  

Буквы в конструкции `for` могут быть любые, совсем необязательно брать букву `i`. Python сам поймёт, просто по синтаксису конструкции, что мы имеем в виду, запуская цикл.

In [62]:
# element вместо i

for element in nums:
    print(element)

1
10
23
-8
6


Можем выводить не сами элементы, а, например, результаты возведения их в квадрат:

In [63]:
for i in nums:
    print(i, i ** 2)  

1 1
10 100
23 529
-8 64
6 36


Давайте, используя цикл, создадим новый список на основе старого.

In [64]:
squares = [] # пока пустой список
for n in nums:
    squares.append(n ** 2) # постепенно записываем элементы
print(squares)

[1, 100, 529, 64, 36]


Конечно, циклы нужны не только для того, чтобы работать со списками. С помощью циклом можно решить любую задачу, которая требует повторения одинаковых действий. Рассмотрим такую задачу.

С приходом весны питон решил каждый день выползать погреться на солнышко. Однако он знал, что солнце весной довольно активное, и поэтому разработал такую схему: в первый день он греется одну минуту, а в каждый последующий день увеличивает время пребывания на солнце на 3 минуты. Нам нужно написать код, который позволит вычислять, сколько минут питон будет тратить на солнечные ванны в некоторый выбранный день.

In [65]:
# создадим список с номерами дней
# зафиксируем начальное значение времени t = 1 минута

days = [2, 3, 4, 5, 6, 7] 
t = 1
print(1, t) 

# теперь будем обновлять значение t в цикле
# и выводить на экран номер дня и время

for day in days: 
    t = t + 3
    print(day, t)

1 1
2 4
3 7
4 10
5 13
6 16
7 19


### Функция `range()`

Конечно, предыдущую задачу можно было решить проще, не создавая вручную список `days` из целых чисел. 

В Python есть функция `range()`, которая позволяет перебирать целые числа на заданном промежутке, не создавая при этом сам список чисел:

In [66]:
range(0, 7)

range(0, 7)

Есть небольшая проблема: из-за того, что список с числами не создаётся явно и не занимает память, элементы внутри `range()` мы не видим. Однако можно преобразовать результат в список и посмотреть на него:

In [67]:
list(range(0, 7))

[0, 1, 2, 3, 4, 5, 6]

Правый конец заданного в `range()` промежутка не включается, будьте бдительны. В примере выше на экран были выведены числа от 0 до 6, число 7 включено не было.

Если мы не хотим получать список чисел явно, а хотим просто вывести на экран элементы одной строкой, можно вспомнить про оператор `*`, он умеет «распаковывать» последовательности элементов для их вывода на экран через `print()`:

In [68]:
# извлекаются числа и печатаются через пробел

print(*range(0, 7))

0 1 2 3 4 5 6


При использовании `range()` в циклах преобразовывать результат в список уже не нужно, функция `list()` нужна только для того, чтобы посмотреть на объект изнутри. Для примера выведем на экран все целые числа от 1 до 10, домноженные на 2:

In [69]:
for i in range(1, 11):
    print(i * 2)

2
4
6
8
10
12
14
16
18
20


**Полезный факт №1.** Если нас интересуют числа на промежутке, начиная с нуля, в `range()` левый конец можно не указывать, 0 будет выбран по умолчанию.

In [70]:
list(range(6))

[0, 1, 2, 3, 4, 5]

**Полезный факт №2.** Внутри `range()` можно указать любой целочисленный шаг для получения нужной последовательности чисел (по умолчанию шаг равен 1).

In [71]:
# шаг 2, только чётные числа от 0 до 16, исключая 16

list(range(0, 16, 2))

[0, 2, 4, 6, 8, 10, 12, 14]

Шаг внутри `range()` может быть и отрицательным, тогда мы получим последовательность, отсортированную по убыванию. В таком случае сначала нужно указывать правый конец интервала, а потом – левый.

In [72]:
list(range(16, 0, -2)) 

[16, 14, 12, 10, 8, 6, 4, 2]

Если сначала указать меньшее значение, то мы получим пустой список. Это происходит потому, что мы даём Python противоречивые указания – `range()` двигается всегда слева направо, а отрицательный шаг предполагает движение справа налево:

In [73]:
list(range(0, 16, -2)) 

[]