# Анализ данных в Python

*Алла Тамбовцева*

## Индексируемые структуры данных: строки, кортежи, списки

В Python помимо базовых типов, которые соответствуют отдельным значениям (`int` – целые числа, `float` – вещественные числа, `bool` – булевы значения `True` и `False`), существуют типы, которые хранят последовательности значений. Последовательности значений могут быть индексируемыми и неиндексируемыми. В первом случае предполагается возможность выбора элемента последовательности по его порядковому номеру, 
плюс, допускается сортировка элементов, во втором случае обе эти операции не определены.

К индексируемым (упорядоченным) структурам относятся:

* тип `str`: строка (от *string*);
* тип `tuple`: кортеж;
* тип `list`: список.

К неиндексируемым (неупорядоченным) структурам относятся:

* тип `set`: множество;
* тип `dict`: словарь (от *dictionary*).

Рассмотрим индексируемые типы поподробнее.

### Строки и выбор элементов по индексам

Создадим строку с текстом и выведем на экран её тип:

In [1]:
text = "Python is cool"
print(text)
print(type(text))

Python is cool
<class 'str'>


Посмотрим на примере строк, как происходит выбор элемента по индексу. Индекс элемента указывается в квадратных скобках, нумерация в Python начинается с нуля:

In [2]:
print(text[0])

P


Отрицательные индексы в Python тоже существуют – в таком случае элементы отсчитываются с конца последовательности:

In [3]:
print(text[-1])

l


Стандартный способ (не все языки поддерживают нумерацию с конца) извлечения последнего элемента на основе общей длины последовательности тоже работает, но считается избыточным:

In [4]:
print(text[len(text)-1])

l


Выбрать сразу несколько элементов, не стоящих рядом, просто перечислив их индексы через запятую, нельзя, но зато можно выбрать элементы, следующие друг за другом. Для этого пригодятся срезы (*slices*):

In [5]:
# правый конец среза всегда исключается
# символы 0, 1, 2, 3, 4, 5

print(text[0:6])

Python


Левую границу среза можно опустить, если подразумевается отсчёт элементов сначала:

In [6]:
print(text[:6])

Python


Аналогично можно поступить с правой границей:

In [7]:
print(text[7:])

is cool


В срезе также можно установить шаг, если элементы должны выбираться не друг за другом:

In [8]:
# шаг два – буквы через одну
print(text[0:6:2])

Pto


In [9]:
# отрицательный шаг – движение с конца
print(text[6:0:-2])

 ot


In [10]:
# строка наоборот
print(text[-1::-1])

looc si nohtyP


### Строки как пример неизменяемого типа

Объекты в Python могут быть неизменяемыми (*immutable*) и изменяемыми (*mutable*). Изменяемость в программировании означает возможность изменять объект «как есть», без явного переопределения через присваивание.

К неизменяемым типам в Python относятся:

* `int`: целые числа;
* `float`: вещественные числа;
* `bool`: логические значения;
* `str`: строки;
* `tuple`: кортежи.

К изменяемым типам относятся:

* `list`: списки;
* `set`: множества;
* `dict`: словари.



Допустим, у нас есть строка `text`:

In [11]:
print(text)

Python is cool


Заменить первый элемент строки через `=` у нас не получится:

In [12]:
text[0] = "p"

TypeError: 'str' object does not support item assignment

Для изменения строки попробуем воспользоваться готовым методом `.lower()`, который приводит текст к нижнему регистру:

In [13]:
text.lower()

'python is cool'

Кажется, получилось! Однако в самой строке `text` при этом ничего не изменилось, метод просто вернул её изменённую копию:

In [14]:
print(text)

Python is cool


Для изменения строки нужно её перезаписать:

In [15]:
text = text.lower()
print(text)

python is cool


Вернём всё обратно – запишем в `text` результат применения метода `.capitalize()`, который приводит первый символ к верхнему регистру, в нашем случае делает первую букву заглавной:

In [16]:
text = text.capitalize()
print(text)

Python is cool


### Кортежи и методы на кортежах

Кортежи встречаются не только в программировании, но и в математике. В математике под кортежем обычно понимают упорядоченный набор элементов, то есть набор, порядок элементов которого фиксирован. В кортеже мы точно знаем, какой элемент является первым, какой – вторым, и так далее.

Кортежи Python создаёт сам, если получает на вход перечень элементов через запятую:

In [17]:
1, 8, 9

(1, 8, 9)

При этом элементы совсем не обязательно должны быть одного типа:

In [18]:
"abc", 8, True

('abc', 8, True)

Можем создать кортеж явно, используя круглые скобки:

In [19]:
triple = (10, 9, 5)

In [20]:
print(triple, type(triple))

(10, 9, 5) <class 'tuple'>


К элементам кортежа также можно обращаться по индексу:

In [21]:
print(triple[2])

5


А вот изменять его элементы, как и у строк, нельзя:

In [22]:
triple[2] = 8

TypeError: 'tuple' object does not support item assignment

Иногда это свойство бывает полезным (некоторая «защита» от изменений), иногда – не очень, но для нас пока важно познакомиться с разными объектами в Python, чтобы потом не удивляться. Ведь многие более продвинутые функции могут возвращать результат или, наоборот, принимать на вход только кортежи или только списки.

Если посмотреть на методы, применяемые к кортежам (например, набрать `triple.` и нажать *Tab*), то можно заметить, что их всего два:

In [23]:
# индекс элемента
print(triple.index(10))

0


In [24]:
# число вхождений элемента
print(triple.count(10))

1


> **NB.** Что у кортежей, что у строк, что у списков, метод `.index()` всегда возвращает индекс только первого совпадения, даже если в последовательности есть повторяющиеся значения:
        
        four = (4, 4, 6, 6, 6)
        print(four.index(6))
        2

In [25]:
four = (4, 4, 6, 6, 6)
print(four.index(6))

2


Во многом это связано с тем, что кортеж нельзя изменить. Но вот «склеивать» кортежи, создавая при этом новый, легко, оператор `+` одинаково работает с последовательностями разных типов:

In [26]:
(1, 2) + triple + four

(1, 2, 10, 9, 5, 4, 4, 6, 6, 6)

### Списки как пример изменяемого типа

Создадим список `values` из целых значений. Элементы списка перечисляются в квадратных скобках через запятую:

In [27]:
values = [4, 7, 8, 10, 5, 4]

Список может содержать элементы любого типа, необязательно числового. Например, мы можем создать список имён `names`, полностью состоящий из строк:

In [28]:
names = ["Ann", "Nick", "Ben", "George", "James"]
print(names)

['Ann', 'Nick', 'Ben', 'George', 'James']


А можем создать список, состоящий из элементов разных типов. Представим, что не очень сознательный исследователь закодировал пропущенные значения в списке текстом, написав «нет ответа»:

In [29]:
mixed = [23, 25, "no answer", 32]
print(mixed)

[23, 25, 'no answer', 32]


Элементы разных типов спокойно уживаются в списке: Python не меняет тип элементов. Все элементы, которые являются строками, останутся строками, а числа – числами. Список может иметь более сложную структуру, например, представлять собой список списков:

In [30]:
L = [[1, 2, 3], [4, 5]]
print(L)

[[1, 2, 3], [4, 5]]


Вернёмся к списку `values`. Список – изменяемый тип в Python. Это означает, что список можно изменять, не перезаписывая его, то есть не создавая новую переменную с тем же названием. Заменим последний элемент списка `values` на число 30:

In [31]:
values[-1] = 30
print(values)

[4, 7, 8, 10, 5, 30]


А ещё можно дописывать элементы в конец списка. Для этого существует два метода: `.append()` и `.extend()`. Метод `.append()` используется для присоединения одного элемента, `.extend()` – для добавления целого списка.

In [32]:
values.append(100)
print(values)

[4, 7, 8, 10, 5, 30, 100]


In [33]:
values.extend([90, 120])
print(values)

[4, 7, 8, 10, 5, 30, 100, 90, 120]


Важный момент: методы `.append()` и `.extend()`, да и почти все методы, которые затрагивают исходный список, молча вносят изменения в сам список, а не возвращают его обновлённую копию. Возвращают они пустое значение `None`, поэтому использовать одновременно, например, `.append()` и `=` для изменения списка – ошибочное решение:

In [34]:
new = values.append(90) 
print(new) # но нет

None


Списки не так просты, как кажется. И это снова связано с тем, что список – изменяемый тип. Давайте попробуем сделать следующее: скопировать один список в другой путём присваивания и применить к копии какой-нибудь метод.

In [35]:
values2 = values
values2.append(100)
print(values, values2)

[4, 7, 8, 10, 5, 30, 100, 90, 120, 90, 100] [4, 7, 8, 10, 5, 30, 100, 90, 120, 90, 100]


Несмотря на то, что список `values` мы не трогали, он изменился точно так же, как и список `values2`! Что произошло? На самом деле, когда мы записали `values2 = values`, мы скопировали не сам список, а ссылку на него. Другими словами, проводя аналогию с папкой и ярлыком, вместо того, чтобы создать новую папку `values2` с элементами, такими же, как в `values`, мы создали ярлык `values2`, который просто ссылается на папку `values`.

<img src="https://raw.githubusercontent.com/allatambov/PyPerm25/main/one.jpeg" width="70%">

Так как же тогда копировать списки? Можно воспользоваться методом `.copy()`.

In [36]:
values3 = values.copy() 
values3.sort()

print(values) # исходный
print(values3) # уже отсортирован

[4, 7, 8, 10, 5, 30, 100, 90, 120, 90, 100]
[4, 5, 7, 8, 10, 30, 90, 90, 100, 100, 120]


<img src="https://raw.githubusercontent.com/allatambov/PyPerm25/main/two.jpeg" width="70%">

**NB.** Метод `.copy()` всё равно создаёт не полную (глубокую) копию объекта. Если в списке внутри хранятся объекты изменяемых типов, этот метод уже не позволит создать более корректную копию списка. Сравним результаты выше с примером работы со списком списков:

In [37]:
test = [[1, 0, 1], 
        [0, 0, 0]]

test2 = test.copy()
print("До:", test, test2, sep = "\n")

# изменяем первый элемент второго списка внутри
test[1][0] = 1

# нет разницы – ссылки на списки внутри
print("После:", test, test2, sep = "\n")

До:
[[1, 0, 1], [0, 0, 0]]
[[1, 0, 1], [0, 0, 0]]
После:
[[1, 0, 1], [1, 0, 0]]
[[1, 0, 1], [1, 0, 0]]


<img src="https://raw.githubusercontent.com/allatambov/PyPerm25/main/four.png" width="50%">

Для создания глубокой копии можно воспользоваться функцией `deepcopy()` из модуля `copy`:

In [38]:
from copy import deepcopy

test = [[1, 0, 1], 
        [0, 0, 0]]

test2 = deepcopy(test)
print("До:", test, test2, sep = "\n")

test[1][0] = 1
print("После:", test, test2, sep = "\n") # разница есть

До:
[[1, 0, 1], [0, 0, 0]]
[[1, 0, 1], [0, 0, 0]]
После:
[[1, 0, 1], [1, 0, 0]]
[[1, 0, 1], [0, 0, 0]]


<img src="https://raw.githubusercontent.com/allatambov/PyPerm25/main/three.png" width="70%">

Более подробную информацию о модуле `copy` (и даже исходный код) можно найти в [документации](https://docs.python.org/3/library/copy.html). Там же можно узнать больше деталей о глубине копирования и особенностях копирования для разных типов (сколько уровней охватывается во вложенных структурах и прочее).

С неизменяемыми типами таких проблем не возникает, присваивание через `=` создаёт полноценную копию.

In [39]:
whisper = "hey"
shout = whisper
shout = shout.upper()
print(whisper, shout)

hey HEY
