## Кортежи. Счётчики. JSON

### Кортежи

Кортеж (*tuple*, сокращение от *N-tuple* &mdash; N-кратный) представляет собой неизменяемую упорядоченную последовательность элементов.

In [1]:
a = (1, 2, 3, 4, 5)

Кортежи во многом аналогичны спискам: они поддерживают доступ по индексу (но не запись!), вычисление длины, срезы.

In [3]:
print(a[1])

2


In [4]:
print(len(a))

5


In [5]:
print(a[:2])

(1, 2)


In [12]:
a[1] = 3  # TypeError

TypeError: 'tuple' object does not support item assignment

Чтобы задать кортеж, нужно перечислить элементы через запятую. Лучше делать это в круглых скобках. Если вы хотите включить в кортеж только один элемент, после него нужно поставить запятую:

In [6]:
b = (1)  # не кортеж
c = (1,)  # кортеж

print(b, c)

1 (1,)


Кортеж можно получить из других итерируемых объектов с помощью функции `tuple()`:

In [9]:
text = "text"
numbers = [1, 2, 3, 4]
letters = {"a": 1, "b": 2}

text_tuple = tuple(text)
print(text_tuple)

numbers_tuple = tuple(numbers)
print(numbers_tuple)

letters_tuple = tuple(letters)
print(letters_tuple)

('t', 'e', 'x', 't')
(1, 2, 3, 4)
('a', 'b')


Пустой кортеж задаётся круглыми скобками:

In [7]:
d = ()
print(d)

()


Кортежи обычно применяются для хранения упорядоченных последовательностей элементов фиксированной длины (упорядоченных пар, троек и т.д.). Их неизменяемость позволяет им быть элементами множеств и ключами словарей. Например, так можно хранить координаты:

In [11]:
coords_visited = [
    (40.7128, -74.0060),
    (34.0522, -118.2437),
]

Или последовательности слов &mdash; N-граммы:

In [10]:
trigram_freqs = {
    ("был", "тихий", "серый"): 1,
    ("тихий", "серый", "вечер"): 1,
}

**Контрольный вопрос:** пользователь ввёл с клавиатуры N чисел. Разбейте числа на пары и создайте список кортежей.

In [3]:
numbers = "1 2 31 23 1 4 5 8 3 24"

<details>
<summary>Ответ:</summary>
<pre>
numbers_int = [int(i) for i in numbers.split()]
pairs = [(i, j) for i, j in zip(numbers_int[::2], numbers_int[1::2])]
# pairs = list(zip(numbers_int[::2], numbers_int[1::2]))
print(pairs)
</pre>
</details>

#### Распаковка

Кортежи используются в процессе *упаковки*, *распаковки* (*packing* и *unpacking*) и множественного присваивания. Например, если мы хотим поменять местами две переменные, то мы можем легко сделать это так:

In [26]:
a = 4
b = 3
a, b = b, a
print(a, b)

3 4


По сути, в третьей строке создался кортеж `(b, a)`, который был распакован в переменные `a` и `b`.

Чтобы распаковка прошла успешно, нужно, чтобы количество элементов совпадало:

In [27]:
a = 4
b = 3
c = 5
a, b = b, a, c
print(a, b)

ValueError: too many values to unpack (expected 2)

Когда мы используем `zip()` или `enumerate()`, мы тоже используем распаковку:

In [None]:
nums1 = [1, 2, 3]
nums2 = [3, 4, 5]
for n1, n2 in zip(nums1, nums2):  # с распаковкой
    print(n1, n2)

1 3
2 4
3 5


In [30]:
nums1 = [1, 2, 3]
nums2 = [3, 4, 5]
for n in zip(nums1, nums2):  # без распаковки
    print(n)  # <- кортеж!

(1, 3)
(2, 4)
(3, 5)


### `import`

В Python есть ряд функций и типов, которые не являются встроенными. Для работы с ними нужно *импортировать* соответствующие модули. Для этого в начале вашей программы (до всего остального кода!) нужно написать слово `import` и после него &mdash; имя модуля, который вас интересует. После этого вы сможете использовать его содержимое, написав сначала имя модуля, потом точку, потом имя функции, типа, константы или другого объекта. С указателем модулей можно ознакомиться в [документации](https://docs.python.org/3/py-modindex.html).

In [None]:
import math
print(math.pi)  # константа
print(math.cos(math.pi))  # функция

3.141592653589793
-1.0


Если вас интересуют только конкретные имена, мы можем перечислить их после `from <имя модуля> import`. Тогда имя модуля писать не нужно.

In [16]:
from math import pi, cos

print(pi)
print(cos(pi))

3.141592653589793
-1.0


### Счётчики (`Counter`)

Счётчик &mdash; это разновидность словаря, которая хранит информацию о количестве элементов. Он хранится в модуле `collections`.

In [5]:
from collections import Counter

numbers = [1, 2, 3, 1, 1, 2, 1, 3, 2, 4, 3, 2, 1]
number_counts = Counter(numbers)
print(number_counts)
print(number_counts[1])

Counter({1: 5, 2: 4, 3: 3, 4: 1})
5


Если мы хотим обновить значения, можно подать на вход методу `.update()` ещё один итерируемый объект:

In [6]:
more_numbers = [4, 2, 1, 2, 3, 5, 6]

number_counts.update(more_numbers)
print(number_counts)

Counter({1: 6, 2: 6, 3: 4, 4: 2, 5: 1, 6: 1})


Получить все парочки (элемент, количество) в порядке убывания частотности списком:

In [7]:
print(number_counts.most_common())

[(1, 6), (2, 6), (3, 4), (4, 2), (5, 1), (6, 1)]


Или перебрать то же циклом:

In [8]:
for number, count in number_counts.most_common():
    print(number, count)

1 6
2 6
3 4
4 2
5 1
6 1


Только N самых частотных:

In [11]:
print(number_counts.most_common(1))

[(1, 6)]


**Контрольный вопрос:** пользователь ввёл с клавиатуры последовательность чисел. Найдите самое часто встречающееся число.

In [13]:
numbers = "1 2 3 2 2 4 2 3 1 2 3 1 2 1"

<details>
<summary>Ответ:</summary>
<pre>
num_counts = Counter(numbers.split())
print(num_counts.most_common(1)[0][0])
</pre>
</details>

### JSON

JSON &mdash; это формат хранения (*сериализации*) структурированных данных. По сути, объект JSON &mdash; это большой список или словарь, элементами которого могут быть:

* списки
* словари
* строки
* числа
* логические значения
* `None` (будет записано в файл как `null`)

В Python есть модуль `json` для работы с такими файлами. В нём есть функции `load()` для чтения из текстового файла и `dump()` для записи.

In [None]:
!wget https://phonetics-spbu.github.io/courses/python_genling_bac/files/example.json

In [None]:
import json
with open("example.json") as f:
    data = json.load(f)

print(data)

{'first_name': 'John', 'last_name': 'Smith', 'is_alive': True, 'age': 27, 'address': {'street_address': '21 2nd Street', 'city': 'New York', 'state': 'NY', 'postal_code': '10021-3100'}, 'phone_numbers': [{'type': 'home', 'number': '212 555-1234'}, {'type': 'office', 'number': '646 555-4567'}], 'children': ['Catherine', 'Thomas', 'Trevor'], 'spouse': None}


In [None]:
data["spouse"] = "Renée"
with open("example2.json", "w") as f:
    json.dump(data, f)

Все символы, не входящие в ASCII, будут записаны как номера в Unicode (`"\uXXXX"`). Чтобы записывать их &laquo;как есть&raquo;, можно передать аргумент `ensure_ascii=False`.

In [None]:
with open("example2.json", "w") as f:
    json.dump(data, f, ensure_ascii=False)

### Практические задания

#### Задание 1

Напишите программу, которая принимает на вход текст с клавиатуры и целое число N и выводит на экран N-граммы, входящие в этот текст, в виде кортежей, каждую на отдельной строчке.

Например:

Ввод:
```
был тихий серый вечер дул ветер слабый и тёплый
3
```
Вывод:
```
('был', 'тихий', 'серый')
('тихий', 'серый', 'вечер')
('серый', 'вечер', 'дул')
('вечер', 'дул', 'ветер')
('дул', 'ветер', 'слабый')
('ветер', 'слабый', 'и')
('слабый', 'и', 'тёплый')
```

Прежде чем писать код, напишите на бумажке ответ на вопрос: сколько N-грамм можно выделить из текста длиной L? Используйте полученную формулу.

#### Задание 2

Файл *anscombe.json* содержит точки из четырёх наборов данных, известных как [квартет Энскомба](https://en.wikipedia.org/wiki/Anscombe%27s_quartet). В каждом наборе у точек практически идентичные статистические свойства, однако их графики очень разные. Каждая точка закодирована в виде объекта с тремя полями: `"Series"` &mdash; номер набора данных римскими цифрами, `"X"` &mdash; абсцисса, `"Y"` &mdash; ордината. Убедитесь, что в каждом наборе среднее значение и стаднартное отклонение как у X, так и у Y одинаковы.

#### Задание 3

Файл `result.json` содержит информацию о постах в Telegram-канале [Открытой конференции студентов-филологов](https://t.me/oksfspbu). Откройте его в текстовом редакторе и ознакомьтесь со структурой.

Найдите `id` сообщения, у которого больше всего реакций, и выведите его на экран в составе ссылки (например, t.me/oksfspbu/4).

<details>
<summary>Подсказки:</summary>

1. Все сообщения хранятся в поле `"messages"`

2. Данные о реакциях хранятся в поле `"reactions"`. Обратите внимание, что у некоторых сообщениях (например, служебных уведомлениях о создании канала и т.д.), этого поля нет. Вспомним, что у словарей есть метод `.get()`

3. У каждой реакции есть поле `"count"` с данными о количестве реакций этого типа. Чтобы понять, сколько всего реакций у поста, нужно сложить эти числа для каждого словарика в поле `"reactions"`.

4. Используйте циклы, чтобы перебирать все сообщения, а внутри каждого сообщения &mdash; все реакции.

</details>

#### Задание 4 (*)

Напишите программу, которая строит частотный словарь по постам канала. Используйте данные из поля `"text_entities"`.

### Домашнее задание

Напишите программу, которая читает текст из текстового файла, убирает знаки препинания, приводит его к нижнему регистру и строит частотный словарь биграмм. Запишите результат в текстовый файл в порядке убывания частотности:

```
(слово1, слово2): 15
(слово5, слово8): 12
...
```

Для этого:
1. Постройте список биграмм (см. задание 1 для выполнения в классе)
2. Постройте из него счётчик