# Дополнительные задачи №9

В этих задачах вам придётся поработать с реальным корпусом клинописных текстов — и написать функции, которые будут помогать вам исследовать этот корпус!

### Задача 9.1. Фильтруем

#### Загрузка корпуса

Скачайте на свой компьютер файл `sem9-corpus.json` (**[ссылка](https://github.com/maxmerben/hse-python-assyr-uva-2025/blob/main/other/sem9-corpus.json)**) и положите его в ту же папку, где вы сохранили эту тетрадку. В этом файле хранятся разные данные о некоторых клинописных табличках из корпуса *Cuneiform Digital Library Initiative* — жанр текста, язык, материал (глина, камень…), период датировки и многое другое (оригинальный датасет [здесь](https://github.com/cdli-gh/data)).

В ячейке ниже для вас уже написан код, который загрузит данные из файла в питон. Запустите эту ячейку один раз, и весь корпус появится в переменной `data`. (Разбирать и понимать этот код не нужно.) Корпус представляет из себя список, элементами которого являются словари. В каждом словаре — один и тот же набор ключей, которые представляют собой разную информацию о текстах: `"collection"` (место хранения текста), `"genre"` (жанр текста), `"width"` (ширина таблички) и так далее. Для решения возвращаться к этой ячейке не потребуется, так что, успешно запустив её единожды, вы можете скрыть этот подраздел тетрадки («Загрузка корпуса») и перейти дальше.

In [None]:
import json
with open("sem9-corpus.json", "r", encoding="utf-8-sig") as f:
    data = json.load(f)

print(data[2])
print(data[4])

print(data[4].keys())

#### Задание

Вам нужно написать функцию **`filter_corpus()`**. Эта функция должна фильтровать корпус и возвращать выборку текстов, в которой остались только определённые значения (определённых жанров, определённых периодов и так далее). Она будет:
- принимать на вход три аргумента:
  - `corpus` — корпус (список текстов, каждый из которых представлен словарём), который нужно отфильтровать
  - `category` — ключ словаря — это категория, по которой будет идти фильтрация (например, `"genre"` или `"object_type"`)
  - `values_list` — список значений этого ключа, которые должны остаться в корпусе (например, `["Adminstrative", "School"]`)
- возвращать обновлённый корпус-список текстов (исходный корпус измениться не должен)
- если категории `category` нет в корпусе, то функция будет возвращать не словарь, а предупреждение: `"Категории <…> нет в корпусе!"`

**Важно!** Все переменные, используемые внутри функции, должны быть либо аргументами функции (и подаваться в неё при вызове), либо определяться изнутри функции.

Вот примеры того, как эта функция должна реагировать на некоторые запросы:

```
> filter_corpus(corpus=data, category="material", values_list=["stone"])
[{'collection': 'Metropolitan Museum of Art, New York, New York, USA ?',
  'genre': 'Legal',
  'id': 5649,
  'language': 'Sumerian ?',
  'material': 'stone',
...
  'museum_no': '',
  'object_type': 'brick',
  'period': 'Achaemenid (547-331 BC)',
  'thickness': '100',
  'width': '500'}]

> filter_corpus(corpus=data, category="genre", values_list=["Legal", "Lexical"])
[{'collection': 'Royal Ontario Museum of Archaeology, Toronto, Ontario, Canada',
  'genre': 'Lexical',
  'id': 62616,
  'language': 'Sumerian',
  'material': 'clay',
...
  'museum_no': 'BM 104414',
  'object_type': 'tablet',
  'period': 'Neo-Assyrian (ca. 911-612 BC)',
  'thickness': '50',
  'width': '145'}]

> filter_corpus(corpus=data, category="genre", values_list=["Comic book"])
[]

> filter_corpus(corpus=data, category="author", values_list=["Vladimir Nabokov", "Nebuchadnezzar II"])
'Категории author нет в корпусе!'
```

In [None]:
# ваше решение



### Задача 9.2. Фильтруем-считаем

Напишем ещё одну функцию для работы с корпусом — **`count_corpus()`**. Эта функция будет считать в корпусе вхождения определённых значений (сколько раз в корпусе встречаются определённые жанры, определённые периоды и так далее). Она должна:
- принимать на вход три аргумента:
  - `corpus` — корпус (список текстов, каждый из которых представлен словарём)
  - `category` — ключ словаря — это категория, по которой считаются значения (например, `"genre"` или `"object_type"`)
  - `value` — значение ключа, вхождения которого нужно посчитать (например, `"School"`)
    - обратите внимание, что в отличие от задачи 9.1, здесь функция должна требовать не список значений, а только одно значение!
- возвращать число — количество текстов, для которых заданная категория имеет заданное значение
- если категории `category` нет в корпусе, то функция будет возвращать не число, а предупреждение: `"Категории <…> нет в корпусе!"`

**Подсказка**. Две задачи, которые выполняют функции `filter_corpus()` и `count_corpus()`, очевидным образом связаны. Одну из них может быть полезно вызвать изнутри другой!

Вот примеры того, как эта функция должна реагировать на некоторые запросы:

```
> count_corpus(corpus=data, category="material", value="clay")
1954

> count_corpus(corpus=data, category="language", value="Eblaite")
94

> count_corpus(corpus=data, category="material", value="plastic")
0

> count_corpus(corpus=data, category="publisher", value="Oxford")
'Категории publisher нет в корпусе!'
```

In [None]:
# ваше решение



___

Используя написанные вами функции:
- создайте выборку текстов, которые написаны на кирпичах (`category="object_type", values_list=["brick"]`) и при этом написаны на шумерском или аккадском языках (`category="language", values_list=["Sumerian", "Akkadian"]`)
- выведите количество текстов в получившейся выборке
- на примере этой выборки попробуйте ответить на вопрос, для текстов какого жанра (`category="genre"`) использовались кирпичи у шумеров и аккадцев

In [None]:
# ваше решение

