# Дополнительные задачи №8

### Задача 8.1. Мегашугнанская сортировка

В этом задании вам предстоит поработать с данными шугнанско-русского словаря Д. Карамшоева. Скачайте на свой компьютер файл `sem8.1-shughni-dict.json` (**[ссылка](https://github.com/maxmerben/hse-python-iran-2024/blob/main/other/sem8.1-shughni-dict.json)**) — в нём хранится небольшой фрагмент этого словаря. Положите этот файл в ту же папку, где хранится эта тетрадка. В задании нам придётся отсортировать этот массив словарных данных по некоторым правилам.

Данные в файле устроены в виде списка списков. Каждым элементом внешнего списка является лексема, представленная в виде вложенного списка из трёх объектов: уникального номера лексемы (ID), формы слова (WORD) и списка значений этого слова. У большинства слов значение одно, но есть и многозначные слова, поэтому значения всегда хранятся в списке. Вот схематичное изображение структуры (ниже вы увидите реальные примеры):

```
[
  [ID_1, WORD_1, [ MEANING_1a, MEANING_1b, ... ]],
  [ID_2, WORD_2, [ MEANING_2a, MEANING_2b, ... ]],
  ...
]
```

#### Загрузка словаря

Запустите код ниже. Для решения возвращаться к этой ячейке не потребуется, так что, успешно запустив её единожды, вы можете скрыть этот подраздел тетрадки («Загрузка словаря») и перейти дальше.

In [1]:
import json
with open("sem8.1-shughni-dict.json", "r", encoding="utf-8-sig") as f:
    vocab = json.load(f)

print(vocab[9])
print(vocab[19])
print(vocab[96])
print(vocab[244])

[10077, 'oǰizi', ['слабость, бессилие', 'неспособность']]
[10687, 'piryůmnik', ['приемник']]
[11898, 'sadāf', ['раковина', 'перламутр', 'имя собств. жен. Садаф, Садафак, Садāф, Садāфак']]
[8546, '-meǰ', ['непродуктивный словообразовательный суффикс в ряде существительных', 'суффикс при краткой форме инфинитива, образующий отглагольные имена со значением "тот, кто намеревается, собирается совершить то или иное действие"']]


#### Задание

Вам нужно совершить со списком `vocab` следующие преобразования:

1. В словаре Карамшоева хранятся не только цельные слова, но и приставки и суффиксы. Вам нужно отсеять все аффиксы — чтобы в данных остались только полноценные слова. Понять, где аффикс, несложно — все приставки в словаре пишутся с дефисом на конце (например, `"na-"`), а все суффиксы — с дефисом в начале (например, `"-meǰ"`).
2. Все шугнанские слова должны быть отсортированы по алфавиту (первыми идут слова на букву «A», и так далее).
3. Значения каждого слова должны быть отсортированы так, чтобы сначала в списке шли наиболее длинные (по количеству символов) значения, а в конце — наиболее короткие (например, сначала «сторона», а потом «вид»).
4. Итоговые данные должны быть представлены в виде словаря (объекта типа `dict`). Ключами этого словаря будут шугнанские слова, а значением для каждого слова будет список его лексических значений. (Номер-ID лексемы никуда сохранять не нужно.) Запишите этот словарь в переменную `vocab_dict`.

Вот игрушечный персидский пример, с которым вы уже знакомы:

```
> vocab = [
    [2, "xat", ["почерк", "шпала"]],
    [3, "dast", ["рука", "сторона", "вид"]],
    [5, "mi-", ["приставка со значением имперфектива"]],
    [8, "havāpeymā", ["самолёт"]]
  ]

# <-- здесь находится ваше решение

> print(vocab_dict)
{
  "dast": ["сторона", "рука", "вид"],
  "havāpeymā": ["самолёт"],
  "xat": ["почерк", "шпала"]
}
```

Он же записан в отдельной ячейке ниже:

In [None]:
vocab_example = [
    [2, "xat", ["почерк", "шпала"]],
    [3, "dast", ["рука", "сторона", "вид"]],
    [5, "mi-", ["приставка со значением имперфектива"]],
    [8, "havāpeymā", ["самолёт"]]
  ]

In [None]:
# ваше решение



Вы можете запустить ячейку ниже, чтобы проверить, как ваша программа сработала на настоящем словаре (`vocab`). Если все три проверки пройдены, вы увидите надпись: «Ура, задача решена!». Если надпись не появилась (или появилась ошибка), значит, что-то не так.

In [None]:
c1 = list(vocab_dict)[0] == "a-rāng-aθ"
c2 = list(vocab_dict.values())[11][1] == "один другого"
c3 = list(vocab_dict.values())[346][2] == "вздутый"
if c1 and c2 and c3:
    print("Ура, задача решена!")

#### Моё решение

In [2]:
unordered_dict = {}

for i in range(len(vocab)):
    if not (vocab[i][1].startswith("-") or vocab[i][1].endswith("-")):
        unordered_dict[vocab[i][1]] = sorted(vocab[i][2], reverse=True, key=len)

vocab_dict = {}

for lexeme in sorted(unordered_dict):
    vocab_dict[lexeme] = unordered_dict[lexeme]

In [3]:
c1 = list(vocab_dict)[0] == "a-rāng-aθ"
c2 = list(vocab_dict.values())[11][1] == "один другого"
c3 = list(vocab_dict.values())[346][2] == "вздутый"
if c1 and c2 and c3:
    print("Ура, задача решена!")

Ура, задача решена!


In [4]:
print(vocab_dict)

{'a-rāng-aθ': ['разный, всякого рода, всевозможный'], 'abīn': ['жена многоженца (по отношению к другим его женам)', 'ненавистница'], 'aformā': ['оформление'], 'afzol': ['возможность, силы', 'способность'], 'alami': ['затаивший обиду, обиженный', 'печальный, удрученный'], 'almos-žīr': ['кварц'], 'alo-awli': ['какой стыд!, как не стыдно!'], 'alpinīsti': ['альпинистский'], 'alumīnin': ['алюминиевый'], 'amali': ['практический, действенный', 'реальный'], 'amdardi': ['соболезнование', 'сочувствие'], 'amdigar': ['взаимно, друг с другом', 'один другого', 'друг друга', 'друг другу'], 'amex̌a-pati': ['игрок в поло (не входит ни в одну из команд, пасует шайбу всегда в одном направлении)'], 'amnum': ['тезка'], 'andalīb': ['имя собств. муж. Андалӣб, Андалеб', 'сокр. Далӣб, Далеб', 'черный дрозд', 'соловей'], 'andozayeǰ': ['материал, кожа для изготовления сапог'], 'anoq': ['ровный, гладкий, без сучков (о стволе дерева, о палке)', 'с пустыми руками, ни с чем', 'стройный (о дереве)'], 'aq': ['в сочет