#### Задача 1 (10 баллов).

Попробуем себя в решении задачи определения темы текста. Будем считать, что два текста похожи по теме, если у них больше общих слов (только не предлогов с союзами), чем у других текстов. У нашей программы для определения темы будет несколько готовых текстов (достаточно больших!) с уже известной темой в базе: выберите тексты (и темы) самостоятельно, 5-6 будет достаточно.

Что должна делать программа? При запуске вы ей сообщаете название нового файла с текстом, который нужно классифицировать, она его открывает, обрабатывает и сравнивает с текстами в своей базе. С которым из текстов оказалось больше всего общих слов, того и тема! Очевидно, вам понадобится какие-то слова из текстов отбрасывать (подумайте, каким образом это сделать - здесь на самом деле несколько вариантов концепций), а еще лемматизировать или хотя бы использовать стемминг.

Когда будете сдавать это задание, пожалуйста, пришлите и файлы с текстами. И имейте в виду, если тексты будут вставлены прямо в код и слишком короткие, я задачу засчитаю только вполовину.

Напоминаю, как открываются файлы:

```
with open('путь к файлу - пишите прямые слеши', 'r', encoding='utf-8') as f:
    text = f.read() # все содержимое вашего файла считается в одну длинную строку
```

Настоятельно советую оформить код хотя бы в функции.

In [None]:
!python -m spacy download ru_core_news_sm

In [3]:
import spacy
nlp = spacy.load("ru_core_news_sm")

In [29]:
from collections import Counter

def get_common_lemmas(txt_path, count_lemmas=30):
  with open(txt_path, 'r', encoding='utf-8') as f:
    text = f.read()
  doc = nlp(text)
  filtered_tokens = [token.lemma_ for token in doc if not token.is_stop and not token.is_punct]
  return Counter(filtered_tokens).most_common(count_lemmas)

def define_topic(path, themes_dict):
  explore_set = set(i[0] for i in get_common_lemmas(path))
  text_themes = dict()
  for key in themes_dict.keys():
    text_themes[key] = len(set(i[0] for i in themes_dict[key]) & explore_set)
  return text_themes, max(text_themes.items(), key = lambda x: x[1])

In [25]:
themes_data = {'Шведская литература': '/content/Selma_Lagerlof.txt',
               'Химия': '/content/Liquid_crystals.txt',
               'Кавказ': '/content/South_Ossetia.txt',
               'История Руси': '/content/Batyi.txt',
               'Сказки': '/content/Fairy_tales.txt'
               }

In [27]:
from pprint import pprint

themes_dict = dict()
for theme, path in themes_data.items():
  themes_dict[theme] = get_common_lemmas(path)
pprint(themes_dict)

{'История Руси': [('\xa0', 217),
                  ('\n', 24),
                  ('батый', 11),
                  ('князь', 9),
                  ('год', 8),
                  ('хан', 8),
                  ('город', 8),
                  ('юрий', 7),
                  ('русь', 6),
                  ('монгол', 6),
                  ('сын', 5),
                  ('кампания', 5),
                  ('часть', 5),
                  ('разорить', 5),
                  ('ордынец', 4),
                  ('удар', 4),
                  ('принять', 4),
                  ('осень', 4),
                  ('княжество', 4),
                  ('взять', 4),
                  ('всеволодович', 4),
                  ('киев', 4),
                  ('битва', 3),
                  ('дружина', 3),
                  ('поход', 3),
                  ('первый', 3),
                  ('полный', 3),
                  ('путь', 3),
                  ('монгольский', 3),
                  ('решение', 3)],
 'Кавказ': [('\n

In [31]:
r = define_topic('/content/August_Strindberg.txt',themes_dict)
pprint(r[0])
f'Тема текста: {r[1][0]}, совпадений по частотным словам - {r[1][1]}'

{'История Руси': 1,
 'Кавказ': 6,
 'Сказки': 3,
 'Химия': 2,
 'Шведская литература': 7}


'Тема текста: Шведская литература, совпадений по частотным словам - 7'

#### Задача 2 (10 баллов).

Некоторые предлоги в русском языке могут управлять разными падежами (например, "я еду в Лондон" vs "я живу в Лондоне"). Давайте проанализируем эти предлоги и их падежи. Необходимо:

- составить список таких предлогов (РГ-80 вам в помощь)
- взять достаточно большой текст (можно большое художественное произведение)
- сделать морфоразбор этого текста
- Посчитать, как часто и какие падежи встречаются у слова, идущего после предлога.

Примечания: во-первых, имейте в виду, что иногда после предлога могут идти самые неожиданные вещи: "я что, должен ехать на, черт побери, северный полюс?". Во-вторых, неплохо бы учитывать отсутствие пунктуации (конечно, в норме, как нам кажется, предлог обязательно требует зависимое, но! "да иди ты на!") Эти штуки можно отсеять, если просто учитывать только заранее определенные падежи, а не считать все, какие встретились (так и None можно огрести).

Если будете использовать RNNMorph, возможно, понадобится регулярное выражение и немного терпения.

In [None]:
# your code here

#### Задача 3 (5 баллов).

Представим, что у вас есть файл с разборами conllu (можете взять любой, например, [тут](https://github.com/dialogue-evaluation/GramEval2020)). Нужно просмотреть все примеры предложений с тегом dislocated и тегом discourse: напишите скрипт, который будет читать файл, находить все такие предложения и печатать: 1) сам текст предложения 2) слово, имеющее искомый тег. Если тег не был найден в файле, нужно об этом сообщить. Постарайтесь оформить вывод таким образом, чтобы это было удобно читать.

In [None]:
# your code here

#### Задача 4 (5 баллов).

Возьмите любой достаточно длинный (лучше новостной) текст. Любым известным инструментом извлеките именованные сущности из этого текста и выведите их списком по категориям (т.е. персоны вместе, локации вместе, организации вместе).

In [None]:
# your code here

#### Задача на бонусные 5 баллов:

Сравните качество несколькиз разных морфопарсеров для любого языка, где их больше одного. Разберите этими морфопарсерами один и тот же текст, если они все разбирают в UD, можете вывести автоматически расхождения, в противном случае просмотрите глазами на наличие ошибок (текст, конечно, слишком большой лучше не брать).

Без письменных выводов-комментариев не засчитывается.

In [None]:
# your code here