#### Задача 1 (5 баллов).

Напишите программу, которая будет уметь читать содержимое файла .conllu и выводить по нему статистику. Что должно быть: 

- класс Token для хранения информации по токенам
- класс Sentence, в котором хранится список токенов и исходный текст предложения
- класс Reader, в котором хранится список предложений, а также есть методы "прочитать", "вывести статистику по частям речи" (выводит процентное соотношение частей речи в файле) и "искать вхождения слова по лемме" (выводит отдельные токены, у которых лемма совпала с искомой). 

Бонусы для джедаев (если их выполнить, можно получить доп. балл):

1) если переопределите магический метод \_\_getitem\_\_ у класса Sentence (он принимает self и индекс), то сможете брать срезы по токенам, как у обычного списка. 

        def __getitem__(self, index):
            ...
            return <тут конкретный токен с таким индексом>

2) если переопределите магический метод \_\_eq\_\_ у токена, то можно будет использовать оператор сравнения == с экземплярами класса Token. Причем необязательно сравнивать только токены с токенами: можно сравнивать токен со строкой, если в этом методе где-то использовать функцию isinstance(obj, type), которая проверяет, что объект obj принадлежит к классу type. Тогда можно проверять как 'лемма' == token.

Для тестирования можно взять любой .conllu, они в большом количестве водятся [тут](https://github.com/UniversalDependencies/). Чтобы загрузить файл с гитхаба в колаб, нужно открыть в гитхабе его "сырую" версию по кнопочке raw (вверху справа), скопировать адрес из адресной строки браузера и в колабе вписать:

    !wget <address>

In [None]:
class Token:
    def __init__(self, id, form, lemma, upos, xpos, feats, head, deprel, deps, misc):
        self.id = id
        self.form = form
        self.lemma = lemma
        self.upos = upos
        self.xpos = xpos
        self.feats = feats
        self.head = head
        self.deprel = deprel
        self.deps = deps
        self.misc = misc

    def __repr__(self):
        return f"Token({self.form}, {self.lemma}, {self.upos})"

    def __eq__(self, other):
        if isinstance(other, Token):
            return self.form == other.form
        if isinstance(other, str):
            return self.lemma == other
        

class Sentence:
    def __init__(self, text):
        self.text = text
        self.token_list = []

    def add_token(self, token):
        self.token_list.append(token)    
    
    def __repr__(self):
        return f"Sentence(text={self.text}, tokens={len(self.token_list)})"

    def __getitem__(self, index):
        return self.token_list[index]

class Reader:
    def __init__(self):
        self.sentence_list = []

    def add_sentence(self, sentence):
        self.sentence_list.append(sentence)

    def read(self, path):
        current_sentence = None
        with open(path, encoding='utf-8') as file:
            for line in file:
                if line.startswith('# text = '):
                    text = line[len('# text = '):]
                    current_sentence = Sentence(text.strip())
                    self.add_sentence(current_sentence)
                elif line and not line.startswith("#"):
                    fields = line.split("\t")
                    if len(fields) == 10:
                        current_sentence.add_token(Token(*fields))

    def pos_statistics(self):
        pos_counts = {}
        total_tokens = 0
        for sentence in self.sentence_list:
            for token in sentence:
                pos_counts[token.upos] = pos_counts.get(token.upos, 0) + 1
                total_tokens += 1
        print("Статистика по частям речи:")
        for pos, count in pos_counts.items():
            percentage = (count / total_tokens) * 100
            print(f"{pos}: {percentage:.2f}%")
        

    def find_by_lemma(self, lemma):
        matches = []
        for sentence in self.sentence_list:
            for token in sentence:
                if token == lemma:
                    matches.append(token)
        print(f"Токены с леммой '{lemma}':")
        for match in matches:
            print(match)
    

reader = Reader()
reader.read('ru_poetry-ud-train.conllu.txt')

reader.pos_statistics()

lemma_to_find = "я"
reader.find_by_lemma(lemma_to_find)

s = reader.sentence_list[1]
print(s[1])

Статистика по частям речи:
NOUN: 24.88%
PART: 2.80%
VERB: 13.04%
PRON: 5.09%
ADP: 7.99%
DET: 2.72%
PUNCT: 21.30%
ADJ: 9.58%
CCONJ: 4.64%
ADV: 4.30%
INTJ: 0.26%
SCONJ: 1.53%
NUM: 0.34%
AUX: 0.53%
PROPN: 0.89%
X: 0.08%
SYM: 0.03%
Токены с леммой 'я':
Token(меня, я, PRON)
Token(я, я, PRON)
Token(я, я, PRON)
Token(Я, я, PRON)
Token(мне, я, PRON)
Token(Я, я, PRON)
Token(мне, я, PRON)
Token(я, я, PRON)
Token(я, я, PRON)
Token(мной, я, PRON)
Token(мной, я, PRON)
Token(я, я, PRON)
Token(я, я, PRON)
Token(Я, я, PRON)
Token(мне, я, PRON)
Token(я, я, PRON)
Token(я, я, PRON)
Token(я, я, PRON)
Token(я, я, PRON)
Token(меня, я, PRON)
Token(я, я, PRON)
Token(Я, я, PRON)
Token(я, я, PRON)
Token(мной, я, PRON)
Token(мне, я, PRON)
Token(я, я, PRON)
Token(меня, я, PRON)
Token(Я, я, PRON)
Token(мной, я, PRON)
Token(Я, я, PRON)
Token(я, я, PRON)
Token(меня, я, PRON)
Token(я, я, PRON)
Token(Я, я, PRON)
Token(Я, я, PRON)
Token(мной, я, PRON)
Token(я, я, PRON)
Token(я, я, PRON)
Token(Мне, я, PRON)
Token(меня, 

#### Задача 2 (5 баллов).

Хотим написать программу - базу данных для библиотеки. Нам понадобится класс "книга", который будет содержать автора, название, жанр и количество страниц; а также класс "библиотека", в котором в атрибутах будут сидеть все наши книги. В библиотеку будут поступать запросы: нужно будет выдавать перечень всех книг одного автора, перечень всех книг конкретного жанра, а также проверять, что книга такого автора и с таким названием есть (вам хорошо помогут генераторные выражения для всех этих вещей, а еще можно переопределить магический метод \_\_eq\_\_ у класса "книга" - он должен возвращать bool, а внутри него можно сравнивать атрибуты экземпляров self и other - и проверять наличие объекта класса "книга" в списке). Магический метод \_\_eq\_\_ неявным образом вызывается, когда вы сравниваете два объекта: например, сравниваете две книжки. Он будет неявно вызываться и тогда, когда вы проверяете наличие какого-то объекта в списке таких же объектов с помощью оператора in. 

In [30]:
class Book:
    def __init__(self, author, name, genre, pages):
        self.author = author
        self.name = name
        self.genre = genre
        self.pages = int(pages)
    def __eq__(self, other):
        return self.author.lower() == other.author.lower() and self.name.lower() == other.name.lower()
    def __repr__(self):
        return f'<{self.author} "{self.name}", {self.genre}, {self.pages} pages>\n'

class Library:
    def __init__(self):
        self.books = []
    def add_book(self, book: Book):
        self.books.append(book)
    def remove_book(self, book: Book):
        self.books.remove(book)
    def get_books(self):
        return self.books
    def get_by_author(self, author: str):
        return [i for i in self.books if i.author == author]
    def get_by_genre(self, genre: str):
        return [i for i in self.books if i.genre == genre]
    def is_there_book(self, book):
        return book in self.books


lib = Library()
lib.add_book(Book("Джонс", "Пираты", "приключения", 357))
lib.add_book(Book("Гоголь", "Мертвые души", "проза", 666))
lib.add_book(Book("Пушкин", "Евгений Онегин", "поэзия", 412))
lib.add_book(Book("Пушкин", "Повести Белкина", "проза", 101))
print('Список всех книг в библиотеке:\n', *lib.get_books())
print('Список всех книг по автору Пушкин:\n', *lib.get_by_author("Пушкин"))
print('Список всех книг по жанру Проза:\n', *lib.get_by_genre("проза"))
print('Is there a book?', lib.is_there_book(Book("Джонс", "Пираты", "приключения", 357)))
print('Is there a book?', lib.is_there_book(Book("Джонс", "Пираты", "приключения", 111)))
print('Is there a book?', lib.is_there_book(Book("Джонс", "Пираты", "проза", 357)))
print('Is there a book?', lib.is_there_book(Book("Мартинс", "Пираты", "приключения", 357)))
print('Is there a book?', lib.is_there_book(Book("Джонс", "пираты", "приключения", 357)))

Список всех книг в библиотеке:
 <Джонс "Пираты", приключения, 357 pages>
 <Гоголь "Мертвые души", проза, 666 pages>
 <Пушкин "Евгений Онегин", поэзия, 412 pages>
 <Пушкин "Повести Белкина", проза, 101 pages>

Список всех книг по автору Пушкин:
 <Пушкин "Евгений Онегин", поэзия, 412 pages>
 <Пушкин "Повести Белкина", проза, 101 pages>

Список всех книг по жанру Проза:
 <Гоголь "Мертвые души", проза, 666 pages>
 <Пушкин "Повести Белкина", проза, 101 pages>

Is there a book? True
Is there a book? True
Is there a book? True
Is there a book? False
Is there a book? True
