### imports

In [1]:
from tqdm import tqdm_notebook
from collections import Counter, defaultdict
from pprint import pprint

### data exploration

In [2]:
with open('data/odict.csv', encoding='cp1251') as f:
    data = f.readlines()

In [3]:
data = [d.strip() for d in data]

In [4]:
data[10:12]

['абажур,м,абажура,абажуру,абажур,абажуром,абажуре,абажуре,абажуры,абажуров,абажурам,абажуры,абажурами,абажурах,абажурах',
 'абажурный,п,абажурного,абажурному,абажурный,абажурным,абажурном,абажурном,абажурен,абажурная,абажурной,абажурной,абажурную,абажурной,абажурной,абажурной,абажурна,абажурное,абажурного,абажурному,абажурное,абажурным,абажурном,абажурном,абажурно,абажурные,абажурных,абажурным,абажурные,абажурными,абажурных,абажурных,абажурны,абажурнее,абажурней,поабажурнее,поабажурней,абажурною']

In [5]:
c = Counter([d.split(',')[1] for d in data])
c

Counter({'межд.': 185,
         'с': 6475,
         'союз': 87,
         'част.': 110,
         'ж': 15243,
         'м': 14377,
         'п': 21375,
         'мо': 9393,
         'жо': 3769,
         'св-нсв': 906,
         'н': 1435,
         'вводн.': 65,
         'нсв': 12554,
         'мн.': 1021,
         'св': 14364,
         'предл.': 127,
         'предик.': 281,
         'мо-жо': 419,
         'со': 42,
         'сравн.': 37,
         'мс-п': 51,
         'числ.-п': 39,
         'числ.': 63})

In [6]:
stats = defaultdict(lambda: [])

for line in data:
    lemma, value, *other_words = line.split(',')
    if len(stats[value]) < 5:
        stats[value].append(lemma)
    

In [7]:
pprint(stats)

defaultdict(<function <lambda> at 0x10c019290>,
            {'вводн.': ['авось',
                        'безусловно',
                        'бесспорно',
                        'бывало',
                        'в-восьмых'],
             'ж': ['Ааре', 'аароновщина', 'аба', 'Аба', 'Абаза'],
             'жо': ['абазинка',
                    'аббатиса',
                    'абитуриентка',
                    'абонентка',
                    'абхазка'],
             'м': ['Аахен', 'Абадан', 'абажур', 'абажуродержатель', 'абаз'],
             'межд.': ['а', 'ага', 'агу', 'ай', 'ай-ай-ай'],
             'мн.': ['автовесы',
                     'автогонки',
                     'автозапчасти',
                     'авторские',
                     'автосани'],
             'мо': ['абазин', 'абазинец', 'Абай', 'абаканец', 'Абакум'],
             'мо-жо': ['балаболка', 'балабошка', 'балда', 'бариста', 'бариста'],
             'мс-п': ['ваш', 'весь', 'всякий', 'данный', 'другой'],
         

### Task

**Задача**: Лемматизировать текст (привести к словарной форме) и приписать леммам частеречные теги.  
Для решения задачи вы можете использовать данные, которые упоминались в лекциях: например, словарь oDict, разметку OpenCorpora и др. Для решения задачи нельзя использовать существующие морфологические анализаторы (mystem, pymorphy и т.п.).

**Ввод**: предложения вида "токен1 токен2 ... токенN" с расставленными знаками препинания, разделенные переносом строки. Из знаков препинания в предложениях могут содержаться только запятая, точка, вопросительный и восклицательный знаки.

**Вывод**: для каждого предложения из входных данных вывод в виде "токен1{лемма1=тег1} токен2{лемма2= тег2} ... токенN{леммаN=тегN}" без исходных знаков препинания. Разделитель между токенами -- пробельный символ.

При лемматизации буквы е и ё, а также написание с прописной/строчной буквы признаются равноправными. Частеречные теги должны быть приведены к следующему инвентарю: 
1. существительные (S),
2. прилагательные (A), 
3. глаголы, в том числе причастия и деепричастия (V), 
4. предлоги (PR), 
5. союзы (CONJ), 
6. сборная категория (ADV), включающая наречия, вводные слова, частицы, междометия. 
В оценке не участвуют и могут быть размечены любым образом (в приведенном примере -- тег NI) местоимения (включая наречные и предикативные), числительные, а также составные предлоги и союзы (потому что, в течение  и т.п.).

Результат оценки -- доля правильно определенных пар {лемма=тег}. Иногда для получения более детальной информации об ошибке требуется обновить страницу.


**Sample Input:**
Стала стабильнее экономическая и политическая обстановка, предприятия вывели из тени зарплаты сотрудников.
Все Гришины одноклассники уже побывали за границей, он был чуть ли не единственным, кого не вывозили никуда дальше Красной Пахры.

**Sample Output:**
Стала{стать=V} стабильнее{стабильный=A} экономическая{экономический=A} и{и=CONJ} политическая{политический=A} обстановка{обстановка=S} предприятия{предприятие=S} вывели{вывести=V} из{из=PR} тени{тень=S} зарплаты{зарплата=S} сотрудников{сотрудник=S}
Все{весь=NI} Гришины{гришин=A} одноклассники{одноклассник=S} уже{уже=ADV} побывали{побывать=V} за{за=PR} границей{граница=S} он{он=NI} был{быть=V} чуть{чуть=ADV} ли{ли=ADV} не{не=ADV} единственным{единственный=A} кого{кто=NI} не{не=ADV} вывозили{вывозить=V} никуда{никуда=NI} дальше{далеко=ADV} Красной{красный=A} Пахры{Пахра=S}

In [8]:
class Corpus:
    
    mapper = {
    'межд.': 'ADV',
    'с': 'S',
    'союз': 'CONJ',
    'част.': 'ADV',
    'ж': 'S',
    'м': 'S',
    'п': 'A',
    'мо': 'S',
    'жо': 'S',
    'св-нсв': 'V',
    'н': 'ADV',
    'вводн.': 'ADV',
    'нсв': 'V',
    'мн.': 'S',
    'св': 'V',
    'предл.': 'PR',
    'предик.': 'ADV',
    'мо-жо': 'S',
    'со': 'S',
    'сравн.': 'ADV',
    'мс-п': 'ADV',
    'числ.-п': 'ADV',
    'числ.': 'ADV'
    }
    
    def __init__(self, corpus_path='data/odict.csv'):
        """
        Reading and processing oDict corpus
        """
        
        self.corpus = {}
        
        with open(corpus_path, encoding='cp1251') as f:
            raw_corpus = f.readlines()
            
        for line in tqdm_notebook(raw_corpus):
            lemma, value, *other_words = line.split(',')
        
            for word in other_words:
                self.corpus[word] = {'lemma': lemma, 'value': self.mapper[value]}
            self.corpus[lemma] = {'lemma': lemma, 'value': self.mapper[value]}
                
        print('Read complited')
        
    def get(self, word):
        """
        Get lemma from corpus
        """
        return self.corpus.get(word.lower(), {'lemma': word.lower(), 'value': 'S'})
    
    def get_str(self, word):
        """
        Get string like Word{word=S}. For example, get_str(Рука) -> Рука{рука=S}
        """
        word_meaning = self.get(word)
        lemma, value = word_meaning.get('lemma'), word_meaning.get('value')
        return word + '{' + f'{lemma}={value}' + '}'

### answer

In [9]:
corpus = Corpus()

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`


HBox(children=(FloatProgress(value=0.0, max=102418.0), HTML(value='')))


Read complited


In [10]:
with open('data/dataset_37845_1.txt') as f:
    text = f.readlines()

In [11]:
result = []

for line in text:
    result.append(' '.join([corpus.get_str(word.strip(',').strip('!').strip('?').strip('.')) 
                            for word in line.split()]))
    
with open('answer.txt', mode='w') as f:
    f.write('\n'.join(result))
    