In [1]:
import re
import pandas as pd

In [2]:
data_raw = pd.read_csv('raw_labels_50.csv')
data_target = pd.read_csv('true_labels_50.csv')

In [3]:
data_raw.head()

Unnamed: 0,Неправильный вариант
0,Этапы отбора:1. Подача заявок (до 19 июня);2. ...
1,По всем вопросам вы можете обращаться по эл. п...
2,Некоторые из волонтерских задач:Привлечение за...
3,возраст кандидата не менее 18 лет (на момент п...
4,Сроки привлечения волонтеров: с 29 августа по ...


In [4]:
class HTMLAnnotator:

  def _base_formatting(self, text):
    text = re.sub(r'(?<=\n)"|(?<=\n)\n*|&nbsp', r'', text)
    text = re.sub(r':((?=(\d\.))|(?!(\n| |\d)))', r':\n', text)
    text = re.sub(r';(?!\n)', r';\n', text)
    text = re.sub(r'(\d|[а-я]|[^\w\s"«])([А-Я])', r'\1 \2', text)
    return text

  def _make_list_titles(self, text):
    text = re.sub(r'(.*?:(?=\n))', r'<p><b>\1</b></p>', text)
    return text

  def _make_lists(self, text):
    text = re.sub(r'(.*?;)', r'  <li>\1</li>', text)
    text = re.sub(r'(?<=(</p>\n))([\s\S]*)(?=(<p>)*)', r'<ul>\n\2\n</ul>', text)
    text = re.sub(r'(?<=(</li>\n))(.*)(?=(\n</ul>))', r'  <li>\2</li>', text)
    return text

  def _make_paragraphs(self, text):
    text = re.sub(r'(?<=\n)([^<]*)(?=\n)', r'<p>\1</p>', text)
    return text

  def _post_processing(self, text):
    text = re.sub(r'<p></p>', r'', text)
    return text

  def __call__(self, text):
    text = self._base_formatting(text)
    text = self._make_list_titles(text)
    text = self._make_lists(text)
    text = self._make_paragraphs(text)
    text = self._post_processing(text)
    return text

In [5]:
annotator = HTMLAnnotator()

In [6]:
data_annotated = data_raw['Неправильный вариант'].apply(annotator)

In [7]:
data_target['Размеченный вариант'] = data_annotated

In [8]:
data_target

Unnamed: 0,Правильный вариант,Размеченный вариант
0,<ul>\n <li><b>Этапы отбора:</b></li>\n <li>1...,<p><b>Этапы отбора:</b></p>\n<ul>\n <li>1. По...
1,<p>По всем вопросам вы можете обращаться по эл...,По всем вопросам вы можете обращаться по эл. п...
2,<p>Некоторые из волонтерских задач:</p>\n<ol>\...,<p><b>Некоторые из волонтерских задач:</b></p>...
3,<p><b>Обязательными требованиями к волонтерам ...,<li>возраст кандидата не менее 18 лет (на мо...
4,<p><b>Сроки привлечения волонтеров:</b> с 29 а...,<p><b>Сроки привлечения волонтеров: с 29 авгус...
5,<ul>\n <li></li>\n</ul>\n<p>По всем вопросам ...,По всем вопросам вы можете обращаться по эл. п...
6,<p><b>Регистрируйся на портале DOBRO.ru!</b></...,Регистрируйся на портале DOBRO.ru!\n<p>До встр...
7,<p>Климатический урок разработан в двух вариан...,<p><b>Климатический урок разработан в двух вар...
8,<p>\n<br>\n<b>Приглашаем волонтеров:</b>\n</p>...,<p><b>Приглашаем волонтеров:</b></p>\n<ul>\n<p...
9,<ul>\n <li>опыт в бумажную личную книжку воло...,<li>опыт в бумажную личную книжку волонтера ...
