Skip to content

AnastasiyaKudin/ChekhovDigital_html_tei

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Chekhov Digital. HTML - TEI

В данном репозитории расположен код, который частично реализует автоматическую разметку метаинформации, текстовой части и некоторых именованных сущностей текстов Фундаментальной электронной библиотеки, ЭНИ "Чехов" из формата HTML в TEI. Преобразование текстов в формат TEI проводилось в рамках создания проекта Chekhov Digital - семантического издания текстов А. П. Чехова.

Для запуска необходимо:

  • поместить в папку data/notes_html файлы с содержимым html-страницы примечаний, соответсвующие томам (каждый файл должен быть назван <номер тома>.html).
  • поместить в папку data/texts_html папки с содержимым каждого тома (внутри которых находятся файлы с содержимым html-страниц текстов). Пример: data/texts_html/1/<название файла>.

Команда для запуска: python main.py

Автоматическая разметка

Метаинформация:

  • Имя заполняющего
  • Название произведения
  • Информация об издании
  • Объем произведения
  • Номер тома
  • Дата публикации
  • Полное библиографическое описание
  • Дата создания произведения

Текстовая часть:

  • Нумерация страниц
  • Заголовки и подзаголовки
  • Изображения
  • Подписи к изображениям
  • Эпиграфы
  • Обращения и подписи в письмах
  • Примечания

Именованные сущности:

  • Имена
  • Даты

Для разметки именованных сущностей использована библиотека natasha.

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published