Skip to content

DarKsp123/DocsParser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

Название Проекта

Docs Parser for ElasticSearch

Описание Проекта

Парсинг документов формата .doc и .docx для дальнейшей загрузки и ндексации их в ElasticSearch

Требования

  • Python 3.x
  • Библиотека Spire.Doc (или любая другая необходимая библиотека)

Инструкции по установке

pip install Spire.Doc

Пример Кода Python

from spire.doc import Document
from spire.doc.common import FileFormat

# Загрузка документа
document = Document()
document.LoadFromFile("path/to/your/document.doc", FileFormat.DOC)

# Вывод текста документа
for section in document.Sections:
    for paragraph in section.Paragraphs:
        print(paragraph.Text)

# Закрытие документа
document.Close()

Функционал

Основные Функции

Загрузка и чтение документов: Поддержка форматов .doc и .docx.
Вывод текста: Вывод текста из документов.
Обработка таблиц: Обработка таблиц внутри документов.
Сохранение документов: Сохранение документов в различных форматах.

Примеры

Работа с Таблицами Python

for section in document.Sections:
    for table in section.Tables:
        for row in table.Rows:
            for cell in row.Cells:
                print(cell.Text)

Таблицы

| Заголовок 1 | Заголовок 2 | Заголовок 3 |
|-------------|-------------|-------------|
| Ячейка 1   | Ячейка 2   | Ячейка 3   |
| Ячейка 4   | Ячейка 5   | Ячейка 6   |

About

Config files for my GitHub profile.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages