**Задание #2** Разработка поисковика для данных, представленных в различных документах.

In [89]:
import io
import csv
import zipfile
import hashlib
import datetime
from pathlib import Path

from docx import Document
from openpyxl import Workbook, load_workbook
from fpdf import FPDF

print('Библиотеки загружены')

Библиотеки загружены


#### Creating test storage (file_storage)

In [90]:
# Корневая папка хранилища
STORAGE = Path('./file_storage')
STORAGE.mkdir(exist_ok=True)
(STORAGE / 'archive').mkdir(exist_ok=True)
(STORAGE / 'nested').mkdir(exist_ok=True)

print('Структура папок создана: Done')

Структура папок создана: Done


#### Добавить мок данные для файлов типа doc, docx, xls, xlsx, pdf

In [91]:
# .docx
def make_docx(path, title, paragraphs):
    doc = Document()
    doc.add_heading(title, level=1)
    for p in paragraphs:
        doc.add_paragraph(p)
    doc.save(path)

# dummy data for docs :)

make_docx(STORAGE / 'report_q1.docx',
    'Квартальный отчёт Q1 2025',
    [
        'Выручка за первый квартал составила 42,42 млн евро.',
        'Основной доход получен от цифровых продуктов и онлайн-консалтинга.',
        'Количество клиентов выросло на 13,37% по сравнению с прошлым кварталом.',
        'Средний чек увеличился до 9 001 евро.',
        'Во втором квартале планируется усилить IT-инфраструктуру и автоматизацию процессов.',
    ])

make_docx(STORAGE / 'contract_template.docx',
    'Шаблон договора на оказание цифровых услуг',
    [
        'Настоящий договор заключается между Компанией (Исполнитель) и Клиентом.',
        'Исполнитель оказывает услуги по аналитике данных, автоматизации и техническому консультированию.',
        'Работы выполняются по этапам: Анализ > Разработка > Тестирование > Запуск (v1.0).',
        'Все данные Клиента хранятся в защищённой инфраструктуре с резервным копированием.',
        'Договор вступает в силу с момента подписания сторонами.',
    ])

make_docx(STORAGE / 'nested' / 'meeting_notes.docx',
    'Протокол встречи 15.03.2025',
    [
        'Обсудили результаты Q1 и планы на Q2.',
        'Решили запустить новый внутренний проект с кодовым названием "De(ad) Space".',
        'Запланирована оптимизация серверной нагрузки (проект 0xDEADBEEF).',
        'Следующая версия продукта — релиз 2.1.8.',
        'Контрольная дата: 01.04.2025.',
    ])

print('DOCX-файлы созданы: Done')

DOCX-файлы созданы: Done


In [92]:
# .xlsx
def make_xlsx(path, sheet_data: dict):
    wb = Workbook()
    first = True
    for sheet_name, (headers, rows) in sheet_data.items():
        ws = wb.active if first else wb.create_sheet()
        ws.title = sheet_name
        ws.append(headers)
        for row in rows:
            ws.append(row)
        first = False
    wb.save(path)

# dummy data for excel :P

make_xlsx(STORAGE / 'clients_summary.xlsx', {
    'Клиенты': (
        ['ID', 'Имя', 'Возраст', 'Город', 'Капитал'],
        [
            ['C001', 'Нео', 29, 'Зион', 1000000],
            ['C002', 'Люк Скайуокер', 23, 'Татуин', 5000],
            ['C003', 'Эллиот Алдерсон', 28, 'Нью-Йорк', 404],
            ['C004', 'Гордон Фримен', 27, 'Сити 17', 50000],
            ['C005', 'Питер Паркер', 18, 'Нью-Йорк', 10],
        ]
    ),
    'Услуги': (
        ['Код', 'Название', 'Базовая стоимость'],
        [
            ['S01', 'Оптимизация ядра (Kernel Tuning)', 64000],
            ['S02', 'Кибербезопасность уровня корпорации', 120000],
            ['S03', 'Межгалактические инвестиции', 420000],
            ['S04', 'AI-консалтинг и автоматизация', 150000],
            ['S05', 'Web3 / Blockchain-архитектура', 88000],
        ]
    )
})

make_xlsx(STORAGE / 'nested' / 'budget_2025.xlsx', {
    'Бюджет': (
        ['Статья', 'Q1', 'Q2', 'Q3', 'Q4'],
        [
            ['R&D (AI и ML)', 5000000, 6000000, 7500000, 9000000],
            ['Cloud (AWS/GCP)', 2500000, 2700000, 3000000, 3500000],
            ['Кибербезопасность', 1200000, 1500000, 1800000, 2200000],
            ['DevOps и инфраструктура', 900000, 1100000, 1300000, 1600000],
            ['Прочее', 300000, 350000, 350000, 400000],
        ]
    )
})

print('XLSX-файлы созданы: Done')

XLSX-файлы созданы: Done


In [93]:
#.pdf

def make_pdf(path, title, lines):
    pdf = FPDF()
    pdf.add_page()
    pdf.set_font('Helvetica', 'B', 16)
    pdf.cell(0, 10, title, ln=True, align='C')
    pdf.ln(5)
    pdf.set_font('Helvetica', '', 12)
    for line in lines:
        pdf.multi_cell(0, 8, line)
        pdf.ln(2)
    pdf.output(str(path))

# dummy data for pdf files 

make_pdf(STORAGE / 'annual_report_2024.pdf',
    'Annual Report 2024',
    [
        'Total revenue for 2024: 404,000,000 RUB',
        'Net profit margin: 13.37%',
        'Number of active clients: 42,000',
        'Top performing service: Deep Analytics (9001 contracts signed)',
        'Server uptime: 99.999% (no critical incidents detected).',
        'Outlook 2025: target growth x2.0 version 2.0 release planned.',
    ])

make_pdf(STORAGE / 'nested' / 'compliance_policy.pdf',
    'Compliance & Risk Policy 2025',
    [
        'Section 1: KYC Requirements (Level 1 to Level 9000)',
        'All clients must pass identity verification before onboarding. No exceptions (even for admin).',
        'Section 2: AML Controls',
        'Transactions above 1,337,000 RUB require enhanced monitoring and manual review.',
        'Section 3: Data Retention',
        'Client records must be retained for a minimum of 42 months after contract termination.',
        'Internal security protocol reference: 0xDEADBEEF.',
    ])

print('PDF-файлы созданы успешно. Статус: OK')

PDF-файлы созданы успешно. Статус: OK


  pdf.cell(0, 10, title, ln=True, align='C')


In [94]:
# .zip
with zipfile.ZipFile(STORAGE / 'archive' / 'docs_bundle.zip', 'w', zipfile.ZIP_DEFLATED) as zf:
    zf.write(STORAGE / 'report_q1.docx', 'report_q1.docx')
    zf.write(STORAGE / 'clients_summary.xlsx', 'clients_summary.xlsx')
    zf.write(STORAGE / 'annual_report_2024.pdf','annual_report_2024.pdf')

# zip внутри zip (вложенность)
inner_zip_path = STORAGE / 'archive' / '_inner.zip'
with zipfile.ZipFile(inner_zip_path, 'w') as zf_inner:
    zf_inner.write(STORAGE / 'nested' / 'meeting_notes.docx', 'meeting_notes.docx')
    zf_inner.write(STORAGE / 'nested' / 'budget_2025.xlsx', 'budget_2025.xlsx')

with zipfile.ZipFile(STORAGE / 'archive' / 'nested_archive.zip', 'w') as zf_outer:
    zf_outer.write(inner_zip_path, '_inner.zip')
    zf_outer.write(STORAGE / 'nested' / 'compliance_policy.pdf', 'compliance_policy.pdf')

inner_zip_path.unlink()  # убираем временный файл

print('ZIP-архивы созданы: Done')
print('\nСтруктура хранилища:')
for p in sorted(STORAGE.rglob('*')):
    indent = '  ' * (len(p.parts) - len(STORAGE.parts) - 1)
    print(f'{indent}{"(dir)" if p.is_dir() else "(file)"} {p.name}')

ZIP-архивы созданы: Done

Структура хранилища:
(file) annual_report_2024.pdf
(dir) archive
  (file) docs_bundle.zip
  (file) nested_archive.zip
(file) clients_summary.xlsx
(file) contract_template.docx
(dir) nested
  (file) budget_2025.xlsx
  (file) compliance_policy.pdf
  (file) meeting_notes.docx
(file) report_q1.docx


#### Crawler 

In [95]:
STORAGE = Path('./file_storage')
OUTPUT_CSV = Path('./crawled_documents.csv')

SUPPORTED = {'.docx', '.xlsx', '.pdf', '.zip'}

# Парсеры текста

def parse_docx(data: bytes) -> str:
    doc = Document(io.BytesIO(data))
    return '\n'.join(p.text for p in doc.paragraphs if p.text.strip())

def parse_xlsx(data: bytes) -> str:
    wb = load_workbook(io.BytesIO(data), read_only=True, data_only=True)
    parts = []
    for ws in wb.worksheets:
        parts.append(f'[Sheet: {ws.title}]')
        for row in ws.iter_rows(values_only=True):
            cells = [str(c) for c in row if c is not None]
            if cells:
                parts.append(' | '.join(cells))
    wb.close()
    return '\n'.join(parts)

def parse_pdf(data: bytes) -> str:
    """Простой текстовый парсер PDF без сторонних библиотек ищет BT/ET блоки."""
    try:
        import re
        text = data.decode('latin-1', errors='replace')
        # извлекаем строки между BT и ET (text objects в PDF)
        chunks = re.findall(r'\(([^)]{1,300})\)\s*Tj', text)
        result = ' '.join(chunks).strip()
        return result if result else '[PDF: текст не извлечён без pdfminer]'
    except Exception as e:
        return f'[PDF parse error: {e}]'

PARSERS = {
    '.docx': parse_docx,
    '.xlsx': parse_xlsx,
    '.pdf':  parse_pdf,
}

print('Парсеры определены: Done')


Парсеры определены: Done


In [96]:
# Рекурсивный обход ZIP (включая ZIP-в-ZIP)

def extract_from_zip(zip_data: bytes, archive_path: str, records: list, depth: int = 0):
    """Рекурсивно обходит zip, извлекает и парсит файлы."""
    if depth > 5:   # защита от бесконечной вложенности
        return
    try:
        with zipfile.ZipFile(io.BytesIO(zip_data)) as zf:
            for entry in zf.infolist():
                entry_path = f'{archive_path}/{entry.filename}'
                data = zf.read(entry.filename)
                ext  = Path(entry.filename).suffix.lower()

                if ext == '.zip':
                    # вложенный zip — уходим глубже
                    extract_from_zip(data, entry_path, records, depth + 1)

                elif ext in PARSERS:
                    try:
                        content = PARSERS[ext](data)
                    except Exception as e:
                        content = f'[parse error: {e}]'

                    records.append({
                        'source_path': entry_path,
                        'filename': entry.filename,
                        'extension': ext,
                        'size_bytes': entry.file_size,
                        'content': content[:4000],   # обрезаем до 4000 символов
                        'content_hash': hashlib.md5(data).hexdigest(),
                        'crawled_at': datetime.datetime.now().isoformat(),
                        'in_archive': True,
                    })
    except zipfile.BadZipFile as e:
        print(f'(Error) Плохой ZIP: {archive_path} — {e}')

print('ZIP-обходчик определён: Done')

ZIP-обходчик определён: Done


In [97]:
# Главный краулер

def crawl(root: Path) -> list[dict]:
    records = []
    all_files = sorted(root.rglob('*'))

    for fpath in all_files:
        if not fpath.is_file():
            continue

        ext  = fpath.suffix.lower()
        data = fpath.read_bytes()
        rel  = str(fpath.relative_to(root))

        if ext == '.zip':
            print(f'ZIP: {rel}')
            extract_from_zip(data, rel, records)

        elif ext in PARSERS:
            print(f'(file) {ext.upper()[1:]}: {rel}')
            try:
                content = PARSERS[ext](data)
            except Exception as e:
                content = f'[parse error: {e}]'

            records.append({
                'source_path': rel,
                'filename': fpath.name,
                'extension': ext,
                'size_bytes': fpath.stat().st_size,
                'content': content[:4000],
                'content_hash': hashlib.md5(data).hexdigest(),
                'crawled_at': datetime.datetime.now().isoformat(),
                'in_archive': False,
            })

    return records

print('Запускаю краулер...\n')
records = crawl(STORAGE)
print(f'\nНайдено и обработано документов: {len(records)}')

Запускаю краулер...

(file) PDF: annual_report_2024.pdf
ZIP: archive/docs_bundle.zip
ZIP: archive/nested_archive.zip
(file) XLSX: clients_summary.xlsx
(file) DOCX: contract_template.docx
(file) XLSX: nested/budget_2025.xlsx
(file) PDF: nested/compliance_policy.pdf
(file) DOCX: nested/meeting_notes.docx
(file) DOCX: report_q1.docx

Найдено и обработано документов: 13


In [98]:
# Сохранение в CSV

FIELDS = ['source_path', 'filename', 'extension', 'size_bytes', 'content', 'content_hash', 'crawled_at', 'in_archive']

with open(OUTPUT_CSV, 'w', newline='', encoding='utf-8') as f:
    writer = csv.DictWriter(f, fieldnames=FIELDS)
    writer.writeheader()
    writer.writerows(records)

print(f'CSV сохранён: {OUTPUT_CSV}  ({OUTPUT_CSV.stat().st_size:,} байт)')

# Превью
import pandas as pd
df_csv = pd.read_csv(OUTPUT_CSV)
print(f'\nСтрок в CSV: {len(df_csv)}')
df_csv[['filename', 'extension', 'size_bytes', 'in_archive', 'crawled_at']].head(20)

CSV сохранён: crawled_documents.csv  (7,297 байт)

Строк в CSV: 13


Unnamed: 0,filename,extension,size_bytes,in_archive,crawled_at
0,annual_report_2024.pdf,.pdf,1372,False,2026-02-20T16:07:44.152594
1,report_q1.docx,.docx,36980,True,2026-02-20T16:07:44.158566
2,clients_summary.xlsx,.xlsx,6077,True,2026-02-20T16:07:44.166474
3,annual_report_2024.pdf,.pdf,1372,True,2026-02-20T16:07:44.166547
4,meeting_notes.docx,.docx,36939,True,2026-02-20T16:07:44.171572
5,budget_2025.xlsx,.xlsx,5159,True,2026-02-20T16:07:44.173704
6,compliance_policy.pdf,.pdf,1458,True,2026-02-20T16:07:44.173745
7,clients_summary.xlsx,.xlsx,6077,False,2026-02-20T16:07:44.176072
8,contract_template.docx,.docx,37057,False,2026-02-20T16:07:44.180539
9,budget_2025.xlsx,.xlsx,5159,False,2026-02-20T16:07:44.182420


####  SQLite с полнотекстовым поиском (FTS5)

In [99]:
import sqlite3, pandas as pd
from pathlib import Path

DB_PATH = Path('./documents_fts.db')
CSV_PATH = Path('./crawled_documents.csv')

df = pd.read_csv(CSV_PATH)

# Создание БД
con = sqlite3.connect(DB_PATH)
cur = con.cursor()

# Обычная таблица с метаданными
cur.executescript("""
    DROP TABLE IF EXISTS documents;
    DROP TABLE IF EXISTS documents_fts;

    CREATE TABLE documents (
        id            INTEGER PRIMARY KEY AUTOINCREMENT,
        source_path   TEXT NOT NULL,
        filename      TEXT NOT NULL,
        extension     TEXT NOT NULL,
        size_bytes    INTEGER,
        content       TEXT,
        content_hash  TEXT,
        crawled_at    TEXT,
        in_archive    INTEGER
    );

    CREATE VIRTUAL TABLE documents_fts USING fts5(
        filename,
        content,
        content_rowid = 'id'
    );
""")
con.commit()
print('Таблицы созданы. OK')

Таблицы созданы. OK


In [100]:
# Импорт данных из CSV
rows = df[['source_path','filename','extension','size_bytes', 'content','content_hash','crawled_at','in_archive']].values.tolist()

cur.executemany("""
    INSERT INTO documents
        (source_path, filename, extension, size_bytes,
         content, content_hash, crawled_at, in_archive)
    VALUES (?, ?, ?, ?, ?, ?, ?, ?)
""", rows)
con.commit()

# Синхронизируем FTS-индекс
cur.execute("""
    INSERT INTO documents_fts (rowid, filename, content)
    SELECT id, filename, content FROM documents
""")
con.commit()

count = cur.execute('SELECT COUNT(*) FROM documents').fetchone()[0]
print(f'Импортировано строк: {count}')

Импортировано строк: 13


In [101]:
# Функция поиска

def search(query: str, limit: int = 10) -> pd.DataFrame:
    sql = """
        SELECT
            d.id,
            d.filename,
            d.extension,
            d.source_path,
            d.in_archive,
            snippet(documents_fts, 1, '>>>', '<<<', '...', 20) AS snippet
        FROM documents_fts
        JOIN documents d ON d.id = documents_fts.rowid
        WHERE documents_fts MATCH ?
        ORDER BY rank
        LIMIT ?
    """
    rows = cur.execute(sql, (query, limit)).fetchall()
    cols = ['id', 'filename', 'extension', 'source_path', 'in_archive', 'snippet']
    return pd.DataFrame(rows, columns=cols)

print('Run: search("ваш запрос")')

Run: search("ваш запрос")


#### Testing 

In [102]:
# Testing

print('Поиск: "выручка"')
print('═' * 60)
display(search('выручка'))

Поиск: "выручка"
════════════════════════════════════════════════════════════


Unnamed: 0,id,filename,extension,source_path,in_archive,snippet
0,2,report_q1.docx,.docx,archive/docs_bundle.zip/report_q1.docx,1,Квартальный отчёт Q1 2025\n>>>Выручка<<< за пе...
1,13,report_q1.docx,.docx,report_q1.docx,0,Квартальный отчёт Q1 2025\n>>>Выручка<<< за пе...


In [103]:
print('Поиск: "Нео"')
print('═' * 60)
display(search('Нео'))

Поиск: "Нео"
════════════════════════════════════════════════════════════


Unnamed: 0,id,filename,extension,source_path,in_archive,snippet
0,3,clients_summary.xlsx,.xlsx,archive/docs_bundle.zip/clients_summary.xlsx,1,...Клиенты]\nID | Имя | Возраст | Город | Капи...
1,8,clients_summary.xlsx,.xlsx,clients_summary.xlsx,0,...Клиенты]\nID | Имя | Возраст | Город | Капи...


In [104]:
print('Поиск: "compliance"  (в PDF)')
print('═' * 60)
display(search('compliance'))

Поиск: "compliance"  (в PDF)
════════════════════════════════════════════════════════════


Unnamed: 0,id,filename,extension,source_path,in_archive,snippet
0,7,compliance_policy.pdf,.pdf,archive/nested_archive.zip/compliance_policy.pdf,1,[PDF: текст не извлечён без pdfminer]
1,11,compliance_policy.pdf,.pdf,nested/compliance_policy.pdf,0,[PDF: текст не извлечён без pdfminer]


In [105]:
print('Поиск: "бюджет OR budget"')
print('═' * 60)
display(search('бюджет OR budget'))

Поиск: "бюджет OR budget"
════════════════════════════════════════════════════════════


Unnamed: 0,id,filename,extension,source_path,in_archive,snippet
0,6,budget_2025.xlsx,.xlsx,archive/nested_archive.zip/_inner.zip/budget_2...,1,[Sheet: >>>Бюджет<<<]\nСтатья | Q1 | Q2 | Q3 |...
1,10,budget_2025.xlsx,.xlsx,nested/budget_2025.xlsx,0,[Sheet: >>>Бюджет<<<]\nСтатья | Q1 | Q2 | Q3 |...


In [106]:
# Статистика по БД
print('Документов по типу:')
display(pd.read_sql('SELECT extension, COUNT(*) as count FROM documents GROUP BY extension', con))

print('\nДокументы из архивов vs прямые:')
display(pd.read_sql('SELECT in_archive, COUNT(*) as count FROM documents GROUP BY in_archive', con))

con.close()
print('\nStatus: Соединение с БД закрыто')
print(f'База данных: {DB_PATH}  ({DB_PATH.stat().st_size:,} байт)')

Документов по типу:


Unnamed: 0,extension,count
0,.docx,5
1,.pdf,4
2,.xlsx,4



Документы из архивов vs прямые:


Unnamed: 0,in_archive,count
0,0,7
1,1,6



Status: Соединение с БД закрыто
База данных: documents_fts.db  (61,440 байт)


Final Result

1) Хранилище: 8 файлов (docx, xlsx, pdf) + 2 zip-архива с вложенностью zip-в-zip
2) Краулер: рекурсивно обходит папки и архивы, парсит контент, сохраняет в crawled_documents.csv
3) БД — SQLite с таблицей documents + виртуальная таблица documents_fts (FTS5), поддерживает AND, OR, NOT, поиск по фразе, prefix*, возвращает сниппеты с подсветкой