In [8]:
import matplotlib.pyplot as plt
import numpy as np
import os
import PyPDF2
import docx
import pandas as pd

In [9]:
def read_pdf_text(file_path):
    """
    Читает PDF-файл и возвращает текст, содержащийся во всех его страницах.
    """
    text = ""
    with open(file_path, 'rb') as f:
        pdf_reader = PyPDF2.PdfReader(f)
        for page in pdf_reader.pages:
            page_text = page.extract_text()
            if page_text:
                text += page_text + "\n"
    return text

In [10]:
def read_docx_text(file_path):
    """
    Читает DOCX-файл и возвращает текст, содержащийся во всех его параграфах.
    """
    text = ""
    doc = docx.Document(file_path)
    for paragraph in doc.paragraphs:
        text += paragraph.text + "\n"
    return text

In [11]:
def get_text_from_files(folder_path):
    """
    Проходит по папке folder_path, ищет все PDF и DOCX файлы,
    формирует DataFrame с колонками 'filename' и 'text'.
    """
    file_data = []  # здесь будут храниться словари, по одному на файл

    for filename in os.listdir(folder_path):
        # Полный путь до файла
        file_path = os.path.join(folder_path, filename)
        
        # Если это папка, пропускаем её
        if os.path.isdir(file_path):
            continue
        
        # Проверяем расширение
        ext = os.path.splitext(filename)[1].lower()
        
        # Ищем pdf / docx
        if ext == ".pdf":
            file_text = read_pdf_text(file_path)
            file_data.append({"filename": filename, "text": file_text})
        elif ext == ".docx":
            file_text = read_docx_text(file_path)
            file_data.append({"filename": filename, "text": file_text})

    # Создаём DataFrame из полученных данных
    df = pd.DataFrame(file_data, columns=["filename", "text"])
    return df

In [14]:
folder_path = "Dataset/"
df_result = get_text_from_files(folder_path)

# Сохраняем в csv file для дальянейшего использования 
output_csv_path = os.path.join(folder_path, "files_text.csv")
df_result.to_csv(output_csv_path, index=False, encoding="utf-8-sig")
print(f"DataFrame сохранён в {output_csv_path}")

DataFrame сохранён в Dataset/files_text.csv
