In [1]:
import re
import os
import shutil
from google.colab import files

def split_text_into_parts(text, num_parts=5):
    # Разделяем текст на предложения с учетом китайских знаков препинания и абзацев
    sentences = re.split(r'(。|！|？|\n\n)', text)

    # Объединяем разделители с предложениями
    sentences = [sentences[i] + (sentences[i+1] if i+1 < len(sentences) else '')
                 for i in range(0, len(sentences), 2)]

    # Убираем пустые строки, если они есть
    sentences = [s for s in sentences if s.strip()]

    # Вычисляем примерное количество предложений в каждой части
    part_size = len(sentences) // num_parts
    remainder = len(sentences) % num_parts

    parts = []
    start = 0

    for i in range(num_parts):
        end = start + part_size + (1 if i < remainder else 0)
        parts.append(''.join(sentences[start:end]))
        start = end

    return parts

def process_file(file_path, output_folder):
    with open(file_path, 'r', encoding='utf-8') as file:
        chinese_text = file.read()

    # Извлекаем номер главы и название
    chapter_info = re.search(r'第(\d+)章\s*(.*)', chinese_text)
    if chapter_info:
        chapter_number = chapter_info.group(1)  # Номер главы
        chapter_title = chapter_info.group(2)  # Название главы
    else:
        chapter_number = "unknown"
        chapter_title = "unknown"

    # Разделяем текст на части
    parts = split_text_into_parts(chinese_text)

    # Создаем папку для выходных файлов
    output_folder = os.path.join(input_folder, chapter_number)
    os.makedirs(output_folder, exist_ok=True)

    # Сохраняем каждую часть в отдельный файл
    for i, part in enumerate(parts):
        file_name = f"Глава_{chapter_number}_часть{i+1}.txt"
        output_file_path = os.path.join(output_folder, file_name)
        with open(output_file_path, "w", encoding="utf-8") as file:
            file.write(part)

# чистим папку с data от прошлого мусора
def clear_content():
  directory = '/content'
  folder_to_keep = 'sample data'

  # Перебираем все элементы в директории
  for item in os.listdir(directory):
      item_path = os.path.join(directory, item)

      # Если элемент не является папкой "sample data", удаляем его
      if item != folder_to_keep:
          if os.path.isfile(item_path) or os.path.islink(item_path):
              os.unlink(item_path)  # Удаляем файл или символическую ссылку
              print(f"Удалён файл: {item_path}")
          elif os.path.isdir(item_path):
              shutil.rmtree(item_path)  # Удаляем папку и всё её содержимое
              print(f"Удалена папка: {item_path}")

def process_folder(input_folder):
    # Проходим по всем файлам в папке
    for file_name in os.listdir(input_folder):
        if file_name.endswith('.txt'):
            file_path = os.path.join(input_folder, file_name)
            output_folder = os.path.join(input_folder, file_name.replace('.txt', ''))
            process_file(file_path, output_folder)
            os.remove(file_path)



# Чистим мусор и загружаем новые файлы в Colab
clear_content()
uploaded = files.upload()

# Создаем папку и перемещаем туда файлы
os.makedirs('immortal_array', exist_ok=True)
for file_name in uploaded.keys():
    os.rename(file_name, os.path.join('immortal_array', file_name))

# Указываем путь к папке в Colab и запускаем основной процесс
input_folder = 'immortal_array'
process_folder(input_folder)

# Скачиваем папку с главами
zip_name = 'immortal_array.zip'
folder_path = '/content/immortal_array'

shutil.make_archive(zip_name.replace('.zip', ''), 'zip', folder_path)

files.download(zip_name)





Удалена папка: /content/.config
Удалена папка: /content/sample_data


Saving Новый текстовый документ (10).txt to Новый текстовый документ (10).txt
Saving Новый текстовый документ (9).txt to Новый текстовый документ (9).txt
Saving Новый текстовый документ (8).txt to Новый текстовый документ (8).txt
Saving Новый текстовый документ (7).txt to Новый текстовый документ (7).txt
Saving Новый текстовый документ (6).txt to Новый текстовый документ (6).txt
Saving Новый текстовый документ (5).txt to Новый текстовый документ (5).txt
Saving Новый текстовый документ (4).txt to Новый текстовый документ (4).txt
Saving Новый текстовый документ (3).txt to Новый текстовый документ (3).txt
Saving Новый текстовый документ (2).txt to Новый текстовый документ (2).txt
Saving Новый текстовый документ.txt to Новый текстовый документ.txt


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>