In [1]:
import openai
import os

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv())

openai.api_key  = os.getenv('OPENAI_API_KEY')

In [2]:
client = openai.OpenAI()

def get_completion(prompt, model="gpt-4o"):
    messages = [
        {"role": "system", "content": "You are a custom GPT called Novel Translator. Novel Translator specializes in translating fantasy, wuxia, and xianxia Chinese web novels into English, focusing on accurate translations of cultural references, idiomatic expressions, and genre-specific terminology like cultivator ranks and power systems. It ensures translations are well-formatted, capitalizing only the first letter of character names and leaving them untranslated (e.g., 'Yan Jianyue'). The GPT avoids incorrect translations of names and uses appropriate pronouns, aiming to include a glossary to prevent errors. It provides translations directly without additional conversation, focusing solely on the output quality and accuracy. Novel Translator will now be able to learn from already translated chapters to maintain consistency in style, tone, and formatting as exemplified by translations provided."},
        {"role": "user", "content": prompt}
    ]
    response = client.chat.completions.create(
        model=model,    
        messages=messages,
        temperature=0,
    )
    return response.choices[0].message.content

In [6]:
import requests
from bs4 import BeautifulSoup
import re
import os

URL = "https://www.fortuneeternal.com/novel/a-regressors-tale-of-cultivation-raw-novel/chapter-287/"
# URL = "https://www.fortuneeternal.com/novel/i-became-a-flashing-genius-at-the-magic-academy-raw-novel/chapter-145/"
html_text = requests.get(URL).text
soup = BeautifulSoup(html_text, 'lxml')

# Find the chapter heading
chapter_heading = soup.find('h1', id='chapter-heading').get_text()

# Sanitize the chapter heading to create a valid filename
valid_filename = re.sub(r'[^\w\-_\. ]', '_', chapter_heading)

# Find the div with class 'text-left'
text_left_div = soup.find('div', class_='text-left')

# Find all <p> elements within this div
paragraphs = text_left_div.find_all('p')

# Combine the text of each <p> element into one string
combined_text = ' '.join(p.get_text() for p in paragraphs)

print(chapter_heading)
print(combined_text)

# Create the folder if it doesn't exist
# folder_name = 'Flashing_Genius'
folder_name = 'RTOC'
# os.makedirs(folder_name, exist_ok=True)
# with open(os.path.join(folder_name,f'{valid_filename}.txt'), 'w',encoding="utf-8") as file:
#     file.write(combined_text)

A Regressor’s Tale of Cultivation RAW novel - Chapter (287)
나의 이름은 (2) ‘젠장, 서립이 뭐냐.’ 허곽이 묻자 당황해서 말하긴 했다. 하지만 잠시 생각해 보니 이만큼 끔찍한 이름이 또 없는 것 같았다. 원유라고 답하면 허곽이 혹시 원립을 알까 봐 원씨는 배제했다. 그래서 생각나는 대로 말했는데, 최악의 이름이었다. ‘빌어먹을. 이제 와서 무를 수도 없고.’ 내 생각을 아는지 모르는지 허곽은 허허 웃으며 말했다. “서립! 서씨들은 모두 인재밖에 없지. 예전에도 서씨 한 명을 본 곡에 입곡시키려 했는데 실패했다. 정말… 말도 안 되는 인재 그 자체였는데 말이야.” “하하… 그렇습니까?” 나는 그가 말하는 인물이 누군지 알 것 같아 어색하게 웃었다. “뭐, 어쨌든 흑색귀골곡은 이번에 설치한 비선대로 인해서 계속 인재 수급을 더더욱 늘려 나갈 테니 문제는 없겠지. 일단… 너는 이 아이를 따라가거라.” 우우우우우― 허곽이 소매를 휘두르자, 그의 소매 안쪽에서 시커먼 귀신 한 마리가 튀어나왔다. “여기 이 녀석을 입곡소로 데려가거라.” 우우우― 귀신은 알겠다는 듯이 고개를 끄덕이며 어딘가로 날아가기 시작했다. “그럼 차후에 보자꾸나. 녀석을 따라가라.” “예, 어르신.” 나는 허곽을 배웅한 후, 그가 뿜어낸 귀신을 따라갔다. ‘이곳이 흑색귀골곡의 곡내인가….’ 흑색귀골곡은 처음 왔기 때문에 신기한 기분이었다. 거대한 계곡. 그 안쪽에 좁은 길이 수십 수백 수천 개는 있었고, 귀신은 그 좁다란 길을 어찌어찌 잘 찾아서 나를 안내했다. 얼마간 귀신을 따라갔을까. “흠?” 나는 ‘입곡소’라고 쓰인 작은 전각 앞쪽에 도착했다. 귀신은 따라오라는 듯이 우우거렸고, 나는 귀신을 따라 입곡소 안으로 들어갔다. “헛!” 그리고 안쪽으로 들어간 나는 기묘한 광경에 화들짝 놀랐다. 입곡소 전각 안쪽에는 흑목으로 된 탁자 앞에, 새하얀 해골이 앉아 업무를 보고 있었기 때문이었다. 원영기 대원만. 아니, 원영기 대원만에서 조금 더 나가 천

In [7]:
# Read the content of the text file
# with open(os.path.join(folder_name,f'{valid_filename}.txt'), 'r', encoding='utf-8') as file:
#     text = file.read()

prompt = f"""
Translate the text delimited by triple backticks into English. Make sure the text is well formatted with spacing between sentences.
```{combined_text}```
"""
response = get_completion(prompt)
# # Export as txt
# # Format the response to be more readable by separating each sentence
# response = response.replace(". ", ".\n")
# response = response.replace("! ", "!\n")
# response = response.replace("? ", "?\n")

with open(os.path.join(folder_name,f'{valid_filename}TRANSLATED.txt'), "w") as f:
    f.write(response)
print(response)

APITimeoutError: Request timed out.

In [None]:

import re

def format_text(file_path):
    with open(file_path, 'r') as file:
        text = file.read()

    # Split text into paragraphs
    paragraphs = text.split('\n\n')

    formatted_paragraphs = []
    for paragraph in paragraphs:
        # Split paragraph into sentences
        sentences = re.split('(?<=[.!?]) +', paragraph)
        # Capitalize the first letter of each sentence
        sentences = [sentence.capitalize() for sentence in sentences]
        # Join sentences back into a paragraph
        formatted_paragraph = ' '.join(sentences)
        formatted_paragraphs.append(formatted_paragraph)

    # Join paragraphs back into the formatted text
    formatted_text = '\n\n'.join(formatted_paragraphs)

    return formatted_text

def save_formatted_text(formatted_text, output_file_path):
    with open(output_file_path, 'w') as file:
        file.write(formatted_text)

# Usage example
input_file_path = 'Flash_Genius_Chapter_140.txt'  # Replace with your raw text file path
output_file_path = 'Flash_Genius_Chapter_140_formatted.txt'  # Replace with your desired output file path

formatted_text = format_text(input_file_path)
save_formatted_text(formatted_text, output_file_path)

print("Formatted text has been saved to", output_file_path)
