以下模塊需要照順序往下執行
<hr/>
1. 讀取文件資料夾，遍歷打開各檔案(pytesseract要下載並放入合理的路徑下)，切檔餵入Gemini裡面，取得關鍵詞，存成answer.txt<br>
2. 用'|'拆每列的文字，檢查格式是否符合要求<br>
3. 過濾中文詞的位置上包含數字或英文的列、或是中文字超過15個字的列<br>
4. 中間順便把解析完的文件全部存成training_material.txt，可作為後續訓練用的素材<br>
5. 最後把這組整理完的關鍵詞檔案存成answer_all.txt<br>
<hr/>

In [None]:
import os
import re
import io
import fitz
import docx
import pytesseract
import win32com.client
from PIL import Image, UnidentifiedImageError
import google.generativeai as genai

# 設置 API 金鑰
API_KEY = "AIzaSyBA54-QaIZbqQayAkmSf2FLBCvS_QyVlm4"
genai.configure(api_key=API_KEY)

# 指定 Tesseract 的路徑
pytesseract.pytesseract.tesseract_cmd = r'C:\Users\Howard.Lin\Tesseract-OCR\tesseract.exe'

# 要處理的文件夾路徑
folder_path = input("請輸入要處理的文件夾: ")

text = ""
count = 0

# 遍歷文件夾中的所有文件
for root, dirs, files in os.walk(folder_path):
    for file_name in files:
        # 構建文件的完整路徑
        file_path = os.path.join(root, file_name)
        # 判斷文件的擴展名
        if file_name.lower().endswith('.pdf'):
            # 使用 PyMuPDF 打開文件並處理 PDF 文件
            pdf_document = fitz.open(file_path)
            for page_num in range(len(pdf_document)):
                # 從每頁提取文本
                page = pdf_document.load_page(page_num)
                text += page.get_text()

                # 提取頁面中的圖像
                image_list = page.get_images(full=True)
                for image_index, img in enumerate(image_list):
                    xref = img[0]
                    base_image = pdf_document.extract_image(xref)
                    image_bytes = base_image["image"]
                    try:
                        image = Image.open(io.BytesIO(image_bytes))
                    except UnidentifiedImageError:
                        print(f"跳過無法識別的圖像文件: {file_name}, 第 {page_num + 1} 頁, 圖像 {image_index + 1}")
                        continue
                    count += 1
                    # 使用 pytesseract 對圖像進行 OCR 處理
                    image_text = pytesseract.image_to_string(image, lang='chi_tra+eng')
                    text += image_text

            # 關閉 PyMuPDF 文件
            pdf_document.close()
        elif file_name.lower().endswith('.docx') or file_name.lower().endswith('.doc'):
            # 如果是 Word 文件，則進行處理
            # 打開 Word 文件
            if file_name.lower().endswith('.docx'):
                doc_type = 'docx'
                try:
                    doc = docx.Document(file_path)
                    # 讀取每個段落的文本
                    for para in doc.paragraphs:
                        text += para.text
                    # 讀取每個表格的文本
                    for table in doc.tables:
                        for row in table.rows:
                            for cell in row.cells:
                                text += cell.text
                except Exception as e:
                    print(f"讀取 {doc_type} 文件 '{file_name}' 時出錯: {e}")
            else:
                doc_type = 'doc'
                try:
                    word_app = win32com.client.Dispatch("Word.Application")
                    # 打開 Word 文件
                    doc = word_app.Documents.Open(file_path)
                    # 讀取每個段落的文本
                    for para in doc.paragraphs:
                        text += para.text
                    # 讀取每個表格的文本
                    for table in doc.tables:
                        for row in table.rows:
                            for cell in row.cells:
                                text += cell.text
                except Exception as e:
                    print(f"讀取 {doc_type} 文件 '{file_name}' 時出錯: {e}")            

        else:
            # 如果是其他類型的文件，則跳過
            continue

# 去掉文本中的所有空格
text = text.replace(" ", "")
text = "\n".join([line for line in text.split("\n") if line.strip()])
print(count)

# 定義中文和英文的格式
chinese_format = "1. 中文 | "
english_format = "英文\n"

# 要合併的句子
intro_sentence = "你現在是一位頂尖的冷氣空調專家，我接下來會給你一段文章，並協助我選出文章內至多50個和冷氣空調設備相關的技術規格關鍵字(可不滿50個)，列點並將繁體中文與英文一起附上，請依照以下格式"

# 將中文和英文的格式合併到 intro_sentence
intro_sentence += f"{chinese_format}{english_format}:\n\n"

# 將固定的格式與 prompt 合併
# question = intro_sentence + text_chunk.strip()

# 分割text為2000字一份
text_chunks = [text[i:i + 2000] for i in range(0, len(text), 2000)]

# 將每個text_chunks寫入文件的不同行中
with open('training_material.txt', 'w', encoding='utf-8') as f:
    for chunk in text_chunks:
        f.write(chunk + '\n')

answers = []

# 逐一處理每一份text
for text_chunk in text_chunks:
    
    # 將句子與文章內容合併
    question = intro_sentence + text_chunk.strip()
    # 初始化對話
    model = genai.GenerativeModel('gemini-pro')
    chat = model.start_chat(history=[])
    try:
        # 向Gemini API發送提問並獲取回答
        response = chat.send_message(question)
        answer = response.text
        answers.append(answer)
    except Exception as e:
        # 如果遇到安全性相關的警告，則忽略這個錯誤，只取得之前的對話內容作為回答
        print("警告：Gemini API生成回答時遇到安全性問題，將使用之前的對話內容作為回答。")
        continue
        
# 將所有答案整合成一個字符串
final_answer = "\n".join(answers)

# 將最後一個回答寫入到文字檔案中
with open('answer.txt', 'w', encoding='utf-8') as f:
    f.write(final_answer)

print("最後一個回答已寫入到answer.txt檔案中。")

# 讀取文件內容
with open('answer.txt', 'r', encoding='utf-8') as file:
    lines = file.readlines()

# 定義過濾條件
def is_valid_chinese_word(word):
    # 檢查是否包含數字或英文字符
    if re.search(r'[0-9a-zA-Z]', word):
        return False
    # 檢查是否超過15個中文字
    if len(word) > 15:
        return False
    return True

# 提取名詞部分並寫入新的文件，去除不符合條件的行
with open('answer.txt', 'w', encoding='utf-8') as output_file:
    for line in lines:
        # 移除所有的 "*"
        line = line.replace('*', '')

        # 檢查行中是否包含 `|` 符號
        if '|' not in line:
            continue  # 跳過不包含 `|` 符號的行
        
        # 檢查行中的 `|` 符號數量
        if line.count('|') > 1:
            # 找到 `.` 的位置
            dot_index = line.find('.')
            if dot_index != -1:
                # 找到 `.` 之後的第一個 `|` 的位置
                first_pipe_index = line.find('|', dot_index)
                if first_pipe_index != -1:
                    # 移除 `.` 之後的第一個 `|`
                    line = line[:first_pipe_index] + line[first_pipe_index + 1:]

        # 使用 "|" 符號拆分每一行，提取第一個部分作為名詞部分
        parts = line.split('|')
        if len(parts) > 0:
            noun_part = parts[0].split('.')
            if len(noun_part) > 1:
                noun = noun_part[1].strip()
                # 檢查名詞部分是否符合過濾條件
                if is_valid_chinese_word(noun):
                    # 如果符合條件，則寫入輸出文件
                    output_file.write(line)

# 讀取文件內容並提取名詞部分
with open('answer_all.txt', 'r', encoding='utf-8') as file:
    lines = file.readlines()


<hr>
讀answer_all.txt做簡體轉繁體，另存成answer_all_TC.txt  
<hr>

In [None]:
#簡轉繁
import opencc

def convert_simplified_to_traditional(input_file, output_file):
    # 創建 OpenCC 實例，設置簡體中文到繁體中文的轉換配置
    converter = opencc.OpenCC('s2t.json')

    # 讀取輸入文件中的文本
    with open(input_file, 'r', encoding='utf-8') as f:
        simplified_text = f.read()

    # 將簡體中文轉換為繁體中文
    traditional_text = converter.convert(simplified_text)

    # 將轉換後的文本寫入到輸出文件中
    with open(output_file, 'w', encoding='utf-8') as f:
        f.write(traditional_text)

# 指定輸入文件和輸出文件的路徑
input_file = 'answer_all.txt'
output_file = 'answer_all_TC.txt'

# 執行簡體中文轉換為繁體中文的函數
convert_simplified_to_traditional(input_file, output_file)

print("簡體中文已成功轉換為繁體中文並寫入到新文件 'output_traditional.txt'。")


<hr>
另存成answer_all_TC.txt去除包含不需要字元的列(e.g. () /\)，並另存成answer_all_TC_cleaned.txt  
<hr>

In [None]:
#篩掉有一堆不合法字元的詞彙
import re

def clean_invalid_lines(file_path, output_file_path):
    allowed_chars_pattern = re.compile(r'^[\u4e00-\u9fa5A-Za-z0-9().、/\-| ()（）]+$')
    
    with open(file_path, 'r', encoding='utf-8') as f:
        lines = f.readlines()
        
    valid_lines = []
    for line in lines:
        if allowed_chars_pattern.match(line.strip()):
            valid_lines.append(line)
    
    with open(output_file_path, 'w', encoding='utf-8') as output_file:
        output_file.writelines(valid_lines)

# 指定原始文件和輸出文件的路徑
input_file_path = 'answer_all_TC.txt'
output_file_path = 'answer_all_TC_cleaned.txt'

# 清除不合法行並另存文件
clean_invalid_lines(input_file_path, output_file_path)

<hr>
拆解中文與英文部分，各別存成Chinese_nouns.txt與English_nouns.txt<br>
<hr>

In [None]:
# 读取文件内容并提取名词部分
with open('answer_all_TC_cleaned.txt', 'r', encoding='utf-8') as file:
    lines = file.readlines()

# 提取名词部分并写入新的文件，去除重复的词汇
seen = set()
with open('Chinese_nouns.txt', 'w', encoding='utf-8') as output_file:
    for line in lines:
        # 使用 "|" 符号拆分每一行，提取第一个部分作为名词部分
        noun = line.split('|')[0].split('.')[1].strip()
        # 检查是否已经写入过该词汇，如果没有则写入，并添加到集合中
        if noun not in seen:
            output_file.write(noun + '\n')
            seen.add(noun)
            
seen = set()
with open('English_nouns.txt', 'w', encoding='utf-8') as output_file:
    for line in lines:
        # 使用 "|" 符号拆分每一行，提取第二个部分作为名词部分
        noun = line.split('|')[1].strip()
        # 检查是否已经写入过该词汇，如果没有则写入，并添加到集合中
        if noun not in seen:
            output_file.write(noun + '\n')
            seen.add(noun)

<hr>
檢查English_nouns.txt的英文部分是否有摻雜中文字符，有的話就print出來，再人工回answer_all_TC_cleaned.txt改<br>
<hr>

In [None]:
import re

def contains_chinese(text):
    # 正则表达式检查字符串中是否包含中文字符
    return bool(re.search(r'[\u4e00-\u9fff]', text))

# 读取English_nouns.txt文件
file_path = 'English_nouns.txt'

with open(file_path, 'r', encoding='utf-8') as file:
    lines = file.readlines()

# 检查每一行是否包含中文字符
contains_chinese_lines = []
for line in lines:
    if contains_chinese(line):
        contains_chinese_lines.append(line.strip())

if contains_chinese_lines:
    print("The following lines in 'English_nouns.txt' contain Chinese characters:")
    for line in contains_chinese_lines:
        print(line)
else:
    print("No Chinese characters found in 'English_nouns.txt'.")

<hr>
讀answer_all_TC_cleaned.txt建立同義詞辭典(英文敘述完全相同的)，並另存成Similar_Words_Dictionary.txt<br>
<hr>

In [None]:
#建同義詞字典#
from collections import defaultdict

# 讀取文件內容並提取名詞部分
with open('answer_all_TC_cleaned.txt', 'r', encoding='utf-8') as file:
    lines = file.readlines()

# 建立第二部分詞對應到第一部分詞的詞典
word_dict = defaultdict(list)
for line in lines:
    parts = line.split('|')
    first_part = parts[0].split('.')[1].strip().lower()
    second_part = parts[1].strip().lower()
    word_dict[second_part].append(first_part)

# 整理同義詞辭典
similar_words_dict = defaultdict(set)
for second_word, first_words in word_dict.items():
    for first_word in first_words:
        similar_words_dict[first_word].update(set(word.lower() for word in first_words if word.lower() != first_word))

# 寫入同義詞辭典到文件中
with open('Similar_Words_Dictionary.txt', 'w', encoding='utf-8') as output_file:
    for word, similar_words in similar_words_dict.items():
        output_file.write(f"{word}: {', '.join(similar_words)}\n")


<hr>
抓高頻辭彙，讀English_nouns.txt抓每個複合辭彙的最後一個單字，作為高頻詞，最後另存成文字檔列表processed_last_words.txt<br>
<hr>

In [None]:
#抓高頻詞彙
# 讀取文件內容，指定使用 UTF-8 編碼
with open('English_nouns.txt', 'r', encoding='utf-8') as file:
    lines = file.readlines()

# 定義一個函數來獲取每行的最後一個單詞
def get_last_word(phrase):
    words = phrase.lower().split()
    return words[-1] if words else ''

# 處理每一行的詞彙，並統計最後一個詞的出現次數
word_count = {}
for line in lines:
    last_word = get_last_word(line.strip())
    if last_word:
        if last_word in word_count:
            word_count[last_word] += 1
        else:
            word_count[last_word] = 1

# 按照出現次數從多到少排序
sorted_word_count = sorted(word_count.items(), key=lambda x: x[1], reverse=True)

# 將結果寫回文件
with open('processed_last_words.txt', 'w', encoding='utf-8') as file:
    for word, count in sorted_word_count:
        file.write(f'{word}: {count}\n')

# 打印統計結果
for word, count in sorted_word_count:
    print(f'{word}: {count}')


<hr>
以下是一些不一定要用到的功能函式<br>
(A) 合併多個txt文檔<br>
(B) 計算txt檔的字元數<br>
<hr>

In [None]:
# (A)
# 合併複數個txt文字檔
# 要合併的文本文件的路徑和文件名
file_paths = ["training_material_2014.txt", "training_material_2015~2018_2022~2024.txt", "training_material_2015~2018_2022~2024.txt", "training_material_2020.txt", "training_material_2021.txt"]

# 合併後的文件名
output_file = "training_material_all.txt"

with open(output_file, "w", encoding="utf-8") as outfile:
    for file_path in file_paths:
        with open(file_path, "r", encoding="utf-8") as infile:
            # 讀取文件內容並寫入合併後的文件中
            outfile.write(infile.read())
            # 在每個文件的內容之後添加換行符以區分不同文件的內容
            outfile.write("\n")


In [None]:
# (B)
def count_characters_in_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()
        # 使用 len() 函數計算文本中的字元數
        char_count = len(text)
    return char_count

# 指定文本文件的路徑
file_path = 'training_material_all.txt'

# 調用函數並打印結果
char_count = count_characters_in_file(file_path)
print(f"字元數: {char_count}")