In [11]:
def preprocess_text_for_binary_classification(input_filepath, output_filepath):
    """
    入力ファイルからテキストを読み込み、句点「。」で改行し、
    各行の先頭に「0 」を付与して出力ファイルに書き出します。

    Args:
        input_filepath (str): 入力テキストファイルのパス。
        output_filepath (str): 出力テキストファイルのパス。
    """
    try:
        with open(input_filepath, 'r', encoding='utf-8') as infile:
            content = infile.read()

        # 句点「。」で分割し、空の文字列を除去
        # さらに、句点の後に必ず改行されるように句点自身も残す
        sentences = [s.strip() for s in content.split('。') if s.strip()]

        with open(output_filepath, 'w', encoding='utf-8') as outfile:
            for sentence in sentences:
                # 句点が文の末尾にあるか確認し、なければ追加（分割時に除去されるため）
                if not sentence.endswith('。'):
                    sentence += '。'
                outfile.write(f"0 {sentence}\n")
        print(f"処理が完了しました。結果は '{output_filepath}' に保存されました。")

    except FileNotFoundError:
        print(f"エラー: 入力ファイル '{input_filepath}' が見つかりません。")
    except Exception as e:
        print(f"処理中にエラーが発生しました: {e}")

In [19]:
input_file = 'C:/Users/neoia/wiki_料理_traindata_raw.txt'
output_file = 'C:/Users/neoia/wiki_料理_traindata.txt'

In [20]:
makefile = preprocess_text_for_binary_classification(input_file, output_file)

処理が完了しました。結果は 'C:/Users/neoia/wiki_料理_traindata.txt' に保存されました。


In [21]:
input_file = 'C:/Users/neoia/wiki_料理_devdata_raw.txt'
output_file = 'C:/Users/neoia/wiki_料理_devdata.txt'

In [22]:
makefile = preprocess_text_for_binary_classification(input_file, output_file)

処理が完了しました。結果は 'C:/Users/neoia/wiki_料理_devdata.txt' に保存されました。


In [25]:
def preprocess_text_for_binary_classification1(input_filepath, output_filepath):
    """
    入力ファイルからテキストを読み込み、句点「。」で改行し、
    各行の先頭に「1 」を付与して出力ファイルに書き出します。

    Args:
        input_filepath (str): 入力テキストファイルのパス。
        output_filepath (str): 出力テキストファイルのパス。
    """
    try:
        with open(input_filepath, 'r', encoding='utf-8') as infile:
            content = infile.read()

        # 句点「。」で分割し、空の文字列を除去
        # さらに、句点の後に必ず改行されるように句点自身も残す
        sentences = [s.strip() for s in content.split('。') if s.strip()]

        with open(output_filepath, 'w', encoding='utf-8') as outfile:
            for sentence in sentences:
                # 句点が文の末尾にあるか確認し、なければ追加（分割時に除去されるため）
                if not sentence.endswith('。'):
                    sentence += '。'
                outfile.write(f"1 {sentence}\n")
        print(f"処理が完了しました。結果は '{output_filepath}' に保存されました。")

    except FileNotFoundError:
        print(f"エラー: 入力ファイル '{input_filepath}' が見つかりません。")
    except Exception as e:
        print(f"処理中にエラーが発生しました: {e}")

In [26]:
input_file = 'C:/Users/neoia/wiki_プログラミング_traindata_raw.txt'
output_file = 'C:/Users/neoia/プログラミング_traindata.txt'

In [27]:
makefile = preprocess_text_for_binary_classification1(input_file, output_file)

処理が完了しました。結果は 'C:/Users/neoia/プログラミング_traindata.txt' に保存されました。


In [28]:
import random

def shuffle_lines_in_file(input_filepath, output_filepath):
    """
    入力ファイルの行をランダムに入れ替えて出力ファイルに書き出します。

    Args:
        input_filepath (str): 入力テキストファイルのパス。
        output_filepath (str): 出力テキストファイルのパス。
    """
    try:
        # 入力ファイルからすべての行を読み込む
        with open(input_filepath, 'r', encoding='utf-8') as infile:
            lines = infile.readlines() # readlines()で各行をリストとして取得

        # 行のリストをランダムにシャッフルする
        random.shuffle(lines)

        # シャッフルされた行を出力ファイルに書き出す
        with open(output_filepath, 'w', encoding='utf-8') as outfile:
            outfile.writelines(lines) # writelines()でリストの要素をまとめて書き込む

        print(f"処理が完了しました。行がランダムに入れ替えられ、'{output_filepath}' に保存されました。")

    except FileNotFoundError:
        print(f"エラー: 入力ファイル '{input_filepath}' が見つかりません。")
    except Exception as e:
        print(f"処理中にエラーが発生しました: {e}")

In [29]:
input_file = 'C:/Users/neoia/wiki_traindata_raw.txt'
output_file = 'C:/Users/neoia/wiki_traindata.txt'

In [30]:
shuffle = shuffle_lines_in_file(input_file, output_file)

処理が完了しました。行がランダムに入れ替えられ、'C:/Users/neoia/wiki_traindata.txt' に保存されました。


In [31]:
input_file = 'C:/Users/neoia/wiki_devdata_raw.txt'
output_file = 'C:/Users/neoia/wiki_devdata.txt'

In [32]:
shuffle = shuffle_lines_in_file(input_file, output_file)

処理が完了しました。行がランダムに入れ替えられ、'C:/Users/neoia/wiki_devdata.txt' に保存されました。


In [33]:
input_file = 'C:/Users/neoia/wiki_testdata_raw.txt'
output_file = 'C:/Users/neoia/wiki_testdata.txt'

In [34]:
shuffle = shuffle_lines_in_file(input_file, output_file)

処理が完了しました。行がランダムに入れ替えられ、'C:/Users/neoia/wiki_testdata.txt' に保存されました。
