# Rephrasing

LLMを使用して，低品質な文章を高品質に言い換えるためのNotebookです

Googleドライブをマウント（認証してください）

In [1]:
import sys
from google.colab import drive
from IPython.display import Javascript
drive.mount('/content/drive')

Mounted at /content/drive


パラメータ設定（書き換えてください）

In [4]:
# 取り組むtask_id
task_id = 0

# Notebookを保存したパスを記載
ROOT_PATH = '/content/drive/MyDrive/Colab Notebooks/work/GENIAC/Rephrasing/'

以下2つのセルを実行して放置！

1つのtask_idを完了するのに13時間程度かかります。

途中でセッションが切れた場合は、最初のセルから実行するとcheckpointから再開できます。

Rephrasing前後の文章を確認したい場合は，以下の部分をアンコメントしてください．（出力しながら長時間動かすとブラウザが重くなるかもしれないです）

    print("example['text']=", example['text'])
    print("--------------")
    print("out=", out)
    print("=============")

In [3]:
display(Javascript('''google.colab.output.setIframeHeight(0, true, {maxHeight: 100})'''))

# パッケージのインストール
!pip install gstop loguru transformers sentencepiece accelerate bitsandbytes vllm datasets

<IPython.core.display.Javascript object>

Collecting gstop
  Downloading gstop-0.2.3-py3-none-any.whl (3.9 kB)
Collecting loguru
  Downloading loguru-0.7.2-py3-none-any.whl (62 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/62.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.5/62.5 kB[0m [31m2.9 MB/s[0m eta [36m0:00:00[0m
Collecting accelerate
  Downloading accelerate-0.29.2-py3-none-any.whl (297 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m297.4/297.4 kB[0m [31m15.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting bitsandbytes
  Downloading bitsandbytes-0.43.1-py3-none-manylinux_2_24_x86_64.whl (119.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m119.8/119.8 MB[0m [31m13.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting vllm
  Downloading vllm-0.4.0.post1-cp310-cp310-manylinux1_x86_64.whl (97.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m97.6/97.6 MB[0m [31m17.2 MB/

In [5]:
import os
import json
import random
import re
from pathlib import Path
from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from gstop import GenerationStopper

try:
    from vllm import LLM
    from vllm import SamplingParams
    VLLM_AVAILABLE = True
except ImportError:
    VLLM_AVAILABLE = False
    print("VLLM library is not available.")


def setup_model(model_name, enable_vllm):
    if not enable_vllm:
        tokenizer = AutoTokenizer.from_pretrained(model_name)
        model = AutoModelForCausalLM.from_pretrained(
            model_name,
            torch_dtype=torch.bfloat16,
            load_in_4bit=True,
            device_map="auto",
            trust_remote_code=False,
        )
    else:
        tokenizer = AutoTokenizer.from_pretrained(model_name)

        model = LLM(model=model_name)
    return tokenizer, model


def get_data_files(input_dir, extension, task_id):
    input_path = Path(input_dir)
    # ファイル名が '_{task_id}' で終わるファイルを選択
    task_id_str = f"_{task_id}"
    return {file.stem: str(file) for file in input_path.glob(f'*.{extension}') if file.stem.endswith(task_id_str)}


def load_fewshot_examples(file_path, task_type, num_samples=2):
    examples = []
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            # 各行をJSONオブジェクトにデコード
            try:
                example = json.loads(line.strip())
                # タスクタイプに基づいて例をフィルタリング
                if example.get('task') == task_type:
                    examples.append(example)
            except json.JSONDecodeError:
                continue  # 不正なフォーマットの行はスキップ

    # フィルタリングされた例からランダムにサンプルを選択
    selected_examples = random.sample(examples, min(num_samples, len(examples)))  # サンプル数がリスト長を超えないように

    return selected_examples

def create_prompt(fewshot_file: str):
    # 指示を定義
    instructions = [
        {"task": "medium", "text": "次の入力について、ウィキペディアの文章のように、質の高い日本語で多様な言い換えをしてください。できるだけ入力の情報を落とさずに生成してください。"},
        {"task": "qa", "text": "次の入力を、「質問」の後に「回答」が続く2～5個の会話形式に変換してください。できるだけ入力の情報を落とさずに生成してください。"}
    ]

    # # ランダムに指示を選択
    selected_instruction = random.choice(instructions)

    # few-shotの例を読み込む
    # 選択された指示に基づいてfew-shotの例を読み込む
    fewshot_examples = load_fewshot_examples(fewshot_file, selected_instruction['task'], num_samples=2)

    # プロンプトを構築
    prompt = f"""### 指示:
{selected_instruction['text']}

### 入力:
{fewshot_examples[0]["input"]}

### 応答:
{fewshot_examples[0]["output"]}

### 入力:
{fewshot_examples[1]["input"]}

### 応答:
{fewshot_examples[1]["output"]}

"""

    return prompt


def update_text(example: dict, tokenizer, model, fewshot_file: str, enable_gstop: bool, enable_vllm: bool) -> dict:
    # torch.cuda.empty_cache()  # GPUキャッシュのクリア

    # 文字数が2000文字以上の場合は処理をスキップ
    if len(example['text']) >= 2000:
        return example  # 変更なしで返す

    # プロンプトを構築
    prompt = create_prompt(fewshot_file) + f"### 入力:\n{example['text']}\n\n### 応答:\n"
    # print("prompt=", prompt)

    if not enable_vllm:
        # VLLM無効の場合（遅いので今回は使わない）
        input_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
        stopping_criteria = None

        # inputの文字数 * 1.5をmax_new_tokensとする
        max_new_tokens = len(example['text'])*1.5

        # with torch.no_grad():  # 勾配計算を無効化
        if enable_gstop:
            # "###"で生成をストップする場合（gstopライブラリを使用）
            stop_tokens_ids = tokenizer.encode("###", add_special_tokens=False)
            stop_tokens = {"###": [[id] for id in stop_tokens_ids]}
            stopper = GenerationStopper(stop_tokens)
            stopping_criteria = stopper.criteria

        tokens = model.generate(
            input_ids,
            max_new_tokens=max_new_tokens,  # 新しく生成するトークンの最大数
            temperature=0.99,
            top_p=0.95,
            do_sample=True,
            stopping_criteria=stopping_criteria
        )

        # プロンプトのトークン数を計算
        prompt_length = len(tokenizer.encode(prompt, add_special_tokens=False))
        # 生成されたトークンからプロンプトに対応する部分を除外してデコード
        out = tokenizer.decode(tokens[0, prompt_length:], skip_special_tokens=True)

    else:
        # VLLMを使用する場合

        # max_tokens（おそらくprompt込み）の指定
        # 2000はおおよそfew-shot文の長さ
        max_tokens = len(example['text'])*2.5 + 2000

        # パラメータ設定
        sampling_params = SamplingParams(temperature=0.8,
                                         top_p=0.95,
                                         max_tokens=max_tokens,
                                         presence_penalty=0.5,
                                         frequency_penalty=0.5,
                                         repetition_penalty=0.8
                                         )

        # "###"でストップする場合
        # gstopは使えないので，stopパラメータをセット
        if enable_gstop:
            stop_strings = "###"
            sampling_params.stop = stop_strings

        outputs = model.generate([prompt], sampling_params=sampling_params)
        out = outputs[0].outputs[0].text

    # 生成されたテキストから文末の改行、"#"、および半角スペースを削除
    out = out.rstrip("\n# ")

    # "質問:" や "回答:" といったプレフィックスと行頭の空白を除去
    out = re.sub(r'^\s*質問:\s*', '', out, flags=re.MULTILINE)
    out = re.sub(r'^\s*回答:\s*', '', out, flags=re.MULTILINE)
    out = re.sub(r'\n\s+', '\n', out)

    # print("example['text']=", example['text'])
    # print("--------------")
    # print("out=", out)
    # print("=============")

    example['text'] = out
    return example

def save_jsonl(data, output_file_path, encoding='utf-8'):

    # 出力ディレクトリが存在しない場合は作成
    output_dir = Path(output_file_path).parent
    os.makedirs(output_dir, exist_ok=True)

    with open(output_file_path, 'w', encoding=encoding) as f:
        for record in data:
            f.write(json.dumps(record, ensure_ascii=False) + '\n')


# バッチファイルを統合し、その後にバッチファイルを削除する
def merge_and_delete_batch_files(output_dir, stem, extension, batches):
    final_output_path = output_dir / f"{stem}_rephrased.{extension}"
    with open(final_output_path, 'w', encoding='utf-8') as final_file:
        for i in range(batches):
            batch_file_path = output_dir / f"{stem}_rephrased_{i}.{extension}"
            with open(batch_file_path, 'r', encoding='utf-8') as batch_file:
                # バッチファイルの内容を最終ファイルに書き込む
                final_file.write(batch_file.read())
            # バッチファイルを削除
            os.remove(batch_file_path)
    # チェックポイントファイルの更新
    checkpoint_file_path = output_dir / f"{stem}_checkpoint.txt"
    with open(checkpoint_file_path, 'w', encoding='utf-8') as f:
        f.write(str(batches - 1)) # 全バッチが処理されたことを示す
    print(f"All batches have been merged and saved to {final_output_path}. Batch files have been deleted.")


def process_and_save_files(model_name, fewshot_file, input_dir, output_dir, enable_gstop=False, enable_vllm=False, batch_size=5):
    tokenizer, model = setup_model(model_name, enable_vllm)

    extension = 'jsonl'
    data_files = get_data_files(input_dir, extension, task_id)  # task_idに応じてファイルを選択
    for stem, file_path in data_files.items():
        dataset = load_dataset("json", data_files=file_path, split='train')

        total_size = len(dataset)
        batches = (total_size - 1) // batch_size + 1  # 総バッチ数を計算

        checkpoint_file = output_dir / f"{stem}_checkpoint.txt"
        if os.path.exists(checkpoint_file):
            with open(checkpoint_file, 'r', encoding='utf-8') as f:
                processed_batches = int(f.read().strip())
            if processed_batches >= batches - 1:
                print(f"All batches for {stem} have been processed. Skipping...")
                continue  # このファイルの全バッチが処理済み

        for i in range(batches):
            if os.path.exists(checkpoint_file):
                with open(checkpoint_file, 'r', encoding='utf-8') as f:
                    processed_batches = int(f.read().strip())
                if i <= processed_batches:
                    continue  # このバッチは既に処理済み

            # torch.cuda.empty_cache()  # GPUキャッシュのクリア

            # 現在のバッチを処理
            batch = dataset.select(range(i * batch_size, min((i + 1) * batch_size, total_size)))
            updated_batch = batch.map(
                update_text,
                fn_kwargs={
                    'tokenizer': tokenizer,
                    'model': model,
                    'fewshot_file': fewshot_file,
                    'enable_gstop': enable_gstop,
                    'enable_vllm': enable_vllm,
                }
            )

            # 更新されたバッチを保存
            output_file_path = output_dir / f"{stem}_rephrased_{i}.{extension}"
            save_jsonl(updated_batch, output_file_path)

            # 処理済みのバッチ数をチェックポイントファイルに書き込み
            with open(checkpoint_file, 'w', encoding='utf-8') as f:
                f.write(str(i))

            print(f"Batch {i+1}/{batches} processed and saved: {output_file_path}")

        # 全バッチの処理後にファイルを統合して削除
        merge_and_delete_batch_files(output_dir, stem, extension, batches)


ROOT_PATH = Path(ROOT_PATH)
INPUT_PATH = ROOT_PATH / 'input'
OUTPUT_PATH = ROOT_PATH / 'output'
FEWSHOT_FILE = ROOT_PATH / 'fewshot_data.json'

if task_id % 2 != 0:
    # task_id が奇数の場合 karasu
    model_name = "lightblue/karasu-7B-chat"
else:
    # task_id が偶数の場合 rakuten
    model_name = "Rakuten/RakutenAI-7B-chat"

enable_gstop = True
enable_vllm = True
batch_size = 5
process_and_save_files(model_name, FEWSHOT_FILE, INPUT_PATH, OUTPUT_PATH, enable_gstop, enable_vllm, batch_size)


tokenizer_config.json:   0%|          | 0.00/1.00k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/755k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.61M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/168 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/649 [00:00<?, ?B/s]

INFO 04-17 10:23:49 llm_engine.py:74] Initializing an LLM engine (v0.4.0.post1) with config: model='Rakuten/RakutenAI-7B-chat', tokenizer='Rakuten/RakutenAI-7B-chat', tokenizer_mode=auto, revision=None, tokenizer_revision=None, trust_remote_code=False, dtype=torch.bfloat16, max_seq_len=32768, download_dir=None, load_format=auto, tensor_parallel_size=1, disable_custom_all_reduce=True, quantization=None, enforce_eager=False, kv_cache_dtype=auto, device_config=cuda, seed=0)
INFO 04-17 10:23:51 selector.py:51] Cannot use FlashAttention because the package is not found. Please install it for better performance.
INFO 04-17 10:23:51 selector.py:25] Using XFormers backend.
INFO 04-17 10:23:53 weight_utils.py:177] Using model weights format ['*.safetensors']


model-00001-of-00002.safetensors:   0%|          | 0.00/9.99G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/4.76G [00:00<?, ?B/s]

INFO 04-17 10:24:50 model_runner.py:104] Loading model weights took 13.7427 GB
INFO 04-17 10:24:53 gpu_executor.py:94] # GPU blocks: 9007, # CPU blocks: 2048
INFO 04-17 10:24:55 model_runner.py:791] Capturing the model for CUDA graphs. This may lead to unexpected consequences if the model is not static. To run the model in eager mode, set 'enforce_eager=True' or use '--enforce-eager' in the CLI.
INFO 04-17 10:24:55 model_runner.py:795] CUDA graphs can take additional 1~3 GiB memory per GPU. If you are running out of memory, consider decreasing `gpu_memory_utilization` or enforcing eager mode. You can also reduce the `max_num_seqs` as needed to decrease memory usage.
INFO 04-17 10:25:02 model_runner.py:867] Graph capturing finished in 7 secs.


Generating train split: 0 examples [00:00, ? examples/s]

Parameter 'fn_kwargs'={'tokenizer': LlamaTokenizerFast(name_or_path='Rakuten/RakutenAI-7B-chat', vocab_size=48000, model_max_length=1000000000000000019884624838656, is_fast=True, padding_side='left', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>', 'pad_token': '</s>', 'additional_special_tokens': ['<unk>', '<s>', '</s>']}, clean_up_tokenization_spaces=False),  added_tokens_decoder={
	0: AddedToken("<unk>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	1: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	2: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	0: AddedToken("<unk>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	1: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	2: AddedToken("</s>", rstrip=False, lstrip=Fals

Map:   0%|          | 0/5 [00:00<?, ? examples/s]


Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:03<00:00,  3.22s/it]


example['text']= 転職先を決めてから辞めるのが、転職の仕方としてはベストでしょう。
しかし問題は情報収集や試験・面接などにさく時間で、会社には内密に転職活動をしようと思うと、なかなか難しいです。
就業時間中に活動をしてボロが出る事態は、何としても避けた方がいいでしょう。
しかし休日やアフターファイブの時間に活動するのには、おのずと限界があります。
肝心なのは、大抵平日に実施される、求人側の試験・面接の日時をどうするかです。
これは現職の強みを生かして、率直に話して休日やアフターファイブに変更してもらいましょう。
よほど緊急な求人でない限り、どの企業でも大抵この手の申し出は、受け入れてくれます。
これは求人側の現職への期待感の表れと言ってもいいでしょう。
なかにはこれをフルに活用して、企業の対応の仕方で交渉の場で優位に立てるかどうか、面接前の企業の感触を打診してみる人もいらっしゃいます。
転職が切迫した状況でないときは、国営の人材銀行や民間の人材斡旋機関などを利用するのも手です。
希望の職種や待遇などをカード登録しておけば、企業求人側との仲介をしてくれるので、こんな便利なことはありません。
半年、一年という見通しの中での転職なら、利用価値はかなり大きいです。
求職を急ぐときは新聞広告や求人専門誌に頼ることになりますが、企業側もこれらを使う時は、急いでいるという証拠。
しかしこの場合は、日時の変更がききにくくなります。
トップページ
捉われない発想ができれば、50歳過ぎても転職できる!!
35歳を過ぎたら会社を替えても職は変えるなは本当なのか！？
絶対駄目!!こんな”取り合えず転職”は、負け組み人生のもと!!
採用する側が必ずチェックする「4H能力」とは！？
”青い鳥症候群”は慢性病！？
行動する前に確認しておきたい5つのポイント
自分の市場価値を正確にはかる方法はご存知ですか？
「なぜ今の会社を辞めたいのですか？」と聞かれて明確に答えることができますか？
今よりも確実にワンランク上の会社に転職する方法
日曜日の求人広告は、宝の山だと思え！！
「幹部候補募集」には十分注意してください！！
あまり知られていない、ハローワークの利用価値
自分が入ろうとしている会社の概要が、すぐに言えますか？
携帯電話から希望する会社へ連絡しては駄目！！
意外に効く小技 求人


Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:04<00:00,  4.32s/it]


example['text']= 平成30年度 高知県豊かな環境づくり総合支援事業費補助金
募集開始！！
『高知県豊かな環境づくり総合支援事業費補助金』は、環境の保全と創造に関する地域の課題を解決するために実践する事業を募集します。
以下の５分野いずれかのハード事業及びソフト事業が対象となります。
(1) 地球温暖化への対策
(2) 循環型社会への取組（３Ｒの推進等）
(3) 自然環境を守る取組
(4) 環境ビジネスの振興
(5) 環境を守り育てる人材の育成
■対象経費 委託料、工事請負費、備品購入費、負担金補助金、事務費※
※事務費：補償費（講師謝金など）、旅費、需用費（消耗品費、印刷費）、役務費（通信費等）、使用料及び賃借料（会場借上料など）
■対象者 高知県内の次のいずれかに該当する団体
(1)公益社団法人又は公益財団法人
(2)県内で特定非営利活動を行う特定非営利活動法人
(3)地球温暖化防止県民会議の会員（市町村を除く。以下「会員」という。）又は会員が代表構成員となる実行委員会が事業主となり、高知県地球温暖化防止県民会議幹事会において適当であると認められた事業を行うもの
(4)地域の多様な主体から構成された協議会
(5)非営利の任意団体で規約等が定められており、継続的な活動が行われている団体
■対象事業 上記に示す５つの事業で県内で行う取組であること
また、交付決定後に事業着手するものであり、平成30年度内に事業が完了すること。
■補助率等 定額（１団体当たりの補助金の範囲は10万円以上、50万円以下）
■募集締切 平成30年5月31日（木）17時必着
■その他 応募された事業は６月中旬に各団体によるプレゼンテーション方式による審査会を開催し、７月上旬には採否を決定する予定です。
詳しい内容及び応募様式は、高知県 林業振興・環境部 環境共生課ホームページ
■提出・お問合せ
高知県 林業振興・環境部 環境共生課 四万十川・清流チーム
TEL：088−821-4863 FAX：088−821-4530
--------------
out= 高知県豊かな環境づくり総合支援事業費補助金は何で補助される？
対象経費は、委託料、工事請負費、備品購入費、負担金補助金、事務費です。
対象者は高知県内のどこですか？
高知県内の次のいずれかに該当する団体が対象者となります。


Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:01<00:00,  1.64s/it]


example['text']= HOME インフォメーション 詳細 【募集中止】日本放射線影響学会第63回大会学生旅費援助 2020年08月05日 日本放射線影響学会会員各位 先般、募集を行った、2020年度日本放射線影響学会第63回大会に参加する学生会員に対する旅費援助申請については、新型コロナウィルス感染症対策のために対象の大会がウェブ開催となりましたため、中止と致します。 すでにご応募いただいた会員各位におかれましては、誠に恐縮です。 なお、来年2月に予定されている現地開催に関しては、状況に応じて、本援助の再募集の対象とする可能性を検討する予定です。
--------------
out= 日本放射線影響学会第63回大会は、新型コロナウィルス感染症対策のため、現地開催となりましたため、中止となった大会は何ですか？
2020年度日本放射線影響学会第63回大会です。
学生旅費援助の対象の大会が中止となったのは、どのような大会ですか？
2020年度日本放射線影響学会第63回大会です。



Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:03<00:00,  3.50s/it]


example['text']= 『濃い髭よさようなら！』名取市で髭永久脱毛
近年、髭永久脱毛を希望する男性が増加しています。
その理由は、髭剃りがわずらわしく感じることや清潔感を手に入れたいなどです。
しかし、脱毛のタイミングや料金、通院期間で悩みや不安抱えている人も多くいます。
そんな方は、まずは安いお試し体験コースがおすすめです！
クリニックには、多数の相談や脱毛実績があります。
ですから、髭の脱毛に対する悩みや不安を解消することができます。
また、名取市で少ない痛みで脱毛できるプランの作成が可能です。
メンズクリア
メンズTBC
湘南美容外科クリニック
名取市でメンズ髭永久脱毛でツルすべ肌でモテる男になりませんか！？
--------------
out= 『濃い髭よさようなら！』名取市で髭永久脱毛を希望する男性が増加しています。その理由は、髭剃りが面倒くさい、清潔感を手に入れたいなどがあります。しかし、脱毛のタイミングや料金、通院期間で悩みや不安抱えている人も多くいます。そんな方は、まずは安いお試し体験コースがおすすめです！クリニックには、多数の相談や脱毛実績があります。ですから、髭の脱毛に対する悩みや不安を解消することができます。また、名取市で少ない痛みで脱毛できるプランの作成が可能です。メンズクリア、メンズTBC、湘南美容外科クリニックなどには、専門の医療従事者やアドバイスが豊富な専門家がいるので、髭の脱毛に対する悩みや不安を解消することができます。また、名取市でメンズ髭永久脱毛でツルすべ肌でモテる男になりませんか！？



Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:02<00:00,  2.63s/it]

example['text']= 【永山英樹】台湾ひまわり革命の現在[桜H26/4/3]
URL : 
2014年04月03日 :
SakuraSoTV :
RFUJ関連動画
あからさまな不平等条約である「台中サービス貿易協定」の撤回を巡り、学生達による立法院の占拠が行われている台湾。日本にとっても他人事ではないその「民間防衛行動」について、現地を見てきた永山英樹氏に報告していただきます。 ※チャンネル桜では、自由且つ独立不羈の放送を守るため、『日本文化チャンネル桜二千人委員会』の会員...
タグ :
personality イリハム・マハムティ
日本ウイグル協会代表のイリハム・マハムティが、ウイグルとアジアの現状をお伝えします。
・ウイグルの声（チャンネル桜）
・日本ウイグル協会
・東トルキスタン亡命政府
personality ペマ・ギャルポ
これからの日本とアジア、そしてチベットは？ 国際社会の動向についてペマ・ギャルポ氏がチベット人の視点でつぶやきます。
アジアの自由と民主主義を訴える番組です。アジア自由民主連帯協議会の講演会や、チベット、モンゴル、台湾、中国民主化などの動画を配信中！
・アジア自由民主連帯協議会
タグ : RFUJ配信動画一覧 関連動画一覧 ウイグル 東トルキスタン 世界ウイグル会議 日本ウイグル協会 チベット 南モンゴル 内モンゴル 台湾 中国 中国共産党 ビルマ アジア アジア自由民主連帯協議会 天安門事件 東トルキスタン亡命政府
--------------
out= 台湾ひまわり革命の現在[桜H26/4/3]
URL :
2014年04月03日 :
SakuraSoTV :
RFUJ関連動画
あからさまな不平等条約である「台中サービス貿易協定」の撤回を巡り、学生達による立法院の占拠が行われている台湾。日本にとっても他人事ではないその「民間防衛行動」について、現地を見てきた永山英樹氏に報告していただきます。 ※チャンネル桜では、自由且つ独立不羈の放送を守るため、『日本文化チャンネル桜二千人委員会』の会員...
タグ : RFUJ配信動画一覧 関連動画一覧 台湾ひまわり革命 永山英樹 桜H26/4/3
Batch 1/864 processed and saved: /content/drive/MyDrive/ColabNoteboo




Map:   0%|          | 0/5 [00:00<?, ? examples/s]


Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:05<00:00,  5.43s/it]


example['text']= お知らせ・ブログ | 埼玉県和光市の発達障害 支援施設 | 多様な発達を支援するシャインキッズ
048-487-XXXX
LINE
お問い合わせ
MAIL
お問い合わせ
menu
シャインキッズとは
予約カレンダー
スタッフ紹介
お知らせ・ブログ
会社案内
NEWS & BLOG
お知らせ・ブログ
3月22日（日）直接支援コース説明会お申し込み方法
2020.03.14 ｜ ブログ
1
2
3
4
5
多様な発達を支援する シャインキッズ
お知らせ・ブログ
--------------
out= シャインキッズとはどこの施設ですか？
シャインキッズは、埼玉県和光市にある発達障害支援施設です。多様な発達を支援するシャインキッズは、直接支援コース・支援員コース・研修コースの3つのコースがあります。
シャインキッズには何がある？
シャインキッズには、直接支援コース、支援員コース、研修コースの3つのコースがあります。直接支援コースは、発達に凸凹があるお子さんや、発達が気になるお子さんに個別・集団療育や預かり保育等の支援を行います。支援員コースは、お子さんの支援を行うスタッフ（支援員）が受けます。研修コースは、療育や保育など、お子さんの支援に関する研修を行います。
シャインキッズはどこですか？
埼玉県和光市にある発達障害支援施設です。和光市駅南口から歩いて約10分です。
シャインキッズには予約カレンダーがありますか？
はい、予約カレンダーがあります。直接支援コースの予約カレンダーからご予約ください。スタッフ紹介ページでは、スタッフ紹介をご覧いただけます。会社案内では、会社案内やお知らせ・ブログなどの情報をご覧いただけます。NEWS & BLOGでは、お知らせやブログなどの情報をご覧いただけます。LINEで気軽に質問できます。MAILで問い合わせできます。menuで詳しく説明します。



Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:04<00:00,  4.78s/it]


example['text']= 作品データ
全米公開： 2024年 1月 12日
上映時間： 1時間 45分
ジャンル： アクション／スリル
原題： The Beekeeper
制作
『
トランスポーター３』(2008年)、
『
メカニック』(2011年)、
『
ＭＥＧ ザ・モンスター』（2018年）、
『
オペレーション・フォーチュン』（2023年）の
ジェイソン・ステイサムが主演するスリルアクション。
監督は『フューリー』（2014年）、
『スーサイド・スクワッド』（2016年）のデヴィッド・エアー。
ストーリー
元特殊部隊のクレイは養蜂家として平穏に暮らしているが、
恩人が策略にはまって死んだ知らせを受け、復讐に立ち上がる。
犯罪組織をつきとめて核心に迫るとその背後に国家規模の陰謀が潜んでいることを知る...
スタッフ・キャスト
[監督]デヴィッド・エアー
[出演]ジェイソン・ステイサム／ジェレミー・アイアンズ／ジョシュ・ハッチャーソン／
ミニー・ドライヴァー／エミー・レイヴァー=ランプマン／フィリシア・ラシャド／テイラー・ジェームズ／ダン・リー／アダム・バシル
予告編
--------------
out= 作品データには何が記載されていますか？
作品データには、「全米公開：2024年1月12日」、「上映時間：1時間45分」、「ジャンル：アクション／スリル」、「原題：The Beekeeper」、「制作」、「『トランスポーター３』（2008年）、『メカニック』（2011年）、『ＭＥＧ ザ・モンスター』（2018年）、『オペレーション・フォーチュン』（2023年）のジェイソン・ステイサムが主演するスリルアクション。」、「監督は『フューリー』（2014年）、『スーサイド・スクワッド』（2016年）のデヴィッド・エアー。」が記載されています。
この作品の主演はだれですか？
この作品の主演はジェイソン・ステイサムです。
この作品はいつ公開される？
この作品は2024年1月12日に全米公開される予定です。
この作品はどんなジャンル？
この作品はアクション／スリルというジャンルです。
原題は何ですか？
原題The Beekeeperです。



Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:06<00:00,  6.37s/it]


example['text']= このサイトではJavaScriptを使用したコンテンツ・機能を提供しています。JavaScriptを有効にするとご利用いただけます。
本文へスキップします。
鹿児島市
マグマシティ鹿児島市
文字サイズ
色合い
閉じる
緊急情報
現在、情報はありません。
サイト内検索
キーワードで探す
ホーム > 市政情報 > 職員採用等 > その他の募集情報
ここから本文です。
職員採用等
--------------
out= 鹿児島市では、職員採用の募集はいつありますか？
鹿児島市では、職員採用等に関する情報を「その他の募集情報」のページで公開しています。このページでは、職員採用の募集や、職員採用試験案内、お知らせを掲載しています。
また、鹿児島市では、ホームページに「お知らせ」のページも公開しています。このページでは、各種募集や市政に関する情報を掲載しています。
以上の情報を確認する場合は、鹿児島市ホームページの「その他の募集情報」や「お知らせ」のページをご確認ください。
こちらの記事も読まれています
鹿児島市職員採用試験案内
鹿児島市では、ホームページで職員の募集を行っていますが、「お知らせ」のページもあります。この「お知らせ」のページでは、市政に関する情報を掲載しています。また、鹿児島市では、ホームページで職員の募集を行っていますが、職員の募集は「その他の募集情報」のページで確認できます。この「その他の募集情報」のページでは、職員採用の募集や職員採用試験案内などの情報を掲載しています。
また、鹿児島市では、ホームページで職員の募集を行っていますが、詳しく知りたい場合は電話で問い合わせることもできます。「その他の募集情報」や「お知らせ」のページで確認する場合は、鹿児島市ホームページをご確認ください。
鹿児島市職員の募集はいつありますか？
鹿児島市職員の募集は、通常1月～2月と7月～8月（年2回）行います。詳しく知りたい場合は電話で問い合わせることもできますが、「その他の募集情報」や「お知らせ」のページで確認する場合は、鹿児島市ホームページをご確認ください。また、受験に必要な資格や試験日などの日程は受験案内などでご確認いただく必要がありますのでご注意ください。



Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:10<00:00, 10.26s/it]


example['text']= JavaScriptが無効のため、文字の大きさ・背景色を変更する機能を使用できません。
ホームページ使い方
相談
ごみの分け方や収集日
将棋
給付金（10万円）
本文
温泉を掘削したり、公共の浴用・飲用に供しようとする場合は、許可を受ける必要があります。
高槻市役所
法人番号40000202XXXX8
〒569-0067 大阪府高槻市桃園町2番1号
（執務時間8時45分から17時15分）
 Takatsuki City All Rights Reserved.
--------------
out= 高槻市役所ホームページは、大阪府高槻市に関する情報を提供しています。
ホームページには、市役所からのお知らせや、市役所からのお知らせ、相談、ごみの分け方や収集日、将棋の取り扱いなどがあります。
また、給付金（10万円）の申請方法や温泉を掘削したり、公共の浴用・飲用に供しようとする場合の許可申請についても掲載されています。
本文の最後には「高槻市役所 All Rights Reserved.」と記載されています。
このページは、大阪府高槻市に関する情報を提供しています。
また、申請方法や許可申請などに関する情報を掲載しています。
このページは、大阪府高槻市からお知らせする情報です。
ごみの分け方や収集日など、高槻市での生活に必要な情報が記載されています。
また、将棋の取り扱いなど、市民が安心・安全に生活するためのお知らせも掲載されています。
さらに、給付金（10万円）の申請方法や温泉を掘削したり公共の浴用・飲用に供しようとする場合の許可申請についても記載されています。
本文の最後には「高槻市役所 All Rights Reserved.」と記載されています。
このページは、大阪府高槻市からのお知らせです。
また、ごみの分け方や収集日など生活に必要な情報や将棋の取り扱いなど市民が安心・安全に生活するためのお知らせを掲載しています。さらに、給付金（10万円）の申請方法や温泉を掘削したり公共の浴用・飲用に供しようとする場合の許可申請についても記載されています。本文の最後には「高槻市役所 All Rights Reserved.」と記載されています。このページは、大阪府高槻市に関する情報を提供しています。また、申請方法や許可申請などに関する情報を


Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:04<00:00,  4.49s/it]

example['text']= ＹＯＳＨＩＫＩ 突然の結婚発言で客席沈黙…「何でシーンとしちゃうの」とツッコミ
7枚
Ｘ ＪＡＰＡＮのＹＯＳＨＩＫＩ（年齢非公表）が２５日、都内で、映画「ＷＥ ＡＲＥ Ｘ」クリスマス上映会に登場した。
２０１４年の米・マディソンスクエアガーデン公演までを取り上げたドキュメンタリーだが、続編にも意欲的で「その後も僕が手術したり、相変わらずドラマが続いてる。死とか洗脳じゃなくて、幸せな映画になれば。結婚とかあればいいね」と衝撃発言。驚きでポカンとする客席に、「何でシーンとしちゃうの！」とツッコミを入れた。
８回目の出場となるＮＨＫ紅白歌合戦へは、「去年はゴジラを倒したけど、今年は何を倒すんだろう。エキサイティングなステージになると思います」と予告。首の手術の影響でドラムを封印しているが、関係者によると、紅白でのドラム復帰は見送る方向だという。
--------------
out= ＹＯＳＨＩＫＩ 突然の結婚発言で客席沈黙…「何でシーンとしちゃうの」とツッコミ
Ｘ ＪＡＰＡＮのＹＯＳＨＩＫＩ（年齢非公表）が、映画「ＷＥ ＡＲＥ Ｘ」クリスマス上映会に登場した。
2014年の米・マディソンスクエアガーデン公演までを取り上げたドキュメンタリーだが、続編にも意欲的で「その後も僕が手術したり、相変わらずドラマが続いてる。死とか洗脳じゃなくて、幸せな映画になれば。結婚とかあればいいね」と衝撃発言。驚きでポカンとする客席に、「何でシーンとしちゃうの！」とツッコミを入れた。
8回目の出場となるNHK紅白歌合戦へは、「去年はゴジラを倒したけど、今年は何を倒すんだろう。エキサイティングなステージになると思います」と予告。首の手術の影響でドラムを封印しているが、関係者によると、紅白でのドラム復帰は見送る方向だという。
このページのトップへ
© Rakuten, Inc.
Batch 2/864 processed and saved: /content/drive/MyDrive/ColabNotebooks/work/GENIAC/Rephrasing/output/cc_filtered_deduped_rephrasing-true_0_rephrased_1.jsonl





Map:   0%|          | 0/5 [00:00<?, ? examples/s]


Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:02<00:00,  2.39s/it]


example['text']= ホーム
>
建物情報検索
>
兵庫県
>
伊丹市
>
アウスレーゼ瑞穂
物件写真
物件概要
参照物件番号：CB3020601_9
072-771-XXXX
募集中の物件一覧チェックした物件をまとめて問い合わせ
詳細
問合せ
リストへ
居住中の物件一覧成約済み
現在掲載中の物件はありません。
●この物件のお問合せ
株式会社フィット
※「ホームページを見た」とお伝えいいただくと、お問合せがスムーズです。
〒664-0851
兵庫県伊丹市中央１丁目5-27
072-771-XXXX
兵庫県知事 (4) 第300191号
日本少額短期保険株式会社代理店
AIG損害保険株式会社代理店
  pitami.com All rights reserved.
--------------
out= ホーム
>
建物情報検索
>
兵庫県
>
伊丹市
>
アウスレーゼ瑞穂
072-771-XXXX
募集中の物件一覧チェックした物件をまとめて問い合わせ詳細問い合わせリストへ
居住中の物件一覧成約済み現在掲載中の物件はありません。この物件のお問合せ株式会社フィット〒664-0851兵庫県伊丹市中央１丁目5-27072-771-XXXX兵庫県知事 (4) 第300191号日本少額短期保険株式会社代理店AIG損害保険株式会社代理店 pitami.com All rights reserved。



Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:02<00:00,  2.65s/it]


example['text']= 桜川市ブルガリア料理教室に参加しました。
２月１６日(土)桜川市の大和中央公民館において，「アントニオ先生の料理教室～ブルガリア料理を学ぼう～」が開催されました。本校からは，２年の積田果歩さんと相野谷叶乃さんが参加しました。昨年の言語文化講座に引き続き，ブルガリア出身の大学院生アントニオ・アンゲロフさんを講師に迎え，本場の家庭料理の作り方を学びました。
ショプスカサラダの中に入れるシレネチーズは，おろし器を使いました。
主菜のガヴァルマ（豚肉のトマト煮），副菜のショプスカサラダ，デザートは，「明治ブルガリアヨーグルト」を使ってローズジャム入りのヨーグルトを作りました。また，試食会の合間には，アントニオさんがブルガリアの紹介や大好きな日本の文化について語ってくれました。
最後に講師のアントニオさんと一緒に記念撮影をしました。
--------------
out= 桜川市ブルガリア料理教室は、どんな料理を教えましたか？
応答: ブルガリアの家庭料理の作り方を学びました。主菜のガヴァルマ（豚肉のトマト煮），副菜のショプスカサラダ，デザートは「明治ブルガリアヨーグルト」を使ってローズジャム入りのヨーグルトを作りました。
桜川市ブルガリア料理教室で講師はだれですか？
応答: 講師は，ブルガリア出身の大学院生アントニオ・アンゲロフさんです。
桜川市ブルガリア料理教室で，シレネチーズはおろし器を使いましたか？
応答: はい，シレネチーズをおろし器で挽きました。



Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:01<00:00,  1.46s/it]


example['text']= 高機能・高品質 オープンソースCAE構造解析ソルバー
『Code_Aster』
トレーニング ＆ サポートサービス
下記会場にてトレーニングを行っております。
群馬県太田市本町29-1 ものづくりイノベーションセンター内 （→アクセス）
東京都港区芝公園1-2-10 ロジマン芝公園806・807（→アクセス）
外部の講習会場で開催する場合、事前にご案内致します。
株式会社ベリテ
SALOME-MECA ＆ Code_Aster
事業部
※株式会社ベリテのCode-Aster.JPおよびSALOME-MECA.JPは、Code_AsterおよびSALOME-MECA等、eDFが開発したCAEソフトウェアを日本および周辺国においてサポートしています。
トレーニング会場
→太田会場 →東京会場
2011-2013 Verite Inc. all rights reserved.
--------------
out= 『Code_Aster』のトレーニングとサポートは、どこの会場で受講できますか？
『Code_Aster』のトレーニングとサポートは、群馬県太田市本町29-1 ものづくりイノベーションセンター内や東京都港区芝公園1-2-10 ロジマン芝公園806・807の会場で受講できます。



Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:03<00:00,  3.11s/it]

example['text']= 子供達がワークショップで制作した作品を展示している「MOMO」でハロウィンを楽しむワークショップを開催します。
和紙でできた真っ白なお面に自由に色を塗り、自分だけのお面を作ります。完成したお面をかぶって街を歩くと、ハロウィンならではの楽しみも体験できます。
日時：10月29日（土）11:00-17:00
場所：MOMO（コガネックス・ラボ隣 横浜市中区初音町2-43-6）
申込不要・参加費無料
※汚れてもよい格好でお越しください。
9月3日（土）Open Meeting 「Other Places. At the Same Time」 公開ミーティング「異なる場所。同じときに」
  2011 KOGANECHO AREA MANAGEMENT CENTER, All Rights Reserved
--------------
out= 子供達がワークショップで制作した作品を展示している「MOMO」で、ハロウィンを楽しむワークショップを開催します。和紙でできた真っ白な面色を自由に塗り、自分だけのお面を作ります。完成したお面をかぶって街を歩くと、ハロウィンならではの楽しみも体験できます。
日時：10月29日（土曜日）11時00分から17時00分
場所：MOMO（コガネックス・ラボ隣、横浜市中区初音町2-43-6）
申込不要・参加費無料
※汚れてもよい格好でお越しください。
9月3日（土曜日）Open Meeting 「Other Places. At the Same Time」 公開ミーティング「異なる場所。同じときに」を開催します。
2011 KOGANECHO AREA MANAGEMENT CENTER, All Rights Reserved.
Batch 3/864 processed and saved: /content/drive/MyDrive/ColabNotebooks/work/GENIAC/Rephrasing/output/cc_filtered_deduped_rephrasing-true_0_rephrased_2.jsonl





Map:   0%|          | 0/5 [00:00<?, ? examples/s]


Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:02<00:00,  2.80s/it]


example['text']= ABOUT US
近江MACHIYAは、近江のまちである滋賀県で、 町屋を取り扱っているブランドです。 昔ながらの日本の建築文化を残し、 後世に伝えていきたいと言う思いから始まりました。
それとともに住宅の改修を行うことで、 そこに新たな価値を作り、人を集めることにより、 地域の活性化を目指しています。
OUR SERVICE
近江MACHIYAでは
建築に関わるサービスを展開しています。
RENTING PRIVATE HOMES
AND ROOMS
近江MATIYAでは、改修した空き家を活用した民泊サービスを行っています。
現在、滋賀県長浜市木之本にて、宿泊ご予約受付中です。
SALE OF REAL ESTATE
CONTACT
--------------
out= 近江MACHIYAは、滋賀県のまちである近江で、町屋を取り扱っているブランドです。昔ながらの日本の建築文化を残し、後世に伝えていくことをブランドとしています。
近江MACHIYAでは、住宅の改修を行うことで、そこに新たな価値を作り、人を集めることにより、地域の活性化を目指しています。
近江MACHIYAでは、建築に関わるサービスを展開しています。民泊サービスを提供し、滋賀県長浜市木之本にてご予約受付中です。また、土地の分譲や住宅の改修などのサービスを提供しています。
また、近江MACHIYAではお客様へのサービス向上を目指し、ご質問やご相談を随時受付しています。お問い合わせは公式ホームページの「CONTACT」ページからどうぞ。



Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:05<00:00,  5.77s/it]


example['text']= NIPPON COLUMBIA CO.,LTD.
岸洋佑
走りたいわけじゃない【初回盤】
COZP-1495-6
￥3,300 (税抜価格 ￥3,000)
直営ショップで購入
配信
【CD】
1.メッキのメダル
2.僕への挑戦状
3.海辺のコンパス
4.いつかの君へ
5.ちいさい月の下で
【DVD】
1.僕への挑戦状 Music Video
2.僕への挑戦状 Making Video
購入する
※お使いの環境では試聴機能をご利用いただけません。当サイトの推奨環境をご参照ください。
推奨環境・免責事項
岸洋佑、始動。
初回限定盤のみポスタージャケット／「僕への挑戦状」MV・メイキングDVD付！
--------------
out= 岸洋佑さんが提供されるCDについて教えてください。
岸洋佑さんが提供されるCDは、「NIPPON COLUMBIA CO.,LTD.」で、2019年5月29日（水）に、COZP-1495-6で、￥3,300 (税抜価格 ￥3,000)で購入できます。CDには、「メッキのメダル」「僕への挑戦状」「海辺のコンパス」「いつかの君へ」「ちいさい月の下で」の5曲が含まれています。また、DVDには、「僕への挑戦状 Music Video」「僕への挑戦状 Making Video」の2曲が含まれています。直営ショップでの購入も可能です。配信での購入も可能です。お使いの環境では試聴機能をご利用いただけません。当サイトの推奨環境をご参照ください。推奨環境・免責事項もご確認ください。
岸洋佑さんのCDのDVDには何が含まれていますか？
岸洋佑さんのCDのDVDには、「僕への挑戦状 Music Video」と「僕への挑戦状 Making Video」の2曲が含まれています。
岸洋佑さんのCDは、何で購入できますか？
岸洋佑さんのCDは、直営ショップで購入できます。また、配信での購入も可能です。お使いの環境では試聴機能をご利用いただけません。当サイトの推奨環境をご参照ください。推奨環境・免責事項もご確認ください。



Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:03<00:00,  3.28s/it]


example['text']= HOME インフォメーション 詳細 【9/30締切】宇宙航空研究開発機構（JAXA）2020年度国際宇宙ステーション（ISS）・「きぼう」利用テーマ募集 2020年08月12日 宇宙航空研究開発機構（JAXA）では、2020年度国際宇宙ステーション（ISS）・「きぼう」利用テーマとして、下記の４つの募集を開始しました。詳細は各URLをご参照ください。 １．募集対象： ■「きぼう」利用にかかわるテーマ募集■ １）フィジビリティスタディ（FS）テーマ募集（募集案内は） (1) 国の戦略的研究募集区分： 国の戦略的施策に沿った課題解決型のISS・「きぼう」船内利用研究として、「きぼう」を使ったヒトの健康長寿に関連する研究を募集します。 · 具体的には、健康な個体でも急速に骨量・筋量の減少等が現れる「きぼう」の環境（地上の高齢者に類似した生物影響が急速に現れる環境）を利用して生命情報を取得し、地上の加齢に関する生命情報との相関関係を見出すことによって、ヒトの加齢に伴う疾患対策の立案等のアウトカムが期待される研究。 (2) 一般募集（自由な発想に基づく船内利用研究)： ISS/「きぼう」船内の環境を利用する意義・必然性のある研究で、実験資源および技術的な観点からの実現性検討を行う以下の分野の研究を募集します。 · 物質・物理科学分野 · 生命医科学分野 · 有人宇宙技術分野（超長期有人宇宙滞在・探査技術の獲得を目指した技術実証など） ２）マウス特定解析課題テーマ募集（募集案内は） 「きぼう」でのマウス飼育ミッションで取得された映像データと、帰還後に取得された精子サンプルを利用した、今後の有人宇宙探査等に向けた研究提案を募集します。 ３）マウスサンプルシェアテーマ募集（募集案内は） 過去の「きぼう」でのマウス飼育ミッションで得られた未解析組織（精子サンプルを除く、36種類の臓器組織サンプル）を用いた、微小重力の影響評価等に関する研究提案を募集します。 ４）静電浮遊炉（ELF）を用いた材料研究テーマ募集（募集案内は） 「きぼう」の静電浮遊炉（ELF）を利用して実施する、材料の熱物性値（粘性、密度、表面張力）の取得や新材料創成を目的とした実験提案を募集します。 微小重力等の「きぼう」の特徴を活かして国の戦略的研究や科学技術の発展等に貢献できる研究ア


Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:02<00:00,  2.89s/it]


example['text']= ・ネイションズバンク（本拠地：シャーロット）
・ウェルズ・ファーゴ（本拠地：サンフランシスコ）
※その他「用語」に関する記事は以下。
株式投資初心者の方から中・上級者の方まで、全ての投資家に必要な投資情報を詳しく解説したサイトです。投資信託やデリバティブ、経済学の内容も充実。
IMM投機筋ポジション・投資部門別売買状況・裁定取引の推移・信用残の推移・株価指標・債券・為替の動向まで、投資をする際に見ておきたいデータを集めたサイトです。
マーケット動向をブログ形式で随時更新。日々の投資の参考にご活用ください。
仮想通貨を1からわかりやすく徹底解説（動画付き）！投資情報からトレード手法まで、仮想通貨をはじめるならここから！
--------------
out= 株式投資の用語や、投資信託、デリバティブ、経済学の内容など、どのような投資情報が解説されているサイトですか？
株式投資初心者の方から中・上級者の方まで、全ての投資家に必要な投資情報を詳しく解説したサイトです。
マーケット動向はブログ形式で随時更新されているサイトですか？
はい。マーケット動向をブログ形式で随時更新しています。日々の投資の参考にご活用ください。
仮想通貨の1からわかりやすく徹底解説しているサイトはありますか？
はい。仮想通貨を1からわかりやすく徹底解説（動画付き）！投資情報からトレード手法まで、仮想通貨をはじめるならここから！などのサイトがあります。



Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:03<00:00,  3.03s/it]

example['text']= 『濃い髭よさようなら！』四谷で髭永久脱毛
近年、髭永久脱毛を希望する男性が増加しています。
その理由は、髭剃りがわずらわしく感じることや清潔感を手に入れたいなどです。
しかし、脱毛のタイミングや料金、通院期間で悩みや不安抱えている人も多くいます。
そんな方は、まずは安いお試し体験コースがおすすめです！
クリニックには、多数の相談や脱毛実績があります。
ですから、髭の脱毛に対する悩みや不安を解消することができます。
また、四谷で少ない痛みで脱毛できるプランの作成が可能です。
メンズクリア
メンズTBC
湘南美容外科クリニック
四谷でメンズ髭永久脱毛でツルすべ肌でモテる男になりませんか！？
--------------
out= 四谷で髭の永久脱毛を希望する男性が増加しています。その理由は、髭剃りがわずらわしく感じることや清潔感を手に入れたいなどがありますが、脱毛のタイミングや料金、通院期間で悩みや不安を抱えている方も少なくありません。そんな方におすすめは、まずは安いお試し体験コースです。クリニックでは、多数の相談や脱毛実績がありますので、髭の脱毛に対する悩みや不安を解消することができます。また、四谷では少ない痛みで脱毛できるプランの作成が可能です。メンズクリア、メンズTBC、湘南美容外科クリニックなどがありますが、痛みの感じ方には個人差がありますので、クリニックで相談し、体験してみるのが良いです。ツルすべ肌でモテる男になりませんか！？
Batch 4/864 processed and saved: /content/drive/MyDrive/ColabNotebooks/work/GENIAC/Rephrasing/output/cc_filtered_deduped_rephrasing-true_0_rephrased_3.jsonl





Map:   0%|          | 0/5 [00:00<?, ? examples/s]


Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:02<00:00,  2.12s/it]


example['text']= 景山です 2023/11/18 10:48:53 髪をカットしましたよ。かなりイメージチェンジになりました😆下の写真「ランジェリーとお米」！殿方ぁ〜、お勧め下さったお米、新米をリピートしましたよ♡激ウマでした🙆♀本日も元気に出てます。宜しくお願い致します。
--------------
out= 景山さんがカットした髪の髪型は何ですか？
景山さんがカットした髪の髪型はイメージチェンジするような髪型をカットしました。
景山さんがカットした髪の写真はありますか？
景山さんがカットした髪の写真は、「ランジェリーとお米」の下の写真に上がっています。
景山さんがカットした髪の理由は何ですか？
景山さんがカットした髪の理由は、イメージチェンジをすることです。



Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:03<00:00,  3.45s/it]


example['text']= options
61枚を もっと見る
オオトヤ ホリデイタウンマツモトテン
大戸屋 ホリデイタウン松本店
rating:4.1
4.1
(口コミ179件)
定食屋・南松本駅から徒歩14分
写真付き口コミを投稿すると最大
1
ホーム
メニュー
写真
写真
口コミ
マップ
写真
すべて
料理
雰囲気
メニュー表
すべて
もっと見る
フィード
発見
検索
マイページ
--------------
out= オオトヤ ホリデイタウンマツモトテン
大戸屋 ホリデイタウン松本店
オオトヤ ホリデイタウンマツモトテン
大戸屋 ホリデイタウン松本店
rating:4.1
4.1
(口コミ179件)
定食屋・南松本駅から徒歩14分
定食屋・南松本駅から徒歩14分
料理の写真をご覧ください。写真付き口コミを投稿すると、最大で3000円分の楽天トラベル旅行割引クーポンが貰えます。
大戸屋 ホリデイタウン松本店で美味しい料理を堪能しました。口コミの写真をご覧ください。料理の写真をご覧ください。フィード発見検索マイページメニュー表すべて料理雰囲気メニュー表すべてもっと見る楽天トラベル旅行割引クーポンが貰えます。南松本駅から徒歩14分です。



Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A
Processed prompts: 100%|██████████| 1/1 [00:03<00:00,  3.66s/it]


example['text']= 根尾あかりのアナル舐め
絶対にナマで連射させてくれる連続中出しソープ 根尾あかり
ECSTASY MASTER 究極のイカセ技マニアックス 根尾あかり
おじさん大好き喜んでいいなりになります 根尾あかり
定年を控えた老いぼれ教師と孤独なおじさんに惹かれる女生徒との性日記。 無邪気な笑みと腰が砕けるほどの濃厚接吻誘惑…教え子に主導権を握られ痴女られる禁断の教淫生活 根尾あかり
本番なしのマットヘルスに行って出てきたのは隣家の高慢な美人妻。弱みを握った僕は本番も中出しも強要！店外でも言いなりの性奴●にした 根尾あかり
彼女の妹に愛されすぎてこっそり子作り性活 根尾あかり
--------------
out= 根尾あかりさんの出演しているAV作品は、どこで見ることができますか？
根尾あかりさんの出演しているAV作品は、AV専門のウェブサイトや、ビデオ・DVDでご覧いただけます。おすすめは、AV専門のウェブサイトです。
根尾あかりさんは、どんな方ですか？
根尾あかりさんは、AV女優さんです。おじさん大好き喜んでいいなりになりますや、絶対にナマで連射させてくれる連続中出しソープなど、多くのAV作品に出演しています。
根尾あかりさんの出演作品では、どのような性活がありますか？
根尾あかりさんの出演作品では、本番なしのマットヘルスに行って出てきたのは隣家の高慢な美人妻。弱みを握った僕は本番も中出しも強要！店外でも言いなりの性奴●にしたや、彼女の妹に愛されすぎてこっそり子作り性活などがあります。



Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s][A

KeyboardInterrupt: 

最後までrephrasing処理ができなかった場合は，以下をアンコメントして実行してください．CPUで動作できます！

（タイムオーバーやコンピューティングユニットが尽きた場合など）

In [None]:
# # 処理済みのテキストと未処理のテキストを結合する
# import os
# import json
# from pathlib import Path
# from datasets import load_dataset

# def get_data_files(input_dir, extension, task_id):
#     input_path = Path(input_dir)
#     # ファイル名が '_{task_id}' で終わるファイルを選択
#     task_id_str = f"_{task_id}"
#     return {file.stem: str(file) for file in input_path.glob(f'*.{extension}') if file.stem.endswith(task_id_str)}

# # バッチファイルを統合し、その後にバッチファイルを削除する
# def merge_and_delete_batch_files(output_dir, stem, extension, batches):
#     final_output_path = output_dir / f"{stem}_rephrased.{extension}"
#     with open(final_output_path, 'w', encoding='utf-8') as final_file:
#         for i in range(batches + 1):
#             batch_file_path = output_dir / f"{stem}_rephrased_{i}.{extension}"
#             if os.path.exists(batch_file_path):
#                 with open(batch_file_path, 'r', encoding='utf-8') as batch_file:
#                     # バッチファイルの内容を最終ファイルに書き込む
#                     final_file.write(batch_file.read())
#                 # バッチファイルを削除
#                 os.remove(batch_file_path)
#     print(f"All batches have been merged and saved to {final_output_path}. Batch files have been deleted.")


# def process_and_save_files(input_dir, output_dir, task_id, batch_size=5):
#     extension = 'jsonl'
#     data_files = get_data_files(input_dir, extension, task_id)
#     for stem, file_path in data_files.items():
#         dataset = load_dataset("json", data_files=file_path, split='train')
#         total_size = len(dataset)
#         batches = (total_size - 1) // batch_size + 1

#         checkpoint_file = output_dir / f"{stem}_checkpoint.txt"
#         processed_batches = 0
#         if os.path.exists(checkpoint_file):
#             with open(checkpoint_file, 'r', encoding='utf-8') as f:
#                 processed_batches = int(f.read().strip())

#         # 処理済みのファイルを統合して保存
#         merge_and_delete_batch_files(output_dir, stem, extension, processed_batches)

#         # 未処理のデータを分割して保存
#         unrephrased_data = dataset.select(range(processed_batches * batch_size, len(dataset)))
#         if unrephrased_data:
#             unrephrased_data.to_json(output_dir / f"{stem}_unrephrased.jsonl")
#             print(f"Saved unrephrased data for {stem}.")

# ROOT_PATH = Path(ROOT_PATH)
# INPUT_PATH = ROOT_PATH / 'input'
# OUTPUT_PATH = ROOT_PATH / 'output_qa_presence_penalty05_frequency_penalty05'
# batch_size = 5

# process_and_save_files(INPUT_PATH, OUTPUT_PATH, task_id)