# 日本語データセットをチャンクに分割

In [None]:
#!pip install tiktoken langchain

In [1]:
import tiktoken
from langchain.text_splitter import RecursiveCharacterTextSplitter

## 1. 単一ファイルの動作確認

In [2]:
f = open('./data/源頼朝.txt', 'r', encoding='UTF-8')

data = f.read()
print(data)

f.close()

源 頼朝（みなもと の よりとも、旧字体：源 賴朝）は、平安時代末期から鎌倉時代初期の日本の武将、政治家。鎌倉幕府初代征夷大将軍。

概略
清和源氏の一流たる河内源氏の源義朝の三男として生まれ、父・義朝が平治の乱で敗れると伊豆国へ配流される。伊豆で以仁王の令旨を受けると北条時政、北条義時などの坂東武士らと平家打倒の兵を挙げ、鎌倉を本拠として関東を制圧する。弟たちを代官として源義仲や平家を倒し、戦功のあった末弟・源義経を追放の後、諸国に守護と地頭を配して力を強め、奥州合戦で奥州藤原氏を滅ぼす。建久3年（1192年）に征夷大将軍に任じられた。

これにより、朝廷と同様に京都を中心に権勢を誇った平氏政権とは異なる、東国に独立した武家政権が開かれ、後に鎌倉幕府と呼ばれた。頼朝の死後、御家人の権力闘争によって頼朝の嫡流は断絶し、その後は、北条義時の嫡流（得宗家）が鎌倉幕府の支配者となった。

生涯
改元の有った年は改元後の元号を記す
内容の典拠については年表を参照。
出生

出生跡地にある誓願寺と誕生旧地碑
久安3年（1147年）4月8日、源義朝の三男として尾張国愛知郡熱田（現在の愛知県名古屋市熱田区）[注釈 2][注釈 3][注釈 4][注釈 5][注釈 6]の熱田神宮西側にあった神宮大宮司・藤原季範の別邸（現在の誓願寺）にて生まれる[注釈 7]。幼名は鬼武者、または鬼武丸[2]。

父祖は清和天皇の孫で臣籍降下した源経基、多田源氏。父の義朝は保元の乱（1156年）において、平清盛らと共に後白河天皇側にたって戦勝し、崇徳上皇側の父の為義の助命を自身の戦功に替えて願うが許されず、父と弟たちを斬首し、左馬頭に任ぜられる。

保元3年（1158年）、頼朝は後白河天皇准母として立后した統子内親王の皇后宮権少進となり、平治元年（1159年）2月に統子内親王が院号宣下を受けると、上西門院蔵人に補される。上西門院殿上始において徳大寺実定、平清盛などの殿上人が集う中で献盃役を務める[注釈 8]。また同年1月には右近衛将監に、6月には二条天皇の蔵人にも補任される。長兄の義平は無官とみられ、先に任官していた次兄の朝長よりも昇進が早いことから、母親の家柄が高い頼朝が義朝の後継者、嫡男として待遇されていたとみられている。

平治の乱
詳細は「平治の乱」を参照
平治元年（1159年）12月9日、義朝

## ドキュメントのトークン数を計測
OpenAI モデルのトークン数を正確に数えるためには、[tiktoken](https://github.com/openai/tiktoken) ライブラリを利用します。

In [3]:
enc = tiktoken.get_encoding("gpt2")
print(len(enc.encode(data)))

40767


## テキストをチャンクに分割
通常 1 つのドキュメントに含まれるトークン数は 1 度のコンテキストに指定できる最大トークン数をゆうに超えます。今回はドキュメントの文を指定したトークン数以下のチャンクに分割します。

- テキストの分割方法<br>
RecursiveCharacterTextSplitter はチャンクが十分に小さくなるまで、順番に分割します。
- チャンクサイズの測定方法<br>
tiktoken ライブラリのトークナイザーを使用してトークン数を正確に測定します。

In [4]:
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    encoding_name='gpt2',
    chunk_size=500, 
    chunk_overlap=50
)

In [5]:
chunk = text_splitter.split_text(data)
chunk

Created a chunk of size 541, which is longer than the specified 500
Created a chunk of size 538, which is longer than the specified 500
Created a chunk of size 514, which is longer than the specified 500
Created a chunk of size 544, which is longer than the specified 500
Created a chunk of size 722, which is longer than the specified 500
Created a chunk of size 772, which is longer than the specified 500
Created a chunk of size 531, which is longer than the specified 500
Created a chunk of size 707, which is longer than the specified 500
Created a chunk of size 588, which is longer than the specified 500
Created a chunk of size 602, which is longer than the specified 500
Created a chunk of size 501, which is longer than the specified 500
Created a chunk of size 605, which is longer than the specified 500
Created a chunk of size 804, which is longer than the specified 500
Created a chunk of size 502, which is longer than the specified 500
Created a chunk of size 597, which is longer tha

['源 頼朝（みなもと の よりとも、旧字体：源 賴朝）は、平安時代末期から鎌倉時代初期の日本の武将、政治家。鎌倉幕府初代征夷大将軍。\n\n概略\n清和源氏の一流たる河内源氏の源義朝の三男として生まれ、父・義朝が平治の乱で敗れると伊豆国へ配流される。伊豆で以仁王の令旨を受けると北条時政、北条義時などの坂東武士らと平家打倒の兵を挙げ、鎌倉を本拠として関東を制圧する。弟たちを代官として源義仲や平家を倒し、戦功のあった末弟・源義経を追放の後、諸国に守護と地頭を配して力を強め、奥州合戦で奥州藤原氏を滅ぼす。建久3年（1192年）に征夷大将軍に任じられた。',
 'これにより、朝廷と同様に京都を中心に権勢を誇った平氏政権とは異なる、東国に独立した武家政権が開かれ、後に鎌倉幕府と呼ばれた。頼朝の死後、御家人の権力闘争によって頼朝の嫡流は断絶し、その後は、北条義時の嫡流（得宗家）が鎌倉幕府の支配者となった。\n\n生涯\n改元の有った年は改元後の元号を記す\n内容の典拠については年表を参照。\n出生',
 '出生跡地にある誓願寺と誕生旧地碑\n久安3年（1147年）4月8日、源義朝の三男として尾張国愛知郡熱田（現在の愛知県名古屋市熱田区）[注釈 2][注釈 3][注釈 4][注釈 5][注釈 6]の熱田神宮西側にあった神宮大宮司・藤原季範の別邸（現在の誓願寺）にて生まれる[注釈 7]。幼名は鬼武者、または鬼武丸[2]。\n\n父祖は清和天皇の孫で臣籍降下した源経基、多田源氏。父の義朝は保元の乱（1156年）において、平清盛らと共に後白河天皇側にたって戦勝し、崇徳上皇側の父の為義の助命を自身の戦功に替えて願うが許されず、父と弟たちを斬首し、左馬頭に任ぜられる。',
 '保元3年（1158年）、頼朝は後白河天皇准母として立后した統子内親王の皇后宮権少進となり、平治元年（1159年）2月に統子内親王が院号宣下を受けると、上西門院蔵人に補される。上西門院殿上始において徳大寺実定、平清盛などの殿上人が集う中で献盃役を務める[注釈 8]。また同年1月には右近衛将監に、6月には二条天皇の蔵人にも補任される。長兄の義平は無官とみられ、先に任官していた次兄の朝長よりも昇進が早いことから、母親の家柄が高い頼朝が義朝の後継者、嫡男として待遇されていたとみられている。',
 '平治の乱\n詳細は「平治

In [6]:
#チャンク数
len(chunk)

103

In [7]:
#チャンク[0]の中身
chunk[0]

'源 頼朝（みなもと の よりとも、旧字体：源 賴朝）は、平安時代末期から鎌倉時代初期の日本の武将、政治家。鎌倉幕府初代征夷大将軍。\n\n概略\n清和源氏の一流たる河内源氏の源義朝の三男として生まれ、父・義朝が平治の乱で敗れると伊豆国へ配流される。伊豆で以仁王の令旨を受けると北条時政、北条義時などの坂東武士らと平家打倒の兵を挙げ、鎌倉を本拠として関東を制圧する。弟たちを代官として源義仲や平家を倒し、戦功のあった末弟・源義経を追放の後、諸国に守護と地頭を配して力を強め、奥州合戦で奥州藤原氏を滅ぼす。建久3年（1192年）に征夷大将軍に任じられた。'

In [8]:
#トークン数
print(len(enc.encode(chunk[0])))

464


In [9]:
#チャンクごとのトークン数確認
tokencounter = 0
for i, text in enumerate(chunk):
    print(i,len(enc.encode(text)))
    tokencounter = tokencounter + len(enc.encode(text))

print(tokencounter)

0 464
1 273
2 458
3 384
4 249
5 367
6 353
7 541
8 256
9 538
10 262
11 514
12 146
13 468
14 12
15 544
16 441
17 236
18 331
19 236
20 523
21 722
22 109
23 302
24 285
25 429
26 772
27 531
28 357
29 707
30 323
31 352
32 274
33 476
34 588
35 770
36 602
37 6
38 611
39 361
40 501
41 605
42 286
43 267
44 309
45 357
46 804
47 340
48 303
49 502
50 597
51 370
52 491
53 345
54 180
55 463
56 385
57 430
58 581
59 423
60 177
61 494
62 496
63 490
64 483
65 504
66 487
67 473
68 113
69 447
70 51
71 494
72 485
73 75
74 607
75 418
76 224
77 547
78 270
79 326
80 316
81 466
82 477
83 570
84 280
85 430
86 776
87 180
88 357
89 464
90 241
91 367
92 8
93 633
94 492
95 224
96 368
97 491
98 151
99 393
100 454
101 485
102 125
41121


## 2. ファイル一括処理
ドキュメントをチャンクに分割する方法を確認したら、実際に複数のデータセットを一括処理でチャンクごとのテキストファイルに分割します。

In [10]:
import os

enc = tiktoken.get_encoding("gpt2")
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    encoding_name='gpt2',
    chunk_size=500, 
    chunk_overlap=50
)

#テキストファイルを読み込んで、指定のトークン数のチャンクファイルに分割します。
def splitChunkFile(filepath):
    f = open(filepath, 'r', encoding='UTF-8')
    data = f.read()
    chunk = text_splitter.split_text(data)

    #chunk単位でループ
    for i, chunkedtext in enumerate(chunk):
        
        dirname = os.path.dirname(filepath)
        basename = os.path.splitext(os.path.basename(filepath))[0]
        outputfilepath = dirname + "/output/" + basename + "-" + str(i) + ".txt"
        
        print(i, len(enc.encode(chunkedtext)), outputfilepath)
        with open(outputfilepath, 'w', encoding='UTF-8') as fo:
            fo.write(chunkedtext)

        fo.close()
    f.close()
   
    return

In [11]:
import glob
for p in glob.glob('./data/*.txt'):
    splitChunkFile(p)

Created a chunk of size 710, which is longer than the specified 500
Created a chunk of size 567, which is longer than the specified 500
Created a chunk of size 680, which is longer than the specified 500
Created a chunk of size 618, which is longer than the specified 500
Created a chunk of size 556, which is longer than the specified 500
Created a chunk of size 554, which is longer than the specified 500
Created a chunk of size 762, which is longer than the specified 500
Created a chunk of size 513, which is longer than the specified 500
Created a chunk of size 654, which is longer than the specified 500
Created a chunk of size 570, which is longer than the specified 500
Created a chunk of size 578, which is longer than the specified 500
Created a chunk of size 694, which is longer than the specified 500
Created a chunk of size 698, which is longer than the specified 500
Created a chunk of size 607, which is longer than the specified 500
Created a chunk of size 664, which is longer tha

0 502 ./data/output/三善康信-0.txt
1 467 ./data/output/三善康信-1.txt
2 710 ./data/output/三善康信-2.txt
3 222 ./data/output/三善康信-3.txt
0 379 ./data/output/三浦義澄-0.txt
1 475 ./data/output/三浦義澄-1.txt
2 484 ./data/output/三浦義澄-2.txt
3 158 ./data/output/三浦義澄-3.txt
0 447 ./data/output/中原親能-0.txt
1 251 ./data/output/中原親能-1.txt
2 366 ./data/output/中原親能-2.txt
3 198 ./data/output/中原親能-3.txt
4 567 ./data/output/中原親能-4.txt
5 430 ./data/output/中原親能-5.txt
6 271 ./data/output/中原親能-6.txt
7 292 ./data/output/中原親能-7.txt
8 499 ./data/output/中原親能-8.txt
0 395 ./data/output/二階堂行政-0.txt
1 680 ./data/output/二階堂行政-1.txt
2 395 ./data/output/二階堂行政-2.txt
3 222 ./data/output/二階堂行政-3.txt
4 426 ./data/output/二階堂行政-4.txt
5 288 ./data/output/二階堂行政-5.txt
6 618 ./data/output/二階堂行政-6.txt
7 178 ./data/output/二階堂行政-7.txt
0 395 ./data/output/八田知家-0.txt
1 13 ./data/output/八田知家-1.txt
2 483 ./data/output/八田知家-2.txt
3 473 ./data/output/八田知家-3.txt
4 77 ./data/output/八田知家-4.txt
5 10 ./data/output/八田知家-5.txt
6 490 ./data/output/八田知家-6.txt
7 4

Created a chunk of size 539, which is longer than the specified 500
Created a chunk of size 550, which is longer than the specified 500
Created a chunk of size 510, which is longer than the specified 500
Created a chunk of size 504, which is longer than the specified 500
Created a chunk of size 700, which is longer than the specified 500
Created a chunk of size 707, which is longer than the specified 500
Created a chunk of size 525, which is longer than the specified 500
Created a chunk of size 538, which is longer than the specified 500
Created a chunk of size 601, which is longer than the specified 500
Created a chunk of size 660, which is longer than the specified 500
Created a chunk of size 606, which is longer than the specified 500
Created a chunk of size 765, which is longer than the specified 500
Created a chunk of size 641, which is longer than the specified 500
Created a chunk of size 622, which is longer than the specified 500
Created a chunk of size 693, which is longer tha

0 385 ./data/output/梶原景時-0.txt
1 251 ./data/output/梶原景時-1.txt
2 302 ./data/output/梶原景時-2.txt
3 534 ./data/output/梶原景時-3.txt
4 148 ./data/output/梶原景時-4.txt
5 392 ./data/output/梶原景時-5.txt
6 333 ./data/output/梶原景時-6.txt
7 352 ./data/output/梶原景時-7.txt
8 350 ./data/output/梶原景時-8.txt
9 326 ./data/output/梶原景時-9.txt
10 538 ./data/output/梶原景時-10.txt
11 280 ./data/output/梶原景時-11.txt
12 306 ./data/output/梶原景時-12.txt
13 364 ./data/output/梶原景時-13.txt
14 367 ./data/output/梶原景時-14.txt
15 468 ./data/output/梶原景時-15.txt
16 468 ./data/output/梶原景時-16.txt
17 280 ./data/output/梶原景時-17.txt
18 437 ./data/output/梶原景時-18.txt
19 394 ./data/output/梶原景時-19.txt
20 275 ./data/output/梶原景時-20.txt
21 250 ./data/output/梶原景時-21.txt
22 550 ./data/output/梶原景時-22.txt
23 510 ./data/output/梶原景時-23.txt
24 425 ./data/output/梶原景時-24.txt
25 443 ./data/output/梶原景時-25.txt
26 284 ./data/output/梶原景時-26.txt
27 389 ./data/output/梶原景時-27.txt
28 339 ./data/output/梶原景時-28.txt
29 487 ./data/output/梶原景時-29.txt
30 409 ./data/output/梶原景時-30.t

Created a chunk of size 722, which is longer than the specified 500
Created a chunk of size 772, which is longer than the specified 500
Created a chunk of size 531, which is longer than the specified 500
Created a chunk of size 707, which is longer than the specified 500
Created a chunk of size 588, which is longer than the specified 500
Created a chunk of size 602, which is longer than the specified 500
Created a chunk of size 501, which is longer than the specified 500
Created a chunk of size 605, which is longer than the specified 500
Created a chunk of size 804, which is longer than the specified 500
Created a chunk of size 502, which is longer than the specified 500
Created a chunk of size 597, which is longer than the specified 500
Created a chunk of size 581, which is longer than the specified 500
Created a chunk of size 607, which is longer than the specified 500
Created a chunk of size 547, which is longer than the specified 500
Created a chunk of size 570, which is longer tha

0 464 ./data/output/源頼朝-0.txt
1 273 ./data/output/源頼朝-1.txt
2 458 ./data/output/源頼朝-2.txt
3 384 ./data/output/源頼朝-3.txt
4 249 ./data/output/源頼朝-4.txt
5 367 ./data/output/源頼朝-5.txt
6 353 ./data/output/源頼朝-6.txt
7 541 ./data/output/源頼朝-7.txt
8 256 ./data/output/源頼朝-8.txt
9 538 ./data/output/源頼朝-9.txt
10 262 ./data/output/源頼朝-10.txt
11 514 ./data/output/源頼朝-11.txt
12 146 ./data/output/源頼朝-12.txt
13 468 ./data/output/源頼朝-13.txt
14 12 ./data/output/源頼朝-14.txt
15 544 ./data/output/源頼朝-15.txt
16 441 ./data/output/源頼朝-16.txt
17 236 ./data/output/源頼朝-17.txt
18 331 ./data/output/源頼朝-18.txt
19 236 ./data/output/源頼朝-19.txt
20 523 ./data/output/源頼朝-20.txt
21 722 ./data/output/源頼朝-21.txt
22 109 ./data/output/源頼朝-22.txt
23 302 ./data/output/源頼朝-23.txt
24 285 ./data/output/源頼朝-24.txt
25 429 ./data/output/源頼朝-25.txt
26 772 ./data/output/源頼朝-26.txt
27 531 ./data/output/源頼朝-27.txt
28 357 ./data/output/源頼朝-28.txt
29 707 ./data/output/源頼朝-29.txt
30 323 ./data/output/源頼朝-30.txt
31 352 ./data/output/源頼朝-31.t