## wiki40b_ja(wikipedia)のコーパスをロード

In [18]:
from datasets import load_dataset

ds = load_dataset("fujiki/wiki40b_ja")

In [19]:
# データセットの構造を確認
print("データセット情報:")
print(ds)
print("\n利用可能なスプリット:")
print(ds.keys())
print("\ntrain スプリットのサンプル数:")
print(len(ds['train']))
print("\nデータの最初の1件:")
print(ds['train'][0])

データセット情報:
DatasetDict({
    train: Dataset({
        features: ['text'],
        num_rows: 745392
    })
    validation: Dataset({
        features: ['text'],
        num_rows: 41576
    })
    test: Dataset({
        features: ['text'],
        num_rows: 41268
    })
})

利用可能なスプリット:
dict_keys(['train', 'validation', 'test'])

train スプリットのサンプル数:
745392

データの最初の1件:
{'text': "Seventeen (日本の雑誌)\n概要\n1968年6月に、総合少女週刊誌『マーガレット』のお姉さん雑誌『週刊セブンティーン』として創刊、アメリカで1944年に創刊された『Seventeen』の日本版として出発した。掲載内容はファッション・少女漫画・芸能など多岐にわたる。\n通巻1000号となる1988年1月3日号より、誌名の表記をアルファベットの『SEVENTEEN』としてリニューアル。判型は大きいサイズ、刊行は月2回の隔週刊（毎月1日・15日）に変更し、漫画部分が無くなった。 漫画雑誌としての部分は『月刊ティアラ』として新創刊され、引き継がれた。その後、ライバル誌だった小学館の『プチセブン』の廃刊後、急速に売り上げを伸ばし、「ティーンのNo.1雑誌」と銘打っている。\n2001年から徐々に芸能人の記事や表紙掲載が減り、表紙は当雑誌の専属モデルを起用、誌面にも多数の現役女子高生読者モデルを登場させ、女子中高生向けファッション雑誌に特化するようになった。\n創刊40周年を機に2008年10月号より月刊化。表記も『Seventeen』に変更した。\n上位誌は1971年創刊の『non-no』であるが、2004～09年にかけては系統の異なる上位誌として『PINKY』も発売された。\n月刊セブンティーン\n1969年に『別冊セブンティーン』として創刊（1969年12月号）。毎月24日発売。掲載内容は、少女漫画の他にファッションや芸

In [26]:
import pandas as pd

# データをDataFrameに変換（サンプリング）
sample_size = min(10000, len(ds['train']))
sample_data = ds['train'].select(range(sample_size))
df = pd.DataFrame(sample_data)

In [27]:
# DataFrameの基本情報
print("DataFrameの形状:", df.shape)
print("\nカラム名:")
print(df.columns.tolist())
print("\n最初の3件:")
df.head(3)

DataFrameの形状: (10000, 1)

カラム名:
['text']

最初の3件:


Unnamed: 0,text
0,Seventeen (日本の雑誌)\n概要\n1968年6月に、総合少女週刊誌『マーガレット...
1,名倉潤\nプロフィール\n兵庫県姫路市出身で、姫路市立大津小学校・姫路市立広畑中学校・市川高...
2,ジョン・ジャーディ\nジョン・ジャーディー（Jon Jerde、1940年1月22日 - 2...


In [28]:
# サンプルテキストの表示
print("=" * 80)
print("サンプルテキスト（最初の3件）")
print("=" * 80)
for i in range(min(3, len(df))):
    print(f"\n【記事 {i+1}】")
    if 'title' in df.columns:
        print(f"タイトル: {df.iloc[i]['title']}")
    if 'text' in df.columns:
        text = df.iloc[i]['text']
        # 最初の300文字のみ表示
        print(f"本文（抜粋）: {text[:300]}...")
    print("-" * 80)

サンプルテキスト（最初の3件）

【記事 1】
本文（抜粋）: Seventeen (日本の雑誌)
概要
1968年6月に、総合少女週刊誌『マーガレット』のお姉さん雑誌『週刊セブンティーン』として創刊、アメリカで1944年に創刊された『Seventeen』の日本版として出発した。掲載内容はファッション・少女漫画・芸能など多岐にわたる。
通巻1000号となる1988年1月3日号より、誌名の表記をアルファベットの『SEVENTEEN』としてリニューアル。判型は大きいサイズ、刊行は月2回の隔週刊（毎月1日・15日）に変更し、漫画部分が無くなった。 漫画雑誌としての部分は『月刊ティアラ』として新創刊され、引き継がれた。その後、ライバル誌だった小学館の『プチセブン』...
--------------------------------------------------------------------------------

【記事 2】
本文（抜粋）: 名倉潤
プロフィール
兵庫県姫路市出身で、姫路市立大津小学校・姫路市立広畑中学校・市川高等学校を卒業した。男4人兄弟の末子で長兄は7歳年上である。妻の渡辺満里奈と一男一女の2児を儲ける。ワタナベエンターテインメントがマネジメントする。
1986年に芸能活動を始め、俳優志望だったが3年後の1989年にお笑いに転向して渡辺勝彦とジュンカッツとしてコンビを組み、ツッコミを担当した。駆け出しの頃はバラエティ番組に出演するほか、『東京フレンドパーク』で前説を務めるなど下積みを重ねた。
渡辺が引退したためピン芸人となり仕事も激減していたところ、ボケしかいない後輩のコンビ芸人フローレンス（原田泰造、堀内健）...
--------------------------------------------------------------------------------

【記事 3】
本文（抜粋）: ジョン・ジャーディ
ジョン・ジャーディー（Jon Jerde、1940年1月22日 - 2015年2月9日）は、アメリカ合衆国の建築家。
ジョン・ジャーディーは、イリノイ州で生まれたが、貧しい家庭で育ち、家族は引越しを繰り返した。幼年期には、捨てられたガラクタを集め、裏庭で建築物を作って一人で遊んだという。寂しく過ごした生い立ちが