In [1]:
from datasets import load_dataset
from collections import Counter

# MARC-ja を読み込み（trust_remote_code 必須）
ds = load_dataset("shunk031/JGLUE", name="MARC-ja", trust_remote_code=True)

# ラベル名を取得（ClassLabel の names）
label_names = ds["train"].features["label"].names  # 例: ['negative', 'positive'] or ['positive','negative']
print("label id -> name:", dict(enumerate(label_names)))

def show_dist(split_name):
    labels = ds[split_name]["label"]
    cnt = Counter(labels)
    total = len(labels)
    print(f"\n[{split_name}] total={total}")
    for i, name in enumerate(label_names):
        n = cnt.get(i, 0)
        pct = (n / total * 100) if total else 0.0
        print(f"  id={i:<2} {name:<8} : {n:>6}  ({pct:5.2f}%)")

# ある分割が存在するかはデータセットに依存するので guard 付きで回す
for split in ["train", "validation", "test"]:
    if split in ds:
        show_dist(split)

# 参考: 全分割まとめ（存在するものだけ結合）
all_labels = []
for split in ds.keys():
    all_labels.extend(ds[split]["label"])
cnt_all = Counter(all_labels)
total_all = len(all_labels)
print(f"\n[ALL SPLITS] total={total_all}")
for i, name in enumerate(label_names):
    n = cnt_all.get(i, 0)
    pct = (n / total_all * 100) if total_all else 0.0
    print(f"  id={i:<2} {name:<8} : {n:>6}  ({pct:5.2f}%)")


  from .autonotebook import tqdm as notebook_tqdm


label id -> name: {0: 'positive', 1: 'negative', 2: 'neutral'}

[train] total=187528
  id=0  positive : 165477  (88.24%)
  id=1  negative :  22051  (11.76%)
  id=2  neutral  :      0  ( 0.00%)

[validation] total=5654
  id=0  positive :   4832  (85.46%)
  id=1  negative :    822  (14.54%)
  id=2  neutral  :      0  ( 0.00%)

[ALL SPLITS] total=193182
  id=0  positive : 170309  (88.16%)
  id=1  negative :  22873  (11.84%)
  id=2  neutral  :      0  ( 0.00%)


In [4]:
ds['train'][:10]

{'sentence': ['以前職場の方にこれをみて少しでも元氣になってくださいと手渡して、早３年。返してくれと一度言ったが、結局返ってこなかった。６年前にも、職場の（といっても海外ですが）英語の先生に貸したら、これは素晴らしい！と言って、授業でも何度も生徒に見せたり、家でも見てたりしたそうで、結局帰国までに返してもらえなかった。。。この作品、結局３回購入してます。とほほでありつつ、誰かの心の支えになってくれればと願いつつ。エンディングの曲も好きです。あー、自分も突き進む人生を歩みたい。結婚もしたいが。。。',
  'ジュリアロバーツを初めて見たのがこの作品だったということは良かったのか悪かったのかわからない。だってアメリカの有名女優という役だったから、そういう先入観で見た方がおもしろかったかも。でもイギリスのポートベローやロンドンの街並み、人々の暮らしがちりばめられていてとてもゆったりとした雰囲気。彼はちょっとダサく、でもやさしいフツーの人なのだ。（ハンサムと言うことをのぞけばね）二人や友人達の会話は要チェック。私なんぞ対訳のシナリオを買っちゃって勉強した。挿入歌がこれまたいいし。ぜひ見てね。',
  '私はカントリーが好きで当初CDを購入していいなと思ったのです、映画はそれなりのストーリー、まずまずです',
  '子供の時日本語訳を何冊か読んだ懐かしのシャーロック・ホームズ古い英語？が最初は若干わかりにくかったですが、複雑な表現はないのでそのうち慣れます。全集なのでとにかく長いですが、お値段も安くシャーロック・ホームズファンにおすすめかと。',
  '自殺志願者おじ、ヤクチューの祖父、引きこもり息子、破綻した父、 それを必死にまともてようとする母、そして夢みる娘 個々は腐ってて、メンツで考えれば、いつ崩れてもおかしくない家族でも、内面ではそれぞれを愛している。 娘のために必死になる家族。無口だった息子。も自殺志願者のおじも最後はみんな笑いながら、娘を守ろうとする。見てるこっちまで呆れるほどに笑える。 幸せってこれだなんだよねきっと。 途中であきても最後まで見た方が良い。 泣きながら大笑いした。 あー落ち込んでたのに元気でた!',
  "大好きなＰＳＢの中でも１番好きなアルバムです。メロディラインの完成度，テクノを基本としながら他の音を果敢に取り入れたスケールの