### ライブラリのインストール
必要なライブラリをインストールし、実行環境のバージョンを統一します。

In [None]:
import sys

# Google colab環境であるか判定
if "google.colab" in sys.modules:
    # ライブラリのインストール
    %pip install --no-warn-conflicts torch==2.1.1 torchvision==0.16.1 nltk==3.8.1 janome==0.5.0
else:
    print("Not Google Colab")

### ドライブのマウント

In [None]:
# Google colab環境であるか判定
if "google.colab" in sys.modules:
    # マウントを行う
    from google.colab import drive

    drive.mount("/content/drive")
else:
    print("Not Google Colab")

## ライブラリのインポート

In [2]:
import copy
import io
import os
import math
import re
import tarfile
import time
import urllib.request
from typing import Optional

import matplotlib.pyplot as plt
import nltk
import numpy as np
import pandas as pd
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

#import spacy
from janome.tokenizer import Tokenizer
from nltk import tokenize
from sklearn.model_selection import train_test_split

### データセットの用意
コーディング試験11-2で既にダウンロードしていたLivedoorニュースコーパスを使用します。


In [None]:
# Pathの設定
# Google colab環境であるか判定
if "google.colab" in sys.modules:
    # マイドライブ内のデータを読み込むpathに設定
    livedoor_path = "/content/drive/MyDrive/ldcc-20140209.tar.gz"
else:
    livedoor_path = "ldcc-20140209.tar.gz"

save_path = "./data/livedoor/"
tar = tarfile.open(livedoor_path)
tar.extractall(save_path)
tar.close()

#### データセットの作成
カテゴリをラベル、ファイル内の文章をデータとしてそれらが対になったデータをCSV形式にして保存します。

In [4]:
from tqdm.auto import tqdm # 進捗バーを表示

# ライブドアニュースコーパスのテキストファイル群が置かれている親ディレクトリ
# 例: /content/text/
data_dir = 'text'

# カテゴリ名（サブディレクトリ名）のリストを取得
# 不要なファイル（例: LICENSE.txt）は除外
categories = [d for d in os.listdir(data_dir) if os.path.isdir(os.path.join(data_dir, d))]
print("対象カテゴリ:", categories)

# 最終的にDataFrameにするための、行データ（辞書）を格納するリスト
all_data = []

# tqdmを使って進捗を可視化しながらループ
for category in tqdm(categories, desc="カテゴリ処理中"):
    category_path = os.path.join(data_dir, category)
    
    files = os.listdir(category_path)
    for file_name in files:
        # category内のREADME.mdはスキップ
        if file_name.endswith('.txt'):
            file_path = os.path.join(category_path, file_name)
            
            try:
                with open(file_path, 'r', encoding='utf-8') as f:
                    # 最初の2行はURLとタイムスタンプなので読み飛ばし、3行目以降を本文とする
                    lines = f.readlines()
                    text_body = "".join(lines[2:]).strip()
                    
                    # ラベル（カテゴリ名）とテキスト本文を辞書としてリストに追加
                    all_data.append({'label': category, 'text': text_body})
            except Exception as e:
                print(f"Error reading {file_path}: {e}")

# ループ完了後、リストから一気にDataFrameを作成
df = pd.DataFrame(all_data)

# 作成したDataFrameをCSVとして保存（インデックスは不要なのでFalse）
df.to_csv('livedoor_news_corpus.csv', index=False, encoding='utf-8-sig')

print("\nCSVファイルの作成が完了しました。")
print("データ件数:", len(df))
print("最初の5件:\n", df.head())

NameError: name 'os' is not defined

#### 日本語の分かち書きメソッド

In [None]:
import pandas as pd
import pickle
from janome.tokenizer import Tokenizer
from tqdm.auto import tqdm

# ===================================================================
# ユーザー定義関数（ここから）
# ===================================================================
wakati = Tokenizer()

def tokenize_ja(sentences_list):
    """日本語文のトークン化"""
    wakati_list = []
    print("トークン化処理を開始します...")
    for sentence in tqdm(sentences_list):
        wakati_list.append([item.surface for item in wakati.tokenize(sentence)])
    return wakati_list

def create_word_id_dict(sentences):
    """単語からIDへの辞書を生成"""
    word_to_id, id_to_word = {}, {}
    # 0はパディング/未知語用に予約
    word_to_id['<PAD>/<UNK>'] = 0
    id_to_word[0] = '<PAD>/<UNK>'
    
    for sentence in sentences:
        for word in sentence:
            if word not in word_to_id:
                tmp_id = len(word_to_id)
                word_to_id[word] = tmp_id
                id_to_word[tmp_id] = word
    return word_to_id, id_to_word

def convert_sentences_to_ids(sentences, word_to_id):
    """文章をID列に変換"""
    sentence_id = []
    for sentence in sentences:
        sentence_ids = [word_to_id.get(word, 0) for word in sentence] # .getで高速化
        sentence_id.append(sentence_ids)
    return sentence_id

def padding_sentence(sentences):
    """文章のパディング処理"""
    max_len = max(len(s) for s in sentences) if sentences else 0
    
    padded_sentences = []
    for sentence in sentences:
        padding = [0] * (max_len - len(sentence))
        padded_sentences.append(padding + sentence)
    return padded_sentences

# ===================================================================
# ユーザー定義関数（ここまで）
# ===================================================================

# --- メイン処理 ---
print("1. 生データの読み込み...")
df = pd.read_csv('livedoor_news_corpus.csv') # 事前に作成したCSV

# --- ラベルのID化 ---
print("2. ラベルのID化...")
label_to_id = {label: i for i, label in enumerate(df['label'].unique())}
id_to_label = {i: label for i, label in enumerate(df['label'].unique())}
df['label_id'] = df['label'].map(label_to_id)

# --- テキストの前処理 ---
# 3. テキストのトークン化（分かち書き）
ja_sentences = tokenize_ja(df['text'].tolist())

# 4. 単語辞書の作成
print("4. 単語辞書の作成...")
word_to_id, id_to_word = create_word_id_dict(ja_sentences)

# 5. 文章をID列に変換
print("5. 文章をID列に変換...")
sentence_ids = convert_sentences_to_ids(ja_sentences, word_to_id)

# 6. パディング処理
print("6. パディング処理...")
padded_ids = padding_sentence(sentence_ids)

# --- データの保存 ---
print("7. 処理済みデータの保存...")
processed_data = {
    'padded_ids': padded_ids,
    'labels': df['label_id'].tolist(),
    'word_to_id': word_to_id,
    'id_to_word': id_to_word,
    'label_to_id': label_to_id,
    'id_to_label': id_to_label,
}

with open('processed_data.pkl', 'wb') as f:
    pickle.dump(processed_data, f)

print("\n🎉 前処理とデータの保存が完了しました。")
print(f"保存ファイル: processed_data.pkl")
print(f"語彙数: {len(word_to_id)}")

In [3]:
wakati = Tokenizer()


def tokenize_ja(sentences_list):
    """日本語文のトークン化
    与えられた日本語の文のリストをトークン化します。各文は単語に分割され、リストとして返されます。

    Args:
        sentences_list (list): トークン化する日本語の文のリスト。

    Returns:
        list: トークン化された文のリスト。各要素は単語のリスト。

    Examples:
        >>> sentences = ["こんにちは世界", "これはテスト文です。"]
        >>> tokenize_ja(sentences)
        [['こんにちは', '世界'], ['これ', 'は', 'テスト', '文', 'です', '。']]

    Note:
        - この関数はjanomeライブラリの `Tokenizer` クラスを使用しています。
        - 与えられた各文に対してトークン化処理を行い、結果をリストで返します。
        - 日本語のトークン化では、形態素解析を行い、各形態素の表層形を抽出します。
    """
    wakati_list = []

    for sentence in sentences_list:
        wakati_list.append([item.surface for item in wakati.tokenize(sentence)])
    return wakati_list

In [11]:
ja_sentences = tokenize_ja(["与えられた日本語の文のリストをトークン化します。","各文は単語に分割され、リストとして返されます。"])

In [12]:
print(ja_sentences)

[['与え', 'られ', 'た', '日本語', 'の', '文', 'の', 'リスト', 'を', 'トー', 'クン', '化', 'し', 'ます', '。'], ['各', '文', 'は', '単語', 'に', '分割', 'さ', 'れ', '、', 'リスト', 'として', '返さ', 'れ', 'ます', '。']]


#### 単語からIDへの辞書を生成

In [16]:
def create_word_id_dict(sentences):
    """単語からIDへの辞書を生成
    与えられた文のリストから、単語をIDに変換するための辞書を生成します。

    Args:
        sentences (list): 単語のリストを含む文のリスト。

    Returns:
        dict: 単語からIDへのマッピングを含む辞書。(word_to_id)
                 IDから単語へのマッピングを含む辞書。(id_to_word)

    Note:
        - 各単語に一意のIDを割り当てます。
        - 未登録の単語があれば新しいIDを割り当てます。
    """
    word_to_id, id_to_word = {}, {}
    for sentence in sentences:
        for word in sentence:
            if word not in word_to_id:
                tmp_id = len(word_to_id) + 1
                word_to_id[word] = tmp_id
                id_to_word[tmp_id] = word
    return word_to_id, id_to_word

#### 文章をID列に変換

In [13]:
def convert_sentences_to_ids(sentences, word_to_id):
    """文章をID列に変換
    与えられた文を、単語IDのリストに変換します。

    Args:
        sentences (list): 単語のリストを含む文のリスト。
        word_to_id (dict): 単語からIDへのマッピングを含む辞書。

    Returns:
        list: 単語IDのリストを含む文のリスト。

    Note:
        - 辞書に登録されていない単語はID 0にマッピングします。
    """
    sentence_id = []
    for sentence in sentences:
        sentence_ids = []
        for word in sentence:
            if word in word_to_id:
                sentence_ids.append(word_to_id[word])
            else:
                sentence_ids.append(0)
        sentence_id.append(sentence_ids)
    return sentence_id

#### 文章のパディング処理

In [14]:
def padding_sentence(sentences):
    """文章のパディング処理
    与えられた文のリストにパディングを施し、全ての文の長さを統一します。

    Args:
        sentences (list): 単語IDのリストを含む文のリスト。

    Returns:
        list: パディングされた文のリスト。

    Note:
        - 最も長い文の長さに合わせて他の文をパディングします。
        - パディングにはID 0を使用します。
    """
    max_sentence_size = 0
    for sentence in sentences:
        if max_sentence_size < len(sentence):
            max_sentence_size = len(sentence)
    for sentence in sentences:
        while len(sentence) < max_sentence_size:
            sentence.insert(0, 0)
    return sentences

In [39]:
# test for 0:99
raw_df = pd.read_csv('livedoor_news_corpus.csv')[0:99]
ja_sentences = raw_df["text"].values
ja_sentences = tokenize_ja(ja_sentences)
ja_word_to_id, ja_id_to_word = create_word_id_dict(ja_sentences)
ja_sentences = convert_sentences_to_ids(ja_sentences, ja_word_to_id)
ja_sentences = padding_sentence(ja_sentences)
ja_sentences = np.array(ja_sentences)

KeyboardInterrupt: 

In [None]:
ja_sentences[0:10]

#### 層化サンプリング（Stratified Sampling）
データが少ないカテゴリも、訓練・検証・テストの各データセットに均等に分配されるため、モデルの性能を偏りなく正確に評価できます。

もし単純なランダムサンプリングを行うと、偶然、特定のカテゴリのデータがテストデータにほとんど含まれない、といった偏りが生じる可能性があります。
stratify=yを指定するだけで、そうした事故を防ぎ、信頼性の高いモデル評価ができるようになります。

In [18]:
import pandas as pd
from sklearn.model_selection import train_test_split

# 前処理済みのCSVファイルを読み込む
df = ja_sentences

#df = ja_sentences
# 特徴量X（文章）とラベルy（カテゴリ）を定義
X = df['text']
y = df['label']

# --------------------------------------------------
# 1. 第1段階：訓練＋検証データ(90%)とテストデータ(10%)に分割
# stratify=y を指定することで、yの比率を保ったまま分割される
X_train_val, X_test, y_train_val, y_test = train_test_split(
    X, y, 
    test_size=0.1,      # 全体の10%をテストデータに
    random_state=42,    # 再現性のための乱数シード
    stratify=y          # 層化サンプリングを有効化
)

# --------------------------------------------------
# 2. 第2段階：訓練＋検証データを、訓練データと検証データに分割
# 元の90%から、さらに1/9を検証データにすると、全体比率が80%:10%になる
X_train, X_val, y_train, y_val = train_test_split(
    X_train_val, y_train_val, 
    test_size=(1/9),    # 90%のうちの1/9、つまり全体の10%
    random_state=42,
    stratify=y_train_val # こちらも層化
)
# --------------------------------------------------

# 各データセットのサイズを確認
print(f"訓練データ   : {len(X_train)}件")
print(f"検証データ   : {len(X_val)}件")
print(f"テストデータ : {len(X_test)}件")

print("\n--- 各セットのカテゴリ比率 ---")
print("元データ:\n", y.value_counts(normalize=True).sort_index())
print("\n訓練データ:\n", y_train.value_counts(normalize=True).sort_index())
print("\nテストデータ:\n", y_test.value_counts(normalize=True).sort_index())

IndexError: only integers, slices (`:`), ellipsis (`...`), numpy.newaxis (`None`) and integer or boolean arrays are valid indices

In [43]:
import pandas as pd
import pickle
from collections import Counter
# GiNZAなどのTokenizerは準備済みと仮定


# 1. 生データを読み込み、分かち書き
df = pd.read_csv('livedoor_news_corpus.csv')
df['tokens'] = df['text'].apply(tokenize_ja) # 分かち書き関数

# 2. 語彙（word_to_id辞書）を構築
word_counter = Counter(word for tokens in df['tokens'] for word in tokens)
word_to_id = {word: i+2 for i, (word, count) in enumerate(word_counter.items())} # 0と1は特殊トークン用
word_to_id['<PAD>'] = 0
word_to_id['<UNK>'] = 1

# 3. テキストとラベルをIDのシーケンスに変換
df['input_ids'] = df['tokens'].apply(lambda tokens: [word_to_id.get(w, word_to_id['<UNK>']) for w in tokens])
# ラベルのID化...

# 4. 必要なデータをファイルに保存
processed_data = {
    'input_ids': df['input_ids'].tolist(),
    'labels': df['label_id'].tolist(),
    'word_to_id': word_to_id,
    # 他にも必要なデータがあれば...
}

with open('processed_data.pkl', 'wb') as f:
    pickle.dump(processed_data, f)

print("前処理とデータの保存が完了しました。")

KeyboardInterrupt: 