In [6]:
import os
import urllib.request
import tarfile
from pathlib import Path

# ダウンロードと解凍
def download_livedoor_corpus(save_dir="./data"):
    """livedoorニュースコーパスをダウンロード"""

    os.makedirs(save_dir, exist_ok=True)

    # 公式URL
    url = "https://www.rondhuit.com/download/ldcc-20140209.tar.gz"
    tar_path = os.path.join(save_dir, "ldcc-20140209.tar.gz")

    # ダウンロード
    if not os.path.exists(tar_path):
        print("ダウンロード中...")
        urllib.request.urlretrieve(url, tar_path)
        print("ダウンロード完了")

    # 解凍（filterパラメータを追加）
    extract_dir = os.path.join(save_dir)  # 修正: save_dirそのものを返す
    text_dir = os.path.join(save_dir, "text")

    if not os.path.exists(text_dir):
        print("解凍中...")
        with tarfile.open(tar_path, 'r:gz') as tar:
            # セキュリティ警告を解消: filterパラメータを追加
            tar.extractall(save_dir, filter='data')
        print("解凍完了")

    return extract_dir  # save_dirを返す

# データの読み込み
def load_livedoor_corpus(data_dir):
    """livedoorニュースコーパスを読み込み"""
    import glob

    categories = [
        'dokujo-tsushin',
        'it-life-hack',
        'kaden-channel',
        'livedoor-homme',
        'movie-enter',
        'peachy',
        'smax',
        'sports-watch',
        'topic-news'
    ]

    articles = []

    for category in categories:
        category_path = os.path.join(data_dir, 'text', category)
        files = glob.glob(os.path.join(category_path, '*.txt'))

        for file_path in files:
            with open(file_path, 'r', encoding='utf-8') as f:
                lines = f.readlines()

                # 1行目: URL, 2行目: 日付, 3行目: タイトル, 4行目以降: 本文
                if len(lines) >= 3:
                    url = lines[0].strip()
                    title = lines[2].strip()
                    content = ''.join(lines[3:]).strip()

                    articles.append({
                        'url': url,
                        'title': title,
                        'content': content,
                        'category': category
                    })

    return articles

# 実行
data_dir = download_livedoor_corpus()
articles = load_livedoor_corpus(data_dir)

print(f"総記事数: {len(articles)}")
print("\n=== サンプル ===")
print(f"カテゴリ: {articles[0]['category']}")
print(f"タイトル: {articles[0]['title']}")
print(f"本文（最初の100文字）: {articles[0]['content'][:100]}...")

総記事数: 7376

=== サンプル ===
カテゴリ: dokujo-tsushin
タイトル: タニタに続き、第二弾！ 話題の社員食堂は家庭薬膳
本文（最初の100文字）: タニタだけじゃない。2008年から社員食堂を一般公開しているのはロート製薬が運営する旬穀旬菜cafe。身体にいい家庭薬膳料理を食べさせてもらえると女性たちから圧倒的な支持を得ている。
製薬会社ならでは...
