In [9]:
!pip cache purge
!pip install numpy pandas matplotlib scipy statsmodels scikit-learn tensorflow wordcloud

# spaCyとginzaをアンインストール
!pip uninstall -y spacy ginza ja_ginza

# 必要なバージョンを再インストール
!pip install spacy==3.0
!pip install ginza
!pip install --no-cache-dir spacy ginza ja_ginza

!pip install chardet

[0mFiles removed: 0
Collecting tensorflow
  Downloading tensorflow-2.18.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.1 kB)
Collecting wordcloud
  Downloading wordcloud-1.9.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.4 kB)
Collecting absl-py>=1.0.0 (from tensorflow)
  Downloading absl_py-2.1.0-py3-none-any.whl.metadata (2.3 kB)
Collecting astunparse>=1.6.0 (from tensorflow)
  Downloading astunparse-1.6.3-py2.py3-none-any.whl.metadata (4.4 kB)
Collecting flatbuffers>=24.3.25 (from tensorflow)
  Downloading flatbuffers-24.3.25-py2.py3-none-any.whl.metadata (850 bytes)
Collecting gast!=0.5.0,!=0.5.1,!=0.5.2,>=0.2.1 (from tensorflow)
  Downloading gast-0.6.0-py3-none-any.whl.metadata (1.3 kB)
Collecting google-pasta>=0.1.1 (from tensorflow)
  Downloading google_pasta-0.2.0-py3-none-any.whl.metadata (814 bytes)
Collecting libclang>=13.0.0 (from tensorflow)
  Downloading libclang-18.1.1-py2.py3-none-manylinux2010_x86_64.whl.metadata (5

In [6]:
import os

In [7]:
#q1-1
import csv
# ファイルを読み込む
file_path = "../data/practice3-1/testset100k.txt"

# タイトル抽出リスト
thread_titles = []

with open(file_path, "r", encoding="utf-8") as file:
    reader = csv.reader(file, delimiter="\t")  # タブ区切りで読み込み
    for row in reader:
        # タイトル（3番目の列）を取得
        if len(row) > 2:  # カラムが正しく存在するかチェック
            title = row[2].strip()  # タイトルを取得
            thread_titles.append(title)

# 件数をカウント
thread_count = len(thread_titles)

# 結果表示
print(f"スレッドタイトルの総件数: {thread_count}")


スレッドタイトルの総件数: 100000


In [13]:
#q1-2
import csv
import spacy
from concurrent.futures import ProcessPoolExecutor

# giNZAのロード（パイプラインの一部を無効化して高速化）
nlp = spacy.load("ja_ginza", disable=["parser", "ner"])

# ファイルパスを指定
file_path = "../data/practice3-1/testset100k.txt"

# 名詞を格納するセット（重複を除くためセットを使用）
unique_nouns = set()

# タイトルから名詞を抽出する関数
def extract_nouns(title):
    doc = nlp(title)
    return {token.text for token in doc if token.pos_ == "NOUN"}

# ファイルを読み込み、並列でスレッドタイトルを抽出
def process_file(file_path):
    with open(file_path, "r", encoding="utf-8") as file:
        reader = csv.reader(file, delimiter="\t")  # タブ区切りで読み込み
        titles = [row[2].strip() for row in reader if len(row) > 2]  # スレッドタイトルを抽出
    return titles

# 並列処理を使って名詞を抽出
def parallel_extract(file_path):
    # ファイルから並列でスレッドタイトルを抽出
    titles = process_file(file_path) # 自分で定義した関数

    # プロセスプールを使って並列処理
    with ProcessPoolExecutor() as executor:
        # titles各要素から名詞を抽出
        results = executor.map(extract_nouns, titles) # titlesリストの要素に対して並列にextract_nounsを実行

    # 各プロセスで得られた名詞をユニークに統合
    for result in results:
        unique_nouns.update(result)

# 並列処理で名詞抽出を実行
parallel_extract(file_path)

# ユニーク名詞の件数
unique_noun_count = len(unique_nouns)

# 結果を表示
print(f"ユニーク名詞数: {unique_noun_count}")


ユニーク名詞数: 39562


In [21]:
#q1-3
import csv
from collections import defaultdict, Counter
import spacy
from datetime import datetime
from concurrent.futures import ProcessPoolExecutor

nlp = spacy.load("ja_ginza", disable=["parser", "ner"])

file_path = "../data/practice3-1/testset100k.txt"

# 月ごとのキーワードを処理する関数
def process_monthly_keywords(args):
    month_key, titles = args
    keywords = []
    for title in titles:
        doc = nlp(title)
        nouns = [token.text for token in doc if token.pos_ == "NOUN"]
        keywords.extend(nouns)
    # キーワードの出現数をカウントし、上位10件を取得
    keyword_counts = Counter(keywords)
    return month_key, keyword_counts.most_common(10)

# メイン処理
def main(file_path):
    monthly_titles = defaultdict(list)  # 月ごとのタイトルリスト

    # ファイルを読み込み、月別にタイトルを整理
    with open(file_path, "r", encoding="utf-8") as file:
        reader = csv.reader(file, delimiter="\t")  # タブ区切りで読み込み
        for row in reader:
            if len(row) > 2:  # スレッドタイトルと日時が存在するかチェック
                title = row[2].strip()  # スレッドタイトルを取得
                date_str = row[5].strip()  # 投稿日時を取得
                try:
                    # 日時をdatetimeに変換
                    post_date = datetime.strptime(date_str, "%Y-%m-%d %H:%M:%S")
                    month_key = post_date.strftime("%Y-%m")  # 年月キー（例: "2020-02"）
                    monthly_titles[month_key].append(title)
                except ValueError:
                    # 無効な日時データをスキップ
                    continue

    # 並列処理を実行
    with ProcessPoolExecutor() as executor:
        results = executor.map(process_monthly_keywords, monthly_titles.items())

    # 結果を辞書にまとめる
    top_keywords_per_month = dict(results)

    # 結果を表示
    for month, top_keywords in sorted(top_keywords_per_month.items()):
        print(f"{month}:")
        for keyword, count in top_keywords:
            print(f"  {keyword}: {count}")

# 実行
if __name__ == "__main__":
    main(file_path)


2020-01:
  さん: 383
  ら: 371
  人: 354
  スレ: 319
  こと: 288
  女: 254
  お: 236
  奴: 221
  ちゃん: 219
  悲報: 202
2020-02:
  人: 373
  ら: 368
  さん: 354
  コロナ: 311
  こと: 288
  スレ: 287
  悲報: 225
  ちゃん: 218
  奴: 211
  画像: 207
2020-03:
  コロナ: 540
  人: 534
  さん: 423
  ら: 408
  スレ: 342
  こと: 334
  日: 265
  お: 258
  悲報: 245
  奴: 243
2020-04:
  コロナ: 757
  人: 508
  ら: 443
  さん: 421
  こと: 354
  スレ: 317
  悲報: 316
  円: 305
  ちゃん: 253
  マスク: 250
2020-05:
  ら: 488
  人: 414
  さん: 409
  コロナ: 347
  こと: 318
  スレ: 302
  女: 266
  奴: 265
  ちゃん: 264
  画像: 261
2020-06:
  さん: 296
  人: 289
  ら: 288
  こと: 248
  スレ: 222
  悲報: 189
  円: 182
  女: 181
  画像: 180
  ちゃん: 176
2020-07:
  人: 446
  さん: 422
  ら: 378
  スレ: 294
  こと: 285
  悲報: 271
  お: 254
  画像: 247
  女: 231
  コロナ: 230
2020-08:
  さん: 417
  ら: 405
  人: 387
  こと: 309
  スレ: 290
  画像: 264
  お: 256
  女: 245
  ちゃん: 239
  悲報: 207
2020-09:
  さん: 400
  ら: 398
  人: 317
  こと: 298
  スレ: 265
  画像: 257
  女: 232
  悲報: 226
  お: 222
  ちゃん: 218
2020-10:
  ら: 271
  さん: 268
  人: 207
  スレ:

In [17]:
#q1-4

import csv
from collections import defaultdict, Counter
import spacy
from datetime import datetime
from concurrent.futures import ProcessPoolExecutor

nlp = spacy.load("ja_ginza", disable=["parser", "ner"])

file_path = "../data/practice3-1/testset100k.txt"

monthly_keywords = defaultdict(list)  # 月ごとのキーワードリスト

# ファイルを読み込み、月別にキーワードを抽出
with open(file_path, "r", encoding="utf-8") as file:
    reader = csv.reader(file, delimiter="\t")  # タブ区切りで読み込み
    for row in reader:
        if len(row) > 2:  # スレッドタイトルと日時が存在するかチェック
            title = row[2].strip()  # スレッドタイトルを取得
            date_str = row[5].strip()  # 投稿日時を取得

            try:
                # 日時をdatetimeに変換して月を取得
                post_date = datetime.strptime(date_str, "%Y-%m-%d %H:%M:%S")
                month_key = post_date.strftime("%Y-%m")  # 年月キー（例: "2020-02")

                # GiNZAを用いて名詞を抽出
                doc = nlp(title)
                nouns = [token.text for token in doc if token.pos_ == "NOUN"]

                # 月ごとのキーワードリストに追加
                monthly_keywords[month_key].extend(nouns)
            except ValueError:
                # 無効な日付データをスキップ
                continue

# 全体の頻度を集計
all_keywords = []  # 全体のキーワードリスト
for keywords in monthly_keywords.values():  # values()でキーワードのみ取得
    all_keywords.extend(keywords)

total_keyword_counts = Counter(all_keywords)  # 全体の頻度を保持する辞書

# 特徴語を抽出する関数
def extract_characteristic_keywords(args):
    month, keywords, total_keyword_counts = args
    keyword_counts = Counter(keywords)  # 各月のキーワード頻度({"猫":2}のように格納)
    characteristics = {}
    for word, count in keyword_counts.items():
        overall_ratio = count / total_keyword_counts[word]  # 全体頻度に対する割合
        if 0.5 <= overall_ratio < 1.0:  # 全体頻度の 50% 以上を占めるが、100% ではない
            characteristics[word] = overall_ratio
    # 上位10件を抽出
    sorted_characteristics = sorted(characteristics.items(), key=lambda x: x[1], reverse=True)
    return month, sorted_characteristics[:10]

# 並列処理で特徴語を抽出
with ProcessPoolExecutor() as executor:
    results = executor.map(
        extract_characteristic_keywords,  # 特徴語を抽出
        [(month, keywords, total_keyword_counts) for month, keywords in monthly_keywords.items()]
    )

# 結果を辞書に格納
top_keywords_per_month = dict(results)

# 結果を表示
for month, top_keywords in sorted(top_keywords_per_month.items()):
    print(f"{month}:")
    for keyword, ratio in top_keywords:
        print(f"  {keyword}: {ratio:.2f}")


2020-01:
  お年玉: 0.92
  新年: 0.92
  新春: 0.89
  落: 0.89
  財閥: 0.89
  縦読み: 0.86
  元日: 0.86
  成人式: 0.83
  ゴーン: 0.82
  DASADA: 0.80
2020-02:
  恵方: 0.93
  ケイジ: 0.88
  バレンタインデー: 0.86
  サツマイモ: 0.86
  バレンタイン: 0.85
  ガチムチ: 0.83
  探検: 0.83
  混浴: 0.80
  ふたり: 0.80
  失格: 0.80
2020-03:
  お祝い: 0.88
  円高: 0.88
  花見: 0.88
  ｱ: 0.86
  ﾞ: 0.86
  商品券: 0.85
  体験版: 0.83
  オーバーシュート: 0.83
  入国者: 0.83
  特措法: 0.80
2020-04:
  BCG: 0.89
  ホットライン: 0.84
  一律: 0.84
  不良品: 0.83
  ホッ: 0.83
  協力者: 0.83
  減便: 0.83
  小人: 0.80
  半減: 0.80
  こめ: 0.80
2020-05:
  マージャン: 0.92
  チミル: 0.91
  まき: 0.90
  法改正: 0.84
  オークス: 0.83
  アパホテル: 0.80
  検事長: 0.80
  コメンテーター: 0.80
  オンライン申請: 0.80
  総長: 0.80
2020-06:
  帰れ: 0.88
  手越: 0.83
  激励: 0.75
  腹黒: 0.75
  公約: 0.75
  すけ: 0.75
  交付金: 0.75
  アンインストール: 0.75
  Blu-ray: 0.75
  略奪: 0.75
2020-07:
  氾濫: 0.88
  びえ: 0.86
  プラエデ: 0.83
  両立: 0.83
  区民: 0.83
  To: 0.82
  ロマン: 0.80
  水位: 0.80
  土用: 0.80
  ∪: 0.75
2020-08:
  イソジン: 0.89
  盆休み: 0.88
  うがい薬: 0.88
  盆: 0.86
  アクタージュ: 0.86
  ドーパミン: 0.80
  CL: 