In [40]:
import cugraph
import cudf
import pandas as pd
import numpy as np
import datashader as ds
import cuxfilter
import networkx as nx
import seaborn as sns
import collections as cl
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import TfidfVectorizer

In [41]:
import os
import json

# 現在のノートブックのディレクトリを取得
current_dir = os.path.dirname(os.path.abspath("Bluesky_analysis_y-matae.ipynb"))

# 親ディレクトリに移動してJSONファイルのパスを構築
json_file_202412161109 = os.path.join(current_dir, "..", "bsky_data", "20241216", "11", "202412161109.json")
json_file_202412161110 = os.path.join(current_dir, "..", "bsky_data", "20241216", "11", "202412161110.json")

# # JSONファイルを行ごとに読み込む
# with open(json_file, "r", encoding="utf-8") as f:
#     for line in f:
#         line = line.strip()  # 空白を削除
#         if line:  # 空行をスキップ
#             try:
#                 data = json.loads(line)  # 各行をJSONとして読み込み
#                 print(data)  # データを確認
#             except json.JSONDecodeError as e:
#                 print(f"JSONDecodeError: {e}")


# # 上から10件を取得して表示
# top_10_data = data[:10] if isinstance(data, list) else list(data.items())[:10]

# # 結果を表示
# for i, item in enumerate(top_10_data, start=1):
#     print(f"データ {i}: {item}")


In [42]:
import json

# JSONファイルを読み込み、"post" に該当するデータを抽出
posts = []

with open(json_file_202412161109, "r", encoding="utf-8") as f:
    for line in f:
        line = line.strip()  # 空白を削除
        if line:  # 空行をスキップ
            try:
                data = json.loads(line)  # 各行をJSONとして読み込み
                # "post" に該当するデータを抽出
                if (
                    "commit" in data
                    and data["commit"].get("collection") == "app.bsky.feed.post"
                ):
                    posts.append(data)
            except json.JSONDecodeError as e:
                print(f"JSONDecodeError: {e}")

# 抽出したデータを表示
print(f"抽出されたポストの件数: {len(posts)}")
for i, post in enumerate(posts[:20], start=1):  # 上位10件を表示
    print(f"ポスト {i}: {post}")


抽出されたポストの件数: 1964
ポスト 1: {'did': 'did:plc:6btlrooty5fyxjukqiw423ey', 'time_us': 1734314940001178, 'kind': 'commit', 'commit': {'rev': '3ldfaoynyqm2o', 'operation': 'create', 'collection': 'app.bsky.feed.post', 'rkey': '3ldfaoyld4226', 'record': {'$type': 'app.bsky.feed.post', 'createdAt': '2024-12-16T02:08:59.688Z', 'embed': {'$type': 'app.bsky.embed.record', 'record': {'cid': 'bafyreiek5dgblmt72m6pbvqihafihz4t6lb5gnalsb3ocnwcofcmnesfeq', 'uri': 'at://did:plc:dna3c6dbiajizvm2aionxled/app.bsky.feed.post/3ldf6kdcwz22p'}}, 'langs': ['en'], 'text': 'Fred Rococo 4ever'}, 'cid': 'bafyreieunlywcy243zsojwnw7rwvkc3vazqtth3dtcyr6iycna3qqtdb6y'}}
ポスト 2: {'did': 'did:plc:vu55lyfo64pq33fmvximr2pa', 'time_us': 1734314940009121, 'kind': 'commit', 'commit': {'rev': '3ldfaoxyqqs2q', 'operation': 'create', 'collection': 'app.bsky.feed.post', 'rkey': '3ldfaoxbsy22h', 'record': {'$type': 'app.bsky.feed.post', 'createdAt': '2024-12-16T02:08:58.328Z', 'embed': {'$type': 'app.bsky.embed.external', 'external'

In [43]:
# "post" に該当するデータの "text" を抽出
bluesky_texts = []
with open(json_file_202412161109, "r", encoding="utf-8") as f:
    for line in f:
        line = line.strip()  # 空白を削除
        if line:  # 空行をスキップ
            try:
                data = json.loads(line)  # 各行をJSONとして読み込み
                # "post" に該当するデータを抽出
                if (
                    "commit" in data
                    and data["commit"].get("collection") == "app.bsky.feed.post"
                    and "record" in data["commit"]
                ):
                    text = data["commit"]["record"].get("text")
                    if text:
                        bluesky_texts.append(text)
            except json.JSONDecodeError as e:
                print(f"JSONDecodeError: {e}")

print(f"抽出されたポストの件数: {len(bluesky_texts)}")

# 上位10件を確認
for i, t in enumerate(bluesky_texts[:10], start=1):
    print(f"ポスト {i}: {t}")



抽出されたポストの件数: 1774
ポスト 1: Fred Rococo 4ever
ポスト 2: Ce soir on essaie un premier jeu de survie de toute ma vie avec The Lord Of the Rings: Return to Moria 

twitch.tv/isasava
ポスト 3: Maluco “só queria ser mordido por um tubarão”… sem condições kkkkkkkkkkkk
ポスト 4: Clearly the solution is heavy, locked rubber gloves~
ポスト 5: It was waaayyyy too good for a movie adaptation, and it even had its own unique bits of story, totally underrated 🙏🔥
ポスト 6: See, you're just calling into question your love of all gummy bears here.
ポスト 7: Anthony Edwards is always so spicy when we’re winning at away games. It’s almost like he prefers having a crowd against him, likes proving them wrong. A spite fueled king.
ポスト 8: sounds about right
ポスト 9: they lie i t was me
ポスト 10: omg i always forget i have neko atsume on my phone...


In [44]:
# -----------------------
# TF-IDFの計算部分
# -----------------------
# 1. TfidfVectorizerでtextsをベクトル化
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(bluesky_texts)

# 2. 抽出した単語リスト
feature_names = vectorizer.get_feature_names_out()

# 3. 全体のTF-IDFスコアを計算
total_tfidf_scores = np.sum(tfidf_matrix.toarray(), axis=0)

In [45]:

# 4. 単語ごとのTF-IDFスコアを辞書形式にまとめる
overall_scores = {
    feature_names[i]: total_tfidf_scores[i] 
    for i in range(len(feature_names))
}

# 5. 全体のスコアを降順でソート
sorted_scores = sorted(overall_scores.items(), key=lambda x: x[1], reverse=True)

# 6. 上位20単語のTF-IDFスコアを表示（必要に応じて数を調整）
print("\n=== 全体のTF-IDFスコア(上位20) ===")
for word, score in sorted_scores[:20]:
    print(f"{word}: {score:.3f}")

# -----------------------
# データフレーム化して表示
# -----------------------
overall_tfidf_df = pd.DataFrame({
    "単語": list(overall_scores.keys()),
    "全体スコア": list(overall_scores.values())
})

# スコアでソート
overall_tfidf_df.sort_values("全体スコア", ascending=False, inplace=True)
overall_tfidf_df.reset_index(drop=True, inplace=True)

print("\n=== 全体のTF-IDFスコア: DataFrame ===")
display(overall_tfidf_df.head(20))


=== 全体のTF-IDFスコア(上位20) ===
the: 60.731
to: 46.015
you: 38.902
and: 37.668
it: 34.560
of: 32.638
is: 31.870
that: 31.439
in: 28.774
this: 26.727
for: 26.030
my: 25.844
on: 20.944
com: 20.545
me: 19.091
be: 18.921
so: 17.279
with: 17.148
just: 16.869
are: 16.856

=== 全体のTF-IDFスコア: DataFrame ===


Unnamed: 0,単語,全体スコア
0,the,60.73111
1,to,46.015477
2,you,38.901743
3,and,37.667575
4,it,34.559804
5,of,32.637771
6,is,31.870397
7,that,31.439126
8,in,28.773915
9,this,26.727471


In [46]:
!pip install nltk

Defaulting to user installation because normal site-packages is not writeable


In [47]:
import nltk
nltk.download('punkt')       # トークン分割用
nltk.download('stopwords')   # 英語のストップワード
nltk.download('wordnet')     # レンマ化(WordNetLemmatizer)用


[nltk_data] Downloading package punkt to /home/y-matae/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/y-matae/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /home/y-matae/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [48]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# 英語のストップワードをセットで取得
nltk_stopwords = set(stopwords.words('english'))

# 追加で除外したい単語（任意）
# 例: 'be' は後で自動的に除外するが、'am', 'are' を直接除外したい場合など
# custom_words = {'be', 'am', 'are', 'was', 'were'}

# レンマタイザを用意
lemmatizer = WordNetLemmatizer()

def preprocess_text_nltk(text: str) -> str:
    """
    NLTKを使ってテキストを以下の手順で前処理:
      1. 小文字化
      2. トークン分割 (word_tokenize)
      3. レンマ化 (WordNetLemmatizer)
      4. ストップワード・be動詞・句読点や数字などを除去
      5. スペース区切りで結合
    """
    # 1. 小文字化 & トークン分割
    tokens = word_tokenize(text.lower())
    
    processed_tokens = []
    for token in tokens:
        # 2. レンマ化 (動詞優先で正規化→名詞も試す例)
        #   ex) 'am', 'are', 'was', 'were' -> lemma: "be"
        #   ex) 'running' -> lemma: "run"
        # WordNetLemmatizerはPOSを明示すると精度が上がる
        lemma_v = lemmatizer.lemmatize(token, pos='v')  # 動詞として
        lemma_n = lemmatizer.lemmatize(lemma_v, pos='n')  # 名詞として
        lemma = lemma_n  # 最終的に lemma として採用
        
        # 3. ストップワードを除外 ("the", "a", "is"など)
        if lemma in nltk_stopwords:
            continue
        
        # 4. "be" (am, are, was, were... など) になったトークンを除外
        if lemma == "be":
            continue
        
        # 5. アルファベットのみ残す(句読点や数字を除外したい場合)
        #   例: "hello," -> "hello" としたい場合はさらに整形するか、
        #   isalpha() で英字のみ判定する
        if not lemma.isalpha():
            continue
        
        processed_tokens.append(lemma)
    
    # 6. スペース区切りの文字列に戻す
    return " ".join(processed_tokens)


In [49]:
# === 前処理を適用 ===
import nltk
nltk.download('punkt_tab')
processed_texts = [preprocess_text_nltk(t) for t in bluesky_texts]

[nltk_data] Downloading package punkt_tab to
[nltk_data]     /home/y-matae/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [50]:
# === TF-IDF ベクトル化 ===
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(processed_texts)

feature_names = vectorizer.get_feature_names_out()
print(f"\n[Info] 文書数: {tfidf_matrix.shape[0]}")
print(f"[Info] 特徴数(単語数): {tfidf_matrix.shape[1]}")


[Info] 文書数: 1774
[Info] 特徴数(単語数): 5711


In [51]:
# 全体スコアを合計して上位単語を表示
total_tfidf_scores = np.sum(tfidf_matrix.toarray(), axis=0)
score_dict = dict(zip(feature_names, total_tfidf_scores))
sorted_scores = sorted(score_dict.items(), key=lambda x: x[1], reverse=True)

In [52]:
print("\n=== TF-IDFスコア上位20単語 ===")
for word, score in sorted_scores[:20]:
    print(f"{word}: {score:.3f}")


=== TF-IDFスコア上位20単語 ===
get: 21.905
like: 19.934
love: 19.001
one: 18.222
time: 14.785
make: 14.389
go: 13.313
say: 12.608
de: 12.572
thank: 12.438
see: 12.348
look: 12.146
think: 11.883
know: 11.654
http: 11.498
good: 11.331
want: 11.294
need: 11.111
would: 10.923
really: 10.583


In [53]:
# DataFrame表示 (Pandas)
df_tfidf = pd.DataFrame({
    "word": list(score_dict.keys()),
    "score": list(score_dict.values())
}).sort_values("score", ascending=False).reset_index(drop=True)

print("\n=== DataFrame で上位20単語を確認 ===")
display(df_tfidf.head(20))


=== DataFrame で上位20単語を確認 ===


Unnamed: 0,word,score
0,get,21.905325
1,like,19.934493
2,love,19.000765
3,one,18.2223
4,time,14.784653
5,make,14.388975
6,go,13.312586
7,say,12.608133
8,de,12.571971
9,thank,12.437794


##### 新年の挨拶分析

In [54]:
# 親ディレクトリに移動してJSONファイルのパスを構築
json_file_202501010000 = os.path.join(current_dir, "..", "bsky_data", "20250101", "00", "202501010000.json")

In [55]:
import os
import json

# ポスト本文を格納するリスト
posts_202501010000 = []

# JSONファイルを開いて1行ずつ読み込む
with open(json_file_202501010000, "r", encoding="utf-8") as f:
    for line in f:
        line = line.strip()
        if not line:
            continue  # 空行をスキップ
        try:
            data = json.loads(line)  # JSONデータに変換
            # Blueskyでは "commit" → "collection" に "app.bsky.feed.post" があれば「投稿データ」とみなす
            if ("commit" in data 
                and data["commit"].get("collection") == "app.bsky.feed.post"
                and "record" in data["commit"]):
                
                # 投稿本文（textフィールド）を取得
                text_field = data["commit"]["record"].get("text")
                if text_field:
                    posts_202501010000.append(text_field)
                    
        except json.JSONDecodeError as e:
            print(f"JSONDecodeError: {e}")

# 取得した投稿の件数を確認
print(f"読み込んだ投稿数: {len(posts_202501010000)}件")

# 上位数件をサンプル表示（必要に応じて）
for i, post_text in enumerate(posts_202501010000[:5], start=1):
    print(f"[{i}] {post_text}\n")


読み込んだ投稿数: 8948件
[1] Pretty angel. 🌹

[2] Posting a favorite photo from each month in 2024. Jan 24: This is the annual tree burn after the holidays at #AlkiBeach. My fav local event.

[3] あけましておめでとうございます！！！（素振り）

[4] Baby on the right looks so sad 😭

[5] あけおめーー



In [56]:
!pip install langdetect

Defaulting to user installation because normal site-packages is not writeable


In [57]:
#新年のあけましておめでとうポストの数
import os
import json
from langdetect import detect, DetectorFactory, LangDetectException

# langdetect がスレッド非依存の結果を返すようにする
DetectorFactory.seed = 0

# 1. ブルースカイ投稿が入ったリスト (前段で取得済み)
#    例: posts_202501010000 = [... すでに "text" を格納済み ...]

# 2. 他言語の新年挨拶フレーズのリスト（あくまで例示）
newyear_phrases = [
    "happy new year",  # 英語
    "bonne année",     # フランス語
    "feliz año nuevo", # スペイン語
    "feliz ano novo",  # ポルトガル語
    "ein frohes neues jahr", # ドイツ語
    "buon anno",       # イタリア語
    "새해 복 많이 받으세요",   # 韓国語
    "с новым годом",   # ロシア語 (S Novim Godom)
    # ... 必要に応じて追加 ...
]

non_japanese_count = 0

for post_text in posts_202501010000:
    text_lower = post_text.lower()  # 小文字化して検索を単純化
    
    # 3. 言語判定
    try:
        lang = detect(post_text)
    except LangDetectException:
        # 解析が困難な場合はスキップ
        continue
    
    # 4. 日本語以外で、かつフレーズが含まれるか
    if lang != "ja":
        # いずれかの新年挨拶フレーズが含まれていればカウント
        if any(phrase in text_lower for phrase in newyear_phrases):
            non_japanese_count += 1

print(f"日本語以外のあけましておめでとうポスト数: {non_japanese_count}")


日本語以外のあけましておめでとうポスト数: 348


In [58]:
#!pip install "tensorflow>=2.0" tensorflow-hub

In [60]:
#日本語のみで行う例（Mecabの導入が必要）
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 1. あけおめポストのリストを仮定
# （すでに「あけましておめでとう」っぽい投稿を抽出済みだとする）
posts_akemashite_omedetou = [
    "明けましておめでとうございます！今年もよろしくお願いします。",
    "あけおめです！皆さん今年もよろしくー",
    "Happy new year to everyone! Wishing you all the best.",
    "Bonne année! Meilleurs vœux à tous!",
    "あけおめ！今年の目標を語りましょう！",
    # ... さらに多数の投稿 ...
]

# 2. TF-IDF ベクトル化
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(posts_akemashite_omedetou)
# shape = (N件の投稿, M次元)

# 3. コサイン類似度を計算
# 行列同士でコサイン類似度を計算し、(N x N) の類似度行列を得る
similarity_matrix = cosine_similarity(tfidf_matrix, tfidf_matrix)

# 4. 可視化用：DataFrame化
df_sim = pd.DataFrame(
    similarity_matrix,
    index=[f"Post{i}" for i in range(len(posts_akemashite_omedetou))],
    columns=[f"Post{i}" for i in range(len(posts_akemashite_omedetou))]
)

print("=== コサイン類似度行列 ===")
display(df_sim)

# 5. 特に似ている投稿ペアを抽出する例
#   （自己類似度=1.0を除き、上位だけ見る）
similarities = []
N = len(posts_akemashite_omedetou)
for i in range(N):
    for j in range(i+1, N):
        sim = similarity_matrix[i, j]
        similarities.append(((i, j), sim))

# 類似度を降順ソート
similarities_sorted = sorted(similarities, key=lambda x: x[1], reverse=True)

print("\n=== 似ている投稿ペア (上位10) ===")
for (i, j), sim in similarities_sorted[:10]:
    print(f"Post{i} vs Post{j} : similarity={sim:.3f}")
    print(f"   - {posts_akemashite_omedetou[i]}")
    print(f"   - {posts_akemashite_omedetou[j]}")
    print()


=== コサイン類似度行列 ===


Unnamed: 0,Post0,Post1,Post2,Post3,Post4
Post0,1.0,0.0,0.0,0.0,0.0
Post1,0.0,1.0,0.0,0.0,0.0
Post2,0.0,0.0,1.0,0.0,0.0
Post3,0.0,0.0,0.0,1.0,0.0
Post4,0.0,0.0,0.0,0.0,1.0



=== 似ている投稿ペア (上位10) ===
Post0 vs Post1 : similarity=0.000
   - 明けましておめでとうございます！今年もよろしくお願いします。
   - あけおめです！皆さん今年もよろしくー

Post0 vs Post2 : similarity=0.000
   - 明けましておめでとうございます！今年もよろしくお願いします。
   - Happy new year to everyone! Wishing you all the best.

Post0 vs Post3 : similarity=0.000
   - 明けましておめでとうございます！今年もよろしくお願いします。
   - Bonne année! Meilleurs vœux à tous!

Post0 vs Post4 : similarity=0.000
   - 明けましておめでとうございます！今年もよろしくお願いします。
   - あけおめ！今年の目標を語りましょう！

Post1 vs Post2 : similarity=0.000
   - あけおめです！皆さん今年もよろしくー
   - Happy new year to everyone! Wishing you all the best.

Post1 vs Post3 : similarity=0.000
   - あけおめです！皆さん今年もよろしくー
   - Bonne année! Meilleurs vœux à tous!

Post1 vs Post4 : similarity=0.000
   - あけおめです！皆さん今年もよろしくー
   - あけおめ！今年の目標を語りましょう！

Post2 vs Post3 : similarity=0.000
   - Happy new year to everyone! Wishing you all the best.
   - Bonne année! Meilleurs vœux à tous!

Post2 vs Post4 : similarity=0.000
   - Happy new year to everyone! Wishing you all the best.
   - あけおめ！今年の目

In [1]:
#pip install mecab-python3

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [3]:
# #動作にはMecabの導入が必要。


# import MeCab
# import numpy as np
# from sklearn.feature_extraction.text import TfidfVectorizer
# from sklearn.metrics.pairwise import cosine_similarity

# # 1) 形態素解析用の関数を定義
# def tokenize_japanese(text):
#     """
#     MeCabを使って日本語文章を単語に分割（分かち書き）し、トークンのリストを返す。
#     例:
#       "明けましておめでとうございます" → ["明け", "まし", "て", "おめでとう", "ござい", "ます"]
#     """
#     # Taggerの引数は使用するオプションや辞書により調整してください
#     # 例: "-Owakati" や "-Ochasen"など
#     mecab = MeCab.Tagger("-Owakati")
#     parsed = mecab.parse(text)
#     if parsed is None:
#         return []  # 解析に失敗した場合は空リストを返す
#     # 改行を除去してスペース区切りになっているトークン列をリスト化
#     tokens = parsed.strip().split()
#     return tokens

# # 2) 分析対象の文章（あけおめポストの例）
# posts_akemashite_omedetou = [
#     "明けましておめでとうございます！今年もよろしくお願いします。",
#     "あけおめです！皆さん今年もよろしくー",
#     "Happy new year to everyone! Wishing you all the best.",
#     "あけましておめでとう！今年の抱負は何ですか？",
#     "あけおめ～！今年もたくさんお話しましょうね。"
# ]

# # 3) TfidfVectorizerに MeCabベースの tokenizer を渡す
# vectorizer = TfidfVectorizer(
#     tokenizer=tokenize_japanese,
#     token_pattern=None,  # tokenizerを使う場合は正規表現パターンを無効化
# )

# # 4) TF-IDF行列の作成
# tfidf_matrix = vectorizer.fit_transform(posts_akemashite_omedetou)

# # 5) コサイン類似度を計算 (N x N行列)
# similarity_matrix = cosine_similarity(tfidf_matrix, tfidf_matrix)

# # 6) 結果を確認
# print("=== TF-IDF 各文書のベクトル次元数 ===")
# print(tfidf_matrix.shape)  # 例えば (5, X) など
# print()

# print("=== コサイン類似度行列 ===")
# for i in range(similarity_matrix.shape[0]):
#     row_sims = []
#     for j in range(similarity_matrix.shape[1]):
#         row_sims.append(f"{similarity_matrix[i, j]:.3f}")
#     print(f"Post{i}: " + "\t".join(row_sims))

# print()
# print("=== 類似度が高い投稿ペアを上位表示 ===")
# # 類似度行列から上三角だけを抜き出してソート
# pairs = []
# N = len(posts_akemashite_omedetou)
# for i in range(N):
#     for j in range(i+1, N):
#         sim = similarity_matrix[i, j]
#         pairs.append(((i, j), sim))

# # ソート（類似度の降順）
# pairs_sorted = sorted(pairs, key=lambda x: x[1], reverse=True)

# for idx, (pair, sim) in enumerate(pairs_sorted[:10], start=1):
#     i, j = pair
#     print(f"{idx}. Post{i} vs Post{j} = {sim:.3f}")
#     print(f"   - {posts_akemashite_omedetou[i]}")
#     print(f"   - {posts_akemashite_omedetou[j]}")
#     print()


RuntimeError: 
----------------------------------------------------------

Failed initializing MeCab. Please see the README for possible solutions:

    https://github.com/SamuraiT/mecab-python3#common-issues

If you are still having trouble, please file an issue here, and include the
ERROR DETAILS below:

    https://github.com/SamuraiT/mecab-python3/issues

issueを英語で書く必要はありません。

------------------- ERROR DETAILS ------------------------
arguments: -Owakati
default dictionary path: None
[ifs] no such file or directory: /usr/local/etc/mecabrc
----------------------------------------------------------


In [4]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 例: 英語のみの“Happy New Year”関連投稿（サンプル）
posts_english = [
    "Happy new year everyone! Wishing you all the best.",
    "I hope you have a wonderful new year celebration.",
    "This is unrelated to new year greetings, just a test post.",
    "Happy new year! Let's make this year great!",
    "Let's celebrate the start of a brand new year together!"
]

# 1. TF-IDFベクトル化
vectorizer = TfidfVectorizer(
    stop_words='english',  # 英語のストップワードを除外する場合
    lowercase=True         # 英語を小文字化（既定でTrue）
)
tfidf_matrix = vectorizer.fit_transform(posts_english)
# shape=(件数, 単語次元)

# 2. コサイン類似度の計算
sim_matrix = cosine_similarity(tfidf_matrix, tfidf_matrix)
# shape=(件数, 件数)

# 3. 出力確認
print("=== コサイン類似度行列 ===")
num_posts = len(posts_english)
for i in range(num_posts):
    row_sims = []
    for j in range(num_posts):
        row_sims.append(f"{sim_matrix[i, j]:.3f}")
    print(f"Post{i}: " + "\t".join(row_sims))

# 4. 上位に似ている投稿ペアを表示
pairs = []
for i in range(num_posts):
    for j in range(i + 1, num_posts):
        pairs.append(((i, j), sim_matrix[i, j]))

# 類似度降順にソート
pairs_sorted = sorted(pairs, key=lambda x: x[1], reverse=True)

print("\n=== 類似度が高い投稿ペア上位 ===")
for idx, (pair, sim) in enumerate(pairs_sorted[:5], start=1):
    i, j = pair
    print(f"{idx}. Post{i} vs Post{j} = {sim:.3f}")
    print(f"   - {posts_english[i]}")
    print(f"   - {posts_english[j]}")
    print()


=== コサイン類似度行列 ===
Post0: 1.000	0.139	0.110	0.359	0.127
Post1: 0.139	1.000	0.105	0.174	0.121
Post2: 0.110	0.105	1.000	0.138	0.096
Post3: 0.359	0.174	0.138	1.000	0.312
Post4: 0.127	0.121	0.096	0.312	1.000

=== 類似度が高い投稿ペア上位 ===
1. Post0 vs Post3 = 0.359
   - Happy new year everyone! Wishing you all the best.
   - Happy new year! Let's make this year great!

2. Post3 vs Post4 = 0.312
   - Happy new year! Let's make this year great!
   - Let's celebrate the start of a brand new year together!

3. Post1 vs Post3 = 0.174
   - I hope you have a wonderful new year celebration.
   - Happy new year! Let's make this year great!

4. Post0 vs Post1 = 0.139
   - Happy new year everyone! Wishing you all the best.
   - I hope you have a wonderful new year celebration.

5. Post2 vs Post3 = 0.138
   - This is unrelated to new year greetings, just a test post.
   - Happy new year! Let's make this year great!

