In [2]:
import pandas as pd

# コメントデータのサンプル
comments = ["これは素晴らしいです！", "デザインが好きではありません。", "とてもおしゃれですね！"]

# 画像ごとに2000件のコメントデータを準備
image_names = ["image1.jpg"] * 2000 + ["image2.jpg"] * 2000
comment_list = comments * (4000 // len(comments))  # 全体の長さ4000に合わせる
comment_list += comments[:4000 % len(comments)]  # 余りを追加して調整

# データフレームの作成
data = pd.DataFrame({
    "Image Name": image_names,
    "Comment": comment_list
})

# 確認
print(data.head())
print(data.tail())


   Image Name          Comment
0  image1.jpg      これは素晴らしいです！
1  image1.jpg  デザインが好きではありません。
2  image1.jpg      とてもおしゃれですね！
3  image1.jpg      これは素晴らしいです！
4  image1.jpg  デザインが好きではありません。
      Image Name          Comment
3995  image2.jpg      とてもおしゃれですね！
3996  image2.jpg      これは素晴らしいです！
3997  image2.jpg  デザインが好きではありません。
3998  image2.jpg      とてもおしゃれですね！
3999  image2.jpg      これは素晴らしいです！


In [3]:
from janome.tokenizer import Tokenizer

# 感情辞書を準備
positive_words = {"素晴らしい", "おしゃれ", "最高", "好き", "良い"}
negative_words = {"嫌い", "悪い", "最悪", "ダサい", "不快"}

# 日本語の形態素解析ツールを利用
tokenizer = Tokenizer()

# 感情スコアを計算する関数
def calculate_sentiment(comment):
    tokens = tokenizer.tokenize(comment)
    score = 0
    for token in tokens:
        base_form = token.base_form  # 単語の基本形
        if base_form in positive_words:
            score += 1
        elif base_form in negative_words:
            score -= 1
    return score


In [5]:
# 画像ごとのスコア平均を計算
avg_scores = data.groupby('Image Name')['Sentiment Score'].mean().reset_index()

# 人気/不人気を分類
avg_scores['Category'] = avg_scores['Sentiment Score'].apply(
    lambda x: 'Popular' if x > 0 else 'Unpopular' if x < 0 else 'Neutral'
)

print(avg_scores)


   Image Name  Sentiment Score Category
0  image1.jpg              1.0  Popular
1  image2.jpg              0.0  Neutral
