In [1]:
import pandas as pd
import os
import json
from datetime import datetime
import altair as alt
from tqdm.notebook import tqdm # Jupyter Notebook用の進捗バー

# AltairのグラフをNotebookに表示するための設定
alt.renderers.enable('default')

print("ライブラリのインポートが完了しました。")

ライブラリのインポートが完了しました。


In [2]:
# --- 定数定義 ---
INFLUENCERS_FILE = 'influencers.txt'
INFO_DIR = 'posts_info/unzipped_data_7z/info/'
OUTPUT_CSV_FILE = 'influencer_posts_summary.csv' # 出力するCSVファイル名

# --- 関数定義 ---

def load_influencer_list(filepath):
    """influencers.txtを読み込み、ユーザー名のリストを返す。"""
    try:
        df = pd.read_csv(filepath, sep='\t', skiprows=[1])
        return sorted(df['Username'].unique())
    except FileNotFoundError:
        print(f"エラー: `{filepath}` が見つかりません。")
        return []

def load_all_posts_data(influencer_list, info_dir):
    """
    全インフルエンサーの全投稿データを読み込み、一つのPandas DataFrameにまとめる。
    """
    all_posts = []
    
    # tqdmを使って処理の進捗を表示
    print("全インフルエンサーの投稿データを読み込んでいます...")
    for username in tqdm(influencer_list, desc="インフルエンサー"):
        try:
            all_files = os.listdir(info_dir)
            user_post_files = [f for f in all_files if f.startswith(f"{username}-") and f.endswith('.info')]

            for filename in user_post_files:
                filepath = os.path.join(info_dir, filename)
                with open(filepath, 'r', encoding='utf-8') as f:
                    data = json.load(f)

                # 必要な情報を抽出
                timestamp = data.get('taken_at_timestamp', 0)
                likes = data.get('edge_media_preview_like', {}).get('count', 0)
                comments = data.get('edge_media_to_parent_comment', {}).get('count', 0)

                all_posts.append({
                    'username': username,
                    'timestamp': timestamp,
                    'datetime': datetime.fromtimestamp(timestamp),
                    'likes': likes,
                    'comments': comments,
                })
        except FileNotFoundError:
            print(f"エラー: 投稿データディレクトリ `{info_dir}` が見つかりません。")
            return pd.DataFrame()
        except Exception as e:
            print(f"警告: {username}のデータ読み込み中にエラーが発生しました: {e}")
            
    if not all_posts:
        print("警告: 投稿データが一件も見つかりませんでした。")
        return pd.DataFrame()

    # DataFrameを作成し、日付順にソート
    df = pd.DataFrame(all_posts)
    df = df.sort_values('datetime', ascending=False).reset_index(drop=True)
    return df

print("関数が定義されました。")

関数が定義されました。


In [3]:
# 1. インフルエンサーのリストを取得
influencer_list = load_influencer_list(INFLUENCERS_FILE)

# 2. 全投稿データをDataFrameに集約
if influencer_list:
    df_all_posts = load_all_posts_data(influencer_list, INFO_DIR)
    if not df_all_posts.empty:
        print(f"\n処理が完了しました。合計 {len(df_all_posts)} 件の投稿データを読み込みました。")
        # DataFrameの先頭5行を表示して中身を確認
        display(df_all_posts.head())
    else:
        print("データフレームが空です。")
else:
    print("インフルエンサーリストが取得できなかったため、処理を中断します。")

全インフルエンサーの投稿データを読み込んでいます...


インフルエンサー:   0%|          | 0/33934 [00:00<?, ?it/s]

In [None]:
if 'df_all_posts' in locals() and not df_all_posts.empty:
    # 保存する列を指定
    columns_to_save = ['datetime', 'username', 'likes', 'comments']
    df_all_posts[columns_to_save].to_csv(OUTPUT_CSV_FILE, index=False)
    print(f"全投稿データを '{OUTPUT_CSV_FILE}' として保存しました。")
else:
    print("保存するデータがありません。")

In [None]:
if 'df_all_posts' in locals() and not df_all_posts.empty:
    # 対象インフルエンサーでデータをフィルタリング
    df_filtered = df_all_posts[df_all_posts['username'].isin(target_influencers)].copy()
    
    # 指定した期間で日付を丸める
    df_filtered['date'] = df_filtered['datetime'].dt.to_period(freq).dt.start_time

    # 投稿数を集計
    df_post_counts = df_filtered.groupby(['username', 'date']).size().reset_index(name='post_count')

    # Altairでグラフを作成
    chart = alt.Chart(df_post_counts, title=f"投稿数の推移 ({freq_map[freq]})").mark_line(point=True).encode(
        x=alt.X('date:T', title='日付'),
        y=alt.Y('post_count:Q', title='投稿数'),
        color=alt.Color('username:N', title='インフルエンサー'),
        tooltip=[
            alt.Tooltip('date:T', title='日付', format='%Y-%m-%d'),
            alt.Tooltip('username:N', title='名前'),
            alt.Tooltip('post_count:Q', title='投稿数')
        ]
    ).interactive()
    
    # グラフを表示
    display(chart)
else:
    print("グラフを描画するデータがありません。")