In [1]:
import pandas as pd
df = pd.read_csv('meta_data/sequences-241017.csv')
df.head()

Unnamed: 0,Accession,Pangolin,PangoVersions,Length,Host,Collection_Date,Release_Date
0,NC_045512.2,B,4.3.1/1.34/v0.1.12/0.3.19/0.6.3,29903,Homo sapiens,2019-12,2020-01-13
1,BS016364.1,KP.3.3,4.3.1/1.34/v0.1.12/0.3.19/0.6.3,29785,Homo sapiens,2024-09-09,2024-10-16
2,BS016365.1,KP.3.3,4.3.1/1.34/v0.1.12/0.3.19/0.6.3,29776,Homo sapiens,2024-09-09,2024-10-16
3,BS016366.1,KP.3.3,4.3.1/1.34/v0.1.12/0.3.19/0.6.3,29774,Homo sapiens,2024-09-09,2024-10-16
4,BS016367.1,KP.3.3,4.3.1/1.34/v0.1.12/0.3.19/0.6.3,29774,Homo sapiens,2024-09-10,2024-10-16


In [2]:
# データの列名を確認
print("データの列名:")
print(df.columns.tolist())
print("\n最初の数行:")
print(df.head())

# 採取日に関連する列名を検索
date_columns = [col for col in df.columns if any(keyword in col.lower() for keyword in ['date', '日', '採取', 'collection'])]
print(f"\n採取日に関連する可能性のある列: {date_columns}")

# 変異株種に関連する列名を検索  
lineage_columns = [col for col in df.columns if any(keyword in col.lower() for keyword in ['lineage', '系統', 'variant', '変異', 'strain', 'type'])]
print(f"変異株種に関連する可能性のある列: {lineage_columns}")

print(f"\nデータの行数: {len(df)}")
print(f"データの列数: {len(df.columns)}")

データの列名:
['Accession', 'Pangolin', 'PangoVersions', 'Length', 'Host', 'Collection_Date', 'Release_Date']

最初の数行:
     Accession Pangolin                    PangoVersions  Length  \
0  NC_045512.2        B  4.3.1/1.34/v0.1.12/0.3.19/0.6.3   29903   
1   BS016364.1   KP.3.3  4.3.1/1.34/v0.1.12/0.3.19/0.6.3   29785   
2   BS016365.1   KP.3.3  4.3.1/1.34/v0.1.12/0.3.19/0.6.3   29776   
3   BS016366.1   KP.3.3  4.3.1/1.34/v0.1.12/0.3.19/0.6.3   29774   
4   BS016367.1   KP.3.3  4.3.1/1.34/v0.1.12/0.3.19/0.6.3   29774   

           Host Collection_Date Release_Date  
0  Homo sapiens         2019-12   2020-01-13  
1  Homo sapiens      2024-09-09   2024-10-16  
2  Homo sapiens      2024-09-09   2024-10-16  
3  Homo sapiens      2024-09-09   2024-10-16  
4  Homo sapiens      2024-09-10   2024-10-16  

採取日に関連する可能性のある列: ['Collection_Date', 'Release_Date']
変異株種に関連する可能性のある列: []

データの行数: 8936739
データの列数: 7


In [3]:
# Collection_Dateの形式を確認
print("Collection_Dateのユニークな値のサンプル:")
unique_dates = df['Collection_Date'].dropna().unique()
print(f"ユニークな採取日の数: {len(unique_dates)}")
print("最初の10個のサンプル:")
for i, date in enumerate(unique_dates[:10]):
    print(f"  {i+1}: {date}")

print("\n採取日の形式パターンを確認:")
date_patterns = {}
for date in unique_dates:  # 全ての日付で確認
    pattern = str(date)
    if '-' in pattern:
        parts = pattern.count('-')
        if parts == 2:
            date_patterns['YYYY-MM-DD'] = date_patterns.get('YYYY-MM-DD', 0) + 1
        elif parts == 1:
            date_patterns['YYYY-MM'] = date_patterns.get('YYYY-MM', 0) + 1
    elif pattern.isdigit() and len(pattern) == 4:
        # 4桁の数字のみ（年のみ）
        date_patterns['YYYY'] = date_patterns.get('YYYY', 0) + 1
    else:
        date_patterns['Other'] = date_patterns.get('Other', 0) + 1

print("採取日の形式パターン:")
for pattern, count in sorted(date_patterns.items()):
    print(f"  {pattern}: {count}個")

# 各パターンのサンプルを表示
print("\n各パターンのサンプル:")
pattern_samples = {}
for date in unique_dates:
    pattern = str(date)
    if '-' in pattern:
        parts = pattern.count('-')
        if parts == 2:
            key = 'YYYY-MM-DD'
        elif parts == 1:
            key = 'YYYY-MM'
    elif pattern.isdigit() and len(pattern) == 4:
        key = 'YYYY'
    else:
        key = 'Other'
    
    if key not in pattern_samples:
        pattern_samples[key] = []
    if len(pattern_samples[key]) < 3:  # 各パターン最大3個のサンプル
        pattern_samples[key].append(date)

for pattern in sorted(pattern_samples.keys()):
    samples = ', '.join(map(str, pattern_samples[pattern]))
    print(f"  {pattern}: {samples}")

Collection_Dateのユニークな値のサンプル:
ユニークな採取日の数: 1805
最初の10個のサンプル:
  1: 2019-12
  2: 2024-09-09
  3: 2024-09-10
  4: 2024-09-16
  5: 2024-09-02
  6: 2024-09-12
  7: 2024-09-17
  8: 2024-09-23
  9: 2024-09-26
  10: 2024-09-27

採取日の形式パターンを確認:
採取日の形式パターン:
  YYYY: 5個
  YYYY-MM: 58個
  YYYY-MM-DD: 1742個

各パターンのサンプル:
  YYYY: 2024, 2023, 2021
  YYYY-MM: 2019-12, 2024-09, 2024-08
  YYYY-MM-DD: 2024-09-09, 2024-09-10, 2024-09-16


In [4]:
import numpy as np

# 欠損値のない行のみを使用（ただし、YYYYのみのデータも含める）
df_clean = df.dropna(subset=['Collection_Date', 'Pangolin']).copy()

# YYYYのみのデータも含めるため、Collection_Dateが文字列で存在するものを対象とする
df_clean = df_clean[df_clean['Collection_Date'].notna() & (df_clean['Collection_Date'] != '')].copy()

print(f"処理対象データ数: {len(df_clean):,}行")

# YYYYのみのデータがどのくらいあるかチェック
yyyy_only_count = len(df_clean[df_clean['Collection_Date'].astype(str).str.match(r'^\d{4}$')])
yyyy_mm_count = len(df_clean[df_clean['Collection_Date'].astype(str).str.match(r'^\d{4}-\d{2}$')])
yyyy_mm_dd_count = len(df_clean[df_clean['Collection_Date'].astype(str).str.match(r'^\d{4}-\d{2}-\d{2}$')])

print(f"YYYYのみのデータ: {yyyy_only_count:,}行")
print(f"YYYY-MMのデータ: {yyyy_mm_count:,}行") 
print(f"YYYY-MM-DDのデータ: {yyyy_mm_dd_count:,}行")

# 採取日を年、月、日に分割する関数
def parse_date(date_str):
    """採取日文字列を年、月、日に分割"""
    if pd.isna(date_str):
        return None, None, None
    
    date_str = str(date_str).strip()
    
    if '-' in date_str:
        parts = date_str.split('-')
        year = int(parts[0]) if parts[0].isdigit() else None
        
        if len(parts) >= 2:
            month = int(parts[1]) if parts[1].isdigit() else None
        else:
            month = None
            
        if len(parts) >= 3:
            day = int(parts[2]) if parts[2].isdigit() else None
        else:
            day = None
            
        return year, month, day
    else:
        # 年のみの場合
        if date_str.isdigit():
            return int(date_str), None, None
        else:
            return None, None, None

# 年、月、日の列を作成
print("採取日を年、月、日に分割中...")
date_parts = df_clean['Collection_Date'].apply(parse_date)
df_clean['年'] = [parts[0] for parts in date_parts]
df_clean['月'] = [parts[1] for parts in date_parts]
df_clean['日'] = [parts[2] for parts in date_parts]

# noneを適切に表示するため、NaNをNoneに変換
df_clean['月'] = df_clean['月'].where(df_clean['月'].notna(), None)
df_clean['日'] = df_clean['日'].where(df_clean['日'].notna(), None)

print("分割完了!")

処理対象データ数: 8,935,947行
YYYYのみのデータ: 68,091行
YYYY-MMのデータ: 49,043行
YYYY-MM-DDのデータ: 8,818,813行
採取日を年、月、日に分割中...
分割完了!


In [5]:
# 採取日と変異株種ごとに集計（月・日がNoneの場合も含む）
print("採取日と変異株種ごとの件数集計を実行中...")

# グループ化して件数をカウント（NoneをNaNに戻して適切にグループ化）
summary_table = df_clean.groupby(['Collection_Date', 'Pangolin', '年', '月', '日'], dropna=False).size().reset_index(name='件数')

# 件数で降順ソート
summary_table = summary_table.sort_values('件数', ascending=False)

print(f"集計完了! 集計結果: {len(summary_table):,}行")
print(f"総件数: {summary_table['件数'].sum():,}件")

# 月・日がNoneのレコード数を確認
none_month_records = len(summary_table[summary_table['月'].isna()])
none_day_records = len(summary_table[summary_table['日'].isna()])
print(f"月がNoneのレコード: {none_month_records:,}行")
print(f"日がNoneのレコード: {none_day_records:,}行")

# 結果の最初の20行を表示
print("\n=== 採取日・変異株種別 件数集計表（上位20件）===")
display_table = summary_table.head(20).copy()

# 月と日がNoneの場合の表示を調整
display_table['月_表示'] = display_table['月'].apply(lambda x: 'None' if pd.isna(x) or x is None else str(int(x)))
display_table['日_表示'] = display_table['日'].apply(lambda x: 'None' if pd.isna(x) or x is None else str(int(x)))

# 表示用のカラムを選択
result_display = display_table[['Collection_Date', 'Pangolin', '年', '月_表示', '日_表示', '件数']].copy()
result_display.columns = ['採取日', '変異株種', '年', '月', '日', '件数']

print(result_display.to_string(index=False))

print(f"\n変異株種の種類数: {df_clean['Pangolin'].nunique():,}種類")
print(f"採取日の種類数: {df_clean['Collection_Date'].nunique():,}種類")

採取日と変異株種ごとの件数集計を実行中...
集計完了! 集計結果: 288,781行
総件数: 8,935,947件
月がNoneのレコード: 963行
日がNoneのレコード: 3,928行

=== 採取日・変異株種別 件数集計表（上位20件）===
       採取日   変異株種    年    月    日    件数
2022-03-28   BA.2 2022    3   28 19230
      2020   AY.4 2020 None None 15913
2022-03-14   BA.2 2022    3   14 15780
2022-03-09   BA.2 2022    3    9 14295
2022-03-21   BA.2 2022    3   21 14256
2022-02-07 BA.1.1 2022    2    7 14187
2022-03-17   BA.2 2022    3   17 14054
2022-01-31 BA.1.1 2022    1   31 14005
2022-01-18 BA.1.1 2022    1   18 13691
2022-03-16   BA.2 2022    3   16 13515
2022-03-07   BA.2 2022    3    7 13491
2022-02-08 BA.1.1 2022    2    8 13409
2022-01-19 BA.1.1 2022    1   19 13344
2022-01-04 BA.1.1 2022    1    4 13041
2022-02-02 BA.1.1 2022    2    2 12953
2022-01-24 BA.1.1 2022    1   24 12797
2022-03-22   BA.2 2022    3   22 12523
2022-03-23   BA.2 2022    3   23 12316
2022-03-24   BA.2 2022    3   24 12310
2022-02-14 BA.1.1 2022    2   14 12257

変異株種の種類数: 4,276種類
採取日の種類数: 1,805種類


In [6]:
# 完全な集計表を保存用に準備（月・日がNoneの場合も含む）
final_table = summary_table.copy()
final_table['月'] = final_table['月'].apply(lambda x: 'None' if pd.isna(x) or x is None else str(int(x)))
final_table['日'] = final_table['日'].apply(lambda x: 'None' if pd.isna(x) or x is None else str(int(x)))

# カラム名を日本語に変更
final_table = final_table[['Collection_Date', 'Pangolin', '年', '月', '日', '件数']]
final_table.columns = ['採取日', '変異株種', '年', '月', '日', '件数']

# CSVファイルとして保存
output_filename = 'lineage_summary_table.csv'
#final_table.to_csv(output_filename, index=False, encoding='utf-8-sig')
print(f"集計表を '{output_filename}' として保存しました。")

print("\n=== 集計サマリー（YYYYのみのデータも含む）===")
print(f"総レコード数: {len(final_table):,}行")
print(f"総件数: {final_table['件数'].sum():,}件")
print(f"変異株種の種類数: {final_table['変異株種'].nunique():,}種類")
print(f"採取日の種類数: {final_table['採取日'].nunique():,}種類")

print("\n=== 年別件数 ===")
year_summary = final_table.groupby('年')['件数'].sum().sort_index()
for year, count in year_summary.items():
    print(f"{year}年: {count:,}件")

print("\n=== 上位変異株種（全期間）===")
top_variants = final_table.groupby('変異株種')['件数'].sum().sort_values(ascending=False).head(10)
for variant, count in top_variants.items():
    print(f"{variant}: {count:,}件")

print("\n=== 月・日が不明なレコード数 ===")
none_month = len(final_table[final_table['月'] == 'None'])
none_day = len(final_table[final_table['日'] == 'None'])
print(f"月が不明: {none_month:,}行")
print(f"日が不明: {none_day:,}行")

# 採取日パターン別の件数も表示
print("\n=== 採取日パターン別の件数 ===")
yyyy_only_final = final_table[final_table['採取日'].str.match(r'^\d{4}$', na=False)]
yyyy_mm_final = final_table[final_table['採取日'].str.match(r'^\d{4}-\d{2}$', na=False)]
yyyy_mm_dd_final = final_table[final_table['採取日'].str.match(r'^\d{4}-\d{2}-\d{2}$', na=False)]

print(f"YYYYのみ: {len(yyyy_only_final):,}行, 総件数: {yyyy_only_final['件数'].sum():,}件")
print(f"YYYY-MM: {len(yyyy_mm_final):,}行, 総件数: {yyyy_mm_final['件数'].sum():,}件")
print(f"YYYY-MM-DD: {len(yyyy_mm_dd_final):,}行, 総件数: {yyyy_mm_dd_final['件数'].sum():,}件")

集計表を 'lineage_summary_table.csv' として保存しました。

=== 集計サマリー（YYYYのみのデータも含む）===
総レコード数: 288,781行
総件数: 8,935,947件
変異株種の種類数: 4,276種類
採取日の種類数: 1,805種類

=== 年別件数 ===
2019年: 20件
2020年: 450,408件
2021年: 4,220,217件
2022年: 3,637,596件
2023年: 487,812件
2024年: 139,894件

=== 上位変異株種（全期間）===
AY.4: 834,876件
BA.2: 795,621件
BA.1.1: 686,031件
B.1.1.7: 634,209件
BA.1: 316,762件
AY.103: 247,041件
AY.44: 214,379件
BA.1.17.2: 180,906件
BA.2.12.1: 170,866件
AY.3: 142,179件

=== 月・日が不明なレコード数 ===
月が不明: 963行
日が不明: 3,928行

=== 採取日パターン別の件数 ===
YYYYのみ: 963行, 総件数: 68,091件
YYYY-MM: 2,965行, 総件数: 49,043件
YYYY-MM-DD: 284,853行, 総件数: 8,818,813件


In [7]:
# 行をYYMM（MMがない場合はYY）、列を変異株種とするクロス集計表を作成
print("=== YYMM x 変異株種 クロス集計表の作成 ===")

# YYMMまたはYYの列を作成
def create_yymm_key(row):
    """年と月から YYMM または YY のキーを作成"""
    year = row['年']
    month = row['月']
    
    if pd.isna(year):
        return None
    
    # 年を2桁に変換（2000年以降は20XX -> XX、1900年代は19XX -> XX）
    year_str = str(int(year))
    if len(year_str) == 4:
        yy = year_str[2:]  # 下2桁を取得
    else:
        yy = year_str
    
    # 月がNoneまたは'None'の場合はYYのみ
    if pd.isna(month) or month is None or month == 'None':
        return yy  # 月がない場合はYYのみ
    else:
        mm = str(int(month)).zfill(2)  # 月を2桁にパディング
        return f"{yy}{mm}"

# final_tableを使用してYYMM列を作成
cross_table_data = final_table.copy()
cross_table_data['YYMM'] = cross_table_data.apply(create_yymm_key, axis=1)

# NaNを除外
cross_table_data = cross_table_data[cross_table_data['YYMM'].notna()]

print(f"クロス集計用データ数: {len(cross_table_data):,}行")

# YYMM x 変異株種のクロス集計表を作成
cross_table = cross_table_data.groupby(['YYMM', '変異株種'])['件数'].sum().unstack(fill_value=0)

print(f"クロス集計表のサイズ: {cross_table.shape[0]}行 x {cross_table.shape[1]}列")
print(f"時間軸（YYMM）の範囲: {len(cross_table.index)}種類")
print(f"変異株種の数: {len(cross_table.columns)}種類")

# 総件数を確認
total_count = cross_table.sum().sum()
print(f"クロス集計表の総件数: {total_count:,}件")

print(f"\n=== 上位10変異株種の件数サマリー ===")
top_variants_cross = cross_table.sum().sort_values(ascending=False).head(10)
for variant, count in top_variants_cross.items():
    print(f"{variant}: {count:,}件")

print(f"\n=== 時系列サンプル（最初の10期間）===")
time_sample = cross_table.head(10)
variant_sample = cross_table.sum().sort_values(ascending=False).head(5).index  # 上位5変異株種
print("期間\\変異株種", end="")
for variant in variant_sample:
    print(f"\t{variant[:10]}", end="")  # 変異株種名を10文字で切り詰め
print("\t総計")

for period in time_sample.index:
    print(f"{period}", end="")
    period_total = 0
    for variant in variant_sample:
        count = cross_table.loc[period, variant]
        print(f"\t{count:,}", end="")
        period_total += count
    # その期間の全変異株種の総計
    actual_total = cross_table.loc[period].sum()
    print(f"\t{actual_total:,}")

# CSVファイルとして保存
cross_table_filename = 'cross_table_yymm_variants.csv'
#cross_table.to_csv(cross_table_filename, encoding='utf-8-sig')
print(f"\nクロス集計表を '{cross_table_filename}' として保存しました。")

=== YYMM x 変異株種 クロス集計表の作成 ===


クロス集計用データ数: 288,781行
クロス集計表のサイズ: 64行 x 4276列
時間軸（YYMM）の範囲: 64種類
変異株種の数: 4276種類
クロス集計表の総件数: 8,935,947件

=== 上位10変異株種の件数サマリー ===
AY.4: 834,876件
BA.2: 795,621件
BA.1.1: 686,031件
B.1.1.7: 634,209件
BA.1: 316,762件
AY.103: 247,041件
AY.44: 214,379件
BA.1.17.2: 180,906件
BA.2.12.1: 170,866件
AY.3: 142,179件

=== 時系列サンプル（最初の10期間）===
期間\変異株種	AY.4	BA.2	BA.1.1	B.1.1.7	BA.1	総計
1912	0	0	0	0	0	20
20	15,913	38	2,447	12,182	3,931	64,044
2001	0	0	9	0	51	316
2002	0	0	0	0	3	792
2003	0	0	0	8	0	30,013
2004	0	0	0	6	0	35,538
2005	2	0	0	2	0	18,965
2006	0	0	0	0	0	17,480
2007	0	0	2	0	0	20,090
2008	2	0	0	0	0	21,937

クロス集計表を 'cross_table_yymm_variants.csv' として保存しました。


In [8]:
# クロス集計表の詳細分析
print("=== クロス集計表の詳細分析 ===")

# 時系列順にソート（YYMMの順序）
cross_table_sorted = cross_table.sort_index()

print("=== YYのみ（月情報なし）のデータ ===")
yy_only = [idx for idx in cross_table_sorted.index if len(idx) == 2]
print(f"YYのみの期間数: {len(yy_only)}個")
print(f"YYのみの期間: {', '.join(yy_only)}")

if yy_only:
    yy_only_total = cross_table_sorted.loc[yy_only].sum().sum()
    print(f"YYのみの総件数: {yy_only_total:,}件")

print("\n=== YYMMデータの年別集計 ===")
yymm_data = [idx for idx in cross_table_sorted.index if len(idx) == 4]
year_totals = {}
for yymm in yymm_data:
    year = yymm[:2]
    if year not in year_totals:
        year_totals[year] = 0
    year_totals[year] += cross_table_sorted.loc[yymm].sum()

for year in sorted(year_totals.keys()):
    full_year = f"20{year}" if int(year) < 50 else f"19{year}"  # 2000年代か1900年代か推定
    print(f"{full_year}年({year}): {year_totals[year]:,}件")

print("\n=== 主要変異株種の時系列推移（上位5種）===")
top_5_variants = cross_table.sum().sort_values(ascending=False).head(5).index

print("期間", end="")
for variant in top_5_variants:
    print(f"\t{variant}", end="")
print("\t期間総計")

# 時系列で主要な期間のみを表示（件数が多い順に上位15期間）
period_totals = cross_table_sorted.sum(axis=1).sort_values(ascending=False)
top_periods = period_totals.head(15).index

for period in sorted(top_periods):  # 時系列順でソート
    print(f"{period}", end="")
    period_total = 0
    for variant in top_5_variants:
        count = cross_table_sorted.loc[period, variant] if variant in cross_table_sorted.columns else 0
        print(f"\t{count:,}", end="")
        period_total += count
    actual_total = cross_table_sorted.loc[period].sum()
    print(f"\t{actual_total:,}")

print(f"\n=== 期間別総件数（上位10期間）===")
for i, (period, total) in enumerate(period_totals.head(10).items(), 1):
    # 期間を読みやすい形式に変換
    if len(period) == 2:
        period_display = f"20{period}年" if int(period) < 50 else f"19{period}年"
    else:
        yy, mm = period[:2], period[2:]
        year_display = f"20{yy}" if int(yy) < 50 else f"19{yy}"
        period_display = f"{year_display}年{int(mm):02d}月"
    
    print(f"{i:2d}. {period_display} ({period}): {total:,}件")

# 変異株種の多様性分析
print(f"\n=== 変異株種の多様性分析 ===")
non_zero_variants_per_period = (cross_table_sorted > 0).sum(axis=1)
print(f"期間あたりの平均変異株種数: {non_zero_variants_per_period.mean():.1f}種類")
print(f"最大変異株種数: {non_zero_variants_per_period.max()}種類 (期間: {non_zero_variants_per_period.idxmax()})")
print(f"最小変異株種数: {non_zero_variants_per_period.min()}種類 (期間: {non_zero_variants_per_period.idxmin()})")

=== クロス集計表の詳細分析 ===
=== YYのみ（月情報なし）のデータ ===
YYのみの期間数: 5個
YYのみの期間: 20, 21, 22, 23, 24
YYのみの総件数: 68,091件

=== YYMMデータの年別集計 ===
2019年(19): 20件
2020年(20): 386,364件
2021年(21): 4,217,335件
2022年(22): 3,636,946件
2023年(23): 487,437件
2024年(24): 139,754件

=== 主要変異株種の時系列推移（上位5種）===
期間	AY.4	BA.2	BA.1.1	B.1.1.7	BA.1	期間総計
2103	14	2	4	147,822	2	227,375
2104	231	2	0	161,568	1	221,669
2107	109,167	1	2	7,640	0	341,848
2108	125,548	1	68	1,538	8	513,599
2109	131,996	4	11	119	1	488,172
2110	132,567	2	8	33	10	480,033
2111	151,659	4	94	43	380	603,948
2112	75,938	1,046	76,561	15	95,163	716,938
2201	2,580	32,173	290,819	11	153,562	815,401
2202	112	141,779	242,653	9	55,995	622,800
2203	44	348,219	65,509	6	7,035	570,099
2204	1	173,721	6,707	1	362	283,401
2205	1	76,664	553	11	62	212,124
2206	3	18,727	68	0	27	225,537
2207	5	2,075	40	2	11	241,962

=== 期間別総件数（上位10期間）===
 1. 2022年01月 (2201): 815,401件
 2. 2021年12月 (2112): 716,938件
 3. 2022年02月 (2202): 622,800件
 4. 2021年11月 (2111): 603,948件
 5. 2022年03月 (2203): 570,099件

In [9]:
# 変異株種ごとの合計件数でフィルタをかけたクロス集計表を作成
print("=== 変異株種フィルタ機能付きクロス集計表 ===")

# フィルタの閾値を設定（変更しやすいように変数化）
MIN_VARIANT_COUNT = 1000  # この値を変更することで閾値を調整可能

print(f"フィルタ閾値: {MIN_VARIANT_COUNT:,}件以上")

# 各変異株種の合計件数を計算
variant_totals = cross_table.sum().sort_values(ascending=False)

print(f"フィルタ前の変異株種数: {len(variant_totals)}種類")
print(f"総件数: {variant_totals.sum():,}件")

# 閾値以上の変異株種を特定
filtered_variants = variant_totals[variant_totals >= MIN_VARIANT_COUNT]

print(f"フィルタ後の変異株種数: {len(filtered_variants)}種類")
print(f"フィルタ後の総件数: {filtered_variants.sum():,}件")
print(f"除外された件数: {variant_totals.sum() - filtered_variants.sum():,}件 ({((variant_totals.sum() - filtered_variants.sum()) / variant_totals.sum() * 100):.1f}%)")

# フィルタ後のクロス集計表を作成
cross_table_filtered = cross_table[filtered_variants.index]

print(f"\nフィルタ後のクロス集計表サイズ: {cross_table_filtered.shape[0]}行 x {cross_table_filtered.shape[1]}列")

# フィルタ後の上位変異株種を表示
print(f"\n=== フィルタ後の上位20変異株種 ===")
for i, (variant, count) in enumerate(filtered_variants.head(20).items(), 1):
    print(f"{i:2d}. {variant}: {count:,}件")

# フィルタ後のCSVファイルとして保存
filtered_filename = f'cross_table_yymm_variants_filtered_{MIN_VARIANT_COUNT}plus.csv'
#cross_table_filtered.to_csv(filtered_filename, encoding='utf-8-sig')
print(f"\nフィルタ後のクロス集計表を '{filtered_filename}' として保存しました。")

# フィルタリング統計
print(f"\n=== フィルタリング統計 ===")
excluded_variants = variant_totals[variant_totals < MIN_VARIANT_COUNT]
print(f"除外された変異株種数: {len(excluded_variants)}種類")
print(f"除外された変異株種の合計件数: {excluded_variants.sum():,}件")

# 除外された変異株種の件数分布
if len(excluded_variants) > 0:
    print(f"除外変異株種の件数分布:")
    print(f"  最大: {excluded_variants.max():,}件")
    print(f"  最小: {excluded_variants.min():,}件")
    print(f"  平均: {excluded_variants.mean():.1f}件")
    print(f"  中央値: {excluded_variants.median():.1f}件")

# 時系列サンプル（フィルタ後）
print(f"\n=== フィルタ後の時系列サンプル（上位5変異株種、主要10期間）===")
top_5_filtered = filtered_variants.head(5).index
period_totals_filtered = cross_table_filtered.sum(axis=1).sort_values(ascending=False)
top_periods_filtered = period_totals_filtered.head(10).index

print("期間", end="")
for variant in top_5_filtered:
    print(f"\t{variant[:10]}", end="")
print("\t期間総計")

for period in sorted(top_periods_filtered):
    print(f"{period}", end="")
    for variant in top_5_filtered:
        count = cross_table_filtered.loc[period, variant]
        print(f"\t{count:,}", end="")
    actual_total = cross_table_filtered.loc[period].sum()
    print(f"\t{actual_total:,}")

print(f"\n閾値を変更する場合は、上記の MIN_VARIANT_COUNT の値を変更してセルを再実行してください。")

=== 変異株種フィルタ機能付きクロス集計表 ===
フィルタ閾値: 1,000件以上
フィルタ前の変異株種数: 4276種類
総件数: 8,935,947件
フィルタ後の変異株種数: 476種類
フィルタ後の総件数: 8,435,477件
除外された件数: 500,470件 (5.6%)

フィルタ後のクロス集計表サイズ: 64行 x 476列

=== フィルタ後の上位20変異株種 ===
 1. AY.4: 834,876件
 2. BA.2: 795,621件
 3. BA.1.1: 686,031件
 4. B.1.1.7: 634,209件
 5. BA.1: 316,762件
 6. AY.103: 247,041件
 7. AY.44: 214,379件
 8. BA.1.17.2: 180,906件
 9. BA.2.12.1: 170,866件
10. AY.3: 142,179件
11. BA.2.9: 130,319件
12. AY.43: 130,093件
13. BA.5.2.1: 125,213件
14. BA.1.15: 123,196件
15. AY.25: 121,139件
16. B.1.617.2: 102,633件
17. BA.5.1: 97,298件
18. AY.122: 96,351件
19. AY.4.2: 89,083件
20. BA.5.2: 88,430件

フィルタ後のクロス集計表を 'cross_table_yymm_variants_filtered_1000plus.csv' として保存しました。

=== フィルタリング統計 ===
除外された変異株種数: 3800種類
除外された変異株種の合計件数: 500,470件
除外変異株種の件数分布:
  最大: 999件
  最小: 1件
  平均: 131.7件
  中央値: 48.5件

=== フィルタ後の時系列サンプル（上位5変異株種、主要10期間）===
期間	AY.4	BA.2	BA.1.1	B.1.1.7	BA.1	期間総計
2107	109,167	1	2	7,640	0	336,136
2108	125,548	1	68	1,538	8	506,417
2109	131,996	4	11	119	1	483,211
2110	132,5

In [10]:
# 閾値を簡単に変更できる関数版フィルタリング
def filter_cross_table_by_variant_count(cross_table, min_count=1000, save_csv=True, show_stats=True):
    """
    変異株種ごとの合計件数でクロス集計表をフィルタする関数
    
    Parameters:
    - cross_table: フィルタ対象のクロス集計表
    - min_count: 最小件数の閾値（デフォルト: 1000）
    - save_csv: CSVファイルとして保存するか（デフォルト: True）
    - show_stats: 統計情報を表示するか（デフォルト: True）
    
    Returns:
    - filtered_table: フィルタ後のクロス集計表
    - filtered_variants: フィルタ後の変異株種リスト
    """
    
    if show_stats:
        print(f"=== 変異株種フィルタ（閾値: {min_count:,}件以上）===")
    
    # 各変異株種の合計件数を計算
    variant_totals = cross_table.sum().sort_values(ascending=False)
    
    # 閾値以上の変異株種を特定
    filtered_variants = variant_totals[variant_totals >= min_count]
    
    # フィルタ後のクロス集計表を作成
    filtered_table = cross_table[filtered_variants.index]
    
    if show_stats:
        print(f"フィルタ前: {len(variant_totals)}種類, 総件数: {variant_totals.sum():,}件")
        print(f"フィルタ後: {len(filtered_variants)}種類, 総件数: {filtered_variants.sum():,}件")
        print(f"除外: {len(variant_totals) - len(filtered_variants)}種類, {variant_totals.sum() - filtered_variants.sum():,}件")
        
        retention_rate = len(filtered_variants) / len(variant_totals) * 100
        data_retention_rate = filtered_variants.sum() / variant_totals.sum() * 100
        print(f"変異株種保持率: {retention_rate:.1f}%")
        print(f"データ保持率: {data_retention_rate:.1f}%")
    
    if save_csv:
        filename = f'cross_table_yymm_variants_filtered_{min_count}plus.csv'
        #filtered_table.to_csv(filename, encoding='utf-8-sig')
        if show_stats:
            print(f"保存先: {filename}")
    
    return filtered_table, filtered_variants

# 関数のテスト実行（異なる閾値で試してみる）
print("=== 関数版フィルタリングのテスト ===\n")

# 閾値1000件で実行
table_1000, variants_1000 = filter_cross_table_by_variant_count(cross_table, min_count=1000)

print("\n" + "="*50 + "\n")

# 閾値5000件で実行
table_5000, variants_5000 = filter_cross_table_by_variant_count(cross_table, min_count=5000)

print("\n" + "="*50 + "\n")

# 閾値10000件で実行
table_10000, variants_10000 = filter_cross_table_by_variant_count(cross_table, min_count=10000)

print("\n=== 閾値別比較 ===")
print(f"{'閾値':>10} {'変異株種数':>10} {'データ保持率':>12}")
print("-" * 35)
for min_count, table in [(1000, table_1000), (5000, table_5000), (10000, table_10000)]:
    variant_count = table.shape[1]
    data_retention = table.sum().sum() / cross_table.sum().sum() * 100
    print(f"{min_count:>10,} {variant_count:>10} {data_retention:>11.1f}%")

print(f"\n※ より厳しい閾値を設定するには、上記の関数を min_count パラメータを変更して実行してください。")

=== 関数版フィルタリングのテスト ===

=== 変異株種フィルタ（閾値: 1,000件以上）===
フィルタ前: 4276種類, 総件数: 8,935,947件
フィルタ後: 476種類, 総件数: 8,435,477件
除外: 3800種類, 500,470件
変異株種保持率: 11.1%
データ保持率: 94.4%
保存先: cross_table_yymm_variants_filtered_1000plus.csv


=== 変異株種フィルタ（閾値: 5,000件以上）===
フィルタ前: 4276種類, 総件数: 8,935,947件
フィルタ後: 145種類, 総件数: 7,738,292件
除外: 4131種類, 1,197,655件
変異株種保持率: 3.4%
データ保持率: 86.6%
保存先: cross_table_yymm_variants_filtered_5000plus.csv


=== 変異株種フィルタ（閾値: 10,000件以上）===
フィルタ前: 4276種類, 総件数: 8,935,947件
フィルタ後: 95種類, 総件数: 7,384,317件
除外: 4181種類, 1,551,630件
変異株種保持率: 2.2%
データ保持率: 82.6%
保存先: cross_table_yymm_variants_filtered_10000plus.csv

=== 閾値別比較 ===
        閾値      変異株種数       データ保持率
-----------------------------------
     1,000        476        94.4%
     5,000        145        86.6%
    10,000         95        82.6%

※ より厳しい閾値を設定するには、上記の関数を min_count パラメータを変更して実行してください。


In [11]:
# 変異株種ごとのピーク日とピーク値を抽出
print("=== 変異株種別ピーク分析 ===")

# フィルタされたクロス集計表を使用（主要な変異株種のみ）
# 閾値1000件以上の変異株種のみを使用
filtered_table, filtered_variants = filter_cross_table_by_variant_count(cross_table, min_count=1000, save_csv=False, show_stats=False)

print(f"分析対象変異株種数: {len(filtered_variants)}種類")

# 各変異株種のピーク情報を格納するリスト
peak_info_list = []

# 期間を日付形式に変換する関数
def yymm_to_date(yymm_str):
    """YYMM文字列を日付形式に変換"""
    if len(yymm_str) == 2:
        # YYのみの場合は年の中央（7月1日）として扱う
        year = int(yymm_str)
        full_year = 2000 + year if year < 50 else 1900 + year
        return pd.to_datetime(f"{full_year}-07-01")
    elif len(yymm_str) == 4:
        # YYMMの場合
        yy, mm = yymm_str[:2], yymm_str[2:]
        year = int(yy)
        month = int(mm)
        full_year = 2000 + year if year < 50 else 1900 + year
        return pd.to_datetime(f"{full_year}-{month:02d}-01")
    else:
        return None

# 各変異株種についてピークを検索
print("各変異株種のピーク情報を抽出中...")

for variant in filtered_variants.index:
    # その変異株種の時系列データを取得
    variant_data = filtered_table[variant]
    
    # ピーク値とピーク期間を特定
    peak_value = variant_data.max()
    peak_periods = variant_data[variant_data == peak_value].index.tolist()
    
    # 複数のピーク期間がある場合は最初のものを使用
    peak_period = peak_periods[0]
    
    # 期間を日付に変換
    peak_date = yymm_to_date(peak_period)
    
    # ピーク情報を記録
    peak_info = {
        '変異株種': variant,
        'ピーク期間': peak_period,
        'ピーク日付': peak_date,
        'ピーク値': peak_value,
        '総件数': filtered_variants[variant],
        'ピーク期間数': len(peak_periods),
        '全ピーク期間': ', '.join(peak_periods) if len(peak_periods) > 1 else peak_period
    }
    
    peak_info_list.append(peak_info)

# DataFrameに変換
peak_df = pd.DataFrame(peak_info_list)

# 日付でソート
peak_df_sorted = peak_df.sort_values('ピーク日付').reset_index(drop=True)

print(f"ピーク分析完了! {len(peak_df_sorted)}種類の変異株種を分析")

# 結果を表示（最初の20件）
print("\n=== 変異株種別ピーク情報（日付順、上位20件）===")
display_cols = ['変異株種', 'ピーク期間', 'ピーク日付', 'ピーク値', '総件数']
print(peak_df_sorted[display_cols].head(20).to_string(index=False))

# CSVファイルとして保存
peak_filename = 'variant_peak_analysis.csv'
#peak_df_sorted.to_csv(peak_filename, index=False, encoding='utf-8-sig')
print(f"\nピーク分析結果を '{peak_filename}' として保存しました。")

# 統計情報
print(f"\n=== ピーク分析統計 ===")
print(f"最早のピーク: {peak_df_sorted['ピーク日付'].min().strftime('%Y年%m月')}")
print(f"最遅のピーク: {peak_df_sorted['ピーク日付'].max().strftime('%Y年%m月')}")

# 年別ピーク件数
peak_df_sorted['ピーク年'] = peak_df_sorted['ピーク日付'].dt.year
yearly_peaks = peak_df_sorted['ピーク年'].value_counts().sort_index()

print(f"\n=== 年別ピーク変異株種数 ===")
for year, count in yearly_peaks.items():
    print(f"{year}年: {count}種類")

# 月別ピーク件数
peak_df_sorted['ピーク年月'] = peak_df_sorted['ピーク日付'].dt.to_period('M')
monthly_peaks = peak_df_sorted['ピーク年月'].value_counts().sort_index()

print(f"\n=== 月別ピーク変異株種数（上位10ヶ月）===")
for period, count in monthly_peaks.head(10).items():
    print(f"{period}: {count}種類")

# 最も高いピーク値を持つ変異株種
print(f"\n=== 最高ピーク値を持つ変異株種（上位10種類）===")
top_peaks = peak_df_sorted.nlargest(10, 'ピーク値')[['変異株種', 'ピーク期間', 'ピーク値', '総件数']]
for i, row in top_peaks.iterrows():
    print(f"{row['変異株種']}: {row['ピーク値']:,}件 (期間: {row['ピーク期間']}, 総件数: {row['総件数']:,}件)")

print(f"\n複数ピーク期間を持つ変異株種数: {len(peak_df_sorted[peak_df_sorted['ピーク期間数'] > 1])}種類")

=== 変異株種別ピーク分析 ===
分析対象変異株種数: 476種類
各変異株種のピーク情報を抽出中...
ピーク分析完了! 476種類の変異株種を分析

=== 変異株種別ピーク情報（日付順、上位20件）===
      変異株種 ピーク期間      ピーク日付  ピーク値   総件数
      B.40  2003 2020-03-01  1442  2280
         A  2003 2020-03-01   465  1161
       A.1  2003 2020-03-01  2132  3066
         B  2003 2020-03-01  1500  6806
 B.1.1.372  2004 2020-04-01   422  1355
     B.1.1  2004 2020-04-01  6887 24434
    B.1.93  2004 2020-04-01   549  1037
   B.1.1.1  2004 2020-04-01   341  2042
       B.1  2004 2020-04-01 11718 53374
 B.1.1.369  2004 2020-04-01   646  2219
   B.1.426  2005 2020-05-01   266  1019
 B.1.1.291  2006 2020-06-01   595  1128
       D.2  2007 2020-07-01  5860 11420
   B.1.369  2007 2020-07-01   546  3895
   B.1.240  2009 2020-09-01   674  4046
B.1.177.11  2009 2020-09-01   428  1125
   B.1.565  2009 2020-09-01   275  1316
B.1.177.56  2010 2020-10-01   505  1442
      AD.2  2010 2020-10-01  1428  4725
B.1.177.54  2010 2020-10-01   446  1637

ピーク分析結果を 'variant_peak_analysis.csv' として保存しました。

==

In [12]:
# ピーク分析の詳細分析
print("=== ピーク分析詳細レポート ===")

# ピーク値の分布分析
print(f"\n=== ピーク値の分布統計 ===")
peak_values = peak_df_sorted['ピーク値']
print(f"最大ピーク値: {peak_values.max():,}件")
print(f"最小ピーク値: {peak_values.min():,}件")
print(f"平均ピーク値: {peak_values.mean():.1f}件")
print(f"中央値ピーク値: {peak_values.median():.1f}件")
print(f"標準偏差: {peak_values.std():.1f}件")

# ピーク値のカテゴリ分析
peak_categories = []
for _, row in peak_df_sorted.iterrows():
    peak_val = row['ピーク値']
    if peak_val >= 100000:
        category = "超大規模 (100,000+)"
    elif peak_val >= 50000:
        category = "大規模 (50,000-99,999)"
    elif peak_val >= 10000:
        category = "中規模 (10,000-49,999)"
    elif peak_val >= 5000:
        category = "小規模 (5,000-9,999)"
    else:
        category = "微規模 (1,000-4,999)"
    peak_categories.append(category)

peak_df_sorted['ピーク規模'] = peak_categories

print(f"\n=== ピーク規模別変異株種数 ===")
category_counts = peak_df_sorted['ピーク規模'].value_counts()
for category, count in category_counts.items():
    print(f"{category}: {count}種類")

# 時期別の詳細分析
print(f"\n=== パンデミック時期別ピーク分析 ===")

# 時期を定義
def categorize_pandemic_period(date):
    """パンデミック時期を分類"""
    year = date.year
    month = date.month
    
    if year == 2019 or (year == 2020 and month <= 3):
        return "初期 (2019-2020年3月)"
    elif year == 2020 and month <= 12:
        return "第1波期 (2020年4-12月)"
    elif year == 2021:
        return "第2-3波期 (2021年)"
    elif year == 2022:
        return "オミクロン期 (2022年)"
    elif year == 2023:
        return "安定期 (2023年)"
    else:
        return "最新期 (2024年+)"

peak_df_sorted['パンデミック時期'] = peak_df_sorted['ピーク日付'].apply(categorize_pandemic_period)

pandemic_period_analysis = peak_df_sorted.groupby('パンデミック時期').agg({
    '変異株種': 'count',
    'ピーク値': ['mean', 'sum', 'max'],
    '総件数': 'sum'
}).round(1)

print("時期別統計:")
for period in ["初期 (2019-2020年3月)", "第1波期 (2020年4-12月)", "第2-3波期 (2021年)", 
               "オミクロン期 (2022年)", "安定期 (2023年)", "最新期 (2024年+)"]:
    if period in pandemic_period_analysis.index:
        stats = pandemic_period_analysis.loc[period]
        variant_count = stats[('変異株種', 'count')]
        avg_peak = stats[('ピーク値', 'mean')]
        max_peak = stats[('ピーク値', 'max')]
        print(f"  {period}: {variant_count}種類, 平均ピーク: {avg_peak:,.0f}件, 最大ピーク: {max_peak:,.0f}件")

# 主要変異株種のピーク詳細
print(f"\n=== 主要変異株種のピーク詳細（総件数上位15種類）===")
major_variants = peak_df_sorted.nlargest(15, '総件数')

for i, row in major_variants.iterrows():
    peak_date_str = row['ピーク日付'].strftime('%Y年%m月')
    print(f"{row['変異株種']:12} | ピーク: {peak_date_str} | "
          f"ピーク値: {row['ピーク値']:8,}件 | 総件数: {row['総件数']:8,}件 | "
          f"時期: {row['パンデミック時期']}")

# 同時期にピークを迎えた変異株種の分析
print(f"\n=== 同時期ピーク分析（上位5期間）===")
peak_period_counts = peak_df_sorted['ピーク期間'].value_counts().head(5)

for period, count in peak_period_counts.items():
    period_variants = peak_df_sorted[peak_df_sorted['ピーク期間'] == period]
    total_peak_value = period_variants['ピーク値'].sum()
    
    # 期間を読みやすい形式に変換
    if len(period) == 2:
        period_display = f"20{period}年" if int(period) < 50 else f"19{period}年"
    else:
        yy, mm = period[:2], period[2:]
        year_display = f"20{yy}" if int(yy) < 50 else f"19{yy}"
        period_display = f"{year_display}年{int(mm):02d}月"
    
    print(f"\n{period_display} ({period}): {count}種類が同時にピーク")
    print(f"  合計ピーク値: {total_peak_value:,}件")
    print(f"  変異株種: {', '.join(period_variants['変異株種'].head(5).tolist())}" + 
          ("..." if count > 5 else ""))

# 拡張CSVファイルの保存
extended_peak_filename = 'variant_peak_analysis_detailed.csv'
#peak_df_sorted.to_csv(extended_peak_filename, index=False, encoding='utf-8-sig')
print(f"\n詳細ピーク分析結果を '{extended_peak_filename}' として保存しました。")

=== ピーク分析詳細レポート ===

=== ピーク値の分布統計 ===
最大ピーク値: 348,219件
最小ピーク値: 164件
平均ピーク値: 5741.8件
中央値ピーク値: 884.5件
標準偏差: 25285.0件

=== ピーク規模別変異株種数 ===
微規模 (1,000-4,999): 405種類
中規模 (10,000-49,999): 36種類
小規模 (5,000-9,999): 26種類
超大規模 (100,000+): 5種類
大規模 (50,000-99,999): 4種類

=== パンデミック時期別ピーク分析 ===
時期別統計:
  初期 (2019-2020年3月): 4.0種類, 平均ピーク: 1,385件, 最大ピーク: 2,132件
  第1波期 (2020年4-12月): 43.0種類, 平均ピーク: 1,522件, 最大ピーク: 14,869件
  第2-3波期 (2021年): 149.0種類, 平均ピーク: 6,308件, 最大ピーク: 161,568件
  オミクロン期 (2022年): 190.0種類, 平均ピーク: 8,463件, 最大ピーク: 348,219件
  安定期 (2023年): 67.0種類, 平均ピーク: 1,224件, 最大ピーク: 25,809件
  最新期 (2024年+): 23.0種類, 平均ピーク: 1,403件, 最大ピーク: 10,077件

=== 主要変異株種のピーク詳細（総件数上位15種類）===
AY.4         | ピーク: 2021年11月 | ピーク値:  151,659件 | 総件数:  834,876件 | 時期: 第2-3波期 (2021年)
BA.2         | ピーク: 2022年03月 | ピーク値:  348,219件 | 総件数:  795,621件 | 時期: オミクロン期 (2022年)
BA.1.1       | ピーク: 2022年01月 | ピーク値:  290,819件 | 総件数:  686,031件 | 時期: オミクロン期 (2022年)
B.1.1.7      | ピーク: 2021年04月 | ピーク値:  161,568件 | 総件数:  634,209件 | 時期: 第2-3波期 (2021年)


In [13]:
list_variants = ['B.1.1.7','P.1','BA.2','BA.1.1','BA.1','B.1.617.2','B.1.351','B.1.1.529','AY.4']
for i in range(len(list(peak_df_sorted["変異株種"]))):
    if list(peak_df_sorted["変異株種"])[i] in list_variants:
        print(i,list(peak_df_sorted["変異株種"])[i])

75 B.1.1.7
78 B.1.351
80 P.1
104 B.1.617.2
163 AY.4
194 B.1.1.529
209 BA.1.1
213 BA.1
227 BA.2


In [23]:
for i in range(228,476):
    print("'",end="")
    print(peak_df_sorted["変異株種"][i],end="',")

'BA.2.8','BA.2.5','BA.2.23','BA.2.10','BA.2.22','BA.2.1','XE','BA.2.10.1','BA.2.3','BA.2.37','BA.2.9','BA.2.12','BA.2.7','BA.2.3.17','BA.2.47','BA.2.65','BA.2.13','BA.2.36','BA.2.18','BA.2.12.1','BA.2.38','BA.2.9.3','BA.2.48','BA.5.3.2','BF.2','BA.2.56','BA.4','BA.4.1','BF.1','BG.5','BA.5.3','BA.4.1.1','BA.5.1','BA.5.2.1','BA.5.2','BA.5.3.3','BA.5.5','BE.1.4','BE.1.1','BF.21','BA.5.2.2','BA.5.1.23','BA.5.1.22','BA.5.1.10','BA.4.2','BF.8','BA.5.1.3','BA.5.3.1','BE.3','BA.5.1.25','BA.5.1.24','BA.5.1.1','BA.5','BE.1.1.2','BE.1','BF.6','BA.4.4','BF.4','BF.28','BA.5.6','BA.5.2.3','BF.27','BA.5.1.2','BA.5.8','BK.1','BA.5.2.21','BA.5.2.22','BF.26','BA.5.1.30','BF.5','BA.5.1.6','BA.5.2.9','BF.10','BF.24','BA.4.1.8','BA.4.6','BA.5.2.20','BA.5.2.27','BA.5.2.31','BA.5.5.1','BA.4.6.5','BA.5.2.28','BA.5.2.7','BA.5.2.18','BA.2.75.2','BF.7.6','BA.5.1.18','BA.5.1.12','BF.13','BF.7.20','BA.5.2.26','BF.14','BF.7.5','BF.7','BA.5.2.35','BA.5.2.6','BA.5.2.13','BA.5.1.5','BA.5.9','BF.7.4','BF.11','BQ.1.15',

In [15]:
total = 0
for i in range(228):
    total += list(peak_df_sorted["総件数"])[i]

#print("\n")
#for var in list(peak_df_sorted["総件数"]):
    #print(var,end=", ")

In [16]:
total2 = 0
for i in range(228,476):
    total2 += list(peak_df_sorted["総件数"])[i]

In [17]:
print(total)
print(total2)
print(total + total2)

6626273
1809204
8435477


In [18]:
# 変異株種リストとusher_outputフォルダの比較分析
import subprocess
import os

# peak_df_sortedから変異株種リストを取得
variants_in_data = list(peak_df_sorted["変異株種"][:228])
print(f"データ内の変異株種数: {len(variants_in_data)}")

# usher_outputディレクトリのフォルダリストを取得
try:
    result = subprocess.run(['ls', '../usher_output'], capture_output=True, text=True)
    if result.returncode == 0:
        usher_folders = result.stdout.strip().split('\n')
        usher_folders = [folder.strip() for folder in usher_folders if folder.strip()]
        print(f"usher_outputフォルダ数: {len(usher_folders)}")
    else:
        print("usher_outputディレクトリにアクセスできませんでした")
        usher_folders = []
except Exception as e:
    print(f"エラー: {e}")
    usher_folders = []

# セットに変換して比較しやすくする
variants_set = set(variants_in_data)
usher_set = set(usher_folders)

# データにあるがusher_outputにないもの
missing_in_usher = variants_set - usher_set
# usher_outputにあるがデータにないもの  
missing_in_data = usher_set - variants_set
# 両方にあるもの
common_variants = variants_set & usher_set

print(f"\n=== 比較結果 ===")
print(f"共通の変異株種数: {len(common_variants)}")
print(f"データにあるがusher_outputにない: {len(missing_in_usher)}種類")
print(f"usher_outputにあるがデータにない: {len(missing_in_data)}種類")

# データにあるがusher_outputにないものを表示
if missing_in_usher:
    print(f"\n=== データにあるがusher_outputにない変異株種 ({len(missing_in_usher)}種類) ===")
    missing_sorted = sorted(list(missing_in_usher))
    for i, variant in enumerate(missing_sorted):
        print(f"{i+1:3d}. {variant}")
    
    print(missing_sorted)
        
    # 件数情報も追加
    print(f"\n=== 不足している変異株種の件数情報 ===")
    missing_with_counts = []
    for variant in missing_sorted:
        count = peak_df_sorted[peak_df_sorted["変異株種"] == variant]["総件数"].values
        if len(count) > 0:
            missing_with_counts.append((variant, count[0]))
    
    # 件数順でソート
    missing_with_counts.sort(key=lambda x: x[1], reverse=True)
    
    print("件数上位20位:")
    for i, (variant, count) in enumerate(missing_with_counts[:20]):
        print(f"{i+1:2d}. {variant:15} : {count:,}件")

# usher_outputにあるがデータにないものも表示
if missing_in_data:
    print(f"\n=== usher_outputにあるがデータにない変異株種 ({len(missing_in_data)}種類) ===")
    missing_data_sorted = sorted(list(missing_in_data))
    for i, variant in enumerate(missing_data_sorted):
        print(f"{i+1:3d}. {variant}")

データ内の変異株種数: 228
usher_outputフォルダ数: 196

=== 比較結果 ===
共通の変異株種数: 196
データにあるがusher_outputにない: 32種類
usher_outputにあるがデータにない: 0種類

=== データにあるがusher_outputにない変異株種 (32種類) ===
  1. AY.103
  2. AY.75
  3. B.1.177
  4. B.1.2
  5. B.1.311
  6. B.1.36
  7. B.1.36.17
  8. B.1.369
  9. B.1.400
 10. B.1.426
 11. B.1.427
 12. B.1.429
 13. B.1.517
 14. B.1.525
 15. B.1.526
 16. B.1.561
 17. B.1.565
 18. B.1.575
 19. B.1.577
 20. B.1.582
 21. B.1.595
 22. B.1.596
 23. B.1.609
 24. B.1.623
 25. B.1.637
 26. B.1.93
 27. D.2
 28. P.1.17
 29. P.2
 30. Q.3
 31. R.1
 32. unclassifiable
['AY.103', 'AY.75', 'B.1.177', 'B.1.2', 'B.1.311', 'B.1.36', 'B.1.36.17', 'B.1.369', 'B.1.400', 'B.1.426', 'B.1.427', 'B.1.429', 'B.1.517', 'B.1.525', 'B.1.526', 'B.1.561', 'B.1.565', 'B.1.575', 'B.1.577', 'B.1.582', 'B.1.595', 'B.1.596', 'B.1.609', 'B.1.623', 'B.1.637', 'B.1.93', 'D.2', 'P.1.17', 'P.2', 'Q.3', 'R.1', 'unclassifiable']

=== 不足している変異株種の件数情報 ===
件数上位20位:
 1. AY.103          : 247,041件
 2. B.1.2           : 84,025件

In [26]:
# 1000件未満の変異株種を抽出（修正版：元のvariant_totalsを使用）
print("=== 1000件未満の変異株種抽出（修正版） ===")

# 元の変異株種別総件数データを使用（cross_tableから算出）
variant_totals = cross_table.sum().sort_values(ascending=False)

# 1000件未満の変異株種をフィルタ
min_count_threshold = 1000
low_count_variant_totals = variant_totals[variant_totals < min_count_threshold]

print(f"全変異株種数: {len(variant_totals)}種類")
print(f"1000件未満の変異株種数: {len(low_count_variant_totals)}種類")
print(f"1000件以上の変異株種数: {len(variant_totals) - len(low_count_variant_totals)}種類")

# 総件数の統計
total_low_count = low_count_variant_totals.sum()
total_all_count = variant_totals.sum()
percentage = (total_low_count / total_all_count) * 100

print(f"\n=== 件数統計 ===")
print(f"1000件未満の総件数: {total_low_count:,}件")
print(f"全体の総件数: {total_all_count:,}件")
print(f"1000件未満の割合: {percentage:.2f}%")

# 件数分布の詳細
print(f"\n=== 1000件未満の変異株種の件数分布 ===")
print(f"最大件数: {low_count_variant_totals.max():,}件")
print(f"最小件数: {low_count_variant_totals.min():,}件") 
print(f"平均件数: {low_count_variant_totals.mean():.1f}件")
print(f"中央値: {low_count_variant_totals.median():.1f}件")

# 件数範囲別の分布
print(f"\n=== 件数範囲別分布 ===")
ranges = [
    (500, 999, "500-999件"),
    (100, 499, "100-499件"),
    (50, 99, "50-99件"),
    (10, 49, "10-49件"),
    (1, 9, "1-9件")
]

for min_val, max_val, label in ranges:
    count = len(low_count_variant_totals[(low_count_variant_totals >= min_val) & 
                                        (low_count_variant_totals <= max_val)])
    total_in_range = low_count_variant_totals[(low_count_variant_totals >= min_val) & 
                                             (low_count_variant_totals <= max_val)].sum()
    print(f"{label}: {count}種類 (合計: {total_in_range:,}件)")

# 上位20種類を表示
print(f"\n=== 1000件未満の変異株種 上位20種類（件数順） ===")
top_20_low = low_count_variant_totals.head(20)
for i, (variant, count) in enumerate(top_20_low.items()):
    print(f"{i+1:2d}. {variant:15} : {count:3d}件")

# DataFrameとして保存（後の分析で使用）
low_count_variants_df = pd.DataFrame({
    '変異株種': low_count_variant_totals.index,
    '総件数': low_count_variant_totals.values
}).sort_values('総件数', ascending=False).reset_index(drop=True)

print(f"\n変数 'low_count_variants_df' に{len(low_count_variants_df)}種類の1000件未満変異株種を保存しました。")

=== 1000件未満の変異株種抽出（修正版） ===
全変異株種数: 4276種類
1000件未満の変異株種数: 3800種類
1000件以上の変異株種数: 476種類

=== 件数統計 ===
1000件未満の総件数: 500,470件
全体の総件数: 8,935,947件
1000件未満の割合: 5.60%

=== 1000件未満の変異株種の件数分布 ===
最大件数: 999件
最小件数: 1件
平均件数: 131.7件
中央値: 48.5件

=== 件数範囲別分布 ===
500-999件: 267種類 (合計: 190,284件)
100-499件: 1047種類 (合計: 236,876件)
50-99件: 572種類 (合計: 41,204件)
10-49件: 1111種類 (合計: 28,912件)
1-9件: 803種類 (合計: 3,194件)

=== 1000件未満の変異株種 上位20種類（件数順） ===
 1. BA.5.1.35       : 999件
 2. BQ.1.1.68       : 998件
 3. AY.87           : 994件
 4. BA.4.1.6        : 994件
 5. B.1.1.70        : 993件
 6. C.36.3          : 989件
 7. BA.1.5          : 988件
 8. XBB.1.5.47      : 985件
 9. BA.2.23.1       : 984件
10. A.2.5           : 984件
11. AY.38           : 964件
12. AY.52           : 964件
13. AY.51           : 959件
14. BA.2.26         : 959件
15. XBB.1.5.35      : 952件
16. BQ.1.25.1       : 949件
17. AY.46.2         : 949件
18. JN.1.2          : 946件
19. LP.1            : 939件
20. B.1.177.18      : 938件

変数 'low_count_variants_df' に3800種

In [28]:
low_count_variants_df["変異株種"]

0        BA.5.1.35
1        BQ.1.1.68
2            AY.87
3         BA.4.1.6
4         B.1.1.70
           ...    
3795    B.1.177.49
3796    B.1.177.29
3797       B.1.169
3798    B.1.177.14
3799         GK.11
Name: 変異株種, Length: 3800, dtype: object

In [33]:
for i in range(3800):
    if(i % 1000 == 0):
        print("")
    print("'",end="")
    print(low_count_variants_df["変異株種"][i],end="',")


'BA.5.1.35','BQ.1.1.68','AY.87','BA.4.1.6','B.1.1.70','C.36.3','BA.1.5','XBB.1.5.47','A.2.5','BA.2.23.1','AY.52','AY.38','BA.2.26','AY.51','XBB.1.5.35','BQ.1.25.1','AY.46.2','JN.1.2','LP.1','B.1.177.18','XBB.1.5.72','BE.2','KP.1.1','AY.106','FL.3.1','XBB.1.42.2','FU.2','JN.1.4.2','Q.4','B.1.320','HV.1.1','EG.5.1.13','BA.1.1.16','BQ.1.1.28','B.1.389','B.1.1.416','BF.36','JN.1.16.1','BA.5.1.4','BA.4.6.1','CK.1','B.1.1.63','XAZ','XBB.1.5.65','EG.5.1.16','BF.39','BA.2.21','P.1.13','B.1.177.5','KS.1','AY.4.2.5','XBB.1.5.19','JN.1.22','AY.116','AY.68','BA.1.1.8','XBB.1.5.67','BA.4.7','AY.105','MC.16','XBB.1.5.95','B.1.1.198','BA.2.50','BA.2.6','DV.1.1','B.1.177.58','BA.2.31','AY.101','B.1.588','B.1.160.30','B.1.177.9','B.1.509','EF.2','B.1.1.301','JN.1.18','KP.3.2.4','FL.2','B.1.375','BF.7.21','W.4','BA.2.9.1','BF.11.2','B.1.568','EU.1.1','B.1.349','BA.1.8','FL.2.3','B.1.177.69','AY.134','BA.2.39','BN.1.7','BF.7.24','B.1.391','DS.3','BQ.1.10.1','JN.1.42','AY.74','AY.3.3','B.1.139','B.1.367'

## 1000件未満変異株種の詳細分析とusher_outputとの比較

In [None]:
# 1000件未満の変異株種とusher_outputの比較分析（修正版）
import pandas as pd

print("=== 1000件未満変異株種のusher_output比較（修正版） ===")

# 1000件未満の変異株種名リストを取得
low_count_variant_names = set(low_count_variants_df['変異株種'].tolist())

# usher_outputのフォルダリストを取得
try:
    # usher_foldersが定義されていない場合は取得
    if 'usher_folders' not in globals():
        import subprocess
        result = subprocess.run(['ls', '../usher_output'], capture_output=True, text=True)
        if result.returncode == 0:
            usher_folders = result.stdout.strip().split('\n')
            usher_folders = [folder.strip() for folder in usher_folders if folder.strip()]
        else:
            usher_folders = []
    
    usher_set = set(usher_folders)
    
    # 比較分析
    low_count_in_usher = low_count_variant_names & usher_set  # 1000件未満でusher_outputにある
    low_count_not_in_usher = low_count_variant_names - usher_set  # 1000件未満でusher_outputにない
    
    print(f"1000件未満の変異株種数: {len(low_count_variant_names)}")
    print(f"usher_outputフォルダ数: {len(usher_set)}")
    print(f"1000件未満かつusher_outputにある: {len(low_count_in_usher)}種類")
    print(f"1000件未満かつusher_outputにない: {len(low_count_not_in_usher)}種類")
    
    # 1000件未満でusher_outputにある変異株種の詳細
    if low_count_in_usher:
        print(f"\n=== 1000件未満でusher_outputにある変異株種 ({len(low_count_in_usher)}種類) ===")
        low_in_usher_df = low_count_variants_df[low_count_variants_df['変異株種'].isin(low_count_in_usher)].copy()
        low_in_usher_df = low_in_usher_df.sort_values('総件数', ascending=False)
        
        print("件数上位10種類:")
        for i, (_, row) in enumerate(low_in_usher_df.head(10).iterrows()):
            print(f"{i+1:2d}. {row['変異株種']:15} : {row['総件数']:3d}件")
    
    # 1000件未満でusher_outputにない変異株種の詳細  
    if low_count_not_in_usher:
        print(f"\n=== 1000件未満でusher_outputにない変異株種 ({len(low_count_not_in_usher)}種類) ===")
        low_not_in_usher_df = low_count_variants_df[low_count_variants_df['変異株種'].isin(low_count_not_in_usher)].copy()
        low_not_in_usher_df = low_not_in_usher_df.sort_values('総件数', ascending=False)
        
        print("件数上位20種類:")
        for i, (_, row) in enumerate(low_not_in_usher_df.head(20).iterrows()):
            print(f"{i+1:2d}. {row['変異株種']:15} : {row['総件数']:3d}件")
        
        print(f"\n件数下位10種類:")
        for i, (_, row) in enumerate(low_not_in_usher_df.tail(10).iterrows()):
            print(f"{i+1:2d}. {row['変異株種']:15} : {row['総件数']:3d}件")

    # CSVファイルとして保存
    print(f"\n=== ファイル保存 ===")
    
    # 1000件未満の全変異株種
    low_count_filename = 'variants_under_1000_cases.csv'
    #low_count_variants_df.to_csv(low_count_filename, index=False, encoding='utf-8-sig')
    print(f"1000件未満の全変異株種: '{low_count_filename}' ({len(low_count_variants_df)}種類)")
    
    # 1000件未満でusher_outputにある変異株種
    if low_count_in_usher:
        in_usher_filename = 'variants_under_1000_in_usher.csv'
        low_in_usher_df.to_csv(in_usher_filename, index=False, encoding='utf-8-sig')
        print(f"1000件未満でusher_outputにある: '{in_usher_filename}' ({len(low_in_usher_df)}種類)")
    
    # 1000件未満でusher_outputにない変異株種
    if low_count_not_in_usher:
        not_in_usher_filename = 'variants_under_1000_not_in_usher.csv'  
        #low_not_in_usher_df.to_csv(not_in_usher_filename, index=False, encoding='utf-8-sig')
        print(f"1000件未満でusher_outputにない: '{not_in_usher_filename}' ({len(low_not_in_usher_df)}種類)")

    # 変数を保存（次のセルで使用）
    globals()['low_in_usher_df'] = low_in_usher_df if low_count_in_usher else pd.DataFrame()
    globals()['low_not_in_usher_df'] = low_not_in_usher_df if low_count_not_in_usher else pd.DataFrame()

except Exception as e:
    print(f"エラーが発生しました: {e}")
    print("usher_outputとの比較をスキップします。")

=== 1000件未満変異株種のusher_output比較（修正版） ===
1000件未満の変異株種数: 3800
usher_outputフォルダ数: 196
1000件未満かつusher_outputにある: 0種類
1000件未満かつusher_outputにない: 3800種類

=== 1000件未満でusher_outputにない変異株種 (3800種類) ===
件数上位20種類:
 1. BA.5.1.35       : 999件
 2. BQ.1.1.68       : 998件
 3. AY.87           : 994件
 4. BA.4.1.6        : 994件
 5. B.1.1.70        : 993件
 6. C.36.3          : 989件
 7. BA.1.5          : 988件
 8. XBB.1.5.47      : 985件
 9. BA.2.23.1       : 984件
10. A.2.5           : 984件
11. AY.38           : 964件
12. AY.52           : 964件
13. AY.51           : 959件
14. BA.2.26         : 959件
15. XBB.1.5.35      : 952件
16. BQ.1.25.1       : 949件
17. AY.46.2         : 949件
18. JN.1.2          : 946件
19. LP.1            : 939件
20. B.1.177.18      : 938件

件数下位10種類:
 1. CM.8.1.5        :   1件
 2. LU.2.2          :   1件
 3. AJ.1            :   1件
 4. AM.1            :   1件
 5. AM.2            :   1件
 6. XEL.1           :   1件
 7. XEL.4           :   1件
 8. XEC.31          :   1件
 9. XEC.4           :   1件
10. 

In [35]:
# 1000件未満変異株種の詳細分析（修正版）
print("=== 1000件未満変異株種の詳細分析（修正版） ===")

# 系統別分析
print(f"\n=== 系統別分析（1000件未満） ===")
lineage_patterns = {}
lineage_totals = {}

for _, row in low_count_variants_df.iterrows():
    variant = row['変異株種']
    count = row['総件数']
    
    # 系統分類
    if variant.startswith('BA.'):
        key = 'BA系統'
    elif variant.startswith('BQ.'):
        key = 'BQ系統'
    elif variant.startswith('XBB.'):
        key = 'XBB系統'
    elif variant.startswith('BF.'):
        key = 'BF系統'
    elif variant.startswith('BE.'):
        key = 'BE系統'
    elif variant.startswith('BN.'):
        key = 'BN系統'
    elif variant.startswith('AY.'):
        key = 'AY系統'
    elif variant.startswith('B.1.'):
        key = 'B.1系統'
    elif variant.startswith('JN.'):
        key = 'JN系統'
    elif variant.startswith('KP.'):
        key = 'KP系統'
    elif variant.startswith('A.') or variant == 'A':
        key = 'A系統'
    elif variant.startswith('P.'):
        key = 'P系統'
    elif variant.startswith('C.'):
        key = 'C系統'
    elif variant.startswith('XB'):
        key = 'XB系統'
    elif variant == 'B':
        key = 'B系統'
    else:
        key = 'その他'
    
    lineage_patterns[key] = lineage_patterns.get(key, 0) + 1
    lineage_totals[key] = lineage_totals.get(key, 0) + count

print("系統別1000件未満変異株種数:")
for lineage in sorted(lineage_patterns.keys()):
    count = lineage_patterns[lineage]
    total_cases = lineage_totals[lineage]
    print(f"  {lineage}: {count}種類 (総件数: {total_cases:,}件)")

# 件数範囲別の詳細分析
print(f"\n=== 件数範囲別詳細分析 ===")
ranges_detail = [
    (800, 999, "800-999件（高頻度）"),
    (500, 799, "500-799件（中高頻度）"),
    (200, 499, "200-499件（中頻度）"),
    (50, 199, "50-199件（低中頻度）"),
    (10, 49, "10-49件（低頻度）"),
    (1, 9, "1-9件（極低頻度）")
]

for min_val, max_val, label in ranges_detail:
    range_data = low_count_variants_df[
        (low_count_variants_df['総件数'] >= min_val) & 
        (low_count_variants_df['総件数'] <= max_val)
    ]
    if len(range_data) > 0:
        print(f"\n{label}: {len(range_data)}種類")
        print(f"  総件数: {range_data['総件数'].sum():,}件")
        if len(range_data) <= 10:
            # 10種類以下の場合は全て表示
            for i, (_, row) in enumerate(range_data.iterrows()):
                print(f"    {i+1:2d}. {row['変異株種']:15} : {row['総件数']:3d}件")
        else:
            # 上位5種類のみ表示
            print(f"  上位5種類:")
            for i, (_, row) in enumerate(range_data.head(5).iterrows()):
                print(f"    {i+1:2d}. {row['変異株種']:15} : {row['総件数']:3d}件")

# 最も件数の少ない変異株種
print(f"\n=== 最も件数の少ない変異株種（下位20種類） ===")
bottom_20 = low_count_variants_df.tail(20).sort_values('総件数')
for i, (_, row) in enumerate(bottom_20.iterrows()):
    print(f"{i+1:2d}. {row['変異株種']:15} : {row['総件数']:2d}件")

# usher_outputとの関係分析
if 'low_in_usher_df' in globals() and len(low_in_usher_df) > 0:
    print(f"\n=== usher_outputとの関係分析 ===")
    print(f"1000件未満でusher_outputにある変異株種の特徴:")
    print(f"  平均件数: {low_in_usher_df['総件数'].mean():.1f}件")
    print(f"  最大件数: {low_in_usher_df['総件数'].max()}件")
    print(f"  最小件数: {low_in_usher_df['総件数'].min()}件")

if 'low_not_in_usher_df' in globals() and len(low_not_in_usher_df) > 0:
    print(f"\n1000件未満でusher_outputにない変異株種の特徴:")
    print(f"  平均件数: {low_not_in_usher_df['総件数'].mean():.1f}件")
    print(f"  最大件数: {low_not_in_usher_df['総件数'].max()}件")
    print(f"  最小件数: {low_not_in_usher_df['総件数'].min()}件")

print(f"\n分析完了！1000件未満の{len(low_count_variants_df)}種類の変異株種について詳細分析しました。")

=== 1000件未満変異株種の詳細分析（修正版） ===

=== 系統別分析（1000件未満） ===
系統別1000件未満変異株種数:
  AY系統: 129種類 (総件数: 34,886件)
  A系統: 27種類 (総件数: 3,311件)
  B.1系統: 904種類 (総件数: 108,875件)
  BA系統: 240種類 (総件数: 59,330件)
  BE系統: 21種類 (総件数: 6,571件)
  BF系統: 76種類 (総件数: 15,997件)
  BN系統: 42種類 (総件数: 5,872件)
  BQ系統: 94種類 (総件数: 22,600件)
  C系統: 34種類 (総件数: 4,257件)
  JN系統: 184種類 (総件数: 25,131件)
  KP系統: 102種類 (総件数: 9,560件)
  P系統: 19種類 (総件数: 4,063件)
  XBB系統: 246種類 (総件数: 38,682件)
  XB系統: 56種類 (総件数: 3,608件)
  その他: 1626種類 (総件数: 157,727件)

=== 件数範囲別詳細分析 ===

800-999件（高頻度）: 77種類
  総件数: 68,601件
  上位5種類:
     1. BA.5.1.35       : 999件
     2. BQ.1.1.68       : 998件
     3. AY.87           : 994件
     4. BA.4.1.6        : 994件
     5. B.1.1.70        : 993件

500-799件（中高頻度）: 190種類
  総件数: 121,683件
  上位5種類:
     1. B.1.375         : 797件
     2. BF.7.21         : 792件
     3. W.4             : 792件
     4. BA.2.9.1        : 787件
     5. BF.11.2         : 786件

200-499件（中頻度）: 535種類
  総件数: 164,308件
  上位5種類:
     1. EG.1.3          : 499件
     2. 