In [None]:
# 05_certificate_analysis_multi_format.ipynb
# Location: RAPIDS/notebooks/certificate_analysis/05_certificate_analysis_multi_format.ipynb

import pandas as pd
import numpy as np
from sqlalchemy import create_engine
import json
from cryptography import x509
from cryptography.hazmat.backends import default_backend
import binascii
import matplotlib.pyplot as plt
import japanize_matplotlib
from typing import Dict, List, Optional
import re
from datetime import datetime
from pathlib import Path

class CertificateAnalyzer:
    """証明書の分析を行うクラス（複数の証明書形式に対応）"""
    
    def __init__(self, config_path: str):
        """初期化"""
        # 設定の読み込み
        with open(config_path) as f:
            self.config = json.load(f)['database']
        
        # 出力ディレクトリの設定
        self.output_dir = Path('/home/asomura/waseda/nextstep/RAPIDS/reports/certificate_analysis')
        self.output_dir.mkdir(parents=True, exist_ok=True)
        
        # フォント設定
        plt.rcParams['font.family'] = 'sans-serif'
        plt.rcParams['font.sans-serif'] = ['IPAexGothic', 'IPAPGothic', 'Yu Gothic']
        
        # エラー統計の初期化
        self.error_stats = {
            'total_processed': 0,
            'success': 0,
            'failures': {
                'asn1_error': 0,
                'hex_error': 0,
                'parse_error': 0,
                'no_domain_error': 0,
                'other_error': 0
            }
        }
        
        # 詳細な結果格納用
        self.detailed_results = []

    def get_engine(self, db_name: str) -> create_engine:
        """データベース接続エンジンを取得"""
        host = '192.168.1.92' if db_name == 'website_data' else '192.168.1.92'
        return create_engine(
            f'postgresql://{self.config["user"]}:{self.config["password"]}@{host}/{db_name}'
        )

    def clean_cert_data(self, cert_data: str) -> Optional[bytes]:
        """
        DER形式の証明書が16進数文字列として与えられた場合のクリーニング。
        PEMやPKCS#7の場合はヘッダーが含まれるため、この処理はスキップされます。
        """
        try:
            if not cert_data:
                return None
            
            # すでにPEM/PKCS7形式の場合はそのまま返す（バイナリ変換は行わない）
            if "-----BEGIN" in cert_data:
                return cert_data.encode('utf-8')
            
            # \xプレフィックスとスペースの除去（hex形式の場合）
            hex_str = cert_data.replace('\\x', '').replace(' ', '')
            
            # 16進数以外の文字を除去
            hex_str = re.sub(r'[^0-9a-fA-F]', '', hex_str)
            
            # 奇数長の場合、0を追加
            if len(hex_str) % 2 != 0:
                hex_str += '0'
            
            return binascii.unhexlify(hex_str)
            
        except (binascii.Error, ValueError) as e:
            self.error_stats['failures']['hex_error'] += 1
            return None

    def load_certificate_from_data(self, cert_data: str) -> x509.Certificate:
        """
        証明書データから x509.Certificate オブジェクトを返す。
        PEM, DER, PKCS#7（PEM/DER）の各形式に対応する。
        """
        if not cert_data:
            raise ValueError("Empty certificate data")
        
        # まず、クリーンなデータを取得（PEMの場合はそのままバイト列に変換）
        raw_data = self.clean_cert_data(cert_data)
        if raw_data is None:
            raise ValueError("Invalid certificate data")
        
        try:
            # PEM形式の場合：-----BEGIN CERTIFICATE-----
            if b"-----BEGIN CERTIFICATE-----" in raw_data:
                # 複数の証明書が連結されている場合、最初のものを使用
                pem_certs = re.findall(b'(-----BEGIN CERTIFICATE-----.*?-----END CERTIFICATE-----)', raw_data, re.DOTALL)
                if pem_certs:
                    return x509.load_pem_x509_certificate(pem_certs[0], default_backend())
                else:
                    raise ValueError("No valid PEM certificate found")
            
            # PEM形式のPKCS7の場合
            if b"-----BEGIN PKCS7-----" in raw_data:
                from cryptography.hazmat.primitives.serialization import pkcs7
                pkcs7_certs = pkcs7.load_pem_pkcs7_certificates(raw_data)
                if pkcs7_certs and len(pkcs7_certs) > 0:
                    return pkcs7_certs[0]
                else:
                    raise ValueError("No valid PEM PKCS7 certificates found")
            
            # DER形式の場合（ここでは raw_data はバイナリとして渡される）
            try:
                return x509.load_der_x509_certificate(raw_data, default_backend())
            except Exception as e:
                # DER形式のPKCS7を試す
                from cryptography.hazmat.primitives.serialization import pkcs7
                pkcs7_certs = pkcs7.load_der_pkcs7_certificates(raw_data)
                if pkcs7_certs and len(pkcs7_certs) > 0:
                    return pkcs7_certs[0]
                else:
                    raise e
        
        except Exception as e:
            raise e

    def extract_domains(self, cert_data: str, original_domain: str) -> Dict:
        """証明書からドメイン情報を抽出（各種証明書形式に対応）"""
        self.error_stats['total_processed'] += 1
        
        try:
            # 証明書データから x509.Certificate オブジェクトを取得
            cert = self.load_certificate_from_data(cert_data)
            domains = set()  # 重複を避けるために set を使用
            
            # SAN (Subject Alternative Name) 拡張から取得を試みる
            for extension in cert.extensions:
                if isinstance(extension.value, x509.SubjectAlternativeName):
                    san_domains = [name.value for name in extension.value 
                                   if isinstance(name, x509.DNSName)]
                    domains.update(san_domains)
            
            # Common Name からも取得（エラーがあっても続行）
            try:
                cn = cert.subject.get_attributes_for_oid(x509.NameOID.COMMON_NAME)
                if cn:
                    domains.add(cn[0].value)
            except Exception:
                pass
            
            # ドメインリストに変換
            domain_list = sorted(list(domains))
            
            # 最低1つのドメインがなければエラー
            if not domain_list:
                self.error_stats['failures']['no_domain_error'] += 1
                return self._create_error_result(original_domain, "No valid domains found")
            
            self.error_stats['success'] += 1
            
            return {
                'original_domain': original_domain,
                'domain_count': len(domain_list),
                'domains': domain_list,
                'is_multi_domain': len(domain_list) > 1,
                'error': None
            }
            
        except ValueError as e:
            self.error_stats['failures']['parse_error'] += 1
            return self._create_error_result(original_domain, f"Parse error: {str(e)}")
            
        except Exception as e:
            if "error parsing asn1 value" in str(e).lower():
                self.error_stats['failures']['asn1_error'] += 1
                return self._create_error_result(original_domain, "ASN.1 parse error")
            else:
                self.error_stats['failures']['other_error'] += 1
                return self._create_error_result(original_domain, f"Error: {str(e)}")

    def _create_error_result(self, domain: str, error_msg: str) -> Dict:
        """エラー結果の生成"""
        return {
            'original_domain': domain,
            'domain_count': 0,
            'domains': [],
            'is_multi_domain': False,
            'error': error_msg
        }

    def extract_domains_with_fallback(self, primary_cert_data: str, fallback_cert_data: Optional[str], original_domain: str) -> Dict:
        """
        primary の証明書データでエラーの場合、fallback のデータで再試行する。
        fallback で成功した場合は、'fallback_used': True を付加する。
        """
        result = self.extract_domains(primary_cert_data, original_domain)
        if result['error'] is None:
            result['fallback_used'] = False
            return result
        else:
            # primary でエラーの場合、fallback のデータが存在すれば再試行
            if fallback_cert_data:
                fallback_result = self.extract_domains(fallback_cert_data, original_domain)
                if fallback_result['error'] is None:
                    fallback_result['fallback_used'] = True
                    return fallback_result
                else:
                    # 両方失敗の場合、エラー内容を併記
                    return self._create_error_result(
                        original_domain,
                        f"Primary error: {result['error']} / Fallback error: {fallback_result['error']}"
                    )
            else:
                return result

    def analyze_certificates(self, db_name: str) -> Dict:
        """証明書の分析を実行（フォールバック機能付き）"""
        print(f"\n{db_name} の分析を開始...")
        
        # fallback カラムも取得
        query = """
            SELECT domain, https_certificate_body, https_certificate_all
            FROM website_data 
            WHERE status = 7 
              AND (https_certificate_body IS NOT NULL OR https_certificate_all IS NOT NULL);
        """
        engine = self.get_engine(db_name)
        df = pd.read_sql_query(query, engine)
        print(f"取得したレコード数: {len(df)}")
        
        results = []
        for _, row in df.iterrows():
            primary_cert = row['https_certificate_body']
            fallback_cert = row['https_certificate_all']
            result = self.extract_domains_with_fallback(primary_cert, fallback_cert, row['domain'])
            results.append(result)
            self.detailed_results.append({
                **result, 
                'database': db_name,
                'timestamp': datetime.now()
            })
        
        # 有効な結果のみを用いて統計を計算
        valid_results = [r for r in results if r['domain_count'] > 0]
        total_certs = len(results)
        total_valid = len(valid_results)
        multi_domain_certs = sum(1 for r in valid_results if r['is_multi_domain'])
        domain_counts = [r['domain_count'] for r in valid_results]
        fallback_used_count = sum(1 for r in valid_results if r.get('fallback_used', False))
        
        return {
            'total_certificates': total_certs,
            'valid_certificates': total_valid,
            'invalid_certificates': total_certs - total_valid,
            'multi_domain_certificates': multi_domain_certs,
            'multi_domain_ratio': multi_domain_certs / total_valid if total_valid > 0 else 0,
            'domain_counts': domain_counts,
            'avg_domains_per_cert': np.mean(domain_counts) if domain_counts else 0,
            'max_domains_per_cert': max(domain_counts) if domain_counts else 0,
            'fallback_used_count': fallback_used_count,
            'fallback_used_ratio': fallback_used_count / total_valid if total_valid > 0 else 0,
            'results': results
        }

    def save_detailed_results(self, output_path: Optional[str] = None):
        """詳細な分析結果を CSV ファイルとして保存"""
        if not output_path:
            timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
            output_path = self.output_dir / f'cert_analysis_{timestamp}.csv'
        
        df = pd.DataFrame(self.detailed_results)
        df['domains'] = df['domains'].apply(lambda x: ','.join(x) if isinstance(x, list) else '')
        df.to_csv(output_path, index=False)
        print(f"\n詳細な分析結果を保存: {output_path}")

    def print_summary(self, results: Dict[str, Dict]):
        """分析結果のサマリーを表示"""
        print("\n=== 証明書分析サマリー ===")
        
        for db_name, data in results.items():
            print(f"\n{db_name}:")
            print(f"総証明書数: {data['total_certificates']:,}")
            print(f"有効な証明書: {data['valid_certificates']:,} ({data['valid_certificates']/data['total_certificates']*100:.1f}%)")
            print(f"無効な証明書: {data['invalid_certificates']:,} ({data['invalid_certificates']/data['total_certificates']*100:.1f}%)")
            
            if data['valid_certificates'] > 0:
                print(f"\nマルチドメイン証明書数: {data['multi_domain_certificates']:,}")
                print(f"マルチドメイン証明書の割合: {data['multi_domain_ratio']:.1%}")
                print(f"証明書あたりの平均ドメイン数: {data['avg_domains_per_cert']:.2f}")
                print(f"証明書あたりの最大ドメイン数: {data['max_domains_per_cert']}")
                print(f"フォールバック利用証明書数: {data['fallback_used_count']:,} ({data['fallback_used_ratio']:.1%})")
                
                domain_counts = pd.Series(data['domain_counts'])
                print("\nドメイン数の分布:")
                for count, freq in domain_counts.value_counts().sort_index().items():
                    print(f"{count}ドメイン: {freq:,} 件 ({freq/len(domain_counts):.1%})")

    def print_error_stats(self):
        """エラー統計の表示"""
        print("\n=== エラー統計 ===")
        total = self.error_stats['total_processed']
        print(f"処理した証明書の総数: {total:,}")
        print(f"成功: {self.error_stats['success']:,} ({self.error_stats['success']/total*100:.1f}%)")
        
        print("\nエラーの内訳:")
        for error_type, count in self.error_stats['failures'].items():
            if count > 0:
                print(f"- {error_type}: {count:,} ({count/total*100:.1f}%)")

    def plot_results(self, results: Dict[str, Dict]):
        """分析結果の可視化（フォールバック利用状況も表示）"""
        plt.rcParams['font.size'] = 12
        
        # 3行2列のグリッド
        fig, axes = plt.subplots(3, 2, figsize=(15, 18))
        fig.suptitle('証明書分析結果', y=1.02, fontsize=14)
        
        for i, (db_name, data) in enumerate(results.items()):
            col = i  # 0: website_data, 1: normal_sites
            if data['total_certificates'] == 0:
                continue
            
            # 1. 証明書の有効性の円グラフ
            valid_ratio = data['valid_certificates'] / data['total_certificates']
            axes[0, col].pie([valid_ratio, 1-valid_ratio],
                             labels=['有効', '無効'],
                             autopct='%1.1f%%',
                             colors=['#66b3ff', '#ff9999'])
            axes[0, col].set_title(f'{db_name}\n証明書の有効性')
            
            # 2. ドメイン数の分布（ヒストグラム）
            if data['valid_certificates'] > 0 and data['domain_counts']:
                domain_counts = pd.Series(data['domain_counts'])
                axes[1, col].hist(domain_counts, 
                                  bins=range(1, int(max(domain_counts)) + 2),
                                  alpha=0.7,
                                  rwidth=0.8)
                axes[1, col].set_title(f'{db_name}\nドメイン数の分布')
                axes[1, col].set_xlabel('証明書あたりのドメイン数')
                axes[1, col].set_ylabel('証明書数')
                axes[1, col].grid(True, alpha=0.3)
            else:
                axes[1, col].text(0.5, 0.5, 'データなし', horizontalalignment='center')
                axes[1, col].set_title(f'{db_name}\nドメイン数の分布')
            
            # 3. フォールバック利用状況の円グラフ
            if data['valid_certificates'] > 0:
                fallback_count = data['fallback_used_count']
                primary_count = data['valid_certificates'] - fallback_count
                axes[2, col].pie([primary_count, fallback_count],
                                 labels=['Primary', 'Fallback'],
                                 autopct='%1.1f%%',
                                 colors=['#99ff99', '#ffcc99'])
                axes[2, col].set_title(f'{db_name}\nフォールバック利用状況')
            else:
                axes[2, col].text(0.5, 0.5, 'データなし', horizontalalignment='center')
                axes[2, col].set_title(f'{db_name}\nフォールバック利用状況')
        
        plt.tight_layout()

def main():
    # 設定ファイルのパス
    config_path = '/home/asomura/waseda/nextstep/RAPIDS/config/database.json'
    
    analyzer = CertificateAnalyzer(config_path)
    
    results = {
        'website_data': analyzer.analyze_certificates('website_data'),
        'normal_sites': analyzer.analyze_certificates('normal_sites')
    }
    
    analyzer.print_summary(results)
    analyzer.print_error_stats()
    analyzer.plot_results(results)
    analyzer.save_detailed_results()

if __name__ == "__main__":
    main()