In [8]:
import json
import csv
import pandas as pd
from urllib.parse import parse_qs, urlparse, unquote
from typing import Dict, List, Tuple

class LogQAValidator:
    def __init__(self):
        self.scenarios = []
        self.logs = []
        
    def load_scenario_csv(self, csv_file_path: str):
        """CSV 파일에서 시나리오 로드"""
        self.scenarios = []
        df = pd.read_csv(csv_file_path, encoding='utf-8')
        
        for _, row in df.iterrows():
            key_list = [k.strip() for k in str(row['key_list']).split(',') if k.strip()]
            scenario = {
                'page_id': str(row['page_id']),
                'click_type': str(row['click_type']) if pd.notna(row['click_type']) else '',
                'act_type': str(row['act_type']),
                'expected_keys': key_list
            }
            self.scenarios.append(scenario)
        
        print(f"✅ 시나리오 로드: {len(self.scenarios)}개")

    def parse_logs_from_file(self, log_file_path: str):
        """로그 txt 파일에서 직접 파싱"""
        try:
            with open(log_file_path, 'r', encoding='utf-8') as file:
                log_content = file.read()
            self.parse_logs(log_content)
            print(f"✅ 로그 파일 로드: {log_file_path}")
        except FileNotFoundError:
            print(f"❌ 파일을 찾을 수 없습니다: {log_file_path}")
        except Exception as e:
            print(f"❌ 파일 읽기 오류: {e}")

    def parse_logs(self, log_content: str):
        """로그 파싱"""
        self.logs = []
        for i, line in enumerate(log_content.strip().split('\n')):
            if not line.strip():
                continue
                
            try:
                log_data = json.loads(line.strip())
                if 'REQUEST' not in log_data:
                    continue
                    
                params = self._parse_url(log_data['REQUEST'])
                if params:
                    self.logs.append({
                        'line': i + 1,
                        'timestamp': log_data.get('LOGTIME', ''),
                        'params': params
                    })
            except json.JSONDecodeError:
                continue
                
        print(f"✅ 로그 파싱: {len(self.logs)}개")

    def _parse_url(self, request_url: str) -> Dict[str, str]:
        """URL 파라미터 파싱"""
        try:
            url = request_url.encode('utf-8').decode('unicode_escape')
            parsed = urlparse(url)
            query_params = parse_qs(parsed.query, keep_blank_values=True)
            
            result = {}
            for key, values in query_params.items():
                if values:
                    decoded = unquote(values[0], encoding='utf-8')
                    # 한글 깨짐 복구 시도
                    try:
                        if any(ord(c) > 127 for c in decoded):
                            decoded = decoded.encode('latin-1').decode('utf-8')
                    except:
                        pass
                    result[key] = decoded
            return result
        except:
            return {}

    def validate_and_export(self, output_file: str):
        """검증 수행 및 결과 XLSX 출력"""
        results = []
        
        for scenario in self.scenarios:
            # 시나리오와 매칭되는 로그 찾기
            matched_logs = self._find_matching_logs(scenario)
            
            if not matched_logs:
                # 매칭되는 로그가 없는 경우
                for key in scenario['expected_keys']:
                    results.append({
                        'page_id': scenario['page_id'],
                        'click_type': scenario['click_type'],
                        'act_type': scenario['act_type'],
                        'key': key,
                        'value': 'NOT_FOUND',
                        'pass': 'FAIL'
                    })
                continue
            
            # 각 매칭된 로그에 대해 검증
            for log in matched_logs:
                actual_keys = set(log['params'].keys())
                expected_keys = set(scenario['expected_keys'])
                
                # 예상 키들 검증
                for key in expected_keys:
                    value = log['params'].get(key, 'MISSING')
                    pass_status = 'PASS' if key in actual_keys else 'FAIL'
                    
                    results.append({
                        'page_id': scenario['page_id'],
                        'click_type': scenario['click_type'],
                        'act_type': scenario['act_type'],
                        'key': key,
                        'value': value,
                        'pass': pass_status
                    })
                
                # 예상치 못한 키들 (선택사항)
                unexpected_keys = actual_keys - expected_keys
                for key in unexpected_keys:
                    results.append({
                        'page_id': scenario['page_id'],
                        'click_type': scenario['click_type'],
                        'act_type': scenario['act_type'],
                        'key': key,
                        'value': log['params'][key],
                        'pass': 'UNEXPECTED'
                    })

        # XLSX 출력
        df_results = pd.DataFrame(results)
        df_results.to_excel(output_file, index=False, engine='openpyxl')
        
        # 요약 출력
        self._print_summary(results)
        print(f"✅ 결과 저장: {output_file}")

    def _find_matching_logs(self, scenario: Dict) -> List[Dict]:
        """시나리오와 매칭되는 로그 찾기"""
        matched = []
        
        for log in self.logs:
            params = log['params']
            
            # unique id로 매칭
            if (params.get('page_id') == scenario['page_id'] and
                params.get('click_type', '') == scenario['click_type'] and
                params.get('act_type') == scenario['act_type']):
                matched.append(log)
        
        return matched

    def _print_summary(self, results: List[Dict]):
        """결과 요약 출력"""
        df = pd.DataFrame(results)
        
        total = len(df)
        passed = len(df[df['pass'] == 'PASS'])
        failed = len(df[df['pass'] == 'FAIL'])
        unexpected = len(df[df['pass'] == 'UNEXPECTED'])
        
        print(f"\n📊 검증 결과:")
        print(f"   전체: {total}개")
        print(f"   통과: {passed}개")
        print(f"   실패: {failed}개")
        print(f"   예상외: {unexpected}개")
        print(f"   성공률: {passed/total*100:.1f}%" if total > 0 else "   성공률: 0%")

# 사용 예시
def create_sample_scenario_csv():
    """샘플 시나리오 CSV 생성"""
    sample_data = [
        {
            'page_id': 'life-dev/main',
            'click_type': '',
            'act_type': 'impression',
            'key_list': 'channel, page_url, page_id, act_type, banner_text'
        },
        {
            'page_id': 'life-dev/main',
            'click_type': '',
            'act_type': 'pageview',
            'key_list': 'channel, page_url, page_id, act_type'
        },
        {
            'page_id': 'life-dev/myPage',
            'click_type': '',
            'act_type': 'pageview',
            'key_list': 'channel, page_url, page_id, act_type'
        },
        {
            'page_id': 'life-dev/main',
            'click_type': '퀵버튼',
            'act_type': 'click',
            'key_list': 'channel, page_url, page_id, act_type, click_text, click_type'
        }
    ]
    
    df = pd.DataFrame(sample_data)
    df.to_csv('scenario.csv', index=False, encoding='utf-8')
    print("✅ 샘플 시나리오 CSV 생성: scenario.csv")

def run_example():
    """실행 예시"""
    # 샘플 시나리오 CSV 생성
    create_sample_scenario_csv()
    
    # 검증기 초기화
    validator = LogQAValidator()
    
    # 시나리오 로드
    validator.load_scenario_csv('scenario.csv')
    
    # 로그 파일에서 직접 파싱
    validator.parse_logs_from_file('log_file.txt')
    
    # 또는 문자열로 파싱 (예시용)
#     log_data = '''
# {"REQUEST":"https://life-dev.hectoinnovation.co.kr/main?channel\\u003dRround\\u0026page_url\\u003dhttps://life-dev.hectoinnovation.co.kr/main\\u0026page_id\\u003dlife-dev/main\\u0026act_type\\u003dimpression\\u0026banner_text\\u003d애국가"}
# {"REQUEST":"https://life-dev.hectoinnovation.co.kr/main?channel\\u003dRround\\u0026page_url\\u003dhttps://life-dev.hectoinnovation.co.kr/main\\u0026page_id\\u003dlife-dev/main\\u0026act_type\\u003dpageview"}
# {"REQUEST":"https://life-dev.hectoinnovation.co.kr/myPage?channel\\u003dRround\\u0026page_url\\u003dhttps://life-dev.hectoinnovation.co.kr/myPage\\u0026page_id\\u003dlife-dev/myPage\\u0026act_type\\u003dpageview"}
# {"REQUEST":"https://life-dev.hectoinnovation.co.kr/main?channel\\u003dRround\\u0026page_url\\u003dhttps://life-dev.hectoinnovation.co.kr/main\\u0026page_id\\u003dlife-dev/main\\u0026act_type\\u003dclick\\u0026click_text\\u003d라운드로또\\u0026click_type\\u003d퀵버튼"}
# '''
    # validator.parse_logs(log_data)
    
    # 검증 및 결과 출력
    validator.validate_and_export('validation_result.xlsx')

if __name__ == "__main__":
    run_example()

✅ 샘플 시나리오 CSV 생성: scenario.csv
✅ 시나리오 로드: 4개
✅ 로그 파싱: 4개
✅ 로그 파일 로드: log_file.txt

📊 검증 결과:
   전체: 19개
   통과: 19개
   실패: 0개
   예상외: 0개
   성공률: 100.0%
✅ 결과 저장: validation_result.xlsx


In [11]:
def run_test():
    """실행 예시"""
    # 샘플 시나리오 CSV 생성
    create_sample_scenario_csv()
    
    # 검증기 초기화
    validator = LogQAValidator()
    
    # 시나리오 로드
    validator.load_scenario_csv('scenario.csv')
    
    # 로그 파일에서 직접 파싱
    validator.parse_logs_from_file('log_file.txt')
    
    # 검증 및 결과 출력
    validator.validate_and_export('validation_result.xlsx')

if __name__ == "__main__":
    run_test()

✅ 샘플 시나리오 CSV 생성: scenario.csv
✅ 시나리오 로드: 4개
✅ 로그 파싱: 4개
✅ 로그 파일 로드: log_file.txt

📊 검증 결과:
   전체: 19개
   통과: 13개
   실패: 6개
   예상외: 0개
   성공률: 68.4%
✅ 결과 저장: validation_result.xlsx
