In [11]:
# 금융감독원 크롤링
"""
금융감독원 검사결과제재 전자금융 관련 문서 크롤러
"""

import requests
import time
import os
import json
import re
import urllib.parse
from datetime import datetime
from pathlib import Path
from bs4 import BeautifulSoup
from typing import List, Dict, Optional, Any


def is_electronic_finance_related(department: str, content: str = "") -> bool:
    """관련부서명과 내용으로 전자금융 관련 여부 판단"""
    # 전자금융 관련 부서
    dept_keywords = [
        '전자금융검사국', '전자금융', 'IT검사', '정보기술', 'IT', '사이버'
    ]
    
    # 전자금융 관련 키워드
    content_keywords = [
        '전자금융', '핀테크', '온라인', '모바일', '인터넷뱅킹', '전자지급',
        '전자결제', 'API', '오픈뱅킹', '마이데이터', '전자서명', '정보보호',
        '개인정보', '사이버', '해킹', '보안', '전산', 'IT', '시스템', '네트워크'
    ]
    
    # 부서명 확인
    for keyword in dept_keywords:
        if keyword in department:
            return True
    
    # 내용 확인
    if content:
        for keyword in content_keywords:
            if keyword in content:
                return True
    
    return False


class FSSCrawler:
    """금융감독원 크롤러"""
    
    def __init__(self, base_dir: str = "../../"):
        self.base_url = "https://www.fss.or.kr"
        self.base_dir = Path(base_dir)
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        }
        
    def get_sanction_list(self, page: int = 1) -> Dict:
        """검사결과제재 목록 조회"""
        url = f"{self.base_url}/fss/job/openInfo/list.do"
        params = {
            'menuNo': '200476',
            'pageIndex': page,
            'sdate': '2014-01-01',
            'edate': datetime.now().strftime('%Y-%m-%d'),
            'searchCnd': '4',
            'searchWrd': ''
        }
        
        try:
            print(f"🔍 요청 URL: {url}")
            print(f"🔍 파라미터: {params}")
            
            resp = requests.get(url, params=params, headers=self.headers, timeout=30)
            print(f"🔍 응답 상태: {resp.status_code}")
            
            if resp.status_code != 200:
                print(f"❌ 목록 조회 실패: 상태코드 {resp.status_code}")
                return {}
                
            soup = BeautifulSoup(resp.text, 'html.parser')
            
            # 디버깅: HTML 일부 출력
            print(f"🔍 HTML 길이: {len(resp.text)}")
            print(f"🔍 Title: {soup.find('title').text if soup.find('title') else 'No title'}")
            
            # 전체 건수 추출
            total_text = soup.find('span', class_='total')
            total_count = 0
            if total_text:
                match = re.search(r'(\d+)건', total_text.text)
                if match:
                    total_count = int(match.group(1))
                print(f"🔍 전체 건수: {total_count}")
            else:
                # 다른 방법으로 전체 건수 찾기
                total_elem = soup.find(text=re.compile(r'총\s*\d+\s*건'))
                if total_elem:
                    match = re.search(r'(\d+)', total_elem)
                    if match:
                        total_count = int(match.group(1))
                        print(f"🔍 전체 건수(패턴2): {total_count}")
                else:
                    # 페이징 정보에서 추출
                    paging = soup.find('div', class_='paging')
                    if paging:
                        last_page = paging.find_all('a')[-1]
                        if last_page:
                            onclick = last_page.get('onclick', '')
                            match = re.search(r'goPage\((\d+)\)', onclick)
                            if match:
                                last_page_num = int(match.group(1))
                                total_count = last_page_num * 10  # 대략적인 추정
                                print(f"🔍 전체 건수(페이징 추정): 약 {total_count}건")
                    
                    if total_count == 0:
                        print("🔍 전체 건수를 찾을 수 없음 - 계속 진행")
                        total_count = 999999  # 충분히 큰 수로 설정
            
            # 테이블에서 데이터 추출
            items = []
            table = soup.find('table', class_='tbl_list')
            if not table:
                # 다른 클래스명 시도
                table = soup.find('table', class_='list')
                if not table:
                    table = soup.find('table')
                    print(f"🔍 테이블 클래스: {table.get('class') if table else 'No table found'}")
            
            if table:
                tbody = table.find('tbody')
                if tbody:
                    for tr in tbody.find_all('tr'):
                        tds = tr.find_all('td')
                        print(f"🔍 TD 개수: {len(tds)}")
                        if len(tds) >= 6:
                            # 번호, 제재대상기관, 제재조치요구일, 제재조치요구내용(링크), 관련부서, 조회수
                            item = {
                                'no': tds[0].get_text(strip=True),
                                'institution': tds[1].get_text(strip=True),
                                'date': tds[2].get_text(strip=True),
                                'department': tds[4].get_text(strip=True),
                                'views': tds[5].get_text(strip=True)
                            }
                            
                            # 상세 링크 추출
                            link_tag = tds[3].find('a')
                            if link_tag:
                                # href 속성 확인
                                href = link_tag.get('href')
                                onclick = link_tag.get('onclick')
                                print(f"🔍 링크 정보: href={href}, onclick={onclick}")
                                
                                if onclick:
                                    # JavaScript 함수에서 파라미터 추출
                                    match = re.search(r"fnView\('([^']+)','([^']+)'\)", onclick)
                                    if match:
                                        item['examMgmtNo'] = match.group(1)
                                        item['emOpenSeq'] = match.group(2)
                                        print(f"🔍 추출된 ID: examMgmtNo={item['examMgmtNo']}, emOpenSeq={item['emOpenSeq']}")
                                    else:
                                        # 다른 패턴 시도
                                        match = re.search(r"fnView\(([^,]+),([^)]+)\)", onclick)
                                        if match:
                                            item['examMgmtNo'] = match.group(1).strip("'\"")
                                            item['emOpenSeq'] = match.group(2).strip("'\"")
                                            print(f"🔍 추출된 ID(패턴2): examMgmtNo={item['examMgmtNo']}, emOpenSeq={item['emOpenSeq']}")
                                elif href and 'examMgmtNo' in href:
                                    # URL 파라미터에서 추출
                                    import urllib.parse
                                    parsed = urllib.parse.urlparse(href)
                                    params = urllib.parse.parse_qs(parsed.query)
                                    item['examMgmtNo'] = params.get('examMgmtNo', [''])[0]
                                    item['emOpenSeq'] = params.get('emOpenSeq', [''])[0]
                                    print(f"🔍 URL에서 추출: examMgmtNo={item['examMgmtNo']}, emOpenSeq={item['emOpenSeq']}")
                            
                            items.append(item)
                            print(f"🔍 항목 발견: {item['institution']} - {item['department']}")
                else:
                    print("🔍 tbody를 찾을 수 없음")
            else:
                print("🔍 테이블을 찾을 수 없음")
                # 페이지에 있는 모든 테이블 확인
                all_tables = soup.find_all('table')
                print(f"🔍 페이지의 전체 테이블 수: {len(all_tables)}")
                for i, t in enumerate(all_tables):
                    print(f"   테이블 {i}: class={t.get('class')}")
            
            return {
                'total_count': total_count,
                'items': items,
                'page': page
            }
            
        except Exception as e:
            print(f"❌ 목록 조회 에러 (페이지 {page}): {type(e).__name__} - {e}")
            import traceback
            traceback.print_exc()
            return {}
    
    def get_sanction_detail(self, examMgmtNo: str, emOpenSeq: str) -> Optional[Dict]:
        """제재 상세 정보 조회"""
        url = f"{self.base_url}/fss/job/openInfo/view.do"
        params = {
            'menuNo': '200476',
            'examMgmtNo': examMgmtNo,
            'emOpenSeq': emOpenSeq
        }
        
        try:
            resp = requests.get(url, params=params, headers=self.headers, timeout=30)
            if resp.status_code != 200:
                print(f"❌ 상세 조회 실패: 상태코드 {resp.status_code}")
                return None
                
            soup = BeautifulSoup(resp.text, 'html.parser')
            
            # 상세 정보 추출
            detail = {
                'examMgmtNo': examMgmtNo,
                'emOpenSeq': emOpenSeq
            }
            
            # 테이블에서 정보 추출
            for table in soup.find_all('table', class_='tbl_view'):
                for tr in table.find_all('tr'):
                    th = tr.find('th')
                    td = tr.find('td')
                    if th and td:
                        key = th.get_text(strip=True)
                        value = td.get_text(' ', strip=True)
                        
                        if key == '제재대상기관':
                            detail['institution'] = value
                        elif key == '제재조치요구일':
                            detail['date'] = value
                        elif key == '관련부서':
                            detail['department'] = value
                        elif key == '제재조치요구내용':
                            detail['content'] = value
                        elif key == '첨부파일':
                            # 첨부파일 링크 추출
                            files = []
                            for a in td.find_all('a'):
                                file_info = {
                                    'name': a.get_text(strip=True),
                                    'url': self.base_url + a.get('href', '')
                                }
                                files.append(file_info)
                            detail['files'] = files
            
            return detail
            
        except Exception as e:
            print(f"❌ 상세 조회 에러 ({examMgmtNo}): {type(e).__name__} - {e}")
            return None
    
    def save_sanction_detail(self, detail: Dict, save_dir: str = "data/FSS_SANCTION") -> Dict:
        """제재 정보 저장"""
        save_path = self.base_dir / save_dir
        save_path.mkdir(parents=True, exist_ok=True)
        
        # 파일명 생성
        date_str = detail.get('date', '')
        if date_str:
            # 날짜 형식 정규화 (예: 2024.06.17 -> 20240617)
            date_str = re.sub(r'[^\d]', '', date_str)[:8]
        else:
            date_str = datetime.now().strftime('%Y%m%d')
            
        institution = re.sub(r'[^\w\s-]', '', detail.get('institution', 'unknown'))
        institution = institution.replace(' ', '_')[:30]  # 파일명 길이 제한
        
        base_filename = f"SANCTION_{date_str}_{institution}_{detail['examMgmtNo']}"
        
        try:
            # 첨부파일이 있으면 다운로드
            if detail.get('files'):
                for i, file_info in enumerate(detail['files']):
                    try:
                        file_url = file_info['url']
                        file_name = file_info['name']
                        ext = os.path.splitext(file_name)[-1] if '.' in file_name else '.pdf'
                        
                        if i == 0:
                            save_filename = f"{base_filename}{ext}"
                        else:
                            save_filename = f"{base_filename}_{i+1}{ext}"
                        
                        file_path = save_path / save_filename
                        
                        if file_path.exists():
                            print(f"📄 이미 존재: {file_path}")
                            detail['saved_path'] = str(file_path)
                            continue
                        
                        resp = requests.get(file_url, headers=self.headers, timeout=60)
                        if resp.status_code == 200:
                            with open(file_path, 'wb') as f:
                                f.write(resp.content)
                            print(f"💾 다운로드 완료: {file_path}")
                            detail['saved_path'] = str(file_path)
                            time.sleep(1)  # 서버 부하 방지
                        else:
                            print(f"❌ 다운로드 실패: HTTP {resp.status_code}")
                            
                    except Exception as e:
                        print(f"❌ 파일 다운로드 에러: {type(e).__name__} - {e}")
            
            # 상세 정보를 JSON으로 저장
            json_path = save_path / f"{base_filename}.json"
            with open(json_path, 'w', encoding='utf-8') as f:
                json.dump(detail, f, ensure_ascii=False, indent=2)
            print(f"📝 정보 저장 완료: {json_path}")
            
            if 'saved_path' not in detail:
                detail['saved_path'] = str(json_path)
            
            return detail
            
        except Exception as e:
            print(f"❌ 저장 에러: {type(e).__name__} - {e}")
            detail['saved_path'] = None
            return detail
    
    def get_existing_sanctions(self, save_dir: str = "data/FSS_SANCTION") -> set:
        """기존 저장된 제재 정보 확인"""
        existing = set()
        save_path = self.base_dir / save_dir
        
        if save_path.exists():
            for file in save_path.glob("*.json"):
                if file.name.startswith("SANCTION_"):
                    # 파일명에서 examMgmtNo 추출
                    match = re.search(r'_(\d{9,})\.json', file.name)
                    if match:
                        existing.add(match.group(1))
        
        return existing
    
    def crawl_electronic_finance_sanctions(self) -> List[Dict]:
        """전자금융 관련 제재 정보 크롤링"""
        new_files = []
        
        print(f"=== 금융감독원 전자금융 제재 크롤링 시작: {datetime.now()} ===")
        
        try:
            # 기존 파일 확인
            existing = self.get_existing_sanctions()
            print(f"기존 제재 정보: {len(existing)}개")
            
            page = 1
            total_electronic = 0
            
            while True:
                print(f"\n📄 {page}페이지 조회 중...")
                result = self.get_sanction_list(page)
                
                if not result or not result.get('items'):
                    break
                
                items = result['items']
                print(f"  - {len(items)}개 항목 발견")
                
                for item in items:
                    # 이미 저장된 항목은 건너뛰기
                    if item.get('examMgmtNo') and item.get('examMgmtNo') in existing:
                        continue
                    
                    # 전자금융 관련 여부 확인
                    department = item.get('department', '')
                    if is_electronic_finance_related(department):
                        print(f"\n🔍 전자금융 관련 발견: {item['institution']} ({item['date']})")
                        
                        # examMgmtNo가 없는 경우 처리
                        if not item.get('examMgmtNo') or not item.get('emOpenSeq'):
                            print(f"⚠️ 상세 링크 정보가 없습니다. 건너뜁니다.")
                            continue
                        
                        # 상세 정보 조회
                        detail = self.get_sanction_detail(
                            item['examMgmtNo'], 
                            item['emOpenSeq']
                        )
                        
                        if detail:
                            # 상세 내용으로 다시 한번 확인
                            content = detail.get('content', '')
                            if is_electronic_finance_related(department, content):
                                # 저장
                                saved = self.save_sanction_detail(detail)
                                
                                file_info = {
                                    'type': '검사결과제재',
                                    'examMgmtNo': item['examMgmtNo'],
                                    'institution': detail.get('institution', ''),
                                    'date': detail.get('date', ''),
                                    'department': department,
                                    'file_path': saved.get('saved_path'),
                                    'timestamp': datetime.now().isoformat()
                                }
                                new_files.append(file_info)
                                total_electronic += 1
                                
                                time.sleep(2)  # 서버 부하 방지
                
                # 다음 페이지 확인
                total_count = result.get('total_count', 0)
                if page * 10 >= total_count:
                    print(f"\n✅ 모든 페이지 조회 완료 (총 {total_count}건)")
                    break
                
                page += 1
                time.sleep(1)  # 페이지 간 대기
                
                # 안전장치
                if page > 500:  # 최대 500페이지까지만
                    print("⚠️ 500페이지 초과, 안전 중단")
                    break
            
            print(f"\n=== 크롤링 완료 ===")
            print(f"🔵 새로운 전자금융 제재 정보: {len(new_files)}개")
            print(f"📊 전체 전자금융 제재: {total_electronic}개")
            
            return new_files
            
        except KeyboardInterrupt:
            print("\n❌ 사용자에 의해 크롤링이 중단되었습니다.")
            return new_files
        except Exception as e:
            print(f"\n❌ 크롤링 중 예기치 못한 에러: {type(e).__name__} - {e}")
            return new_files
    
    def save_crawl_log(self, new_files: List[Dict]) -> None:
        """크롤링 결과 로그 저장"""
        if not new_files:
            return
        
        log_dir = self.base_dir / "crawl_logs"
        log_dir.mkdir(exist_ok=True)
        
        today = datetime.now().strftime("%Y%m%d")
        log_file = log_dir / f"fss_sanctions_{today}.json"
        
        with open(log_file, "w", encoding="utf-8") as f:
            json.dump(new_files, f, ensure_ascii=False, indent=2, default=str)
        
        print(f"📋 크롤링 로그 저장: {log_file}")


if __name__ == "__main__":
    # 크롤러 인스턴스 생성
    crawler = FSSCrawler()
    
    # 전자금융 관련 제재 정보 크롤링
    new_files = crawler.crawl_electronic_finance_sanctions()
    
    # 크롤링 로그 저장
    crawler.save_crawl_log(new_files)
    
    print("\n✨ 금융감독원 전자금융 제재 크롤링 완료!")


=== 금융감독원 전자금융 제재 크롤링 시작: 2025-07-13 21:19:13.888522 ===
기존 제재 정보: 0개

📄 1페이지 조회 중...
🔍 요청 URL: https://www.fss.or.kr/fss/job/openInfo/list.do
🔍 파라미터: {'menuNo': '200476', 'pageIndex': 1, 'sdate': '2014-01-01', 'edate': '2025-07-13', 'searchCnd': '4', 'searchWrd': ''}
🔍 응답 상태: 200
🔍 HTML 길이: 261693
🔍 Title: 검사결과제재(목록) | 제재관련 공시 | 검사·제재 | 업무자료 | 
🔍 전체 건수를 찾을 수 없음 - 계속 진행
🔍 테이블 클래스: None
🔍 TD 개수: 6
🔍 링크 정보: href=/fss/job/openInfo/view.do?menuNo=200476&sdate=2014-01-01&edate=2025-07-13&searchCnd=4&searchWrd=&pageIndex=1&examMgmtNo=202000323&emOpenSeq=4, onclick=None
🔍 URL에서 추출: examMgmtNo=202000323, emOpenSeq=4
🔍 항목 발견: 하나증권주식회사 - 금융투자검사1국
🔍 TD 개수: 6
🔍 링크 정보: href=/fss/job/openInfo/view.do?menuNo=200476&sdate=2014-01-01&edate=2025-07-13&searchCnd=4&searchWrd=&pageIndex=1&examMgmtNo=202300754&emOpenSeq=2, onclick=None
🔍 URL에서 추출: examMgmtNo=202300754, emOpenSeq=2
🔍 항목 발견: 신한라이프생명보험주식회사 - 보험검사1국
🔍 TD 개수: 6
🔍 링크 정보: href=/fss/job/openInfo/view.do?menuNo=200476&sdate=2014-01-01&edate=2025-07-

  total_elem = soup.find(text=re.compile(r'총\s*\d+\s*건'))
