In [1]:
# Google Colab용 부동산 정보 OCR 자동 업데이트 시스템 (주소 기반 매칭 버전)
# 카카오맵 API와 주소 매칭을 통한 정확한 빌딩 식별

# 패키지 설치
import subprocess
import sys

def install_packages():
    """필요한 패키지 설치"""
    print("필요한 패키지를 설치합니다...")

    packages = [
        'anthropic',  # Claude API
        'openai',     # OpenAI API (대체용)
        'pandas',
        'openpyxl',
        'pillow',
        'requests',
        'python-Levenshtein',  # 고급 문자열 매칭용
        'fuzzywuzzy',  # 퍼지 매칭용
        'geopy'  # 지오코딩용
    ]

    for package in packages:
        subprocess.check_call([sys.executable, '-m', 'pip', 'install', package, '-q'])

    print("패키지 설치 완료!")

# 패키지 설치 실행
install_packages()

import os
import json
import time
import uuid
import base64
import requests
import pandas as pd
from pathlib import Path
from PIL import Image
import io
from datetime import datetime
from typing import Dict, List, Any, Optional, Tuple, Set
import re
from google.colab import files
from google.colab import drive
from anthropic import Anthropic
import openai
import zipfile
import shutil
import traceback
from collections import defaultdict
from IPython.display import display, HTML, clear_output
from difflib import SequenceMatcher
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
import urllib.parse

# 전역 변수
USE_GDRIVE = False

# Google Drive 마운트 (에러 처리 포함)
try:
    print("Google Drive를 마운트합니다...")
    drive.mount('/content/drive')
    print("Google Drive 마운트 성공!")
    USE_GDRIVE = True
except Exception as e:
    print(f"Google Drive 마운트 실패: {e}")
    print("로컬 저장소를 사용합니다.")
    USE_GDRIVE = False

# 작업 폴더 생성
if USE_GDRIVE:
    GDRIVE_BASE = '/content/drive/MyDrive/OCR_Processing'
    os.makedirs(GDRIVE_BASE, exist_ok=True)
    print(f"Google Drive 작업 폴더: {GDRIVE_BASE}")
else:
    GDRIVE_BASE = '/content/OCR_Processing'
    os.makedirs(GDRIVE_BASE, exist_ok=True)
    print(f"로컬 작업 폴더: {GDRIVE_BASE}")


class KakaoMapAPI:
    """카카오맵 API를 활용한 주소 검증 및 지오코딩"""

    def __init__(self):
        self.rest_api_key = "202b072045892b48df4f5c0f5d813d7d"
        self.headers = {
            "Authorization": f"KakaoAK {self.rest_api_key}"
        }

    def search_address(self, query: str) -> Dict:
        """주소 또는 장소명으로 검색"""
        url = "https://dapi.kakao.com/v2/local/search/address.json"
        params = {
            "query": query,
            "size": 5
        }

        try:
            response = requests.get(url, headers=self.headers, params=params)
            if response.status_code == 200:
                return response.json()
            else:
                # 주소 검색 실패시 키워드 검색 시도
                return self.search_keyword(query)
        except Exception as e:
            print(f"카카오맵 API 오류: {e}")
            return {"documents": []}

    def search_keyword(self, query: str) -> Dict:
        """키워드로 장소 검색"""
        url = "https://dapi.kakao.com/v2/local/search/keyword.json"
        params = {
            "query": query,
            "size": 5
        }

        try:
            response = requests.get(url, headers=self.headers, params=params)
            if response.status_code == 200:
                return response.json()
        except Exception as e:
            print(f"카카오맵 키워드 검색 오류: {e}")

        return {"documents": []}

    def get_standardized_address(self, query: str) -> Optional[str]:
        """표준화된 주소 반환"""
        result = self.search_address(query)
        if result.get("documents"):
            # 첫 번째 결과의 도로명 주소 반환
            doc = result["documents"][0]
            return doc.get("road_address", {}).get("address_name") or doc.get("address_name")

        # 주소 검색 실패시 키워드 검색
        result = self.search_keyword(query)
        if result.get("documents"):
            doc = result["documents"][0]
            return doc.get("road_address_name") or doc.get("address_name")

        return None


class AddressMatcher:
    """주소 유사도 매칭 클래스"""

    def __init__(self, kakao_api: KakaoMapAPI, anthropic_client: Anthropic = None):
        self.kakao_api = kakao_api
        self.anthropic = anthropic_client

    def normalize_address(self, address: str) -> str:
        """주소 정규화"""
        if not address:
            return ""

        # 불필요한 문자 제거
        address = re.sub(r'[^\w\s가-힣]', ' ', address)
        # 여러 공백을 하나로
        address = ' '.join(address.split())

        return address.strip()

    def extract_key_parts(self, address: str) -> Dict[str, str]:
        """주소에서 주요 부분 추출"""
        parts = {
            'city': '',
            'district': '',
            'road': '',
            'building_num': '',
            'building_name': ''
        }

        # 시/도 추출
        city_pattern = r'(서울|부산|대구|인천|광주|대전|울산|세종|경기|강원|충북|충남|전북|전남|경북|경남|제주)'
        city_match = re.search(city_pattern, address)
        if city_match:
            parts['city'] = city_match.group(1)

        # 구/군 추출
        district_pattern = r'([가-힣]+구|[가-힣]+군)'
        district_match = re.search(district_pattern, address)
        if district_match:
            parts['district'] = district_match.group(1)

        # 도로명 추출
        road_pattern = r'([가-힣]+로\d*|[가-힣]+길)'
        road_match = re.search(road_pattern, address)
        if road_match:
            parts['road'] = road_match.group(1)

        # 건물번호 추출
        building_num_pattern = r'(\d+(?:-\d+)?)'
        building_num_match = re.search(building_num_pattern, address)
        if building_num_match:
            parts['building_num'] = building_num_match.group(1)

        return parts

    def calculate_similarity(self, addr1: str, addr2: str) -> float:
        """두 주소의 유사도 계산 (0-100)"""
        if not addr1 or not addr2:
            return 0

        # 정규화
        norm_addr1 = self.normalize_address(addr1)
        norm_addr2 = self.normalize_address(addr2)

        # 완전 일치
        if norm_addr1 == norm_addr2:
            return 100

        # 부분 문자열 매칭
        if norm_addr1 in norm_addr2 or norm_addr2 in norm_addr1:
            return 85

        # fuzzy 매칭
        similarity = fuzz.ratio(norm_addr1, norm_addr2)

        # 주요 부분 비교
        parts1 = self.extract_key_parts(addr1)
        parts2 = self.extract_key_parts(addr2)

        key_similarity = 0
        weights = {'city': 20, 'district': 25, 'road': 30, 'building_num': 25}

        for key, weight in weights.items():
            if parts1[key] and parts2[key]:
                if parts1[key] == parts2[key]:
                    key_similarity += weight

        # 최종 점수 (fuzzy 50%, 키 매칭 50%)
        final_score = (similarity * 0.5) + (key_similarity * 0.5)

        return final_score

    def match_with_claude(self, addr1: str, addr2: str, building1: str, building2: str) -> Dict:
        """Claude API를 활용한 주소 및 빌딩명 매칭"""
        if not self.anthropic:
            return {"is_same": False, "confidence": 0}

        prompt = f"""
        다음 두 개의 빌딩 정보가 동일한 빌딩을 가리키는지 판단해주세요.

        빌딩 1:
        - 빌딩명: {building1}
        - 주소: {addr1}

        빌딩 2:
        - 빌딩명: {building2}
        - 주소: {addr2}

        다음을 고려하여 판단해주세요:
        1. 빌딩명이 다르더라도 같은 빌딩일 수 있음 (예: "63빌딩" vs "한화생명 63빌딩")
        2. 주소가 약간 다르게 표기되어도 같은 곳일 수 있음
        3. 한 빌딩에 여러 명칭이 있을 수 있음

        JSON 형식으로만 응답:
        {{
            "is_same": true/false,
            "confidence": 0-100,
            "reason": "판단 이유"
        }}
        """

        try:
            response = self.anthropic.messages.create(
                model="claude-3-haiku-20240307",
                max_tokens=1000,
                temperature=0,
                messages=[{"role": "user", "content": prompt}]
            )

            result_text = response.content[0].text
            return json.loads(result_text)

        except Exception as e:
            print(f"Claude 매칭 오류: {e}")
            return {"is_same": False, "confidence": 0}


class VacancyComparator:
    """공실 정보 비교 및 갱신 클래스"""

    def __init__(self):
        self.changes = {
            'added': [],
            'removed': [],
            'modified': []
        }

    def normalize_floor(self, floor_str: str) -> str:
        """층 정보 정규화"""
        if not floor_str:
            return ""

        # 다양한 층 표기를 통일
        floor_str = str(floor_str).strip()
        floor_str = floor_str.replace('층', '').replace('F', '').replace('f', '')
        floor_str = floor_str.replace('B', '-').replace('지하', '-')

        return floor_str.strip()

    def compare_vacancies(self, existing_vacancies: List[Dict], new_vacancies: List[Dict]) -> Dict:
        """기존 공실과 새 공실 비교"""
        changes = {
            'added': [],
            'removed': [],
            'unchanged': []
        }

        # 층 정보로 매칭
        existing_floors = {}
        for vacancy in existing_vacancies:
            floor = self.normalize_floor(vacancy.get('공실층', ''))
            if floor:
                existing_floors[floor] = vacancy

        new_floors = {}
        for vacancy in new_vacancies:
            floor = self.normalize_floor(vacancy.get('공실층', ''))
            if floor:
                new_floors[floor] = vacancy

        # 새로 추가된 공실
        for floor, vacancy in new_floors.items():
            if floor not in existing_floors:
                changes['added'].append(vacancy)

        # 제거된 공실
        for floor, vacancy in existing_floors.items():
            if floor not in new_floors:
                changes['removed'].append(vacancy)

        # 변경되지 않은 공실
        for floor in set(existing_floors.keys()) & set(new_floors.keys()):
            changes['unchanged'].append(new_floors[floor])

        return changes


class TextMiningAnalyzer:
    """OCR 텍스트 마이닝 분석기 (개선 버전)"""

    def __init__(self):
        self.real_estate_keywords = {
            'floor': ['층', 'F', 'floor', '지하', 'B'],
            'area': ['평', '㎡', '면적', '전용', '임대'],
            'price': ['임대료', '보증금', '관리비', '원', '만원'],
            'availability': ['즉시', '입주', '가능', '협의', '공실', 'VACANCY']
        }

        # 제외할 키워드
        self.exclude_keywords = [
            '접근성', '뛰어난', '해당층', '즉시', '등의', '역전', '도보',
            '중앙대로', '세종그랑시어', '오펠리움', '상시', '임대', '공실',
            '면적', '층', '평', '원', '관리비', '보증금', '월', '년', '일',
            'Unit', 'unit', 'PROPERTY', 'INFORMATION', 'VACANCY', 'RENT',
            'LOCATION', 'FLOOR', 'PLAN', 'OTHERS'
        ]

    def extract_building_name_from_image(self, ocr_text: str, image_filename: str) -> str:
        """이미지별로 빌딩명 추출 (개별 처리)"""

        # 이미지 파일명에서 힌트 추출
        filename_hints = self.extract_hints_from_filename(image_filename)

        # OCR 텍스트에서 빌딩명 패턴 찾기
        building_patterns = [
            # 한화생명 + 지역명
            r'한화생명\s+([가-힣]{2,4})(?:\s|$)',
            # 숫자+빌딩
            r'(\d+\s*빌딩)',
            # 한글 빌딩명
            r'^([가-힣]{2,10}(?:\s+빌딩)?)\s*$',
            # 특정 패턴
            r'\[([가-힣\d]+(?:\s+빌딩)?)\]',
            r'■\s*([가-힣\d]+)',
        ]

        candidates = []

        for pattern in building_patterns:
            matches = re.findall(pattern, ocr_text, re.MULTILINE)
            for match in matches:
                clean_match = match.strip()
                if clean_match and clean_match not in self.exclude_keywords:
                    candidates.append(clean_match)

        # 파일명 힌트와 후보 결합
        if filename_hints:
            candidates.insert(0, filename_hints)

        # 가장 가능성 높은 빌딩명 선택
        if candidates:
            # 중복 제거하고 첫 번째 반환
            seen = set()
            for candidate in candidates:
                if candidate not in seen:
                    seen.add(candidate)
                    return candidate

        return f"Unknown_{image_filename.split('.')[0]}"

    def extract_hints_from_filename(self, filename: str) -> Optional[str]:
        """파일명에서 빌딩명 힌트 추출"""
        filename_lower = filename.lower()

        # 파일명 패턴
        hints_map = {
            '63': '63빌딩',
            '둔산': '둔산',
            '전주': '전주',
            '청주': '청주',
            '부산': '부산',
            '대전': '대전',
            '대구': '대구',
            '울산': '울산',
            '광주': '광주',
            '불광': '불광',
            '의정부': '의정부',
            '부평': '부평',
            '남대문': '남대문',
            '소공': '소공',
            '순천': '순천',
            '강릉': '강릉',
            '군산': '군산',
            '마산': '마산',
            '안산': '안산'
        }

        for key, value in hints_map.items():
            if key in filename_lower:
                return value

        # 페이지 번호 제거하고 빌딩명 추출
        clean_name = re.sub(r'_페이지_\d+', '', filename)
        clean_name = re.sub(r'_\d+', '', clean_name)
        clean_name = re.sub(r'\.\w+$', '', clean_name)

        if clean_name and len(clean_name) > 1:
            return clean_name

        return None

    def extract_address_from_ocr(self, ocr_text: str) -> Optional[str]:
        """OCR 텍스트에서 주소 추출"""

        # 주소 패턴
        address_patterns = [
            r'([가-힣]+(?:시|도))\s+([가-힣]+(?:구|군))\s+([가-힣]+(?:로|길))\s*(\d+)',
            r'([가-힣]+(?:시|도))\s+([가-힣]+(?:구|군))\s+([가-힣\d\s]+)',
            r'주소\s*:\s*([가-힣\d\s,.-]+)',
            r'위치\s*:\s*([가-힣\d\s,.-]+)',
            r'([가-힣]+(?:시|도)\s+[가-힣]+(?:구|군)\s+[가-힣\d\s]+)',
        ]

        for pattern in address_patterns:
            match = re.search(pattern, ocr_text)
            if match:
                address = match.group(0) if match.lastindex is None else ' '.join(match.groups())
                # 주소 정제
                address = re.sub(r'\s+', ' ', address)
                address = address.replace('주소:', '').replace('위치:', '').strip()
                if len(address) > 5:  # 최소 길이 체크
                    return address

        return None

    def extract_vacancy_info(self, ocr_text: str) -> List[Dict]:
        """OCR 텍스트에서 공실 정보 추출"""
        vacancies = []

        # 층별 공실 패턴
        floor_patterns = [
            r'(\d+)F\s*(?:[\d,]+평|\d+\.?\d*㎡)',
            r'(\d+)층\s*(?:[\d,]+평|\d+\.?\d*㎡)',
            r'B(\d+)\s*(?:[\d,]+평|\d+\.?\d*㎡)',
            r'지하\s*(\d+)\s*(?:[\d,]+평|\d+\.?\d*㎡)',
        ]

        # 면적 패턴
        area_patterns = [
            r'(\d+(?:\.\d+)?)\s*평',
            r'(\d+(?:\.\d+)?)\s*㎡',
            r'(\d+(?:,\d+)*)\s*평',
        ]

        # 텍스트를 줄 단위로 분석
        lines = ocr_text.split('\n')

        for i, line in enumerate(lines):
            floor_info = None
            area_info = None

            # 층 정보 추출
            for pattern in floor_patterns:
                match = re.search(pattern, line)
                if match:
                    floor_info = match.group(1)
                    if 'B' in pattern or '지하' in pattern:
                        floor_info = f"B{floor_info}"
                    else:
                        floor_info = f"{floor_info}F"
                    break

            # 면적 정보 추출
            for pattern in area_patterns:
                match = re.search(pattern, line)
                if match:
                    area_info = match.group(1)
                    break

            # 층과 면적 정보가 있으면 공실로 추가
            if floor_info:
                vacancy = {
                    '공실층': floor_info,
                    '면적': area_info or '',
                    '원문': line.strip()
                }
                vacancies.append(vacancy)

        return vacancies


class SmartRealEstateOCRProcessor:
    def __init__(self, clova_url: str, clova_key: str, api_key: str, api_type: str = "claude", model: str = None):
        """스마트 부동산 OCR 프로세서 초기화"""
        self.clova_url = clova_url
        self.clova_key = clova_key
        self.api_type = api_type
        self.api_key = api_key

        # API 초기화
        if api_type == "claude":
            self.anthropic = Anthropic(api_key=api_key)
            self.model = model or "claude-3-haiku-20240307"
        else:
            openai.api_key = api_key
            self.model = model or "gpt-4"

        # 카카오맵 API
        self.kakao_api = KakaoMapAPI()

        # 주소 매처
        self.address_matcher = AddressMatcher(self.kakao_api, self.anthropic)

        # 공실 비교기
        self.vacancy_comparator = VacancyComparator()

        # 회사 패턴
        self.company_patterns = {
            'CW': ['Cushman', 'Wakefield', 'C&W', 'CW'],
            'JLL': ['Jones Lang LaSalle', 'JLL', '제이엘엘'],
            'HANHWA': ['한화생명', '한화', 'Hanhwa', 'HANHWA']
        }

        # 데이터 저장
        self.existing_buildings = {}
        self.existing_companies = set()
        self.selected_company = None

        # 변경사항 추적
        self.pending_changes = []
        self.status_changes = {
            'deactivated_buildings': [],
            'reactivated_buildings': [],
            'active_buildings_in_update': set(),
            'ocr_found_buildings': set(),
            'ocr_raw_texts': {},
            'verification_results': {},
            'building_matches': {},  # 빌딩 매칭 결과
            'vacancy_changes': {}  # 공실 변경사항
        }

        # 세션 폴더
        if USE_GDRIVE:
            self.session_folder = os.path.join(GDRIVE_BASE, datetime.now().strftime("%Y%m%d_%H%M%S"))
        else:
            self.session_folder = os.path.join('/content', f'OCR_Session_{datetime.now().strftime("%Y%m%d_%H%M%S")}')
        os.makedirs(self.session_folder, exist_ok=True)

        # 설정
        self.confidence_threshold = 70
        self.low_confidence_report = []
        self.skip_verification = False

        # 분석기
        self.text_analyzer = TextMiningAnalyzer()

        print(f"세션 폴더: {self.session_folder}")
        print(f"API: {api_type}, 모델: {self.model}")

    def analyze_existing_json(self, json_data: Dict) -> Dict:
        """기존 JSON 파일 구조 분석"""
        print("\n=== 기존 JSON 파일 분석 중 ===")

        analysis = {
            'total_buildings': 0,
            'total_vacancies': 0,
            'active_buildings': 0,
            'inactive_buildings': 0,
            'companies': set(),
            'buildings_by_company': defaultdict(list),
            'building_addresses': {}  # 빌딩별 주소 저장
        }

        if 'buildings' in json_data:
            for item in json_data['buildings']:
                company = item.get('출처회사', 'Unknown')
                building_name = item.get('빌딩명', '')
                address = item.get('주소', '')
                is_active = item.get('status', 'active') == 'active'

                if company:
                    analysis['companies'].add(company)

                if '공실층' not in item:
                    analysis['total_buildings'] += 1
                    if is_active:
                        analysis['active_buildings'] += 1
                    else:
                        analysis['inactive_buildings'] += 1

                    if building_name:
                        analysis['buildings_by_company'][company].append(building_name)
                        key = f"{company}_{building_name}"
                        self.existing_buildings[key] = item

                        # 주소 저장
                        if address:
                            analysis['building_addresses'][key] = address
                else:
                    analysis['total_vacancies'] += 1

        self.existing_companies = analysis['companies']
        self.building_addresses = analysis['building_addresses']

        print(f"- 총 빌딩 수: {analysis['total_buildings']} (활성: {analysis['active_buildings']}, 비활성: {analysis['inactive_buildings']})")
        print(f"- 총 공실 수: {analysis['total_vacancies']}")
        print(f"- 발견된 회사: {', '.join(analysis['companies'])}")

        self.original_json_data = json_data
        self.analysis_result = analysis
        return analysis

    def image_to_base64(self, image_path: str) -> str:
        """이미지를 base64로 변환"""
        with open(image_path, 'rb') as image_file:
            return base64.b64encode(image_file.read()).decode('utf-8')

    def call_clova_ocr(self, image_path: str) -> Optional[Dict]:
        """네이버 클로바 OCR API 호출"""
        print(f"OCR 처리: {os.path.basename(image_path)}")

        image_base64 = self.image_to_base64(image_path)

        request_json = {
            'images': [{
                'format': 'png',
                'name': os.path.basename(image_path),
                'data': image_base64
            }],
            'requestId': str(uuid.uuid4()),
            'version': 'V2',
            'timestamp': int(round(time.time() * 1000))
        }

        headers = {
            'X-OCR-SECRET': self.clova_key,
            'Content-Type': 'application/json'
        }

        try:
            response = requests.post(self.clova_url, headers=headers, data=json.dumps(request_json))
            response.raise_for_status()
            return response.json()
        except Exception as e:
            print(f"OCR 오류: {e}")
            return None

    def extract_text_from_clova(self, ocr_result: Dict) -> str:
        """클로바 OCR 결과에서 텍스트 추출"""
        if not ocr_result or 'images' not in ocr_result:
            return ""

        full_text = ""
        for image in ocr_result['images']:
            if 'fields' in image:
                for field in image['fields']:
                    full_text += field.get('inferText', '') + "\n"

        return full_text.strip()

    def find_matching_building(self, ocr_building_name: str, ocr_address: str) -> Optional[str]:
        """OCR로 추출한 정보와 매칭되는 기존 빌딩 찾기"""

        best_match = None
        best_score = 0

        print(f"  매칭 시도: {ocr_building_name}, {ocr_address}")

        for building_key, existing_address in self.building_addresses.items():
            if not building_key.startswith(f"{self.selected_company}_"):
                continue

            existing_building_name = building_key.replace(f"{self.selected_company}_", "")

            # 주소 유사도 계산
            address_score = 0
            if ocr_address and existing_address:
                address_score = self.address_matcher.calculate_similarity(ocr_address, existing_address)

            # 빌딩명 유사도 계산
            name_score = fuzz.ratio(ocr_building_name, existing_building_name)

            # Claude API로 정밀 매칭 (높은 점수일 때만)
            if address_score > 60 or name_score > 70:
                claude_result = self.address_matcher.match_with_claude(
                    ocr_address, existing_address,
                    ocr_building_name, existing_building_name
                )

                if claude_result.get('is_same'):
                    total_score = claude_result.get('confidence', 0)
                    print(f"    Claude 매칭: {existing_building_name} (신뢰도: {total_score})")
                else:
                    # 가중 평균
                    total_score = (address_score * 0.6) + (name_score * 0.4)
            else:
                total_score = (address_score * 0.6) + (name_score * 0.4)

            if total_score > best_score and total_score > 65:  # 최소 임계값
                best_score = total_score
                best_match = existing_building_name
                print(f"    후보: {existing_building_name} (점수: {total_score:.1f})")

        if best_match:
            print(f"  ✓ 최종 매칭: {best_match} (점수: {best_score:.1f})")
        else:
            print(f"  ✗ 매칭 실패")

        return best_match

    def analyze_with_ai(self, ocr_text: str, image_filename: str) -> Dict:
        """AI를 사용하여 텍스트 분석 (개선된 버전)"""
        print(f"  AI 분석 중: {image_filename}")

        # 이미지별로 개별 빌딩명 추출
        building_name = self.text_analyzer.extract_building_name_from_image(ocr_text, image_filename)
        address = self.text_analyzer.extract_address_from_ocr(ocr_text)
        vacancy_info = self.text_analyzer.extract_vacancy_info(ocr_text)

        prompt = f"""
        {self.selected_company} 회사의 부동산 임대 안내문을 분석합니다.

        이미지 파일명: {image_filename}

        텍스트에서 추출된 정보:
        - 빌딩명 후보: {building_name}
        - 주소 후보: {address or '없음'}
        - 공실 정보: {len(vacancy_info)}개

        OCR 텍스트 (일부):
        {ocr_text[:1500]}

        다음을 정확히 추출해주세요:
        1. 빌딩명 (회사명 제외, 지역명만 있으면 그대로 사용)
        2. 주소 (도로명 또는 지번 주소)
        3. 각 층별 공실 정보

        JSON 형식으로 응답:
        {{
            "building_info": {{
                "출처회사": "{self.selected_company}",
                "빌딩명": "추출된 빌딩명",
                "주소": "추출된 주소",
                "인근역": "",
                "빌딩규모": ""
            }},
            "vacancy_info": [
                {{
                    "공실층": "층 정보",
                    "면적": "면적 정보",
                    "임대료": "",
                    "관리비": ""
                }}
            ],
            "confidence": {{
                "score": 85
            }}
        }}
        """

        try:
            if self.api_type == "claude":
                response = self.anthropic.messages.create(
                    model=self.model,
                    max_tokens=4000,
                    temperature=0,
                    messages=[{"role": "user", "content": prompt}]
                )
                result_text = response.content[0].text
            else:
                response = openai.ChatCompletion.create(
                    model=self.model,
                    messages=[{"role": "user", "content": prompt}],
                    temperature=0,
                    max_tokens=4000
                )
                result_text = response.choices[0].message.content

            # JSON 추출
            json_match = re.search(r'```json\s*(.*?)\s*```', result_text, re.DOTALL)
            if json_match:
                json_str = json_match.group(1)
            else:
                json_str = result_text

            result = json.loads(json_str)

            # 빌딩명과 주소 확정
            if 'building_info' in result:
                if not result['building_info'].get('빌딩명'):
                    result['building_info']['빌딩명'] = building_name
                if not result['building_info'].get('주소') and address:
                    result['building_info']['주소'] = address

                # 기존 빌딩과 매칭
                extracted_building = result['building_info'].get('빌딩명', '')
                extracted_address = result['building_info'].get('주소', '')

                matched_building = self.find_matching_building(extracted_building, extracted_address)

                if matched_building:
                    # 매칭된 빌딩으로 교체
                    result['building_info']['빌딩명'] = matched_building
                    result['building_info']['matched'] = True
                    print(f"  → 매칭 성공: {matched_building}")
                else:
                    result['building_info']['matched'] = False
                    print(f"  → 새 빌딩: {extracted_building}")

                # OCR에서 발견된 빌딩 추적
                final_building_name = result['building_info']['빌딩명']
                self.status_changes['ocr_found_buildings'].add(f"{self.selected_company}_{final_building_name}")

            # 공실 정보 추가
            if not result.get('vacancy_info') and vacancy_info:
                result['vacancy_info'] = vacancy_info

            # 이미지 파일명 추가
            if 'building_info' in result:
                result['building_info']['이미지파일'] = [image_filename]

            for vacancy in result.get('vacancy_info', []):
                vacancy['이미지파일'] = [image_filename]
                vacancy['출처회사'] = self.selected_company
                vacancy['빌딩명'] = result['building_info'].get('빌딩명', '')

            return result

        except Exception as e:
            print(f"  AI 분석 오류: {str(e)[:100]}...")

            # 폴백: 기본 정보 생성
            return {
                "building_info": {
                    "출처회사": self.selected_company,
                    "빌딩명": building_name,
                    "주소": address or "",
                    "이미지파일": [image_filename],
                    "matched": False
                },
                "vacancy_info": vacancy_info,
                "confidence": {"score": 50}
            }

    def update_building_with_vacancy_comparison(self, existing_data: Dict, new_data: Dict, building_name: str) -> Dict:
        """공실 정보 비교 후 업데이트"""
        company = self.selected_company

        # 기존 공실 정보 수집
        existing_vacancies = []
        for item in existing_data['buildings']:
            if ('공실층' in item and
                item.get('출처회사') == company and
                item.get('빌딩명') == building_name):
                existing_vacancies.append(item)

        # 새 공실 정보
        new_vacancies = new_data.get('vacancy_info', [])

        # 공실 비교
        changes = self.vacancy_comparator.compare_vacancies(existing_vacancies, new_vacancies)

        # 변경사항 저장
        self.status_changes['vacancy_changes'][building_name] = changes

        # 빌딩 정보 업데이트
        if new_data.get('building_info'):
            for i, item in enumerate(existing_data['buildings']):
                if ('공실층' not in item and
                    item.get('출처회사') == company and
                    item.get('빌딩명') == building_name):
                    # 기본 정보 업데이트
                    existing_data['buildings'][i].update(new_data['building_info'])
                    existing_data['buildings'][i]['last_updated'] = datetime.now().isoformat()
                    existing_data['buildings'][i]['status'] = 'active'

                    # 공실 변경 통계 추가
                    existing_data['buildings'][i]['vacancy_stats'] = {
                        'added': len(changes['added']),
                        'removed': len(changes['removed']),
                        'total': len(new_vacancies)
                    }
                    break

        # 기존 공실 제거
        new_buildings = []
        for item in existing_data['buildings']:
            if not ('공실층' in item and
                   item.get('출처회사') == company and
                   item.get('빌딩명') == building_name):
                new_buildings.append(item)
        existing_data['buildings'] = new_buildings

        # 새 공실 추가
        for vacancy in new_vacancies:
            vacancy_record = vacancy.copy()
            vacancy_record['id'] = str(uuid.uuid4())
            vacancy_record['빌딩명'] = building_name
            vacancy_record['출처회사'] = company
            vacancy_record['status'] = 'active'
            vacancy_record['created_at'] = datetime.now().isoformat()
            existing_data['buildings'].append(vacancy_record)

        print(f"    공실 변경: +{len(changes['added'])} -{len(changes['removed'])} ={len(new_vacancies)}")

        return existing_data

    def process_images_auto(self, image_files: Dict[str, bytes], existing_data: Dict) -> Dict:
        """이미지 자동 처리"""
        print(f"\n=== 자동 처리 시작 ===")
        print(f"총 {len(image_files)}개 이미지\n")

        # 1단계: OCR 및 AI 분석
        print("1단계: OCR 및 텍스트 분석")
        self.pending_changes = []
        self.status_changes['ocr_raw_texts'] = {}
        self.status_changes['ocr_found_buildings'] = set()

        processed_count = 0

        for i, (filename, content) in enumerate(image_files.items()):
            print(f"\n[{i+1}/{len(image_files)}] {filename}")

            temp_path = f"/content/temp_{filename}"
            with open(temp_path, 'wb') as f:
                f.write(content)

            try:
                # OCR 처리
                ocr_result = self.call_clova_ocr(temp_path)
                if ocr_result:
                    ocr_text = self.extract_text_from_clova(ocr_result)
                    self.status_changes['ocr_raw_texts'][filename] = ocr_text

                    if len(ocr_text.strip()) > 50:
                        # AI 분석 (이미지별 개별 처리)
                        ai_result = self.analyze_with_ai(ocr_text, filename)

                        if ai_result:
                            self.pending_changes.append({
                                'image_filename': filename,
                                'ocr_result': ai_result,
                                'confidence_score': ai_result.get('confidence', {}).get('score', 70),
                                'action': 'process'
                            })
                            processed_count += 1
                            print(f"  ✓ 완료")
                        else:
                            print(f"  ✗ AI 분석 실패")
                    else:
                        print(f"  - 텍스트 부족")
                else:
                    print(f"  ✗ OCR 실패")

            except Exception as e:
                print(f"  ✗ 오류: {str(e)[:50]}")
                traceback.print_exc()

            finally:
                if os.path.exists(temp_path):
                    os.remove(temp_path)

        print(f"\n분석 완료: {processed_count}개 처리")

        # 2단계: 변경사항 적용
        print("\n2단계: 변경사항 적용...")

        changes_summary = {
            'added_buildings': [],
            'updated_buildings': [],
            'total_vacancies_added': 0,
            'total_vacancies_removed': 0
        }

        for preview in self.pending_changes:
            if preview['confidence_score'] < self.confidence_threshold:
                self.low_confidence_report.append(preview)
                continue

            ocr_result = preview['ocr_result']
            building_name = ocr_result.get('building_info', {}).get('빌딩명', '')

            if not building_name:
                continue

            # 기존 빌딩 확인
            existing_key = f"{self.selected_company}_{building_name}"

            if existing_key in self.existing_buildings:
                # 기존 빌딩 업데이트 (공실 비교 포함)
                existing_data = self.update_building_with_vacancy_comparison(
                    existing_data, ocr_result, building_name
                )
                changes_summary['updated_buildings'].append(building_name)
            else:
                # 새 빌딩 추가
                existing_data = self.add_new_building(existing_data, ocr_result)
                changes_summary['added_buildings'].append(building_name)

            # 공실 통계
            vacancy_changes = self.status_changes['vacancy_changes'].get(building_name, {})
            if vacancy_changes:
                changes_summary['total_vacancies_added'] += len(vacancy_changes.get('added', []))
                changes_summary['total_vacancies_removed'] += len(vacancy_changes.get('removed', []))

        # 3단계: 상태 업데이트
        if not self.skip_verification:
            print("\n3단계: 빌딩 상태 업데이트...")
            existing_data = self.update_building_status(existing_data)

        # 결과 출력
        print("\n=== 자동 처리 완료 ===")
        print(f"- 새로 추가된 빌딩: {len(changes_summary['added_buildings'])}개")
        for b in changes_summary['added_buildings'][:10]:
            print(f"  ✓ {b}")

        print(f"- 업데이트된 빌딩: {len(changes_summary['updated_buildings'])}개")
        for b in changes_summary['updated_buildings'][:10]:
            print(f"  ✓ {b}")

        print(f"- 추가된 공실: {changes_summary['total_vacancies_added']}개")
        print(f"- 제거된 공실: {changes_summary['total_vacancies_removed']}개")
        print(f"- 낮은 신뢰도로 건너뛴 항목: {len(self.low_confidence_report)}개")

        # 상태 요약
        self.display_status_summary()

        return existing_data

    def update_building_status(self, data: Dict) -> Dict:
        """빌딩 상태 업데이트"""
        print("\n=== 빌딩 상태 업데이트 ===")

        if self.skip_verification:
            print("검증 생략 모드")
            return data

        current_time = datetime.now().isoformat()

        # 회사 빌딩 추출
        company_buildings = []
        for item in data['buildings']:
            if item.get('출처회사') == self.selected_company and '공실층' not in item:
                company_buildings.append(item)

        print(f"{len(company_buildings)}개 빌딩 검증...")

        # OCR에서 발견된 빌딩 목록
        ocr_found_keys = self.status_changes.get('ocr_found_buildings', set())
        print(f"  OCR에서 발견: {len(ocr_found_keys)}개 빌딩")

        # 상태 업데이트
        for item in data['buildings']:
            if item.get('출처회사') != self.selected_company or '공실층' in item:
                continue

            building_name = item.get('빌딩명', '')
            if not building_name:
                continue

            building_key = f"{self.selected_company}_{building_name}"
            current_status = item.get('status', 'active')

            # OCR에서 발견된 빌딩은 활성화
            if building_key in ocr_found_keys:
                if current_status == 'inactive':
                    item['status'] = 'active'
                    item['reactivated_at'] = current_time
                    self.status_changes['reactivated_buildings'].append({
                        'building_name': building_name,
                        'company': self.selected_company
                    })
                    print(f"  [재활성화] {building_name}")
                else:
                    print(f"  [유지-활성] {building_name}")
            # OCR에서 발견되지 않은 빌딩은 비활성화
            elif current_status == 'active':
                item['status'] = 'inactive'
                item['deactivated_at'] = current_time
                self.status_changes['deactivated_buildings'].append({
                    'building_name': building_name,
                    'company': self.selected_company
                })
                print(f"  [비활성화] {building_name}")

        print(f"  - 재활성화: {len(self.status_changes['reactivated_buildings'])}개")
        print(f"  - 비활성화: {len(self.status_changes['deactivated_buildings'])}개")

        return data

    def add_new_building(self, data: Dict, new_data: Dict) -> Dict:
        """새 빌딩 추가"""
        if 'buildings' not in data:
            data['buildings'] = []

        if new_data.get('building_info'):
            building_info = new_data['building_info'].copy()
            building_info['created_at'] = datetime.now().isoformat()
            building_info['status'] = 'active'
            building_info['id'] = str(uuid.uuid4())
            data['buildings'].append(building_info)

        for vacancy in new_data.get('vacancy_info', []):
            vacancy_record = vacancy.copy()
            vacancy_record['id'] = str(uuid.uuid4())
            vacancy_record['status'] = 'active'
            vacancy_record['빌딩명'] = new_data['building_info'].get('빌딩명', '')
            vacancy_record['출처회사'] = self.selected_company
            data['buildings'].append(vacancy_record)

        return data

    def display_status_summary(self):
        """상태 변경 요약 표시"""
        print("\n" + "="*70)
        print(" 📊 상태 변경 통계 ")
        print("="*70)

        if self.status_changes.get('reactivated_buildings'):
            print(f"\n🟢 재활성화된 빌딩: {len(self.status_changes['reactivated_buildings'])}개")
            for item in self.status_changes['reactivated_buildings'][:10]:
                print(f"   - {item['building_name']} ({item['company']})")

        if self.status_changes.get('deactivated_buildings'):
            print(f"\n🔴 비활성화된 빌딩: {len(self.status_changes['deactivated_buildings'])}개")
            for item in self.status_changes['deactivated_buildings'][:10]:
                print(f"   - {item['building_name']} ({item['company']})")

        # 공실 변경 요약
        if self.status_changes.get('vacancy_changes'):
            print(f"\n📋 공실 변경 내역:")
            for building, changes in self.status_changes['vacancy_changes'].items():
                if changes['added'] or changes['removed']:
                    print(f"   - {building}: +{len(changes['added'])} -{len(changes['removed'])}")

        print("\n" + "-"*70)

    def save_final_json(self, data: Dict):
        """최종 JSON 저장"""
        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
        filename = f'updated_data_{timestamp}.json'

        with open(filename, 'w', encoding='utf-8') as f:
            json.dump(data, f, ensure_ascii=False, indent=2)

        print(f"\n최종 JSON 파일 저장: {filename}")
        files.download(filename)

        if USE_GDRIVE:
            gdrive_path = os.path.join(self.session_folder, filename)
            shutil.copy(filename, gdrive_path)
            print(f"Google Drive 저장: {gdrive_path}")


# 메인 실행 함수
def main():
    print("=== 부동산 정보 OCR 자동 업데이트 시스템 (주소 매칭 버전) ===\n")

    # 1. JSON 파일 업로드
    print("1. 기존 JSON 파일을 업로드하세요:")
    json_uploaded = files.upload()

    if not json_uploaded:
        print("오류: JSON 파일이 필요합니다.")
        return

    existing_data = {}
    for filename, content in json_uploaded.items():
        if filename.endswith('.json'):
            try:
                existing_data = json.loads(content.decode('utf-8'))
                print(f"JSON 파일 로드 완료: {filename}")
                break
            except Exception as e:
                print(f"JSON 파일 오류: {e}")
                return

    # 2. API 설정
    print("\n2. API 설정")

    CLOVA_URL = "https://udyjlpz3sk.apigw.ntruss.com/custom/v1/43485/ecd089a66d38ed12bf81bd9131be6cad3dd220fafe8f5832ab4055db3dbb5cf7/general"
    CLOVA_KEY = "bElLV2FFYm9XY3JrSG5QQVRXR0pWR0dsZGptVEdHUW4="

    print("사용할 AI API:")
    print("1. Claude API")
    print("2. OpenAI API")

    api_choice = input("선택 (1/2) [기본값: 1]: ").strip() or "1"

    if api_choice == "1":
        api_type = "claude"
        api_key = input("Claude API Key: ").strip()
        if not api_key:
            print("오류: API 키가 필요합니다.")
            return
        selected_model = "claude-3-haiku-20240307"
    else:
        api_type = "openai"
        api_key = input("OpenAI API Key: ").strip()
        if not api_key:
            print("오류: API 키가 필요합니다.")
            return
        selected_model = "gpt-4"

    # 프로세서 생성
    processor = SmartRealEstateOCRProcessor(
        CLOVA_URL, CLOVA_KEY, api_key, api_type, selected_model
    )

    # JSON 분석
    processor.analyze_existing_json(existing_data)

    # 3. 회사 선택
    print("\n3. 처리할 회사를 선택하세요:")
    companies = sorted(list(processor.existing_companies))

    for i, company in enumerate(companies, 1):
        print(f"{i}. {company}")

    choice = input(f"선택 (1-{len(companies)}): ").strip()

    try:
        selected_company = companies[int(choice) - 1]
    except:
        selected_company = companies[0] if companies else "HANHWA"

    print(f"선택된 회사: {selected_company}")
    processor.selected_company = selected_company

    # 4. 처리 모드
    print("\n4. 처리 모드:")
    print("1. 빠른 처리 (검증 생략)")
    print("2. 기본 처리 (주소 매칭 및 검증)")

    mode_choice = input("선택 (1/2) [기본값: 2]: ").strip() or "2"

    if mode_choice == "1":
        processor.skip_verification = True
        print("빠른 처리 모드 선택")
    else:
        processor.skip_verification = False
        print("기본 처리 모드 선택 (주소 매칭 활성화)")

    # 5. 이미지 업로드
    print(f"\n5. {selected_company} 회사의 이미지를 업로드하세요:")
    uploaded_images = files.upload()

    if not uploaded_images:
        print("오류: 이미지가 없습니다.")
        return

    image_files = {}
    for filename, content in uploaded_images.items():
        if filename.lower().endswith(('.png', '.jpg', '.jpeg')):
            image_files[filename] = content

    print(f"{len(image_files)}개 이미지 발견")

    # 6. 처리 실행
    print("\n6. 처리를 시작합니다...")
    updated_data = processor.process_images_auto(image_files, existing_data)

    # 7. 저장
    processor.save_final_json(updated_data)

    print("\n✓ 완료되었습니다!")

if __name__ == "__main__":
    main()

필요한 패키지를 설치합니다...
패키지 설치 완료!
Google Drive를 마운트합니다...
Mounted at /content/drive
Google Drive 마운트 성공!
Google Drive 작업 폴더: /content/drive/MyDrive/OCR_Processing
=== 부동산 정보 OCR 자동 업데이트 시스템 (주소 매칭 버전) ===

1. 기존 JSON 파일을 업로드하세요:


Saving excel_data.json to excel_data.json
JSON 파일 로드 완료: excel_data.json

2. API 설정
사용할 AI API:
1. Claude API
2. OpenAI API
선택 (1/2) [기본값: 1]: 1
Claude API Key: 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
세션 폴더: /content/drive/MyDrive/OCR_Processing/20250818_021536
API: claude, 모델: claude-3-haiku-20240307

=== 기존 JSON 파일 분석 중 ===
- 총 빌딩 수: 3154 (활성: 2694, 비활성: 460)
- 총 공실 수: 8478
- 발견된 회사: SMPMC, LOTTE, MOVE, COL, ACT, 세아, GM, IFC, ERA, S1, SVS, PLANET, CW, SYA, KYOWON, JLL, HANHWA, RS, KYOBO, KT&G, CBRE, HDC, MIRAE

3. 처리할 회사를 선택하세요:
1. ACT
2. CBRE
3. COL
4. CW
5. ERA
6. GM
7. HANHWA
8. HDC
9. IFC
10. JLL
11. KT&G
12. KYOBO
13. KYOWON
14. LOTTE
15. MIRAE
16. MOVE
17. PLANET
18. RS
19. S1
20. SMPMC
21. SVS
22. SYA
23. 세아
선택 (1-23): 15
선택된 회사: MIRAE

4. 처리 모드:
1. 빠른 처리 (검증 생략)
2. 기본 처리 (주소 매칭 및 검증)
선택 (1/2) [기본값: 2]: 2
기본 처리 모드 선택 (주소 매칭 활성화)

5. MIRAE 회사의 이미지를 업로드하세요:


Saving MIRAE_페이지_002.png to MIRAE_페이지_002.png
Saving MIRAE_페이지_003.png to MIRAE_페이지_003.png
Saving MIRAE_페이지_004.png to MIRAE_페이지_004.png
Saving MIRAE_페이지_005.png to MIRAE_페이지_005.png
Saving MIRAE_페이지_006.png to MIRAE_페이지_006.png
Saving MIRAE_페이지_007.png to MIRAE_페이지_007.png
Saving MIRAE_페이지_008.png to MIRAE_페이지_008.png
Saving MIRAE_페이지_009.png to MIRAE_페이지_009.png
Saving MIRAE_페이지_010.png to MIRAE_페이지_010.png
Saving MIRAE_페이지_011.png to MIRAE_페이지_011.png
Saving MIRAE_페이지_012.png to MIRAE_페이지_012.png
Saving MIRAE_페이지_013.png to MIRAE_페이지_013.png
Saving MIRAE_페이지_014.png to MIRAE_페이지_014.png
Saving MIRAE_페이지_015.png to MIRAE_페이지_015.png
Saving MIRAE_페이지_016.png to MIRAE_페이지_016.png
Saving MIRAE_페이지_017.png to MIRAE_페이지_017.png
Saving MIRAE_페이지_018.png to MIRAE_페이지_018.png
Saving MIRAE_페이지_019.png to MIRAE_페이지_019.png
Saving MIRAE_페이지_020.png to MIRAE_페이지_020.png
Saving MIRAE_페이지_021.png to MIRAE_페이지_021.png
Saving MIRAE_페이지_022.png to MIRAE_페이지_022.png
Saving MIRAE_페이지_023.png to MIRAE_

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Google Drive 저장: /content/drive/MyDrive/OCR_Processing/20250818_021536/updated_data_20250818_024318.json

✓ 완료되었습니다!
