# 🏢 기업 사옥 이전 예측 데이터 수집 (최종버전)

모든 함수가 정상 작동하는 완전한 버전

In [None]:
# 필요한 패키지 설치 및 로드
!pip install requests beautifulsoup4 pandas python-dotenv

import requests
import json
import time
from datetime import datetime, timedelta
import re
from typing import Dict, List, Optional
import pandas as pd

print("🚀 패키지 로드 완료!")

In [None]:
# API 키 설정
API_KEYS = {
    'naver_client_id': 'MRrqB4usbuuk9uuXzZDM',
    'naver_client_secret': 'Yoionk4bGp',
    'naver_blog_client_id': '7kbgK3Fi__DX0_cnJOEp',
    'naver_blog_client_secret': 'QyfsHO2dIk',
    'google_api_key': 'AIzaSyBNDjMJqJnzpJKc3Hnfq2yh40UTkWPFmJU',
    'google_search_engine_id': '0623a984354754d30',
    'dart_api_key': '416dbd4f88fd71c98204eec5b5502a4daf8045cd'
}

print("🔑 API 키 설정 완료!")
print(f"설정된 API: {list(API_KEYS.keys())}")

In [None]:
# 보조 함수들 정의
def test_naver_search(company='네이버'):
    """네이버 검색 API 테스트"""
    print(f"🔍 네이버 뉴스 검색: {company}")
    
    try:
        url = "https://openapi.naver.com/v1/search/news.json"
        headers = {
            'X-Naver-Client-Id': API_KEYS['naver_client_id'],
            'X-Naver-Client-Secret': API_KEYS['naver_client_secret']
        }
        
        keywords = [
            f'{company} 사옥 이전',
            f'{company} 새 본사',
            f'{company} 신사옥',
            f'{company} 오피스 이전'
        ]
        
        all_results = []
        
        for keyword in keywords:
            params = {
                'query': keyword,
                'display': 5,
                'start': 1,
                'sort': 'date'
            }
            
            response = requests.get(url, headers=headers, params=params)
            if response.status_code == 200:
                data = response.json()
                items = data.get('items', [])
                
                for item in items:
                    item['search_keyword'] = keyword
                    if not any(existing['link'] == item['link'] for existing in all_results):
                        all_results.append(item)
            
            time.sleep(0.1)
        
        print(f"   ✅ {len(all_results)}개 뉴스 발견")
        return all_results
        
    except Exception as e:
        print(f"   ❌ 오류: {e}")
        return []

print("📝 네이버 검색 함수 정의 완료")

In [None]:
def test_dart_api_fixed(company='네이버'):
    """DART API 테스트 (3개월 제한)"""
    print(f"📊 DART 공시 검색: {company}")
    
    try:
        url = "https://opendart.fss.or.kr/api/list.json"
        
        end_date = datetime.now()
        start_date = end_date - timedelta(days=90)
        
        params = {
            'crtfc_key': API_KEYS['dart_api_key'],
            'corp_name': company,
            'bgn_de': start_date.strftime('%Y%m%d'),
            'end_de': end_date.strftime('%Y%m%d'),
            'page_no': 1,
            'page_count': 20
        }
        
        response = requests.get(url, params=params)
        if response.status_code == 200:
            data = response.json()
            
            if data.get('status') == '000':
                items = data.get('list', [])
                
                office_keywords = ['사옥', '본사', '이전', '임대', '부동산', '시설투자', '건물', '오피스', '사무실']
                office_related = []
                
                for item in items:
                    report_name = item.get('report_nm', '').lower()
                    for keyword in office_keywords:
                        if keyword in report_name:
                            office_related.append(item)
                            break
                
                print(f"   ✅ 전체 {len(items)}개, 사옥관련 {len(office_related)}개")
                
                return {
                    'total': items,
                    'office_related': office_related,
                    'count': len(items),
                    'office_count': len(office_related)
                }
            else:
                print(f"   ⚠️ 상태: {data.get('status')} - {data.get('message', '')}")
                return {'total': [], 'office_related': [], 'count': 0, 'office_count': 0}
        else:
            print(f"   ❌ HTTP 오류: {response.status_code}")
            return {'total': [], 'office_related': [], 'count': 0, 'office_count': 0}
        
    except Exception as e:
        print(f"   ❌ 오류: {e}")
        return {'total': [], 'office_related': [], 'count': 0, 'office_count': 0}

print("📊 DART API 함수 정의 완료")

In [None]:
def calculate_risk_score(news_data, google_data, dart_data):
    """위험도 점수 계산"""
    score = 0
    
    # 뉴스 기반 점수 (최대 40점)
    score += min(len(news_data) * 3, 40)
    
    # 구글 검색 결과 점수 (최대 30점)
    score += min(len(google_data) * 2, 30)
    
    # DART 사옥 관련 공시 점수 (최대 30점)
    score += min(dart_data['office_count'] * 10, 30)
    
    return min(score, 100)

def generate_prediction(risk_score, news_data, dart_data):
    """예측 결과 생성"""
    if risk_score >= 70:
        return "고위험 - 6개월 내 이전 가능성 높음"
    elif risk_score >= 40:
        return "중위험 - 1년 내 이전 검토 가능"
    elif risk_score >= 20:
        return "저위험 - 장기적 모니터링 필요"
    else:
        return "최저위험 - 이전 계획 없음"

print("🧮 분석 함수들 정의 완료")

In [None]:
def collect_all_data(company_name):
    """모든 데이터 소스에서 정보 수집 (개선된 버전)"""
    print(f"\n🏢 {company_name} 종합 데이터 수집")
    print("=" * 50)
    
    # 1. 네이버 뉴스 검색
    print("1️⃣ 네이버 뉴스 수집 중...")
    naver_news = test_naver_search(company_name)
    time.sleep(1)
    
    # 2. 구글 검색
    print("\n2️⃣ 구글 검색 수집 중...")
    try:
        url = "https://www.googleapis.com/customsearch/v1"
        params = {
            'key': API_KEYS['google_api_key'],
            'cx': API_KEYS['google_search_engine_id'],
            'q': f'{company_name} 사옥 이전 OR 본사 이전',
            'num': 10
        }
        response = requests.get(url, params=params)
        if response.status_code == 200:
            google_data = response.json().get('items', [])
            print(f"   ✅ {len(google_data)}개 검색결과")
        else:
            google_data = []
            print(f"   ❌ HTTP {response.status_code} 오류")
    except Exception as e:
        google_data = []
        print(f"   ❌ 오류: {e}")
    
    time.sleep(1)
    
    # 3. DART 공시정보
    print("\n3️⃣ DART 공시 수집 중...")
    dart_data = test_dart_api_fixed(company_name)
    time.sleep(1)
    
    # 4. 위험도 점수 계산
    print("\n4️⃣ 위험도 분석 중...")
    risk_score = calculate_risk_score(naver_news, google_data, dart_data)
    
    # 5. 예측 생성
    prediction = generate_prediction(risk_score, naver_news, dart_data)
    
    result = {
        'company': company_name,
        'collection_time': datetime.now().isoformat(),
        'risk_score': risk_score,
        'prediction': prediction,
        'data_counts': {
            'naver_news': len(naver_news),
            'google_results': len(google_data),
            'dart_total': dart_data['count'],
            'dart_office': dart_data['office_count']
        },
        'sample_data': {
            'recent_news': naver_news[:3],
            'dart_reports': dart_data['office_related'][:3]
        }
    }
    
    print(f"\n📊 {company_name} 수집 완료!")
    print("-" * 30)
    print(f"   위험도 점수: {risk_score}/100")
    print(f"   예측 결과: {prediction}")
    print(f"   수집 데이터:")
    print(f"     • 네이버 뉴스: {len(naver_news)}건")
    print(f"     • 구글 검색: {len(google_data)}건") 
    print(f"     • DART 전체: {dart_data['count']}건")
    print(f"     • DART 사옥관련: {dart_data['office_count']}건")
    print("=" * 50)
    
    return result

print("🔧 메인 수집 함수 정의 완료!")
print("\n✅ 모든 함수 준비 완료. 이제 실행할 수 있습니다!")

In [None]:
# 🧪 단일 기업 테스트
print("🧪 단일 기업 테스트 시작")
test_result = collect_all_data('네이버')

print("\n✅ 테스트 성공!")
print(f"반환 데이터 구조: {list(test_result.keys())}")
print(f"위험도: {test_result['risk_score']}/100")

In [None]:
# 🚀 전체 기업 데이터 수집
target_companies = ['네이버', '카카오', '쿠팡', '하이브', '크래프톤', '삼성전자', 'LG화학']
final_results = []

print("🚀 전체 데이터 수집 시작!")
print(f"대상 기업: {', '.join(target_companies)}")
print("=" * 60)

for i, company in enumerate(target_companies, 1):
    try:
        print(f"\n[{i}/{len(target_companies)}] {company} 처리 중...")
        result = collect_all_data(company)
        final_results.append(result)
        
        # 진행률 표시
        progress = (i / len(target_companies)) * 100
        print(f"\n📈 전체 진행률: {progress:.1f}% ({i}/{len(target_companies)})")
        
    except Exception as e:
        print(f"❌ {company} 처리 실패: {e}")
    
    # API 호출 제한 고려
    if i < len(target_companies):
        print("⏳ 3초 대기 중...")
        time.sleep(3)

print(f"\n🎉 전체 수집 완료! {len(final_results)}개 기업 데이터 수집")

In [None]:
# 📊 결과 분석 및 시각화
import pandas as pd

# DataFrame 생성
summary_data = []
for result in final_results:
    summary_data.append({
        '기업명': result['company'],
        '위험도점수': result['risk_score'],
        '예측결과': result['prediction'],
        '뉴스건수': result['data_counts']['naver_news'],
        '구글검색': result['data_counts']['google_results'],
        'DART공시': result['data_counts']['dart_office'],
        '수집시간': result['collection_time'][:16]
    })

df = pd.DataFrame(summary_data)
df_sorted = df.sort_values('위험도점수', ascending=False)

print("📊 최종 수집 결과 요약:")
print("=" * 80)
print(df_sorted.to_string(index=False))

# 위험도 분포 계산
high_risk = len(df[df['위험도점수'] >= 70])
medium_risk = len(df[(df['위험도점수'] >= 40) & (df['위험도점수'] < 70)])
low_risk = len(df[df['위험도점수'] < 40])

print(f"\n📈 위험도 분포 분석:")
print(f"   🔴 고위험 (70점 이상): {high_risk}개 기업")
print(f"   🟡 중위험 (40-69점): {medium_risk}개 기업")
print(f"   🟢 저위험 (40점 미만): {low_risk}개 기업")

# 상위 3개 기업 상세 정보
print(f"\n🏆 위험도 상위 3개 기업:")
for i, row in df_sorted.head(3).iterrows():
    print(f"   {row['기업명']}: {row['위험도점수']}점 - {row['예측결과']}")

In [None]:
# 💾 최종 결과 저장
# 대시보드용 JSON 생성
dashboard_data = {
    'metadata': {
        'collection_date': datetime.now().isoformat(),
        'total_companies': len(final_results),
        'high_risk_count': high_risk,
        'medium_risk_count': medium_risk,
        'low_risk_count': low_risk,
        'api_sources': ['네이버뉴스', '구글검색', 'DART공시']
    },
    'companies': final_results
}

# 전체 데이터 저장
with open('office_relocation_predictions_final.json', 'w', encoding='utf-8') as f:
    json.dump(dashboard_data, f, ensure_ascii=False, indent=2)

print("💾 결과 저장 완료:")
print("   📁 'office_relocation_predictions_final.json' - 전체 데이터")

# 대시보드용 요약 데이터
dashboard_summary = {
    'summary': {
        'collection_date': datetime.now().strftime('%Y-%m-%d %H:%M'),
        'total_companies': len(final_results),
        'risk_distribution': {
            'high': high_risk,
            'medium': medium_risk,
            'low': low_risk
        },
        'data_sources': {
            'naver_news_total': sum(r['data_counts']['naver_news'] for r in final_results),
            'google_results_total': sum(r['data_counts']['google_results'] for r in final_results),
            'dart_reports_total': sum(r['data_counts']['dart_office'] for r in final_results)
        }
    },
    'companies': [{
        'name': r['company'],
        'risk_score': r['risk_score'],
        'prediction': r['prediction'],
        'data_counts': r['data_counts'],
        'last_update': r['collection_time']
    } for r in sorted(final_results, key=lambda x: x['risk_score'], reverse=True)]
}

with open('dashboard_data.json', 'w', encoding='utf-8') as f:
    json.dump(dashboard_summary, f, ensure_ascii=False, indent=2)

print("   📋 'dashboard_data.json' - 대시보드용 요약")

print("\n🎯 데이터 수집 및 분석 완료!")
print("\n📥 다음 단계:")
print("   1. 생성된 JSON 파일들을 다운로드")
print("   2. GitHub 리포지토리에 업로드")
print("   3. 대시보드에서 실제 데이터로 테스트")
print("   4. Firebase 연결 (선택사항)")

print(f"\n✅ 총 {len(final_results)}개 기업의 사옥 이전 예측 데이터가 준비되었습니다!")