# 🏢 기업 사옥 이전 예측 데이터 수집

Google Colab에서 실행 가능한 데이터 수집 스크립트

In [None]:
# 필요한 패키지 설치
!pip install requests beautifulsoup4 pandas python-dotenv

In [None]:
import requests
import json
import time
from datetime import datetime, timedelta
import re
from typing import Dict, List, Optional
import pandas as pd

print("🚀 패키지 로드 완료!")

In [None]:
# API 키 설정
API_KEYS = {
    'naver_client_id': 'MRrqB4usbuuk9uuXzZDM',
    'naver_client_secret': 'Yoionk4bGp',
    'naver_blog_client_id': '7kbgK3Fi__DX0_cnJOEp',
    'naver_blog_client_secret': 'QyfsHO2dIk',
    'google_api_key': 'AIzaSyBNDjMJqJnzpJKc3Hnfq2yh40UTkWPFmJU',
    'google_search_engine_id': '0623a984354754d30',
    'dart_api_key': '416dbd4f88fd71c98204eec5b5502a4daf8045cd'
}

print("🔑 API 키 설정 완료!")

In [None]:
def test_naver_search(company='네이버'):
    """네이버 검색 API 테스트"""
    print(f"🔍 네이버 검색 API 테스트: {company}...")
    
    try:
        url = "https://openapi.naver.com/v1/search/news.json"
        headers = {
            'X-Naver-Client-Id': API_KEYS['naver_client_id'],
            'X-Naver-Client-Secret': API_KEYS['naver_client_secret']
        }
        params = {
            'query': f'{company} 사옥 이전',
            'display': 5,
            'start': 1,
            'sort': 'date'
        }
        
        response = requests.get(url, headers=headers, params=params)
        response.raise_for_status()
        
        data = response.json()
        print(f"✅ 성공! {len(data.get('items', []))}개 결과 조회")
        
        if data.get('items'):
            print(f"   첫 번째 결과: {data['items'][0]['title'][:50]}...")
            
        return data.get('items', [])
        
    except Exception as e:
        print(f"❌ 실패: {e}")
        return []

# 테스트 실행
news_results = test_naver_search('네이버')
print(f"\n📊 수집된 뉴스: {len(news_results)}건")

In [None]:
def test_google_search(company='네이버'):
    """구글 검색 API 테스트"""
    print(f"🌐 구글 검색 API 테스트: {company}...")
    
    try:
        url = "https://www.googleapis.com/customsearch/v1"
        params = {
            'key': API_KEYS['google_api_key'],
            'cx': API_KEYS['google_search_engine_id'],
            'q': f'{company} 사옥 이전',
            'num': 5
        }
        
        response = requests.get(url, params=params)
        response.raise_for_status()
        
        data = response.json()
        items = data.get('items', [])
        print(f"✅ 성공! {len(items)}개 결과 조회")
        
        if items:
            print(f"   첫 번째 결과: {items[0]['title'][:50]}...")
            
        return items
        
    except Exception as e:
        print(f"❌ 실패: {e}")
        return []

# 테스트 실행
google_results = test_google_search('카카오')
print(f"\n📊 수집된 구글 검색 결과: {len(google_results)}건")

In [None]:
def test_dart_api(company='네이버'):
    """DART API 테스트"""
    print(f"📊 DART API 테스트: {company}...")
    
    try:
        url = "https://opendart.fss.or.kr/api/list.json"
        params = {
            'crtfc_key': API_KEYS['dart_api_key'],
            'corp_name': company,
            'bgn_de': '20231201',
            'end_de': '20241201',
            'page_no': 1,
            'page_count': 10
        }
        
        response = requests.get(url, params=params)
        response.raise_for_status()
        
        data = response.json()
        
        if data.get('status') == '000':
            items = data.get('list', [])
            print(f"✅ 성공! {len(items)}개 공시 조회")
            
            if items:
                print(f"   첫 번째 공시: {items[0].get('report_nm', 'N/A')[:50]}...")
                
            return items
        else:
            print(f"⚠️ 응답 상태: {data.get('status')} - {data.get('message', '')}")
            return []
        
    except Exception as e:
        print(f"❌ 실패: {e}")
        return []

# 테스트 실행
dart_results = test_dart_api('네이버')
print(f"\n📊 수집된 DART 공시: {len(dart_results)}건")

In [None]:
def collect_company_data(company_name):
    """특정 기업의 모든 데이터 수집"""
    print(f"\n🏢 {company_name} 데이터 수집 시작...")
    print("=" * 50)
    
    # 데이터 수집
    naver_news = test_naver_search(company_name)
    time.sleep(1)  # API 호출 제한 고려
    
    google_results = test_google_search(company_name)
    time.sleep(1)
    
    dart_data = test_dart_api(company_name)
    time.sleep(1)
    
    # 위험도 점수 계산 (간단한 버전)
    risk_score = 0
    
    # 뉴스 기반 점수
    if naver_news:
        risk_score += len(naver_news) * 5
    
    # 구글 검색 결과 기반 점수
    if google_results:
        risk_score += len(google_results) * 3
    
    # DART 공시 기반 점수
    if dart_data:
        risk_score += len(dart_data) * 2
    
    risk_score = min(risk_score, 100)  # 최대 100점
    
    # 결과 정리
    result = {
        'company': company_name,
        'collection_time': datetime.now().isoformat(),
        'risk_score': risk_score,
        'naver_news_count': len(naver_news),
        'google_results_count': len(google_results),
        'dart_reports_count': len(dart_data),
        'naver_news': naver_news[:3],  # 상위 3개만 저장
        'google_results': google_results[:3],
        'dart_reports': dart_data[:3]
    }
    
    print(f"\n📊 {company_name} 수집 완료!")
    print(f"   위험도 점수: {risk_score}/100")
    print(f"   네이버 뉴스: {len(naver_news)}건")
    print(f"   구글 검색: {len(google_results)}건")
    print(f"   DART 공시: {len(dart_data)}건")
    
    return result

In [None]:
# 주요 기업들 데이터 수집
companies = ['네이버', '카카오', '쿠팡', '하이브', '크래프톤']
results = []

for company in companies:
    try:
        result = collect_company_data(company)
        results.append(result)
    except Exception as e:
        print(f"❌ {company} 수집 실패: {e}")
    
    # 다음 기업 수집 전 대기
    time.sleep(2)

print(f"\n🎉 전체 수집 완료! {len(results)}개 기업 데이터 수집")

In [None]:
# 결과를 DataFrame으로 변환하여 시각화
import pandas as pd

df_results = pd.DataFrame([{
    '기업명': r['company'],
    '위험도점수': r['risk_score'],
    '네이버뉴스': r['naver_news_count'],
    '구글검색': r['google_results_count'],
    'DART공시': r['dart_reports_count']
} for r in results])

print("📊 수집 결과 요약:")
print(df_results)

# 위험도 순으로 정렬
df_sorted = df_results.sort_values('위험도점수', ascending=False)
print("\n🚨 위험도 순 정렬:")
print(df_sorted)

In [None]:
# 결과를 JSON 파일로 저장
import json

# 전체 결과 저장
with open('relocation_predictions.json', 'w', encoding='utf-8') as f:
    json.dump(results, f, ensure_ascii=False, indent=2)

print("💾 결과가 'relocation_predictions.json'에 저장되었습니다!")

# 다운로드를 위한 간단한 요약도 생성
summary = {
    'collection_date': datetime.now().isoformat(),
    'total_companies': len(results),
    'high_risk_companies': len([r for r in results if r['risk_score'] >= 50]),
    'companies': [{
        'name': r['company'],
        'risk_score': r['risk_score'],
        'prediction': '고위험' if r['risk_score'] >= 70 else '중위험' if r['risk_score'] >= 40 else '저위험'
    } for r in sorted(results, key=lambda x: x['risk_score'], reverse=True)]
}

with open('summary.json', 'w', encoding='utf-8') as f:
    json.dump(summary, f, ensure_ascii=False, indent=2)

print("📋 요약 결과가 'summary.json'에 저장되었습니다!")
print("\n🎯 수집 완료! 파일을 다운로드하여 대시보드에 업로드하세요.")