# 🏢 기업 사옥 이전 예측 데이터 수집 (수정버전)

DART API 3개월 제한 문제 해결 버전

In [None]:
# 필요한 패키지 설치
!pip install requests beautifulsoup4 pandas python-dotenv
import requests
import json
import time
from datetime import datetime, timedelta
import re
from typing import Dict, List, Optional
import pandas as pd

print("🚀 패키지 로드 완료!")

In [None]:
# API 키 설정
API_KEYS = {
    'naver_client_id': 'MRrqB4usbuuk9uuXzZDM',
    'naver_client_secret': 'Yoionk4bGp',
    'naver_blog_client_id': '7kbgK3Fi__DX0_cnJOEp',
    'naver_blog_client_secret': 'QyfsHO2dIk',
    'google_api_key': 'AIzaSyBNDjMJqJnzpJKc3Hnfq2yh40UTkWPFmJU',
    'google_search_engine_id': '0623a984354754d30',
    'dart_api_key': '416dbd4f88fd71c98204eec5b5502a4daf8045cd'
}

print("🔑 API 키 설정 완료!")

In [None]:
def test_dart_api_fixed(company='네이버'):
    """DART API 테스트 (3개월 제한 적용 및 키워드 필터링)"""
    print(f"📊 DART API 테스트: {company}...")
    
    try:
        url = "https://opendart.fss.or.kr/api/list.json"
        
        # 현재날짜에서 3개월 전으로 설정
        end_date = datetime.now()
        start_date = end_date - timedelta(days=90)  # 3개월
        
        params = {
            'crtfc_key': API_KEYS['dart_api_key'],
            'corp_name': company,
            'bgn_de': start_date.strftime('%Y%m%d'),
            'end_de': end_date.strftime('%Y%m%d'),
            'page_no': 1,
            'page_count': 20
        }
        
        print(f"   검색기간: {start_date.strftime('%Y-%m-%d')} ~ {end_date.strftime('%Y-%m-%d')}")
        
        response = requests.get(url, params=params)
        response.raise_for_status()
        
        data = response.json()
        
        if data.get('status') == '000':
            items = data.get('list', [])
            print(f"✅ 성공! {len(items)}개 공시 조회")
            
            # 사옥/부동산 관련 공시 필터링
            office_keywords = ['사옥', '본사', '이전', '임대', '부동산', '시설투자', '건물', '오피스', '사무실']
            office_related = []
            
            for item in items:
                report_name = item.get('report_nm', '').lower()
                for keyword in office_keywords:
                    if keyword in report_name:
                        office_related.append(item)
                        break
            
            print(f"🏢 사옥 관련 공시: {len(office_related)}건")
            
            if office_related:
                print("   주요 관련 공시:")
                for i, report in enumerate(office_related[:3]):
                    print(f"     {i+1}. {report.get('report_nm', 'N/A')[:50]}...")
            elif items:
                print("   최근 공시 예시:")
                for i, report in enumerate(items[:3]):
                    print(f"     {i+1}. {report.get('report_nm', 'N/A')[:50]}...")
            
            return {
                'total': items,
                'office_related': office_related,
                'count': len(items),
                'office_count': len(office_related)
            }
        else:
            print(f"⚠️ 응답 상태: {data.get('status')} - {data.get('message', '')}")
            return {'total': [], 'office_related': [], 'count': 0, 'office_count': 0}
        
    except Exception as e:
        print(f"❌ 실패: {e}")
        return {'total': [], 'office_related': [], 'count': 0, 'office_count': 0}

# 여러 기업 테스트
companies = ['네이버', '카카오', '삼성전자', '엘지화학', '현대차']
dart_results = {}

for company in companies:
    print(f"\n{'='*40}")
    result = test_dart_api_fixed(company)
    dart_results[company] = result
    time.sleep(1)  # API 제한 고려

print(f"\n🎯 DART 수집 요약:")
for company, result in dart_results.items():
    print(f"   {company}: 전체 {result['count']}건, 사옥관련 {result['office_count']}건")

In [None]:
def test_naver_search(company='네이버'):
    """네이버 검색 API 테스트 (개선된 키워드)"""
    print(f"🔍 네이버 검색 API: {company}...")
    
    try:
        url = "https://openapi.naver.com/v1/search/news.json"
        headers = {
            'X-Naver-Client-Id': API_KEYS['naver_client_id'],
            'X-Naver-Client-Secret': API_KEYS['naver_client_secret']
        }
        
        # 더 다양한 키워드로 검색
        keywords = [
            f'{company} 사옥 이전',
            f'{company} 새 본사',
            f'{company} 신사옥',
            f'{company} 오피스 이전'
        ]
        
        all_results = []
        
        for keyword in keywords:
            params = {
                'query': keyword,
                'display': 5,
                'start': 1,
                'sort': 'date'
            }
            
            response = requests.get(url, headers=headers, params=params)
            response.raise_for_status()
            
            data = response.json()
            items = data.get('items', [])
            
            for item in items:
                item['search_keyword'] = keyword
                # 중복 제거
                if not any(existing['link'] == item['link'] for existing in all_results):
                    all_results.append(item)
            
            time.sleep(0.1)  # API 호출 간격
        
        print(f"✅ 성공! {len(all_results)}개 결과 조회")
        
        if all_results:
            print(f"   최신 뉴스: {all_results[0]['title'][:50]}...")
            
        return all_results
        
    except Exception as e:
        print(f"❌ 실패: {e}")
        return []

# 테스트 실행
test_company = '네이버'
news_results = test_naver_search(test_company)
print(f"\n📊 {test_company} 뉴스 수집: {len(news_results)}건")

In [None]:
def collect_all_data(company_name):
    """모든 데이터 소스에서 정보 수집 (개선된 버전)"""
    print(f"\n🏢 {company_name} 종합 데이터 수집")
    print("=" * 50)
    
    # 1. 네이버 뉴스 검색
    naver_news = test_naver_search(company_name)
    time.sleep(1)
    
    # 2. 구글 검색
    try:
        url = "https://www.googleapis.com/customsearch/v1"
        params = {
            'key': API_KEYS['google_api_key'],
            'cx': API_KEYS['google_search_engine_id'],
            'q': f'{company_name} 사옥 이전 OR 본사 이전',
            'num': 10
        }
        response = requests.get(url, params=params)
        google_data = response.json().get('items', []) if response.status_code == 200 else []
        print(f"🌐 구글 검색: {len(google_data)}건")
    except:
        google_data = []
        print("🌐 구글 검색: API 오류")
    
    time.sleep(1)
    
    # 3. DART 공시정보
    dart_data = test_dart_api_fixed(company_name)
    time.sleep(1)
    
    # 4. 위험도 점수 계산
    risk_score = calculate_risk_score(
        naver_news, google_data, dart_data
    )
    
    # 5. 예측 생성
    prediction = generate_prediction(risk_score, naver_news, dart_data)
    
    result = {
        'company': company_name,
        'collection_time': datetime.now().isoformat(),
        'risk_score': risk_score,
        'prediction': prediction,
        'data_counts': {
            'naver_news': len(naver_news),
            'google_results': len(google_data),
            'dart_total': dart_data['count'],
            'dart_office': dart_data['office_count']
        },
        'sample_data': {
            'recent_news': naver_news[:3],
            'dart_reports': dart_data['office_related'][:3]
        }
    }
    
    print(f"\n📊 {company_name} 수집 완료:")
    print(f"   위험도 점수: {risk_score}/100")
    print(f"   예측: {prediction}")
    print(f"   데이터: 뉴스 {len(naver_news)}건, DART {dart_data['office_count']}건")
    
    return result

def calculate_risk_score(news_data, google_data, dart_data):
    """위험도 점수 계산"""
    score = 0
    
    # 뉴스 기반 점수 (최대 40점)
    score += min(len(news_data) * 3, 40)
    
    # 구글 검색 결과 점수 (최대 30점)
    score += min(len(google_data) * 2, 30)
    
    # DART 사옥 관련 공시 점수 (최대 30점)
    score += min(dart_data['office_count'] * 10, 30)
    
    return min(score, 100)

def generate_prediction(risk_score, news_data, dart_data):
    """예측 결과 생성"""
    if risk_score >= 70:
        return "고위험 - 6개월 내 이전 가능성 높음"
    elif risk_score >= 40:
        return "중위험 - 1년 내 이전 검토 가능"
    elif risk_score >= 20:
        return "저위험 - 장기적 모니터링 필요"
    else:
        return "최저위험 - 이전 계획 없음"

In [None]:
# 주요 기업들 데이터 수집 실행
target_companies = ['네이버', '카카오', '쿠팡', '하이브', '크래프톤', '삼성전자', 'LG화학']
final_results = []

print("🚀 전체 데이터 수집 시작!")
print("=" * 60)

for i, company in enumerate(target_companies, 1):
    try:
        print(f"\n[{i}/{len(target_companies)}] {company} 처리 중...")
        result = collect_all_data(company)
        final_results.append(result)
        
        # 진행률 표시
        progress = (i / len(target_companies)) * 100
        print(f"진행률: {progress:.1f}%")
        
    except Exception as e:
        print(f"❌ {company} 처리 실패: {e}")
    
    # API 호출 제한 고려
    if i < len(target_companies):
        print("⏳ 잠시 대기 중...")
        time.sleep(3)

print(f"\n🎉 전체 수집 완료! {len(final_results)}개 기업 데이터 수집")

In [None]:
# 결과 분석 및 시각화
import pandas as pd

# DataFrame으로 변환
summary_data = []
for result in final_results:
    summary_data.append({
        '기업명': result['company'],
        '위험도점수': result['risk_score'],
        '예측결과': result['prediction'],
        '뉴스건수': result['data_counts']['naver_news'],
        '구글검색': result['data_counts']['google_results'],
        'DART공시': result['data_counts']['dart_office'],
        '수집시간': result['collection_time'][:16]
    })

df = pd.DataFrame(summary_data)
df_sorted = df.sort_values('위험도점수', ascending=False)

print("📊 최종 수집 결과 요약:")
print("=" * 80)
print(df_sorted.to_string(index=False))

# 위험도 분포
high_risk = len(df[df['위험도점수'] >= 70])
medium_risk = len(df[(df['위험도점수'] >= 40) & (df['위험도점수'] < 70)])
low_risk = len(df[df['위험도점수'] < 40])

print(f"\n📈 위험도 분포:")
print(f"   고위험 (70점 이상): {high_risk}개 기업")
print(f"   중위험 (40-69점): {medium_risk}개 기업")
print(f"   저위험 (40점 미만): {low_risk}개 기업")

In [None]:
# 최종 결과 JSON 저장
import json
from datetime import datetime

# 대시보드용 JSON 생성
dashboard_data = {
    'metadata': {
        'collection_date': datetime.now().isoformat(),
        'total_companies': len(final_results),
        'high_risk_count': high_risk,
        'medium_risk_count': medium_risk,
        'low_risk_count': low_risk
    },
    'companies': final_results
}

# JSON 파일 저장
with open('office_relocation_predictions.json', 'w', encoding='utf-8') as f:
    json.dump(dashboard_data, f, ensure_ascii=False, indent=2)

print("💾 결과 저장 완료:")
print("   📁 'office_relocation_predictions.json' - 전체 데이터")

# 요약 버전도 저장
summary_json = {
    'summary': {
        'collection_date': datetime.now().strftime('%Y-%m-%d %H:%M'),
        'total_companies': len(final_results),
        'risk_distribution': {
            'high': high_risk,
            'medium': medium_risk,
            'low': low_risk
        }
    },
    'top_risks': [{
        'company': r['company'],
        'risk_score': r['risk_score'],
        'prediction': r['prediction']
    } for r in sorted(final_results, key=lambda x: x['risk_score'], reverse=True)[:5]]
}

with open('summary.json', 'w', encoding='utf-8') as f:
    json.dump(summary_json, f, ensure_ascii=False, indent=2)

print("   📋 'summary.json' - 요약 데이터")
print("\n🎯 데이터 수집 및 분석 완료!")
print("\n💡 다음 단계:")
print("   1. JSON 파일을 다운로드")
print("   2. GitHub 리포지토리에 업로드")
print("   3. 대시보드에서 실제 데이터 확인")