In [2]:
import pandas as pd

code_data = pd.read_csv('./산업코드_11차.csv')
code_data.head()

Unnamed: 0,산업코드,산업코드명
0,1,농업
1,2,임업
2,3,어업
3,5,"석탄, 원유 및 천연가스 광업"
4,6,금속 광업


In [None]:
import requests
import time
from sqlalchemy import create_engine, text
import pymysql
import pandas as pd

# OpenDART API 인증키
API_KEY = "4643bd437d383b208294914ce72d693589458062"

# DART API 기본 URL
BASE_URL = "https://opendart.fss.or.kr/api/company.json"

# AWS RDS 연결 정보
DB_URL = "mysql+pymysql://root:1234@localhost:3310/stock_db"

# DB 엔진 생성
engine = create_engine(DB_URL)

def fetch_corp_codes():
    query = "SELECT DISTINCT corp_code FROM dart_code"
    with engine.connect() as conn:
        result = conn.execute(text(query))
        corp_codes = [row[0] for row in result.fetchall()]
    return corp_codes

def fetch_overview(corp_code):
    params = {
        "crtfc_key": API_KEY,
        "corp_code": corp_code
    }
    res = requests.get(BASE_URL, params=params)
    if res.status_code == 200 and res.json().get("status") == "013":
        return None  # 존재하지 않는 기업
    return res.json()

def get_industry_name(induty_code):
    try:
        return code_data[code_data['산업코드'] == int(induty_code)]['산업코드명'].values[0]
    except (IndexError, KeyError):
        return ""

def insert_or_update_overview(data):
    # 산업코드명 자동 매칭
    induty_code = data.get("induty_code", "")
    induty_name = get_industry_name(induty_code) if induty_code else ""

    # 누락 방지용 안전한 데이터 딕셔너리
    safe_data = {
        "corp_code": data.get("corp_code", ""),
        "corp_name": data.get("corp_name", ""),
        "stock_code": data.get("stock_code", ""),
        "ceo_nm": data.get("ceo_nm", ""),
        "corp_cls": data.get("corp_cls", ""),
        "jurir_no": data.get("jurir_no", ""),
        "bizr_no": data.get("bizr_no", ""),
        "adres": data.get("adres", ""),
        "hm_url": data.get("hm_url", ""),
        "ir_url": data.get("ir_url", ""),
        "phn_no": data.get("phn_no", ""),
        "fax_no": data.get("fax_no", ""),
        "induty_code": induty_code,
        "induty_name": induty_name,
        "est_dt": data.get("est_dt", ""),
        "acc_mt": data.get("acc_mt", "")
    }

    insert_query = """
    INSERT INTO company_overview_row (
        corp_code, corp_name, stock_code, ceo_nm, corp_cls, jurir_no,
        bizr_no, adres, hm_url, ir_url, phn_no, fax_no,
        induty_code, induty_name, est_dt, acc_mt
    ) VALUES (
        :corp_code, :corp_name, :stock_code, :ceo_nm, :corp_cls, :jurir_no,
        :bizr_no, :adres, :hm_url, :ir_url, :phn_no, :fax_no,
        :induty_code, :induty_name, :est_dt, :acc_mt
    )
    ON DUPLICATE KEY UPDATE
        corp_name = VALUES(corp_name),
        stock_code = VALUES(stock_code),
        ceo_nm = VALUES(ceo_nm),
        corp_cls = VALUES(corp_cls),
        jurir_no = VALUES(jurir_no),
        bizr_no = VALUES(bizr_no),
        adres = VALUES(adres),
        hm_url = VALUES(hm_url),
        ir_url = VALUES(ir_url),
        phn_no = VALUES(phn_no),
        fax_no = VALUES(fax_no),
        induty_code = VALUES(induty_code),
        induty_name = VALUES(induty_name),
        est_dt = VALUES(est_dt),
        acc_mt = VALUES(acc_mt);
    """
    with engine.begin() as conn:
        conn.execute(text(insert_query), safe_data)

def run_bulk_fetch():
    corp_codes = fetch_corp_codes()
    print(f"{len(corp_codes)}개 기업 조회 시작")

    for i, corp_code in enumerate(corp_codes):
        data = fetch_overview(corp_code)
        if data:
            insert_or_update_overview(data)
            print(f"[{i+1}/{len(corp_codes)}] {data.get('corp_name')} 저장됨")
        else:
            print(f"[{i+1}/{len(corp_codes)}] {corp_code}: 정보 없음")

        time.sleep(0.6)  # 100건/분 제한 고려

run_bulk_fetch()


3837개 기업 조회 시작
[1/3837] 한빛네트 저장됨
[2/3837] (주)엔플렉스 저장됨
[3/3837] (주)동서정보기술 저장됨
[4/3837] 주식회사 애드모바일 저장됨
[5/3837] (주)리더컴 저장됨
[6/3837] (주)허메스홀딩스 저장됨
[7/3837] (주)유티엑스 저장됨
[8/3837] (주)글로포스트 저장됨
[9/3837] (주)쏠라엔텍 저장됨
[10/3837] (주)보홍 저장됨
[11/3837] 동북아1호선박투자회사 저장됨
[12/3837] 에듀아크 저장됨
[13/3837] (주)데코 저장됨
[14/3837] (주)엘앤씨피 저장됨
[15/3837] (주)희훈디앤지 저장됨
[16/3837] (주)퓨쳐인포넷 저장됨
[17/3837] (주)쓰리디넷 저장됨
[18/3837] (주)제일저축은행 저장됨
[19/3837] 제일창업투자(주) 저장됨
[20/3837] (주)현대DSF 저장됨
[21/3837] (주)네프로아이티 저장됨
[22/3837] (주)자강 저장됨
[23/3837] 케이엠에스(주) 저장됨
[24/3837] (주)에버리소스 저장됨
[25/3837] 제이에스(주) 저장됨
[26/3837] 태창기업(주) 저장됨
[27/3837] (주)에이치비이에너지 저장됨
[28/3837] (주)코어비트 저장됨
[29/3837] 동북아8호선박투자회사 저장됨
[30/3837] 한국통신데이타(주) 저장됨
[31/3837] (주)케너텍 저장됨
[32/3837] (주)다휘 저장됨
[33/3837] 코오롱아이넷(주) 저장됨
[34/3837] 캠브리지코오롱(주) 저장됨
[35/3837] 네오세미테크(주) 저장됨
[36/3837] (주)디에이치패션 저장됨
[37/3837] 케이엠에이치(주) 저장됨
[38/3837] (주)씨엘엘씨디 저장됨
[39/3837] (주)현대푸드시스템 저장됨
[40/3837] 메리츠종합금융(주) 저장됨
[41/3837] 제넥셀세인(주) 저장됨
[42/3837] (주)쓰리디월드 저장됨
[43/3837] (주)스톰이앤에프 저장됨
[44/3837

DataError: (pymysql.err.DataError) (1406, "Data too long for column 'ceo_nm' at row 1")
[SQL: 
    INSERT INTO company_overview_row (
        corp_code, corp_name, stock_code, ceo_nm, corp_cls, jurir_no,
        bizr_no, adres, hm_url, ir_url, phn_no, fax_no,
        induty_code, induty_name, est_dt, acc_mt
    ) VALUES (
        %(corp_code)s, %(corp_name)s, %(stock_code)s, %(ceo_nm)s, %(corp_cls)s, %(jurir_no)s,
        %(bizr_no)s, %(adres)s, %(hm_url)s, %(ir_url)s, %(phn_no)s, %(fax_no)s,
        %(induty_code)s, %(induty_name)s, %(est_dt)s, %(acc_mt)s
    )
    ON DUPLICATE KEY UPDATE
        corp_name = VALUES(corp_name),
        stock_code = VALUES(stock_code),
        ceo_nm = VALUES(ceo_nm),
        corp_cls = VALUES(corp_cls),
        jurir_no = VALUES(jurir_no),
        bizr_no = VALUES(bizr_no),
        adres = VALUES(adres),
        hm_url = VALUES(hm_url),
        ir_url = VALUES(ir_url),
        phn_no = VALUES(phn_no),
        fax_no = VALUES(fax_no),
        induty_code = VALUES(induty_code),
        induty_name = VALUES(induty_name),
        est_dt = VALUES(est_dt),
        acc_mt = VALUES(acc_mt);
    ]
[parameters: {'corp_code': '00562245', 'corp_name': '주식회사 태웅로직스', 'stock_code': '124560', 'ceo_nm': 'Han Jae dong and Cho Yong jun (individual representative directors)', 'corp_cls': 'K', 'jurir_no': '1101111234543', 'bizr_no': '2028153193', 'adres': '서울특별시 서초구 서초대로42길 95 5층(서초동, 태웅빌딩)', 'hm_url': 'www.e-tgl.com', 'ir_url': '', 'phn_no': '02-2029-4300', 'fax_no': '02-2029-4699', 'induty_code': '5299', 'induty_name': '그 외 기타 운송관련 서비스업', 'est_dt': '19960120', 'acc_mt': '12'}]
(Background on this error at: https://sqlalche.me/e/20/9h9h)

In [7]:
import requests
import time
from sqlalchemy import create_engine, text
import pymysql
import pandas as pd

API_KEY = "4643bd437d383b208294914ce72d693589458062"
BASE_URL = "https://opendart.fss.or.kr/api/company.json"
DB_URL = "mysql+pymysql://root:1234@localhost:3310/stock_db"

engine = create_engine(DB_URL)

def fetch_corp_codes():
    query = "SELECT DISTINCT corp_code FROM dart_code"
    with engine.connect() as conn:
        result = conn.execute(text(query))
        return [row[0] for row in result.fetchall()]

def fetch_overview(corp_code):
    try:
        res = requests.get(BASE_URL, params={"crtfc_key": API_KEY, "corp_code": corp_code})
        if res.status_code == 200:
            json_data = res.json()
            if json_data.get("status") == "013":
                return None  # 기업 없음
            return json_data
    except Exception as e:
        print(f"API 오류: {corp_code}, {e}")
    return None

def get_industry_name(induty_code):
    try:
        return code_data[code_data['산업코드'] == int(induty_code)]['산업코드명'].values[0]
    except:
        return ""

def truncate(value, max_len):
    return str(value)[:max_len] if pd.notnull(value) else ""

def insert_or_update_overview(data):
    try:
        induty_code = data.get("induty_code", "")
        induty_name = get_industry_name(induty_code) if induty_code else ""

        # 컬럼별 최대 길이 (테이블 정의 기준)
        col_lens = {
            "corp_code": 10, "corp_name": 100, "stock_code": 20, "ceo_nm": 50,
            "corp_cls": 5, "jurir_no": 20, "bizr_no": 20, "adres": 200,
            "hm_url": 200, "ir_url": 200, "phn_no": 50, "fax_no": 50,
            "induty_code": 20, "induty_name": 100, "est_dt": 10, "acc_mt": 5
        }

        safe_data = {
            k: truncate(data.get(k, ""), col_lens[k])
            for k in col_lens
        }
        safe_data["induty_name"] = truncate(induty_name, 100)

        insert_query = """
        INSERT INTO company_overview_row (
            corp_code, corp_name, stock_code, ceo_nm, corp_cls, jurir_no,
            bizr_no, adres, hm_url, ir_url, phn_no, fax_no,
            induty_code, induty_name, est_dt, acc_mt
        ) VALUES (
            :corp_code, :corp_name, :stock_code, :ceo_nm, :corp_cls, :jurir_no,
            :bizr_no, :adres, :hm_url, :ir_url, :phn_no, :fax_no,
            :induty_code, :induty_name, :est_dt, :acc_mt
        )
        ON DUPLICATE KEY UPDATE
            corp_name = VALUES(corp_name),
            stock_code = VALUES(stock_code),
            ceo_nm = VALUES(ceo_nm),
            corp_cls = VALUES(corp_cls),
            jurir_no = VALUES(jurir_no),
            bizr_no = VALUES(bizr_no),
            adres = VALUES(adres),
            hm_url = VALUES(hm_url),
            ir_url = VALUES(ir_url),
            phn_no = VALUES(phn_no),
            fax_no = VALUES(fax_no),
            induty_code = VALUES(induty_code),
            induty_name = VALUES(induty_name),
            est_dt = VALUES(est_dt),
            acc_mt = VALUES(acc_mt);
        """

        with engine.begin() as conn:
            conn.execute(text(insert_query), safe_data)

    except Exception as e:
        print(f"DB 삽입 오류: {data.get('corp_code')} - {e}")

def run_bulk_fetch():
    corp_codes = fetch_corp_codes()
    print(f"{len(corp_codes)}개 기업 조회 시작")

    for i, corp_code in enumerate(corp_codes):
        try:
            data = fetch_overview(corp_code)
            if data:
                insert_or_update_overview(data)
                print(f"[{i+1}/{len(corp_codes)}] {data.get('corp_name')} 저장됨")
            else:
                print(f"[{i+1}/{len(corp_codes)}] {corp_code}: 정보 없음")
        except Exception as e:
            print(f"[{i+1}/{len(corp_codes)}] {corp_code} 처리 중 오류 발생: {e}")
        time.sleep(0.6)

# 실행
run_bulk_fetch()


3837개 기업 조회 시작
[1/3837] 한빛네트 저장됨
[2/3837] (주)엔플렉스 저장됨
[3/3837] (주)동서정보기술 저장됨
[4/3837] 주식회사 애드모바일 저장됨
[5/3837] (주)리더컴 저장됨
[6/3837] (주)허메스홀딩스 저장됨
[7/3837] (주)유티엑스 저장됨
[8/3837] (주)글로포스트 저장됨
[9/3837] (주)쏠라엔텍 저장됨
[10/3837] (주)보홍 저장됨
[11/3837] 동북아1호선박투자회사 저장됨
[12/3837] 에듀아크 저장됨
[13/3837] (주)데코 저장됨
[14/3837] (주)엘앤씨피 저장됨
[15/3837] (주)희훈디앤지 저장됨
[16/3837] (주)퓨쳐인포넷 저장됨
[17/3837] (주)쓰리디넷 저장됨
[18/3837] (주)제일저축은행 저장됨
[19/3837] 제일창업투자(주) 저장됨
[20/3837] (주)현대DSF 저장됨
[21/3837] (주)네프로아이티 저장됨
[22/3837] (주)자강 저장됨
[23/3837] 케이엠에스(주) 저장됨
[24/3837] (주)에버리소스 저장됨
[25/3837] 제이에스(주) 저장됨
[26/3837] 태창기업(주) 저장됨
[27/3837] (주)에이치비이에너지 저장됨
[28/3837] (주)코어비트 저장됨
[29/3837] 동북아8호선박투자회사 저장됨
[30/3837] 한국통신데이타(주) 저장됨
[31/3837] (주)케너텍 저장됨
[32/3837] (주)다휘 저장됨
[33/3837] 코오롱아이넷(주) 저장됨
[34/3837] 캠브리지코오롱(주) 저장됨
[35/3837] 네오세미테크(주) 저장됨
[36/3837] (주)디에이치패션 저장됨
[37/3837] 케이엠에이치(주) 저장됨
[38/3837] (주)씨엘엘씨디 저장됨
[39/3837] (주)현대푸드시스템 저장됨
[40/3837] 메리츠종합금융(주) 저장됨
[41/3837] 제넥셀세인(주) 저장됨
[42/3837] (주)쓰리디월드 저장됨
[43/3837] (주)스톰이앤에프 저장됨
[44/3837