In [37]:
import os
import pandas as pd
import requests
import zipfile
import io
import json
import urllib.parse
import tempfile
import numpy as np
from decimal import Decimal
from datetime import date, datetime
from contextlib import contextmanager
from IPython.display import Image, display
from typing import TypedDict, Any, List, Dict
from dotenv import load_dotenv
from langchain_teddynote import logging
from lxml import etree
from langchain_community.document_loaders import BSHTMLLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.prompts import PromptTemplate, ChatPromptTemplate
from langchain.chains import MapReduceDocumentsChain, ReduceDocumentsChain
from langchain.chains.llm import LLMChain
from langchain.chat_models import ChatOpenAI
from langchain.chains.combine_documents.stuff import StuffDocumentsChain
from langgraph.graph import StateGraph, END
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnableConfig
from sqlalchemy import create_engine, select, DateTime, Text
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker
from sqlalchemy import (
    Float,
    Numeric,
    Column,
    Integer,
    String,
    Date,
    TIMESTAMP,
    BigInteger,
)
from sqlalchemy.sql import func
from langgraph.checkpoint.memory import MemorySaver

# API KEY 정보로드
load_dotenv()

# 프로젝트 이름을 입력합니다.
logging.langsmith("Spoon")

# 환경 변수에서 DART_API_KEY를 가져옵니다
DART_API_KEY = os.getenv("DART_API_KEY")

password = urllib.parse.quote_plus("!Q@W3e4r")  # 특수 문자를 URL 인코딩

# DB 연결
DATABASE_URL = f"mysql+pymysql://manager:{password}@211.37.179.178/spoon"
engine = create_engine(DATABASE_URL)
SessionLocal = sessionmaker(autocommit=False, autoflush=False, bind=engine)
Base = declarative_base()


@contextmanager
def get_db_session():
    session = SessionLocal()
    try:
        yield session
        session.commit()
    except Exception:
        session.rollback()
        raise
    finally:
        session.close()

LangSmith 추적을 시작합니다.
[프로젝트명]
Spoon


  Base = declarative_base()


In [38]:
class CompanyInfoFS(Base):
    __tablename__ = "companyInfoFS"
    corp_code = Column(String(8), primary_key=True)
    corp_name = Column(String(255))
    corp_name_eng = Column(String(255))
    stock_name = Column(String(255))
    stock_code = Column(String(6))
    ceo_nm = Column(String(255))
    corp_cls = Column(String(1))
    jurir_no = Column(String(13))
    bizr_no = Column(String(13))
    adres = Column(String(255))
    hm_url = Column(String(255))
    ir_url = Column(String(255))
    phn_no = Column(String(20))
    fax_no = Column(String(20))
    induty_code = Column(String(10))
    est_dt = Column(String(8))
    acc_mt = Column(String(2))
    id = Column(Integer, primary_key=True, autoincrement=True)
    baseDate = Column(Date)
    bizYear = Column(String(50))
    jurir_no = Column(String(50))
    currency = Column(String(10))
    fsCode = Column(String(10))
    fsName = Column(String(100))
    totalAsset2023 = Column(BigInteger)
    totalDebt2023 = Column(BigInteger)
    totalEquity2023 = Column(BigInteger)
    capital2023 = Column(BigInteger)
    revenue2023 = Column(BigInteger)
    operatingIncome2023 = Column(BigInteger)
    earningBeforeTax2023 = Column(BigInteger)
    netIncome2023 = Column(BigInteger)
    debtRatio2023 = Column(Numeric(10, 2))
    margin2023 = Column(Numeric(20, 3))
    turnover2023 = Column(Numeric(20, 3))
    leverage2023 = Column(Numeric(20, 3))
    created_at = Column(TIMESTAMP)


## dart 기준 회사 정보
class CompanyInfo(Base):
    __tablename__ = "companyInfo"

    corp_code = Column(String(8), primary_key=True)
    corp_name = Column(String(255))
    corp_name_eng = Column(String(255))
    stock_name = Column(String(255))
    stock_code = Column(String(6))
    ceo_nm = Column(String(255))
    corp_cls = Column(String(1))
    jurir_no = Column(String(13))
    bizr_no = Column(String(13))
    adres = Column(String(255))
    hm_url = Column(String(255))
    ir_url = Column(String(255))
    phn_no = Column(String(20))
    fax_no = Column(String(20))
    induty_code = Column(String(10))
    est_dt = Column(String(8))
    acc_mt = Column(String(2))


class StockData(Base):
    __tablename__ = "stock_data"

    id = Column(Integer, primary_key=True, autoincrement=True)
    ticker = Column(String(10))
    corp_code = Column(String(10))
    corp_name = Column(String(255))
    listing_date = Column(Date)
    latest_date = Column(Date)
    latest_price = Column(Float)
    cagr_since_listing = Column(Float)
    vol_since_listing = Column(Float)
    cagr_1y = Column(Float)
    vol_1y = Column(Float)
    cagr_3y = Column(Float)
    vol_3y = Column(Float)
    cagr_5y = Column(Float)
    vol_5y = Column(Float)
    stock_count = Column(Integer)
    per_value = Column(String(10))
    pbr_value = Column(String(10))
    market_capitalization = Column(Float)
    timestamp = Column(TIMESTAMP)
    reference = Column(String(255))


class FS2022(Base):
    __tablename__ = "FS2022"

    id = Column(Integer, primary_key=True, autoincrement=True)
    baseDate = Column(Date)
    bizYear = Column(String(50))
    jurir_no = Column(String(50))
    currency = Column(String(10))
    fsCode = Column(String(10))
    fsName = Column(String(100))
    totalAsset2022 = Column(BigInteger)
    totalDebt2022 = Column(BigInteger)
    totalEquity2022 = Column(BigInteger)
    capital2022 = Column(BigInteger)
    revenue2022 = Column(BigInteger)
    operatingIncome2022 = Column(BigInteger)
    earningBeforeTax2022 = Column(BigInteger)
    netIncome2022 = Column(BigInteger)
    debtRatio2022 = Column(Numeric(10, 2))
    margin2022 = Column(Numeric(20, 3))
    turnover2022 = Column(Numeric(20, 3))
    leverage2022 = Column(Numeric(20, 3))
    created_at = Column(TIMESTAMP)


class FS2023(Base):
    __tablename__ = "FS2023"

    id = Column(Integer, primary_key=True, autoincrement=True)
    baseDate = Column(Date)
    bizYear = Column(String(50))
    jurir_no = Column(String(50))
    currency = Column(String(10))
    fsCode = Column(String(10))
    fsName = Column(String(100))
    totalAsset2023 = Column(BigInteger)
    totalDebt2023 = Column(BigInteger)
    totalEquity2023 = Column(BigInteger)
    capital2023 = Column(BigInteger)
    revenue2023 = Column(BigInteger)
    operatingIncome2023 = Column(BigInteger)
    earningBeforeTax2023 = Column(BigInteger)
    netIncome2023 = Column(BigInteger)
    debtRatio2023 = Column(Numeric(10, 2))
    margin2023 = Column(Numeric(20, 3))
    turnover2023 = Column(Numeric(20, 3))
    leverage2023 = Column(Numeric(20, 3))
    created_at = Column(TIMESTAMP)


class FS2021(Base):
    __tablename__ = "FS2021"

    id = Column(Integer, primary_key=True, autoincrement=True)
    baseDate = Column(Date)
    bizYear = Column(String(50))
    jurir_no = Column(String(50))
    currency = Column(String(10))
    fsCode = Column(String(10))
    fsName = Column(String(100))
    totalAsset2021 = Column(BigInteger)
    totalDebt2021 = Column(BigInteger)
    totalEquity2021 = Column(BigInteger)
    capital2021 = Column(BigInteger)
    revenue2021 = Column(BigInteger)
    operatingIncome2021 = Column(BigInteger)
    earningBeforeTax2021 = Column(BigInteger)
    netIncome2021 = Column(BigInteger)
    debtRatio2021 = Column(Numeric(10, 2))
    margin2021 = Column(Numeric(20, 3))
    turnover2021 = Column(Numeric(20, 3))
    leverage2021 = Column(Numeric(20, 3))
    created_at = Column(TIMESTAMP)


class ReportContent(Base):
    __tablename__ = "report_content"

    report_num = Column(Integer, primary_key=True, autoincrement=True)
    corp_code = Column(String(24))
    corp_name = Column(String(32))
    report_nm = Column(String(100))
    rcept_no = Column(String(32))
    rcept_dt = Column(Date)
    created_at = Column(DateTime, server_default=func.now())
    report_content = Column(Text)

    def to_dict(self):
        return {
            "corp_name": self.corp_name,
            "corp_code": self.corp_code,
            "report_num": self.report_num,
            "report_nm": self.report_nm,
            "rcept_no": self.rcept_no,
            "rcept_dt": self.rcept_dt,
        }

In [39]:
## 메서드 정의


# 보고서 번호 불러오기


def get_report(corp_code):

    url_json = "https://opendart.fss.or.kr/api/list.json"

    params = {
        "crtfc_key": DART_API_KEY,
        "corp_code": corp_code,
        "bgn_de": "20230101",
        "end_de": "20240630",
        # "pblntf_detail_ty": "A001",
    }

    response = requests.get(url_json, params=params)

    data = response.json()

    data_list = data.get("list")

    df_list = pd.DataFrame(data_list)

    if df_list.empty:

        raise ValueError(f"No data found for corporation code: {corp_code}")

    # rcept_dt를 datetime 형식으로 변환 및 최신건 추출

    df_list["rcept_dt"] = pd.to_datetime(df_list["rcept_dt"]).dt.date

    latest_report = df_list.sort_values("rcept_dt", ascending=False).iloc[0]
    print(latest_report)
    return ReportContent(
        corp_code=corp_code,
        corp_name=latest_report["corp_name"],
        report_nm=latest_report["report_nm"],
        rcept_no=latest_report["rcept_no"],
        rcept_dt=latest_report["rcept_dt"],
        report_content="",
    )


def fetch_document(rcept_no):

    url = "https://opendart.fss.or.kr/api/document.xml"

    params = {"crtfc_key": DART_API_KEY, "rcept_no": rcept_no}

    response = requests.get(url, params=params)

    if response.status_code != 200:

        raise Exception(f"API 요청 실패: 상태 코드 {response.status_code}")
    return response.content


def extract_section(root, start_aassocnote, end_aassocnote):

    start_element = root.xpath(
        f"//TITLE[@ATOC='Y' and @AASSOCNOTE='{start_aassocnote}']"
    )[0]

    end_element = root.xpath(f"//TITLE[@ATOC='Y' and @AASSOCNOTE='{end_aassocnote}']")[
        0
    ]

    extracted_elements = []
    current_element = start_element

    while current_element is not None:

        extracted_elements.append(
            etree.tostring(current_element, encoding="unicode", with_tail=True)
        )

        if current_element == end_element:

            break

        current_element = current_element.getnext()

    return "".join(extracted_elements)


def extract_audit_report(zip_content, rcp_no):
    with zipfile.ZipFile(io.BytesIO(zip_content)) as zf:
        print("ZIP 파일 내용:")
        for file_info in zf.infolist():
            print(file_info.filename)

        audit_fnames = [
            info.filename
            for info in zf.infolist()
            if rcp_no in info.filename and info.filename.endswith(".xml")
        ]

        if not audit_fnames:
            raise ValueError("감사보고서 파일을 찾을 수 없습니다.")
        xml_data = zf.read(audit_fnames[0])

    extracted_content = xml_data.decode("utf-8")
    parser = etree.XMLParser(recover=True, encoding="utf-8")
    root = etree.fromstring(xml_data, parser)

    def extract_section(start_aassocnote, end_aassocnote):
        start_elements = root.xpath(
            f"//TITLE[@ATOC='Y' and @AASSOCNOTE='{start_aassocnote}']"
        )
        end_elements = root.xpath(
            f"//TITLE[@ATOC='Y' and @AASSOCNOTE='{end_aassocnote}']"
        )

        if not start_elements or not end_elements:
            return None

        start_element = start_elements[0]
        end_element = end_elements[0]

        extracted_elements = []
        current_element = start_element
        while current_element is not None:
            extracted_elements.append(
                etree.tostring(current_element, encoding="unicode", with_tail=True)
            )
            if current_element == end_element:
                break
            current_element = current_element.getnext()

        return "".join(extracted_elements)

    # 섹션 추출 시도
    sections = [
        ("D-0-2-0-0", "D-0-3-0-0"),
        ("D-0-3-1-0", "D-0-3-2-0"),
        ("D-0-3-2-0", "D-0-3-3-0"),
    ]

    extracted_parts = []
    for start, end in sections:
        part = extract_section(start, end)
        if part is None:
            # 섹션 추출 실패 시 전체 XML 반환
            return extracted_content
        extracted_parts.append(part)

    # 모든 섹션 추출 성공 시 결합된 섹션들 반환
    return "".join(extracted_parts)


def parse_html_from_xml(xml_data):

    parser = etree.HTMLParser()

    root = etree.fromstring(f"<html><body>{xml_data}</body></html>", parser)
    return root


def load_html_with_langchain(html_string):

    with tempfile.NamedTemporaryFile(
        mode="w", encoding="utf-8", suffix=".html", delete=False
    ) as temp_file:

        temp_file.write(html_string)

        temp_file_path = temp_file.name

    try:

        loader = BSHTMLLoader(temp_file_path, open_encoding="utf-8")
        documents = loader.load()
        return documents

    finally:

        os.unlink(temp_file_path)


def get_financial_data(corp_code: str) -> pd.DataFrame:

    with get_db_session() as session:

        query = (
            select(CompanyInfo, FS2023, FS2022, FS2021)
            .outerjoin(FS2023, CompanyInfo.jurir_no == FS2023.jurir_no)
            .outerjoin(FS2022, CompanyInfo.jurir_no == FS2022.jurir_no)
            .outerjoin(FS2021, CompanyInfo.jurir_no == FS2021.jurir_no)
            .where(CompanyInfo.corp_code == corp_code)
        )

        result = session.execute(query).fetchall()

        # ORM 객체를 dictionary로 변환

        data = []

        for row in result:

            row_dict = {}

            for obj in row:

                if obj is not None:

                    row_dict.update(
                        {
                            f"{obj.__class__.__name__}_{k}": v
                            for k, v in obj.__dict__.items()
                            if not k.startswith("_")
                        }
                    )

            data.append(row_dict)

        # dictionary 리스트를 데이터프레임으로 변환

        df = pd.DataFrame(data)
        return df


## Map-reduce 체인 만들기


# Map 프롬프트 설정


map_template = """다음은 문서의 일부입니다:





{docs}





이 부분에서 주요 주제와 재무 정보를 포함한 핵심 내용을 100단어 이내로 요약해주세요.





요약:"""


map_prompt = PromptTemplate.from_template(map_template)


# LLM 모델 설정 (gpt-4o-mini 사용)


llm = ChatOpenAI(model="gpt-4o-mini-2024-07-18", temperature=0)


map_chain = LLMChain(llm=llm, prompt=map_prompt)


# Reduce 프롬프트 설정
reduce_template = """





당신은 은행에서 대출을 심사하는 역할입니다.





당신은 대출 심사에 대한 판단 전에 신용평가보고서를 작성하고 있습니다.





다음은 요약들의 집합입니다: {docs}





이것들을 가져다가 최종적으로 통합하여 1.기업체개요 2.산업분석 3.영업현황 및 수익구조 4.재무구조 및 현금흐름 5.신용등급 부여의견으로 구분해서 요약해주세요.





각 섹션에 관련 재무 수치를 포함시키고 다섯줄 이상 작성해 주세요.






요약된 내용:
"""


reduce_prompt = PromptTemplate.from_template(reduce_template)


# Reduce 체인 설정


reduce_chain = LLMChain(llm=llm, prompt=reduce_prompt)


combine_documents_chain = StuffDocumentsChain(
    llm_chain=reduce_chain, document_variable_name="docs"
)


reduce_documents_chain = ReduceDocumentsChain(
    combine_documents_chain=combine_documents_chain,
    collapse_documents_chain=combine_documents_chain,
    token_max=4000,
)


# MapReduce 체인 설정


map_reduce_chain = MapReduceDocumentsChain(
    llm_chain=map_chain,
    reduce_documents_chain=reduce_documents_chain,
    document_variable_name="docs",
    return_intermediate_steps=False,
)


## Map-reduce 체인 끝

In [40]:
# 상태 정의
class State(TypedDict):
    corp_code: str
    corp_name: str
    report_nm: str
    rcept_no: str
    rcept_dt: date
    report_summary: str
    financial_data: List[Dict[str, Any]]
    credit_evaluation: str
    current_job: str  # 현재 작업
    # relevance: str  # 답변의 문서에 대한 관련성

    @classmethod
    def to_serializable(cls, state):
        serializable_state = {}
        for key, value in state.items():
            if isinstance(value, (date, datetime)):
                serializable_state[key] = value.isoformat()
            elif isinstance(value, (Decimal, np.integer, np.floating)):
                serializable_state[key] = float(value)
            elif isinstance(value, np.ndarray):
                serializable_state[key] = value.tolist()
            elif isinstance(value, pd.DataFrame):
                serializable_state[key] = value.to_dict(orient="records")
            else:
                serializable_state[key] = value
        return serializable_state

In [41]:
# langgraph.graph에서 StateGraph와 END를 가져옵니다.
workflow = StateGraph(State)

In [42]:
## 랭그래프 생성


# 업스테이지 문서 관련성 체크 기능을 설정합니다. https://upstage.ai

# upstage_ground_checker = UpstageGroundednessCheck()


class CustomJSONEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, Decimal):
            return float(obj)
        if isinstance(obj, (pd.Timestamp, datetime, date)):
            return obj.isoformat()
        if isinstance(obj, pd.DataFrame):
            return obj.to_dict(orient="records")
        if isinstance(obj, np.integer):
            return int(obj)
        if isinstance(obj, np.floating):
            return float(obj)
        if isinstance(obj, np.ndarray):
            return obj.tolist()
        if pd.isna(obj) or obj is pd.NaT:  # NaN, NaT 등의 누락된 값 처리
            return None
        return super().default(obj)


# xml 처리 및 요약 노드


def process_xml(state: State) -> State:

    report = get_report(state["corp_code"])
    state["corp_name"] = report.corp_name
    state["report_nm"] = report.report_nm
    state["rcept_no"] = report.rcept_no
    state["rcept_dt"] = report.rcept_dt

    zip_content = fetch_document(report.rcept_no)

    extracted_content = extract_audit_report(zip_content, report.rcept_no)

    root = parse_html_from_xml(extracted_content)

    html_string = etree.tostring(
        root, pretty_print=True, method="html", encoding="unicode"
    )

    docs = load_html_with_langchain(html_string)

    # 문서 분할

    split_docs = text_splitter.split_documents(docs)

    # MapReduce 체인 실행

    summary = map_reduce_chain.run(split_docs)

    state["report_summary"] = summary

    state["current_job"] = "공시보고서 요약"

    return state


## Map-reduce 체인 만들기

# Map 프롬프트 설정

map_template = """다음은 문서의 일부입니다:

{docs}

이 부분에서 주요 주제와 재무 정보를 포함한 핵심 내용을 100단어 이내로 요약해주세요.

요약:"""


map_prompt = PromptTemplate.from_template(map_template)


# LLM 모델 설정 (gpt-4o-mini 사용)

llm = ChatOpenAI(model="gpt-4o-mini-2024-07-18", temperature=0)

map_chain = LLMChain(llm=llm, prompt=map_prompt)


# Reduce 프롬프트 설정

reduce_template = """

당신은 은행에서 대출을 심사하는 역할입니다.

당신은 대출 심사에 대한 판단 전에 신용평가보고서를 작성하고 있습니다.

다음은 요약들의 집합입니다: {docs}

이것들을 가져다가 최종적으로 통합하여 1.기업체개요 2.산업분석 3.영업현황 및 수익구조 4.재무구조 및 현금흐름 5.신용등급 부여의견으로 구분해서 요약해주세요.

각 섹션에 관련 재무 수치를 포함시키고 다섯줄 이상 작성해 주세요.


요약된 내용:
"""


reduce_prompt = PromptTemplate.from_template(reduce_template)


# Reduce 체인 설정


reduce_chain = LLMChain(llm=llm, prompt=reduce_prompt)

combine_documents_chain = StuffDocumentsChain(
    llm_chain=reduce_chain, document_variable_name="docs"
)


reduce_documents_chain = ReduceDocumentsChain(
    combine_documents_chain=combine_documents_chain,
    collapse_documents_chain=combine_documents_chain,
    token_max=4000,
)


# MapReduce 체인 설정


map_reduce_chain = MapReduceDocumentsChain(
    llm_chain=map_chain,
    reduce_documents_chain=reduce_documents_chain,
    document_variable_name="docs",
    return_intermediate_steps=False,
)


# 텍스트 분할기 설정


text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=4000, chunk_overlap=0
)


## Map-reduce 체인 끝


# 재무데이터 가져오기 노드


def get_financial_info(state: State) -> State:
    df = get_financial_data(state["corp_code"])

    for column in df.columns:
        # Check the data type of each column
        if df[column].dtype == "object":
            # If it's an object, check the first non-null value
            first_value = (
                df[column].dropna().iloc[0] if not df[column].isnull().all() else None
            )
            if isinstance(first_value, (Decimal, date, datetime)):
                # If it's a Decimal, date, or datetime, convert to appropriate type
                df[column] = df[column].apply(
                    lambda x: (
                        float(x)
                        if isinstance(x, Decimal)
                        else (x.isoformat() if isinstance(x, (date, datetime)) else x)
                    )
                )
        elif np.issubdtype(df[column].dtype, np.datetime64):
            # If it's a datetime64, convert to string
            df[column] = df[column].astype(str)

    # Convert all remaining numeric columns to float
    df = df.astype(
        {col: float for col in df.select_dtypes(include=["int64", "float64"]).columns}
    )

    state["financial_data"] = df.to_dict(orient="records")
    state["current_job"] = "재무 정보 수집"
    return state


# 최종 신용평가 의견 생성 노드


def generate_credit_evaluation(state: State) -> State:

    llm = ChatOpenAI(model="gpt-4o-mini-2024-07-18", temperature=0)

    prompt = ChatPromptTemplate.from_template(
        """

        당신은 은행에서 대출을 심사하는 역할입니다.

        당신은 대출 심사에 대한 판단 전에 신용평가보고서를 작성하고 있습니다.

        다음 정보를 바탕으로 종합적인 신용평가 의견을 작성해주세요: 
            

                1. 보고서 요약:

                {report_summary}


                2. 재무 데이터:

                {financial_data}


        이것들을 가져다가 최종적으로 통합하여 1.기업체개요 2.산업분석 3.영업현황 및 수익구조 4.재무구조 및 현금흐름 5.신용등급 부여의견으로 구분해서 요약해주세요.

        각 섹션에 관련 재무 수치를 포함시키고 다섯줄 이상 작성해 주세요. 재무 수치를 작성할 때는 재무 데이터를 이용하여 최근 3년간의 시계열 자료를 반드시 포함시켜주세요.
        특히 다음 사항을 꼭 포함해 주세요:
        - 총자산, 부채, 자본의 최근 3년간 추이
        - 매출액과 영업이익의 최근 3년간 추이
        - 부채비율, 레버리지, 매출액이익률의 최근 3년간 추이
        - 이러한 재무지표들의 변화 추세와 그 의미에 대한 분석


        예시 :

        1. 기업체 개요 : 동사 부동산 임대업 등의 사업목적으로 2001.10.16. 설립된 2023년말 기준 총자산 42,615백만원, 자본총계 22,335백만원, 매출액 3,502백만원,

        당기순이익 37백만원 규모의 외감 소기업임.

        2. 산업분석 : 최근 전방 산업 경기침체로 공실률 확대 기조 지속되어 매매가력 하락 및 임대소득 하락이 동시에 일어나 부동산 임대업 업황에 부정적인 영향을 미칠 가능성이 높음

        3. 영업현황 및 수익구조 : 동사 2023년도 기준 매출액 전년도 대비 증가하였는 바, 안정적인 임대수입 영위 중에 있어 향후에도 구준한 매출액 시현에 따른 영업이익 지속 가능시됨.

        4. 재무구조 및 현금흐름 : 동사 2023년말 기준 차입금 다소 증가하는 등 재무안정성 지표 상 미흡한 수준을 나타내고 있으나, 최근 3년간 무난한 현금흐름 나타내고 있으며, 지속적인 순이익 시현의 내부 유보로 자기자본 규모 확대되고 있음

        5. 신용등급 부여의견 : 동사 최근 3년간 순이익 지속에 다른 영업활동 상 현금창출 지속되고, 순이익 시현의 내부유보로 자기자본 규모 확대되어 재무구조 개선되고 있으며, 향후에도 안정적인 영업실적 유지에 따른 수익성 유지로 채무상환 능력 인정됨.


        요약된 내용:
        """
    )

    chain = prompt | llm | StrOutputParser()

    state["credit_evaluation"] = chain.invoke(
        {
            "report_summary": state["report_summary"],
            "financial_data": state["financial_data"],
        }
    )

    state["current_job"] = "신용평가 생성"

    return state


# def relevance_check(state: State) -> State:

#     print("relevance_check", state)

#     # 관련성 체크를 실행합니다. 결과: grounded, notGrounded, notSure

#     response = upstage_ground_checker.run(

#         {"context": state["report_summary"], "answer": state["answer"]}

#     )

#     return State(relevance=response, question=state["question"], answer=state["answer"])


# def is_relevant(state: State) -> State:

#     return state["relevance"]

In [43]:
# 그래프 정의

workflow = StateGraph(State)

# 노드 추가

workflow.add_node("process_xml", process_xml)
workflow.add_node("get_financial_info", get_financial_info)
workflow.add_node("generate_credit_evaluation", generate_credit_evaluation)
# workflow.add_node("relevance_check", relevance_check)

# 엣지 정의

workflow.add_edge("process_xml", "get_financial_info")
workflow.add_edge("get_financial_info", "generate_credit_evaluation")
workflow.add_edge("generate_credit_evaluation", END)

# # 조건부 엣지 추가
# workflow.add_conditional_edges(
#     "relevance_check",  # 관련성 체크 노드에서 나온 결과를 is_relevant 함수에 전달합니다.
#     is_relevant,
#     {
#         "grounded": END,  # 관련성이 있으면 종료합니다.
#         "notGrounded": "generate_credit_evaluation",  # 관련성이 없으면 다시 답변을 생성합니다.
#         "notSure": "generate_credit_evaluation",  # 관련성 체크 결과가 모호하다면 다시 답변을 생성합니다.
#     },
# )

# 시작점 설정
workflow.set_entry_point("process_xml")

memory = MemorySaver()

# 그래프 컴파일
app = workflow.compile(checkpointer=memory)


# 실행 함수
def run_credit_evaluation(corp_code: str) -> State | None:
    state = None  # 초기화

    initial_state = State(
        corp_code=corp_code,
        report_summary="",
        financial_data=[],
        credit_evaluation="",
        current_job="",
        # relavance="",
    )

    try:
        # 각 노드를 직접 호출
        state = process_xml(initial_state)
        state = get_financial_info(state)
        state = generate_credit_evaluation(state)

        if state:
            # 새로운 ReportContent 객체 생성 및 저장
            new_report = ReportContent(
                corp_code=corp_code,
                corp_name=state.get("corp_name", ""),
                report_nm=state.get("report_nm", ""),
                rcept_no=state.get("rcept_no", ""),
                rcept_dt=state.get("rcept_dt"),
                report_content=state.get("credit_evaluation", ""),
            )
            print(
                f"final_state: {json.dumps(State.to_serializable(state), ensure_ascii=False, indent=2)}"
            )
            print(f"new_report: {new_report.corp_code}")
            with get_db_session() as session:
                session.add(new_report)
                session.commit()
                print("Data committed to database")

                # 데이터베이스에 데이터가 잘 들어갔는지 확인
                saved_report = (
                    session.query(ReportContent)
                    .filter_by(corp_code=corp_code)
                    .order_by(ReportContent.created_at.desc())
                    .first()
                )

                if saved_report:
                    print("데이터가 성공적으로 저장되었습니다.")
                    print(f"기업 코드: {saved_report.corp_code}")
                    print(f"기업 이름: {saved_report.corp_name}")
                    print(f"보고서 이름: {saved_report.report_nm}")
                    print(f"접수 번호: {saved_report.rcept_no}")
                    print(f"접수 일자: {saved_report.rcept_dt}")
                    print(
                        f"보고서 내용 (처음 100자): {saved_report.report_content[:100]}..."
                    )
                else:
                    print("데이터 저장에 실패했거나 저장된 데이터를 찾을 수 없습니다.")
    except Exception as e:
        print(f"An error occurred: {e}")

    return state

In [44]:
def get_latest_report(corp_code: str) -> Dict[str, Any] | None:
    with get_db_session() as session:
        report = (
            session.query(ReportContent)
            .filter_by(corp_code=corp_code)
            .order_by(ReportContent.rcept_dt.desc())
            .first()
        )
        if report:
            # 필요한 속성들을 딕셔너리로 반환
            return {
                "corp_code": report.corp_code,
                "rcept_no": report.rcept_no,
                "rcept_dt": report.rcept_dt,
                "report_nm": report.report_nm,
                "report_content": report.report_content,
            }
        return None

In [48]:
# corp_code = "00126380"  # 삼성전자
corp_codes = []
# corp_codes.append("00164779")  # 에스케이하이닉스(주)
# corp_codes.append("00102618")  # 계양전기
# corp_codes.append("00155355")  # 풀무원
# corp_codes.append("00105961")  # LG이노텍
# corp_codes.append("00231707")  # 비트컴퓨터
# corp_codes.append("00545929")  # 제넥신
# corp_codes.append("01133217")  # 카카오뱅크
# corp_codes.append("00117212")  # 두산
# corp_codes.append("01105153")  # 두산로보틱스
# corp_codes.append("00164742")  # 현대자동차
# corp_codes.append("00164788")  # 현대모비스
# corp_codes.append("00688996")  # (주)KB금융지주
# corp_codes.append("00231363")  # LG유플러스
# corp_codes.append("00124504")  # 포스코인터네셔널
# corp_codes.append("00258801")  # 카카오
# corp_codes.append("00160843")  # DB하이텍
# corp_codes.append("00554024")  # 셀트리온
# corp_codes.append("01288100")
corp_codes.append("00109310")

for corp_code in corp_codes:
    # 데이터베이스에서 최신 보고서 확인
    existing_report = get_latest_report(corp_code)

    if existing_report:
        print(
            f"Corporation {corp_code}: DB에 보고서가 존재합니다. rcept_no: {existing_report['rcept_no']}"
        )
        print(f"Report date: {existing_report['rcept_dt']}")
        print("Using existing report.")
    else:
        print(
            f"Corporation {corp_code}: No existing report found. Generating new report."
        )
        result = run_credit_evaluation(corp_code)

        if result is None:
            print(f"Failed to process corporation with code: {corp_code}")
        else:
            print(f"New report generated. rcept_no: {result.get('rcept_no')}")
            print(f"Report date: {result.get('rcept_dt')}")

            # 새 보고서 저장 확인
            new_report = get_latest_report(corp_code)
            if new_report and new_report["rcept_no"] == result.get("rcept_no"):
                print("New report successfully saved to database.")
            else:
                print("Warning: New report may not have been saved correctly.")

    print("Processing completed for corporation:", corp_code)
    print("---")  # 각 기업 처리 결과 구분을 위한 구분선

Corporation 00109310: No existing report found. Generating new report.
corp_code            00109310
corp_name                대동기어
stock_code             008830
corp_cls                    K
report_nm     분기보고서 (2024.03)
rcept_no       20240516000153
flr_nm                   대동기어
rcept_dt           2024-05-16
rm                           
Name: 0, dtype: object
ZIP 파일 내용:
20240516000153.xml
final_state: {
  "corp_code": "00109310",
  "report_summary": "### 1. 기업체 개요\n당사는 자동차, 농기계 및 산업기계의 동력전달장치용 부품과 트랜스미션을 전문적으로 생산하는 기업입니다. 2024년 1분기 기준으로 총매출액은 72,195백만원이며, 내수 매출은 56,981백만원, 수출 매출은 15,214백만원으로 구성되어 있습니다. 당사는 고정밀 기술개발을 위해 2005년 기술연구소를 설립하고, 연구개발 활동을 지속적으로 진행하고 있습니다. 주요 고객으로는 대동(61.6%)과 현대계열(25.4%)이 있으며, 수시수주 방식으로 운영되고 있습니다.\n\n### 2. 산업 분석\n농기계 시장은 정부의 지원이 필요하며, 스마트 농기계의 발전이 기대되고 있습니다. 자동차 시장은 고금리와 고물가로 인해 판매량이 감소할 것으로 보이며, 전기차 수요가 부품 산업을 촉진할 것으로 예상됩니다. 산업기계 분야는 북미 시장에서의 실적 상승이 기대되지만, 글로벌 경기 위축이 우려되고 있습니다. 당사는 동력전달장치 전문 업체로서 경쟁업체에 비해 기술력과 규모에서 우위를 점하고 있습니다.\n\n### 3. 영업현황 및 수익구조\n2024년 

In [46]:
# result = run_credit_evaluation("00126380")
# display(Image(app.get_graph(xray=True).draw_mermaid_png()))

# # 결과를 JSON으로 변환할 때 오류가 발생하면 문제가 있는 키와 값을 출력
# try:
#     json_result = json.dumps(
#         result, cls=CustomJSONEncoder, ensure_ascii=False, indent=2
#     )
#     print(json_result)
# except TypeError as e:
#     print(f"JSON 직렬화 중 오류 발생: {str(e)}")
#     print("문제가 있는 키와 값:")
#     for key, value in result.items():
#         try:
#             json.dumps({key: value}, cls=CustomJSONEncoder)
#         except TypeError:
#             print(f"Key: {key}, Value type: {type(value)}")
#             if isinstance(value, dict):
#                 for sub_key, sub_value in value.items():
#                     print(f"  Sub-key: {sub_key}, Sub-value type: {type(sub_value)}")
#             elif isinstance(value, list):
#                 for i, item in enumerate(value):
#                     print(f"  Item {i} type: {type(item)}")
#                     if isinstance(item, dict):
#                         for sub_key, sub_value in item.items():
#                             print(
#                                 f"    Sub-key: {sub_key}, Sub-value type: {type(sub_value)}"
#                             )

In [47]:
# corp_code = "00126380"  # 삼성전자
corp_codes = []
# corp_codes.append("00164779")  # 에스케이하이닉스(주)
# corp_codes.append("00102618")  # 계양전기
# corp_codes.append("00155355")  # 풀무원
# corp_codes.append("00105961")  # LG이노텍
# corp_codes.append("00231707")  # 비트컴퓨터
# corp_codes.append("00545929")  # 제넥신
# corp_codes.append("01133217")  # 카카오뱅크
# corp_codes.append("00117212")  # 두산
# corp_codes.append("01105153")  # 두산로보틱스
# corp_codes.append("00164742")  # 현대자동차
# corp_codes.append("00164788")  # 현대모비스
# corp_codes.append("00688996")  # (주)KB금융지주
# corp_codes.append("00231363")  # LG유플러스
# corp_codes.append("00124504")  # 포스코인터네셔널
# corp_codes.append("00258801")  # 카카오
# corp_codes.append("00160843")  # DB하이텍
# corp_codes.append("00554024")  # 셀트리온
# corp_codes.append("01288100")
corp_codes.append("01023008")

# 받아온 회사 코드로 최신 정기 공시보고서 번호 dart api로부터 받아오기
for corp_code in corp_codes:
    # 먼저 데이터베이스에서 최신 보고서 확인
    existing_report = get_latest_report(corp_code)

    if existing_report:
        print(
            f"Corporation {corp_code}: Existing report found. rcept_no: {existing_report.rcept_no}"
        )
        print(f"Report date: {existing_report.rcept_dt}")
        print("Using existing report.")
    else:
        print(
            f"Corporation {corp_code}: No existing report found. Generating new report."
        )
        result = run_credit_evaluation(corp_code)

        if result is None:
            print(f"Failed to process corporation with code: {corp_code}")
        else:
            print(f"New report generated. rcept_no: {result.get('rcept_no')}")
            print(f"Report date: {result.get('rcept_dt')}")

            # 결과를 데이터베이스에 저장 (이 부분은 run_credit_evaluation 내에서 처리될 수 있습니다)
            # 여기서는 저장 확인만 수행합니다
            new_report = get_latest_report(corp_code)
            if new_report and new_report.rcept_no == result.get("rcept_no"):
                print("New report successfully saved to database.")
            else:
                print("Warning: New report may not have been saved correctly.")

    print("Processing completed for corporation:", corp_code)
    print("---")  # 각 기업 처리 결과 구분을 위한 구분선

AttributeError: 'dict' object has no attribute 'rcept_no'