<a href="https://colab.research.google.com/github/Tom-Jung/Tom-Jung/blob/main/API_LLM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
import requests
import xml.etree.ElementTree as ET
import os
import pandas as pd

# DART Open API 키 (본인의 API 키로 변경)
api_key = "85006d20472a255d5eae25ee265b5ed1b78d1386"

# 다운로드할 보고서의 연도
year = "2023"

# 다운로드 경로 설정
download_path = "/content/dart_xml"
if not os.path.exists(download_path):
    os.makedirs(download_path)

# 회사 목록 파일 (Excel 파일, 회사코드만 있는 column은 'corp_code'라고 가정)
company_list_file = "/content/company_list.xlsx"

# 회사 목록 파일을 pandas DataFrame으로 읽어오기
try:
    df_companies = pd.read_excel(company_list_file, dtype={'corp_code': str})  # Excel 파일 읽기
    company_codes = df_companies['corp_code'].tolist()
except FileNotFoundError:
    print(f"Error: File not found at {company_list_file}")
    exit()
except KeyError:
    print(f"Error: 'corp_code' column not found in {company_list_file}")
    exit()
except Exception as e:
    print(f"Error reading Excel file: {e}")
    exit()

# DART Open API URL
base_url = "http://dart.fss.or.kr/api/search.xml"

# 보고서 코드 (사업보고서, 감사보고서)
business_report_code = "11011"
audit_report_code = "A001"

# 회사 코드 목록을 순회하며 보고서 다운로드
for corp_code in company_codes:
    print(f"Processing company code: {corp_code}")

    # 사업보고서 다운로드 시도
    params = {
        "crp_cd": corp_code,
        "bsns_year": year,
        "reprt_code": business_report_code,
        "api_key": api_key,
        "dcm_type": "XML",  # XML 파일 요청
    }

    try:
        response = requests.get(base_url, params=params)
        response.raise_for_status()  # HTTP 오류 발생 시 예외 발생

        # 사업보고서가 존재하는 경우 다운로드
        xml_content = response.content
        root = ET.fromstring(xml_content)
        downloaded = False  # 다운로드 여부 확인 변수

        for item in root.findall(".//list"):
            try:
                report_url = item.find("atch_file_loc").text
                report_name = f"{item.find('atch_file_id').text}_{business_report_code}.xml" #사업보고서임을 명시
                full_path = os.path.join(download_path, report_name)

                # 보고서 다운로드
                report_response = requests.get(report_url, stream=True)
                report_response.raise_for_status()

                with open(full_path, "wb") as file:
                    for chunk in report_response.iter_content(chunk_size=8192):
                        file.write(chunk)

                print(f"  Downloaded Business Report: {report_name}")
                downloaded = True
                break  # 사업보고서 다운로드 성공 시 감사보고서 다운로드 시도 X

            except requests.exceptions.RequestException as e:
                print(f"  Failed to download Business Report: {e}")
            except AttributeError as e:
                print(f"  Missing attribute in Business Report: {e}")
            except Exception as e:
                print(f"  Error processing Business Report: {e}")

        if downloaded:  # 사업보고서 다운로드 성공 시 다음 회사로 넘어감
            continue

    except requests.exceptions.HTTPError as e:
        # 사업보고서가 없는 경우 감사보고서 다운로드 시도
        if e.response.status_code == 404:
            print(f"  Business report not found, trying Audit Report")
        else:
            print(f"  HTTP Error while trying Business Report: {e}")

    except ET.ParseError as e:
        print(f"  XML parsing failed for Business Report: {e}")

    except Exception as e:
        print(f"  Error while trying Business Report: {e}")


    # 사업보고서가 없거나 다운로드에 실패한 경우, 감사보고서 다운로드 시도
    params = {
        "crp_cd": corp_code,
        "bsns_year": year,
        "reprt_code": audit_report_code,
        "api_key": api_key,
        "dcm_type": "XML",  # XML 파일 요청
    }

    try:
        response = requests.get(base_url, params=params)
        response.raise_for_status()  # HTTP 오류 발생 시 예외 발생

        # 감사보고서 다운로드
        xml_content = response.content
        root = ET.fromstring(xml_content)

        for item in root.findall(".//list"):
            try:
                report_url = item.find("atch_file_loc").text
                report_name = f"{item.find('atch_file_id').text}_{audit_report_code}.xml" #감사보고서임을 명시
                full_path = os.path.join(download_path, report_name)

                # 보고서 다운로드
                report_response = requests.get(report_url, stream=True)
                report_response.raise_for_status()

                with open(full_path, "wb") as file:
                    for chunk in report_response.iter_content(chunk_size=8192):
                        file.write(chunk)

                print(f"  Downloaded Audit Report: {report_name}")
                break

            except requests.exceptions.RequestException as e:
                print(f"  Failed to download Audit Report: {e}")
            except AttributeError as e:
                print(f"  Missing attribute in Audit Report: {e}")
            except Exception as e:
                print(f"  Error processing Audit Report: {e}")


    except requests.exceptions.HTTPError as e:
        print(f"  HTTP Error while trying Audit Report: {e}")

    except ET.ParseError as e:
        print(f"  XML parsing failed for Audit Report: {e}")

    except Exception as e:
        print(f"  Error while trying Audit Report: {e}")


print("Download completed.")

Processing company code: 00171265
Processing company code: 00937324
Processing company code: 00139834
Processing company code: 00687711
Processing company code: 00111847
Processing company code: 00159740
Processing company code: 00135050
Processing company code: 00684918
Processing company code: 01719187
Processing company code: 00223762
Processing company code: 00504232
Processing company code: 00908757
Processing company code: 00305668
Processing company code: 00115977
Processing company code: 00980122
Processing company code: 00161125
Processing company code: 00330725
Processing company code: 00844936
Processing company code: 01030132
Processing company code: 01042711
Processing company code: 00164724
Processing company code: 00589127
Processing company code: 00258801
Processing company code: 00397252
Processing company code: 00104768
Processing company code: 00362441
Processing company code: 00255619
Processing company code: 00164779
Processing company code: 00152932
Processing com

KeyboardInterrupt: 

In [None]:
import xml.etree.ElementTree as ET
import google.generativeai as genai

# Gemini 설정
genai.configure(api_key='AIzaSyAYlvfzf4wDuNuLY82rIWpapb4ufMMRajE')  # Replace with your actual API key
model = genai.GenerativeModel('gemini-pro')

# XML 파싱
def extract_notes(xml_path):
    try:
        tree = ET.parse(xml_path)
        root = tree.getroot()
        notes = []

        for note in root.iter('Note'):  # Iterate specifically over 'Note' elements
            title = note.findtext('NoteTitle') or note.findtext('title') or ''
            content = note.findtext('NoteContent') or note.findtext('content') or ''
            if content:
                notes.append({'title': title, 'content': content})
        return notes
    except ET.ParseError as e:
        print(f"Error parsing XML: {e}")
        return []

# LLM 필터링
def find_interest_expense_notes(notes):
    filtered = []
    for note in notes:
        prompt = f"""다음은 감사보고서의 주석입니다.
제목: {note['title']}
내용: {note['content']}

이 주석은 '이자비용'과 관련된 내용인가요? 관련 있다면 "Yes", 아니면 "No"라고 답하세요. 한글로 간단히 설명도 해주세요."""
        response = model.generate_content(prompt)
        if "Yes" in response.text:
            filtered.append(note)
    return filtered

# 사용 예시
notes = extract_notes('/content/20240103000075_00760.xml')
if notes:  # Check if notes were extracted successfully
    interest_notes = find_interest_expense_notes(notes)

    for note in interest_notes:
        print("📌 관련 주석:", note['title'])
        print(note['content'])
        print("=" * 60)
else:
    print("No notes found in the XML file.")

No notes found in the XML file.


In [None]:
import xml.etree.ElementTree as ET
import google.generativeai as genai

# Gemini 설정
genai.configure(api_key='AIzaSyAYlvfzf4wDuNuLY82rIWpapb4ufMMRajE')  # Replace with your actual API key
model = genai.GenerativeModel('gemini-pro')

# XML 파싱
def extract_notes(xml_path):
    try:
        tree = ET.parse(xml_path)
        root = tree.getroot()
        notes = []

        for note in root.iter('Note'):  # Iterate specifically over 'Note' elements
            title = note.findtext('NoteTitle') or note.findtext('title') or ''
            content = note.findtext('NoteContent') or note.findtext('content') or ''
            if content:
                notes.append({'title': title, 'content': content})
        return notes
    except ET.ParseError as e:
        print(f"Error parsing XML: {e}")
        return []

# LLM 필터링
def find_interest_expense_notes(notes):
    filtered = []
    for note in notes:
        prompt = f"""다음은 감사보고서의 주석입니다.
제목: {note['title']}
내용: {note['content']}

이 주석은 '이자비용'과 관련된 내용인가요? 관련 있다면 "Yes", 아니면 "No"라고 답하세요. 한글로 간단히 설명도 해주세요."""
        response = model.generate_content(prompt)
        if "Yes" in response.text:
            filtered.append(note)
    return filtered

# 사용 예시
notes = extract_notes('/content/20240103000075_00760.xml')
if notes:  # Check if notes were extracted successfully
    interest_notes = find_interest_expense_notes(notes)

    for note in interest_notes:
        print("📌 관련 주석:", note['title'])
        print(note['content'])
        print("=" * 60)
else:
    print("No notes found in the XML file.")

No notes found in the XML file.


In [None]:
import xml.etree.ElementTree as ET
import google.generativeai as genai

# Gemini 설정
genai.configure(api_key='AIzaSyAYlvfzf4wDuNuLY82rIWpapb4ufMMRajE')  # Replace with your actual API key
model = genai.GenerativeModel('gemini-pro')

# XML 파싱
def extract_notes(xml_path):
    try:
        tree = ET.parse(xml_path)
        root = tree.getroot()
        notes = []

        for note in root.iter('Note'):  # Iterate specifically over 'Note' elements
            title = note.findtext('NoteTitle') or note.findtext('title') or ''
            content = note.findtext('NoteContent') or note.findtext('content') or ''
            if content:
                notes.append({'title': title, 'content': content})
        return notes
    except ET.ParseError as e:
        print(f"Error parsing XML: {e}")
        return []

# LLM 필터링
def find_interest_expense_notes(notes):
    filtered = []
    for note in notes:
        prompt = f"""다음은 감사보고서의 주석입니다.
제목: {note['title']}
내용: {note['content']}

이 주석은 '이자비용'과 관련된 내용인가요? 관련 있다면 "Yes", 아니면 "No"라고 답하세요. 한글로 간단히 설명도 해주세요."""
        response = model.generate_content(prompt)
        if "Yes" in response.text:
            filtered.append(note)
    return filtered

# 사용 예시
notes = extract_notes('/content/20240103000075_00760.xml')
if notes:  # Check if notes were extracted successfully
    interest_notes = find_interest_expense_notes(notes)

    for note in interest_notes:
        print("📌 관련 주석:", note['title'])
        print(note['content'])
        print("=" * 60)
else:
    print("No notes found in the XML file.")

No notes found in the XML file.


In [None]:
import xml.etree.ElementTree as ET
import google.generativeai as genai

# Gemini 설정
genai.configure(api_key='AIzaSyAYlvfzf4wDuNuLY82rIWpapb4ufMMRajE')  # Replace with your actual API key
model = genai.GenerativeModel('gemini-pro')

# XML 파싱
def extract_notes(xml_path):
    try:
        tree = ET.parse(xml_path)
        root = tree.getroot()
        notes = []

        for note in root.iter('Note'):  # Iterate specifically over 'Note' elements
            title = note.findtext('NoteTitle') or note.findtext('title') or ''
            content = note.findtext('NoteContent') or note.findtext('content') or ''
            if content:
                notes.append({'title': title, 'content': content})
        return notes
    except ET.ParseError as e:
        print(f"Error parsing XML: {e}")
        return []

# LLM 필터링
def find_interest_expense_notes(notes):
    filtered = []
    for note in notes:
        prompt = f"""다음은 감사보고서의 주석입니다.
제목: {note['title']}
내용: {note['content']}

이 주석은 '이자비용'과 관련된 내용인가요? 관련 있다면 "Yes", 아니면 "No"라고 답하세요. 한글로 간단히 설명도 해주세요."""
        response = model.generate_content(prompt)
        if "Yes" in response.text:
            filtered.append(note)
    return filtered

# 사용 예시
notes = extract_notes('/content/20240103000075_00760.xml')
if notes:  # Check if notes were extracted successfully
    interest_notes = find_interest_expense_notes(notes)

    for note in interest_notes:
        print("📌 관련 주석:", note['title'])
        print(note['content'])
        print("=" * 60)
else:
    print("No notes found in the XML file.")

No notes found in the XML file.


In [None]:
<Notes>
  <Note>
    <NoteTitle>차입금 및 이자비용</NoteTitle>
    <NoteContent>당기 이자비용은 회사의 차입금 증가로 인해...</NoteContent>
  </Note>
  <Note>
    <NoteTitle>충당부채</NoteTitle>
    <NoteContent>충당부채는 보증금 반환과 관련하여...</NoteContent>
  </Note>
</Notes>


SyntaxError: invalid syntax (<ipython-input-1-88bc6ab498f7>, line 1)

In [None]:
import xml.etree.ElementTree as ET
import google.generativeai as genai

# Gemini 설정
genai.configure(api_key='AIzaSyAYlvfzf4wDuNuLY82rIWpapb4ufMMRajE')
model = genai.GenerativeModel('gemini-pro')

# XML 파싱
def extract_notes(xml_path):
    tree = ET.parse(xml_path)
    root = tree.getroot()
    notes = []

    for note in root.iter():
        if 'title' in note.tag.lower() or 'content' in note.tag.lower():
            continue
        title = note.findtext('NoteTitle') or note.findtext('title') or ''
        content = note.findtext('NoteContent') or note.findtext('content') or ''
        if content:
            notes.append({'title': title, 'content': content})
    return notes

# LLM 필터링
def find_interest_expense_notes(notes):
    filtered = []
    for note in notes:
        prompt = f"""다음은 감사보고서의 주석입니다.
제목: {note['title']}
내용: {note['content']}

이 주석은 '현물출자'과 관련된 내용인가요? 관련 있다면 "Yes", 아니면 "No"라고 답하세요. 한글로 간단히 설명도 해주세요."""
        response = model.generate_content(prompt)
        if "Yes" in response.text:
            filtered.append(note)
    return filtered

# 사용 예시
notes = extract_notes('/content/20240103000075_00760.xml')
interest_notes = find_interest_expense_notes(notes)

for note in interest_notes:
    print("📌 관련 주석:", note['title'])
    print(note['content'])
    print("="*60)


In [None]:
import xml.etree.ElementTree as ET
import google.generativeai as genai

# Gemini 설정
genai.configure(api_key='AIzaSyAYlvfzf4wDuNuLY82rIWpapb4ufMMRajE')
model = genai.GenerativeModel('gemini-pro')

# XML 파싱 (BOM 제거 및 문자열로 파싱)
def extract_notes(xml_path):
    with open(xml_path, 'r', encoding='utf-8-sig') as f:
        xml_content = f.read()

    try:
        root = ET.fromstring(xml_content)
    except ET.ParseError as e:
        print("⚠️ XML Parse Error:", e)
        return []

    notes = []

    for note in root.iter():
        title = note.findtext('NoteTitle') or note.findtext('title') or ''
        content = note.findtext('NoteContent') or note.findtext('content') or ''
        if content:
            notes.append({'title': title.strip(), 'content': content.strip()})
    return notes

# LLM 필터링
def find_interest_expense_notes(notes):
    filtered = []
    for note in notes:
        prompt = f"""다음은 감사보고서의 주석입니다.
제목: {note['title']}
내용: {note['content']}

이 주석은 '현물출자'과 관련된 내용인가요? 관련 있다면 "Yes", 아니면 "No"라고 답하세요. 한글로 간단히 설명도 해주세요."""
        response = model.generate_content(prompt)
        if "Yes" in response.text:
            filtered.append(note)
    return filtered

# 사용 예시
notes = extract_notes('/content/20240103000075_00760.xml')
interest_notes = find_interest_expense_notes(notes)

for note in interest_notes:
    print("📌 관련 주석:", note['title'])
    print(note['content'])
    print("="*60)


In [None]:
notes = extract_notes('/content/20240103000075_00760.xml')
print(f"📄 추출된 주석 개수: {len(notes)}")  # 여기 추가!


📄 추출된 주석 개수: 0


In [None]:
import xml.etree.ElementTree as ET

# XML 파일 경로
xml_file = 'your_xml_file.xml'  # 다운로드받은 XML 파일 경로로 변경하세요.

# XML 파싱
tree = ET.parse('/content/20240103000075_00760.xml')
root = tree.getroot()

# 이자비용을 찾기 위한 키워드 (예시)
keywords = ['이자비용', '지급이자', '이자비용(수익)']

# 이자비용 관련 데이터를 찾기 위한 함수
def find_interest_expense(root, keywords):
    for element in root.iter():
        try:
            if element.tag in keywords or any(keyword in element.text for keyword in keywords if element.text):
                print(f"Tag: {element.tag}, Text: {element.text}")  # 찾은 요소의 태그와 텍스트 출력
                # 숫자 데이터 추출 및 반환 (정확한 태그 구조에 따라 수정 필요)
                try:
                    value = float(element.text.replace(',', ''))  # 쉼표 제거 후 숫자로 변환
                    return value
                except (ValueError, TypeError):
                    pass  # 숫자로 변환 실패 시 무시
        except:
            pass
    return None  # 찾지 못한 경우 None 반환

# 이자비용 찾기 및 출력
interest_expense = find_interest_expense(root, keywords)

if interest_expense:
    print(f"이자비용: {interest_expense}")
else:
    print("이자비용을 찾을 수 없습니다.")

Tag: TE, Text: 이자비용
이자비용을 찾을 수 없습니다.


In [None]:
import xml.etree.ElementTree as ET

# XML 파일 경로
xml_file = 'your_xml_file.xml'

# XML 파싱
tree = ET.parse('/content/20240411003596_00760.xml')
root = tree.getroot()

# 이자비용을 찾기 위한 키워드
keywords = ['이자율', '지급이자', '이자비용(수익)']

# 이자비용 관련 데이터를 찾기 위한 함수 (개선)
def find_interest_expense(root, keywords):
    for element in root.iter():
        try:
            if element.tag == 'TE' and element.text and any(keyword in element.text for keyword in keywords):
                print(f"Tag: {element.tag}, Text: {element.text}")
                # 부모 태그 또는 형제 태그에서 금액 정보 찾기 (예시)
                parent = element.getparent()
                if parent is not None:
                    # 부모 태그의 자식 중 금액 관련 태그 탐색 (구조에 따라 수정 필요)
                    for child in parent:
                        try:
                            value = float(child.text.replace(',', ''))  # 쉼표 제거 후 숫자로 변환
                            print(f"  Found value in child tag {child.tag}: {value}")
                            return value
                        except (ValueError, TypeError, AttributeError):
                            pass
        except:
            pass
    return None

# 이자비용 찾기 및 출력
interest_expense = find_interest_expense(root, keywords)

if interest_expense:
    print(f"이자율: {interest_expense}")
else:
    print("이자율을 찾을 수 없습니다.")

이자율을 찾을 수 없습니다.


In [None]:
import xml.etree.ElementTree as ET

# XML 파일 경로
xml_file = '/content/20240411003596_00760.xml'

# XML 파싱
tree = ET.parse(xml_file)
root = tree.getroot()

# 이자비용을 찾기 위한 함수 (개선)
def find_interest_expense(root):
    # 손익계산서 테이블만 탐색 (PIS-2:A 클래스를 가진 TABLE-GROUP)
    for table_group in root.findall(".//TABLE-GROUP[@CLASS='PIS-2:A']"):
        for table in table_group.findall(".//TABLE"):
            for tr in table.findall(".//TR"):
                # 첫 번째 TE 태그가 "이자비용"인지 확인
                te_list = tr.findall(".//TE")  # TR 태그 내의 모든 TE 태그를 찾음
                if len(te_list) > 0 and te_list[0].text == "이자율":
                    print(f"Found Interest Expense Row")
                    # 두 번째 TE 태그에서 당기 이자비용 추출
                    try:
                        current_interest = float(te_list[1].text.replace(',', ''))
                        print(f"  Current Interest Expense: {current_interest}")
                    except (ValueError, AttributeError, IndexError):
                        current_interest = None
                        print("  Could not extract current interest expense")
                    # 네 번째 TE 태그에서 전기 이자비용 추출
                    try:
                        previous_interest = float(te_list[3].text.replace(',', ''))
                        print(f"  Previous Interest Expense: {previous_interest}")
                    except (ValueError, AttributeError, IndexError):
                         previous_interest = None
                         print("  Could not extract previous interest expense")

                    return current_interest, previous_interest # 당기, 전기 이자비용 반환
    return None, None  # 찾지 못한 경우 None 반환

# 이자비용 찾기 및 출력
current_interest, previous_interest = find_interest_expense(root)

if current_interest is not None:
    print(f"Current Interest Expense: {current_interest}")
else:
    print("Current Interest Expense not found")

if previous_interest is not None:
    print(f"Previous Interest Expense: {previous_interest}")
else:
    print("Previous Interest Expense not found")

Current Interest Expense not found
Previous Interest Expense not found


In [None]:
import xml.etree.ElementTree as ET

# XML 파일 경로
xml_file = '/content/20240103000075_00760.xml'

# 네임스페이스 정의
namespace = {'': ''} # 기본 네임스페이스

# XML 파싱
tree = ET.parse(xml_file)
root = tree.getroot()

# 이자비용을 찾기 위한 함수 (개선)
def find_interest_expense(root):
    # 손익계산서 테이블만 탐색 (PIS-2:A 클래스를 가진 TABLE-GROUP)
    for table_group in root.findall(".//TABLE-GROUP[@CLASS='PIS-2:A']", namespace):
        for table in table_group.findall(".//TABLE", namespace):
            for tr in table.findall(".//TR", namespace):
                # 첫 번째 TE 태그가 "이자비용"인지 확인
                te_list = tr.findall(".//TE", namespace)  # TR 태그 내의 모든 TE 태그를 찾음
                if len(te_list) > 0 and te_list[0].text == "이자비용":
                    print(f"Found Interest Expense Row")
                    # 두 번째 TE 태그에서 당기 이자비용 추출
                    try:
                        current_interest = float(te_list[1].text.replace(',', ''))
                        print(f"  Current Interest Expense: {current_interest}")
                    except (ValueError, AttributeError, IndexError):
                        current_interest = None
                        print("  Could not extract current interest expense")
                    # 네 번째 TE 태그에서 전기 이자비용 추출
                    try:
                        previous_interest = float(te_list[3].text.replace(',', ''))
                        print(f"  Previous Interest Expense: {previous_interest}")
                    except (ValueError, AttributeError, IndexError):
                         previous_interest = None
                         print("  Could not extract previous interest expense")

                    return current_interest, previous_interest # 당기, 전기 이자비용 반환
    return None, None  # 찾지 못한 경우 None 반환

# 이자비용 찾기 및 출력
current_interest, previous_interest = find_interest_expense(root)

if current_interest is not None:
    print(f"Current Interest Expense: {current_interest}")
else:
    print("Current Interest Expense not found")

if previous_interest is not None:
    print(f"Previous Interest Expense: {previous_interest}")
else:
    print("Previous Interest Expense not found")

Current Interest Expense not found
Previous Interest Expense not found


In [None]:
import xml.etree.ElementTree as ET

# XML 파일 경로
xml_file = '/content/20240411003596_00760.xml'

# 네임스페이스 정의 (필요한 경우)
namespace = {'': ''}

# XML 파싱
tree = ET.parse(xml_file)
root = tree.getroot()

# 이자비용을 찾기 위한 함수 (개선)
def find_interest_expense(root):
    current_interest = None
    previous_interest = None

    # 1. 손익계산서에서 이자비용 찾기
    print("Searching in Income Statement...")
    for table_group in root.findall(".//TABLE-GROUP[@CLASS='PIS-2:A']", namespace):
        for table in table_group.findall(".//TABLE", namespace):
            for tr in table.findall(".//TR", namespace):
                te_list = tr.findall(".//TE", namespace)
                if len(te_list) > 0 and te_list[0].text == "이자비용":
                    print("Found Interest Expense Row in Income Statement")
                    try:
                        current_interest = float(te_list[1].text.replace(',', ''))
                        print(f"  Current Interest Expense: {current_interest}")
                    except (ValueError, AttributeError, IndexError):
                        current_interest = None
                        print("  Could not extract current interest expense from Income Statement")
                    try:
                        previous_interest = float(te_list[3].text.replace(',', ''))
                        print(f"  Previous Interest Expense: {previous_interest}")
                    except (ValueError, AttributeError, IndexError):
                         previous_interest = None
                         print("  Could not extract previous interest expense from Income Statement")
                    if current_interest is not None or previous_interest is not None:
                        return current_interest, previous_interest

    # 2. 주석에서 이자비용 찾기
    print("Searching in Notes...")
    for section in root.findall(".//SECTION-2[@CLASS='MANDATORY']", namespace): # 주석 섹션 탐색
        for element in section.findall(".//TE", namespace): # 주석 섹션 내의 TE 탐색
            if element.text and "이자비용" in element.text:
                print(f"Found '이자비용' in Notes Section")
                try:
                    # 주석의 구조는 매우 다양하므로, 일반적인 방법으로는 금액 추출이 어려움
                    # 따라서 여기서는 TE 태그의 텍스트를 출력하고,
                    # 사용자가 직접 금액을 확인하고 추출하도록 안내함
                    print(f"  Potential Interest Expense Text: {element.text}")
                    # 주석에서 이자비용 금액을 추출하는 코드는
                    # 주석의 구조에 따라 매우 달라지므로,
                    # 여기서는 생략함.
                    # 필요하다면, 주석의 구조를 분석하여
                    # 적절한 XPath 표현식이나 문자열 처리 방법을 사용해야 함.

                except (ValueError, AttributeError):
                    print("  Could not extract interest expense from Notes Section")

    return current_interest, previous_interest  # 찾지 못한 경우 None 반환

# 이자비용 찾기 및 출력
current_interest, previous_interest = find_interest_expense(root)

if current_interest is not None:
    print(f"Current Interest Expense: {current_interest}")
else:
    print("Current Interest Expense not found")

if previous_interest is not None:
    print(f"Previous Interest Expense: {previous_interest}")
else:
    print("Previous Interest Expense not found")

Searching in Income Statement...
Searching in Notes...
Current Interest Expense not found
Previous Interest Expense not found


In [None]:
import xml.etree.ElementTree as ET

# XML 파일 경로
xml_file = '/content/20240411003596_00760.xml'

# 네임스페이스 정의 (이 XML 파일은 네임스페이스를 사용합니다)
namespace = {'': None}  # 기본 네임스페이스 사용 안함

# XML 파싱
tree = ET.parse(xml_file)
root = tree.getroot()

# 이자비용을 찾기 위한 함수 (개선)
def find_interest_expense(root):
    current_interest = None
    previous_interest = None
    found_table_group = False

    # 손익계산서 테이블을 찾기 위해 직접 TABLE 태그 탐색
    for table_group in root.findall(".//TABLE-GROUP", namespace):  # 클래스 속성 제거
         if table_group.find(".//TITLE", namespace) is not None and table_group.find(".//TITLE", namespace).text == "손 익 계 산 서": #제목으로 손익계산서 확인
                print("Found 손익 계산서 TABLE-GROUP")
                found_table_group = True
                for table in table_group.findall(".//TABLE", namespace):
                    for tr in table.findall(".//TR", namespace):
                        te_list = tr.findall(".//TE", namespace)

                        # 첫 번째 TE 태그가 "이자비용"인지 확인
                        if len(te_list) > 0 and te_list[0].text == "이자비용":
                            print("Found Interest Expense Row")
                            # 두 번째 TE 태그에서 당기 이자비용 추출
                            try:
                                current_interest = float(te_list[1].text.replace(',', ''))
                                print(f"  Current Interest Expense: {current_interest}")
                            except (ValueError, AttributeError, IndexError):
                                current_interest = None
                                print("  Could not extract current interest expense from Income Statement")
                            # 네 번째 TE 태그에서 전기 이자비용 추출
                            try:
                                previous_interest = float(te_list[3].text.replace(',', ''))
                                print(f"  Previous Interest Expense: {previous_interest}")
                            except (ValueError, AttributeError, IndexError):
                                previous_interest = None
                                print("  Could not extract previous interest expense from Income Statement")
                            if current_interest is not None or previous_interest is not None:
                                return current_interest, previous_interest
                break  # 손익계산서 테이블을 찾았으면 더 이상 탐색하지 않음

    if not found_table_group:
        print("Income Statement Table Group Not Found")
    return current_interest, previous_interest  # 찾지 못한 경우 None 반환

# 이자비용 찾기 및 출력
current_interest, previous_interest = find_interest_expense(root)

if current_interest is not None:
    print(f"Current Interest Expense: {current_interest}")
else:
    print("Current Interest Expense not found")

if previous_interest is not None:
    print(f"Previous Interest Expense: {previous_interest}")
else:
    print("Previous Interest Expense not found")

Found 손익 계산서 TABLE-GROUP
Found Interest Expense Row
  Current Interest Expense: 804583691.0
  Previous Interest Expense: 502472644.0
Current Interest Expense: 804583691.0
Previous Interest Expense: 502472644.0


In [None]:
import xml.etree.ElementTree as ET

# XML 파일 경로
xml_file = '/content/20240411003596_00760.xml'

# 네임스페이스 정의 (이 XML 파일은 네임스페이스를 사용합니다)
namespace = {'': None}  # 기본 네임스페이스 사용 안함

# XML 파싱
tree = ET.parse(xml_file)
root = tree.getroot()

# 이자비용을 찾기 위한 함수 (개선)
def find_interest_expense(root):
    current_interest = None
    previous_interest = None
    found_table_group = False

    # 손익계산서 테이블을 찾기 위해 직접 TABLE 태그 탐색
    for table_group in root.findall(".//TABLE-GROUP", namespace):  # 클래스 속성 제거
         if table_group.find(".//TITLE", namespace) is not None and table_group.find(".//TITLE", namespace).text == "손 익 계 산 서": #제목으로 손익계산서 확인
                print("Found 손익 계산서 TABLE-GROUP")
                found_table_group = True
                for table in table_group.findall(".//TABLE", namespace):
                    for tr in table.findall(".//TR", namespace):
                        te_list = tr.findall(".//TE", namespace)

                        # 첫 번째 TE 태그가 "이자비용"인지 확인
                        if len(te_list) > 0 and te_list[0].text == "이자비용":
                            print("Found Interest Expense Row")
                            # **인덱스 변경: 당기 -> 3, 전기 -> 1**
                            try:
                                current_interest = float(te_list[3].text.replace(',', ''))  # 당기: 인덱스 3
                                print(f"  Current Interest Expense: {current_interest}")
                            except (ValueError, AttributeError, IndexError):
                                current_interest = None
                                print("  Could not extract current interest expense from Income Statement")
                            try:
                                previous_interest = float(te_list[1].text.replace(',', ''))  # 전기: 인덱스 1
                                print(f"  Previous Interest Expense: {previous_interest}")
                            except (ValueError, AttributeError, IndexError):
                                previous_interest = None
                                print("  Could not extract previous interest expense from Income Statement")
                            if current_interest is not None or previous_interest is not None:
                                return current_interest, previous_interest
                break  # 손익계산서 테이블을 찾았으면 더 이상 탐색하지 않음

    if not found_table_group:
        print("Income Statement Table Group Not Found")
    return current_interest, previous_interest  # 찾지 못한 경우 None 반환

# 이자비용 찾기 및 출력
current_interest, previous_interest = find_interest_expense(root)

if current_interest is not None:
    print(f"Current Interest Expense: {current_interest}")
else:
    print("Current Interest Expense not found")

if previous_interest is not None:
    print(f"Previous Interest Expense: {previous_interest}")
else:
    print("Previous Interest Expense not found")

Found 손익 계산서 TABLE-GROUP
Found Interest Expense Row
  Current Interest Expense: 502472644.0
  Previous Interest Expense: 804583691.0
Current Interest Expense: 502472644.0
Previous Interest Expense: 804583691.0


In [None]:
import xml.etree.ElementTree as ET

# XML 파일 경로
xml_file = '/content/20240411003596_00760.xml'

# 네임스페이스 정의 (이 XML 파일은 네임스페이스를 사용합니다)
namespace = {'': None}  # 기본 네임스페이스 사용 안함

# XML 파싱
tree = ET.parse(xml_file)
root = tree.getroot()

# 이자비용을 찾기 위한 함수 (개선)
def find_interest_expense(root):
    current_interest = None
    previous_interest = None
    found_table_group = False

    # 손익계산서 테이블을 찾기 위해 직접 TABLE 태그 탐색
    for table_group in root.findall(".//TABLE-GROUP", namespace):  # 클래스 속성 제거
         if table_group.find(".//TITLE", namespace) is not None and table_group.find(".//TITLE", namespace).text == "손 익 계 산 서": #제목으로 손익계산서 확인
                print("Found 손익 계산서 TABLE-GROUP")
                found_table_group = True
                for table in table_group.findall(".//TABLE", namespace):
                    for tr in table.findall(".//TR", namespace):
                        te_list = tr.findall(".//TE", namespace)

                        # 첫 번째 TE 태그가 "이자비용"인지 확인
                        if len(te_list) > 0 and te_list[0].text == "이자비용":
                            print("Found Interest Expense Row")
                            # **인덱스 변경: 당기 -> 1, 전기 -> 3**  (인덱스 위치를 바꿈)
                            try:
                                previous_interest = float(te_list[3].text.replace(',', ''))  # 전기: 인덱스 3
                                print(f"  Previous Interest Expense: {previous_interest}")
                            except (ValueError, AttributeError, IndexError):
                                previous_interest = None
                                print("  Could not extract previous interest expense from Income Statement")

                            try:
                                current_interest = float(te_list[1].text.replace(',', ''))  # 당기: 인덱스 1
                                print(f"  Current Interest Expense: {current_interest}")
                            except (ValueError, AttributeError, IndexError):
                                current_interest = None
                                print("  Could not extract current interest expense from Income Statement")

                            if current_interest is not None or previous_interest is not None:
                                return current_interest, previous_interest
                break  # 손익계산서 테이블을 찾았으면 더 이상 탐색하지 않음

    if not found_table_group:
        print("Income Statement Table Group Not Found")
    return current_interest, previous_interest  # 찾지 못한 경우 None 반환

# 이자비용 찾기 및 출력
current_interest, previous_interest = find_interest_expense(root)

if current_interest is not None:
    print(f"Current Interest Expense: {current_interest}")
else:
    print("Current Interest Expense not found")

if previous_interest is not None:
    print(f"Previous Interest Expense: {previous_interest}")
else:
    print("Previous Interest Expense not found")

Found 손익 계산서 TABLE-GROUP
Found Interest Expense Row
  Previous Interest Expense: 502472644.0
  Current Interest Expense: 804583691.0
Current Interest Expense: 804583691.0
Previous Interest Expense: 502472644.0


In [None]:
import xml.etree.ElementTree as ET

# XML 파일 경로
xml_file = '/content/20240411003596_00760.xml'

# 네임스페이스 정의 (이 XML 파일은 네임스페이스를 사용합니다)
namespace = {'': None}  # 기본 네임스페이스 사용 안함

# XML 파싱
tree = ET.parse(xml_file)
root = tree.getroot()

# 이자비용을 찾기 위한 함수 (개선)
def find_interest_expense(root):
    current_interest = None
    previous_interest = None
    found_table_group = False

    # 손익계산서 테이블을 찾기 위해 직접 TABLE 태그 탐색
    for table_group in root.findall(".//TABLE-GROUP", namespace):  # 클래스 속성 제거
         if table_group.find(".//TITLE", namespace) is not None and table_group.find(".//TITLE", namespace).text == "손 익 계 산 서": #제목으로 손익계산서 확인
                print("Found 손익 계산서 TABLE-GROUP")
                found_table_group = True
                for table in table_group.findall(".//TABLE", namespace):
                    for tr in table.findall(".//TR", namespace):
                        te_list = tr.findall(".//TE", namespace)

                        # 첫 번째 TE 태그가 "이자비용"인지 확인
                        if len(te_list) > 0 and te_list[0].text == "이자비용":
                            print("Found Interest Expense Row")
                            # **인덱스 변경: 당기 -> 1, 전기 -> 3**  (인덱스 위치를 바꿈)
                            try:
                                previous_interest = float(te_list[3].text.replace(',', ''))  # 전기: 인덱스 3
                                print(f"  Previous Interest Expense: {previous_interest}")
                            except (ValueError, AttributeError, IndexError):
                                previous_interest = None
                                print("  Could not extract previous interest expense from Income Statement")

                            try:
                                current_interest = float(te_list[1].text.replace(',', ''))  # 당기: 인덱스 1
                                print(f"  Current Interest Expense: {current_interest}")
                            except (ValueError, AttributeError, IndexError):
                                current_interest = None
                                print("  Could not extract current interest expense from Income Statement")

                            if current_interest is not None or previous_interest is not None:
                                return current_interest, previous_interest
                break  # 손익계산서 테이블을 찾았으면 더 이상 탐색하지 않음

    if not found_table_group:
        print("Income Statement Table Group Not Found")
    return current_interest, previous_interest  # 찾지 못한 경우 None 반환

# 이자비용 찾기 및 출력
current_interest, previous_interest = find_interest_expense(root)

if previous_interest is not None:  # 이전 기간 이자 먼저 출력
    print(f"Previous Interest Expense: {previous_interest}")
else:
    print("Previous Interest Expense not found")

if current_interest is not None:
    print(f"Current Interest Expense: {current_interest}")
else:
    print("Current Interest Expense not found")

Found 손익 계산서 TABLE-GROUP
Found Interest Expense Row
  Previous Interest Expense: 502472644.0
  Current Interest Expense: 804583691.0
Previous Interest Expense: 502472644.0
Current Interest Expense: 804583691.0


In [None]:
import xml.etree.ElementTree as ET
import pandas as pd

# XML 파일 경로
xml_file = '/content/20240411003596_00760.xml'

# 네임스페이스 정의 (이 XML 파일은 네임스페이스를 사용합니다)
namespace = {'': None}  # 기본 네임스페이스 사용 안함

# XML 파싱
tree = ET.parse(xml_file)
root = tree.getroot()

# 이자비용을 찾기 위한 함수 (개선)
def find_interest_expense(root):
    current_interest = None
    previous_interest = None
    found_table_group = False

    # 손익계산서 테이블을 찾기 위해 직접 TABLE 태그 탐색
    for table_group in root.findall(".//TABLE-GROUP", namespace):  # 클래스 속성 제거
         if table_group.find(".//TITLE", namespace) is not None and table_group.find(".//TITLE", namespace).text == "손 익 계 산 서": #제목으로 손익계산서 확인
                print("Found 손익 계산서 TABLE-GROUP")
                found_table_group = True
                for table in table_group.findall(".//TABLE", namespace):
                    for tr in table.findall(".//TR", namespace):
                        te_list = tr.findall(".//TE", namespace)

                        # 첫 번째 TE 태그가 "이자비용"인지 확인
                        if len(te_list) > 0 and te_list[0].text == "이자비용":
                            print("Found Interest Expense Row")
                            # **인덱스 변경: 당기 -> 1, 전기 -> 3**  (인덱스 위치를 바꿈)
                            try:
                                previous_interest = float(te_list[3].text.replace(',', ''))  # 전기: 인덱스 3
                                print(f"  Previous Interest Expense: {previous_interest}")
                            except (ValueError, AttributeError, IndexError):
                                previous_interest = None
                                print("  Could not extract previous interest expense from Income Statement")

                            try:
                                current_interest = float(te_list[1].text.replace(',', ''))  # 당기: 인덱스 1
                                print(f"  Current Interest Expense: {current_interest}")
                            except (ValueError, AttributeError, IndexError):
                                current_interest = None
                                print("  Could not extract current interest expense from Income Statement")

                            if current_interest is not None or previous_interest is not None:
                                return current_interest, previous_interest
                break  # 손익계산서 테이블을 찾았으면 더 이상 탐색하지 않음

    if not found_table_group:
        print("Income Statement Table Group Not Found")
    return current_interest, previous_interest  # 찾지 못한 경우 None 반환

# 이자비용 찾기 및 출력
current_interest, previous_interest = find_interest_expense(root)

# 결과를 pandas DataFrame으로 만들기
data = {'구분': ['전기', '당기'],
        '이자비용': [previous_interest, current_interest]}
df = pd.DataFrame(data)

# NaN 값을 빈 문자열로 채우기 (출력시 None 방지)
df = df.fillna('')

# 엑셀 파일로 저장
excel_file = '이자비용.xlsx'
df.to_excel(excel_file, index=False)

print(f"이자비용 데이터를 {excel_file} 파일로 저장했습니다.")

Found 손익 계산서 TABLE-GROUP
Found Interest Expense Row
  Previous Interest Expense: 502472644.0
  Current Interest Expense: 804583691.0
이자비용 데이터를 이자비용.xlsx 파일로 저장했습니다.


In [None]:
import xml.etree.ElementTree as ET
import pandas as pd

# XML 파일 경로
xml_file = '/content/20240411003596_00760.xml'

# 네임스페이스 정의 (이 XML 파일은 네임스페이스를 사용합니다)
namespace = {'': None}  # 기본 네임스페이스 사용 안함

# XML 파싱
tree = ET.parse(xml_file)
root = tree.getroot()

# 회사 이름, 법인등록번호 추출 함수
def get_company_info(root):
    company_name = None
    company_reg_num = None

    # 회사 이름 추출 (예시 경로, 실제 XML 구조에 맞게 수정 필요)
    try:
        company_name_element = root.find(".//COMPANY", namespace) # 예시: COMPANY 태그에 회사 이름
        if company_name_element is not None:
            company_name = company_name_element.text
    except:
        print("Could not extract company name.")

    # 법인등록번호 추출 (예시 경로, 실제 XML 구조에 맞게 수정 필요)
    try:
        company_reg_num_element = root.find(".//REG-NUM", namespace) # 예시: REG-NUM 태그에 법인등록번호
        if company_reg_num_element is not None:
            company_reg_num = company_reg_num_element.text
    except:
        print("Could not extract company registration number.")

    return company_name, company_reg_num


# 이자비용을 찾기 위한 함수 (개선)
def find_interest_expense(root):
    current_interest = None
    previous_interest = None
    found_table_group = False

    # 손익계산서 테이블을 찾기 위해 직접 TABLE 태그 탐색
    for table_group in root.findall(".//TABLE-GROUP", namespace):  # 클래스 속성 제거
         if table_group.find(".//TITLE", namespace) is not None and table_group.find(".//TITLE", namespace).text == "손 익 계 산 서": #제목으로 손익계산서 확인
                print("Found 손익 계산서 TABLE-GROUP")
                found_table_group = True
                for table in table_group.findall(".//TABLE", namespace):
                    for tr in table.findall(".//TR", namespace):
                        te_list = tr.findall(".//TE", namespace)

                        # 첫 번째 TE 태그가 "이자비용"인지 확인
                        if len(te_list) > 0 and te_list[0].text == "이자비용":
                            print("Found Interest Expense Row")
                            # **인덱스 변경: 당기 -> 1, 전기 -> 3**  (인덱스 위치를 바꿈)
                            try:
                                previous_interest = float(te_list[3].text.replace(',', ''))  # 전기: 인덱스 3
                                print(f"  Previous Interest Expense: {previous_interest}")
                            except (ValueError, AttributeError, IndexError):
                                previous_interest = None
                                print("  Could not extract previous interest expense from Income Statement")

                            try:
                                current_interest = float(te_list[1].text.replace(',', ''))  # 당기: 인덱스 1
                                print(f"  Current Interest Expense: {current_interest}")
                            except (ValueError, AttributeError, IndexError):
                                current_interest = None
                                print("  Could not extract current interest expense from Income Statement")

                            if current_interest is not None or previous_interest is not None:
                                return current_interest, previous_interest
                break  # 손익계산서 테이블을 찾았으면 더 이상 탐색하지 않음

    if not found_table_group:
        print("Income Statement Table Group Not Found")
    return current_interest, previous_interest  # 찾지 못한 경우 None 반환

# 회사 정보와 이자비용 찾기
company_name, company_reg_num = get_company_info(root)
current_interest, previous_interest = find_interest_expense(root)

# 결과를 pandas DataFrame으로 만들기
data = {'항목': ['회사명', '법인등록번호', '구분', '이자비용'],
        '값': [company_name, company_reg_num, '전기', previous_interest,  '당기', current_interest]} #항목과 값을 매칭시켜서 넣기

df = pd.DataFrame({ '항목': ['회사명', '법인등록번호', '전기', '당기'],
                    '값': [company_name, company_reg_num, previous_interest, current_interest]})


# NaN 값을 빈 문자열로 채우기 (출력시 None 방지)
df = df.fillna('')

# 엑셀 파일로 저장
excel_file = '이자비용.xlsx'
df.to_excel(excel_file, index=False)

print(f"이자비용 데이터를 {excel_file} 파일로 저장했습니다.")

Found 손익 계산서 TABLE-GROUP
Found Interest Expense Row
  Previous Interest Expense: 502472644.0
  Current Interest Expense: 804583691.0
이자비용 데이터를 이자비용.xlsx 파일로 저장했습니다.


In [None]:
import xml.etree.ElementTree as ET
import pandas as pd

# XML 파일 경로
xml_file = '/content/20240411003596_00760.xml'

# 네임스페이스 정의 (이 XML 파일은 네임스페이스를 사용합니다)
namespace = {'': None}  # 기본 네임스페이스 사용 안함

# XML 파싱
tree = ET.parse(xml_file)
root = tree.getroot()

# 회사 이름, 법인등록번호 추출 함수
def get_company_info(root):
    company_name = None
    company_reg_num = None

    # 회사 이름 추출 (예시 경로, 실제 XML 구조에 맞게 수정 필요)
    try:
        company_name_element = root.find(".//entNm", namespace)  # 수정된 XPath: entNm 태그 사용
        if company_name_element is not None:
            company_name = company_name_element.text
    except:
        print("Could not extract company name.")

    # 법인등록번호 추출 (예시 경로, 실제 XML 구조에 맞게 수정 필요)
    try:
        company_reg_num_element = root.find(".//bizrNo", namespace)  # 수정된 XPath: bizrNo 태그 사용
        if company_reg_num_element is not None:
            company_reg_num = company_reg_num_element.text
    except:
        print("Could not extract company registration number.")

    return company_name, company_reg_num


# 이자비용을 찾기 위한 함수 (개선)
def find_interest_expense(root):
    current_interest = None
    previous_interest = None
    found_table_group = False

    # 손익계산서 테이블을 찾기 위해 직접 TABLE 태그 탐색
    for table_group in root.findall(".//TABLE-GROUP", namespace):  # 클래스 속성 제거
         if table_group.find(".//TITLE", namespace) is not None and table_group.find(".//TITLE", namespace).text == "손 익 계 산 서": #제목으로 손익계산서 확인
                print("Found 손익 계산서 TABLE-GROUP")
                found_table_group = True
                for table in table_group.findall(".//TABLE", namespace):
                    for tr in table.findall(".//TR", namespace):
                        te_list = tr.findall(".//TE", namespace)

                        # 첫 번째 TE 태그가 "이자비용"인지 확인
                        if len(te_list) > 0 and te_list[0].text == "이자비용":
                            print("Found Interest Expense Row")
                            # **인덱스 변경: 당기 -> 1, 전기 -> 3**  (인덱스 위치를 바꿈)
                            try:
                                previous_interest = float(te_list[3].text.replace(',', ''))  # 전기: 인덱스 3
                                print(f"  Previous Interest Expense: {previous_interest}")
                            except (ValueError, AttributeError, IndexError):
                                previous_interest = None
                                print("  Could not extract previous interest expense from Income Statement")

                            try:
                                current_interest = float(te_list[1].text.replace(',', ''))  # 당기: 인덱스 1
                                print(f"  Current Interest Expense: {current_interest}")
                            except (ValueError, AttributeError, IndexError):
                                current_interest = None
                                print("  Could not extract current interest expense from Income Statement")

                            if current_interest is not None or previous_interest is not None:
                                return current_interest, previous_interest
                break  # 손익계산서 테이블을 찾았으면 더 이상 탐색하지 않음

    if not found_table_group:
        print("Income Statement Table Group Not Found")
    return current_interest, previous_interest  # 찾지 못한 경우 None 반환

# 회사 정보와 이자비용 찾기
company_name, company_reg_num = get_company_info(root)
current_interest, previous_interest = find_interest_expense(root)

# 결과를 pandas DataFrame으로 만들기
data = {'항목': ['회사명', '법인등록번호', '전기', '당기'],
        '값': [company_name, company_reg_num, previous_interest, current_interest]}

df = pd.DataFrame(data)


# NaN 값을 빈 문자열로 채우기 (출력시 None 방지)
df = df.fillna('')

# 엑셀 파일로 저장
excel_file = '이자비용.xlsx'
df.to_excel(excel_file, index=False)

print(f"이자비용 데이터를 {excel_file} 파일로 저장했습니다.")

Found 손익 계산서 TABLE-GROUP
Found Interest Expense Row
  Previous Interest Expense: 502472644.0
  Current Interest Expense: 804583691.0
이자비용 데이터를 이자비용.xlsx 파일로 저장했습니다.


In [None]:
import xml.etree.ElementTree as ET
import pandas as pd

# XML 파일 경로
xml_file = '/content/20240411003596_00760.xml'

# 네임스페이스 정의 (이 XML 파일은 네임스페이스를 사용합니다)
namespace = {'': None}  # 기본 네임스페이스 사용 안함

# XML 파싱
tree = ET.parse(xml_file)
root = tree.getroot()

# 회사 이름, 법인등록번호 추출 함수
def get_company_info(root):
    company_name = None
    company_reg_num = None

    # 회사 이름 추출 (예시 경로, 실제 XML 구조에 맞게 수정 필요)
    try:
        company_name_element = root.find(".//entNm", namespace)  # 수정된 XPath: entNm 태그 사용
        if company_name_element is not None:
            company_name = company_name_element.text
    except:
        print("Could not extract company name.")

    # 법인등록번호 추출 (예시 경로, 실제 XML 구조에 맞게 수정 필요)
    try:
        company_reg_num_element = root.find(".//bizrNo", namespace)  # 수정된 XPath: bizrNo 태그 사용
        if company_reg_num_element is not None:
            company_reg_num = company_reg_num_element.text
    except:
        print("Could not extract company registration number.")

    return company_name, company_reg_num


# 이자비용을 찾기 위한 함수 (개선)
def find_interest_expense(root):
    current_interest = None
    previous_interest = None
    found_table_group = False

    # 손익계산서 테이블을 찾기 위해 직접 TABLE 태그 탐색
    for table_group in root.findall(".//TABLE-GROUP", namespace):  # 클래스 속성 제거
         if table_group.find(".//TITLE", namespace) is not None and table_group.find(".//TITLE", namespace).text == "손 익 계 산 서": #제목으로 손익계산서 확인
                print("Found 손익 계산서 TABLE-GROUP")
                found_table_group = True
                for table in table_group.findall(".//TABLE", namespace):
                    for tr in table.findall(".//TR", namespace):
                        te_list = tr.findall(".//TE", namespace)

                        # 첫 번째 TE 태그가 "이자비용"인지 확인
                        if len(te_list) > 0 and te_list[0].text == "이자비용":
                            print("Found Interest Expense Row")
                            # **인덱스 변경: 당기 -> 1, 전기 -> 3**  (인덱스 위치를 바꿈)
                            try:
                                previous_interest = float(te_list[3].text.replace(',', ''))  # 전기: 인덱스 3
                                print(f"  Previous Interest Expense: {previous_interest}")
                            except (ValueError, AttributeError, IndexError):
                                previous_interest = None
                                print("  Could not extract previous interest expense from Income Statement")

                            try:
                                current_interest = float(te_list[1].text.replace(',', ''))  # 당기: 인덱스 1
                                print(f"  Current Interest Expense: {current_interest}")
                            except (ValueError, AttributeError, IndexError):
                                current_interest = None
                                print("  Could not extract current interest expense from Income Statement")

                            if current_interest is not None or previous_interest is not None:
                                return current_interest, previous_interest
                break  # 손익계산서 테이블을 찾았으면 더 이상 탐색하지 않음

    if not found_table_group:
        print("Income Statement Table Group Not Found")
    return current_interest, previous_interest  # 찾지 못한 경우 None 반환

# 회사 정보와 이자비용 찾기
company_name, company_reg_num = get_company_info(root)
current_interest, previous_interest = find_interest_expense(root)

# 결과를 pandas DataFrame으로 만들기
data = {'항목': ['회사명', '법인등록번호', '전기', '당기'],
        '값': [company_name, company_reg_num, previous_interest, current_interest]}

df = pd.DataFrame(data)


# NaN 값을 빈 문자열로 채우기 (출력시 None 방지)
df = df.fillna('')

# 엑셀 파일로 저장
excel_file = '이자비용.xlsx'
df.to_excel(excel_file, index=False)

print(f"이자비용 데이터를 {excel_file} 파일로 저장했습니다.")

Found 손익 계산서 TABLE-GROUP
Found Interest Expense Row
  Previous Interest Expense: 502472644.0
  Current Interest Expense: 804583691.0
이자비용 데이터를 이자비용.xlsx 파일로 저장했습니다.


In [None]:
import xml.etree.ElementTree as ET
import pandas as pd

# XML 파일 경로
xml_file = '/content/20240411003596_00760.xml'

# 네임스페이스 정의 (이 XML 파일은 네임스페이스를 사용합니다)
namespace = {'': None}  # 기본 네임스페이스 사용 안함

# XML 파싱
tree = ET.parse(xml_file)
root = tree.getroot()

# 회사 이름, 법인등록번호 추출 함수
def get_company_info(root):
    company_name = None
    company_reg_num = None

    # 회사 이름 추출 (COMPANY-NAME 태그 사용)
    try:
        company_name_element = root.find(".//COMPANY-NAME", namespace)
        if company_name_element is not None:
            company_name = company_name_element.text
            print(f"Found company name using tag: COMPANY-NAME")  # 디버깅 출력
        else:
            print("COMPANY-NAME tag not found.")
    except Exception as e:
        print(f"Could not extract company name from tag COMPANY-NAME: {e}")

    # 법인등록번호 추출 (bizrNo 태그 사용)
    try:
        company_reg_num_element = root.find(".//bizrNo", namespace)
        if company_reg_num_element is not None:
            company_reg_num = company_reg_num_element.text
        else:
            print("bizrNo tag not found.")
    except:
        print("Could not extract company registration number.")

    return company_name, company_reg_num


# 이자비용을 찾기 위한 함수 (개선)
def find_interest_expense(root):
    current_interest = None
    previous_interest = None
    found_table_group = False

    # 손익계산서 테이블을 찾기 위해 직접 TABLE 태그 탐색
    for table_group in root.findall(".//TABLE-GROUP", namespace):  # 클래스 속성 제거
         if table_group.find(".//TITLE", namespace) is not None and table_group.find(".//TITLE", namespace).text == "손 익 계 산 서": #제목으로 손익계산서 확인
                print("Found 손익 계산서 TABLE-GROUP")
                found_table_group = True
                for table in table_group.findall(".//TABLE", namespace):
                    for tr in table.findall(".//TR", namespace):
                        te_list = tr.findall(".//TE", namespace)

                        # 첫 번째 TE 태그가 "이자비용"인지 확인
                        if len(te_list) > 0 and te_list[0].text == "이자비용":
                            print("Found Interest Expense Row")
                            # **인덱스 변경: 당기 -> 1, 전기 -> 3**  (인덱스 위치를 바꿈)
                            try:
                                previous_interest = float(te_list[3].text.replace(',', ''))  # 전기: 인덱스 3
                                print(f"  Previous Interest Expense: {previous_interest}")
                            except (ValueError, AttributeError, IndexError):
                                previous_interest = None
                                print("  Could not extract previous interest expense from Income Statement")

                            try:
                                current_interest = float(te_list[1].text.replace(',', ''))  # 당기: 인덱스 1
                                print(f"  Current Interest Expense: {current_interest}")
                            except (ValueError, AttributeError, IndexError):
                                current_interest = None
                                print("  Could not extract current interest expense from Income Statement")

                            if current_interest is not None or previous_interest is not None:
                                return current_interest, previous_interest
                break  # 손익계산서 테이블을 찾았으면 더 이상 탐색하지 않음

    if not found_table_group:
        print("Income Statement Table Group Not Found")
    return current_interest, previous_interest  # 찾지 못한 경우 None 반환

# 회사 정보와 이자비용 찾기
company_name, company_reg_num = get_company_info(root)
current_interest, previous_interest = find_interest_expense(root)

# 결과를 pandas DataFrame으로 만들기
data = {'항목': ['회사명', '법인등록번호', '전기', '당기'],
        '값': [company_name, company_reg_num, previous_interest, current_interest]}

df = pd.DataFrame(data)


# NaN 값을 빈 문자열로 채우기 (출력시 None 방지)
df = df.fillna('')

# 엑셀 파일로 저장
excel_file = '이자비용.xlsx'
df.to_excel(excel_file, index=False)

print(f"이자비용 데이터를 {excel_file} 파일로 저장했습니다.")

Found company name using tag: COMPANY-NAME
bizrNo tag not found.
Found 손익 계산서 TABLE-GROUP
Found Interest Expense Row
  Previous Interest Expense: 502472644.0
  Current Interest Expense: 804583691.0
이자비용 데이터를 이자비용.xlsx 파일로 저장했습니다.
