# 크레탑 정보
크레탑은 JavaScript로 동적 렌더링 되는 구조이므로 Selenium 활용

## 주요 특징
	1.	JavaScript 의존성:
	•	<noscript> 태그에서 “JavaScript가 활성화되지 않으면 사이트가 작동하지 않습니다.“라는 메시지가 명시되어 있습니다.
	•	모든 주요 인터페이스와 데이터 로딩이 JavaScript에 의해 동적으로 이루어질 가능성이 높습니다.
	2.	CSS와 JS 파일:
	•	다수의 CSS와 JS 파일이 <link>와 <script> 태그로 포함되어 있습니다.
	•	예를 들어, rMateChart나 Vue.js 관련 라이브러리가 사용되고 있습니다.
	3.	뷰 기반 구조:
	•	Vue.js로 만들어진 SPA(Single Page Application)로 보입니다. 즉, URL이 변경되지 않더라도 JavaScript를 통해 콘텐츠가 동적으로 변경됩니다.
	4.	Meta 태그:
	•	meta 태그에 Cache-Control 및 pragma가 설정되어 있어, 데이터를 캐싱하지 않고 매번 새로 로드하도록 지정되어 있습니다.

## Selenium 활용
셀레니움은 크롬 동작 제어하는 라이브러리 

	1.	동적 렌더링 대기:
	•	Selenium으로 JavaScript에 의해 로드된 동적 콘텐츠를 대기해야 합니다.
	•	이를 위해 WebDriverWait와 expected_conditions을 사용하여 특정 요소가 렌더링될 때까지 기다립니다.
	2.	필요한 데이터 추출:
	•	JavaScript 로드 후 페이지에 나타나는 HTML 구조에서 데이터를 추출합니다.
	•	HTML 구조에 따라 By.CLASS_NAME, By.ID, 또는 By.XPATH를 사용하여 요소를 찾습니다.


# 라이브러리 설치
selenium, chromedriver_autoinstaller

# 기계장치

재무상태표 - 기계장치
18년도는 결산일자 22년도로 변경

19 : (19 - 18) * 7%
20 : (20 - 19) * 10%
21 : (21 - 20) * 10% + (18 + 19 + 20) /3 * 3%
22 : (22 - 21) * 10% + (19 + 20 + 21) /3 * 3%
23 : (23 - 22) * 12% + (20 + 21 + 22) /3 * 10%

24 : (24 - 23) * 12% + (21 + 22 + 23) /3 * 10%


# 로그인 화면으로 접속
## 크롬 브라우저 다운을 위한 버전 확인

Chrome을 열고 chrome://settings/help로 이동

```
Chrome is up to date
Version 131.0.6778.205 (Official Build) (arm64)
```

In [12]:
#드라이버 설정 코드
# 아직 뭔지 모름
#driver = webdriver.Chrome(executable_path="/path/to/chromedriver")

In [4]:
!pip install selenium
!pip install chromedriver_autoinstaller

Defaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable
Collecting chromedriver_autoinstaller
  Using cached chromedriver_autoinstaller-0.6.4-py3-none-any.whl.metadata (2.1 kB)
Using cached chromedriver_autoinstaller-0.6.4-py3-none-any.whl (7.6 kB)
Installing collected packages: chromedriver_autoinstaller
Successfully installed chromedriver_autoinstaller-0.6.4


# 팝업 닫고 자동 로그인

In [None]:
def handle_popup(driver, popup_class="pop-alert", button_text="확인", wait_time=5):
    """
    팝업 확인 및 버튼 클릭 함수.

    Args:
        driver: Selenium WebDriver 객체.
        popup_class (str): 팝업의 클래스 이름. 기본값은 "pop-alert".
        button_text (str): 버튼의 텍스트. 기본값은 "확인".
        wait_time (int): 대기 시간 (초). 기본값은 5초.

    Returns:
        bool: 버튼 클릭 성공 여부.
    """
    try:
        print("🔍 팝업 확인 시도")
        
        # 팝업 요소 찾기
        popup = WebDriverWait(driver, wait_time).until(
            EC.presence_of_element_located((By.CLASS_NAME, popup_class))
        )

        
        # 팝업 내부의 버튼 찾기
        confirm_button = popup.find_element(By.XPATH, f".//button[span[text()='{button_text}']]")
        confirm_button.click()
        print("✅ 확인 버튼 클릭 성공")
        return True

    except Exception as e:
        print(f"❌ 팝업 처리 실패: {e}")
        return False



def login_to_site(driver, username, password, login_button_class="header-login-idcr", username_field_id="idModel", password_field_id="pwModel", submit_button_class="btn-login", user_confirm_class="user-nm", wait_time=10):
    """
    사이트 로그인 함수.

    Args:
        driver: Selenium WebDriver 객체.
        username (str): 사용자 아이디.
        password (str): 사용자 비밀번호.
        login_button_class (str): 로그인 버튼의 클래스 이름. 기본값은 "header-login-idcr".
        username_field_id (str): 사용자 아이디 필드의 ID. 기본값은 "idModel".
        password_field_id (str): 비밀번호 필드의 ID. 기본값은 "pwModel".
        submit_button_class (str): 로그인 제출 버튼의 클래스 이름. 기본값은 "btn-login".
        user_confirm_class (str): 로그인 성공 확인 요소의 클래스 이름. 기본값은 "user-nm".
        wait_time (int): 대기 시간 (초). 기본값은 10초.

    Returns:
        bool: 로그인 성공 여부.
    """
    try:
        print("🔍 로그인 버튼 클릭 시도")
        # 로그인 버튼 클릭
        login_button = WebDriverWait(driver, wait_time).until(
            EC.element_to_be_clickable((By.CLASS_NAME, login_button_class))
        )
        login_button.click()

        print("✅ 로그인 필드 로드 대기")
        # 사용자 아이디 및 비밀번호 필드 대기
        username_field = WebDriverWait(driver, wait_time).until(
            EC.presence_of_element_located((By.ID, username_field_id))
        )
        password_field = driver.find_element(By.ID, password_field_id)

        # 사용자 아이디 및 비밀번호 입력
        username_field.send_keys(username)
        password_field.send_keys(password)

        print("✅ 로그인 정보 입력 완료")

        # 로그인 제출 버튼 클릭
        submit_button = driver.find_element(By.CLASS_NAME, submit_button_class)
        submit_button.click()
        print("🔍 로그인 버튼 클릭 중...")

        # 로그인 성공 확인
        WebDriverWait(driver, wait_time).until(
            EC.presence_of_element_located((By.CLASS_NAME, user_confirm_class))
        )
        print("✅ 로그인 성공!")
        return True

    except Exception as e:
        print(f"❌ 로그인 실패: {e}")
        return False


In [5]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# ChromeDriver 설정
options = webdriver.ChromeOptions()
options.add_argument("--disable-blink-features=AutomationControlled")  # 자동화 감지 방지
driver = webdriver.Chrome(options=options)

try:
    # 크레탑 메인 페이지로 이동
    driver.get("https://www.cretop.com")

    # 1️ 팝업 닫기
    try:
        # 팝업 닫기 버튼 대기 및 클릭
        close_button = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.XPATH, "//button[@class='btn txt-blue' and span[text()='[닫기]']]"))
        )   # XPATH로 찾을 때까지 10초는 기다려줌
        close_button.click()
        print("팝업 닫기 완료")
    except Exception as e:
        print(f"팝업 닫기 실패 또는 팝업이 없음: {e}")

    # 2️ 로그인 페이지로 이동
    try:
        login_button = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.CLASS_NAME, "header-login-idcr"))
        )
        login_button.click()
        print("로그인 페이지로 이동 완료")
    except Exception as e:
        print(f"로그인 버튼 클릭 실패: {e}")
    
    # 3️ 로그인 정보 입력 및 제출
    try:
        # 로그인 필드 대기 및 입력
        username_field = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.ID, "idModel"))
        )
        password_field = driver.find_element(By.ID, "pwModel")

        username_field.send_keys("ICSPRINCES0846")  # 여기에 사용자 아이디 입력
        password_field.send_keys("rich0628^^")  # 여기에 비밀번호 입력

        # 로그인 버튼 클릭
        login_button = driver.find_element(By.CLASS_NAME, "btn-login")  # 로그인 버튼
        login_button.click()
        print("로그인 시도 중...")

        # 로그인 성공 확인
        WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.CLASS_NAME, "user-nm"))
        )
        print("로그인 성공!")
    except Exception as e:
        print(f"로그인 실패: {e}")

finally:
    # 브라우저 닫기
    driver.quit()

팝업 닫기 완료
로그인 페이지로 이동 완료
로그인 시도 중...
로그인 실패: Message: no such window: target window already closed
from unknown error: web view not found
  (Session info: chrome=131.0.6778.205)
Stacktrace:
0   chromedriver                        0x000000010310f184 cxxbridge1$str$ptr + 3626716
1   chromedriver                        0x00000001031079d4 cxxbridge1$str$ptr + 3596076
2   chromedriver                        0x0000000102b74968 cxxbridge1$string$len + 89228
3   chromedriver                        0x0000000102b4fe44 core::str::slice_error_fail::ha0e52dbcb60e6bae + 3780
4   chromedriver                        0x0000000102bded48 cxxbridge1$string$len + 524396
5   chromedriver                        0x0000000102bf1c24 cxxbridge1$string$len + 601928
6   chromedriver                        0x0000000102bad568 cxxbridge1$string$len + 321676
7   chromedriver                        0x0000000102bae1b8 cxxbridge1$string$len + 324828
8   chromedriver                        0x00000001030da9ac cxxbridge1$str

AttributeError: 'WebDriver' object has no attribute 'input'

# 로그인 유지한 채로 스크래핑

In [2]:
pip install webdriver-manager

Defaulting to user installation because normal site-packages is not writeable
Collecting webdriver-manager
  Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl.metadata (12 kB)
Collecting python-dotenv (from webdriver-manager)
  Downloading python_dotenv-1.0.1-py3-none-any.whl.metadata (23 kB)
Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl (27 kB)
Downloading python_dotenv-1.0.1-py3-none-any.whl (19 kB)
Installing collected packages: python-dotenv, webdriver-manager
Successfully installed python-dotenv-1.0.1 webdriver-manager-4.0.2
Note: you may need to restart the kernel to use updated packages.


In [6]:
from selenium import webdriver
import shutil
import os
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.ui import Select
from webdriver_manager.chrome import ChromeDriverManager
import time

# ChromeDriver 설정
options = webdriver.ChromeOptions()

# 기존 사용자 데이터 디렉토리 경로 설정
user_data_dir = "/Users/ahranah/Library/Application Support/Google/Chrome"  # MacOS 사용자 데이터 디렉토리
copied_user_data_dir = "/Users/ahranah/Library/Application Support/Google/Chrome_Selenium" 

# 사용자 데이터 디렉토리 복사
if not os.path.exists(copied_user_data_dir):  # 복사본이 없을 때만 복사
    print("사용자 데이터 디렉토리 복사 중...")
    shutil.copytree(user_data_dir, copied_user_data_dir)
    print("복사 완료:", copied_user_data_dir)
else:
    print("복사된 디렉토리가 이미 존재합니다:", copied_user_data_dir)

# Selenium WebDriver 실행
options = webdriver.ChromeOptions()
options.add_argument(f"user-data-dir={copied_user_data_dir}")  # 복사된 프로파일 경로 지정
options.add_argument("--profile-directory=Default")  # 기본 프로파일 사용

service = Service(ChromeDriverManager().install())

driver = webdriver.Chrome(service=service, options=options)

options.add_argument(f"--user-data-dir=")
# 특정 프로파일 (기본 프로파일은 'Default')
options.add_argument("--profile-directory=Default")
#options.add_argument("--disable-blink-features=AutomationControlled")  # 자동화 감지 방지

try:
    # 1️⃣ 사이트 이동 및 기업의 재무 페이지로 이동
    driver.get("https://www.cretop.com/PL/IS/PLIS020M1?h=1736259761182")
    print("사이트 접속 완료")

    # "재무" 버튼 클릭
    financial_button = WebDriverWait(driver, 10).until(
        EC.element_to_be_clickable((By.XPATH, "//a[@title='재무 페이지로 이동하기']"))
    )
    financial_button.click()
    print("재무 페이지로 이동 완료")

    # 2️⃣ 범위를 "5년"으로 변경
    range_select = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "range"))
    )
    select = Select(range_select)
    select.select_by_value("5")  # 5년 옵션 선택
    print("범위를 5년으로 설정 완료")

    # 3️⃣ 조회 버튼 클릭
    search_button = WebDriverWait(driver, 10).until(
        EC.element_to_be_clickable((By.CSS_SELECTOR, "#etfi110m1 .btn-wrap > button"))
    )
    search_button.click()
    print("조회 버튼 클릭 완료")

    # 4️⃣ 재무 상태표에서 기계장치 데이터 추출
    # 기계장치 데이터를 포함하는 테이블 찾기 (테이블 구조에 따라 변경 필요)
    table = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "table.financial-table"))  # 적절한 CSS 선택자로 변경 필요
    )
    rows = table.find_elements(By.TAG_NAME, "tr")

    # 기계장치 데이터 추출
    for row in rows:
        if "기계장치" in row.text:
            columns = row.find_elements(By.TAG_NAME, "td")
            years_data = [col.text for col in columns[1:]]  # 각 연도의 데이터를 리스트로 추출
            print("기계장치 데이터:", years_data)

finally:
    # 브라우저 닫기
    driver.quit()

복사된 디렉토리가 이미 존재합니다: /Users/ahranah/Library/Application Support/Google/Chrome_Selenium


SessionNotCreatedException: Message: session not created
from invalid argument: user data dir can not be empty
Stacktrace:
0   chromedriver                        0x000000010531a138 cxxbridge1$str$ptr + 3653888
1   chromedriver                        0x0000000105312988 cxxbridge1$str$ptr + 3623248
2   chromedriver                        0x0000000104d78968 cxxbridge1$string$len + 89228
3   chromedriver                        0x0000000104da9d4c cxxbridge1$string$len + 290928
4   chromedriver                        0x0000000104da5828 cxxbridge1$string$len + 273228
5   chromedriver                        0x0000000104de6064 cxxbridge1$string$len + 537480
6   chromedriver                        0x0000000104de59ac cxxbridge1$string$len + 535760
7   chromedriver                        0x0000000104db1564 cxxbridge1$string$len + 321672
8   chromedriver                        0x0000000104db21b4 cxxbridge1$string$len + 324824
9   chromedriver                        0x00000001052e4fc0 cxxbridge1$str$ptr + 3436424
10  chromedriver                        0x00000001052e82dc cxxbridge1$str$ptr + 3449508
11  chromedriver                        0x00000001052cbe60 cxxbridge1$str$ptr + 3333672
12  chromedriver                        0x00000001052e8b9c cxxbridge1$str$ptr + 3451748
13  chromedriver                        0x00000001052bd678 cxxbridge1$str$ptr + 3274304
14  chromedriver                        0x00000001053032b4 cxxbridge1$str$ptr + 3560060
15  chromedriver                        0x0000000105303430 cxxbridge1$str$ptr + 3560440
16  chromedriver                        0x00000001053125fc cxxbridge1$str$ptr + 3622340
17  libsystem_pthread.dylib             0x0000000189a942e4 _pthread_start + 136
18  libsystem_pthread.dylib             0x0000000189a8f0fc thread_start + 8


# 통합: 로그인 후 스크래핑 코드

In [71]:
from selenium import webdriver
import pandas as pd
import shutil
import os
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.ui import Select
from webdriver_manager.chrome import ChromeDriverManager
import time

# ChromeDriver 설정
options = webdriver.ChromeOptions()

# 기존 사용자 데이터 디렉토리 경로 설정
user_data_dir = "/Users/ahranah/Library/Application Support/Google/Chrome"  # MacOS 사용자 데이터 디렉토리
copied_user_data_dir = "/Users/ahranah/Library/Application Support/Google/Chrome_Selenium" 

# 사용자 데이터 디렉토리 복사
if not os.path.exists(copied_user_data_dir):  # 복사본이 없을 때만 복사
    print("사용자 데이터 디렉토리 복사 중...")
    shutil.copytree(user_data_dir, copied_user_data_dir)
    print("복사 완료:", copied_user_data_dir)
else:
    print("복사된 디렉토리가 이미 존재합니다:", copied_user_data_dir)

# Selenium WebDriver 실행
options = webdriver.ChromeOptions()
options.add_argument(f"user-data-dir={copied_user_data_dir}")  # 복사된 프로파일 경로 지정
options.add_argument("--profile-directory=Default")  # 특정 프로파일 중 default 사용

#driver 실행
service = Service(ChromeDriverManager().install())
#options.add_argument("--disable-blink-features=AutomationControlled")  # 자동화 감지 방지
driver = webdriver.Chrome(service=service, options=options)


# 사이트 이동 및 기업의 재무 페이지로 이동
driver.get("https://www.cretop.com")
print("사이트 접속 완료")

# 팝업 처리 
if handle_popup(driver):
    print("팝업 처리가 완료되었습니다.")
else:
    print("팝업 처리가 실패했습니다.")

# 로그인 함수 호출
username = "window765"  # 사용자 아이디
password = "rich1011^^"  # 비밀번호

if login_to_site(driver, username, password):
    print("로그인이 성공적으로 완료되었습니다!")
else:
    print("로그인에 실패했습니다.")
    
# 로그인 확인 버튼 닫기 _ 팝업 처리 함수 
if handle_popup(driver):
    print("팝업 처리가 완료되었습니다.")
else:
    print("팝업 처리가 실패했습니다.")

time.sleep(3) 
search_key = "천영창"

# 함수 호출
if navigate_to_financial_page(driver, search_key):
    print(f"🚀 '{search_key}'의 재무 페이지로 성공적으로 이동했습니다.")
else:
    print(f"❌ '{search_key}'의 재무 페이지로 이동 실패.")
    


    #재무 페이지 내부에서 작동
    # 키워드 집합
    target_tabs = {"재무상태표", "포괄손익계산서", "손익계산서", "제조원가명세서"}
    try:    
        # 1 범위를 "5년"으로 변경
        range_select = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.ID, "range"))
        )
        select = Select(range_select)
        select.select_by_value("5")  # 5년 옵션 선택
        print("범위를 5년으로 설정 완료")

        # 2 조회 버튼 클릭
        search_button = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.CSS_SELECTOR, "#etfi110m1 .btn-wrap > button"))
        )
        search_button.click()
        print("조회 버튼 클릭 완료")
        time.sleep(1)

        # 3 {"재무상태표", "포괄손익계산서", "손익계산서", "제조원가명세서"} 있는지 확인
        try:
            # 1️⃣ 탭 그룹에서 모든 탭 가져오기
            tabs = driver.find_elements(By.CSS_SELECTOR, "ul.tab-group-ul > li > a")
            print(f"탭 개수: {len(tabs)}")

            for tab in tabs:
                # 탭 이름 가져오기
                tab_name = tab.text.strip()  # 탭의 텍스트 가져오기
                print(f"탭 이름: {tab_name}")

                # 2️⃣ 탭 이름이 target_tabs에 있는지 확인
                if tab_name in target_tabs:
                    print(f"탭 '{tab_name}' 확인 중...")

                    # 탭 클릭 시도
                    tab_element = WebDriverWait(driver, 10).until(
                        EC.element_to_be_clickable((By.XPATH, f"//ul[@class='tab-group-ul']//a[text()='{tab_name}']"))
                    )
                    tab_element.click()
                    print(f"탭 '{tab_name}' 클릭 완료")
                    time.sleep(1)
                    
                    # 탭 내용 로딩 대기
                    WebDriverWait(driver, 10).until(
                        EC.presence_of_element_located((By.CSS_SELECTOR, "div.tabs-contents"))
                    )
                    print(f"탭 '{tab_name}' 내용 로드 완료")
                    time.sleep(1)

                    # (1) '재무상태표' 처리
                    if tab_name == "재무상태표":
                        # nodata 확인
                        is_nodata = check_nodata(driver, nodata_class="td.nodata", nodata_message="조회된 자료가 없습니다.")

                        if is_nodata:
                            print("재무상태표 탭에 조회된 자료가 없습니다.")
                        else:
                            # 재무상태표 기계장치 확인 코드
                            print(" ")
                    # (2) 나머지 탭 처리
                    else:
                        try:
                        # nodata 확인
                            is_nodata = check_nodata(driver, nodata_class="td.nodata", nodata_message="조회된 자료가 없습니다.")

                            if is_nodata:
                                print(f"{tab_name} 탭에 조회된 자료가 없습니다.")
                            else:
                                print(" 테이블 확인 시도")
                                # 테이블 전체 선택
                                # 테이블 헤더 (날짜) 추출
                                # 함수 호출
                                headers = extract_table_headers(
                                    driver=driver,
                                    table_selector="div.finance-statement table",  # 테이블 CSS Selector
                                    max_attempts=3                                # 최대 시도 횟수
                                )

                                # 결과 확인
                                if headers:
                                    print("추출된 테이블 헤더:", headers)
                                else:
                                    print("테이블 헤더를 추출하지 못했습니다.")
                                
                                # 행 추출
                                row_data = extract_row(driver, table_selector="div.finance-statement.details", row_class="depth-1", attempts=3)

                                if row_data: # df 생성과 액셀 저장
                                    print("Extracted row data:", row_data)
                                    df = pd.DataFrame([row_data], columns=headers)
                                    print("DataFrame created successfully.")
                                    print(df)
                                    # Save to Excel
                                    excel_filename = f"'{tab_name}'"
                                    df.to_excel(excel_filename, index=False)
                                    print(f"엑셀 저장 완료: {excel_filename}")
                                else:
                                    print("No data extracted.")

                        except Exception as e:
                                print(f"테이블 데이터 추출 실패: {e}")
        except Exception as e:
            print(f"탭 처리 중 오류 발생: {e}")
    except Exception as e:
        print(f"재무 페이지 내부 크롤링 실패: {e}")

# 브라우저 닫기
driver.quit()


복사된 디렉토리가 이미 존재합니다: /Users/ahranah/Library/Application Support/Google/Chrome_Selenium
사이트 접속 완료
팝업 닫기 실패 또는 팝업이 없음: Message: 
Stacktrace:
0   chromedriver                        0x000000010294a138 cxxbridge1$str$ptr + 3653888
1   chromedriver                        0x0000000102942988 cxxbridge1$str$ptr + 3623248
2   chromedriver                        0x00000001023a8968 cxxbridge1$string$len + 89228
3   chromedriver                        0x00000001023ecd4c cxxbridge1$string$len + 368752
4   chromedriver                        0x00000001024264f0 cxxbridge1$string$len + 604180
5   chromedriver                        0x00000001023e1564 cxxbridge1$string$len + 321672
6   chromedriver                        0x00000001023e21b4 cxxbridge1$string$len + 324824
7   chromedriver                        0x0000000102914fc0 cxxbridge1$str$ptr + 3436424
8   chromedriver                        0x00000001029182dc cxxbridge1$str$ptr + 3449508
9   chromedriver                        0x00000001028fbe60 cx

# 재무페이지 이동 코드

In [None]:
def navigate_to_financial_page(driver, search_key, wait_time=10):
    """
    특정 검색어로 기업을 검색하고, 해당 기업의 재무 페이지로 이동하는 함수.

    Args:
        driver: Selenium WebDriver 객체.
        search_key (str): 검색어 (기업명).
        wait_time (int): 대기 시간 (초). 기본값은 10초.

    Returns:
        bool: 작업 성공 여부.
    """
    try:
        print(f"🔎 검색어 입력 시도: {search_key}")
        
        # 검색 필드 요소 찾기
        search_input = WebDriverWait(driver, wait_time).until(
            EC.presence_of_element_located((By.XPATH, "//input[@placeholder='검색어를 입력해주세요.']"))
        )
        
        # 검색어 입력
        search_input.clear()
        search_input.send_keys(search_key)
        print("✅ 검색어 입력 완료")

        # 검색 버튼 클릭
        search_button = WebDriverWait(driver, wait_time).until(
            EC.element_to_be_clickable((By.XPATH, "//button[@title='검색하기']"))
        )
        search_button.click()
        print("✅ 검색 버튼 클릭 완료")

    except Exception as e:
        print(f"❌ 검색 단계 실패: {e}")
        return False

    try:
        print("🔍 검색 결과에서 대상 버튼 찾기 시도")
        
        # 검색 결과에서 검색어와 일치하는 기업 버튼 찾기
        keyword_row = WebDriverWait(driver, wait_time).until(
            EC.presence_of_element_located((
                By.XPATH, 
                f"//div[contains(@class, 'result-txt-wrap')]/button[contains(@class, 'result-layer-open') and span[text()='{search_key}']]"
            ))
        )
        keyword_row.click()
        print(f"✅ '{search_key}' 검색 결과 클릭 완료")

        # 재무 페이지 링크 클릭
        print("🔗 재무 페이지 링크 찾기 시도")
        
        financial_link = WebDriverWait(driver, wait_time).until(
            EC.element_to_be_clickable((
                By.XPATH, "//ul[contains(@class, 'info-toast-content-btns')]/li/a[@title='재무 페이지로 이동하기']"
            ))
        )
        financial_link.click()
        print("✅ 재무 페이지 이동 완료")

        return True

    except Exception as e:
        print(f"❌ 재무 페이지로 이동 실패: {e}")
        return False

# 재무 페이지 내부 코드

In [None]:
##기존 클릭 후 재무 이동코드    
    # try:
    #     # 검색 결과에서 검색어와 일치하는 기업 버튼 찾기
    #     keyword_row = WebDriverWait(driver, wait_time).until(
    #         EC.presence_of_element_located((
    #             By.XPATH, 
    #             f"//div[contains(@class, 'result-txt-wrap')]/button[contains(@class, 'result-layer-open') and contains(span, '{search_key}')]"
    #         ))
    #     )
    #     keyword_row.click()
    #     print(f"✅ '{search_key}' 검색 결과 클릭 완료")
    #     time.sleep(1)

    #     # 재무 페이지 링크 클릭
    #     financial_link = WebDriverWait(driver, wait_time).until(
    #         EC.element_to_be_clickable((
    #             By.XPATH, "//ul[contains(@class, 'info-toast-content-btns')]/li/a[@title='재무 페이지로 이동하기']"
    #         ))
    #     )
    #     financial_link.click()
    #     print("✅ 재무 페이지 이동 완료")
    #     time.sleep(1)
    #     return True

    # except Exception as e:
    #     print(f"❌ 재무 페이지로 이동 실패: {e}")
    #     return False

In [None]:
   #재무 페이지 내부에서 작동
    try:    
        # 2️⃣ 범위를 "5년"으로 변경
        range_select = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.ID, "range"))
        )
        select = Select(range_select)
        select.select_by_value("5")  # 5년 옵션 선택
        print("범위를 5년으로 설정 완료")

        # 3️⃣ 조회 버튼 클릭
        search_button = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.CSS_SELECTOR, "#etfi110m1 .btn-wrap > button"))
        )
        search_button.click()
        print("조회 버튼 클릭 완료")

        # 4️⃣ 재무 상태표에서 기계장치 데이터 추출
        # 기계장치 데이터를 포함하는 테이블 찾기 (테이블 구조에 따라 변경 필요)
        table = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "table.financial-table"))  # 
        )
        rows = table.find_elements(By.TAG_NAME, "tr")

        # 기계장치 데이터 추출
        for row in rows:
            if "기계장치" in row.text:
                columns = row.find_elements(By.TAG_NAME, "td")
                years_data = [col.text for col in columns[1:]]  # 각 연도의 데이터를 리스트로 추출
                print("기계장치 데이터:", years_data)
    except Exception as e:
        print(f"재무버튼부터 실패: {e}")

In [None]:
def change_range(driver, dropdown_id="range", range_value="5", wait_time=10):
    """
    범위를 변경하는 함수.

    Args:
        driver: Selenium WebDriver 객체.
        dropdown_id (str): 범위 선택 드롭다운의 ID. 기본값은 "range".
        range_value (str): 선택할 범위 값. 기본값은 "5".
        wait_time (int): 대기 시간 (초). 기본값은 10초.

    Returns:
        bool: 범위 변경 성공 여부.
    """
    try:
        print("🔍 범위 선택 요소 대기 중...")
        # 드롭다운 요소 대기
        dropdown = WebDriverWait(driver, wait_time).until(
            EC.presence_of_element_located((By.ID, dropdown_id))
        )
        print("✅ 범위 선택 요소 로드 완료")

        # Select 클래스를 사용하여 범위 변경
        select = Select(dropdown)
        select.select_by_value(range_value)  # 원하는 값 선택
        print(f"✅ 범위를 '{range_value}'로 성공적으로 변경했습니다.")
        return True

    except Exception as e:
        print(f"❌ 범위 변경 실패: {e}")
        return False

# 테이블 내부 자산 값 테이블로 긁어오는 코드


In [None]:

def extract_table_headers(driver, table_selector, max_attempts=3):
    """
    Selenium WebDriver를 사용하여 테이블의 헤더를 추출합니다.

    Args:
        driver: Selenium WebDriver 객체.
        table_selector: 테이블을 찾는 CSS 셀렉터.
        nodata_class: 'nodata' 확인을 위한 클래스 이름. 기본값은 "td.nodata".
        max_attempts: 테이블 데이터를 추출하기 위한 시도 횟수. 기본값은 3.

    Returns:
        headers (list): 테이블 헤더(날짜 등)를 포함한 리스트.
    """
    try:
        # 테이블 데이터 추출 시도
        for attempt in range(max_attempts):
            try:
                # 테이블 요소 찾기
                table_element = WebDriverWait(driver, 10).until(
                    EC.presence_of_element_located((By.CSS_SELECTOR, table_selector))
                )
                print("테이블 요소 발견")

                # 테이블 헤더(날짜 등) 추출
                header_row = table_element.find_elements(By.CSS_SELECTOR, "thead tr th span")
                headers = [header.text.strip() for header in header_row if header.text.strip()]
                print("Headers:", headers)
                return headers  # 성공 시 헤더 반환
            except Exception as e:
                print(f"Attempt {attempt + 1}/{max_attempts} failed: {e}")
                time.sleep(1)  # 재시도 전 대기

        print("테이블 데이터를 여러 번 시도했지만 실패했습니다.")
        return None  # 모든 시도 실패 시 None 반환

    except Exception as e:
        print(f"테이블 추출 중 오류 발생: {e}")
        return None
    
def check_nodata(driver, nodata_class="td.nodata", nodata_message="조회된 자료가 없습니다."):
    """
    Selenium WebDriver를 사용하여 특정 클래스의 요소에서 'nodata' 메시지를 확인하는 함수.

    Args:
        driver: Selenium WebDriver 객체.
        nodata_class (str): 'nodata' 텍스트를 확인하기 위한 클래스 이름. 기본값은 "td.nodata".
        nodata_message (str): 'nodata' 메시지로 간주할 텍스트. 기본값은 "조회된 자료가 없습니다."

    Returns:
        bool: 'nodata' 메시지가 있으면 True, 없으면 False.
    """
    try:
        # 지정된 클래스 이름의 요소들 찾기
        no_data_elements = driver.find_elements(By.CLASS_NAME, nodata_class)
        
        # 각 요소의 텍스트에서 nodata_message 확인
        if no_data_elements and any(nodata_message in el.text for el in no_data_elements):
            print("nodata 메시지가 발견되었습니다.")
            return True  # nodata 메시지가 있음
        else:
            print("nodata 메시지가 없습니다.")
            return False  # nodata 메시지가 없음

    except Exception as e:
        print(f"nodata 확인 중 오류 발생: {e}")
        return False
    
def extract_row(driver, depth = "depth-1", wait_time=10):
    """
    테이블에서 값에 해당하는 행 ('depth-i')을 추출하는 함수.
    
    Args:
        driver: Selenium WebDriver 객체.
        wait_time (int): 대기 시간 (초). 기본값은 10초.
    
    Returns:
        list: 추출된 첫 번째 행 데이터. (예: ['매출액(*)', '10,180,665', ...])
    """
    try:
        print("🔍 테이블 대기 중...")
        # 테이블 요소가 로드될 때까지 대기
        table_element = WebDriverWait(driver, wait_time).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "div.finance-statement table.details"))
        )
        print("✅ 테이블 로드 완료")

        # 첫 번째 행 (depth-1) 찾기
        first_row = WebDriverWait(table_element, wait_time).until(
            lambda table: table.find_element(By.CSS_SELECTOR, f"tr.{depth}")
        )
        print("✅ 첫 번째 행 찾기 완료")

        # 'td span' 요소에서 텍스트 추출
        spans = first_row.find_elements(By.CSS_SELECTOR, "td span")
        row_data = [span.text.strip() for span in spans if span.text.strip()]
        print(f"✅ 추출된 데이터: {row_data}")
        return row_data

    except Exception as e:
        print(f"❌ 첫 번째 행 추출 실패: {e}")
        return []


## 헤더, 데이터 추출 틀 

In [None]:


try:
    # 테이블 전체 선택
    table = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "div.finance-statement table.details"))
    )

    # 1️⃣ 헤더 추출
    headers = table.find_elements(By.CSS_SELECTOR, "thead tr th span")
    header_texts = [header.text for header in headers]
    print("헤더:", header_texts)

    # 2️⃣ 데이터 추출 (tbody 내 depth-1 클래스 행)
    rows = table.find_elements(By.CSS_SELECTOR, "tbody tr.depth-1")
    all_data = []  # 전체 데이터를 저장할 리스트

    for row in rows:
        # 각 행에서 td > span의 텍스트 추출
        columns = row.find_elements(By.CSS_SELECTOR, "td span")
        row_data = [col.text if col.text.strip() else "N/A" for col in columns]
        all_data.append(row_data)
    
     # 3️⃣ DataFrame 생성
    df = pd.DataFrame(all_data, columns=header_texts)
    print("DataFrame 생성 완료:")
    print(df)

    # 4️⃣ 엑셀 저장
    excel_filename = f"'{tab}' xlsx"
    df.to_excel(excel_filename, index=False)
    print(f"엑셀 저장 완료: {excel_filename}")
    # 출력
    print("데이터:")
    for row in all_data:
        print(row)

except Exception as e:
    print(f"테이블 데이터 추출 실패: {e}")

## 기계장치 있는지 확인하는 코드

In [None]:

        # 타고 타고 가는 코드 : 문제 depth-4 클릭이 안됨
        # "비유동자산" 찾기
        non_current_asset = WebDriverWait(driver, 5).until(
            EC.presence_of_element_located((By.XPATH, "//tr[contains(@class, 'depth-2')]//span[normalize-space(text())='비유동자산(*)']"))
        )
        print("비유동자산(*) 발견")

        # "유형자산" 찾기 (비유동자산 아래 depth-3에서)
        tangible_asset = WebDriverWait(driver, 5).until(
            EC.presence_of_element_located((By.XPATH, "//tr[contains(@class, 'depth-3')]//span[normalize-space(text())='유형자산(*)']"))
        )
        print("유형자산(*) 발견")

        # "기계장치" 찾기 (유형자산 아래 depth-4에서)
        machine_asset = WebDriverWait(driver, 5).until(
            EC.presence_of_element_located((By.XPATH, "//tr[contains(@class, 'depth-4')]//span[normalize-space(text())='기계장치']"))
        )

        if machine_asset:
            machine_asset = WebDriverWait(driver, 5).until(
               EC.presence_of_element_located((By.CSS_SELECTOR, "//tr[contains(@class, 'depth-4')]//span[normalize-space(text())='기계장치']"))
            )
        print(f"기계장치 발견")

# 기업 버튼 클릭 후 스마트 검색

In [None]:
def click_button_by_text(driver, button_text):
    """
    주어진 텍스트를 포함한 <a> 버튼을 클릭합니다.

    Args:
        driver: Selenium WebDriver 객체.
        button_text: 클릭하고자 하는 버튼의 텍스트.

    Returns:
        None
    """
    try:
        # 텍스트를 기반으로 버튼 찾기
        button = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.XPATH, f"//a[span[text()='{button_text}']]"))
        )
        # 클릭
        button.click()
        print(f"'{button_text}' 버튼 클릭 완료")
    except Exception as e:
        print(f"'{button_text}' 버튼 클릭 실패: {e}")

click_button_by_text(driver, "기업")


# combine df

In [4]:
import pandas as pd

# Create total_df1
data1 = [
    ["재무상태표", "기계장치", 189994, 212044, 212044, 212044, 212044],
    ["손익계산서", "직원급여", 1257506, 1409835, 1672979, 1585392, 1692890],
    ["제조원가명세서", "급여", 3214531, 3652256, 4452364, 4626356, 5369214]
]

columns1 = ['계정명', '항목', '2019-12-31', '2020-12-31', '2021-12-31', '2022-12-31', '2023-12-31']
total_df1 = pd.DataFrame(data1, columns=columns1)

# Create total_df2
data2 = [
    ["재무상태표", "기계장치", 173494, 189994, 212044, 212044, 212044],
    ["손익계산서", "직원급여", 1030973, 1257506, 1409835, 1672979, 1585392],
    ["제조원가명세서", "급여", 3034142, 3214531, 3652256, 4452364, 4626356]
]

columns2 = ['계정명', '항목', '2018-12-31', '2019-12-31', '2020-12-31', '2021-12-31', '2022-12-31']
total_df2 = pd.DataFrame(data2, columns=columns2)

# Merge the two DataFrames on '계정명' and '항목'
total_df = total_df2.combine_first(total_df1)


# # Convert numeric columns to integers (optional)
# numeric_cols = total_df.columns[2:]
# total_df[numeric_cols] = total_df[numeric_cols].astype("Int64")

total_df

Unnamed: 0,2018-12-31,2019-12-31,2020-12-31,2021-12-31,2022-12-31,2023-12-31,계정명,항목
0,173494,189994,212044,212044,212044,212044,재무상태표,기계장치
1,1030973,1257506,1409835,1672979,1585392,1692890,손익계산서,직원급여
2,3034142,3214531,3652256,4452364,4626356,5369214,제조원가명세서,급여
