# 1. 하나은행 환율정보 수집

In [50]:
######## 1. 환경 설정 및 라이브러리 불러오기 ########
import os
import sys
from io import StringIO
import requests
import pandas as pd
import time
from datetime import datetime, timedelta

# 외부 모듈 'dbio'의 경로 설정 및 임포트
target_dir = os.path.abspath('../../')
if target_dir not in sys.path:
    sys.path.append(target_dir)
from dbio import to_db


######## 2. 하나은행 환율 수집 (공휴일 대응 로직 추가) ########
def exrate_get(ymd_dash, ymd):
    url = "https://www.kebhana.com/cms/rate/wpfxd651_01i_01.do"
    
    # 데이터가 없을 경우 최대 5일 전까지 거슬러 올라가며 확인
    current_dt = datetime.strptime(ymd_dash, "%Y-%m-%d")
    
    for i in range(6): # 0(당일)부터 5일까지 시도
        target_dt = current_dt - timedelta(days=i)
        target_dash = target_dt.strftime("%Y-%m-%d")
        target_ymd = target_dt.strftime("%Y%m%d")
        
        payload = dict(ajax="true", tmpInqStrDt=target_dash, pbldDvCd="0", 
                       inqStrDt=target_ymd, inqKindCd="1", requestTarget="searchContentDiv")
        
        try:
            r = requests.get(url, params=payload, timeout=10)
            tables = pd.read_html(r.text)
            
            if tables and len(tables) > 0:
                df = tables[0]
                # 원래 요청했던 날짜를 기록 (데이터의 기점 명시)
                df.insert(0, '날짜', ymd_dash) 
                # 실제 데이터가 수집된 날짜도 기록 (PM 관점의 데이터 무결성 확보)
                df.insert(1, '실제고시날짜', target_dash)
                
                if i > 0:
                    print(f"  -> {ymd_dash}는 공휴일(주말)이므로 {target_dash} 데이터로 대체 수집합니다.")
                return df
        except:
            continue # 에러 발생 시 다음 날짜(전일)로 시도
            
    return None


######## 3. 날짜 생성 및 수집 ########
result = []
date_range = pd.date_range("2026-01-29", "2026-01-01", freq='-1B')

for date in date_range:
    ymd_dash, ymd = date.strftime("%Y-%m-%d"), date.strftime("%Y%m%d")
    print(f"조회 중: {ymd_dash}", end=" ")
    
    data = exrate_get(ymd_dash, ymd)
    
    if data is not None:
        result.append(data)
        print("✓ 완료")
    else:
        print("✗ 실패 (유효 데이터 없음)")
    
    time.sleep(1) # 서버 부하 방지

# 수집된 데이터가 있을 때만 합치기
if result:
    final_result = pd.concat(result, ignore_index=True)
    print(f"\n총 {len(result)}일치 데이터 통합 완료.")
else:
    final_result = pd.DataFrame()
    print("\n수집된 데이터가 없습니다.")


######## 4. 컬럼명 평탄화 ########
def flatten_cols(df):
    if df.empty: return {}
    new_cols = {}
    for col in df.columns:
        if isinstance(col, tuple):
            if col[0] != col[1] == col[2]:
                new_cols[col] = col[0] if col[1] == "" else f"{col[0]}_{col[1]}".replace(" ", "_")
            elif col[0] != col[1] != col[2]:
                new_cols[col] = "_".join(col).replace(" ", "_")
            else:
                new_cols[col] = col[0].replace(" ", "_")
        else:
            new_cols[col] = col.replace(" ", "_")
    return new_cols

if not final_result.empty:
    mapping = flatten_cols(final_result)
    final_result = final_result.rename(columns=mapping)


######## 5. DB에 저장 ########
if not final_result.empty:
    to_db("exchange_rate_data", "exchage_rate", final_result)
    print("DB 저장 완료.")

조회 중: 2026-01-29 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-28 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-27 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-26 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-23 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-22 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-21 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-20 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-19 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-16 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-15 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-14 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-13 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-12 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-09 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-08 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-07 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-06 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-05 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-02 

  tables = pd.read_html(r.text)


✓ 완료
조회 중: 2026-01-01 

  tables = pd.read_html(r.text)


✓ 완료

총 21일치 데이터 통합 완료.
exchange_rate_data 데이터베이스 확인/생성 완료
exchange_rate_data.exchage_rate 데이터 저장 완료(append)
DB 저장 완료.


# 2. selenium을 이용하여 하나은행 환율정보 수집

In [None]:
!pip install sqlalchemy pymysql

In [None]:
!pip install sqlalchemy pymysql python-dotenv

In [None]:
!pip install selenium sqlalchemy pymysql python-dotenv webdriver-manager

In [5]:
###### 1. 환경 설정 및 라이브러리 불러오기 ######
import sys
import os
import time
import pandas as pd
from datetime import datetime
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys

# 외부 모듈 'dbio'의 경로 설정 및 임포트 (dbio import 과정에서 계속 오류가 발생하여 경로를 추가했습니다.)
target_dir = os.path.abspath('../../')
if target_dir not in sys.path:
    sys.path.append(target_dir)
from dbio import to_db


###### 2. 브라우저 설정 ######
options = Options()
options.add_argument("--window-size=1280,1000")
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
wait = WebDriverWait(driver, 10)


###### 3. 하나은행 환율/외화예금 금리 웹페이지 접속 및 조회 ######
try:
    driver.get("https://www.kebhana.com/cms/rate/wpfxd651_01i_01.do")
    
    # (1) '일자선택' 영역의 inputfield 활성화
    search_input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'input#tmpInqStrDt')))

    # (2) '기존에 입력되어 있던 '일자' 제거
    search_input.clear()
    
    # (3)inputfield 에 '조회 날짜' 입력
    search_input.send_keys(search_date)

    # (4)'조회' 버튼 선택
    search_button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btnDefault .bg')))
    search_button.click()
    
    # 검색 데이터 호출까지 잠시 대기
    time.sleep(3)

        
    ###### 4. 수집 기간 설정 (1월 1일 ~ 1월 30일) ######
    start_target = datetime(2026, 1, 30)
    end_target = datetime(2026, 1, 1)

    
    ###### 6. 앱별 반복 수집 및 저장 ######
    for app_info in app_list:
        print(f"\n[{app_info['name']}] 수집 시작...")
        
        # (1) 개별 앱 상세페이지로 이동
        driver.get(app_info['url'])
        time.sleep(2)
        
        # (2) 평점 및 리뷰'버튼 선택을 위해 스크롤
        driver.execute_script("window.scrollTo(0, 1000)")
        
        # (3) 평점 및 리뷰 버튼 선택
        btn = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, 'button[aria-label="평점 및 리뷰 자세히 알아보기"]')))
        btn.click()
        
        # (4) 리뷰를 '최신'으로 정렬
        sort_btn = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#sortBy_1")))
        sort_btn.click()
        time.sleep(1)
        newest = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, 'span[aria-label="최신"]')))
        newest.click()
        time.sleep(3)

        # (5) 팝업 내 무한 스크롤 및 기간 필터링
        popup = driver.find_element(By.CSS_SELECTOR, '.fysCi.Vk3ZVd')
        all_reviews = []
        
        while True:
            # (5-1) 팝업 내부 스크롤
            driver.execute_script("arguments[0].scrollBy(0, 2000)", popup)
            time.sleep(1.5)
            
            # (5-2) 날짜 수집
            dates = driver.find_elements(By.CSS_SELECTOR, ".bp9Aid")
            if not dates: continue
            
            # (5-3) 리뷰 마지막 날짜 확인(end_target 이전 날짜이면 중단)
            last_date_str = dates[-1].text.replace("년 ", "-").replace("월 ", "-").replace("일", "").replace(". ","-").replace(".","")
            last_date_obj = datetime.strptime(last_date_str, "%Y-%m-%d") if '-' in last_date_str else datetime.now()

            if last_date_obj < end_target:
                break
        
        ###### 7. 수집 데이터 파싱 및 정제 ######
        review_elements = driver.find_elements(By.CSS_SELECTOR, ".RHo1pe")
        for item in review_elements:
            # (1) 리뷰 작성일 텍스트 datetime 객체로 변환
            d_str = item.find_element(By.CSS_SELECTOR, ".bp9Aid").text.replace("년 ", "-").replace("월 ", "-").replace("일", "").replace(". ","-").replace(".","")
            d_obj = datetime.strptime(d_str, "%Y-%m-%d")
            
            # (2) 설정한 1월 데이터만 선별 후, all_reviews에 저장
            if end_target <= d_obj <= start_target:
                all_reviews.append({
                    "date": d_obj,
                    "rating": item.find_element(By.CSS_SELECTOR, ".iXRFPc").get_attribute("aria-label").split()[3][0],
                    "review_text": item.find_element(By.CSS_SELECTOR, ".h3YV2d").text
                })
        
        ###### 8. all_reviews를 데이터프레임으로 변환 후 DB에 저장 ######
        if all_reviews:
            df = pd.DataFrame(all_reviews)
            to_db("bank_app_reviews", app_info['table'], df)
            
            print(f"-> {len(df)}건 저장 완료 (테이블: {app_info['table']})")

###### 9. 데이터 수집 및 저장 완료 후, 브라우저 종료 ######
finally:
    driver.quit()

InvalidSessionIdException: Message: invalid session id: session deleted as the browser has closed the connection
from disconnected: not connected to DevTools
  (Session info: chrome=144.0.7559.110); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#invalidsessionidexception
Stacktrace:
Symbols not available. Dumping unresolved backtrace:
	0xd65093
	0xd650d4
	0xb5b490
	0xb4a43e
	0xb68ef3
	0xbcf00c
	0xbe4df9
	0xbc7f56
	0xb996c9
	0xb9a484
	0xfb7e34
	0xfb30c9
	0xfd0add
	0xd7db38
	0xd858ad
	0xd6d848
	0xd6da12
	0xd575fa
	0x774f7ba9
	0x77d5c3ab
	0x77d5c32f


In [8]:
###### 1. 환경 설정 및 라이브러리 불러오기 ######
import sys
import os
import time
import pandas as pd
from datetime import datetime
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys

# 외부 모듈 'dbio'의 경로 설정 및 임포트 (dbio import 과정에서 계속 오류가 발생하여 경로를 추가했습니다.)
target_dir = os.path.abspath('../../')
if target_dir not in sys.path:
    sys.path.append(target_dir)
from dbio import to_db


###### 2. 브라우저 설정 ######
options = Options()
options.add_argument("--window-size=1280,1000")
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
wait = WebDriverWait(driver, 10)


###### 3. 하나은행 환율/외화예금 금리 웹페이지 접속 및 조회 ######
for app_info in app_list:
    print(f"\n[{app_info['name']}] 수집 시작...")
    driver.get(app_info['url'])
    time.sleep(3) # 페이지 로딩 대기
    
    all_reviews = [] # 앱마다 리스트 초기화 필수!
    
    # [중요] 리뷰 페이지로 진입하기 위한 '모든 리뷰 보기' 버튼 클릭이 필요할 수 있습니다.
    # 아래는 리뷰 목록이 로드된 상태에서의 무한 스크롤 예시입니다.
    
    last_height = driver.execute_script("return document.body.scrollHeight")
    
    while True:
        # (1) 리뷰 요소 수집
        review_elements = driver.find_elements(By.CSS_SELECTOR, ".RHo1pe")
        
        # 마지막으로 수집된 리뷰의 날짜 확인
        if review_elements:
            last_date_str = review_elements[-1].find_element(By.CSS_SELECTOR, ".bp9Aid").text
            # 간단한 날짜 변환 (정규식 활용 권장)
            last_date_obj = datetime.strptime(last_date_str.replace(".","").strip(), "%Y년 %m월 %d일")
            
            # 수집 종료 조건: 화면 끝의 리뷰가 설정한 end_target보다 과거라면 중단
            if last_date_obj < end_target:
                break

        # (2) 아래로 스크롤
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(2)
        
        new_height = driver.execute_script("return document.body.scrollHeight")
        if new_height == last_height: # 더 이상 로드될 데이터가 없으면 중단
            break
        last_height = new_height

    ###### 7. 수집 데이터 파싱 및 정제 ######
    review_elements = driver.find_elements(By.CSS_SELECTOR, ".RHo1pe")
    for item in review_elements:
        try:
            d_raw = item.find_element(By.CSS_SELECTOR, ".bp9Aid").text
            # 형식: "2026. 1. 30." 또는 "2026년 1월 30일" 대응
            d_str = d_raw.replace(" ","").replace("년","-").replace("월","-").replace("일","").replace(".","-").strip("-")
            d_obj = datetime.strptime(d_str, "%Y-%m-%d")
            
            if end_target <= d_obj <= start_target:
                all_reviews.append({
                    "date": d_obj,
                    "rating": item.find_element(By.CSS_SELECTOR, ".iXRFPc").get_attribute("aria-label").split()[-1][0],
                    "review_text": item.find_element(By.CSS_SELECTOR, ".h3YV2d").text
                })
        except Exception as e:
            continue # 파싱 에러 시 다음 리뷰로
            
    ###### 8. DB 저장 ######
    if all_reviews:
        df = pd.DataFrame(all_reviews)
        to_db("bank_app_reviews", app_info['table'], df)
        print(f"-> {len(df)}건 저장 완료 (테이블: {app_info['table']})")

NameError: name 'app_list' is not defined