## <크롤링 코드 수정>

# 1. `TimeoutException`

: WebDriverWait를 사용하여 페이지가 로드될 때까지 기다린 후, presence_of_element_located/visibility_of_element_located 등의 메서드를 통해 원하는 요소가 로드되었는지 확인 /  search_button = WebDriverWait(driver, 1).until(EC.element_to_be_clickable((By.XPATH, '//button[contains(text(), "검색")]'))) -> 검색버튼을 찾아서 클릭 등

# 2. `NoSuchElementException`

: try/except~continue 활용   
    
# 3. `ElementClickInterceptedException`

: driver.execute_script() 메서드는 첫 번째 인자로 실행할 자바스크립트 코드를 받고, 두 번째 인자로 해당 자바스크립트 코드 내에서 사용할 요소를 받습니다. arguments[0]은 두 번째 인자로 받은 요소를 의미합니다. 따라서 driver.execute_script("arguments[0].click();", search_button) 코드는 search_button 요소를 자바스크립트를 이용하여 클릭하는 것을 의미합니다.이렇게 자바스크립트를 이용하여 요소를 클릭하면, 다른 요소들에 의해 가려져있어도 정상적으로 클릭할 수 있으므로 ElementClickInterceptedException 오류를 피할 수 있습니다.

# 4. `StaleElementReferenceException`

: 일반적으로 웹 페이지가 변경되거나 새로 고쳐질 때 발생하는 오류입니다. 이 오류는 현재 페이지가 업데이트되어 이전에 가져온 웹 요소가 더 이상 유효하지 않은 경우에 발생합니다. 일반적으로 웹 요소가 수정되거나 페이지가 리로드되면 이전에 검색된 웹 요소는 더 이상 사용할 수 없습니다.

(1) `click_element_with_retries` 함수: 이 함수는 `driver.find_element`로 요소를 찾을 때, `NoSuchElementException` 또는 `StaleElementReferenceException`이 발생할 수 있으므로, 요소를 찾는 과정에서 최대 3번의 재시도를 시도하는 로직입니다. 이를 통해 `StaleElementReferenceException` 오류를 최대한 피할 수 있습니다.

(2) 대기시간 설정과 요소 찾기: `WebDriverWait` 클래스를 사용하여 검색 버튼을 클릭한 후, 검색 결과가 로드될 때까지 대기하도록 설정하였습니다. 이를 통해 검색 결과가 로드되기 전에 데이터를 수집하려는 오류를 방지합니다.

## <시간표 df 수정> 

: '학기' column 추가, 중복제거

# Select
`Select`는 Selenium WebDriver에서 제공하는 클래스로, HTML의 드롭다운(Dropdown) 메뉴와 같은 선택 요소를 다루는 데 사용됩니다. 이 클래스를 사용하면 드롭다운 메뉴에서 옵션을 선택하고 조작할 수 있습니다.

`Select` 클래스를 사용하려면 `webdriver.support.ui`에서 임포트해야 합니다.

예를 들어, 위의 코드에서 `Select`를 사용하여 학과(부)/전공/영역 선택 드롭다운 메뉴를 조작하고 있습니다.

```python
sust_option = Select(WebDriverWait(driver, 5).until(EC.element_to_be_clickable((By.ID, 'sel_sust'))))
```

위의 코드는 다음과 같은 작업을 수행합니다:

1. `WebDriverWait`를 사용하여 드롭다운 메뉴를 찾습니다.
   - `driver` 객체에 대해 최대 5초 동안 드롭다운 메뉴가 클릭 가능한 상태가 될 때까지 기다립니다.

2. `Select` 클래스를 사용하여 찾은 드롭다운 메뉴를 선택합니다.
   - `Select` 클래스의 생성자에 `WebDriverWait`로 찾은 드롭다운 메뉴를 전달하여 객체를 생성합니다.
   - 이제 `sust_option`은 드롭다운 메뉴를 조작할 수 있는 `Select` 객체가 됩니다.

그리고 이후에 `sust_option.select_by_index(i)`를 사용하여 해당 드롭다운 메뉴의 `i`번째 옵션을 선택하는 작업을 수행합니다. `select_by_index()` 메서드를 사용하면 인덱스를 통해 옵션을 선택할 수 있습니다. 또는 `select_by_visible_text()` 메서드를 사용하여 옵션의 텍스트를 기반으로 선택할 수도 있습니다.

이렇게 `Select` 클래스를 사용하면 HTML의 드롭다운 메뉴와 상호작용하는 데에 편리하고 간편한 인터페이스를 제공합니다.

`select` 함수와 `click_element_with_retries` 함수는 서로 다른 역할을 수행하는 함수들입니다. 

1. `select` 함수:
   - `select` 함수는 Selenium의 Select 클래스를 사용하여 웹 페이지에서 드롭다운 목록과 같은 선택형 요소를 다루는 데 사용됩니다.
   - 드롭다운 목록에서 특정 옵션을 선택하거나 조작할 때 사용합니다.
   - `Select` 클래스는 웹 요소를 선택적으로 조작하고, 예를 들어 옵션을 선택하거나 선택 해제할 수 있도록 해주는 기능을 제공합니다.

예시:
```python
from selenium.webdriver.support.ui import Select

# 드롭다운 목록 선택
select_element = Select(driver.find_element_by_id('some_dropdown_id'))
select_element.select_by_visible_text('Option 1')  # 옵션 이름으로 선택
select_element.select_by_value('option_value')     # 옵션의 value 속성으로 선택
select_element.select_by_index(0)                 # 옵션 인덱스로 선택
```

2. `click_element_with_retries` 함수:
   - `click_element_with_retries` 함수는 재시도 메커니즘을 포함한 웹 요소를 클릭하는 데 도움이 되는 사용자 정의 함수입니다.
   - 웹 요소를 클릭할 때 예외가 발생할 수 있는데, 특히 `StaleElementReferenceException`과 같은 예외는 웹 요소가 업데이트되어 더 이상 유효하지 않을 때 발생합니다.
   - 이 함수는 요소를 클릭하려고 시도하고, 만약 `StaleElementReferenceException` 예외가 발생하면 지정된 횟수만큼 재시도를 시도합니다.

예시:
```python
def click_element_with_retries(driver, element, max_retries=3):
    for _ in range(max_retries):
        try:
            element.click()
            return
        except StaleElementReferenceException:
            # StaleElementReferenceException 발생 시 재시도
            continue
    raise StaleElementReferenceException("Stale element reference: Element not found.")
```

이 두 함수는 서로 연관성이 없습니다. `select` 함수는 드롭다운 목록과 같은 선택형 요소를 다루는데 사용되고, `click_element_with_retries` 함수는 재시도 메커니즘을 포함한 요소를 클릭하는 데 사용됩니다. 두 함수는 각자의 목적에 따라 웹 페이지의 요소를 다루는 데 사용됩니다.

`ElementClickInterceptedException`는 클릭하려는 요소가 다른 요소에 의해 가려져서 클릭할 수 없을 때 발생합니다. 에러 메시지에서는 "Other element would receive the click"라는 문구로 이러한 상황을 알려주고 있습니다.

이 오류를 해결하는 방법으로는 두 가지 접근 방법이 있습니다:

1. `ActionChains` 사용: `ActionChains` 클래스를 사용하여 마우스 이벤트를 시뮬레이션하고 클릭하려는 요소에 마우스를 이동시킵니다. 이 방법은 다른 요소로부터 클릭을 해제할 수 있습니다.

```python
from selenium.webdriver.common.action_chains import ActionChains

# 검색 버튼을 찾기 위해 //button[contains(text(), "검색")] XPath를 사용하여 요소를 찾음
search_button = WebDriverWait(driver, 3).until(EC.element_to_be_clickable((By.XPATH, '//button[contains(text(), "검색")]')))

# 다른 요소로부터 클릭을 해제하고 클릭하려는 요소를 클릭합니다.
ActionChains(driver).move_to_element(search_button).click().perform()
```

2. JavaScript를 사용하여 클릭: `WebDriver`의 `execute_script()` 메서드를 사용하여 JavaScript를 실행하고 클릭 이벤트를 호출합니다. 이 방법은 JavaScript를 사용하여 요소를 클릭하므로 다른 요소로부터 클릭을 해제할 수 있습니다.

```python
search_button = WebDriverWait(driver, 3).until(EC.element_to_be_clickable((By.XPATH, '//button[contains(text(), "검색")]')))
driver.execute_script("arguments[0].click();", search_button)
```

## Method1(4820.283982992172 초)

In [None]:
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import Select
from selenium.common.exceptions import NoSuchElementException, StaleElementReferenceException, ElementClickInterceptedException, TimeoutException
import pandas as pd
import time

# 요소를 클릭하는 함수 (재시도 포함)
def click_element_with_retries(driver, element, max_retries=3):
    for _ in range(max_retries):
        try:
            element.click()
            return
        except StaleElementReferenceException:
            # StaleElementReferenceException 발생 시 재시도
            continue
    raise StaleElementReferenceException("Stale element reference: Element not found.")

table_data = []

sugang_url = 'https://mportal.cau.ac.kr/std/usk/sUskSif001/search.do'
driver = webdriver.Chrome()
driver.get(sugang_url)

start_time = time.time()
time.sleep(2)

# 2022년 선택
year_option = Select(WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.ID, 'sel_year'))))
year_option.select_by_index(1)
time.sleep(1)

# 학부 선택
course_option = Select(WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.ID, 'sel_course'))))
course_option.select_by_visible_text('학부')
time.sleep(1)

for s in range(1, 4):  # 학기
    if s == 1 or s == 3:
        # 학기 선택
        shtm_option = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.XPATH, f'//*[@id="sel_shtm"]/option[{s}]')))
        shtm_option.click()
        shtm_value = shtm_option.text.strip()
        time.sleep(1)

        for c in range(2, 4):  # 캠퍼스
            # 캠퍼스 선택
            camp_option = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.XPATH, f'//*[@id="sel_camp"]/option[{c}]')))
            camp_option.click()
            time.sleep(2)

            for d in range(3, len(driver.find_elements(By.XPATH, '//*[@id="sel_colg"]/option')) + 1):
                # 단과대 선택
                colg_option = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.XPATH, f'//*[@id="sel_colg"]/option[{d}]')))
                colg_option.click()
                time.sleep(1)

                for i in range(2, len(driver.find_elements(By.XPATH, '//*[@id="sel_sust"]/option')) + 1):
                    # 학과(부)/전공/영역 선택
                    try:
                        sust_option = Select(WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.ID, 'sel_sust'))))
                        sust_option.select_by_index(i)
                        sust_value = sust_option.first_selected_option.text.strip()
                    except NoSuchElementException:
                        continue

                    # 검색 버튼을 찾기 위해 //button[contains(text(), "검색")] XPath를 사용하여 WebDriverWait를 통해 해당 요소를 기다림
                    search_button = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.XPATH, '//button[contains(text(), "검색")]')))
                    search_button.click()
                    
                    # 로딩 오버레이가 사라질 때까지 대기 (검색 결과가 로드되는 시간을 기다리는 것)
                    WebDriverWait(driver, 10).until(EC.invisibility_of_element_located((By.CSS_SELECTOR, 'div.sp-loading-wrap.none.ng-isolate-scope'))) 
                                                                                                          # 'div.sp-loading-wrap.none.ng-isolate-scope'은 로딩 오버레이를 나타내는 CSS 선택자
                    try:
                        # 검색 결과가 로드될 때까지 대기
                        WebDriverWait(driver, 20).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'div.sp-grid-data-row')))
                    except TimeoutException:
                        # 데이터가 없는 경우
                        continue

                    # table data
                    soup = BeautifulSoup(driver.page_source, 'html.parser')
                    data = soup.find_all("div", {'class': 'sp-grid-data-row'})

                    for row in data:
                        row_data = [span.text.strip() for span in row.find_all('span', class_='ng-binding ng-scope')]
                        row_data.insert(0, shtm_value)  # Insert 학기 정보
                        row_data.insert(1, sust_value)  # Insert 학과(부)/전공/영역 정보
                        table_data.append(row_data)

end_time = time.time()  # 데이터 수집 종료 시간 기록

# table data as DataFrame
column_names = ['대학', '학과(부)/전공/영역', '학기', '개설학과', '학년', '과정', '이수구분', '과목번호-분반', '과목명', '학점-시간', '담당교수', '폐강', '강의시간', '유연학기', '비고', '수업유형']
cau_df = pd.DataFrame(data=table_data, columns=column_names)
print(cau_df)
cau_df.to_csv('C:/Users/황의지/Desktop/hk+/cau_df.csv', index=False, encoding='utf-8-sig')

elapsed_time = end_time - start_time
print("데이터 수집에 걸린 시간: ", elapsed_time, "초")

## Method2(2432.5111904144287 초)[16772 rows x 16 columns]

In [None]:
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import Select
from selenium.common.exceptions import NoSuchElementException, StaleElementReferenceException, ElementClickInterceptedException, TimeoutException
import pandas as pd
import time

# 요소를 클릭하는 함수 (재시도 포함)
def click_element_with_retries(driver, element, max_retries=3):
    for _ in range(max_retries):
        try:
            element.click()
            return
        except StaleElementReferenceException:
            # StaleElementReferenceException 발생 시 재시도
            continue
    raise StaleElementReferenceException("Stale element reference: Element not found.")

table_data = []

sugang_url = 'https://mportal.cau.ac.kr/std/usk/sUskSif001/search.do'
driver = webdriver.Chrome()
driver.get(sugang_url)

start_time = time.time()
time.sleep(1)

# 2022년 선택
year_option = Select(WebDriverWait(driver, 5).until(EC.element_to_be_clickable((By.ID, 'sel_year'))))
year_option.select_by_index(1)
#time.sleep(1)

# 학부 선택
course_option = Select(WebDriverWait(driver, 5).until(EC.element_to_be_clickable((By.ID, 'sel_course'))))
course_option.select_by_visible_text('학부')
#time.sleep(1)

for s in range(1, 4):  # 학기
    if s == 1 or s == 3:
        # 학기 선택
        shtm_option = WebDriverWait(driver, 5).until(EC.element_to_be_clickable((By.XPATH, f'//*[@id="sel_shtm"]/option[{s}]')))
        shtm_option.click()
        shtm_value = shtm_option.text.strip()
        time.sleep(1)

        for c in range(2, 4):  # 캠퍼스
            # 캠퍼스 선택
            camp_option = WebDriverWait(driver, 5).until(EC.element_to_be_clickable((By.XPATH, f'//*[@id="sel_camp"]/option[{c}]')))
            camp_option.click()
            time.sleep(1)

            for d in range(3, len(driver.find_elements(By.XPATH, '//*[@id="sel_colg"]/option')) + 1):
                # 단과대 선택
                colg_option = WebDriverWait(driver, 5).until(EC.element_to_be_clickable((By.XPATH, f'//*[@id="sel_colg"]/option[{d}]')))
                colg_option.click()
                time.sleep(1)

                for i in range(1, len(driver.find_elements(By.XPATH, '//*[@id="sel_sust"]/option')) + 1):
                    # 학과(부)/전공/영역 선택
                    try:
                        sust_option = Select(WebDriverWait(driver, 5).until(EC.element_to_be_clickable((By.ID, 'sel_sust'))))
                        #time.sleep(1)
                        sust_option.select_by_index(i)
                        sust_value = sust_option.first_selected_option.text.strip()
                    except NoSuchElementException:
                        continue

                    # 검색 버튼을 찾기 위해 //button[contains(text(), "검색")] XPath를 사용하여 WebDriverWait를 통해 해당 요소를 기다림
                    search_button = WebDriverWait(driver, 1).until(EC.element_to_be_clickable((By.XPATH, '//button[contains(text(), "검색")]')))
                    search_button.click()
                    
                    # 로딩 오버레이가 사라질 때까지 대기 (검색 결과가 로드되는 시간을 기다리는 것)
                    WebDriverWait(driver, 3).until(EC.invisibility_of_element_located((By.CSS_SELECTOR, 'div.sp-loading-wrap.none.ng-isolate-scope'))) 
                                                                                                          # 'div.sp-loading-wrap.none.ng-isolate-scope'은 로딩 오버레이를 나타내는 CSS 선택자
                    try:
                        # 검색 결과가 로드될 때까지 대기
                        WebDriverWait(driver, 3).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'div.sp-grid-data-row')))
                    except TimeoutException:
                        # 데이터가 없는 경우
                        continue

                    # table data
                    soup = BeautifulSoup(driver.page_source, 'html.parser')
                    data = soup.find_all("div", {'class': 'sp-grid-data-row'})

                    for row in data:
                        row_data = [span.text.strip() for span in row.find_all('span', class_='ng-binding ng-scope')]
                        row_data.insert(0, shtm_value)  # Insert 학기 정보
                        row_data.insert(1, sust_value)  # Insert 학과(부)/전공/영역 정보
                        table_data.append(row_data)

end_time = time.time()  # 데이터 수집 종료 시간 기록

# table data as DataFrame
column_names = ['대학', '학과(부)/전공/영역', '학기', '개설학과', '학년', '과정', '이수구분', '과목번호-분반', '과목명', '학점-시간', '담당교수', '폐강', '강의시간', '유연학기', '비고', '수업유형']
cau_df = pd.DataFrame(data=table_data, columns=column_names)
print(cau_df)
cau_df.to_csv('C:/Users/황의지/Desktop/hk+/cau_df.csv', index=False, encoding='utf-8-sig')

elapsed_time = end_time - start_time
print("데이터 수집에 걸린 시간: ", elapsed_time, "초")

In [None]:
# 중복 제거
cau_df = cau_df.drop_duplicates()
print(cau_df)  # [16772 rows x 16 columns]
'''
import pandas as pd
column_names = ['대학', '학과(부)/전공/영역', '학기', '개설학과', '학년', '과정', '이수구분', '과목번호-분반', '과목명', '학점-시간', '담당교수', '폐강', '강의시간', '유연학기', '비고', '수업유형']
cau_dff.drop_duplicates(subset=column_names, keep='first', inplace=True)
'''

## Method3(2170.5208852291107 초)[16817 rows x 16 columns]

In [None]:
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import Select
from selenium.common.exceptions import NoSuchElementException, StaleElementReferenceException, ElementClickInterceptedException, TimeoutException
import pandas as pd
import time

# 요소를 클릭하는 함수 (재시도 포함)
def click_element_with_retries(driver, element, max_retries=2):
    for _ in range(max_retries):
        try:
            element.click()
            return
        except StaleElementReferenceException:
            # StaleElementReferenceException 발생 시 재시도
            continue
    raise StaleElementReferenceException("Stale element reference: Element not found.")

table_data = []

sugang_url = 'https://mportal.cau.ac.kr/std/usk/sUskSif001/search.do'
driver = webdriver.Chrome()
driver.get(sugang_url)

start_time = time.time()
time.sleep(1)

# 2022년 선택
year_option = Select(WebDriverWait(driver, 2).until(EC.element_to_be_clickable((By.ID, 'sel_year'))))
year_option.select_by_index(1)
#time.sleep(1)

# 학부 선택
course_option = Select(WebDriverWait(driver, 2).until(EC.element_to_be_clickable((By.ID, 'sel_course'))))
course_option.select_by_visible_text('학부')
#time.sleep(1)

for s in range(1, 4):  # 학기
    if s == 1 or s == 3:
        # 학기 선택
        shtm_option = WebDriverWait(driver, 3).until(EC.element_to_be_clickable((By.XPATH, f'//*[@id="sel_shtm"]/option[{s}]')))
        shtm_option.click()
        shtm_value = shtm_option.text.strip()
        time.sleep(1)

        for c in range(2, 4):  # 캠퍼스
            # 캠퍼스 선택
            camp_option = WebDriverWait(driver, 3).until(EC.element_to_be_clickable((By.XPATH, f'//*[@id="sel_camp"]/option[{c}]')))
            camp_option.click()
            time.sleep(1)

            for d in range(3, len(driver.find_elements(By.XPATH, '//*[@id="sel_colg"]/option')) + 1):
                # 단과대 선택
                colg_option = WebDriverWait(driver, 3).until(EC.element_to_be_clickable((By.XPATH, f'//*[@id="sel_colg"]/option[{d}]')))
                colg_option.click()
                time.sleep(1)

                for i in range(1, len(driver.find_elements(By.XPATH, '//*[@id="sel_sust"]/option')) + 1):
                    # 학과(부)/전공/영역 선택
                    try:
                        sust_option = Select(WebDriverWait(driver, 3).until(EC.element_to_be_clickable((By.ID, 'sel_sust'))))
                        sust_option.select_by_index(i)
                        sust_value = sust_option.first_selected_option.text.strip()
                    except NoSuchElementException:
                        continue

                    # 검색 버튼을 찾기 위해 //button[contains(text(), "검색")] XPath를 사용하여 WebDriverWait를 통해 해당 요소를 기다림
                    search_button = WebDriverWait(driver, 1).until(EC.element_to_be_clickable((By.XPATH, '//button[contains(text(), "검색")]')))
                    search_button.click()
                    
                    # 로딩 오버레이가 사라질 때까지 대기 (검색 결과가 로드되는 시간을 기다리는 것)
                    #WebDriverWait(driver, 53).until(EC.invisibility_of_element_located((By.CSS_SELECTOR, 'div.sp-loading-wrap.none.ng-isolate-scope'))) 
                                                                                                          # 'div.sp-loading-wrap.none.ng-isolate-scope'은 로딩 오버레이를 나타내는 CSS 선택자
                        
                    # 대기 없이 로딩 요소가 사라졌는지 확인하고, 사라졌으면 바로 다음 코드를 실행
                    loading_overlay = driver.find_elements(By.CSS_SELECTOR, 'div.sp-loading-wrap.none.ng-isolate-scope')
                    if not loading_overlay:
                        # 로딩 요소가 사라졌으므로 바로 다음 코드를 실행
                        pass

                    try:
                        # 검색 결과가 로드될 때까지 대기
                        WebDriverWait(driver, 3).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'div.sp-grid-data-row')))
                        time.sleep(1)
                    except TimeoutException:
                        # 데이터가 없는 경우
                        continue

                    # table data
                    soup = BeautifulSoup(driver.page_source, 'html.parser')
                    data = soup.find_all("div", {'class': 'sp-grid-data-row'})

                    for row in data:
                        row_data = [span.text.strip() for span in row.find_all('span', class_='ng-binding ng-scope')]
                        row_data.insert(0, shtm_value)  # Insert 학기 정보
                        row_data.insert(1, sust_value)  # Insert 학과(부)/전공/영역 정보
                        table_data.append(row_data)

end_time = time.time()  # 데이터 수집 종료 시간 기록

# table data as DataFrame
column_names = ['대학', '학과(부)/전공/영역', '학기', '개설학과', '학년', '과정', '이수구분', '과목번호-분반', '과목명', '학점-시간', '담당교수', '폐강', '강의시간', '유연학기', '비고', '수업유형']
cau_df = pd.DataFrame(data=table_data, columns=column_names)
cau_df = cau_df.drop_duplicates()
#courses_selected_df.drop_duplicates(subset='과목명', keep='first', inplace=True)  -> 원본(w/과목번호)을 살리고 싶어서 과목명 중복제거는 나중에 진행했음 
print(cau_df)
cau_df.to_csv('C:/Users/황의지/Desktop/hk+/cau_df.csv', index=False, encoding='utf-8-sig')

elapsed_time = end_time - start_time
print("데이터 수집에 걸린 시간: ", elapsed_time, "초")