# 크롤링

### (1) 라이브러리 설치

In [3]:
pip install selenium

Note: you may need to restart the kernel to use updated packages.


In [2]:
import selenium
print(selenium.__version__)

4.12.0


In [4]:
pip install webdriver-manager

Note: you may need to restart the kernel to use updated packages.


### (2) 라이브러리 import

In [5]:
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager

ChromeDriverManager().install()
browser = webdriver.Chrome() # 우리가 컨트롤 할 수 있는 브라우저가 실행이된다.

# selenium -> chromedriver -> chrome

In [6]:
browser.get('https://www.naver.com')
browser.title

'NAVER'

In [7]:
from selenium.webdriver.common.by import By
browser.find_element(By.ID, 'query').click()

In [8]:
browser.find_element(By.ID, 'query').send_keys("날씨")

In [9]:
browser.find_element(By.ID, 'search-btn').click() # 검색 아이콘 클릭

In [14]:
word = browser.find_element(By.CLASS_NAME, 'temperature_text').text
word.split("\n")[1]

'17.4°'

In [15]:
browser.find_element(By.CLASS_NAME, 'temperature_text')

<selenium.webdriver.remote.webelement.WebElement (session="683f09e9715ba06e2f1ac89efc5b7ff7", element="C8DAA18ED85D58BD4CA9292211ADA3C9_element_434")>

In [16]:
browser.find_element(By.CLASS_NAME, 'temperature_text').find_element(By.CLASS_NAME, 'celsius').text

'°'

In [21]:
# 체감, 습도, 풍향 각각의 변수로 저장해봅시다.
data = browser.find_element(By.CLASS_NAME, 'summary_list').text
data.split(" ")

temp = data.split(" ")[1]
hum = data.split(" ")[3]
wind = data.split(" ")[5]
temp, hum, wind

('17.7°', '76%', '2.3m/s')

In [23]:
browser.find_element(By.CLASS_NAME, 'summary_list')

<selenium.webdriver.remote.webelement.WebElement (session="683f09e9715ba06e2f1ac89efc5b7ff7", element="C8DAA18ED85D58BD4CA9292211ADA3C9_element_436")>

In [24]:
browser.find_element(By.CLASS_NAME, 'summary_list').find_element(By.TAG_NAME, 'dd').text

'17.7°'

In [28]:
weather_list = browser.find_element(By.CLASS_NAME, 'summary_list').find_elements(By.TAG_NAME, 'dd')

for i in weather_list:
    print(i.text)

17.7°
76%
2.3m/s


In [7]:
# 환율 페이지로 이동
url = 'https://search.naver.com/search.naver?sm=tab_hty.top&where=nexearch&query=%ED%99%98%EC%9C%A8&oquery=%EB%82%A0%EC%94%A8&tqi=if%2BkOdprvOssslYQTuwssssssJw-426956'
browser.get(url)

In [38]:
browser.find_element(By.CLASS_NAME, 'spt_con').find_elements(By.TAG_NAME, 'em')[1].text

'(-0.37%)'

In [9]:
# 표 데이터 크롤링 방법 -> 엑셀에 저장할 때도 유용
!pip install pandas



In [13]:
import pandas as pd

url = 'https://search.naver.com/search.naver?sm=tab_hty.top&where=nexearch&query=%ED%99%98%EC%9C%A8&oquery=%EB%82%A0%EC%94%A8&tqi=if%2BkOdprvOssslYQTuwssssssJw-426956'

tables = pd.read_html(url)
currency_df = tables[0]

In [15]:
# 절대경로와 상대경로에 대한 이해가 필요합니다.
currency_df.to_csv('currency.csv')

In [20]:
# 네이버 증권 표 데이터 가져오기
url = 'https://finance.naver.com/'

table_list = pd.read_html(url, encoding='euc-kr')
len(table_list)

df = table_list[0]
df.to_csv('stock_info.csv', encoding='utf-8')

Unnamed: 0,종목명,현재가,전일대비,등락률
0,KODEX 200선물인버스2X,2765,상승 65,+2.41%
1,이스트아시아홀딩스,144,상승 14,+10.77%
2,흥아해운,2385,상승 345,+16.91%
3,한국ANKOR유전,490,하락 31,-5.95%
4,대한해운,1902,상승 97,+5.37%
5,KODEX 코스닥150선물인버스,4085,상승 70,+1.74%
6,퍼스텍,4050,상승 290,+7.71%
7,엘컴텍,1599,상승 92,+6.10%
8,피델릭스,1877,하락 66,-3.40%
9,대성산업,4385,상승 530,+13.75%


### 구글 뉴스 크롤링

In [22]:
# 라이브러리 import
from selenium import webdriver
from selenium.webdriver.common.by import By

In [23]:
# 브라우저를 연다.
browser = webdriver.Chrome()

In [24]:
# 구글 뉴스로 이동한다.
url = 'https://www.google.com/search?q=%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5+%EC%84%9C%EB%B9%84%EC%8A%A4&newwindow=1&sca_esv=574621129&biw=864&bih=1000&tbm=nws&sxsrf=AM9HkKmDg9LQk4Ij_gnx23BROXfIxck8ig%3A1697681021147&ei=fY4wZYLHCMCo2roPt4GigAE&ved=0ahUKEwjC-dPRgoGCAxVAlFYBHbeACBAQ4dUDCA0&uact=5&oq=%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5+%EC%84%9C%EB%B9%84%EC%8A%A4&gs_lp=Egxnd3Mtd2l6LW5ld3MiFuyduOqzteyngOuKpSDshJzruYTsiqQyBRAAGIAEMgUQABiABDIFEAAYgAQyBRAAGIAEMgUQABiABDIFEAAYgAQyBRAAGIAEMgUQABiABDIFEAAYgAQyBRAAGIAESLAjUP4IWPEicAp4AJABBpgBjgKgAcMgqgEGMC4xNi43uAEDyAEA-AEBqAIAwgILEAAYgAQYsQMYgwHCAgQQABgDwgIIEAAYgAQYsQOIBgE&sclient=gws-wiz-news'
browser.get(url)

In [40]:
# 최상위 기사 1개의 (1) 제목 (2) 내용 (3) 언론사 (4) 링크
title = browser.find_element(By.CLASS_NAME, 'n0jPhd').text
content = browser.find_element(By.CLASS_NAME, 'GI74Re').text
company = browser.find_element(By.CLASS_NAME, 'MgUUmf').text
link = browser.find_element(By.CLASS_NAME, 'WlydOe').get_attribute('href')

title, content, company, link

("“AI 서비스를 코딩 없이 입맛대로”...스타트업 렛서, AI 플랫폼 '램프' 출시",
 "인공지능(AI) 전문 렛서(대표 심규현)는 AI 플랫폼 '램프'를 정식 출시했다고 17일 밝혔다.램프는 코딩 과정 없이 AI 서비스를 개발 및 운영할 수...",
 'AI타임스',
 'https://www.aitimes.com/news/articleView.html?idxno=154392')

In [46]:
# 구글 뉴스 1페이지의 기사를 전부 가져와 봅시다.
# 1 페이지의 기사 제목 전부를 가져와 봅시다.

title_list = browser.find_elements(By.CLASS_NAME, 'n0jPhd')
for elem in title_list:
    print(elem.text)    

“AI 서비스를 코딩 없이 입맛대로”...스타트업 렛서, AI 플랫폼 '램프' 출시
네이버, AI 기반 호텔 추천 서비스 ‘포유’ 베타서비스 개시 - 조선비즈
솔리드이엔지-네이버클라우드, 골프 관련 AI 서비스 개발 협력
CEOSCOREDAILY
인피닉, 기업 정보 구축 서비스 'AI-피디아(AI-Pedia)' 베타 버전 공개
용인특례시, 'AI안부든든 서비스' 대상 확대
대한민국 대표 경제전문 멀티미디어 뉴스통신 채널
IBK기업은행, AI 음성봇 상담 서비스 'IBK바로' 출시
KT클라우드, AI 추론 특화된 인프라 서비스 출시
의령군, 인공지능 로봇(AI) 활용 어르신 돌봄 서비스 구축


In [44]:
data_list = ['element1', 'element2', 'element3']

for elem in data_list:
    print(elem)

element1
element2
element3


In [None]:
# 내용, 언론사, 링크
    # 한달동안 같은 이슈(레벨3)에 시달린겁니다.    
    # (1) 아 나 개발자 안되려나보다... 못해먹겠다. -> 사요나라... 다른 직무로 전환
    # (2) 견뎌냈을 때 실력이 늘어나는데.. 맵집이 커집니다. 
    # 레벨 3밑으로 이슈가 생겨도 무덤덤하게 해결합니다.    
    
# 비전공자 -> 전공자의 4년을 따라잡아야 합니다. (시간은 밀도) 1년만에도 잡을 수 있겠죠.
# 안녕하세요. 저 서울대 컴공입니다. -> 오케이. 들어오시죠.
# 안녕하세요. 저 서울대 컴공입니다. -> 아 그래요? 어떤거 하실 줄 아시죠? 모델링 하실줄 아시나요? 
# 앱 개발 하실 줄 아시나요? -> (포트폴리오)
# 전공자 취업 잘 한친구들 -> 앱 동아리, 학회 -> 열심히 개발한 친구들이 회사 잘 가죠.
# 실무 역량이 쌓여있으니까.
    
# 1페이지
# 2페이지
# 3페이지...

In [56]:
# 컨테이너 박스들을 가져와서, 그 컨테이너 안에서 데이터를 가져오는 방법으로 크롤링 해보겠습니다.
# (1) 컨테이너 박스들을 가져옵니다.

containers = browser.find_elements(By.CLASS_NAME, 'SoaBEf')

data_list = []
for container in containers:
    title = container.find_element(By.CLASS_NAME, 'n0jPhd').text    
    content = container.find_element(By.CLASS_NAME, 'GI74Re').text
    company = container.find_element(By.CLASS_NAME, 'MgUUmf').text
    link = container.find_element(By.CLASS_NAME, 'WlydOe').get_attribute('href')
    
    # json -> 기계랑 기계는 어떻게 대화할까요?
    # 제가 스마트폰으로 저희 집 조명을 조절할 수 있습니다.
    # 스마트폰 -> 조명으로 소통을 해야겠죠. 소통방식 (프로토콜 -> json)
    
    data = {
        "title" : title,
        "content" : content,
        "company" : company,
        "link" : link        
    }

    data_list.append(data)

# data_list는 리스트 data는 딕셔너리이고 리스트 안에 딕셔너리로 넣은 것 맞나요???

In [59]:
import pandas as pd
df = pd.DataFrame(data_list) # df = excel

df.to_csv("google_news.csv", encoding='utf-8') # cp949, euc-kr

In [63]:
# 페이지를 3페이지까지 크롤링하는 코드 작성해보시죠.
# 키워드도 바꾸고 싶어. 맨날 링크를 변경해야해? 
# 유저 한테 키워드 입력받아서 해당 키워드 데이터 가져오는 것을 만들어봅시다.

# 기획으로 풀어 나가야 합니다.

# (1) 검색어 (키워드)
keyword = input('수집하시고자 하는 키워드를 알려주세요 :)')

url = 'https://www.google.com/start={}'
final_url = url.format(keyword)
browser.get(final_url)

# (2) 페이지 1페이지 ~ 5페이지까지 수집을 하고싶어.
page = int(input("몇 페이지까지 크롤링할까요?"))

url = 'https://www.google.com/start={}'
for i in range(0, 10*page, 10):
    final_url = url.format(i)
    print(final_url)
    browser.get(final_url)

수집하시고자 하는 키워드를 알려주세요 :)3
몇 페이지까지 크롤링할까요?4
https://www.google.com/start=0
https://www.google.com/start=10
https://www.google.com/start=20
https://www.google.com/start=30


In [70]:
link_list = browser.find_element(By.CLASS_NAME, 'AaVjTc').find_elements(By.TAG_NAME, 'a')

import time
page_list = []
for i in link_list:
    page_link = i.get_attribute('href')

    page_list.append(page_link)

In [71]:
for link in page_list:
    browser.get(link)
    time.sleep(5)

In [None]:
# 감사합니다, 이따 궁금한 거 문의드릴께요. 
# 여러 창을 띄워놓고 창크기를 늘렸다 줄였다 하는 건 어떤 단축키를 쓰시나요?
# Window키 + 화살표 왼쪽/오른쪽, 위로 (전체화면)

### DB PIA 논문 데이터 크롤링

In [76]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import pandas as pd

In [109]:
browser = webdriver.Chrome()

In [80]:
keyword = input("검색하시고자 하는 논문의 제목 또는 주제를 입력하세요 : ")
url = 'https://www.dbpia.co.kr/search/topSearch?searchOption=all&query={}'
final_url = url.format(keyword)
browser.get(final_url)

검색하시고자 하는 논문의 제목 또는 주제를 입력하세요 : 자동화


In [81]:
# 1페이지 논문 데이터를 가져와 봅시다.
# (1) 논문 제목 (2) 저자 (3) 이용수 (4) 링크

# 2페이지까지도 시도해보기 -> URL:X, 버튼을 클릭하게 만들거나.. (XPATH)

# 엑셀저장까지 :)

# 안녕하세요, 블로그가 너무 좋네요. 방문했습니다. 제 블로그에도 놀러오세요 ^^ -> 자동화 봇!
# 인스타로 확장할 수도 있고... 그죠!?...

In [90]:
datas = browser.find_elements(By.CLASS_NAME, 'thesis')

for data in datas:
    title = data.find_element(By.CLASS_NAME, 'thesis__tit').text
    author = data.find_element(By.CLASS_NAME, 'thesis__item').text
    count = data.find_element(By.CLASS_NAME, 'thesis__useCount').text[4:]
    link = data.find_element(By.CLASS_NAME, 'thesis__link').get_attribute('href')
    
    print(title, author, count, link)
    
# (1) 3페이지까지 가져오는 것 (XPATH 값)
# 1p, //*[@id="pageList"]/a[1]
# 2p, //*[@id="pageList"]/a[2] 
# 3p, //*[@id="pageList"]/a[3]
# 5p, //*[@id="pageList"]/a[5]

# ip, //*[@id="pageList"]/a[i]


# (2) 상세페이지로 이동해서 초록*키워드 데이터를 가져오는 것

디지털 기반 도로 건설장비 자동화 조진우 9 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11524060
건축 매스생성 자동화를 위한 지구단위계획 데이터 통합화 및 구축에 관한 연구 김동욱, 구형모, 추승연 17 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11527197
OSC 확대를 위한 프리팹 구조 및 자동화 기술 개발 심창수, 이상윤, 심성한 외 1명 6 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11524061
에세이 평가 자동화를 위한 대조 학습 기반 다중계층 BERT 모델 손실함수에 관한 연구 한상우, 유대곤, 온병원 외 1명 13 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11524197
3D 공간정보를 활용한 터널 설계 자동화 기술 개발 및 적용 사례 : 남해 서면-여수 신덕 국도 건설공사 BIM기반 설계를 중심으로 조은지, 김우진, 김광염 외 2명 22 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11509935
지하시설물 성과심사 표본추출 자동화를 위한 Excel의 적용 최현, 김태훈, 김태우 8 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11516574
3차원 건축물 모델링 자동화를 위한 딥러닝 기반 벽 구조 객체 추출 방법 유형준, 이경로, 류제호 외 2명 6 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11516296
[ZOOM UP_[한국서부발전 우수협력기업] 뉴토크코리아] 기술력 바탕 전동밸브 자동화 선도 : 서부발전과 국산화 협력 발전분야로 보폭 넓혀_NTI 시리즈, 이물질 쌓임·디스크 낌 자체 처리 편집부 0 https://www

In [95]:
import time

data_list = []
for i in range(2,5):
    time.sleep(5)
    datas = browser.find_elements(By.CLASS_NAME, 'thesis')

    for data in datas:
        title = data.find_element(By.CLASS_NAME, 'thesis__tit').text
        author = data.find_element(By.CLASS_NAME, 'thesis__item').text
        count = data.find_element(By.CLASS_NAME, 'thesis__useCount').text[4:]
        link = data.find_element(By.CLASS_NAME, 'thesis__link').get_attribute('href')

        print(title, author, count, link)
        
        data = {
            "제목" : title,
            "저자" : author,
            "인용수" : count,
            "링크" : link
        }
        
        data_list.append(data)

    print(f"{i} 페이지 입니다.")    
    xpath = f'//*[@id="pageList"]/a[{}]'
    browser.find_element(By.XPATH, xpath).click()

그리드형 ROI를 이용한 차선 세그멘테이션 레이블링 자동화 연구 장영준, 이석호, 김지홍 외 1명 6 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11480615
이동체의 이동에 따른 교각 원격·자동화 거푸집 시스템의 거동 분 이혁진, 최동호, 이승혜 외 1명 4 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11443527
환각 생성과 창의성 추출의 자동화된 기계 : 생성형 AI 뒤집어 보기 김상민 32 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11515416
인공지능 자본주의 프론티어 비판 : 인지 자동화 시대 제3섹터 비인간 노동과 '탈중앙화 커먼즈'의 재구성 신현우 23 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11515418
MIL-STD-810H를 적용한 전력차단기 조립 자동화 설비의 진동해석 이선우, 허장욱 40 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11419080
포스코DX 로봇자동화 사업과 적용 사례 최선아, 신흥재, 윤석준 7 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11472970
식품안전 점검 자동화 시스템 구축을 위한 식품 분야 감성사전 구축 김정연, 이다현, 이은서 외 3명 7 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11473043
인공지능을 이용한 DNB 야간불빛위성의 야간어선탐지 자동화 추출 기법연구 윤석, 이형탁, 최혜민 외 4명 1 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11488191
Regional Contrast 및 준지도 학습을 통한 딥러닝 기반

In [98]:
pd.DataFrame(data_list)

Unnamed: 0,제목,저자,인용수,링크
0,그리드형 ROI를 이용한 차선 세그멘테이션 레이블링 자동화 연구,"장영준, 이석호, 김지홍 외 1명",6,https://www.dbpia.co.kr/journal/articleDetail?...
1,이동체의 이동에 따른 교각 원격·자동화 거푸집 시스템의 거동 분,"이혁진, 최동호, 이승혜 외 1명",4,https://www.dbpia.co.kr/journal/articleDetail?...
2,환각 생성과 창의성 추출의 자동화된 기계 : 생성형 AI 뒤집어 보기,김상민,32,https://www.dbpia.co.kr/journal/articleDetail?...
3,인공지능 자본주의 프론티어 비판 : 인지 자동화 시대 제3섹터 비인간 노동과 '탈중...,신현우,23,https://www.dbpia.co.kr/journal/articleDetail?...
4,MIL-STD-810H를 적용한 전력차단기 조립 자동화 설비의 진동해석,"이선우, 허장욱",40,https://www.dbpia.co.kr/journal/articleDetail?...
5,포스코DX 로봇자동화 사업과 적용 사례,"최선아, 신흥재, 윤석준",7,https://www.dbpia.co.kr/journal/articleDetail?...
6,식품안전 점검 자동화 시스템 구축을 위한 식품 분야 감성사전 구축,"김정연, 이다현, 이은서 외 3명",7,https://www.dbpia.co.kr/journal/articleDetail?...
7,인공지능을 이용한 DNB 야간불빛위성의 야간어선탐지 자동화 추출 기법연구,"윤석, 이형탁, 최혜민 외 4명",1,https://www.dbpia.co.kr/journal/articleDetail?...
8,Regional Contrast 및 준지도 학습을 통한 딥러닝 기반 용접 자동화 시스템,"남상규, 전재훈, 이다현 외 3명",4,https://www.dbpia.co.kr/journal/articleDetail?...
9,차량 평가 계측 데이터 분석 과정 자동화 소프트웨어 및 UI 구축,"임항규, 이학준, 이지웅 외 4명",5,https://www.dbpia.co.kr/journal/articleDetail?...


In [102]:
# 이건 웹에 관련된 사항일 것 같긴한데, 
# 저런식으로 창의 크기를 줄이는 것에 따라 내부 요소가 바뀌는 경우엔 
# 보통 어떤식으로 안정적이게 처리(?) 하나요??
browser.set_window_size(2048, 1024)# 픽셀

In [106]:
# 상세 페이지 뜯어보기
# 1페이지에 나와있는 논문들의 초록*키워드 데이터를 가져오고 싶어요.

# 1페이지 상세 페이지 링크를 수집
links = browser.find_elements(By.CLASS_NAME, 'thesis__link')

link_list = []
for element in links:
    link = element.get_attribute('href')
    link_list.append(link)

['https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11524060',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11527197',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11524061',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11524197',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11509935',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11516574',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11516296',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11516181',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11495796',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11511987',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11512283',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11481018',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11512534',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11512927',
 'https://www.dbpia.

In [107]:
import time
for link in link_list:
    time.sleep(3)
    browser.get(link)

KeyboardInterrupt: 

In [110]:
# 안녕하세요 강사님!

# https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11522387
# 케이스처럼 초록, 키워드가 없는 경우 NoSuchElementException 에러가 발생하는데요.
# 이럴 때는 검색해보니 try, except로 처리하라고 되어있는데 해결방법이 추가로 또 있나요..? 
# 코드가 길어지는 것 같아서 find_element 내에서 자체적으로 뭔가 처리하는 방법이 있나해서요.

url = 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11522387'
browser.get(url)

In [113]:
try:
    content = browser.find_element(By.CLASS_NAME, 'abstractTxt').text    
except:
    print("오류 발생")
    content = "비어있음."

오류 발생


### SRT 예매 프로그램

In [114]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import pandas as pd

In [115]:
browser = webdriver.Chrome()

In [116]:
url = 'https://etk.srail.kr/cmc/01/selectLoginForm.do?pageId=TK0701000000'
browser.get(url)

In [117]:
# 휴대전화 번호를 클릭 후, 휴대폰 번호 및 패스워드 입력 후 로그인 구현

# AI Engineer의 수명은 !?
# 머신러닝 엔지니어 -> 엄청난 사건이 벌어집니다. 나락가는 어떤 일이...
# 알파고 = "DeepLearning"

In [118]:
browser.find_element(By.ID, 'srchDvCd3').click()

In [119]:
browser.find_element(By.ID, 'srchDvNm03').click()
browser.find_element(By.ID, 'srchDvNm03').send_keys('')

In [122]:
browser.find_element(By.ID, 'hmpgPwdCphd03').click()
browser.find_element(By.ID, 'hmpgPwdCphd03').send_keys('')

In [123]:
# 확인 버튼 클릭
browser.find_element(By.XPATH, '//*[@id="login-form"]/fieldset/div[1]/div[1]/div[4]/div/div[2]/input').click()

In [125]:
url = 'https://etk.srail.kr/hpg/hra/01/selectScheduleList.do?pageId=TK0101010000'
browser.get(url)

In [126]:
browser.find_element(By.XPATH, '//*[@id="search_top_tag"]/input').click()

In [127]:
word = browser.find_element(By.XPATH, '//*[@id="result-form"]/fieldset/div[6]/table/tbody/tr[1]/td[6]/a').text

'매진'

In [128]:
import time
import random
for i in range(10):
    word = browser.find_element(By.XPATH, '//*[@id="result-form"]/fieldset/div[6]/table/tbody/tr[1]/td[6]/a').text
    print(word)
    
    if word == "매진":        
        browser.refresh() # 새로고침
        time.sleep(1)        
    else:
        browser.find_element(By.XPATH, '//*[@id="result-form"]/fieldset/div[6]/table/tbody/tr[1]/td[6]/a').click() 

매진
매진
매진


NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"//*[@id="result-form"]/fieldset/div[6]/table/tbody/tr[1]/td[6]/a"}
  (Session info: chrome=116.0.5845.187); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#no-such-element-exception
Stacktrace:
0   chromedriver                        0x0000000102ae265c chromedriver + 4318812
1   chromedriver                        0x0000000102adad00 chromedriver + 4287744
2   chromedriver                        0x000000010270c7ec chromedriver + 296940
3   chromedriver                        0x000000010274a048 chromedriver + 548936
4   chromedriver                        0x0000000102782d28 chromedriver + 781608
5   chromedriver                        0x000000010273e178 chromedriver + 500088
6   chromedriver                        0x000000010273efc0 chromedriver + 503744
7   chromedriver                        0x0000000102aa2c40 chromedriver + 4058176
8   chromedriver                        0x0000000102aa7160 chromedriver + 4075872
9   chromedriver                        0x0000000102a6ae68 chromedriver + 3829352
10  chromedriver                        0x0000000102aa7c4c chromedriver + 4078668
11  chromedriver                        0x0000000102a7ff08 chromedriver + 3915528
12  chromedriver                        0x0000000102ac4140 chromedriver + 4194624
13  chromedriver                        0x0000000102ac42c4 chromedriver + 4195012
14  chromedriver                        0x0000000102ad44d0 chromedriver + 4261072
15  libsystem_pthread.dylib             0x000000019bef106c _pthread_start + 148
16  libsystem_pthread.dylib             0x000000019beebe2c thread_start + 8


In [129]:
# 아까 DBpia 사이트 같은 논문 사이트에서 
# 논문 자료들(pdf)을 자동으로 다운 받아서 저장 시킬 수 있는 방법도 있나요..?


#browser.find_element(By.XPATH, '//*[@id="search_top_tag"]/input').click()  
#여기서 코드에 들어가는 xpath 값 어떻게 복사했는지 다시 알려주실수 있나요?

# 혹시 강사님께서는 SRT 예매 프로그램을 영업직 분들께 전달하실때 어떤식으로 전달해주셨나요? 
# 프로그램화해서 전달해주셨을까요??

# 파이썬 파일 전달해서 -> 영업직 직군분이 파이썬 다운로드 받고... ? ->?
# pyinstaller
# 간단한 홈페이지 만들어서 -> 휴대전화 번호 입력, 패스워드를 입력하면 -> 내컴퓨터에서 돌린다.

In [None]:
# 수업이랑 좀 상관없는 질문일수도 있는데, 
# 혹시 REST API랑 Websocket API 사용사례의 예를 설명해주실수 있을까요?

# Websocket API
# - 배달의민족 쓰시죠? 라이더 실시간으로 이동하잖아요. 그때 웹소켓을 사용합니다.
# - 카카오톡. 제가 보면 숫자가 줄어들죠? 실시간으로.
# - 왜 웹소켓인가? 데이터를 계속 주고 받고 주고 받고.

# REST API
# - 직접 만들어보자. flask -> 3분.
# Django -> DB가 필요해서 15~20분?

### 슬랙 DATA PIPELINE 구축하기

In [131]:
import requests # 요청을 날릴 때 사용하는 라이브러리
import json

# curl 
# -X POST (GET) -> REST API
# -H 'Content-type: application/json' 
# --data '{"text":"Hello, World!"}'  # params
# https://hooks.slack.com/services/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

slack_url = 'https://hooks.slack.com/services/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'

msg = """
안녕하세요 오늘은 파이썬의 크롤링을 배웠습니다.
여기에 나중에 뉴스를 공유를 할 예정입니다.
"""

# {"text":msg} -> json 같아보여요. 파이썬의 딕셔너리
requests.post(slack_url, 
              data=json.dumps({"text":msg}),
              headers={"Content-Type" : "application/json"}
             )

# 당신은 인공지능에 관한 정보를 어떻게 수집하고 있나요? 어떤 사이트를 주로 보시나요?
# 요즘에 보신 것 중에 인상 깊었던 것 얘기 좀 해주세요.



<Response [200]>

In [None]:
# post 요청을 설명한 곳에서
# --data와
# --data-urlencode의 차이를 설명해주시면 감사하겠습니다!

### YES24 베스트셀러

In [132]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import pandas as pd

driver = webdriver.Chrome()

# 웹 페이지 열기
url = "https://www.yes24.com/Product/category/bestseller?CategoryNumber=001&sumgb=06"
driver.get(url)

# 웹 페이지가 로딩될 때까지 대기 (선택 사항)
driver.implicitly_wait(10)

# 책 정보를 담을 리스트 초기화
books = []

# 책 정보 수집
book_elements = driver.find_elements(By.CLASS_NAME, 'item_info')
for element in book_elements:
    title = element.find_element(By.CLASS_NAME, 'gd_name').text    
    author = element.find_element(By.CLASS_NAME, 'authPub').text
    sales_rank = element.find_element(By.CLASS_NAME, 'saleNum').text

    book_info = {
        '제목': title,
        '저자': author,
        '판매지수': sales_rank
    }
    books.append(book_info)

books
# # 웹 드라이버 종료
# driver.quit()

# # 데이터프레임 생성
# df = pd.DataFrame(books)

# # 데이터프레임을 엑셀 파일로 저장
# df.to_excel('yes24_bestsellers.xlsx', index=False, encoding='utf-8')

# print("데이터 수집 및 엑셀 파일 저장이 완료되었습니다.")

[{'제목': '트렌드 코리아 2024',
  '저자': '김난도, 전미영, 최지혜, 이수진, 권정윤 저 외 6명 정보 더 보기/감추기',
  '판매지수': '판매지수 381,999'},
 {'제목': '퓨처 셀프', '저자': '벤저민 하디 저/최은아 역', '판매지수': '판매지수 546,531'},
 {'제목': '기적의 자세요정', '저자': '자세요정 저', '판매지수': '판매지수 91,356'},
 {'제목': '세이노의 가르침', '저자': '세이노(SayNo) 저', '판매지수': '판매지수 1,788,615'},
 {'제목': '파견자들', '저자': '김초엽 저', '판매지수': '판매지수 125,535'},
 {'제목': '시대예보: 핵개인의 시대', '저자': '송길영 저', '판매지수': '판매지수 234,324'},
 {'제목': '도둑맞은 집중력', '저자': '요한 하리 저/김하현 역', '판매지수': '판매지수 469,575'},
 {'제목': '도시와 그 불확실한 벽', '저자': '무라카미 하루키 저/홍은주 역', '판매지수': '판매지수 504,399'},
 {'제목': '아침 그리고 저녁', '저자': '욘 포세 저/박경희 역', '판매지수': '판매지수 79,827'},
 {'제목': '요즘 어른을 위한 최소한의 세계사', '저자': '임소미 저/김봉중 감수', '판매지수': '판매지수 104,421'},
 {'제목': '흔한남매 14',
  '저자': '흔한남매 원저/백난도 글/유난희 그림/흔한컴퍼니 감수',
  '판매지수': '판매지수 232,761'},
 {'제목': '최소한의 한국사', '저자': '최태성 저', '판매지수': '판매지수 267,447'},
 {'제목': '역행자 확장판', '저자': '자청 저', '판매지수': '판매지수 327,291'},
 {'제목': '승리의 함성을 다 같이 외쳐라', '저자': '윤세호 저', '판매지수': '판매지수 70,203'},
 {'제목': '설자은, 금성으로 돌

In [None]:
# 저걸 매일 수동으로 실행시켜야 하나요? 
# 예를들어 아침 7시마다 실행되게 할 수 있나요?