# 크롤링

### (1) 라이브러리 설치

In [3]:
pip install --upgrade selenium webdriver_manager


Collecting selenium
  Using cached selenium-4.14.0-py3-none-any.whl (9.9 MB)
Installing collected packages: selenium
  Attempting uninstall: selenium
    Found existing installation: selenium 4.12.0
    Uninstalling selenium-4.12.0:
      Successfully uninstalled selenium-4.12.0
Successfully installed selenium-4.14.0
Note: you may need to restart the kernel to use updated packages.


In [1]:
import selenium
print(selenium.__version__)

4.14.0


In [6]:
!pip install chromedriver_autoinstaller




### (2) 라이브러리 import

In [2]:
import chromedriver_autoinstaller
from selenium import webdriver


# Chrome 브라우저 실행
browser = webdriver.Chrome()



In [3]:
browser.get('https://www.naver.com')
browser.title

'NAVER'

In [10]:
from selenium.webdriver.common.by import By
browser.find_element(By.ID, 'query').click() # click 실행 
#browser 객체의 find_element 메서드를 사용하여 웹 요소를 찾습니다. 
#이것은 웹 요소를 ID로 찾으려고 하며, 여기서 ID는 'query'로 지정됩니다. 
#이것은 사용 중인 웹 페이지에 id 속성이 'query'로 설정된 HTML 요소가 있다고 가정합니다.

In [11]:
browser.find_element(By.ID, 'query').send_keys("날씨")# 웹 요소에 키보드 입력을 시뮬레이션하며, 여기서는 "날씨"라는 문자열을 입력하려고 합니다.
#이렇게 하면 사용자가 키보드로 "날씨"를 입력한 것처럼 작동합니다.

In [12]:
browser.find_element(By.ID, 'search-btn').click() # 검색 아이콘 클릭

In [13]:
word = browser.find_element(By.CLASS_NAME, 'temperature_text').text
word.split("\n")[1]

'18.7°'

In [14]:
browser.find_element(By.CLASS_NAME, 'temperature_text')

<selenium.webdriver.remote.webelement.WebElement (session="f881af4c2a5b7d61c761c7eecdbfeede", element="D65EBA0E384DB7DE557D485DB883FA2D_element_13")>

In [15]:
browser.find_element(By.CLASS_NAME, 'temperature_text').find_element(By.CLASS_NAME, 'celsius').text

'°'

In [16]:
# 체감, 습도, 풍향 각각의 변수로 저장해봅시다.
data = browser.find_element(By.CLASS_NAME, 'summary_list').text
data.split(" ")

temp = data.split(" ")[1] #숫자 추출 
hum = data.split(" ")[3]
wind = data.split(" ")[5]
temp, hum, wind

('19.7°', '78%', '0.7m/s')

In [17]:
browser.find_element(By.CLASS_NAME, 'summary_list')

<selenium.webdriver.remote.webelement.WebElement (session="f881af4c2a5b7d61c761c7eecdbfeede", element="D65EBA0E384DB7DE557D485DB883FA2D_element_15")>

In [18]:
browser.find_element(By.CLASS_NAME, 'summary_list').find_element(By.TAG_NAME, 'dd').text

'19.7°'

In [19]:
weather_list = browser.find_element(By.CLASS_NAME, 'summary_list').find_elements(By.TAG_NAME, 'dd')

for i in weather_list:
    print(i.text)

19.7°
78%
0.7m/s


In [20]:
# 환율 페이지로 이동
url = 'https://search.naver.com/search.naver?sm=tab_hty.top&where=nexearch&query=%ED%99%98%EC%9C%A8&oquery=%EB%82%A0%EC%94%A8&tqi=if%2BkOdprvOssslYQTuwssssssJw-426956'
browser.get(url)

In [21]:
browser.find_element(By.CLASS_NAME, 'spt_con').find_elements(By.TAG_NAME, 'em')[1].text

'(+0.22%)'

In [22]:
# 표 데이터 크롤링 방법 -> 엑셀에 저장할 때도 유용
!pip install pandas



In [23]:
import pandas as pd

url = 'https://search.naver.com/search.naver?sm=tab_hty.top&where=nexearch&query=%ED%99%98%EC%9C%A8&oquery=%EB%82%A0%EC%94%A8&tqi=if%2BkOdprvOssslYQTuwssssssJw-426956'

tables = pd.read_html(url)
currency_df = tables[0]

In [24]:
# 절대경로와 상대경로에 대한 이해가 필요합니다.
currency_df.to_csv('currency.csv')

In [25]:
# 네이버 증권 표 데이터 가져오기
url = 'https://finance.naver.com/'

table_list = pd.read_html(url, encoding='euc-kr')
len(table_list)

df = table_list[0]
df.to_csv('stock_info.csv', encoding='utf-8')

### 구글 뉴스 크롤링

In [5]:
# 라이브러리 import
from selenium import webdriver
from selenium.webdriver.common.by import By

In [6]:
# 브라우저를 연다.
browser = webdriver.Chrome()

In [7]:
# 구글 뉴스로 이동한다.
url = 'https://www.google.com/search?q=%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5+%EC%84%9C%EB%B9%84%EC%8A%A4&newwindow=1&sca_esv=574621129&biw=864&bih=1000&tbm=nws&sxsrf=AM9HkKmDg9LQk4Ij_gnx23BROXfIxck8ig%3A1697681021147&ei=fY4wZYLHCMCo2roPt4GigAE&ved=0ahUKEwjC-dPRgoGCAxVAlFYBHbeACBAQ4dUDCA0&uact=5&oq=%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5+%EC%84%9C%EB%B9%84%EC%8A%A4&gs_lp=Egxnd3Mtd2l6LW5ld3MiFuyduOqzteyngOuKpSDshJzruYTsiqQyBRAAGIAEMgUQABiABDIFEAAYgAQyBRAAGIAEMgUQABiABDIFEAAYgAQyBRAAGIAEMgUQABiABDIFEAAYgAQyBRAAGIAESLAjUP4IWPEicAp4AJABBpgBjgKgAcMgqgEGMC4xNi43uAEDyAEA-AEBqAIAwgILEAAYgAQYsQMYgwHCAgQQABgDwgIIEAAYgAQYsQOIBgE&sclient=gws-wiz-news'
browser.get(url)

In [8]:
# 최상위 기사 1개의 (1) 제목 (2) 내용 (3) 언론사 (4) 링크
title = browser.find_element(By.CLASS_NAME, 'n0jPhd').text
content = browser.find_element(By.CLASS_NAME, 'GI74Re').text
company = browser.find_element(By.CLASS_NAME, 'MgUUmf').text
link = browser.find_element(By.CLASS_NAME, 'WlydOe').get_attribute('href')

title, content, company, link

("“AI 서비스를 코딩 없이 입맛대로”...스타트업 렛서, AI 플랫폼 '램프' 출시",
 "인공지능(AI) 전문 렛서(대표 심규현)는 AI 플랫폼 '램프'를 정식 출시했다고 17일 밝혔다.램프는 코딩 과정 없이 AI 서비스를 개발 및 운영할 수...",
 'AI타임스',
 'https://www.aitimes.com/news/articleView.html?idxno=154392')

In [9]:
# 구글 뉴스 1페이지의 기사를 전부 가져와 봅시다.
# 1 페이지의 기사 제목 전부를 가져와 봅시다.

title_list = browser.find_elements(By.CLASS_NAME, 'n0jPhd')
for elem in title_list:
    print(elem.text)    

“AI 서비스를 코딩 없이 입맛대로”...스타트업 렛서, AI 플랫폼 '램프' 출시
네이버, AI 기반 호텔 추천 서비스 ‘포유’ 베타서비스 개시 - 조선비즈
솔리드이엔지-네이버클라우드, 골프 관련 AI 서비스 개발 협력
CEOSCOREDAILY
인피닉, 기업 정보 구축 서비스 'AI-피디아(AI-Pedia)' 베타 버전 공개
용인특례시, 'AI안부든든 서비스' 대상 확대
대한민국 대표 경제전문 멀티미디어 뉴스통신 채널
IBK기업은행, AI 음성봇 상담 서비스 'IBK바로' 출시
KT클라우드, AI 추론 특화된 인프라 서비스 출시
의령군, 인공지능 로봇(AI) 활용 어르신 돌봄 서비스 구축


In [10]:
data_list = ['element1', 'element2', 'element3']

for elem in data_list:
    print(elem)

element1
element2
element3


In [None]:
# 내용, 언론사, 링크
    # 한달동안 같은 이슈(레벨3)에 시달린겁니다.    
    # (1) 아 나 개발자 안되려나보다... 못해먹겠다. -> 사요나라... 다른 직무로 전환
    # (2) 견뎌냈을 때 실력이 늘어나는데.. 맵집이 커집니다. 
    # 레벨 3밑으로 이슈가 생겨도 무덤덤하게 해결합니다.    
    
# 비전공자 -> 전공자의 4년을 따라잡아야 합니다. (시간은 밀도) 1년만에도 잡을 수 있겠죠.
# 안녕하세요. 저 서울대 컴공입니다. -> 오케이. 들어오시죠.
# 안녕하세요. 저 서울대 컴공입니다. -> 아 그래요? 어떤거 하실 줄 아시죠? 모델링 하실줄 아시나요? 
# 앱 개발 하실 줄 아시나요? -> (포트폴리오)
# 전공자 취업 잘 한친구들 -> 앱 동아리, 학회 -> 열심히 개발한 친구들이 회사 잘 가죠.
# 실무 역량이 쌓여있으니까.
    
# 1페이지
# 2페이지
# 3페이지...

In [11]:
# 컨테이너 박스들을 가져와서, 그 컨테이너 안에서 데이터를 가져오는 방법으로 크롤링 해보겠습니다.
# (1) 컨테이너 박스들을 가져옵니다.

containers = browser.find_elements(By.CLASS_NAME, 'SoaBEf')

data_list = []
for container in containers:
    title = container.find_element(By.CLASS_NAME, 'n0jPhd').text    
    content = container.find_element(By.CLASS_NAME, 'GI74Re').text
    company = container.find_element(By.CLASS_NAME, 'MgUUmf').text
    link = container.find_element(By.CLASS_NAME, 'WlydOe').get_attribute('href')
    
    # json -> 기계랑 기계는 어떻게 대화할까요?
    # 제가 스마트폰으로 저희 집 조명을 조절할 수 있습니다.
    # 스마트폰 -> 조명으로 소통을 해야겠죠. 소통방식 (프로토콜 -> json)
    
    data = {
        "title" : title,
        "content" : content,
        "company" : company,
        "link" : link        
    }

    data_list.append(data)

# data_list는 리스트 data는 딕셔너리이고 리스트 안에 딕셔너리로 넣은 것 맞나요???

In [12]:
import pandas as pd
df = pd.DataFrame(data_list) # df = excel

df.to_csv("google_news.csv", encoding='utf-8') # cp949, euc-kr

In [19]:
# 페이지를 3페이지까지 크롤링하는 코드 작성해보시죠.
# 키워드도 바꾸고 싶어. 맨날 링크를 변경해야해? 
# 유저 한테 키워드 입력받아서 해당 키워드 데이터 가져오는 것을 만들어봅시다.

keyword = input('수집하고자하는 키워드를 알려주세요 :)')

# (1) 검색어(키워드)를 사용한 URL 생성
url = 'https://www.google.com/search?q={}&start={}'
final_url = url.format(keyword,0)  # 0 페이지부터 시작
browser.get(final_url)

# (2) 페이지 1페이지~5페이지까지 수집을 하고 싶어.
page=int(input('몇 페이지까지 크롤링할까요?'))
url = 'https://www.google.com/search?q={}&start={}'
for i in range(0, 10*page,10):  # 페이지 1부터 5까지
    final_url = url.format(keyword, i)
    print(final_url)
    browser.get(final_url)

수집하고자하는 키워드를 알려주세요 :)2
몇 페이지까지 크롤링할까요?2
https://www.google.com/search?q=2&start=0
https://www.google.com/search?q=2&start=10


In [20]:
link_list = browser.find_element(By.CLASS_NAME, 'AaVjTc').find_elements(By.TAG_NAME, 'a')

import time
page_list = []
for i in link_list:
    page_link = i.get_attribute('href')

    page_list.append(page_link)

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":".AaVjTc"}
  (Session info: chrome=118.0.5993.70); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#no-such-element-exception
Stacktrace:
0   chromedriver                        0x0000000104fd4510 chromedriver + 4310288
1   chromedriver                        0x0000000104fcc4bc chromedriver + 4277436
2   chromedriver                        0x0000000104bffb6c chromedriver + 293740
3   chromedriver                        0x0000000104c45040 chromedriver + 577600
4   chromedriver                        0x0000000104c7fe60 chromedriver + 818784
5   chromedriver                        0x0000000104c38fd0 chromedriver + 528336
6   chromedriver                        0x0000000104c39e7c chromedriver + 532092
7   chromedriver                        0x0000000104f9a834 chromedriver + 4073524
8   chromedriver                        0x0000000104f9e7fc chromedriver + 4089852
9   chromedriver                        0x0000000104f9ec58 chromedriver + 4090968
10  chromedriver                        0x0000000104fa48f8 chromedriver + 4114680
11  chromedriver                        0x0000000104f9f234 chromedriver + 4092468
12  chromedriver                        0x0000000104f79604 chromedriver + 3937796
13  chromedriver                        0x0000000104fbbee8 chromedriver + 4210408
14  chromedriver                        0x0000000104fbc064 chromedriver + 4210788
15  chromedriver                        0x0000000104fcc134 chromedriver + 4276532
16  libsystem_pthread.dylib             0x000000018fc8ffa8 _pthread_start + 148
17  libsystem_pthread.dylib             0x000000018fc8ada0 thread_start + 8


In [18]:
for link in page_list:
    browser.get(link)
    time.sleep(5)

NameError: name 'page_list' is not defined

## db pia 논문 데이터 크롤링

In [43]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import pandas as pd
import time

In [76]:
browser = webdriver.Chrome()

In [77]:
keyword = input("검색하고자 하는 논문의 제목 또는 주제를 입력하세요.")
url='https://www.dbpia.co.kr/search/topSearch?searchOption=all&query={}'
final_url = url.format(keyword)
browser.get(final_url)

검색하고자 하는 논문의 제목 또는 주제를 입력하세요.딥러닝


In [None]:
#1페이지의 논문 데이터를 가져와 봅시다. 
#(논문제목, 작성자, 이용수,링크 추가)
#핵심은 요소 잘 찾기

In [70]:
time.sleep(3)

papers = browser.find_elements(By.CLASS_NAME, 'thesis')


# 각 논문 정보 추출
papers = browser.find_elements(By.CLASS_NAME, 'thesis')  # 컨네이너 박스가 thesis #elements면 리스트 

for paper in papers:
    title = paper.find_element(By.CLASS_NAME, 'thesis__tit').text #요소가 필요한게 아니니 .text 
    authors = paper.find_element(By.CLASS_NAME, 'thesis__author').text
    usage = paper.find_element(By.CLASS_NAME, 'thesis__useCount').text[4:]
    link = paper.find_element(By.CLASS_NAME, 'thesis__link').get_attribute('href')#링크 속성값을 가져와 
    
    print(f"논문 제목: {title}")
    print(f"저자: {authors}")
    print(f"이용수: {usage}")
    print(f"링크: {link}")
    print("=" * 50)
    


논문 제목: 딥러닝 기반 드론 블레이드의 고장예지에 관한 연구
저자: 도재석
이용수: 43
링크: https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11516545
논문 제목: 딥러닝 기반 공간 프로그램 및 디자인 요소 분석 - 라이프스타일 호텔의 인스타그램 이미지를 중심으로 -
저자: 한유진
이용수: 19
링크: https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11527206
논문 제목: 딥러닝 모델 기반의 한국어 문장 통사적 복잡도 측정 모델 구현 연구
저자: 나상수
이용수: 4
링크: https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11527552
논문 제목: 딥러닝 기반 소스코드 취약점 자동 패치 시스템 설계 및 구현
저자: 이관목
이용수: 10
링크: https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11523925
논문 제목: 딥러닝 기반 영상개선 네트워크를 활용한 저조도 영상개선 기법에 관한 연구
저자: 임재성
이용수: 5
링크: https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11524010
논문 제목: 딥러닝 기반 정밀 열차위치검지에 관한 연구
저자: 공성식
이용수: 0
링크: https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11536532
논문 제목: 딥러닝을 이용한 국부 영역 기반 손 분할
저자: 전준현
이용수: 7
링크: https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11520199
논문 제목: 딥러닝을 활용한 인터넷 불법금융광고 판별 모델에 관한 연구
저자: 유길상
이용수: 40
링크: https://www.dbpia.co.kr/journal/articleDetail?n

In [None]:
#3페이지까지 가져오는 것 -> 링크를 봤더니 3페이지로 이동 불가 -> 3페이지 버튼을 입력하게 만드는 수 밖에 없음 
#상세페이지로 이동해서 초록 *키워드 데이터를 가져오는 것 

In [84]:
data_list = []

for i in range(2,5):
    time.sleep(5)
    papers = browser.find_elements(By.CLASS_NAME, 'thesis')

    for paper in papers:
        title = paper.find_element(By.CLASS_NAME, 'thesis__tit').text
        authors = paper.find_element(By.CLASS_NAME, 'thesis__item').text
        usage = paper.find_element(By.CLASS_NAME, 'thesis__useCount').text[4:]
        link = paper.find_element(By.CLASS_NAME, 'thesis__link').get_attribute('href')

        print(title, author, count, link)
        
        data = {
            "제목" : title,
            "저자" : authors,
            "인용수" : usage,
            "링크" : link
        }
        
        data_list.append(data)

    print(f"{i} 페이지 입니다.")    
    xpath = f'//*[@id="pageList"]/a[{i}]'
    browser.find_element(By.XPATH, xpath).click()



딥러닝 기반 재난 상황인지 및 대응지원 모델 박승우, 김형돈, 심상우 외 4명 4 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11495799
딥러닝을 이용한 강우량 첨두 예측 박승우, 김형돈, 심상우 외 4명 4 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11485086
딥러닝을 활용한 태양 및 우주환경 연구 박승우, 김형돈, 심상우 외 4명 4 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11492597
음성 특징 추출 및 딥러닝 기반 딥보이스 탐지 시스템 박승우, 김형돈, 심상우 외 4명 4 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11513284
배전계통 운영을 위한 딥러닝 기반 PV 발전예측 박승우, 김형돈, 심상우 외 4명 4 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11512302
딥러닝 기반 복원 픽쳐 버퍼 프레임을 이용한 인루프 필터 방법 박승우, 김형돈, 심상우 외 4명 4 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11485297
딥러닝 기반 Depth Estimation 및 Segmentation 활용을 통한 Mono SLAM 알고리즘 성능 개선 연구 박승우, 김형돈, 심상우 외 4명 4 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11481217
TDoA 확률화 이미지를 활용한 딥러닝 기반 타겟 추적 모델 박승우, 김형돈, 심상우 외 4명 4 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11466181
이기종 프로세서로 구성된 모바일 기기에서의 파이프라이닝을 통한 딥러닝 응용 

ElementClickInterceptedException: Message: element click intercepted: Element <a href="#a" class="dpPaging__link " onclick="setPageNum(...)" data-statistics-code="Z134">2</a> is not clickable at point (612, 30). Other element would receive the click: <input type="text" name="query" id="searchInput" class="dpHeader__search dpHeader__search__mo" autocomplete="off" aria-label="Search">
  (Session info: chrome=118.0.5993.70)
Stacktrace:
0   chromedriver                        0x00000001013d4510 chromedriver + 4310288
1   chromedriver                        0x00000001013cc4bc chromedriver + 4277436
2   chromedriver                        0x0000000100fffb6c chromedriver + 293740
3   chromedriver                        0x000000010104bcb4 chromedriver + 605364
4   chromedriver                        0x0000000101049d7c chromedriver + 597372
5   chromedriver                        0x00000001010479a4 chromedriver + 588196
6   chromedriver                        0x0000000101046a1c chromedriver + 584220
7   chromedriver                        0x000000010103aeac chromedriver + 536236
8   chromedriver                        0x000000010103a774 chromedriver + 534388
9   chromedriver                        0x000000010107fe60 chromedriver + 818784
10  chromedriver                        0x0000000101038fd0 chromedriver + 528336
11  chromedriver                        0x0000000101039e7c chromedriver + 532092
12  chromedriver                        0x000000010139a834 chromedriver + 4073524
13  chromedriver                        0x000000010139e7fc chromedriver + 4089852
14  chromedriver                        0x000000010139ec58 chromedriver + 4090968
15  chromedriver                        0x00000001013a48f8 chromedriver + 4114680
16  chromedriver                        0x000000010139f234 chromedriver + 4092468
17  chromedriver                        0x0000000101379604 chromedriver + 3937796
18  chromedriver                        0x00000001013bbee8 chromedriver + 4210408
19  chromedriver                        0x00000001013bc064 chromedriver + 4210788
20  chromedriver                        0x00000001013cc134 chromedriver + 4276532
21  libsystem_pthread.dylib             0x000000018fc8ffa8 _pthread_start + 148
22  libsystem_pthread.dylib             0x000000018fc8ada0 thread_start + 8


In [82]:
pd.DataFrame(data_list)

Unnamed: 0,제목,저자,인용수,링크
0,딥러닝 기반 재난 상황인지 및 대응지원 모델,"권은정, 이민정, 박현호 외 1명",7,https://www.dbpia.co.kr/journal/articleDetail?...
1,딥러닝을 이용한 강우량 첨두 예측,"김승확, 김광섭, 이경은",7,https://www.dbpia.co.kr/journal/articleDetail?...
2,딥러닝을 활용한 태양 및 우주환경 연구,"문용재, 이하림, 정현진",7,https://www.dbpia.co.kr/journal/articleDetail?...
3,음성 특징 추출 및 딥러닝 기반 딥보이스 탐지 시스템,"한승우, 한성훈, 유성민 외 2명",7,https://www.dbpia.co.kr/journal/articleDetail?...
4,배전계통 운영을 위한 딥러닝 기반 PV 발전예측,"김도윤, 정원욱, 조성민",7,https://www.dbpia.co.kr/journal/articleDetail?...
5,딥러닝 기반 복원 픽쳐 버퍼 프레임을 이용한 인루프 필터 방법,이정경,7,https://www.dbpia.co.kr/journal/articleDetail?...
6,딥러닝 기반 Depth Estimation 및 Segmentation 활용을 통한 ...,"임동선, 유진우",7,https://www.dbpia.co.kr/journal/articleDetail?...
7,TDoA 확률화 이미지를 활용한 딥러닝 기반 타겟 추적 모델,"이성호, 심재웅",7,https://www.dbpia.co.kr/journal/articleDetail?...
8,이기종 프로세서로 구성된 모바일 기기에서의 파이프라이닝을 통한 딥러닝 응용 처리량 향상,"박충훈, 김장률, 하순회",7,https://www.dbpia.co.kr/journal/articleDetail?...
9,딥러닝을 이용한 YouTube 콘텐츠 신뢰도 분석 방안 연구,"박정하, 양하은, 장지민 외 1명",7,https://www.dbpia.co.kr/journal/articleDetail?...


In [None]:
#상세페이지 가져와서 초록 페이지 가져오는 거 
# 1페이지에 나와있는 논문의 초록 키워드를 가져오고 싶다 

In [87]:
links = browser.find_elements(By.CLASS_NAME,'thesis__link')
link_list = []

for element in links:
    link = element.get_attribute('href')
    link_list.append(link)
    
link_list    

['https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11495799',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11485086',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11492597',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11513284',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11512302',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11485297',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11481217',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11466181',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11465009',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11513286',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11512638',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11512206',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11513190',
 'https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11481209',
 'https://www.dbpia.

In [88]:
for link in link_list: #링크리스트에서 링크값을 하나씩 가져오게 됨
    browser.get(link)
    time.sleep(5)

In [None]:
#크몽에서 프로그램 팔아보자 #용돈 벌어보자 #끝판왕이 리스틀리 #코딩은 그냥 하면됨 #생각이 중요하다 

### SRT 예매 프로그램  

In [90]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import pandas as pd
import time

In [None]:
url ='https://etk.srail.kr/cmc/01/selectLoginForm.do?pageId=TK0701000000&goUrl=%2Fhpg%2Fhra%2F02%2FselectReservationList.do%3FpageId%3DTK0102010000'
browser.get(url)
# 휴대전화 번호를 클릭 후, 휴대폰 번호 및 패스워드 입력 후 로그인 구현


In [None]:
browser.find_element(BY.ID,'srchDvCd3').click()
browser.find_element(BY.ID,'srchDvCd3').send_keys(id)#id입력 

In [None]:
browser.find_element(BY.ID,'hmpgPwdCphd').click()
browser.find_element(BY.ID,'hmpgPwdCphd').send_keys(pw)#pw입력 

In [None]:
#확인버튼 입력
browser.find_element(By.XPATH, '//*[@id="login-form"]/fieldset/div[1]/div[1]/div[4]/div/div[2]/input').click()

In [None]:
url = 'https://etk.srail.kr/hpg/hra/01/selectScheduleList.do?pageId=TK0101010000'
browser.get(url)

In [None]:
browser.find_element(By.XPATH, '//*[@id="search_top_tag"]/input').click()

In [None]:
word = browser.find_element(By.XPATH, '//*[@id="result-form"]/fieldset/div[6]/table/tbody/tr[1]/td[6]/a').text

In [None]:
import time
import random
for i in range(10):
    word = browser.find_element(By.XPATH, '//*[@id="result-form"]/fieldset/div[6]/table/tbody/tr[1]/td[6]/a').text
    print(word)
    
    if word == "매진":        
        browser.refresh() # 새로고침
        time.sleep(1)        
    else:
        browser.find_element(By.XPATH, '//*[@id="result-form"]/fieldset/div[6]/table/tbody/tr[1]/td[6]/a').click() 

## 슬랙 데이터파이프라인 구축하기 

In [3]:
import requests #요청을 날릴 때 사용하는 라이브러리 
import json

slack_url = 'https://hooks.slack.com/services/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'
msg = "" '여기에 나중에 뉴스를 공유를 할 예정입니다.'""

# curl -X POST 
# -H 'Content-type: application/json' 
# --data '{"text":"Hello, World!"}' 
# https://hooks.slack.com/services/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



#{"text":msg} -> json 같아보임. 파이썬의 딕셔너리 
requests.post(slack_url,data =json.dumps( {"text":msg})
             ,headers={"Content-Type":"application/json"}) #소통 방식은 json 

<Response [200]>

## yes24 베스트셀러 데이터 with gpt?

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import pandas as pd

# Chrome 드라이버 경로 (본인의 환경에 맞게 수정)
driver_path = '크롬 드라이버 경로'

# ChromeOptions를 사용하여 드라이버 생성
chrome_options = webdriver.ChromeOptions()
driver = webdriver.Chrome(executable_path=driver_path, options=chrome_options)

# 웹 페이지 열기
url = "https://www.yes24.com/Product/category/bestseller?CategoryNumber=001&sumgb=06"
driver.get(url)

# 웹 페이지가 로딩될 때까지 대기 (선택 사항)
driver.implicitly_wait(10)

# 책 정보를 담을 리스트 초기화
books = []

# 책 정보 수집
book_elements = driver.find_elements(By.CLASS_NAME, 'item_info')
for element in book_elements:
    title = element.find_element(By.CLASS_NAME, 'gd_name').find_element(By.TAG_NAME, 'a').text
    author = element.find_element(By.CLASS_NAME, 'aupu').text
    sales_rank = element.find_element(By.CLASS_NAME, 'txtCenter').text

    book_info = {
        '제목': title,
        '저자': author,
        '판매지수': sales_rank
    }
    books.append(book_info)

# 웹 드라이버 종료
driver.quit()

# 데이터프레임 생성
df = pd.DataFrame(books)

# 데이터프레임을 엑셀 파일로 저장
df.to_excel('yes24_bestsellers.xlsx', index=False, encoding='utf-8')

print("데이터 수집 및 엑셀 파일 저장이 완료되었습니다.")

In [None]:
#부동산 데이터 수집하는 거 함 만들어 보자 .