## urlib basic usage & basic scraping

In [1]:
import urllib.request as req

In [2]:
# File URL
img_url = "http://post.phinf.naver.net/20160621_169/1466482468068lmSHj_JPEG/If7GeIbOPZuYwI-GI3xU7ENRrlfI.jpg"
html_url = "https://google.com"

In [3]:
# Download path
save_path1 = "C:/Users/juher/TIL/Crawling/Download/test1.jpg"
save_path2 = "C:/Users/juher/TIL/Crawling/Download/index.html"

In [4]:
# Exception
try:
    file1, header1 = req.urlretrieve(img_url, save_path1)
    file2, header2 = req.urlretrieve(html_url, save_path2)
except Exception as e:
    print("Download failed.")
    print(e)
else:
    # print Header info
    print(header1)
    print(header2)

Date: Wed, 28 Jun 2023 23:45:12 GMT
Accept-Ranges: bytes
Cache-Control: max-age=15552000
Content-Length: 797094
Content-Type: image/jpeg
Last-Modified: Wed, 28 Jun 2023 04:48:22 GMT
p3p: CP="ALL CURa ADMa DEVa TAIa OUR BUS IND PHY ONL UNI PUR FIN COM NAV INT DEM CNT STA POL HEA PRE LOC OTC"
Age: 68212
Expires: Mon, 25 Dec 2023 04:48:22 GMT
Connection: close


Date: Wed, 28 Jun 2023 23:45:14 GMT
Expires: -1
Cache-Control: private, max-age=0
Content-Type: text/html; charset=ISO-8859-1
Content-Security-Policy-Report-Only: object-src 'none';base-uri 'self';script-src 'nonce-1PJQmafQNbJu5UEKt6-IBQ' 'strict-dynamic' 'report-sample' 'unsafe-eval' 'unsafe-inline' https: http:;report-uri https://csp.withgoogle.com/csp/gws/other-hp
P3P: CP="This is not a P3P policy! See g.co/p3phelp for more info."
Server: gws
X-XSS-Protection: 0
X-Frame-Options: SAMEORIGIN
Set-Cookie: 1P_JAR=2023-06-28-23; expires=Fri, 28-Jul-2023 23:45:14 GMT; path=/; domain=.google.com; Secure
Set-Cookie: AEC=AUEFqZfoI5ZyqcDC

In [5]:
# Downloaded file info
print(f"filename1 {file1})")
print(f"filename2 {file2})")
print()
print("Download Succeed")

filename1 C:/Users/juher/TIL/Crawling/Download/test1.jpg)
filename2 C:/Users/juher/TIL/Crawling/Download/index.html)

Download Succeed


## urlopen funcfion basic usage

In [6]:
# import urllib.request as req
from urllib.error import URLError, HTTPError

In [7]:
# Download file path & file name
path_list = ["C:/Users/juher/TIL/Crawling/Download/test1.jpg", "C:/Users/juher/TIL/Crawling/Download/index.html"]

In [8]:
# Resource URL
target_url = [img_url, html_url]

In [9]:
for i, url in enumerate(target_url):
    try:
        # read received web info 
        response = req.urlopen(url)
        # save received contents on contents object
        contents = response.read()

        print("---------------------------------------")

        # print status
        print(f'Header Info--{i} : {response.info()}')
        print(f"HTTP Status Code : {response.getcode()}")

        # write file
        with open(path_list[i], 'wb') as c:
            c.write(contents)
        # if HTTP error occurs
    except HTTPError as e:
        print("Download failed.")
        print("HTTPError Code : ", e.code)
        # if URL error occurs
    except URLError as e:
        print("Download failed.")
        print("URL Error Reason : ", e.reason)
        # if succeeds
    else:
        print()
        print("Download Succeed.")

---------------------------------------
Header Info--0 : Date: Wed, 28 Jun 2023 23:45:13 GMT
Accept-Ranges: bytes
Cache-Control: max-age=15552000
Content-Length: 797094
Content-Type: image/jpeg
Last-Modified: Tue, 27 Jun 2023 08:43:39 GMT
p3p: CP="ALL CURa ADMa DEVa TAIa OUR BUS IND PHY ONL UNI PUR FIN COM NAV INT DEM CNT STA POL HEA PRE LOC OTC"
Age: 140494
Expires: Sun, 24 Dec 2023 08:43:39 GMT
Connection: close


HTTP Status Code : 200

Download Succeed.
---------------------------------------
Header Info--1 : Date: Wed, 28 Jun 2023 23:45:15 GMT
Expires: -1
Cache-Control: private, max-age=0
Content-Type: text/html; charset=ISO-8859-1
Content-Security-Policy-Report-Only: object-src 'none';base-uri 'self';script-src 'nonce-oy2RFgZ0AdRC53buUrsibQ' 'strict-dynamic' 'report-sample' 'unsafe-eval' 'unsafe-inline' https: http:;report-uri https://csp.withgoogle.com/csp/gws/other-hp
P3P: CP="This is not a P3P policy! See g.co/p3phelp for more info."
Server: gws
X-XSS-Protection: 0
X-Frame-Opt

## lxml usage & basic scraping

In [10]:
# execute on cmd terminal
## pip install lxml
## pip install requests
## pip install cssselect

In [11]:
from typing import get_args
import requests
from lxml.html import fromstring, tostring

In [12]:
def main():
    # create session
    session = requests.Session()
    # scraping target url (get/post)
    response = session.get("https://kin.naver.com/search/list.naver?query=%ED%8C%8C%EC%9D%B4%EC%8D%AC")

    # get 
    urls = scrape_kin_list_page(response)

    # print results
    for name, url in urls.items():
        print(name, url)

def scrape_kin_list_page(response):
    urls = {}

    root = fromstring(response.content)

    for a in root.xpath('//ul[@class="basic1"]/li/dl/dt/a[@class="_nclicks:kin.txt _searchListTitleAnchor"]'):
        name, url = extract_contents(a)
        urls[name] = url
    
    return urls

def extract_contents(doc):
    link = doc.get("href")

    name = doc.text_content()
    return name, link

In [13]:
if __name__ == '__main__':
    main()

파이썬 코드 질문 https://kin.naver.com/qna/detail.naver?d1id=1&dirId=10402&docId=448147861&qb=7YyM7J207I2s&enc=utf8&section=kin&rank=1&search_sort=0&spq=0
파이썬 프로그램 알려주세요! https://kin.naver.com/qna/detail.naver?d1id=1&dirId=10402&docId=448454169&qb=7YyM7J207I2s&enc=utf8&section=kin&rank=2&search_sort=0&spq=0
블렌더 파이썬 https://kin.naver.com/qna/detail.naver?d1id=1&dirId=10402&docId=446478764&qb=7YyM7J207I2s&enc=utf8&section=kin&rank=3&search_sort=0&spq=0
파이썬 풀이과정 https://kin.naver.com/qna/detail.naver?d1id=1&dirId=10402&docId=448758131&qb=7YyM7J207I2s&enc=utf8&section=kin&rank=4&search_sort=0&spq=0
파이썬 알려주세요 https://kin.naver.com/qna/detail.naver?d1id=1&dirId=10402&docId=447034730&qb=7YyM7J207I2s&enc=utf8&section=kin&rank=5&search_sort=0&spq=0
파이썬 설명 https://kin.naver.com/qna/detail.naver?d1id=1&dirId=10402&docId=448754627&qb=7YyM7J207I2s&enc=utf8&section=kin&rank=6&search_sort=0&spq=0
it유학 해외에서 파이썬 공부 https://kin.naver.com/qna/detail.naver?d1id=1&dirId=10402&docId=448107091&qb=7YyM7J207I2s&enc=u

## lxml usage

In [14]:
import requests
import lxml.html

In [15]:
response  = requests.get('http://www.hanbit.co.kr/store/books/new_book_list.html')
root = lxml.html.fromstring(response.content)

for a in root.cssselect('.view_box a'):
    url = a.get('href')
    print(url)

/store/books/look.php?p_code=B9385341956
javascript:;
/store/books/look.php?p_code=B9385341956
/store/books/look.php?p_code=B8585215801
javascript:;
/store/books/look.php?p_code=B8585215801
/store/books/look.php?p_code=B2266571115
javascript:;
/store/books/look.php?p_code=B2266571115
/store/books/look.php?p_code=B1427989673
/store/books/look.php?p_code=B1427989673
/store/books/look.php?p_code=B5395686917
/store/books/look.php?p_code=B5395686917
/store/books/look.php?p_code=B3426421803
javascript:;
/store/books/look.php?p_code=B3426421803
/store/books/look.php?p_code=B8357399793
javascript:;
/store/books/look.php?p_code=B8357399793
/store/books/look.php?p_code=B5226777809
/store/books/look.php?p_code=B5226777809
/store/books/look.php?p_code=B7138292013
javascript:;
/store/books/look.php?p_code=B7138292013
/store/books/look.php?p_code=B9136698640
/store/books/look.php?p_code=B9136698640
/store/books/look.php?p_code=B2488511359
/store/books/look.php?p_code=B2488511359
/store/books/look.ph

## Web scraping - Connecting to a Single Website

In [34]:
import webbrowser

url = 'www.naver.com'
webbrowser.open(url)

True

In [38]:
naver_search_url = "https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query="
search_word = "python"
url = naver_search_url + search_word

webbrowser.open_new(url)

True

In [40]:
google_url = "www.google.com/search?q="
search_word = "python"
url = google_url + search_word

webbrowser.open_new(url)

True

## Web scraping - Connecting to a Multiple Website

In [42]:
urls = ["www.naver.com", "www.daum.net", "www.google.com"]

for url in urls:
    webbrowser.open_new(url)

In [45]:
google_url = "www.google.com/search?q="
search_words = ["python web scraping", "python webbrowser"]

for search_word in search_words:
    webbrowser.open_new(google_url + search_word)

## Fetch Webpage HTML soruce code

- HTML file 생성 시, `%%writefile <file_path + name + extender>` 입력 후 html 작성 가능

In [46]:
import requests

r = requests.get("https://www.google.co.kr")
r

<Response [200]>

In [47]:
r.text[1:100]

'!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

In [49]:
html = requests.get("https://www.google.co.kr").text
html[0:100]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

## HTML source code parsing

In [50]:
from bs4 import BeautifulSoup

In [51]:
# html code for text
html = """<html><body><div><span>\
            <a href=http://www.naver/com>naver</a>\
            <a href=https://www.google.com>google</a>\
            <a href=http://www.daum.net>daum</a>\
            </span></div></body></html>
            """

# parsing HTML source with BeautifulSoup
soup = BeautifulSoup(html, 'lxml')  # lmxl : XML or HTML
soup

<html><body><div><span> <a href="http://www.naver/com">naver</a> <a href="https://www.google.com">google</a> <a href="http://www.daum.net">daum</a> </span></div></body></html>

In [52]:
# print in HTML structure
print(soup.prettify())

<html>
 <body>
  <div>
   <span>
    <a href="http://www.naver/com">
     naver
    </a>
    <a href="https://www.google.com">
     google
    </a>
    <a href="http://www.daum.net">
     daum
    </a>
   </span>
  </div>
 </body>
</html>



In [53]:
# find first <a> tag
soup.find('a')

<a href="http://www.naver/com">naver</a>

In [54]:
soup.find('a').get_text()

'naver'

In [57]:
# find all <a> tags - list format
soup.find_all('a')

[<a href="http://www.naver/com">naver</a>,
 <a href="https://www.google.com">google</a>,
 <a href="http://www.daum.net">daum</a>]

In [60]:
site_names = soup.find_all('a')

for site_name in site_names:
    print(site_name.get_text())     # get_text()는 list 출력을 지원하지 않으므로, for statement 사용

naver
google
daum


In [62]:
# html code for test
html2 = """
<html>
 <head>
  <title>작품과 작가 모음</title>
 </head>
 <body>
  <h1>책 정보</h1>
  <p id="book_title">토지</p>
  <p id="author">박경리</p>
  
  <p id="book_title">태백산맥</p>
  <p id="author">조정래</p>

  <p id="book_title">감옥으로부터의 사색</p>
  <p id="author">신영복</p>
 </body>
</html>"""

In [64]:
soup2 = BeautifulSoup(html2, "lxml")

In [67]:
soup2.title

<title>작품과 작가 모음</title>

In [66]:
soup2.body

<body>
<h1>책 정보</h1>
<p id="book_title">토지</p>
<p id="author">박경리</p>
<p id="book_title">태백산맥</p>
<p id="author">조정래</p>
<p id="book_title">감옥으로부터의 사색</p>
<p id="author">신영복</p>
</body>

In [68]:
soup2.body.h1

<h1>책 정보</h1>

In [69]:
soup2.find_all('p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [70]:
soup2.find('p', {'id': 'book_title'})    # find('tag', dict_attribute)

<p id="book_title">토지</p>

In [72]:
soup2.find('p', {'id': 'author'})

<p id="author">박경리</p>

In [73]:
soup2.find_all('p', {'id': 'book_title'})   # find_all('tag', dict_attribute)

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [74]:
soup2.find_all('p', {'id': 'author'})

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

In [78]:
book_titles = soup2.find_all('p', {'id': 'book_title'})
authors = soup2.find_all('p', {'id': 'author'})

In [79]:
for book_title, author in zip(book_titles, authors):
    print(book_title.get_text() + '/' + author.get_text())

토지/박경리
태백산맥/조정래
감옥으로부터의 사색/신영복


In [80]:
soup2.select('body h1')     # body tag 내의 h1 tag 선택 - list 형태 반환 가능

[<h1>책 정보</h1>]

In [87]:
soup2.select('body h1')[0].get_text()     # get_text()가 list를 지원하지 않으므로 idx 적용을 통해 

'책 정보'

In [81]:
soup2.select('body p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [82]:
soup2.select('p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [84]:
soup2.select('p#book_title')

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [85]:
soup2.select('p#author')

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

In [88]:
%%writefile C:/Users/juher/TIL/Crawling/Download/HTML_exaple_my_site.html
<!doctype html>
<html>
  <head>
    <meta charset="utf-8">
    <title>사이트 모음</title>
  </head>
  <body>
    <p id="title"><b>자주 가는 사이트 모음</b></p>
    <p id="contents">이곳은 자주 가는 사이트를 모아둔 곳입니다.</p>
    <a href="http://www.naver.com" class="portal" id="naver">네이버</a> <br>
    <a href="https://www.google.com" class="search" id="google">구글</a> <br>
    <a href="http://www.daum.net" class="portal" id="daum">다음</a> <br>
    <a href="http://www.nl.go.kr" class="government" id="nl">국립중앙도서관</a>
  </body>
</html>

Writing C:/Users/juher/TIL/Crawling/Download/HTML_exaple_my_site.html


In [105]:
f = open('C:/Users/juher/TIL/Crawling/Download/HTML_exaple_my_site.html', encoding='utf-8')

html3 = f.read()
f.close()

soup3 = BeautifulSoup(html3, 'lxml')

In [106]:
soup3.select('a')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="search" href="https://www.google.com" id="google">구글</a>,
 <a class="portal" href="http://www.daum.net" id="daum">다음</a>,
 <a class="government" href="http://www.nl.go.kr" id="nl">국립중앙도서관</a>]

In [107]:
soup3.select('a.portal')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="portal" href="http://www.daum.net" id="daum">다음</a>]

In [108]:
soup3.select('a#naver')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>]

In [109]:
%%writefile C:/Users/juher/TIL/Crawling/Download/HTML_exaple_constitution.html
<!doctype html>
<html>
  <head>
    <meta charset="utf-8">
    <title>줄 바꿈 테스트 예제</title>
  </head>
  <body>
  <p id="title"><b>대한민국헌법</b></p>
  <p id="content">제1조 <br/>①대한민국은 민주공화국이다.<br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>
  <p id="content">제2조 <br/>①대한민국의 국민이 되는 요건은 법률로 정한다.<br/>②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다.</p>
  </body>
</html>

Overwriting C:/Users/juher/TIL/Crawling/Download/HTML_exaple_constitution.html


In [110]:
f = open("C:/Users/juher/TIL/Crawling/Download/HTML_exaple_constitution.html", encoding='utf-8')

html_source = f.read()
f.close()

soup = BeautifulSoup(html_source, "lxml")

title = soup.find('p', {'id': 'title'})
contents = soup.find_all('p', {'id': 'content'})

print(title.get_text())

대한민국헌법


In [111]:
for content in contents:
    print(content.get_text())

제1조 ①대한민국은 민주공화국이다.②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.
제2조 ①대한민국의 국민이 되는 요건은 법률로 정한다.②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다.


In [121]:
html1 = '<p id="content">제1조 <br/>①대한민국은 민주공화국이다.<br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>'

soup1 = BeautifulSoup(html1, 'lxml')

print("==> Found with tag p")
content1 = soup1.find('p', {'id': 'content'})
print(content1)

==> Found with tag p
<p id="content">제1조 <br/>①대한민국은 민주공화국이다.<br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>


In [122]:
br_content = content1.find('br')
print("==> Found with tag br:", br_content)

==> Found with tag br: <br/>


In [123]:
br_content.replace_with('\n')
print("==> convert tag br to \n")
print(content1)

==> convert tag br to 

<p id="content">제1조 
①대한민국은 민주공화국이다.<br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>


In [115]:
soup2 = BeautifulSoup(html1, 'lxml')
content2 = soup2.find('p', {'id': 'content'})

In [117]:
br_contents = soup2.find_all('br')
for br_content in br_contents:
    br_content.replace_with('\n')
print(content2)

<p id="content">제1조 
①대한민국은 민주공화국이다.
②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>


In [124]:
def replace_newline(soup_html):
    br_to_newlines = soup_html.find_all('br')
    for br_to_newline in br_to_newlines:
        br_to_newline.replace_with('\n')
    return soup_html

In [126]:
soup2 = BeautifulSoup(html1, 'lxml')
content2 = soup2.find('p', {'id': 'content'})
content3 = replace_newline(content2)
print(content3.get_text())

제1조 
①대한민국은 민주공화국이다.
②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.


In [128]:
soup = BeautifulSoup(html_source, 'lxml')
title = soup.find('p', {'id': 'title'})
contents = soup.find_all('p', {'id': 'content'})

print(title.get_text(), '\n')

대한민국헌법 



In [129]:
for content in contents:
    content1 = replace_newline(content)
    print(content.get_text(), '\n')

제1조 
①대한민국은 민주공화국이다.
②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다. 

제2조 
①대한민국의 국민이 되는 요건은 법률로 정한다.
②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다. 



## Fetching image from websites

In [130]:
import requests

In [132]:
url = 'https://www.python.org/static/img/python-logo.png'
html_image = requests.get(url)
html_image

<Response [200]>

In [133]:
import os

In [134]:
image_file_name = os.path.basename(url)
image_file_name

'python-logo.png'

In [135]:
folder = 'C:/Users/juher/TIL/Crawling/Download'

if not os.path.exists(folder):
    os.makedirs(folder)

In [136]:
image_path = os.path.join(folder, image_file_name)
image_path

'C:/Users/juher/TIL/Crawling/Download\\python-logo.png'

In [137]:
imageFile = open(image_path, 'wb')

In [139]:
chunk_size = 100000
for chunk in html_image.iter_content(chunk_size):
    imageFile.write(chunk)
imageFile.close()

In [140]:
# import requests
# import os

In [141]:
url = 'https://www.python.org/static/img/python-logo.png'
html_image = requests.get(url)
image_file_name = os.path.basename(url)

In [142]:
folder = 'C:/Users/juher/TIL/Crawling/Download'

In [143]:
if not os.path.exists(folder):
    os.makedirs(folder)

image_path = os.path.join(folder, image_file_name)

In [149]:
imageFile = open(image_path, 'wb')

chunk_size = 1000000

for chunk in html_image.iter_content(chunk_size):
    imageFile.write(chunk)
imageFile.close()

In [150]:
# import requests
# from bs4 import BeaufifulSoup

In [162]:
import os
import requests

URL = 'https://reshot.com/search/animal'

html_reshot_image = requests.get(URL).text
soup_reshot_image = BeautifulSoup(html_reshot_image, 'lxml')
reshot_image_elements = soup_reshot_image.select('a img')
reshot_image_url = reshot_image_elements[1].get('src')

folder = 'C:/Users/juher/TIL/Crawling/Download'
filename = os.path.basename(reshot_image_url)
filepath = os.path.join(folder, filename)

html_image = requests.get(reshot_image_url)

with open(filepath, 'wb') as imageFile:
    for chunk in html_image.iter_content(1000000):
        imageFile.write(chunk)


In [168]:
# import requests
from bs4 import BeautifulSoup
# import os

In [173]:
# extract images from URL
def get_image_url(url):
    html_image_url = requests.get(url).text
    soup_image_url = BeautifulSoup(html_image_url, 'lxml')
    image_elements = soup_image_url.select('img')
    if(image_elements != None):
        image_urls = []
        for image_element in image_elements:
            image_urls.append(image_element.get('src'))
        return image_urls
    else:
        return None


def download_image(img_folder, img_url):
    if(img_url != None):
        html_image = requests.get(img_url)
        filename = os.path.basename(img_url)
        filepath = os.path.join(img_folder, filename)

        with open(filepath, 'wb') as imageFile:
            for chunk in html_image.iter_content(1000000):
                imageFile.write(chunk)
        print(f"Image file name: '{filename}'. Download complete.")
    else:
        print("There is no image to download.")


reshot_url = 'https://www.reshot.com/search/animal'

reshot_image_urls = get_image_url(reshot_url)
num_of_download_image = 7

figure_folder = 'C:/Users/juher/TIL/Crawling/Download'

for k in range(num_of_download_image):
    download_image(figure_folder, reshot_image_urls[k])

print("=====================================")
print("Download complete")

Image file name: 'reshot-logo--mark-f8dfafbc1cc8fbf4dfa0e2f210265735aefa6e32f883b5a1fe27fd94f84719b3.svg'. Download complete.
Image file name: 'icon-no-photos-034c2399566c35bc56688f11795abdadf83f3c88fd167216a17ed55c2d65c73e.svg'. Download complete.
Image file name: 'external-link-arrow-52c40e51b7c58258feac171c83a56c8484bf490ac15b614762274080ba230f7f.svg'. Download complete.
Image file name: 'royalty-free-graphics-32a2c20ff5eac776239816c834473050da29fb8b36f19d25558cfdca7a6635da.png'. Download complete.
Image file name: 'elements-logo-c261bed7471105c650a86955a75ac1e08024ebe5c905547be1aae0274ac10eef.svg'. Download complete.
Image file name: 'external-link-arrow-52c40e51b7c58258feac171c83a56c8484bf490ac15b614762274080ba230f7f.svg'. Download complete.
Image file name: 'reshot-logo--mark-f8dfafbc1cc8fbf4dfa0e2f210265735aefa6e32f883b5a1fe27fd94f84719b3.svg'. Download complete.
Download complete


In [174]:
num_of_download_image = len(reshot_image_urls)
num_of_download_image

7

## Crawling practice - Naver news

In [1]:
from urllib.request import urlopen
import bs4

In [2]:
url = 'https://news.naver.com'
html = urlopen(url)

In [3]:
bs_obj = bs4.BeautifulSoup(html, 'html.parser')     # html 구성을 확인했으므로 html.parser 적용

In [4]:
print(bs_obj.prettify())

<!DOCTYPE html>
<html lang="ko">
 <head>
  <title id="browserTitleArea">
   네이버 뉴스
  </title>
  <script>
   function isMobileDevice() {
		return /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);
	}
  </script>
  <script>
   (function () {
		try {
			if (isMobileDevice() && isAbleApplyPrefersColorScheme()) {
				
				document.querySelector("html").classList.add("DARK_THEME");
			}
		} catch(e) {}

		function isAbleApplyPrefersColorScheme() {
			
			if (window.matchMedia("(prefers-color-scheme)").matches === false) {
				return false;
			}

			var userAgent = navigator.userAgent;

			if (userAgent.indexOf("NAVER") > -1) {
				
				if (/.*NAVER\([a-zA-Z]*;\s[a-zA-Z]*;\s([0-9]*);/.test(userAgent)) {
					return Number(RegExp.$1) >= 1000;
				}
			} else {
				
				return document.cookie.indexOf("NSCS=1") > -1;
			}

			return false;
		}
	})();
  </script>
  <script>
   var g_ssc = 'news.v3_media' || null;
  </script>
  <meta charset="utf-8"/>
  <meta content="width=device-width,

In [12]:
news_title = bs_obj.find_all('div', {'class': 'cjs_t'})

In [13]:
len(news_title)

82

In [14]:
news_title

[<div class="cjs_t">“유명세 믿었다가” 꼴찌 추락 ‘망신’…넷플릭스 천하 한국선 답이 없다</div>,
 <div class="cjs_t">사람은 뻘뻘, 차는 선선?…그늘막 밑 1분만 세워도 과태료</div>,
 <div class="cjs_t">배를 접어 차에 싣고, 원시의 정적 속으로 도망치다</div>,
 <div class="cjs_t">"애들만 불쌍하지"…'일타강사' 현우진, 세무조사 받아</div>,
 <div class="cjs_t">수원 영아 시신사건 친모 모습 공개… 2차 피해 우려 신상 공개는 안 해</div>,
 <div class="cjs_t">영주 ‘산사태’ 3대 가족 덮쳐…매몰된 14개월 아기 끝내 숨져 [종합]</div>,
 <div class="cjs_t">삼성, 1분기도 '반도체 정상' 실패…하이닉스, 10위권 밖으로 [소부장반차장]</div>,
 <div class="cjs_t">[이건뭐지?] 故 주석중 사고 현장…무단횡단에 덤프트럭은 '쌩쌩' (영상)</div>,
 <div class="cjs_t">"부의금 왜 이리 적어?" 母 장례식날 父 숨지게 한 50대</div>,
 <div class="cjs_t">윤재옥 "이태원 특별법은 '총선용'... 참사의 정쟁화 시리즈"</div>,
 <div class="cjs_t">'생산·소비·투자' 3개월만에 모두↑…"경기 불확실성은 여전"</div>,
 <div class="cjs_t">Korea, Japan agree to revive $10 billion currency swap deal</div>,
 <div class="cjs_t">내년 총선 국민의힘 170, 민주당 120 얻는다?  [+영상]</div>,
 <div class="cjs_t">수도권 6600병상이 온다, 지역 의료 붕괴가 가속화된다</div>,
 <div class="cjs_t">여객기서 비상문 열려던 10대…"탑승 전 필로폰 투약"</div>,
 <div class="cjs_t">[속보] 여객기 

In [15]:
for title in news_title : 
    print(title.text)

“유명세 믿었다가” 꼴찌 추락 ‘망신’…넷플릭스 천하 한국선 답이 없다
사람은 뻘뻘, 차는 선선?…그늘막 밑 1분만 세워도 과태료
배를 접어 차에 싣고, 원시의 정적 속으로 도망치다
"애들만 불쌍하지"…'일타강사' 현우진, 세무조사 받아
수원 영아 시신사건 친모 모습 공개… 2차 피해 우려 신상 공개는 안 해
영주 ‘산사태’ 3대 가족 덮쳐…매몰된 14개월 아기 끝내 숨져 [종합]
삼성, 1분기도 '반도체 정상' 실패…하이닉스, 10위권 밖으로 [소부장반차장]
[이건뭐지?] 故 주석중 사고 현장…무단횡단에 덤프트럭은 '쌩쌩' (영상)
"부의금 왜 이리 적어?" 母 장례식날 父 숨지게 한 50대
윤재옥 "이태원 특별법은 '총선용'... 참사의 정쟁화 시리즈"
'생산·소비·투자' 3개월만에 모두↑…"경기 불확실성은 여전"
Korea, Japan agree to revive $10 billion currency swap deal
내년 총선 국민의힘 170, 민주당 120 얻는다?  [+영상]
수도권 6600병상이 온다, 지역 의료 붕괴가 가속화된다
여객기서 비상문 열려던 10대…"탑승 전 필로폰 투약"
[속보] 여객기 비상문 개방 난동 10대, 탑승 전 필로폰 투약 확인
2007년 아이폰 첫 모델, 경매 나온다…"1억원 넘을 것"
트위터 전 직원이 밝힌 도널드 트럼프 계정 영구정지 이유
밑 빠진 CJ CGV에 1조원 들이붓기 [컴퍼니+]
처음 모습 드러낸 ‘냉장고 영아 시신’ 친모…얼굴 가린 채 침묵 [현장영상]
Again 1976! 범현대家 정의선·정기선, 사우디서 ‘제2 중동 붐’ 시동
팔다리 흔들고 안절부절… 택시 안에서 인사불성 돼 경찰서 온 여성, 알고 보니 마약에 '헤롱'
아이들 ‘시험하는’ 교문 앞 무인점포
"폭염·홍수로 일터 못 나간 남성이 아내에 폭력을 쏟아냈다"[기후위기, '먼 미래 아닌 지금']
"가장 소름 돋는 건..." 부산 돌려차기男 구치소 동기의 편지
[속보] '수원 냉장고 영아시신' 사건 30대 친모 검찰 송치
美 여행주, 성수기 앞두고

In [9]:
news_dec = bs_obj.find_all('p', {'class': 'cjs_d'})

In [10]:
len(news_dec)

82

In [11]:
for dec in news_dec:
    print(dec.text)

“마블만 너무 믿었나“ 넷플릭스 대항마로 꼽히며 큰 기대를 모았던 글로벌 OTT 디즈니플러스의 추락이 심상치 않다. 한국에선 더 이상 “답이 없다”는 말이 나올 정도로 콘텐츠마다 줄줄이 흥행에 실패하고 있다. “재미
날씨가 더워지면서 인도 위 그늘막 아래 주차된 차량이 전국 곳곳에서 포착되고 있는데요. 내일(1일)부터는 1분만 세워도 신고가 가능합니다. 횡단보도 앞 설치된 그늘막 아래 차량 한 대가 세워져 있습니다. 신호를 기다
물과 친해지기 우리는 물과 친하지 않다. 우리는 물과 거래처 직원처럼 지낼 순 있지만 엄마 아빠와 나 사이처럼 밀접해질 순 없다(물 안에서 물한테 산소를 달라고 투정부릴 수 없다!). 아무튼 물과 친하지 않은 덕분에
유명 학원 '일타' 강사들이 국세청 세무조사를 받고 있다. 29일 입시 업계와 세무 당국에 따르면 국세청은 메가스터디 대표 수학 강사인 현우진 강사를 비롯한 대형 학원 일타 강사들까지 세무조사 대상을 확대했다. 국세
영아 2명을 살해한 뒤 시신을 수년간 냉장고에 보관해 온 혐의로 구속된 친모 고모씨가 30일 경기도 수원남부경찰서에서 검찰로 송치되고 있다. 수원=뉴시스 ‘수원 냉장고 영아시신’ 사건으로 구속돼 경찰의 수사를 받아온
호우 특보가 내린 경북 영주에서 비 피해가 속출한 가운데, 산사태로 집안에 매몰된 14개월 여아가 끝내 숨졌다. 30일 경북경찰청과 경북도소방본부 등에 따르면 이날 오전 4시43분쯤 영주시 상망동에서 발생한 산사태로
지속되는 메모리 한파에 삼성전자가 올 1분기 인텔에 1위 자리를 내어줬다. 기존 3~4위권에 안착했던 SK하이닉스는 아예 10위권 밖으로 밀려났다. 29일 시장조사기관 옴디아에 따르면 글로벌 반도체 시장은 2023년
교통사고 목격자 "119 와서 인공호흡" 덤프트럭들, 우회전 속도 상당히 빨라 보행자들 스스럼없이 무단횡단 '심각' 심장혈관 분야 권위자인 고(故) 주석중 아산병원 심장혈관흉부외과 교수가 지난 16일 오후 서울아산병
대법원이 부동산과 부의금 문제로 어머니 장례식날 아버지를 

## NAVER news section menu & section url

In [2]:
from urllib.request import urlopen
import bs4
import pandas as pd

In [3]:
url = 'https://news.naver.com'

html = urlopen(url)

bs_obj = bs4.BeautifulSoup(html, 'html.parser')

In [4]:
uls = bs_obj.find_all('ul', {'class': 'Nlnb_menu_list'})
len(uls)

1

In [5]:
ul = bs_obj.find("ul", {"class": "Nlnb_menu_list"})
ul

<ul class="Nlnb_menu_list" role="menu">
<li class="Nlist_item is_active"><a aria-selected="true" class="Nitem_link" href="https://news.naver.com/?viewType=pc" onclick="nclk(event,'lnb.pcmedia','','');" role="menuitem"><span class="Nitem_link_menu">언론사별</span></a></li>
<li class="Nlist_item"><a aria-selected="false" class="Nitem_link" href="https://news.naver.com/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=100" onclick="nclk(event,'lnb.pol','','');" role="menuitem"><span class="Nitem_link_menu">정치</span></a></li>
<li class="Nlist_item"><a aria-selected="false" class="Nitem_link" href="https://news.naver.com/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=101" onclick="nclk(event,'lnb.eco','','');" role="menuitem"><span class="Nitem_link_menu">경제</span></a></li>
<li class="Nlist_item"><a aria-selected="false" class="Nitem_link" href="https://news.naver.com/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=102" onclick="nclk(event,'lnb.soc','','');" role="menuitem"><span class="Nitem_link_men

In [6]:
lis = ul.find_all('li')
len(lis)

12

In [7]:
for li in lis:
    a_tag = li.find('a')
    print(a_tag.text, " : ", a_tag['href'])

언론사별  :  https://news.naver.com/?viewType=pc
정치  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100
경제  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=101
사회  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=102
생활/문화  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=103
IT/과학  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=105
세계  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=104
랭킹  :  https://news.naver.com/main/ranking/popularDay.naver
신문보기  :  https://news.naver.com/newspaper/home?viewType=pc
오피니언  :  https://news.naver.com/opinion/home
TV  :  https://news.naver.com/main/tv/index.naver?mid=tvh
팩트체크  :  https://news.naver.com/main/factcheck/main.naver


In [8]:
lis = bs_obj.find_all('li', {'class': "Nlist_item"})
len(lis)

12

In [9]:
for li in lis:
    a_tag = li.find('a')
    print(a_tag.text)
    print(a_tag['href'])

언론사별
https://news.naver.com/?viewType=pc
정치
https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100
경제
https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=101
사회
https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=102
생활/문화
https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=103
IT/과학
https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=105
세계
https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=104
랭킹
https://news.naver.com/main/ranking/popularDay.naver
신문보기
https://news.naver.com/newspaper/home?viewType=pc
오피니언
https://news.naver.com/opinion/home
TV
https://news.naver.com/main/tv/index.naver?mid=tvh
팩트체크
https://news.naver.com/main/factcheck/main.naver


In [10]:
section = []
link = []

In [11]:
for li in lis:
    a_tag = li.find('a')
    section.append(a_tag.text)
    link.append(a_tag['href'])

In [12]:
col_dict = {'section': section, 'link': link}
news_section_df = pd.DataFrame(col_dict)
news_section_df

Unnamed: 0,section,link
0,언론사별,https://news.naver.com/?viewType=pc
1,정치,https://news.naver.com/main/main.naver?mode=LS...
2,경제,https://news.naver.com/main/main.naver?mode=LS...
3,사회,https://news.naver.com/main/main.naver?mode=LS...
4,생활/문화,https://news.naver.com/main/main.naver?mode=LS...
5,IT/과학,https://news.naver.com/main/main.naver?mode=LS...
6,세계,https://news.naver.com/main/main.naver?mode=LS...
7,랭킹,https://news.naver.com/main/ranking/popularDay...
8,신문보기,https://news.naver.com/newspaper/home?viewType=pc
9,오피니언,https://news.naver.com/opinion/home


In [14]:
news_section_df.to_csv('C:/Users/juher/TIL/Crawling/Download/news_section.csv', encoding = 'UTF-8')

## Crawling NAVER articles

In [15]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager

In [16]:
from selenium.webdriver.common.by import By

In [19]:
article_list = []

def get_article(page):
    driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()))
    
    driver.get("http://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=105#&date=%2000:00:00&page=" + str(page))
    articles = driver.find_elements(By.CSS_SELECTOR, "#secion_body li")

    for article in articles:
        title = article.find_element(By.CSS_SELECTOR, 'dt:not(.photo) > a').text
        article_list.append(title)

    print("end:", page)

    driver.quit()


In [20]:
%%time
for page in range(1, 5):
    get_article(page)

end: 1
end: 2
end: 3
end: 4
CPU times: total: 78.1 ms
Wall time: 35.4 s


In [21]:
len(article_list), article_list[:30]

(0, [])

In [22]:
import threading
import pandas as pd

df = pd.DataFrame(columns=['title'])

In [25]:
def get_article(page):
    driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()))

    driver.get(
        "http://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=105#&date=%2000:00:00&page=" + str(page))
    
    articles = driver.find_elements(By.CSS_SELECTOR, "#section_body li")

    for article in articles:
        title = article.find_element(By.CSS_SELECTOR, 'dt:not(.photo) > a').text
        df.loc[len(df)] = {
            "title": title,
        }

    driver.quit()

In [26]:
%%time
for page in range(1, 5):
    get_article(page)

CPU times: total: 188 ms
Wall time: 35.5 s


In [27]:
df.tail()

Unnamed: 0,title
75,"[단독]'애드핏' 보유한 카카오, 티스토리엔 '애드센스'만 채택"
76,"KT, 신규 사외이사 7인 선임…지배구조 새판짜기 본격 돌입"
77,"""주부 입맛 사로잡은 컬리 비결은 매일 후기 정독"""
78,"우주 유료 관광 본격 개막...버진 갤럭틱, 伊 승객 태우고 비행 성공"
79,"中 반도체 업계 불만 고조...""美 규제장비, 공급사가 다시 사들여야"""
