### 네이버 Papago 서비스 사용
* 파이썬 기본 urllib 라이브러리 사용

In [1]:
# 네이버 Papago NMT API 예제
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin # url join하는 모듈

url = 'https://news.naver.com/'
req_header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'
}

res = requests.get(url, headers=req_header)
print(res.status_code)
# print('응답 헤더', res.headers)
# print('요청 헤더', res.request.headers)

if res.ok:
    # 응답객체에서 텍스트를 추출
    html = res.text
    # 추출한 텍스트를 파싱하기 위해 BeautifulSoup 객체 생성
    soup = BeautifulSoup(html, 'html.parser')
    
    atag_list = soup.select("a[href*='read.nhn']")
    print(type(atag_list))
    print(len(atag_list))
    
    for idx, atag in enumerate(atag_list, 1):
        title = atag.text.strip() # strip : 공백 없애주는 함수
        link = urljoin(url, atag['href'])
        
        print('{}, {}, {}'.format(idx, title, link))
    

200
<class 'bs4.element.ResultSet'>
186
1, 신규확진 119명 휴일임에도 세자리…요양병원-발…, https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=102&oid=001&aid=0011969577
2, 독감 백신 접종…주의점과 이상징후 구별법[출…, https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=422&aid=0000453894
3, 공수처 최후통첩 D-day···이낙연 "野 악용 좌시않을것", https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=011&aid=0003815933
4, 故 이건희 회장 오늘 입관식…삼성 사장단도 조문 예정(종합), https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=421&aid=0004949467
5, 주호영, 최재성 만나 "文대통령, 100일 지나도 답 없어…불통 심하다", https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=366&aid=0000608773
6, 추미애, 윤석열에 반격 나서나…안철수 "화해하기엔 선 넘었다", https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=015&aid=0004437689
7, `구하라법`은 언제쯤…28년 만에 나타나 딸 유산 다 챙긴 생모, https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=102&oid=009&aid=0004681771
8, , https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=023&aid=0003571365
9, 두 

### 웹툰 이미지 다운로드

In [2]:
import requests
import os

req_header = {
    'referer':'https://comic.naver.com/webtoon/detail.nhn?titleId=735661&no=53&amp;weekday=fri'
}

img_urls = [
        'https://image-comic.pstatic.net/webtoon/735661/53/20200917155434_e1cb5ef2b9ef5b933f8895a2b9b7f4d6_IMAG01_1.jpg',
        'https://image-comic.pstatic.net/webtoon/735661/53/20200917155434_e1cb5ef2b9ef5b933f8895a2b9b7f4d6_IMAG01_2.jpg',
        'https://image-comic.pstatic.net/webtoon/735661/53/20200917155434_e1cb5ef2b9ef5b933f8895a2b9b7f4d6_IMAG01_3.jpg'
]
for img_url in img_urls:
    res = requests.get(img_url, headers=req_header)
    print(res.status_code)
    if res.ok:
        #응답객체에서 binary(이진) 데이터를 가져올때는 content 속성을 사용한다
        img_data = res.content
        #img_url에서 file 이름만 꺼내기
        file_name = os.path.basename(img_url)
        #print(file_name)
        #binary 데이터를 file로 저장하기 
        with open(file_name,'wb') as file:
            print(f'Writing to {file_name} ({len(img_data)}) bytes')
            file.write(img_data)

200
Writing to 20200917155434_e1cb5ef2b9ef5b933f8895a2b9b7f4d6_IMAG01_1.jpg (112100) bytes
200
Writing to 20200917155434_e1cb5ef2b9ef5b933f8895a2b9b7f4d6_IMAG01_2.jpg (216632) bytes
200
Writing to 20200917155434_e1cb5ef2b9ef5b933f8895a2b9b7f4d6_IMAG01_3.jpg (135534) bytes


### 특정 웹툰 페이지의 모든 image를 다운로드 받기
* soup.select("img[src$='jpg']")
* img 폴더를 생성하고 그 아래에 파일을 저장하기

In [3]:
import requests
from bs4 import BeautifulSoup
import re

main_url = 'https://comic.naver.com/webtoon/detail.nhn?titleId=712362&no=94&amp;weekday=fri'
res = requests.get(main_url)
print(res.status_code)
if res.ok:
    html = res.text
    soup = BeautifulSoup(html,'html.parser')
    
    print(len(soup.select("img[src$='.jpg']")))
    img_url_list = []
    for img_url in soup.select("img[src$='jpg']"):
        img_url_list.append(img_url['src'])

img_url_list[0:3]        

200
57


['https://shared-comic.pstatic.net/thumb/webtoon/712362/thumbnail/thumbnail_IMAG04_ac694463-dc14-4362-b66d-8f20ee06017d.jpg',
 'https://image-comic.pstatic.net/webtoon/712362/94/20200924121949_aa6b0fd732e9b69f06ad265061e37edb_IMAG01_1.jpg',
 'https://image-comic.pstatic.net/webtoon/712362/94/20200924121949_aa6b0fd732e9b69f06ad265061e37edb_IMAG01_2.jpg']

In [4]:
#img 디렉토리 생성
#img 디렉토리가 없으면
if not os.path.isdir('img'):
    os.mkdir('img')    

In [5]:
#image_url_list에 있는 url로 요청해서 image들을 다운로드 하기
for idx,img_url in enumerate(img_url_list,1):
    print(f'---> 다운로드 번호 {idx}')
    req_header = {
        'referer':main_url
    }
    res = requests.get(img_url, headers=req_header)
    if res.ok:
        img_data = res.content
        file_name = os.path.basename(img_url)
        with open('img/'+file_name,'wb') as file:
            print(f'파일명 :{file_name} ({len(img_data)}) bytes')
            file.write(img_data)

---> 다운로드 번호 1
파일명 :thumbnail_IMAG04_ac694463-dc14-4362-b66d-8f20ee06017d.jpg (32102) bytes
---> 다운로드 번호 2
파일명 :20200924121949_aa6b0fd732e9b69f06ad265061e37edb_IMAG01_1.jpg (120839) bytes
---> 다운로드 번호 3
파일명 :20200924121949_aa6b0fd732e9b69f06ad265061e37edb_IMAG01_2.jpg (102260) bytes
---> 다운로드 번호 4
파일명 :20200924121949_aa6b0fd732e9b69f06ad265061e37edb_IMAG01_3.jpg (156656) bytes
---> 다운로드 번호 5
파일명 :20200924121949_aa6b0fd732e9b69f06ad265061e37edb_IMAG01_4.jpg (73441) bytes
---> 다운로드 번호 6
파일명 :20200924121949_aa6b0fd732e9b69f06ad265061e37edb_IMAG01_5.jpg (99572) bytes
---> 다운로드 번호 7
파일명 :20200924121949_aa6b0fd732e9b69f06ad265061e37edb_IMAG01_6.jpg (201003) bytes
---> 다운로드 번호 8
파일명 :20200924121949_aa6b0fd732e9b69f06ad265061e37edb_IMAG01_7.jpg (151338) bytes
---> 다운로드 번호 9
파일명 :20200924121949_aa6b0fd732e9b69f06ad265061e37edb_IMAG01_8.jpg (73271) bytes
---> 다운로드 번호 10
파일명 :20200924121949_aa6b0fd732e9b69f06ad265061e37edb_IMAG01_9.jpg (153137) bytes
---> 다운로드 번호 11
파일명 :20200924121949_aa6b0fd732

In [18]:
def download_image(title, url):
    import requests
    from bs4 import BeautifulSoup 
    import os
    
    req_header = {
        'referer':url
    }
    
    res = requests.get(url)
    print(res.status_code)
    
    if res.ok:
        soup = BeautifulSoup(res.text, 'html.parser')
        
        imgurl_list = list()
        
        for img_tag in soup.select('img[src$=".jpg"]'):
            imgurl_list.append(img_tag['src'])
            
        dir_name = 'img/' + title
        if not os.path.isdir(dir_name):
            os.mkdir(dir_name)
            
        for idx, img_url in enumerate(imgurl_list, 1):
            # header가 없으면 다운로드 받을 수 없음
            res = requests.get(img_tag['src'], headers=req_header)
            if res.ok:
                img_data = res.content
                file_name = os.path.basename(img_url)
                file_name = dir_name + '/' + file_name
                with open(file_name, 'wb') as file:
                    file.write(img_data)
        
download_image('약한영웅', 'https://comic.naver.com/webtoon/detail.nhn?titleId=710751&no=125&weekday=sun')

200


### 네이버 웹툰 홈에서 추천웹툰의 제목과 url 알아내기

In [37]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

main_url = 'https://comic.naver.com/index.nhn'

res = requests.get(main_url)

if res.ok:
    soup = BeautifulSoup(res.text, 'html.parser')    
    recom_webtoon_list = []
    
    for div_tag in soup.select('div.genreRecomInfo2'):
        recom_webtoon_dict = {}
        a_tag1 = div_tag.select('h6 a')[0]
        title = a_tag1.text.strip() # 웹툰 제목
        webtoon_url = urljoin(main_url, a_tag1['href']) # 웹툰 url
        
        a_tag2 = div_tag.select('p a')[0] # 웹툰의 회차 url
        webtoon_episode_url = urljoin(main_url, a_tag2['href'])

        print(div_tag)
        recom_webtoon_dict['title'] = title
        recom_webtoon_dict['webtoon_url'] = webtoon_url
        recom_webtoon_dict['episode_url'] = webtoon_episode_url
        
        recom_webtoon_list.append(recom_webtoon_dict)
    #print(recom_webtoon_list)

<div class="genreRecomInfo2">
<h6 class="title">
<span class="ico_break" style="display:none;">휴재</span>
<span class="ico_smart" style="display:none;">스마트툰</span>
<span class="ico_cut" style="display:none;">컷툰</span>
<span class="ico_short_ani" style="display:none;">숏애니</span>
<a href="/webtoon/list.nhn?titleId=754781" onclick="nclk_v2(event,'rcn*s.title','754781','1')">
<span>바이러스X</span>
</a>
</h6>
<p>
<a href="/webtoon/detail.nhn?titleId=754781&amp;no=2" onclick="nclk_v2(event,'rcn*s.sub','754781','1')">
<span>2화. 바이러스X(2)</span>
</a>
</p>
<span class="user">
<a href="#" onclick="return goArtist('754781', '1', this, event);">
							
							
								준 / 하랑
							
							</a>
</span>
</div>
<div class="genreRecomInfo2">
<h6 class="title">
<span class="ico_break" style="display:none;">휴재</span>
<span class="ico_smart" style="display:none;">스마트툰</span>
<span class="ico_cut" style="display:none;">컷툰</span>
<span class="ico_short_ani" style="display:none;">숏애니</span>
<a href="/webtoon/l

### 6개의 만화의 제목과 회차url을 꺼내서 download_image() 함수 호출

In [43]:
for idx, webtoon in enumerate(recom_webtoon_list, 1):
    print('--->> {}. {}'.format(idx, webtoon['title']))
    download_image(webtoon['title'], webtoon['episode_url'])

--->> 1. 바이러스X
200
--->> 2. 노력의 결과
200
--->> 3. 백수세끼
200
--->> 4. 꿈의 기업
200
--->> 5. 블루투스
200
--->> 6. 모락모락 왕세자님
200
