In [26]:
import os
import re
from urllib import parse

from bs4 import BeautifulSoup
import requests


# 1. 웹툰 이름으로 검색하기
url_webtoon_list = 'http://comic.naver.com/webtoon/weekday.nhn'
print('- 요청할 URL:', url_webtoon_list)

# html데이터를 미리 파일로 저장, 없으면 다운로드하고 있으면 해당 내용을 가져오기
file_path = 'data/webtoon_list.html'
if os.path.exists(file_path):
    print('- 파일이 이미 존재함 ({})'.format(file_path))
    # 파일이 있다면, 텍스트 읽기모드로 해당 파일을 불러온다
    f = open(file_path, 'rt')
    html = f.read()
    f.close()
    print('- 파일 읽기 완료')
else:
    # 파일이 없다면,
    # 웹툰 목록 URL로부터 텍스트 데이터 받아와서 html변수에 할당하고
    # 텍스트 쓰기 모드로 파일을 열고 기록 후 닫는다
    print('- 파일이 없음 ({})'.format(file_path))
    response = requests.get(url_webtoon_list)
    print('- requests로 요청 완료')
    html = response.text
    print('- 파일 쓰기 시작')
    f = open(file_path, 'wt')
    f.write(html)
    f.close()
    print('- 파일 쓰기 완료')

# 받아온 HTML데이터를 사용해 BeautifulSoup인스턴스 생성
soup = BeautifulSoup(html, 'lxml')
print('- BeautifulSoup객체 생성 완료')

# a태그인데 class가 title인 요소들을 전부 가져온다
a_list = soup.select('a.title')



# 각 a요소들을 출력해본다
a_text_list = []
for a in a_list:
    a_text_list.append(a.string)
    
# 제목들의 리스트인 a_text_list의 중복을 없애준다
a_text_list_set = set(a_text_list)
a_text_list = list(a_text_list_set)

# a_text_list에서 '대학'이라는 텍스트가 포함된 요소를 가진 새 리스트를 만든다
# 1. a_text_list를 순회하며 각 요소를 출력
# 2. 매 순회에 해당하는 텍스트에 '대학'이 포함되어있는지 검사
# 3. 포함되어있다면 새 리스트에 추가
search_result_list = []
for a_text in a_text_list:
    if '대학' in a_text:
        search_result_list.append(a_text)

search_result_list = [a_text for a_text in a_text_list if '대학' in a_text]
print(search_result_list)



# 각 a요소들을 출력해본다
a_dict_list = []
for a in a_list:
    href = a.get('href')
    query_dict = parse.parse_qs(parse.urlsplit(href).query)
    webtoon_id = query_dict.get('titleId')[0]
    webtoon_title = a.string
    a_dict_list.append({
        'webtoon_id': webtoon_id,
        'title': webtoon_title,
    })
    
for a_dict in a_dict_list:
    print(a_dict['title'], a_dict['webtoon_id'])

- 요청할 URL: http://comic.naver.com/webtoon/weekday.nhn
- 파일이 이미 존재함 (data/webtoon_list.html)
- 파일 읽기 완료
- BeautifulSoup객체 생성 완료
['안녕, 대학생', '대학일기']
신의 탑 183559
뷰티풀 군바리 648419
윈드브레이커 602910
소녀의 세계 654774
대학일기 679519
평범한 8반 597478
니편내편 702422
혈투 710752
심연의 하늘 시즌5 702170
일진에게 회초리 710756
반투명인간 710762
가우스전자 시즌3~4 675554
아기낳는만화 703837
마왕이 되는 중2야 694807
이것도 친구라고 698888
하루 3컷 644180
마이너스의 손 679568
피플 706590
유일무이 로맨스 709731
환생동물학교 700139
이상하고 아름다운 668723
히어로메이커 21815
닥터 하운드 700858
꿈의 기업 687915
부로콜리왕자 710741
오직 나의 주인님 703635
팀피닉스 658076
홍차리브레 703838
열대어 703629
찬란하지 않아도 괜찮아 698247
와장창창! 자취맨 711899
여신강림 703846
마음의소리 20853
노블레스 25455
하이브3 675331
랜덤채팅의 그녀! 702608
원주민 공포만화 698918
신암행어사 703307
덴마 119874
신도림 683496
자판귀 703850
빙탕후루 695321
악마와 계약연애 710750
놓지마 정신줄 시즌2 682637
신의 언어 602287
가우스전자 시즌3~4 675554
불괴 710766
제로게임 676695
하루 3컷 644180
바른연애 길잡이 703852
삼국지톡 711422
윌유메리미 616239
에이머 400739
노곤하개 702672
은주의 방 2~3부 654138
열정호구 686312
모태솔로수용소 시즌2~3 666670
문래빗 710758
여중생A-우리들의 축제 712003
패밀리 사이즈 626906
간질간질 70