### 사이트 크롤링
1. 사이트 소스 내에서 특정 문자열(data)을 지칭하는 선택자 찾기
    - 크롬 개발자 도구의 기능 사용
    - 검사할 페이지의 요소 선택 : 태그/선택자/계층 구조 확인
2. 전체 코드에서 수집하려고 하는 데이터의 위치 찾고
    - 태그 파싱 후 필요 데이터추출

In [1]:
from urllib.request import urlopen
import bs4

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

#### 사이트 크롤링 : https://www.tistory.com/

In [3]:
url = 'https://www.tistory.com/'
html = urlopen(url)
# 파서 객체 생성
bs_obj = bs4.BeautifulSoup(html, 'html.parser')

In [4]:
# bs_obj

In [5]:
# 기본 메뉴 박스 : id : kakaoGnb 인 div 태그 추출
tistory_menu = bs_obj.find('div', {'id':'kakaoGnb'})
tistory_menu

<div class="gnb_tistory" id="kakaoGnb" role="navigation">
<h2 class="screen_out">서비스 주요 메뉴</h2>
<ul class="list_gnb">
<li><a class="link_gnb" href="/feed">피드</a></li>
<li><a class="link_gnb" href="/category">스토리</a></li>
<li><a class="link_gnb" href="/skin">스킨</a></li>
<li><a class="link_gnb" href="/community">포럼</a></li>
</ul>
</div>

In [6]:
ul = bs_obj.find('ul', {'class':'list_gnb'})
ul

<ul class="list_gnb">
<li><a class="link_gnb" href="/feed">피드</a></li>
<li><a class="link_gnb" href="/category">스토리</a></li>
<li><a class="link_gnb" href="/skin">스킨</a></li>
<li><a class="link_gnb" href="/community">포럼</a></li>
</ul>

In [7]:
a_tag = bs_obj.findAll('a', {'class':'list_gnb'})
a_tag

[]

In [8]:
li_list = tistory_menu.select('li')

for li in li_list:
    print(li.select('a'),li.text)

[<a class="link_gnb" href="/feed">피드</a>] 피드
[<a class="link_gnb" href="/category">스토리</a>] 스토리
[<a class="link_gnb" href="/skin">스킨</a>] 스킨
[<a class="link_gnb" href="/community">포럼</a>] 포럼


In [9]:
# 또는
a_tab_list = bs_obj.findAll('a', {'class':'link_gnb'})

for a in a_tab_list:
    print(a.text)

피드
스토리
스킨
포럼


In [10]:
# 우측 하단의 목록에서 text만 추출
# 메뉴가 궁금할 때 

In [11]:
question_menu = bs_obj.find('div', {'class':'question_tistory'})
question_menu

<div class="question_tistory">
<h2 class="screen_out">문의목록</h2>
<div class="wrap_question">
<span class="tit_question">메뉴가 궁금할 땐</span>
<ul class="list_question">
<li><a class="link_txt" href="/skin">스킨</a></li>
<li><a class="link_txt" href="/community/forum">포럼</a></li>
<li><a class="link_txt" href="/category">스토리</a></li>
</ul>
</div>
<div class="wrap_question">
<span class="tit_question">사용하다 궁금할 땐</span>
<ul class="list_question">
<li><a class="link_txt" href="/guide/api/manage/register">오픈 API</a></li>
<li><a class="link_txt" href="https://tistory.github.io/document-tistory-skin/" target="_blank">스킨가이드</a></li>
<li><a class="link_txt" href="https://cs.kakao.com/requests?service=175&amp;locale=ko" target="_blank">고객센터</a></li>
</ul>
</div>
<div class="wrap_question">
<span class="tit_question">정책이 궁금할 땐</span>
<ul class="list_question">
<li><a class="link_txt" href="/info/contract">이용약관</a></li>
<li><a class="link_txt" href="https://www.kakao.com/policy/privacy?lang=ko"><em>카카오 개인정

In [12]:
question_list = bs_obj.findAll('span', {'class':'tit_question'})

for a in question_list:
    print(a.text)

메뉴가 궁금할 땐
사용하다 궁금할 땐
정책이 궁금할 땐
도움이 필요할 땐


In [13]:
#############################################################################

### 네이버 뉴스 섹션 메뉴와 섹션별 URL 추출

In [14]:
# 사이트 연결. HTML 패싱
url = 'https://news.naver.com/'
html = urlopen(url)
# 파서 객체 생성
bs_obj = bs4.BeautifulSoup(html, 'html.parser')

In [15]:
#bs_obj

In [16]:
# F12 개발자 도구에서 확인
# ul 태그 class 명 확인 : Nlnb_menu_list

ul = bs_obj.select('ul.Nlnb_menu_list')
ul

[<ul class="Nlnb_menu_list" role="menu">
 <li class="Nlist_item is_active"><a aria-selected="true" class="Nitem_link" href="https://news.naver.com/?viewType=pc" onclick="nclk(event,'lnb.pcmedia','','');" role="menuitem"><span class="Nitem_link_menu">언론사별</span></a></li>
 <li class="Nlist_item"><a aria-selected="false" class="Nitem_link" href="https://news.naver.com/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=100" onclick="nclk(event,'lnb.pol','','');" role="menuitem"><span class="Nitem_link_menu">정치</span></a></li>
 <li class="Nlist_item"><a aria-selected="false" class="Nitem_link" href="https://news.naver.com/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=101" onclick="nclk(event,'lnb.eco','','');" role="menuitem"><span class="Nitem_link_menu">경제</span></a></li>
 <li class="Nlist_item"><a aria-selected="false" class="Nitem_link" href="https://news.naver.com/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=102" onclick="nclk(event,'lnb.soc','','');" role="menuitem"><span class="Nitem_lin

In [17]:
# 언론사별 : https://news.naver.com/?viewType=pc
# ...
# 알고리즘 안내 : https://media.naver.com/algorithm

In [18]:
ul = bs_obj.find('ul', {'class':'Nlnb_menu_list'})
lis = ul.findAll('li')

for li in lis:
    a_tag = li.find('a')
    print(a_tag.text, ' : ', a_tag['href'])

언론사별  :  https://news.naver.com/?viewType=pc
정치  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100
경제  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=101
사회  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=102
생활/문화  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=103
IT/과학  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=105
세계  :  https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=104
랭킹  :  https://news.naver.com/main/ranking/popularDay.naver
신문보기  :  https://news.naver.com/newspaper/home?viewType=pc
오피니언  :  https://news.naver.com/opinion/home
TV  :  https://news.naver.com/main/tv/index.naver?mid=tvh
팩트체크  :  https://news.naver.com/main/factcheck/main.naver
알고리즘 안내  :  https://media.naver.com/algorithm


In [19]:
# 수집한 데이터를 csv 파일로 저장
# (1) 섹션 메뉴와 링크를 리스트로 생성
# (2) 데이터프레임 생성
# (3) 파일로 저장

In [20]:
# (1) 섹션 메뉴와 링크를 리스트로 생성
# 빈 리스트 생성
section = []
link = []

In [21]:
# 리스트에 추가
for li in lis:
    a_tag = li.find('a')
    section.append(a_tag.text)
    link.append(a_tag['href'])

In [22]:
section

['언론사별',
 '정치',
 '경제',
 '사회',
 '생활/문화',
 'IT/과학',
 '세계',
 '랭킹',
 '신문보기',
 '오피니언',
 'TV',
 '팩트체크',
 '알고리즘 안내']

In [23]:
link

['https://news.naver.com/?viewType=pc',
 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100',
 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=101',
 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=102',
 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=103',
 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=105',
 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=104',
 'https://news.naver.com/main/ranking/popularDay.naver',
 'https://news.naver.com/newspaper/home?viewType=pc',
 'https://news.naver.com/opinion/home',
 'https://news.naver.com/main/tv/index.naver?mid=tvh',
 'https://news.naver.com/main/factcheck/main.naver',
 'https://media.naver.com/algorithm']

In [24]:
# (2) 데이터프레임 생성
# pandas 라이브러리 사용

In [25]:
# !pip install pandas

In [26]:
import pandas as pd

In [27]:
news_section_df = pd.DataFrame({'section':section, 'link':link})

In [28]:
news_section_df

Unnamed: 0,section,link
0,언론사별,https://news.naver.com/?viewType=pc
1,정치,https://news.naver.com/main/main.naver?mode=LS...
2,경제,https://news.naver.com/main/main.naver?mode=LS...
3,사회,https://news.naver.com/main/main.naver?mode=LS...
4,생활/문화,https://news.naver.com/main/main.naver?mode=LS...
5,IT/과학,https://news.naver.com/main/main.naver?mode=LS...
6,세계,https://news.naver.com/main/main.naver?mode=LS...
7,랭킹,https://news.naver.com/main/ranking/popularDay...
8,신문보기,https://news.naver.com/newspaper/home?viewType=pc
9,오피니언,https://news.naver.com/opinion/home


In [29]:
# (3) 파일로 저장
# ch21_crawling 폴더 안에 crawl_data 폴더 생성
# 데이터프레임.to_csv('파일경로 및 파일명', index=0)

In [31]:
news_section_df.to_csv('./crawl_data/naver_news_section.csv', index=0)