## 네이버 첫 페이지 가져오기

* '네이버를 시작페이지로' 라는 글자 추출하기

### 1. 크롤링해도 되는 사이트인지 확인

* robots.txt 확인

### 2. urllib 활용하기

* http request 라는 요청을 웹 데이터를 받아와야 함
    - urllib.request : 파이썬에서 웹의 특정 주소로 요청을 보내는 기능
    - urllib.request : urlopen() 함수를 이용해 네이버 첫 페이지 불러오기

In [None]:
from urllib.request import urlopen

url = "https://www.naver.com"
html = urlopen(url)

print(html.read())

In [None]:
# 윗 셀 출력 결과

b'\n<!doctype html>                          <html lang="ko" data-dark="false"> <head> <meta charset="utf-8"> 
<title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190">
<meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/>
<meta name="description" content="\xeb\x84\xa4\xec\x9d\xb4\xeb\xb2\x84 \xeb\xa9\x94\xec\x9d\xb8\xec\x97\x90\xec\x84\x9c 
\xeb\x8b\xa4\xec\x96\x91\xed\x95\x9c \xec\xa0\x95\xeb\xb3\xb4\xec\x99\x80 \xec\x9c\xa0\xec\x9a\xa9\xed\x95\x9c 
\xec\xbb\xa8\xed\x85\x90\xec\xb8\xa0\xeb\xa5\xbc \xeb\xa7\x8c\xeb\x82\x98 \xeb\xb3\xb4\xec\x84\xb8\xec\x9a\x94"/> 
<meta property="og:title" content="\xeb\x84\xa4\xec\x9d\xb4\xeb\xb2\x84"> <meta property="og:url" 
content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/
0705/mobile_212852414260.png"> <meta property="og:description" 
...

* 네이버 첫 페이지를 받아오면,
    - b'\n<!doctype html>으로 시작해서 </html>로 끝나는 데이터가 받아와짐. 소스코드로 치면 몇 천 줄
    - html이라는 변수 안에 텍스트 형식으로 네이버 첫 페이지를 호출한 데이터가 **문자열 형태**로 들어감

### 3. BeautifulSoup() 활용하기

* urlopen()을 이용하여 URL을 호출한 데이터를 받아 옴
* 이 데이터를 파싱하기 위해 BeautifulSoup()에 데이터를 넣어, 파이썬을 가공할 수 있는 형태로 만들어 주어야 함

In [None]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

url = "https://www.naver.com"
html = urlopen(url)

soup = BeautifulSoup(html.read(), "html.parser")
print(soup)

In [None]:
# 윗 셀 출력 결과

<!DOCTYPE html>
 <html data-dark="false" lang="ko"> <head> <meta charset="utf-8"/> <title>NAVER</title>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/> <meta content="width=1190" name="viewport"/>
<meta content="NAVER" name="apple-mobile-web-app-title"> <meta content="index,nofollow" name="robots">
<meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description"> 
<meta content="네이버" property="og:title"/> <meta content="https://www.naver.com/" property="og:url"/> 
<meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/> 
<meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description">
<meta content="summary" name="twitter:card"/> <meta content="" name="twitter:title"/> 
<meta content="https://www.naver.com/" name="twitter:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit
/2016/0705/mobile_212852414260.png" name="twitter:image"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 
만나 보세요" name="twitter:description"> <link href="https://pm.pstatic.net/dist/css/nmain.20220922.css" rel="stylesheet"/> 
...

### 4. 개발자 도구를 이용해 필요한 부분만 가져오기

* 구글 크롬의 '개발자 도구'를 이용하여 데이터가 있는 위치 찾기
    - Ctrl + Shift + I 혹은 F12 클릭 / 화면 우측 상단의 땡땡땡 -> 도구 더보기 -> 개발자 도구
    
    
* 개발자 도구 위치 변경
    - 땡땡땡 버튼을 눌러, 개발자 도구가 나오는 위치를 변경할 수 있음

* 개발자 도구의 *왼쪽 상단에 화살표 아이콘 존재*
    1. 화살표 버튼을 누르면 색이 파란색으로 바뀜
    2. 마우스를 움직여보면 마우스를 올린 영역의 색이 변함
    3. 원하는 위치로 이동해서 클릭하면 소스코드에서 마우스로 클릭한 부분이 어떤 부분인지 알려줌
    4. 잘못 누를 경우, 다시 개발자 도구의 왼쪽 위의 화살표를 눌러서 다시 선택해주면 됨
    5. **'네이버를 시작페이지로'** 을 마우스로 찾은 후 클릭
        - HTML 소스 코드에서 어떤 부분인지 표시해줌
        
        
* 선택 되어있는 줄 (<a id로 시작)에서 앞에 있는 ▶ 버튼 클릭하면 ▼ 기호로 바뀌면서 내용이 보임

![image.png](attachment:image.png)

### 5. HTML 코드 분석하기

* 큰 구조: `<div>` 태그 안에 `<a> </a>`가 들어 있는 구조


* class 속성을 이용하여 데이터 추출하기: `<div class="service_area">`
    - `<div>` 태그 안의 class 속성의 속성값인 "service_area"를 이용하여 해당 내용으로 접근
    
    
* find() & class 속성 활용하기: `result = soup.find("div", {"class":"service_area"})`
    - soup.find("div"): 전체에서 가장 처음 나타나는 `<div>` 태그를 뽑으라는 명령어
    - 하지만, 우리가 뽑고 싶은 '네이버를 시작페이지로"가 들어 있는 div는 맨 처음에 있지 않으므로 한 가지 더 옵션을 주어야 함
    - 의미: div 태그 중에서 class가 "service_area"인 div를 찾아라.

In [3]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

url = "https://www.naver.com"
html = urlopen(url)

soup = BeautifulSoup(html.read(), "html.parser")

result = soup.find("div", {"class":"service_area"})
print(result)

<div class="service_area">
<a class="link_set" data-clk="top.mkhome" href="https://help.naver.com/support/welcomePage/guide.help" id="NM_set_home_btn">네이버를 시작페이지로</a>
<i class="sa_bar"></i>
<a class="link_jrnaver" data-clk="top.jrnaver" href="https://jr.naver.com"><i class="ico_jrnaver"></i><span class="blind">쥬니어네이버</span></a>
<a class="link_happybin" data-clk="top.happybean" href="https://happybean.naver.com"><i class="ico_happybin"></i><span class="blind">해피빈</span></a>
</div>


### 6. 텍스트만 추출하기

* '네이버를 시작페이지로"라는 글자 추출
    - class가 service_area인 div를 추출하여 result에 저장
    - result.find("a") 명령어를 통해서 첫 번째에 나오는 a 태그를 찾은 후 a_result에 저장
    - a_result.text를 통해서 a 태그 안에 있는 text만 추출
    

* `<a>` 태그와 id 활용

In [6]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

url = "https://www.naver.com"
html = urlopen(url)

soup = BeautifulSoup(html.read(), "html.parser")

result = soup.find("a", {"id" : "NM_set_home_btn"})
print(result.text)

네이버를 시작페이지로


## 네이버 메뉴 이름 뽑아내기

* 네이버 첫 페이지에서 메뉴에 있는 '메일', '카페', '블로그' 등의 글자 추출하기

### 1. 개발자도구 열기 (필요한 부분만 가져오기)


* 데이터를 뽑으려는 부분으로 마우스를 옮기면 마우스를 올린 곳에 해당하는 영역의 색이 바뀜


* `<ul class = "list_nav type_fix"> ... </ul>` : 우리가 원하는 메뉴 이름이 들어있는 부분
    - 이 태그는 `<ul> </ul>` 이라는 태그이고, class는 `list_nav type_fix`
    - `<ul>` 태그와 클래스로 추출할 것: ▶ 버튼 눌러서 안에 무엇이 있는지 열어보기
    - `<ul> ... </ul>` 안에 여러 개의 `<li> ... </li>` 태그가 들어있음


* 다른 글자도 비슷한 구조로 들어있는데, BeautifulSoup 라이브러리를 이용해 단계적으로 접근해서 필요한 글자만 뽑음

In [1]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

url = "https://www.naver.com"
html = urlopen(url)

soup = BeautifulSoup(html.read(), "html.parser")

# 첫 줄이 <ul class="list_nav type_fix">로 시작
# ul 태그인데, class가 "list nav type_fix" 인 ul을 전체 문서에서 찾기
result = soup.find("ul", {"class":"list_nav type_fix"})
print(result)

<ul class="list_nav type_fix">
<li class="nav_item">
<a class="nav" data-clk="svc.mail" href="https://mail.naver.com/"><i class="ico_mail"></i>메일</a>
</li>
<li class="nav_item"><a class="nav" data-clk="svc.cafe" href="https://section.cafe.naver.com/">카페</a></li>
<li class="nav_item"><a class="nav" data-clk="svc.blog" href="https://section.blog.naver.com/">블로그</a></li>
<li class="nav_item"><a class="nav" data-clk="svc.kin" href="https://kin.naver.com/">지식iN</a></li>
<li class="nav_item"><a class="nav shop" data-clk="svc.shopping" href="https://shopping.naver.com/"><span class="blind">쇼핑</span></a></li>
<li class="nav_item"><a class="nav shoplive" data-clk="svc.shoppinglive" href="https://shoppinglive.naver.com/home"><span class="blind">쇼핑LIVE</span></a></li>
<li class="nav_item"><a class="nav" data-clk="svc.pay" href="https://order.pay.naver.com/home">Pay</a></li>
<li class="nav_item">
<a class="nav" data-clk="svc.tvcast" href="https://tv.naver.com/"><i class="ico_tv"></i>TV</a>
</li>
<

### 2. find_all()을 이용하여 li만 뽑아내기


* `find_all()`은 조건에 해당하는 모든 것들을 리스트 안으로 추출해주는 함수

In [5]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

url = "https://www.naver.com"
html = urlopen(url)

soup = BeautifulSoup(html.read(), "html.parser")

result = soup.find("ul", {"class":"list_nav type_fix"})
li_result = result.find_all("li")
print(li_result)

[<li class="nav_item">
<a class="nav" data-clk="svc.mail" href="https://mail.naver.com/"><i class="ico_mail"></i>메일</a>
</li>, <li class="nav_item"><a class="nav" data-clk="svc.cafe" href="https://section.cafe.naver.com/">카페</a></li>, <li class="nav_item"><a class="nav" data-clk="svc.blog" href="https://section.blog.naver.com/">블로그</a></li>, <li class="nav_item"><a class="nav" data-clk="svc.kin" href="https://kin.naver.com/">지식iN</a></li>, <li class="nav_item"><a class="nav shop" data-clk="svc.shopping" href="https://shopping.naver.com/"><span class="blind">쇼핑</span></a></li>, <li class="nav_item"><a class="nav shoplive" data-clk="svc.shoppinglive" href="https://shoppinglive.naver.com/home"><span class="blind">쇼핑LIVE</span></a></li>, <li class="nav_item"><a class="nav" data-clk="svc.pay" href="https://order.pay.naver.com/home">Pay</a></li>, <li class="nav_item">
<a class="nav" data-clk="svc.tvcast" href="https://tv.naver.com/"><i class="ico_tv"></i>TV</a>
</li>]


### 3. 리스트 값 하나씩 접근하기


* li 하나씩 꺼내서 출력하기: 리스트 출력 / 결과가 `[`가 아닌 `<li>`로 시작

In [6]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

url = "https://www.naver.com"
html = urlopen(url)

soup = BeautifulSoup(html.read(), "html.parser")

result = soup.find("ul", {"class":"list_nav type_fix"})
li_result = result.find_all("li")

for li_res in li_result:
    print(li_res)

<li class="nav_item">
<a class="nav" data-clk="svc.mail" href="https://mail.naver.com/"><i class="ico_mail"></i>메일</a>
</li>
<li class="nav_item"><a class="nav" data-clk="svc.cafe" href="https://section.cafe.naver.com/">카페</a></li>
<li class="nav_item"><a class="nav" data-clk="svc.blog" href="https://section.blog.naver.com/">블로그</a></li>
<li class="nav_item"><a class="nav" data-clk="svc.kin" href="https://kin.naver.com/">지식iN</a></li>
<li class="nav_item"><a class="nav shop" data-clk="svc.shopping" href="https://shopping.naver.com/"><span class="blind">쇼핑</span></a></li>
<li class="nav_item"><a class="nav shoplive" data-clk="svc.shoppinglive" href="https://shoppinglive.naver.com/home"><span class="blind">쇼핑LIVE</span></a></li>
<li class="nav_item"><a class="nav" data-clk="svc.pay" href="https://order.pay.naver.com/home">Pay</a></li>
<li class="nav_item">
<a class="nav" data-clk="svc.tvcast" href="https://tv.naver.com/"><i class="ico_tv"></i>TV</a>
</li>


* a 태그 뽑아내기
    - 각 `<li>` 태그 안에 있는 `<a>` 태그 뽑기
    - `<li>`가 아닌 `<a>`로 시작

In [7]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

url = "https://www.naver.com"
html = urlopen(url)

soup = BeautifulSoup(html.read(), "html.parser")

result = soup.find("ul", {"class":"list_nav type_fix"})
li_result = result.find_all("li")

for li_res in li_result:
    a_li_result = li_res.find("a")
    print(a_li_result)

<a class="nav" data-clk="svc.mail" href="https://mail.naver.com/"><i class="ico_mail"></i>메일</a>
<a class="nav" data-clk="svc.cafe" href="https://section.cafe.naver.com/">카페</a>
<a class="nav" data-clk="svc.blog" href="https://section.blog.naver.com/">블로그</a>
<a class="nav" data-clk="svc.kin" href="https://kin.naver.com/">지식iN</a>
<a class="nav shop" data-clk="svc.shopping" href="https://shopping.naver.com/"><span class="blind">쇼핑</span></a>
<a class="nav shoplive" data-clk="svc.shoppinglive" href="https://shoppinglive.naver.com/home"><span class="blind">쇼핑LIVE</span></a>
<a class="nav" data-clk="svc.pay" href="https://order.pay.naver.com/home">Pay</a>
<a class="nav" data-clk="svc.tvcast" href="https://tv.naver.com/"><i class="ico_tv"></i>TV</a>


### 4. Text 뽑아내기


* 태그가 섞인 결과가 아닌 순수 텍스트만 추출 (.text 이용)

In [8]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

url = "https://www.naver.com"
html = urlopen(url)

soup = BeautifulSoup(html.read(), "html.parser")

result = soup.find("ul", {"class":"list_nav type_fix"})
li_result = result.find_all("li")

for li_res in li_result:
    a_li_result = li_res.find("a")
    print(a_li_result.text)

메일
카페
블로그
지식iN
쇼핑
쇼핑LIVE
Pay
TV
