## 사용된 웹 기술을 확인하는 builtwith

In [1]:
# builtwith가 깔려있지 않은 경우
!pip install builtwith



In [2]:
import builtwith

builtwith.parse("http://www.google.com")

{'web-servers': ['Google Web Server']}

In [3]:
builtwith.parse("http://www.naver.com")

{}

In [4]:
builtwith.parse("http://www.wordpress.com")

{'blogs': ['PHP', 'WordPress'],
 'cms': ['WordPress'],
 'ecommerce': ['WooCommerce'],
 'font-scripts': ['Google Font API'],
 'programming-languages': ['PHP'],
 'web-servers': ['Nginx']}

In [5]:
builtwith.parse("http://www.daum.net")

{}

응답을 안 하면 서버에 대한 내용을 말하지 않으므로 보안유지를 할 수 있기는 하다. 그러나 그것을 이용하는 사람들은 그 정보를 알 길이 없다.

---

## 웹 사이트의 소유자를 확인하는 whois

In [6]:
# whois가 깔려있지 않은 경우
!pip install python-whois



In [7]:
import whois
print(whois.whois("naver.com"))

{
  "domain_name": [
    "NAVER.COM",
    "naver.com"
  ],
  "registrar": "Gabia, Inc.",
  "whois_server": "whois.gabia.com",
  "referral_url": null,
  "updated_date": [
    "2016-08-05 06:37:57",
    "2018-02-28 11:27:15"
  ],
  "creation_date": [
    "1997-09-12 04:00:00",
    "1997-09-12 00:00:00"
  ],
  "expiration_date": [
    "2023-09-11 04:00:00",
    "2023-09-11 00:00:00"
  ],
  "name_servers": [
    "NS1.NAVER.COM",
    "NS2.NAVER.COM",
    "ns1.naver.com",
    "ns2.naver.com"
  ],
  "status": [
    "clientDeleteProhibited https://icann.org/epp#clientDeleteProhibited",
    "clientTransferProhibited https://icann.org/epp#clientTransferProhibited",
    "clientUpdateProhibited https://icann.org/epp#clientUpdateProhibited",
    "ok https://icann.org/epp#ok"
  ],
  "emails": [
    "white.4818@navercorp.com",
    "dl_ssl@navercorp.com",
    "abuse@gabia.com"
  ],
  "dnssec": "unsigned",
  "name": "NAVER Corp.",
  "org": "NAVER Corp.",
  "address": "6 Buljung-ro, Bundang-gu, Seongnam

In [9]:
print(whois.whois("http://www.uos.ac.kr/"))

{
  "domain_name": "uos.ac.kr",
  "registrant_org": "UNIVERSITY OF SEOUL",
  "registrant_address": "Dongdaemun-gu,Seoul, 163 Seoulsiripdae-ro Dongdaemun-gu, Seoul, KR",
  "registrant_zip": "02504",
  "admin_name": "University of Seoul",
  "admin_email": "ygw@seoul.go.kr",
  "admin_phone": "02-6490-6613",
  "creation_date": "1998-05-15 00:00:00",
  "updated_date": "2018-01-02 00:00:00",
  "expiration_date": "2018-10-15 00:00:00",
  "registrar": "Inames Co., Ltd.(http://www.inames.co.kr)",
  "name_servers": [
    "ns1.uos.ac.kr",
    "ns2.uos.ac.kr"
  ]
}


---

## urllib _ HTTP Error에도 불구하고 크롤링하는 방법

In [18]:
from urllib.request import urlopen

In [22]:
req = urlopen("http://python.org")
#req.read() # byte 타입이다. byte 타입을 디코딩해야 한다.

In [23]:
# byte 타입의 디코딩

text = req.read().decode("utf-8")
text



In [25]:
# 구글에서 검색 키워드를 입력한 후 urlopen 하면 로봇이 정상적이지 않은 search를 한 것으로 간주하여 에러를 발생시킨다.

resp = urlopen("https://www.google.co.kr/search?q=%EA%B2%80%EC%83%89&oq=rjator&aqs=chrome.1.69i57j0l5.3052j0j8&sourceid=chrome&ie=UTF-8") # google을 byte 타입으로 받아옴
resp.read().decode('utf-8')

HTTPError: HTTP Error 403: Forbidden

In [26]:
from urllib.error import HTTPError

try :
    urlopen("https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%ED%95%9C%EA%B8%80")
except HTTPError as e :
    print(e.code, e.read, e.headers)

403 <function HTTPResponse.read at 0x10ac1f6a8> Date: Mon, 16 Jul 2018 04:27:31 GMT
Content-Type: text/html; charset=UTF-8
Transfer-Encoding: chunked
Connection: close
Vary: Accept-Encoding
Set-Cookie: page_uid=T0wPVwpySENssagBz2Zssssstvd-126884; path=/; domain=.naver.com
Set-Cookie: _naver_usersession_=rpJG7B/r2LW1bhOvMjfdfw==; path=/; expires=Mon, 16-Jul-18 04:32:31 GMT; domain=.naver.com
X-Frame-Options: SAMEORIGIN
X-XSS-Protection: 1; report=/p/er/post/xss
Cache-Control: no-cache, no-store, must-revalidate, max-age=0
Pragma: no-cache
Vary: Accept-Encoding




4XX Client Errors
- This class of status code is intended for situations in which the error seems to have been caused by the client

In [198]:
from urllib.request import Request
from urllib.error import HTTPError

def download(url, agent = "python bot", num_retries = 2) :
    headers = {'User-agent' : agent}
    req = Request(url, headers = headers) # Request 객체 , data와 header 정보를 받는다.
    
    try :
        resp = urlopen(req) # url이 string이어도 되고 Request 객체여도 된다.
    except HTTPError as e :
        resp = None
        print(e.code, e.read, e.headers)

        if 500 <= e.code < 600 and num_retries > 0 :
            return download(url, num_retries = num_retries - 1) # 재귀적 호출로 num_retries 회수를 관리한다.
    return resp

In [40]:
html = download('http://httpstat.us/500') # 500대 에러를 내는 사이트

500 <function HTTPResponse.read at 0x10af87f28> Cache-Control: private
Server: Microsoft-IIS/10.0
X-AspNetMvc-Version: 5.1
Access-Control-Allow-Origin: *
X-AspNet-Version: 4.0.30319
X-Powered-By: ASP.NET
Set-Cookie: ARRAffinity=8d9742d8920fc8f87dbfb6e900a1f176e365d58296d2c5e44961e07bf1b65817;Path=/;HttpOnly;Domain=httpstat.us
Date: Mon, 16 Jul 2018 04:44:48 GMT
Connection: close
Content-Length: 0


500 <function HTTPResponse.read at 0x10b72c8c8> Cache-Control: private
Server: Microsoft-IIS/10.0
X-AspNetMvc-Version: 5.1
Access-Control-Allow-Origin: *
X-AspNet-Version: 4.0.30319
X-Powered-By: ASP.NET
Set-Cookie: ARRAffinity=8d9742d8920fc8f87dbfb6e900a1f176e365d58296d2c5e44961e07bf1b65817;Path=/;HttpOnly;Domain=httpstat.us
Date: Mon, 16 Jul 2018 04:44:48 GMT
Connection: close
Content-Length: 0


500 <function HTTPResponse.read at 0x10b72cae8> Cache-Control: private
Server: Microsoft-IIS/10.0
X-AspNetMvc-Version: 5.1
Access-Control-Allow-Origin: *
X-AspNet-Version: 4.0.30319
X-Powered-By: 

5XX대 에러가 발생할 경우, 해당 서버의 user-agent를 사용하면 뚫을 수 있다.

해당 사이트의 개발자 모드에서 <u> [Network] > [새로고침] > [Name에서 제일 위의 항목] > [user-agent 의 값] </u>을 가져와서 자신의 agent인 것처럼 사용하면 된다. 즉, 서버의 robot.txt에서 disallow를 한 항목들도 해당 서버의 user-agent를 이용하면 모두 접근할 수 있다.

In [43]:
# 개발자 모드에서 가져온 user-agent를 이용해서 접속을 시도

agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
html = download("https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%ED%95%9C%EA%B8%80", agent)

In [44]:
html.read().decode('utf-8')

'<!doctype html> <html lang="ko"> <head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=2.0"> <meta property="og:title" content="한글 : 네이버 통합검색"/> <meta property="og:image" content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png"> <meta property="og:description" content="\'한글\'의 네이버 통합검색 결과입니다."> <meta name="description" lang="ko" content="\'한글\'의 네이버 통합검색 결과입니다."> <title>한글 : 네이버 통합검색</title> <link rel="shortcut icon" href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_140327.ico">  <link rel="search" type="application/opensearchdescription+xml" href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" title="Naver" /><link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/sstatic/search/pc/css/search1_180712.css"> <link rel="stylesheet" type="text/css" href="https

---

## Requests

In [197]:
import requests

def download(url, agent = "python bot", num_retries = 2) :
    headers = {'User-agent' : agent}
    resp = requests.request("get", url, headers = headers) # get 방식인지 post 방식인지를 써준다.
    # Requests에서는 보내는 순간 resp를 받을 수 있다.
    
    if 500 <= resp.status_code < 600 and num_retries > 0 : # request에서 에러를 다루는 코드(?)
        print(resp.status_code, resp.reason)
        return download(url, num_retries = num_retries -1)
    
    return resp

get 방식 / post 방식 정리할 것. (녹음파일 3분 정도 쯤 들을 것)
- post 방식은 작업할 것이 많을 때....?
회원가입 같이 폼으로 정형화 되어있고 중요하며 서버에서 처리하는 것은 post 방식으로 넘긴다. 

In [48]:
# 개발자 모드에서 가져온 user-agent를 이용해서 접속을 시도

agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
html = download("https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%ED%95%9C%EA%B8%80", agent)

In [49]:
html.text 

'<!doctype html> <html lang="ko"> <head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=2.0"> <meta property="og:title" content="한글 : 네이버 통합검색"/> <meta property="og:image" content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png"> <meta property="og:description" content="\'한글\'의 네이버 통합검색 결과입니다."> <meta name="description" lang="ko" content="\'한글\'의 네이버 통합검색 결과입니다."> <title>한글 : 네이버 통합검색</title> <link rel="shortcut icon" href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_140327.ico">  <link rel="search" type="application/opensearchdescription+xml" href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" title="Naver" /><link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/sstatic/search/pc/css/search1_180712.css"> <link rel="stylesheet" type="text/css" href="https

request를 이용한 방식은 이미 str 타입으로 가져오기 때문에 utf-8로 디코딩할 필요가 없다. 문제는 웹 사이트가 인코딩 된 방식(한글 문제) 등에 따라서 깨질 수도 있다. 몇 줄 차이는 나이 않아도 request를 이용한 방식이 좀 더 편하다.

---

한글은 유니코드이므로 인코딩, 디코딩에 유의해야 한다.

In [50]:
from urllib import parse

In [51]:
# 웹에서는 byte 타입으로 한글을 다루어야 하는데, 아래와 같이 바꿀 수 있다.
parse.quote("한글")

'%ED%95%9C%EA%B8%80'

https://search.naver.com/search.naver?sm=tab_hty.top&where=nexearch&query=%ED%95%9C%EA%B8%80&oquery=%ED%81%AC%EB%A1%AC+%EA%B0%9C%EB%B0%9C%EC%9E%90%EB%8F%84%EA%B5%AC+user-agent&tqi=T0wDYwpySENssad5A30ssssssE4-270781

위의 url을 보면 "한글" 이라고 써있어야 하는 query 부분은 바이트 타입으로 바뀌어 있음을 알 수 있다. 

이럴 경우 <u>"http:// URL 앞부분 " + parse.quote("한글") + "URL 뒷부분"</u> 이런 식으로 처리할 수 있다.

In [52]:
# json을 이용하여 더욱 편하게 처리하기
# 녹음파일 19:20 쯤

import json

In [53]:
params = {"where" : "nexearch",
         "sm" : "top_hty",
         "fbm" : 1,
         "ie" : "utf8",
         "query" : parse.quote("고려대")}
params

{'fbm': 1,
 'ie': 'utf8',
 'query': '%EA%B3%A0%EB%A0%A4%EB%8C%80',
 'sm': 'top_hty',
 'where': 'nexearch'}

In [54]:
jsonParams = json.dumps(params)
jsonParams

'{"where": "nexearch", "sm": "top_hty", "fbm": 1, "ie": "utf8", "query": "%EA%B3%A0%EB%A0%A4%EB%8C%80"}'

In [62]:
# 함수 재정의 => post 방식과 json 데이터를 활용 (녹음파일 26분 쯤)

def download_json(url, agent = "python bot", num_retries = 2) :
    headers = {'User-agent' : agent}
    resp = requests.request("post", url, headers = headers, json = jsonParams) # get 방식인지 post 방식인지를 써준다.
    # Requests에서는 보내는 순간 resp를 받을 수 있다.
    
    if 500 <= resp.status_code < 600 and num_retries > 0 : # request에서 에러를 다루는 코드(?)
        print(resp.status_code, resp.reason)
        return download(url, num_retries = num_retries -1)
    
    return resp

In [63]:
html = download_json("http://httpbin.org/post")
html.text

'{"args":{},"data":"\\"{\\\\\\"where\\\\\\": \\\\\\"nexearch\\\\\\", \\\\\\"sm\\\\\\": \\\\\\"top_hty\\\\\\", \\\\\\"fbm\\\\\\": 1, \\\\\\"ie\\\\\\": \\\\\\"utf8\\\\\\", \\\\\\"query\\\\\\": \\\\\\"%EA%B3%A0%EB%A0%A4%EB%8C%80\\\\\\"}\\"","files":{},"form":{},"headers":{"Accept":"*/*","Accept-Encoding":"gzip, deflate","Connection":"close","Content-Length":"122","Content-Type":"application/json","Host":"httpbin.org","User-Agent":"python bot"},"json":"{\\"where\\": \\"nexearch\\", \\"sm\\": \\"top_hty\\", \\"fbm\\": 1, \\"ie\\": \\"utf8\\", \\"query\\": \\"%EA%B3%A0%EB%A0%A4%EB%8C%80\\"}","origin":"163.152.3.134","url":"http://httpbin.org/post"}\n'

In [71]:
# 함수 재정의 => get 방식 이용 (녹음파일 27분 쯤)


def download_get(url, agent = "python bot", num_retries = 2) :
    headers = {'User-agent' : agent}
    resp = requests.get(url, headers = headers) # get 방식에서는 파라미터를 넘기는 것이 아니므로 json 필요 없다.
    # Requests에서는 보내는 순간 resp를 받을 수 있다.
    
    if 500 <= resp.status_code < 600 and num_retries > 0 : # request에서 에러를 다루는 코드(?)
        print(resp.status_code, resp.reason)
        return download(url, num_retries = num_retries -1)
    
    return resp

In [72]:
# 개발자 모드에서 가져온 user-agent를 이용해서 접속을 시도 ..... 내용 놓침 => 에러발생

agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
html = download_get("https://www.google.co.kr/search?")
html.text

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="ewm0WvDP4KV6nS7Ei9FgiQ==">(function(){window.google={kEI:\'sS9MW_naL4Gy0ATL0JTIBw\',kEXPI:\'0,1353747,57,884,1074,1017,38,243,336,158,216,387,1154,93,5,607,51,136,135,127,2339597,248,179,32,329294,1294,12383,2349,2506,32692,15247,861,1586,7,5105,5471,14329,2192,367,550,664,326,1776,113,2201,3191,726,5,1705,136,130,1028,3803,2,14,260,444,131,1119,2,579,727,310,2122,1361,1712,1376,505,730,377,1240,479,609,685,8,1569,223,490,562,731,1022,277,2,2825,279,158,321,477,401,392,133,626,2,153,506,1641,193,3,931,400,29,272,141,473,283,509,1587,214,82,447,91,806,36,2,830,11,43,18,7,10,162,334,123,7,1119,120,105,386,8,806,300,7,6,463,620,29,53,407,245,2,187,4,4,4,4,101,384,451,7,63,215,303,50,215,628,76,328,40,28,299,6

## Crowling

In [73]:
!pip install beautifulsoup4



In [74]:
from bs4 import BeautifulSoup

In [87]:
html = """
    <html>
        <head></head>
        <body>
            <div id="wrap">
                <p class = "content">
                    <a href = "#">link</a>
                </p>
            </div>
        </body>
    </html>
"""

In [88]:
# html이 굉장히 잘 열려있고 닫혀있는 태그를 사용했으므로 빠른 방식인 lxml으로 처리한다.
doc = BeautifulSoup(html, "lxml") 

In [89]:
doc.contents

[<html>
 <head></head>
 <body>
 <div id="wrap">
 <p class="content">
 <a href="#">link</a>
 </p>
 </div>
 </body>
 </html>, '\n']

In [90]:
doc.div

<div id="wrap">
<p class="content">
<a href="#">link</a>
</p>
</div>

In [91]:
doc.p

<p class="content">
<a href="#">link</a>
</p>

In [92]:
doc.a

<a href="#">link</a>

In [93]:
doc.a["href"]

'#'

크롤러로 무언가를 관리하려면 내부주소와 외부주소를 알아야 한다...(?)

In [98]:
print(doc.div["id"])
print(doc.p["class"])

wrap
['content']


In [123]:
# 위에서 만든 get 방식의 다운로드 함수

def download_get(url, agent = "python bot", num_retries = 2) :
    headers = {'User-agent' : agent}
    resp = requests.get(url, headers = headers) # get 방식에서는 파라미터를 넘기는 것이 아니므로 json 필요 없다.
    # Requests에서는 보내는 순간 resp를 받을 수 있다.
    
    if 500 <= resp.status_code < 600 and num_retries > 0 : # request에서 에러를 다루는 코드(?)
        print(resp.status_code, resp.reason)
        return download(url, num_retries = num_retries -1)
    
    return resp

In [124]:
params = {"q" : parse.quote("고려대")}
url = "http://www.ppomppu.co.kr/"

In [125]:
# 개발자 모드에서 가져온 user-agent를 이용해서 접속을 시도 ..

agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
html = download_get(url, agent = agent)

In [150]:
html.text

'\x1f�\x08\x00\x00\x00\x00\x00\x00\x03蔗k{\x13G�\x00�9<O�C�]b낢������%룀褓쬔沸r|��Ⅱ� i���櫛f\x7f혔�\t�M\x08f�$kt�\x19開8Y�\x06�B \x04\x12/`X�\x0e�\x17�!p�략gt�K�0l��H3不不U�U亮�{�\x1fx{���~�e4芽��;�듸�鱗#U�Z�[�~딪웩\x03�w�\x1dz�\r�m��Cv鞨09M��2フ/엠B�!㎿�K�\x1e\x19\x19i\x19祈0�A椒_��\x01,-TV>6;�j�\x18�FU灸=�\x06��)#��B;)\x04��禑\x0f��vヶ3V\'mu6\x1f\x1a둘*d��u���1�\x1aゎF�!嵌��泌가��]�旽�\x1c4�M랒錦��R\x0e芷\x14\x0c葉��\x0b쭌p\x14⅛삥�膊��극(㎥��^拯��i� �J途R\x16�[E\r;�\x18{Z�w�y濩w駟/����БFZ�5�jZ咸_�楹\n\x1e�GG\x18뿌�V\n�彎m櫃連��GM����;�\n���科n#}�d����&d꿎ħ勁\x0e\x03e┿1e4!\x0b~f\x19땄?\x1av�v��쭙�\x1e�\x1dM�I�\x07ig��\x06b\x185�L\t쟨#�_s3�\x17��誥�h�s�[�\x0c�2Y㉰t芯�����k\x1bn10-G�jR鬼6��}�哭㎿h�5���\x16�u�4�\x0f:�\r�\x07(훈cjN3�;3I`��\x07\x08\nx㎀i�{�:jF���5a\x06�b$���g�Js�I칼�Q鉀`\x06��M�#h�N\x0ft7(�\x1a��\x1d-�\x0c3h�)����f\x01\x1a{i���黔�o1N延���\x1a��6w78�0\x1dC4�l@鈞��\x04U6�\x10��m@YUがJ.�F정\x13�|h킁邏f\x0bt�h7Fk㏄CＳv�8�0捌f�F\x08�\x1e6\r��_積�&�,�\x02C�~��\x1aM\x03�2m*l#���XNo\n룽\x1c2\x19��3��\x1fp�zM�떨E�%\n+�:�?�3�斧6��\x0f�k�0�;₄>��\x1e3FKRtⅥ�%��0�D�E

In [117]:
html.encoding

'euc-kr'

In [118]:
type(html.content)

bytes

In [192]:
html.decode('utf-8') # 에러가 발생한다. 

AttributeError: 'Response' object has no attribute 'decode'

에러가 발생하는데, 제일 처음에 만들었던 함수를 다시 이용해보자.

In [214]:
from urllib.request import Request
from urllib.error import HTTPError

def download(url, agent = "python bot", num_retries = 2) :
    headers = {'User-agent' : agent}
    req = Request(url, headers = headers) # Request 객체 , data와 header 정보를 받는다.
    
    try :
        resp = urlopen(req) # url이 string이어도 되고 Request 객체여도 된다.
    except HTTPError as e :
        resp = None
        print(e.code, e.read, e.headers)

        if 500 <= e.code < 600 and num_retries > 0 :
            return download(url, num_retries = num_retries - 1) # 재귀적 호출로 num_retries 회수를 관리한다.
    return resp

In [238]:
# 개발자 모드에서 가져온 user-agent를 이용해서 접속을 시도

agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
html1 = download(url, agent = agent)

In [239]:
html2 = html1.read().decode('euc-kr', 'ignore').encode('utf-8')

In [240]:
html_decoded = html2.decode("utf-8")

In [241]:
text = BeautifulSoup(html_decoded, 'lxml')

In [242]:
text.a

<a class="tab" rel="#tab1-contents">단축키</a>

In [244]:
aList = text.find_all("a")

In [245]:
for row in aList :
    print(row.attrs)

{'rel': ['#tab1-contents'], 'class': ['tab']}
{'rel': ['#tab2-contents'], 'class': ['tab']}
{'href': 'http://www.ppomppu.co.kr/zboard/zboard.php?id=ppomppu'}
{'href': 'http://www.ppomppu.co.kr/zboard/zboard.php?id=event'}
{'href': 'http://www.ppomppu.co.kr/zboard/zboard.php?id=buy'}
{'href': 'http://www.ppomppu.co.kr/zboard/zboard.php?id=help'}
{'href': 'http://www.ppomppu.co.kr/zboard/zboard.php?id=freeboard'}
{'href': 'http://www.ppomppu.co.kr/zboard/zboard.php?id=etc_info'}
{'href': 'http://www.ppomppu.co.kr/zboard/zboard.php?id=free_picture'}
{'href': 'http://www.ppomppu.co.kr/zboard/zboard.php?id=news2'}
{'href': 'http://www.ppomppu.co.kr/zboard/zboard.php?id=review'}
{'href': 'http://www.ppomppu.co.kr/recent_main_article.php?type=market'}
{'href': 'http://www.ppomppu.co.kr/myinfo/env.php?cmd=env', 'target': '_blank'}
{'href': 'http://www.ppomppu.co.kr/myinfo/member_bookmark.php', 'target': '_blank'}
{'href': 'http://www.ppomppu.co.kr/index.php', 'class': ['logo']}
{'href': 'http:

---

## 실습 _ p.41

In [247]:
prac_html01 = requests.get("http://www.pythonscraping.com/pages/")
prac_doc01 =  BeautifulSoup(prac_html01.text, "lxml")

prac_div01 = prac_doc01.find("div", id="text")
print(prac_div01.get_text())

tagList = prac_doc01.find_all("span", class_="green")
print(len(tagList))

for tag in tagList:
    print(tag.get_text())

tagList = prac_doc01.find_all("span", {"class" : "green"})
print(len(tagList))

for tag in tagList:
    print(tag.get_text())

AttributeError: 'NoneType' object has no attribute 'get_text'

In [252]:
print(prac_doc01.find("div"))

<div id="skip-link">
<a class="element-invisible element-focusable" href="#main-content">Skip to main content</a>
</div>
