# 2장 파이썬으로 시작하는 크롤링/스크레이핑

## 2.4 웹 페이지 추출하기

In [7]:
from urllib.request import urlopen
f = urlopen('http://hanbit.co.kr')

#urlopen() 함수는 HTTPResponse 자료형의 객체를 반환
#이 객체는 파일 객체이므로 open() 함수로 반환되는 파일 객체처럼 다루면 됨
print(type(f))


#HTTP 연결은 자동으로 닫히므로 따로 close() 함수를 호출하지 않아도 됨
# print(f.read())
print(f.status) #상태 코드 추출

<class 'http.client.HTTPResponse'>
200
text/html; charset=UTF-8


### 2.4.2 문자 코드 다루기

**HTTP 헤더에서 인코딩 방식 추출하기**

In [19]:
#read() 메서드로 HTTP 응답 본문(bytes 자료형)을 추출
print("f.read의 타입: ", type(f.read()))

#HTTPResponse.read() 메서드로 추출할 수 있는 응답 본문의 값은 bytes 자료형이므로 문자열로 다루려면 문자 코드를 지정해서 디코딩해야 함
#HTTP 헤더를 참조해서 적절한 인코딩 방식으로 디코딩 필요
print(f.getheader('Content-Type')) #HTTP 헤더의 값을 추출
print()


#===========================================
#인코딩 방슥 추출 + 디코딩
#===========================================
import sys
from urllib.request import urlopen
f = urlopen('http://www.hanbit.co.kr/store/books/full_book_list.html')

#HTTP 헤더를 기반으로 인코딩 방식 추출
encoding = f.info().get_content_charset(failobj='utf-8') #명시되어 있지 않을 경우, utf-8 사용
#인코딩 방식을 표준 오류에 출력
print('encoding: ', encoding, file=sys.stderr) 

#추출한 인코딩 방식으로 디코딩
text = f.read().decode(encoding)

f.read의 타입:  <class 'bytes'>
text/html; charset=UTF-8



encoding:  utf-8


**meta 태그에서 인코딩 방식 추출하기**

In [25]:
import re
import sys
from urllib.request import urlopen

f = urlopen('http://www.hanbit.co.kr/store/books/full_book_list.html')
bytes_content = f.read() #bytes 자료형의 응답 본문을 일단 변수에 저장

#charset은 HTML의 앞부분에 적혀 있는 경우가 많으므로
#응답 본문의 앞부분 1024바이트를 ASCII 문자로 디코딩해 둔다
#ASCII 범위 이외의 문자는 U+FFFD(REPLACEMENT CHARACTER)로 변환되어 예외가 발생하지 않는다
scanned_text = bytes_content[:1024].decode('ascii', errors='replace')

#디코딩한 문자열에서 정규 표현식으로 charset 값을 추출한다
match = re.search(r'charset=["\']?([\w-]+)', scanned_text)
if match:
    encoding = match.group(1)
else:
    #charset이 명시되어 있지 않으면 UTF-8 사용
    encoding = 'utf-8'
    
#추출한 인코딩을 표준 오류에 출력
print('encoding: ', encoding, file=sys.stderr)

#추출한 인코딩으로 다시 디코딩
text = bytes_content.decode(encoding)
# print(text)

encoding:  utf-8


## 2.5 웹페이지에서 데이터 추출하기

* 정규 표현식: HTML을 단순한 문자열로 취급하고, 필요한 부분 추출

* XML Parser: XTML 태그를 분석하고, 필요한 부분 추출 / HTML을 바로 넣어서 분석할 수는 없음

### 2.5.1 정규 표현식으로 스크레이핑하기

In [28]:
import re

#re.search() 함수를 사용하면 두 번째 매개변수의 문자열이 첫 번째 매개변수의 정규 표현식에 맞는지 확인할 수 있음
#맞는 경우 Match 객체를 반환 / 맞지 않으면 None을 반환
re.search(r'a.*c', 'abc123DEF')

<re.Match object; span=(0, 3), match='abc'>

In [30]:
#정규 표현식에 맞지 않으므로 None 반환
re.search(r'a.*d', 'abc123DEF')

In [31]:
#세 번째 매개변수로 옵션 지정
re.search(r'a.*d', 'abc123DEF', re.IGNORECASE) #대소문자 무시

<re.Match object; span=(0, 7), match='abc123D'>

In [35]:
#Match 객체의 group() 메서드로 일치한 값을 추출
#매개변수에 0을 지정하면 매치된 모든 값을 반환
#매개변수에 1 이상의 숫자를 지정하면 정규 표현식에서 ()로 감싼 부분에 해당하는 값을 추출
#1: 1번째 그룹, 2: 2번째 그룹
m = re.search(r'a(.*)c', 'abc123DEFF')
print(m.group(0))
print(m.group(1))

abc
b


In [37]:
#re.findall() 함수를 사용하면 정규 표현식에 맞는 모든 부분을 추출할 수 있음
#\w: 유니코드로 글자 비교
#\s: 공백 문자 추출
re.findall(r'\w{2,}', 'This is a pen') #2글자 이상의 단어를 모두 추출

['This', 'is', 'pen']

In [38]:
#re.sub() 함수 사용하면 정규 표현식에 맞는 부분을 바꿀 수 있음
re.sub(r'\w{2,}', 'That', 'This is a pen')

'That That a That'

In [47]:
import re
from html import unescape

html = text

#re.findall()을 사용해 도서 하나에 해당하는 HTML 추출
for partial_html in re.findall(r'<td class="left"><a.*?</td>', html, re.DOTALL):
    #도서의 url 추출
    url = re.search(r'<a href="(.*?)">', partial_html).group(1)
    url = 'http://www.hanbit.co.kr' + url
    #태그를 제거해서 도서의 제목 추출
    title = re.sub(r'<.*?>', '', partial_html)
    title = unescape(title)
    print('url:', url)
    print('title:', title)
    print('---')
    break

url: http://www.hanbit.co.kr/store/books/look.php?p_code=B7126889829
title: 핸즈온 비지도 학습
---


### 2.5.2 XML(RSS) 스크레이핑

In [51]:
#ElementTree모듈 읽어들이기
from xml.etree import ElementTree

#parse() 함수로 파일을 읽어 들이고 ElementTree 객체를 만듦
tree = ElementTree.parse('rss.xml')

#getroot() 메서드로 XML의 루트 요소를 추출
root = tree.getroot()

#findall() 메서드로 요소 목록을 추출
#태그 찾기
for item in root.findall('channel/item/description/body/location/data'):
    #find() 메서드로 요소를 찾고 text 속성으로 값 추출
    tm_df = item.find('tmEf').text
    tmn = item.find('tmn').text
    tmx = item.find('tmx').text
    wf = item.find('wf').text
    
# http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109

OSError: [Errno 22] Invalid argument: 'http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109'

## 2.6 데이터 저장하기

### 2.6.2 JSON 형식으로 저장히기

In [54]:
import json

cities = [
    {'rank':1, 'city':'상하이', 'population':24150000},
    {'rank':2, 'city':'카라치', 'population':23500000},
    {'rank':3, 'city':'베이징', 'population':21516000},
    {'rank':4, 'city':'텐진', 'population':14722100},
    {'rank':5, 'city':'이스탄불', 'population':14160467},
]

print(json.dumps(cities))
print(json.dumps(cities, ensure_ascii=False, indent=2))

#파일에 저장
with open('top_cities.json', 'w') as f:
    json.dump(cities, f)

[{"rank": 1, "city": "\uc0c1\ud558\uc774", "population": 24150000}, {"rank": 2, "city": "\uce74\ub77c\uce58", "population": 23500000}, {"rank": 3, "city": "\ubca0\uc774\uc9d5", "population": 21516000}, {"rank": 4, "city": "\ud150\uc9c4", "population": 14722100}, {"rank": 5, "city": "\uc774\uc2a4\ud0c4\ubd88", "population": 14160467}]
[
  {
    "rank": 1,
    "city": "상하이",
    "population": 24150000
  },
  {
    "rank": 2,
    "city": "카라치",
    "population": 23500000
  },
  {
    "rank": 3,
    "city": "베이징",
    "population": 21516000
  },
  {
    "rank": 4,
    "city": "텐진",
    "population": 14722100
  },
  {
    "rank": 5,
    "city": "이스탄불",
    "population": 14160467
  }
]


# 3장 주요 라이브러리 활용

## 3.2 웹페이지 간단하게 추출하기

In [60]:
import requests

#get() 함수로 웹 페이지 추출
r = requests.get('http://hanbit.co.kr')
print('get() 함수 반환값:', type(r))
print('HTTP 상태 코드:', r.status_code)
print('HTTP 헤더:', r.headers['content-type'])
print('encoding:', r.encoding)
# print(r.text)
# print(r.content)

get() 함수 반환값: <class 'requests.models.Response'>
HTTP 상태 코드: 200
HTTP 헤더: text/html; charset=UTF-8
encoding: UTF-8


In [62]:
r = requests.get('http://weather.livedoor.com/forecast/webservice/json/v1?city=130010')
# r.json()

In [63]:
#POST 메서드로 전송
#키워드 매개변수 data에 딕셔너리를 지정하면 HTML 입력 양식처럼 전송됨
r = requests.post('http://httpbin.org/post', data={'key1':'value1'})

## 3.3 HTML 스크레이핑

### 3.3.1 XPath와 CSS 선택자

* XPath: XTML의 특정 요소를 지정할 때 사용하는 언어
    * ex) //body/h1 : body 요소의 직접적인 자식 중 h1 태그 선택
    
    
* CSS 선택자: CSS로 요소를 디자인할 때 사용하는 표기 방법
    * ex) body > h1 : body 요소의 직접적인 자식 중 h1 태그 선택

### 3.3.2 lxml로 스크레이핑하기

In [67]:
!pip indysll lxml
!pip install cssselect

Collecting cssselect
  Downloading https://files.pythonhosted.org/packages/3b/d4/3b5c17f00cce85b9a1e6f91096e1cc8e8ede2e1be8e96b87ce1ed09e92c5/cssselect-1.1.0-py2.py3-none-any.whl
Installing collected packages: cssselect
Successfully installed cssselect-1.1.0


In [87]:
import lxml.html

tree = lxml.html.parse('full_book_list.html') #parse() 함수로 파일 경로를 지정할 수 있음
print(type(tree))
# tree = lxml.html.parse('http://example.com/') #parse() 함수로 URL 직접 지정할 수도 있지만 미세한 설정을 따로 할 수 없으므로 추천은 X

#파일 객체를 지정해서 파싱할 수도 있음
# from urllib.request import urlopen
# tree = lxml.html.parse(urlopen('http://example.com/'))

html = tree.getroot() #getroot() 메서드로 html 루트 요소의 HtmlElement 객체를 추출할 수 있음
print(type(html))

#HtmlElement의 xpath() 메서드로 XPath와 일치하는 요소 목록을 추출할 수 있음
# html.xpath('//li')
#HtmlElement의 cssselect() 메서드로 선택자와 일치하는 요소 목록 추출할 수 있음
# html.cssselect('li')

h1 = html.xpath('//h1')[0]
print('h1 tag:', h1.tag)
print('h1.text:', h1.text)
print('h1.id:', h1.get('id'))
print('h1.attrib:', h1.attrib)
print('h1.getparent:', h1.getparent())

<class 'lxml.etree._ElementTree'>
<class 'lxml.html.HtmlElement'>
h1 tag: h1
h1.text: None
h1.id: None
h1.attrib: {}
h1.getparent: <Element div at 0x150cbe314f8>


In [91]:
import lxml.html

tree = lxml.html.parse('hide on bush')
html = tree.getroot()

for a in html.cssselect('a'):
    #href 속성과 글자 추출
    print(a.get('href'), a.text)
    break

/ None


### 3.3.3 Beautiful Soup로 스크레이핑하기

In [92]:
!pip install beautifulsoup4



In [106]:
from bs4 import BeautifulSoup

with open('hide on bush', encoding='UTF-8') as f:
    soup = BeautifulSoup(f, 'html.parser')
    
for a in soup.find_all('a'):
    print(a.get('href'), a.text)
    break

/ 


## 3.7 파이썬으로 크롤러 만들기

### 3.7.1 목록 페이지에서 퍼머 링크 목록 추출하기

In [109]:
import requests
import lxml.html

response = requests.get('http://www.hanbit.co.kr/store/books/new_book_list.html')
root = lxml.html.fromstring(response.content)

#모든 링크를 절대 URL로 변환
root.make_links_absolute(response.url)

for a in root.cssselect('.view_box .book_tit a'):
    url = a.get('href')
    print(url)
    break

https://www.hanbit.co.kr/store/books/look.php?p_code=B7126889829


In [131]:
import requests
import lxml.html
import time
import re

def main():
    """
    크롤러의 메인 처리
    """
    
    #여러 페이지에서 크롤링할 것이므로 Session을 사용
    session = requests.Session()
    
    #scrape_list_page() 함수를 호출해서 제너레이터 추출
    response = session.get('http://www.hanbit.co.kr/store/books/new_book_list.html')
    urls = scrape_list_page(response)
    
    for url in urls:
        time.sleep(1)
        response = session.get(url) #Session을 사용해 상세 페이지 추출
        ebook = scrape_detail_page(response) #상세 페이지에서 상세 정보 추출
        print(ebook)
        break
        
def scrape_list_page(response):
    root = lxml.html.fromstring(response.content)
    root.make_links_absolute(response.url)
    
    for a in root.cssselect('.view_box .book_tit a'):
        url = a.get('href')
        #yield 구문으로 제너레이터의 요소 반환
        yield url
        
def scrape_detail_page(response):
    """
    상세 페이지의 Response에서 책 정보를 dict로 추출
    """
    root = lxml.html.fromstring(response.content)
    ebook = {
        'url':response.url,
        'title':root.cssselect('.store_product_info_box h3')[0].text_content(),
        'price':root.cssselect('.pbr strong')[0].text_content(),
        'content':[p.text_content()\
                  for p in root.cssselect('#tabs_3 .hanbit_edit_view p')
                  if normalize_spaces(p.text_content()) != '']
    }
    
    return ebook

def normalize_spaces(s):
    """
    연결돼 있는 공백을 하나의 공백으로 변경
    """
    
    return re.sub(r's+', ' ', s).strip() #strip(): 앞뒤 공백 자르기

if __name__ == '__main__':
    main()

{'url': 'https://www.hanbit.co.kr/store/books/look.php?p_code=B7126889829', 'title': '핸즈온 비지도 학습', 'price': '30,600', 'content': ['\r\n\t\tCHAPTER 0 서문\r\n', '0.1 머신러닝의 역사', '0.2 인공지능의 귀환, 왜 지금인가?', '0.3 응용 인공지능의 출현', '0.4 지난 20년간 응용 인공지능 주요 성과', '0.5 좁은 인공지능부터 범용 인공지능까지', '0.6 목표와 접근방식', '0.7 이 책의 구성', '0.8 예제 다운로드 안내', '\r\n\t\tPART 1 비지도 학습 개요\xa0\r\n', '\r\n\t\tCHAPTER 1 머신러닝 생태계와 비지도 학습\xa0\r\n', '1.1 머신러닝 기본 용어 이해하기', '1.2 규칙 기반과 머신러닝 비교하기', '1.3 지도 학습과 비지도 학습 비교하기', '1.4 비지도 학습을 사용해 머신러닝 솔루션 개선하기', '1.5 지도 학습 알고리즘 자세히 살펴보기\xa0', '1.6 비지도 학습 알고리즘 자세히 살펴보기\xa0', '1.7 비지도 학습을 활용한 강화 학습\xa0', '1.8 준지도 학습\xa0', '1.9 비지도 학습의 성공적인 응용 사례\xa0', '1.10 마치며\xa0', '\r\n\t\tCHAPTER 2 머신러닝 프로젝트 A to Z\xa0\r\n', '2.1 환경 설정\xa0', '2.2 데이터 개요', '2.3 데이터 준비하기', '2.4 모델 준비하기', '2.5 머신러닝 모델(1)', '2.6 평가 지표', '2.7. 머신러닝 모델(2)', '2.8 테스트 데이터셋으로 4가지 모델 평가하기', '2.9 앙상블', '2.10 최종 모델 선택하기', '2.11 프로덕션 파이프라인', '2.12 마치며', '\r\n\t\tPART 2 사이킷런을 사용한 비지도 학습 모델\xa0\r\n', '\r\n\t\tCHAPTER 3 차원 축소\xa0\r\n', '3.

In [140]:
import requests
import lxml.html

# response = requests.get('https://your.gg/kr/profile/Hide%20on%20bush')
response = requests.get('https://your.gg/kr/profile/Hide%20on%20bush/match/4504741686')
root = lxml.html.fromstring(response.content)

#모든 링크를 절대 URL로 변환
root.make_links_absolute(response.url)

for a in root.cssselect('.d-flex.flex-column span'):
    url = a.get('href')
    cs = a.get('class')
    text = a.get('text')
#     print(url)
    print(a.attrs)
    print(cs)
    print(text)
#     breakbody > div > div.container-fluid.page-body-wrapper > div > div > div.d-flex.flex-column > div.row.mt-lg-3.mt-3 > div:nth-child(2) > div > div > div > div.d-flex.flex-column.justify-content-between.h-100 > div:nth-child(6) > div:nth-child(5) > span.text-A

AttributeError: 'HtmlElement' object has no attribute 'attrs'

In [191]:
#regular expression

import re

p = re.compile('[a-z]+')

m = p.match("3 python")
print(m)

s = p.search("3 python hello")
print(s)
print(s.group())

result = p.findall("life is too short")
print(result)

result = p.finditer("life is too short")
print(result)

for r in result: 
    print(r)

None
<re.Match object; span=(2, 8), match='python'>
python
['life', 'is', 'too', 'short']
<callable_iterator object at 0x00000150CF4A6048>
<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


In [4]:
import re
from bs4 import BeautifulSoup
import pandas as pd

with open('hide on bush', encoding='UTF-8') as f:
    soup = BeautifulSoup(f, 'html.parser')
    
#평가등급 가져오기
# for div in soup.find_all('div', attrs={'id':'profileGraphAllPc'}):
#     print(div.get('data-json'))

match_info_keys = ['id', 'type', 'when', 'result', 'time', 'lv', 'rating', 'luck', 'laning', 'kill', 'death', 'assistant', 'CS', 'KP', '1_top', '1_jug', '1_mid', '1_ad', '1_sup', '2_top', '2_jug', '2_mid', '2_ad', '2_sup']
hide_on_bush = pd.DataFrame(columns=match_info_keys)

for div in soup.select('div.card.gg-matchlist.gg-a.py-3.px-lg-3'):
    data_href = div.get('data-href')
    p = re.compile('[0-9]+')
    match_id = p.search(data_href).group()
#     print('match id:', p.search(data_href).group())
    
    for div in div.find_all('div'):
        match_info = re.sub(r'\s{5,}', '\n', div.text)
        match_info = re.sub(r'\n{2,}', '\n', match_info).strip()
        match_info = match_info.split('\n')

        for i in range(6, 14):
            del match_info[i]
            
        match_info = [match_id] + match_info
        
        print(match_info)
        break
    
    for img in div.find_all('img'):
        print(img.get('src'))
    break
#     hide_on_bush = hide_on_bush.append(dict((key, value) for key, value in zip(match_info_keys, match_info)), ignore_index=True)

['4504741686', 'Solo', '48m ago', 'Win', '24 min', 'LV15', '7.6', 'S', '4:6', '3', '2', '21', '183(7.6)', '55%', 'huntiand1', 'ke ai ke ai', 'Hide on bush', 'xxxss', '참외 소스 하하', 'impupupu', 'AF Burry', '스누피2', '쌍수도', '홈런볼 다 내꺼']
https://ddragon.leagueoflegends.com/cdn/10.14.1/img/spell/SummonerTeleport.png
https://ddragon.leagueoflegends.com/cdn/10.14.1/img/spell/SummonerFlash.png
https://ddragon.leagueoflegends.com/cdn/img/perk-images/Styles/7203_Whimsy.png
https://ddragon.leagueoflegends.com/cdn/img/perk-images/Styles/7202_Sorcery.png
https://ddragon.leagueoflegends.com/cdn/10.14.1/img/champion/Galio.png
/v4/media/tran-Mid.svg
https://ddragon.leagueoflegends.com/cdn/10.14.1/img/champion/Camille.png
https://ddragon.leagueoflegends.com/cdn/10.14.1/img/champion/LeeSin.png
https://ddragon.leagueoflegends.com/cdn/10.14.1/img/champion/Galio.png
https://ddragon.leagueoflegends.com/cdn/10.14.1/img/champion/Kaisa.png
https://ddragon.leagueoflegends.com/cdn/10.14.1/img/champion/Sett.png
https:

In [284]:
hide_on_bush.to_csv('./hide_on_bush.csv')