# Get 방식 데이터 통신(1)

In [1]:
import urllib.request
from urllib.parse import urlparse

In [2]:
# 기본 요청(사이트 encar 사용)

url = 'http://www.encar.com/index.do/'
mem = urllib.request.urlopen(url)

In [4]:
# 여러 정보 
print('type : {}'.format(type(mem)))
print('geturl : {}'.format(mem.geturl()))
print('status : {}'.format(mem.status))
print('headers : {}'.format(mem.getheaders()))
print('getcode : {}'.format(mem.getcode()))
print('read : {}'.format(mem.read(1).decode('utf-8')))
print('parse : {}'.format(urlparse('http://www.encar.co.kr?test=test')))

type : <class 'http.client.HTTPResponse'>
geturl : http://www.encar.com/common/error/404.htm
status : 200
headers : [('X-Encar-Web', 'P2'), ('Date', 'Wed, 18 Jan 2023 11:03:38 GMT'), ('Connection', 'close'), ('ETag', '"0-1335-6372cf1a"'), ('Last-Modified', 'Mon, 14 Nov 2022 23:28:26 GMT'), ('Accept-Ranges', 'bytes'), ('Content-Length', '4917'), ('Content-Type', 'text/html'), ('Cache-Control', 'max-age=2419200'), ('Expires', 'Wed, 15 Feb 2023 11:03:38 GMT')]
getcode : 200
read : 
parse : ParseResult(scheme='http', netloc='www.encar.co.kr', path='', params='', query='test=test', fragment='')


In [5]:
# 기본 정보 요청 (ipify)
API = 'https://api.ipify.org'

In [6]:
# Get 방식 parameter

values = {'format' : 'json'}

print('before param : {}'.format(values))
params = urllib.parse.urlencode(values)
print('after param : {}'.format(params))

before param : {'format': 'json'}
after param : format=json


In [7]:
# 요청 url 생성 

url = API + '?' + params
print("요청 url = {}".format(url))

요청 url = https://api.ipify.org?format=json


In [8]:
# 수신 데이터 읽기 
data = urllib.request.urlopen(url).read()

# 수신 데이터 디코딩 
text = data.decode('utf-8')
print('response : {}'.format(text))

response : {"ip":"58.237.38.99"}


# Get 방식 데이터 통신(2)

In [9]:
import urllib.request
import urllib.parse

In [13]:
# 행정 안전부 : https://www.mois.go.kr
# 행정 안전부 RSS API URL

API = 'http://www.mois.go.kr/gpms/view/jsp/rss/rss.jsp'

In [14]:
params = []

for num in [1001, 1012, 1013, 1014] :
    params.append(dict(ctxCd=num))

In [17]:
# 연속해서 4회 요청

for c in params :
    # 파라미터 출력
    print('c :', c)
    # URL 인코딩
    param = urllib.parse.urlencode(c)
    # URL 완성
    url = API + "?" + param
    # URL 출력
    print('url=', url)
    # 요청
    res_data = urllib.request.urlopen(url).read()
    # 수신 후 디코딩
    contents = res_data.decode('utf-8')
    #출력
    print(contents)

c : {'ctxCd': 1001}
url= http://www.mois.go.kr/gpms/view/jsp/rss/rss.jsp?ctxCd=1014
<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0"
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:dc="http://purl.org/dc/elements/1.1/"
    xmlns:taxo="http://purl.org/rss/1.0/modules/taxonomy/"
    xmlns:activity="http://activitystrea.ms/spec/1.0/" >
<channel>
<title>인사이동</title>
<link>https://www.mois.go.kr</link>
<description></description>
<language>ko</language>
<pubDate>금, 22 7월 2022 09:27:03 KST</pubDate>
    <item>
            <title><![CDATA[정부인사발령통지]]></title>
            <link><![CDATA[https://www.mois.go.kr/frt/bbs/type001/commonSelectBoardArticle.do?bbsId=BBSMSTR_000000000007&nttId=93441]]></link>
            <description><![CDATA[
                행정안전부 지방자치분권실 지방행정정책관<br /><br />                일반직고위공무원            최병관(崔炳官)<br /><br />      행정안전부 지방재정경제실장에 보함<br /><br />                2022. 7. 25.<br /><br /> <br /><br />      행정안전부 지방재정경제실 지방세정책관<br /><br />

# 웹 스크레핑

## 1. 웹 브라우저로 웹 사이트 접속하기 
- 하나의 웹 사이트에 접속하기 

In [23]:
# 사이트를 하나 지정한 후에 웹 브라우저를 열어서 접속하는 방법 

import webbrowser

url = 'www.naver.com'

webbrowser.open(url)

True

- 여러개의 웹 사이트에 접속하기 

In [24]:
urls = ['www.naver.com', 'www.daum.net', 'www.google.com']

for url in urls :
    webbrowser.open(url)

## 2. 네이버에서 특정 검색어 입력해서 결과 얻기 

In [25]:
naver_search_url = 'http://search.naver.com/search.naver?query='
search_word = '파이썬'
url = naver_search_url + search_word

webbrowser.open_new(url)

True

In [26]:
# 여러개 단어 찾기 

google_url = 'www.google.com/search?q='
search_words = ['파이썬', '파이썬 스크래핑']

for search_word in search_words :
    webbrowser.open(google_url + search_word)

# 웹 스크레이핑을 위한 기본 지식
## 데이터의 요청 & 응답 과정 

### HTML의 기본 구조 
- html 생성 

In [28]:
%%writefile C:\my_web\myexam\html_example4.html
<!doctype html>
<html>
    <head>
        <meta charset='utf-8'>
        <title>HTML 예제</title>
    </head>
    <body>
        <h1>출간된 책 정보</h1>
        <p id='book_title'>이해가 쏙쏙 되는 파이썬</p>
        <p id='author'>홍길동</p>
        <p id='publisher'>위키북스 출판사</p>
        <p id='year'>2018</p>
    </body>
</html>

Writing C:\my_web\myexam\html_example4.html


In [31]:
! pip install requests



In [1]:
#### 웹페이지의 HTML 소스 갖고오기 

import requests

r = requests.get('https://www.google.co.kr') # response 받아옴 
r

<Response [200]>

In [2]:
# 응답 객체를 잘 가져왔는지 확인 

r.text[0:50]

'<!doctype html><html itemscope="" itemtype="http:/'

In [3]:
# 위의 과정을 한 번에 수행

html = requests.get('https://www.google.co.kr').text
html[0:50]

'<!doctype html><html itemscope="" itemtype="http:/'

#### HTML 소스코드 분석 & 처리 
데이터 찾고 추출하기 
- HTML 코드를 분석해 원하는 데이터를 추출하는 방법 
- HTML 코드를 분석하기 위해서는 HTML 코드 구문을 이해하고 요소별로 HTML 코드를 분류
- BeautifulSoup 라이브러리 이용 -> HTML 소스를 파싱(구조화) 하고 태그 / 속성을 통해 원하는 데이터 추출

In [4]:
from bs4 import BeautifulSoup

# 테스트용 html 코드 
html = '''<html><body><div><span>\
          <a href=http://www.naver.com>naver</a>\
          <a href=http://www.google.com>google</a>\
          <a href=http://www.daum.net>daum</a>\
          </span></div></body></html>'''
          
# BeautifulSoup 이용해 html 소스 파싱 
soup = BeautifulSoup(html, 'lxml')
soup

<html><body><div><span> <a href="http://www.naver.com">naver</a> <a href="http://www.google.com">google</a> <a href="http://www.daum.net">daum</a> </span></div></body></html>

In [6]:
# 알아보기 쉽도록 예쁘게 꾸미기 
print(soup.prettify())

<html>
 <body>
  <div>
   <span>
    <a href="http://www.naver.com">
     naver
    </a>
    <a href="http://www.google.com">
     google
    </a>
    <a href="http://www.daum.net">
     daum
    </a>
   </span>
  </div>
 </body>
</html>


- 파싱한 결과에서 `BeautifulSoup.find('태그')`를 수행하면\
HTML 소스코드에서 해당 '태그'가 있는 첫 번째 요소(태그)를 찾아서 반환

In [7]:
# 언급된 태그 중 첫 번째 태그만 출력 
print(type(soup))
soup.find('a') # 변수 soup = BeautifulSoup() 임  

<class 'bs4.BeautifulSoup'>


<a href="http://www.naver.com">naver</a>

- `get_text()`는 HTML 소스코드의 요소에서 태그와 속성을 제거하고 **텍스트 문자열만 반환**
- `get_text()`는 원하는 HTML 요소를 가져온 후에 마지막 단계에서 요소의 텍스트 부분만 추출할 때 사용 

In [8]:
soup.find('a').get_text()

'naver'

- HTML 코드 안의 모든 a 태그를 찾아서 a 태그로 시작하는 모든 요소를 다 반환하려면 \
`BeautifulSoup.find_all('태그')`를 이용

In [9]:
soup.find_all('a')

[<a href="http://www.naver.com">naver</a>,
 <a href="http://www.google.com">google</a>,
 <a href="http://www.daum.net">daum</a>]

- 해당 태그를 모두 반환하는 `find_all()`의 결과는 **리스트 형태**로 반환
- `get_text()`는 리스트에 적용할 수 없음!!! 
- 그래서 for문으로 항목별로 `get_text()`를 적용 

In [10]:
site_names = soup.find_all('a')

for site_name in site_names :
    print(site_name.get_text())

naver
google
daum


In [14]:
from bs4 import BeautifulSoup 

html5 = '''
<html>
    <head>
        <meta charset='utf-8'>
        <title>작품과 작가 모음</title>
    </head>
    <body>
        <h1>책 정보</h1>
        <p id='book_title'>토지</p>
        <p id='author'>박경리</p>
        
        <p id='book_title'>태백산맥</p>
        <p id='author'>조정래</p>
        
        <p id='book_title'>감옥으로부터의 사색</p>
        <p id='author'>신영복</p>
    </body>
</html>
'''

In [15]:
soup2 = BeautifulSoup(html5, 'lxml')

- BeautifulSoup 이용 -> 필요한 데이터 추출하기 

In [17]:
# title 추출 
soup2.title

<title>작품과 작가 모음</title>

In [18]:
# body 추출 
soup2.body

<body>
<h1>책 정보</h1>
<p id="book_title">토지</p>
<p id="author">박경리</p>
<p id="book_title">태백산맥</p>
<p id="author">조정래</p>
<p id="book_title">감옥으로부터의 사색</p>
<p id="author">신영복</p>
</body>

In [19]:
soup2.body.h1

<h1>책 정보</h1>

In [20]:
soup2.body.p

<p id="book_title">토지</p>

In [21]:
soup2.find_all('p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

- 태그 중 제목과 작가를 분리해서 가져오려면 태그 뿐만 아니라 **'속성'**도 함께 지정해줘야함 
- BeautifulSoup.find_all('태그', '속성')
- BeautifulSoup.find('태그', '속성')

In [27]:
# BeautifulSoup.find('태그', '속성') -> 해당되는 첫 번째 요소만 반환 


print(soup2.find('p', {'id':'book_title'}))
print(soup2.find('p', {'id':'author'}))


<p id="book_title">토지</p>
<p id="author">박경리</p>


In [28]:
# BeautifulSoup.find_all('태그', '속성') -> 해당되는 요소 모두 반환
print(soup2.find_all('p', {'id':'book_title'}))
print(soup2.find_all('p',{'id':'author'}))

[<p id="book_title">토지</p>, <p id="book_title">태백산맥</p>, <p id="book_title">감옥으로부터의 사색</p>]
[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]


- 책 제목과 작가를 포함한 요소를 각각 추출한 후에 텍스트(원하는데이터)만 뽑는 코드 

In [30]:
soup3 = BeautifulSoup(html3, 'lxml')

book_titles = soup3.find_all('p',{'id':'book_title'})
authors = soup3.find_all('p',{'id':'author'})

for book_title, author in zip(book_titles, authors) :
    print(book_title.get_text() + '/' + author.get_text())

토지/박경리
태백산맥/조정래
감옥으로부터의 사색/신영복


### CSS 선택자(selector) 이용 
- css 선택자는 css에서 원하는 요소를 선택하는 것으로서 파이썬 뿐만 아니라 다른 프로그래밍 언어에서도 HTML 소스를 처리할 때 많이 이용
- BeatifulSoup도 `BeutifulSoup.select('태그','속성')`을 통해 css선택자를 지원 
- `BeutifulSoup.select('태그','속성')`의 인자로 '태그 및 속성'을 단계적으로 입력하면 원하는 요소 찾을 수 있음

In [31]:
# html3 변수에 할당된 HTML 소스에서 body 태그 요소 내에 h1태그 요소를 가지고 오기 

soup3.select('body h1')

[<h1>책 정보</h1>]

In [33]:
# body 태그 요소 중에 p태그를 포함한 요소를 모두 갖고 오기 

soup3.select('body p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [34]:
# 변수 html3의 HTML 소스에서 p 태그는 body 태그 요소 내에만 있음 -> body 안 써줘도 됨

soup3.select('p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

태그 안의 속성과 속성값 이용 -> 요소를 세밀하게 구분하여 추출하기 
- 태그 안의 속성이 class인 경우 -> '태그.class속성값' 입력
- 태그 안의 속성이 id인 경우 -> '태그#id속성값' 입력

In [35]:
soup3.select('p#book_title')

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [36]:
soup3.select('p#author')

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

`BeautifulSoup.select('태그/속성')` 에서 태그 안의 속성이 class인 경우
- '태그.class속성값' 으로 원하는 요소 추출
- HTML 소스 파일은 이미 저장돼 있으므로 텍스트 파일을 읽어와서 변수 html4에 할당하기 

In [37]:
f = open('c:/my_web/myexam/HTML_example/HTML_example_my_site.html', encoding = 'utf-8')

html5 = f.read()
f.close()

soup4 = BeautifulSoup(html5, 'lxml')

In [38]:
# 읽어온 HTML 소스에서 태그가 a인 요소를 모두 가져오기
soup4.select('a')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="search" href="https://www.google.com" id="google">구글</a>,
 <a class="portal" href="http://www.daum.net" id="daum">다음</a>,
 <a class="government" href="http://www.nl.go.kr" id="nl">국립중앙도서관</a>]

In [39]:
# HTML 소스에서 태그가 a이면서 class 속성값이 portal인 요소만 갖고오기

soup4.select('a.portal')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="portal" href="http://www.daum.net" id="daum">다음</a>]

In [42]:
# a 태그를 포함하는 요소 중 id 속성이 'naver'인 요소 선택
soup4.select('a#naver')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>]