# 파이썬 크롤링 하기

## - requests 모듈사용
requests 모듈을 통해 웹페이지를 가져올 수 있다

 - 모듈설명 : https://pypi.org/project/requests/

In [2]:
import requests
url = "https://news.naver.com/main/list.nhn?mode=LPOD&mid=sec&oid=005&listType=paper&date=20210505"

In [3]:
webpage = requests.get(url)
print(r.request.headers)

ConnectionError: ('Connection aborted.', RemoteDisconnected('Remote end closed connection without response'))

## - 크롤링 봇 정책
 - `https://news.naver.com/robots.txt`

```
User-agent: Yeti
Allow: /main/imagemontage
Disallow: /
User-agent: *
Disallow: /
```
 - 크롤링 결과 : `Connection aborted`

몇몇 페이지는 서버 과부하를 줄이기 위해 크롤링을 하지 못하게 막아놓았는데 

유저가 브라우저를 통해 직접 접근했는지 아니면 크롤링 도구를 이용해 접근했는지 판단하는 기준은 바로 User-Agent이다.


In [124]:
webpage = requests.get("https://naver.com")
print(webpage)

<Response [200]>


In [125]:
webpage.request.headers

{'User-Agent': 'python-requests/2.25.1', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

크롤링으로 접근이 허가된 네이버 메인페이지에 접속하고 난 후에 User-Agent의 내용을 보면 `python-requests/2.25.1`로 되어 있다.

이 부분을 수정하여 브라우저를 사용해서 접근하는 것처럼 만들면 된다.

In [126]:
headers = { "User-Agent": "user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36" } 
webpage = requests.get(url, headers=headers)
webpage.text

'\r\n\r\n\r\n\r\n<!DOCTYPE HTML>\r\n<html lang="ko">\r\n<head>\r\n<meta charset="euc-kr">\r\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\r\n<meta name="referrer" contents="always">\r\n<meta http-equiv="refresh" content="600" />\r\n<meta name="viewport" content="width=1106" />\r\n\r\n    \r\n    \r\n        \r\n            \r\n            \r\n            \r\n                \r\n                \r\n                \r\n                \r\n            \r\n            \r\n            \r\n        \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n\r\n<meta property="og:title"       content="국민일보 언론사홈">\r\n<meta property="og:type"        content="website">\r\n<meta property="og:url"         content="http://news.naver.com/main/list.nhn?mode=LPOD&mid=sec&oid=005">\r\n<meta property="og:image"       content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png"/>\r\n<

In [130]:
webpage.headers

{'date': 'Wed, 05 May 2021 15:09:17 GMT', 'cache-control': 'no-cache', 'expires': 'Thu, 01 Jan 1970 00:00:00 GMT', 'set-cookie': 'JSESSIONID=2BE86D60D04065A64799F4F93A66F6B8; Path=/main; HttpOnly', 'content-language': 'ko-KR', 'vary': 'Accept-Encoding', 'content-encoding': 'gzip', 'transfer-encoding': 'chunked', 'content-type': 'text/html;charset=EUC-KR', 'referrer-policy': 'unsafe-url', 'server': 'nfront'}

## - BeautifulSoup 모듈 사용하기
외부 모듈을 이용해 편하게 크롤링한 정보를 

```pip
pip install bs4
```

사용법 : https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [131]:
from bs4 import BeautifulSoup

In [132]:
soup = BeautifulSoup(webpage.text, 'html.parser')

### * 크롤링을 통해 가져온 페이지를 파일 형식으로 저장하기

In [133]:
print(soup.prettify())

<!DOCTYPE HTML>
<html lang="ko">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta contents="always" name="referrer"/>
  <meta content="600" http-equiv="refresh">
   <meta content="width=1106" name="viewport">
    <meta content="국민일보 언론사홈" property="og:title"/>
    <meta content="website" property="og:type"/>
    <meta content="http://news.naver.com/main/list.nhn?mode=LPOD&amp;mid=sec&amp;oid=005" property="og:url"/>
    <meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png" property="og:image">
     <meta content="언론사 주요 뉴스와 속보를 만나볼 수 있습니다." property="og:description"/>
     <meta content="네이버" property="og:article:author">
      <meta content="summary" name="twitter:card"/>
      <meta content="국민일보 언론사홈" name="twitter:title"/>
      <meta content="네이버 뉴스" name="twitter:site"/>
      <meta content="네이버 뉴스" name="twitter:creator"/>
      <meta content="https://ssl.pstatic.net/static.news/image

<hr>

크롤링한 내용을 가지고 이제 우리가 원하는 데이터만 뽑을 것이다.

데이터 파싱 테스트를 시도할 때마다 웹페이지 요청을 시도하는 불필요한 작업을 없애고,

나중에 다시 작업을 해도 데이터가 유지될 수 있도록 위에 있는 내용을 그대로 파일로 만들자.

In [154]:
f = open("source.html", 'w',encoding="UTF8")
f.write(soup.prettify())
f.close()

이제 저장된 내용을 불러오고, 저장된 내용을 분석해 내가 원하는 데이터를 어떻게 가져올 것인지 전략을 짜야한다.

In [155]:
with open("source.html", 'r',encoding="UTF8") as fp:
    f_soup = BeautifulSoup(fp, 'html.parser')

In [164]:
parsing_test = f_soup.find_all(attrs={"class": "nclicks(cnt_papaerart4)"})
print(len(parsing_test))
parsing_test

12


[<a class="nclicks(cnt_papaerart4)" href="https://news.naver.com/main/read.nhn?mode=LPOD&amp;mid=sec&amp;oid=005&amp;aid=0001436525">
              [포토] 코로나에도… 즐거운 동심
             </a>,
 <a class="nclicks(cnt_papaerart4)" href="https://news.naver.com/main/read.nhn?mode=LPOD&amp;mid=sec&amp;oid=005&amp;aid=0001436596">
              가족동반 출장엔 “관행” 밀수 의혹은 “집에서 사용”… 황당 해명
             </a>,
 <a class="nclicks(cnt_papaerart4)" href="https://news.naver.com/main/read.nhn?mode=LPOD&amp;mid=sec&amp;oid=005&amp;aid=0001436602">
              변이 바이러스 국내 감염자 1499명 ‘비상’
             </a>,
 <a class="nclicks(cnt_papaerart4)" href="https://news.naver.com/main/read.nhn?mode=LPOD&amp;mid=sec&amp;oid=005&amp;aid=0001436497">
              [국민만평-서민호 화백] 2021년 5월 5일
             </a>,
 <a class="nclicks(cnt_papaerart4)" href="https://news.naver.com/main/read.nhn?mode=LPOD&amp;mid=sec&amp;oid=005&amp;aid=0001436562">
              베이조스 44조8000억원·머독은 1조9100억원 넘겨
             </a>,
 <a class="nclicks(cnt_pap

In [137]:
parsing_test[0].get_text()

'\n             [포토] 코로나에도… 즐거운 동심\n            '

 - 문자열 함수 `replace()`와 `strip()`을 활용하여 불필요한 문자인 개행문자(`\n`)와 공백문자(`&nbsp;`)를 없애자

In [138]:
parsing_test[0].get_text().replace("\n","").strip()

'[포토] 코로나에도… 즐거운 동심'

 - 각 기사 제목 옆에 링크도 매칭시켜주자

In [139]:
parsing_test[0]['href']

'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436525'

In [140]:
def pairing_title_and_link(soup_data):
    result = []
    for element in soup_data:
        result.append(
            (element.get_text().replace("\n","").strip(),
            element['href'])
        )
    return result
    

matching_result = pairing_title_and_link(parsing_test)

In [141]:
matching_result

[('[포토] 코로나에도… 즐거운 동심',
  'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436525'),
 ('가족동반 출장엔 “관행” 밀수 의혹은 “집에서 사용”… 황당 해명',
  'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436596'),
 ('변이 바이러스 국내 감염자 1499명 ‘비상’',
  'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436602'),
 ('[국민만평-서민호 화백] 2021년 5월 5일',
  'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436497'),
 ('베이조스 44조8000억원·머독은 1조9100억원 넘겨',
  'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436562'),
 ('지자체장 ‘제약된 활동’ 넘어서기…  지지 의원 중심 외연 확장 잰걸음',
  'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436552'),
 ('문승욱 “탈원전 정책 지속돼야”… 증여세 탈루 의혹엔 “송구”',
  'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436597'),
 ('송영길, 부동산 정책 속도전 돌입',
  'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436575'),
 ('[포토] 양대 노총 등, 日 조선인 강제노동 부정 규탄 회견',
  'https://news.

## - 특정 날짜의 신문 제목과 링크들 전부 가져오기

### * 네이버 신문 중 국민일보 페이지 분석 결과
 1. 속성이 `class="nclicks(cnt_papaerart3)"`와 `class="nclicks(cnt_papaerart4)"`인 것만 찾아오면 된다.
 2. 페이지가 초과하면 첫번째 페이지만 보여준다.
 3. 만일 해당날짜에 발행된 신문이 없으면 `class="result_none"`가 나타난다.
 4. 신경써야할 uri 파라미터는 아래와 같다.
    - `oid=005` : 국민일보 식별번호
    - `data=20210505` : 신문발행 날짜
    - `page=1` : 신문 페이지

### * 필요한 모듈 가져오기

In [179]:
import requests
from bs4 import BeautifulSoup

## * 함수 정의부

In [180]:
def make_url(url_info):
    return '{address}?mode={mode}&mid={mid}&oid={oid}&listType={listType}&date={date}&page={page}'.format(**url_info)
    
def pairing_title_and_link(soup_data):
    result = []
    for element in soup_data:
        result.append(
            (element.get_text().replace("\n","").strip(),
            element['href'])
        )
    return result

def flatten(vec_data):
    return [num for elem in vec_data for num in elem]

### * 주요 변수 정의부

In [181]:
headers = { "User-Agent": "user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36" } 

url_info = dict(
    address = "https://news.naver.com/main/list.nhn",
    mode='LPOD',
    mid='sec',
    oid='005',
    listType='paper',
    date='20210505'
)#page는 크롤링을 실행하면서 결정

### * 크롤링 실행부

In [192]:
page = 1
first_page_first_title = ''
isFirstPage = True
result_content = []

while True:
    #크롤링 준비
    url_info['page'] = page
    url = make_url(url_info)
    page += 1
    
    #크롤링 진행
    webpage = requests.get(url, headers=headers)
    soup = BeautifulSoup(webpage.text, 'html.parser')
    parsing_data = soup.find_all(attrs={'class': ["nclicks(cnt_papaerart3)", "nclicks(cnt_papaerart4)"]})
    pairing_data = pairing_title_and_link(parsing_data)
    
    
    #크롤링 이후 데이터 평가
    if isFirstPage:
        first_page_first_title = pairing_data[0][0]
        isFirstPage = False
    else:
        if first_page_first_title == pairing_data[0][0]:
            print("페이지 모두 읽기 완료")
            break
    
    #크롤링 데이터 저장
    result_content.append(pairing_data)
    
print("크롤링 종료")

페이지 모두 읽기 완료
크롤링 종료


### * 크롤링 후처리

In [195]:
result_content = flatten(result_content)

#파일로 저장
f = open("result_content.txt", 'w',encoding="UTF8")
for ele in result_content:
    f.write(ele[0] + "   ---   " + ele[1] + "\n")
f.close()

In [196]:
len(result_content)

94

In [197]:
result_content

[('후보 확정까지 4개월… 대선 행보 초읽기',
  'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436553'),
 ('[포토] 코로나에도… 즐거운 동심',
  'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436525'),
 ('가족동반 출장엔 “관행” 밀수 의혹은 “집에서 사용”… 황당 해명',
  'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436596'),
 ('변이 바이러스 국내 감염자 1499명 ‘비상’',
  'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436602'),
 ('27년 동행 끝 ‘천문학적 결별’… 재산 146조 어떻게 나눌까',
  'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436555'),
 ('[국민만평-서민호 화백] 2021년 5월 5일',
  'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436497'),
 ('베이조스 44조8000억원·머독은 1조9100억원 넘겨',
  'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436562'),
 ('대권행보 닻 올린 이재명… 9개월째 ‘여권 1위’ 대세 굳힐까',
  'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436524'),
 ('지자체장 ‘제약된 활동’ 넘어서기…  지지 의원 중심 외연 확장 잰걸음',
  'https:/

## - 관련된 신문 제목만 크롤링하기

### * 필요한 모듈 가져오기

In [293]:
import requests
from bs4 import BeautifulSoup

# 특정 키워드가 포함된 제목만 가져오기 위해 정규표현식 모듈 사용
import re

## * 함수 정의부

In [294]:
def make_url(url_info):
    return '{address}?mode={mode}&mid={mid}&oid={oid}&listType={listType}&date={date}&page={page}'.format(**url_info)
    
def pairing_title_and_link(soup_data):
    result = []
    for element in soup_data:
        result.append(
            (element.get_text().replace("\n","").strip(),
            element['href'])
        )
    return result

def flatten(vec_data):
    return [num for elem in vec_data for num in elem]

### * 주요 변수 정의부

In [295]:
headers = { "User-Agent": "user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36" } 

url_info = dict(
    address = "https://news.naver.com/main/list.nhn",
    mode='LPOD',
    mid='sec',
    oid='005',
    listType='paper',
    date='20210505'
)#page는 크롤링을 실행하면서 결정

keywords = ["북한","백신","코로나"]

### * 크롤링 실행부

In [296]:
page = 1
first_page_first_title = ''
isFirstPage = True
result_content = []
pattern = re.compile("|".join(keywords))

while True:
    #크롤링 준비
    url_info['page'] = page
    url = make_url(url_info)
    page += 1
    
    #크롤링 진행
    webpage = requests.get(url, headers=headers)
    soup = BeautifulSoup(webpage.text, 'html.parser')
    parsing_data = soup.find_all(attrs={'class': ["nclicks(cnt_papaerart3)", "nclicks(cnt_papaerart4)"]})
    pairing_data = pairing_title_and_link(parsing_data)
    
    
    #크롤링 이후 데이터 평가
    if isFirstPage:
        first_page_first_title = pairing_data[0][0]
        isFirstPage = False
    else:
        if first_page_first_title == pairing_data[0][0]:
            print("페이지 모두 읽기 완료")
            break
    
    #크롤링 데이터 저장
    result_content.append(pairing_data)
    
print("크롤링 종료")

페이지 모두 읽기 완료
크롤링 종료


### * 크롤링 후처리

In [297]:
result_content = flatten(result_content)

In [298]:
# 키워드에 포함된 것만 고르기
result_content_by_keywords = []

for element in result_content:
    match = pattern.search(element[0])
    if match != None:
        result_content_by_keywords.append(element)

In [299]:
#파일로 저장
f = open("result_content_by_keywords.txt", 'w',encoding="UTF8")
for ele in result_content_by_keywords:
    f.write(ele[0] + "   ---   " + ele[1] + "\n")
f.close()

In [1]:
result_content_by_keywords

NameError: name 'result_content_by_keywords' is not defined

In [8]:
import requests
url = "http://thespservices.com"
data = {'name': '김미현', 'number': 'P160015366640'}

In [10]:
webpage = requests.post(url, data=data)

print(webpage)

<Response [200]>


In [15]:
webpage.text

'<!DOCTYPE html><html><head><!-- Global site tag (gtag.js) - Google Analytics -->\n<script async src="https://www.googletagmanager.com/gtag/js?id=UA-154975073-1"></script>\n<script><window class="dataLayer">= window.dataLayer || [];</window><function>gtag(){dataLayer.push(arguments);}</function><gtag js new Date()></gtag><gtag config UA-154975073-1></gtag></script><style>body{\n    background-color: #1AAB8A;\n}\n.container {\n    position:absolute; \n    top:50%; left:50%;\n    margin-top:-225px; margin-left:-150px; \n    width:300px; height:300px;\n    text-align: center;\n}\n.form_container form{\n    width: 100%;\n    display:flex;\n    flex-direction: column;\n}\np {\n    font-size: 1.2em;\n    font-weight: 700;\n}\n.input {\n    padding: 10px 15px 10px 15px;\n    margin: 5px 10px;\n    border: 2px solid black;\n    border-radius: 5px;\n    text-decoration: none;\n    text-align: center;\n    font-size: 1.1em;\n    outline:none;\n}\n.submit{\n    margin-top: 20px;\n    background:#

In [16]:
requests.get("https://datalab.naver.com/shoppingInsight/sCategory.naver")

<Response [200]>