# 파이썬 크롤링 하기

## - requests 모듈사용
requests 모듈을 통해 웹페이지를 가져올 수 있다

 - 모듈설명 : https://pypi.org/project/requests/

In [1]:
import requests
url = "https://news.naver.com/main/list.nhn?mode=LPOD&mid=sec&oid=005&listType=paper&date=20210505"

In [2]:
webpage = requests.get(url)a
print(r.request.headers)

SyntaxError: invalid syntax (<ipython-input-2-bd8a6dd30a2d>, line 1)

## - 크롤링 봇 정책
 - `https://news.naver.com/robots.txt`

```
User-agent: Yeti
Allow: /main/imagemontage
Disallow: /
User-agent: *
Disallow: /
```
 - 크롤링 결과 : `Connection aborted`

몇몇 페이지는 서버 과부하를 줄이기 위해 크롤링을 하지 못하게 막아놓았는데 

유저가 브라우저를 통해 직접 접근했는지 아니면 크롤링 도구를 이용해 접근했는지 판단하는 기준은 바로 User-Agent이다.


In [3]:
webpage = requests.get("https://naver.com")
print(webpage)

<Response [200]>


In [4]:
webpage.request.headers

{'User-Agent': 'python-requests/2.25.1', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

크롤링으로 접근이 허가된 네이버 메인페이지에 접속하고 난 후에 User-Agent의 내용을 보면 `python-requests/2.25.1`로 되어 있다.

이 부분을 수정하여 브라우저를 사용해서 접근하는 것처럼 만들면 된다.

In [5]:
headers = { "User-Agent": "user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36" } 
webpage = requests.get(url, headers=headers)
webpage.text

'\r\n\r\n\r\n\r\n<!DOCTYPE HTML>\r\n<html lang="ko">\r\n<head>\r\n<meta charset="euc-kr">\r\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\r\n<meta name="referrer" contents="always">\r\n<meta http-equiv="refresh" content="600" />\r\n<meta name="viewport" content="width=1106" />\r\n\r\n    \r\n    \r\n        \r\n            \r\n            \r\n            \r\n                \r\n                \r\n                \r\n                \r\n            \r\n            \r\n            \r\n        \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n\r\n<meta property="og:title"       content="국민일보 언론사홈">\r\n<meta property="og:type"        content="website">\r\n<meta property="og:url"         content="http://news.naver.com/main/list.nhn?mode=LPOD&mid=sec&oid=005">\r\n<meta property="og:image"       content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png"/>\r\n<

In [6]:
webpage.headers[]

SyntaxError: invalid syntax (<ipython-input-6-3363f8796a2b>, line 1)

## - BeautifulSoup 모듈 사용하기
외부 모듈을 이용해 편하게 크롤링한 정보를 

```pip
pip install bs4
```

사용법 : https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [7]:
from bs4 import BeautifulSoup

In [8]:
soup = BeautifulSoup(webpage.text, 'html.parser')

### * 크롤링을 통해 가져온 페이지를 파일 형식으로 저장하기

In [9]:
print(soup.prettify())

<!DOCTYPE HTML>
<html lang="ko">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta contents="always" name="referrer"/>
  <meta content="600" http-equiv="refresh">
   <meta content="width=1106" name="viewport">
    <meta content="국민일보 언론사홈" property="og:title"/>
    <meta content="website" property="og:type"/>
    <meta content="http://news.naver.com/main/list.nhn?mode=LPOD&amp;mid=sec&amp;oid=005" property="og:url"/>
    <meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png" property="og:image">
     <meta content="언론사 주요 뉴스와 속보를 만나볼 수 있습니다." property="og:description"/>
     <meta content="네이버" property="og:article:author">
      <meta content="summary" name="twitter:card"/>
      <meta content="국민일보 언론사홈" name="twitter:title"/>
      <meta content="네이버 뉴스" name="twitter:site"/>
      <meta content="네이버 뉴스" name="twitter:creator"/>
      <meta content="https://ssl.pstatic.net/static.news/image

<hr>

크롤링한 내용을 가지고 이제 우리가 원하는 데이터만 뽑을 것이다.

데이터 파싱 테스트를 시도할 때마다 웹페이지 요청을 시도하는 불필요한 작업을 없애고,

나중에 다시 작업을 해도 데이터가 유지될 수 있도록 위에 있는 내용을 그대로 파일로 만들자.

In [11]:
f = open("source.html", 'w',encoding="UTF8")
f.write(soup.prettify())
f.close()

이제 저장된 내용을 불러오고, 저장된 내용을 분석해 내가 원하는 데이터를 어떻게 가져올 것인지 전략을 짜야한다.

In [13]:
with open("source.html", 'r',encoding="UTF8") as fp:
    f_soup = BeautifulSoup(fp, 'html.parser')

In [74]:
parsing_test = f_soup.find_all(attrs={"class": "nclicks(cnt_papaerart4)"})
parsing_test

[<a class="nclicks(cnt_papaerart4)" href="https://news.naver.com/main/read.nhn?mode=LPOD&amp;mid=sec&amp;oid=005&amp;aid=0001436525">
              [포토] 코로나에도… 즐거운 동심
             </a>,
 <a class="nclicks(cnt_papaerart4)" href="https://news.naver.com/main/read.nhn?mode=LPOD&amp;mid=sec&amp;oid=005&amp;aid=0001436596">
              가족동반 출장엔 “관행” 밀수 의혹은 “집에서 사용”… 황당 해명
             </a>,
 <a class="nclicks(cnt_papaerart4)" href="https://news.naver.com/main/read.nhn?mode=LPOD&amp;mid=sec&amp;oid=005&amp;aid=0001436602">
              변이 바이러스 국내 감염자 1499명 ‘비상’
             </a>,
 <a class="nclicks(cnt_papaerart4)" href="https://news.naver.com/main/read.nhn?mode=LPOD&amp;mid=sec&amp;oid=005&amp;aid=0001436497">
              [국민만평-서민호 화백] 2021년 5월 5일
             </a>,
 <a class="nclicks(cnt_papaerart4)" href="https://news.naver.com/main/read.nhn?mode=LPOD&amp;mid=sec&amp;oid=005&amp;aid=0001436562">
              베이조스 44조8000억원·머독은 1조9100억원 넘겨
             </a>,
 <a class="nclicks(cnt_pap

In [75]:
parsing_test[0].get_text()

'\n             [포토] 코로나에도… 즐거운 동심\n            '

 - 문자열 함수 `replace()`와 `strip()`을 활용하여 불필요한 문자인 개행문자(`\n`)와 공백문자(`&nbsp;`)를 없애자

In [76]:
parsing_test[0].get_text().replace("\n","").strip()

'[포토] 코로나에도… 즐거운 동심'

 - 각 기사 제목 옆에 링크도 매칭시켜주자

In [77]:
parsing_test[0]['href']

'https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=005&aid=0001436525'

In [81]:
def pairing_title_and_link(soup_data):
    result = []
    for element in soup_data:
        result.append(
            (element[0].get_text().replace("\n","").strip(),
            )
        )
    return result
    

matching_result = pairing_title_and_link(parsing_test)

In [82]:
matching_result

[(1, 1),
 (1, 1),
 (1, 1),
 (1, 1),
 (1, 1),
 (1, 1),
 (1, 1),
 (1, 1),
 (1, 1),
 (1, 1),
 (1, 1),
 (1, 1)]