# 웹 크롤링
> 크롤링 : .. 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램 ..

### Libraries

In [36]:
import requests
from bs4 import BeautifulSoup

- **requests** : 웹 상의 데이터를 가져올 때
- **BeautifulSoup** : 가져온 데이터에서 필요한 정보를 파싱할 때
    - HTML 및 XML 문서를 구문 분석하기위한 Python 패키지

### 데이터 가져오기

In [3]:
url = 'https://search.naver.com/search.naver?query=코로나&where=news&ie=utf8&sm=nws_hty'
resp = requests.get(url)

- **url** : 가져오고 싶은 데이터의 주소
- `requests.get()` : 데이터 수신 요청
    - resp 출력시 200 : 성공
    - resp 출력시 4~ : 실패
    - resp.text / resp.context : 문자열로 디코딩된 결과 / 인코딩 되어있는 원본 결과 (선호됨)

In [30]:
url = 'https://search.naver.com/search.naver'
query = {
    'where' : 'news',
    'query' : '코로나'
}
resp = requests.get(url, query)

- **url** : 프로토콜 + 주소값 + 리소스경로
- **query** : 쿼리 스트링, Dictionary or bytes to be sent in the query string

### 데이터 처리

In [31]:
soup = BeautifulSoup(resp.content, 'lxml')

- BeautifulSoup의 여러 파서

|Parser|선언 방법|장점|단점
|:-|:-|:-|:-|
|파이선 html.parser|BeautifulSoup(markup, 'html.parser')|설치 불필요|
|lxml HTML parser|BeautifulSoup(markup, 'lxml')|매우 빠름xllml 설치 필요|
|lxml XML parser|BeautifulSoup(markup, 'xml')|매우 빠름|lxml 설치 피요|
|html5lib|BeautifulSoup(markup, 'html5lib')|웹 브라우저와 같은 방식으로 페이지를 파싱함|html5lib 설치 필요 + 매우 느림|

- `lxml`이 가장 빠르고 효율적이여서 많이 사용된다
- **soup**을 이용하여 html을 tag 단위로 파싱할 수 있다

### 원하는 tag 찾기
- tag들의 공통적인 족보 / 속성을 찾아야한다
- `BeautifulSoup.select()` : html 내에서 원하는 부분만 선택
- select문 안에는 원하는 조건을 입력하면 되는데, 여러 방식으로 기입할 수 있다
    1. 태그명 (요소명)
        - `select('태그명')`
    2. 클래스명
        - `select('.클래스명')`
        - `select('태그명.클래스명')`
    3. 아이디
        - `select('#아이디명')`
    4. 구조적 위치
        - `select('상위태그명 > 하위태그명 > 하위태그명')`
        - `select('상위태그명 > 바로아래태그명 하위태그명')`
        - `select('상위태그명.클래스명 > 하위태그명.클래스명')` : 자식 태그 (바로 아래에 있다!)
        - `select('상위태그명.클래스명 하위태그명')` : 자손 태그 (아래에 있는데 어딘지는 모르겠다)
        - `select('#아이디명 > 태그명.클래스명')`
    5. 태그 특정 속성 값
        - `select('태그명[속성=값]')`

In [32]:
a_tag = soup.select('ul.type01 li dl dt a')
a_tag[0]

<a class=" _sp_each_title" href="https://imnews.imbc.com/replay/2020/nwtoday/article/5806272_32531.html" onclick="return goOtherCR(this, 'a=nws*h.tit&amp;r=1&amp;i=88000119_000000000000000001044041&amp;g=214.0001044041&amp;u='+urlencode(this.href));" target="_blank" title="美서 코로나19 백신 '최종단계 임상시험'…&quot;시판 기대감&quot;">美서 <strong class="hl">코로나</strong>19 백신 '최종단계 임상시험'…"시판 기대감"</a>

### 필요한 정보 가져오기

#### tag 벗기기
- `<tag ~ > 내용 </태그>` 에서 *내용* 만 가져오기


In [33]:
a_tag[0].text

'美서 코로나19 백신 \'최종단계 임상시험\'…"시판 기대감"'

In [34]:
for a in a_tag:
    print(a.text)

美서 코로나19 백신 '최종단계 임상시험'…"시판 기대감"
EU "중국·러시아, 코로나19 관련 허위정보 유포"(종합)
코로나 확진 45명…지역 40명 전원 수도권(종합)
코로나19 확산 이후 모바일게임 설치 횟수 전년比 84% ↑
[속보]기아차 소하리공장 직원 코로나 확진, 공장 하루 휴무
[단독]강서 영어유치원 조리사 확진···원생들은 코로나검사 안해 불안
이재명, 코로나19 대응 경기도의료원 임직원에 '특별휴가'
포스트 코로나…바이오헬스·2차전지 수출 회복세 빨라
코로나 여파에…대한항공 객실승무원 최대 1년 무급휴직한다(종합)
[속보]코로나19 신규 확진자 45명···지역발생 40명


#### tag 내 특정 속성 값 가져오기
- 태그 내 정보를 가져올 때
- 주로 링크 주소를 가져올 때 사용
    - `<a href = '주소'> 내용 </a>` 형태

In [21]:
a_tag[0]['href']

'https://imnews.imbc.com/replay/2020/nwtoday/article/5806272_32531.html'

In [22]:
for a in a_tag:
    print(a['href'])

https://imnews.imbc.com/replay/2020/nwtoday/article/5806272_32531.html
http://yna.kr/AKR20200610187951098?did=1195m
http://news.khan.co.kr/kh_news/khan_art_view.html?artid=202006111027001&code=940601
https://biz.chosun.com/site/data/html_dir/2020/06/11/2020061101362.html?utm_source=naver&utm_medium=original&utm_campaign=biz
http://news.tvchosun.com/site/data/html_dir/2020/06/11/2020061190044.html
https://view.asiae.co.kr/article/2020061105454700362
http://www.fnnews.com/news/202006110815181184
https://www.sedaily.com/NewsView/1Z3ZH5A9CZ
https://biz.chosun.com/site/data/html_dir/2020/06/11/2020061101409.html?utm_source=naver&utm_medium=original&utm_campaign=biz
http://yna.kr/AKR20200611056651003?did=1195m


In [24]:
help(requests.get)

Help on function get in module requests.api:

get(url, params=None, **kwargs)
    Sends a GET request.
    
    :param url: URL for the new :class:`Request` object.
    :param params: (optional) Dictionary or bytes to be sent in the query string for the :class:`Request`.
    :param \*\*kwargs: Optional arguments that ``request`` takes.
    :return: :class:`Response <Response>` object
    :rtype: requests.Response



---

## 연습

---
### 뉴스 기사 100개 가져오기

In [41]:
for page in range(10):
    url = 'https://search.naver.com/search.naver'
    query = {
        'where' : 'news',
        'query' : '코로나',
        'start' : page * 10 + 1  # 1, 11, 21, 31 ... , 91
    }
    resp = requests.get(url, query)
    soup = BeautifulSoup(resp.content, 'lxml')
    a_tag = soup.select('ul.type01 li dl dt a')
    for a in a_tag:
        print(a['title'])

美서 코로나19 백신 '최종단계 임상시험'…"시판 기대감"
EU "중국·러시아, 코로나19 관련 허위정보 유포"(종합)
우리 국민의 코로나 궁금증 1위는? '의심 증상'
코로나 확진 45명…지역 40명 전원 수도권(종합)
[속보]코로나19 신규 확진자 45명···지역발생 40명
[단독]강서 영어유치원 조리사 확진···원생들은 코로나검사 안해 불안
이재명, 코로나19 대응 경기도의료원 임직원에 '특별휴가'
코로나 여파에…대한항공 객실승무원 최대 1년 무급휴직한다(종합)
코로나에 게임업계는 호황...게임 이용자 두배 증가
코로나 여파에…대한항공 객실승무원 최대 1년 무급휴직한다
내년도 최저임금 심의 오늘 시작…최대 변수는 코로나19(종합)
HK이노엔, 코로나19 백신 개발 착수
이재명, 코로나19 대응 경기도의료원 임직원에 '특별휴가'
코로나19 신규 확진 45명, 지역발생 40명 모두 수도권
‘코로나 충격’ 3개월 연속 취업자 줄었다
코로나 치료제 英임상시험 소식에 셀트리온그룹주 강세
제약업계 직원 60% "한국 코로나19 신약 개발못할 것"
카이스트, 코로나19 확산방지시스템 개발
OECD "올해 한국 경제성장률 -1.2%, 코로나 2차 확산땐 -2.5%"
코로나19 완치자, 혈장 공여 일주일새 6배…현재 75명
한국인 코로나19 환자 중증 악화하는 위험요인 4개 찾았다
롯데월드 방문 원묵고 3학년생, 코로나19 '음성' 최종 판정
포스트 코로나…바이오헬스·2차전지 수출 회복세 빨라
리치웨이발 코로나19, 3군데 집단에 동시전염(종합)
“계속되는 수도권 감염”...코로나19 신규 확진 45명
'코로나 소비'는 알뜰 소비? 마스크 지출↑ 여가비↓
WHO, 코로나19 무증상 전파 드물다고 한 발언 재차 해명
코로나의 이중생활? "여가시간↑" vs "투잡 늘어"
코로나로 뜬 ‘K-방역’ 국제표준으로 만든다... 정부 로드맵 발표
日·IOC, "도쿄올림픽 간소하게"..코로나로 차선책 택해
정은경 "롯데월드 코로나 고3, 거짓 양성인지 검토"
은성수 "코로나 정상화 부

### 이미지 가져오기
이미지는 tag 내 src의 url에 저장되어 있다

In [53]:
url = 'https://search.naver.com/search.naver?query=코로나&where=news&ie=utf8&sm=nws_hty'
soup = BeautifulSoup(requests.get(url).content, 'lxml')
img_tag = soup.select('ul.type01 li a img')

In [59]:
for tag in img_tag:
    print(tag['src'])

https://search.pstatic.net/common/?src=https%3A%2F%2Fimgnews.pstatic.net%2Fimage%2Forigin%2F214%2F2020%2F06%2F11%2F1044041.jpg&type=ofullfill80_80_q75_re2
https://search.pstatic.net/common/?src=https%3A%2F%2Fimgnews.pstatic.net%2Fimage%2Forigin%2F001%2F2020%2F06%2F11%2F11670129.jpg&type=ofullfill80_80_q75_re2
https://search.pstatic.net/common/?src=https%3A%2F%2Fimgnews.pstatic.net%2Fimage%2Forigin%2F346%2F2020%2F06%2F11%2F32477.jpg&type=ofullfill80_80_q75_re2
https://search.pstatic.net/common/?src=https%3A%2F%2Fimgnews.pstatic.net%2Fimage%2Forigin%2F448%2F2020%2F06%2F11%2F299563.jpg&type=ofullfill80_80_q75_re2
https://search.pstatic.net/common/?src=https%3A%2F%2Fimgnews.pstatic.net%2Fimage%2Forigin%2F366%2F2020%2F06%2F11%2F536852.jpg&type=ofullfill80_80_q75_re2
https://search.pstatic.net/common/?src=https%3A%2F%2Fimgnews.pstatic.net%2Fimage%2Forigin%2F032%2F2020%2F06%2F11%2F3014278.jpg&type=ofullfill80_80_q75_re2
https://search.pstatic.net/common/?src=https%3A%2F%2Fimgnews.pstatic.net%