## [ 1. Web 페이지 크롤링 ]
### (1) 기본 라이브러리 import

In [1]:
import requests
from bs4 import BeautifulSoup

---
### (2) 웹페이지 코드 가져오기
- <b>`requests`</b> 라이브러리를 활용한 HTML 페이지 요청
    - res 객체에 HTML 데이터가 저장되고, res.content로 데이터를 추출할 수 있다.

In [2]:
res = requests.get('http://www.futurekorea.co.kr/news/articleView.html?idxno=138720')

---
###  (3) 웹페이지 (HTML 파일) 자동 분석 라이브러리 


- <b>파싱(parsing)</b> : 문자열의 의미 분석
- <b>크롤링에서 의미하는 파싱(parsing)</b> : HTML 파일의 코드를 분석해서 웹브라우저의 외관에 어디에 어떻게 변환되는지 찾아내는 방법  
- <b>파싱(parsing) 작업을 진행해주는 라이브러리 : `bs4` </b>
    - bs4 라이브러리 안에서도 실제 파싱 작업을 담당하는 함수는 <b>`BeautifulSoup`</b>이다.

In [3]:
soup = BeautifulSoup(res.content, 'html.parser')

---
### (4) Tag 내용 출력
- 만약 위 웹사이트 기사의 큰 제목을 가져오고 싶을경우, 해당 기사의 제목을 페이지 소스에서 찾게되면 다양한 태그가 함께 검색되는 것을 볼 수 있다.


- 그 중 <b>`meta`</b> 태그는 기사의 제목을 의미하는 것이 아니다.


- <b>`meta`</b> : 해당 내용을 가진 페이지라는 것을 검색 엔지에 알려주는 용도로 쓰이는 태그이다. (겉으로 표출되는 태그가 아니기 때문에 <head>사이에 사용된다.)

    
- 보통 웹에서 겉으로 드러나는 제목은 <b>`h3`</b>,<b>`h2`</b>,<b>`h1`</b>등의 태그를 가진다.

    
- 하지만, 이 기사에서는 다음과 같은 태그를 가진 코드가 기사의 제목이다.
![1](https://user-images.githubusercontent.com/53929665/91277920-71f67080-e7be-11ea-8bff-8060c6aa0f34.JPG)


In [4]:
title = soup.find('div', 'article-head-title')
title.get_text()

'[브랜드평판]  제약 상장기업 브랜드 2020년 8월 빅데이터 분석결과...1위 삼성바이오로직스, 2위 셀트리온, 3위 신풍제약'

- <b>다음의 밑줄친 정보를 가져오고 싶은 경우</b>

<img src="https://user-images.githubusercontent.com/53929665/91280819-47a6b200-e7c2-11ea-9353-0e32a4ebe1c1.JPG" alt="drawing" width="300"/>

<img src="https://user-images.githubusercontent.com/53929665/91280731-25ad2f80-e7c2-11ea-911e-82b6509d4424.JPG" alt="drawing" width="500"/>


In [5]:
li = soup.find_all('li') #li 태그들을 크롤링
for tag in li:
  print(tag.text)

전체기사

커버스토리

전체
기사


칼럼


미래길


시대를 보는 눈


전체
기사
칼럼
미래길
시대를 보는 눈

정치·사회

전체
정치


사회


칼럼


우먼


전체
정치
사회
칼럼
우먼

북한·통일

전체
탈북사회


북한인권


북한소식


통일뉴스


전체
탈북사회
북한인권
북한소식
통일뉴스

국제·안보

전체
안보


군사


미국소식


국제기사


글로벌 뷰


글로벌 풍향계


전체
안보
군사
미국소식
국제기사
글로벌 뷰
글로벌 풍향계

문화·컬처

전체
문화


컬처


영화


헬스


신앙


연재


전체
문화
컬처
영화
헬스
신앙
연재

경제

전체
일반경제


기업분석


교육·지식


지방자치


공공기관


전체
일반경제
기업분석
교육·지식
지방자치
공공기관

산업

전체
의료/건강


금융/증권


교육/출판


산업/재계


식품/유통


IT/과학


라이프 스타일


뷰티/패션


건설/부동산


창업/벤처


자동차/항공


여행/레저


신간/서평


전체
의료/건강
금융/증권
교육/출판
산업/재계
식품/유통
IT/과학
라이프 스타일
뷰티/패션
건설/부동산
창업/벤처
자동차/항공
여행/레저
신간/서평

라이트뉴스


미래기획

전체
미래기획


청년칼럼


e-論


전체
미래기획
청년칼럼
e-論

미래인터뷰

전체
인터뷰


미래인터뷰


대사와 함께 하는 세계여행


전체
인터뷰
미래인터뷰
대사와 함께 하는 세계여행

편집위원칼럼

전체
이근미


도널드커크


황성준


이강호


황의각


박경귀


김성은


김승욱


이애란


이춘근


남정욱


김광동


김범수


김성봉


김종석


노환규


박성현


송대성


이정훈


이종윤


차기환


최승노


한정석


이원우


김상철


류우익


문용린


박상봉


조동근


윤창현


김용삼


김운회


전체
이근미
도널드커크
황성준
이강호
황의각
박경귀
김성은
김승욱
이애란
이춘근
남정욱
김광동
김범수
김성봉
김종석
노환규
박성현
송

- <b>기자 내용의 요약 내용을 meta 태그에서 가져오고 싶은 경우</b>
![4](https://user-images.githubusercontent.com/53929665/91381995-ad974600-e863-11ea-9dc8-a456632667dd.JPG)


In [48]:
p = soup.find('meta', attrs = {'name':'description'})
print(p['content'])

제약 상장기업 브랜드평판 2020년 8월 빅데이터분석 결과, 1위 삼성바이오로직스 2위 셀트리온 3위 신풍제약 순으로 분석었다. ​​한국기업평판연구소는 2020년 7월 24일부터 2020년 8월 24일까지의 122개 제약 상장기업 브랜드 빅데이터 130,434,008개를 분석하여 소비자와 브랜드의 관계 분석을 하였다. 지난 2020년 7월 브랜드 빅데이터 123,646,140개와 비교하면 5.49% 증가했다.​브랜드에 대한 평판지수는 브랜드에 대한 소비자들의 활동 빅데이터를 참여가치, 소통가치, 소셜가치, 시장가치, 재무가치로 나누


## [ 2. 네이버 IT 헤드라인 뉴스 타이틀  크롤링 ]

In [50]:
import requests
from bs4 import BeautifulSoup

res = requests.get("https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=105")
soup = BeautifulSoup(res.content, 'html.parser')

data = soup.find_all('a', class_='cluster_text_headline nclicks(cls_sci.clsart)')

for item in data:
    print(item.get_text())

건물·자동차에…페인트처럼 칠하는 '태양전지' 나왔다
페인트처럼 칠하면 전기 만드는 태양전지 나왔다
"도심 빌딩 유리창으로 태양광 발전"...KETI, 고효율 투명 태양전지 개발
페인트처럼 칠해 태양전지 만든다
LG 벨벳 내달 멕시코·브라질 출시..중남미 본격 공략
'LG 벨벳' 중남미 상륙…연내 30개국 출시 확대
네이버·네이트 스포츠뉴스, 오늘부터 댓글창 없앤다
네이버-네이트, 오늘부터 스포츠 뉴스 댓글 ‘잠정 중단’
軍 출신 권현 KAIST 박사졸업생, 3년간 26편 논문 게재 눈길
군 복무하며 SCI 14편 등 26편 발표…권현 소령 KAIST 박사 졸업
LG유플러스, 유기동물 보호 SNS 캠페인 진행
LGU+ "반려동물, 사지말고 입양하세요"


## [ 3. 네이버 실시간 검색어 크롤링 ]
---

> <b><주의!!!!></b>  
> 네이버 측에서 크롤러를 막기 위해서 해더값을 체크하기 때문에  
> 일반 브라우저와 같이 요청하기 위해 해더값을 따로 설정해준다.
> 참조 링크 : https://blog.naver.com/kiddwannabe/221185808375

In [70]:
import requests

from bs4 import BeautifulSoup

# 유저 정보 표기 
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

url = 'https://datalab.naver.com/keyword/realtimeList.naver?age=all&where=main'

# 해더 적용
res = requests.get(url, headers = headers)

soup = BeautifulSoup(res.content, 'html.parser')

ranking_list = soup.find_all('ul', 'ranking_list')
ranking_item = soup.find_all('li', 'ranking_item')

print('[네이버 실시간 검색 순위]\n')

for item in ranking_item:
    if len(item.get_text().split()) == 2:
           print(item.get_text().split()[0]+'위 : '+item.get_text().split()[1])
    elif len(item.get_text().split()) > 2:
           print(item.get_text().split()[0]+'위 : '+item.get_text().split()[1]+' '+item.get_text().split()[2])
  
# 같은 결과값 출력, but 다른 코드
# i = 1
# for item in data:
#     print(str(i) +'위 : ' + item.get_text())
#     i=i+1

[네이버 실시간 검색 순위]

1위 : 콰이어트 플레이스
2위 : 배슬기
3위 : 코로나 라이브
4위 : 시무7조
5위 : 딩고
6위 : 태풍 마이삭
7위 : 심리섭
8위 : 곰돌이 푸
9위 : 파월
10위 : 시무7조상소문
11위 : 꼰대라떼
12위 : 포그바
13위 : 신성
14위 : 007 골든
15위 : 맛남의 광장
16위 : 광주 3단계
17위 : 염따
18위 : 계단말고 엘리베이터
19위 : 임영웅 사랑의콜센타
20위 : 진인 조은산
