<a href="https://colab.research.google.com/github/1st-award/andong_2021_2_1/blob/main/Python/%ED%95%84%EA%B8%B0%20%EC%82%AC%EB%B3%B8/data_crawling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 웹 크롤링(Web Crawling)과 **웹 스크래핑(Web Scraping)**

## 웹 크롤링
- 웹 크롤러(Web Crawler)
  - 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램, 자동화 봇(bot
  - Google, Bing 등과 같은 검색 엔진은 데이터를 최신 상태로 유지하기 위하여 여러 사이트에서 웹 크롤링
- 웹 크롤링(Web Crawling)
  - 자동화 봇인 웹 크롤러가 웹에서 링크를 타고다니며 웹 페이지들을 수집하는 행위
  - 주로 웹 상의 기존 페이지를 다운로드하여 복사본 생성
  - 엡 스파이더링이라고도 함
  - 예: Google, Yahoo, Bing 등의 봇이 전 세계의 웹 사이트를 수집하여 검색 서비스를 제공하는 행위

### **웹페이지 크롤링 주의사항**
1. 스크랩하는 콘텐츠에 지적재산권이 있는지 확인한다.
2. 짧은 시간에 과도하게 데이터를 수집하여 해당 사이트에 부담을 주지 않는지 확인한다.
3. 해당 사이트의 이용방침을 위반하지 않는지 확인한다.
4. 사용자의 민감한 정보를 가져오지 않는지 확인한다.
5. 가져온 콘텐츠를 적합하게 사용해야한다.

### 스크래핑 과정 요약
1. 스크래핑할 데이터 정의
2. 웹 페이지 선정
3. 선정한 웹 페이지의 HTML 코드에서 추출하고자 하는 데이터 분석
4. 원하는 웹 페이지에 **request를 보내어 html 정보를 받음**
5. **받은 html 정보를 파싱**
6. **필요한 정보 추출**
7. 추출한 정보 저장

### 웹 페이지 파싱
파싱(Parsing)은 **구문 분석**이라고 하며 문장을 이루고 있는 구성 요소를 분해하고 분해된 각 요소의 위계 관계를 분석하여 구조를 결정하는 것을 말한다. 즉 가공되지 않은 데이터를 분해하여 원하는 형태로 조립하고 다시 정보를 빼내는 작을 말한다. **웹 페이지 파싱**은 **웹**에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보로 가공하는 것이다.

## 순서 : 웹 크롤링 -> 웹 스크래핑 -> 파싱

### requests와 Beautiful Soup을 이용하여 웹 스크래핑하기
- requests : 웹 페이지의 HTML 문서에 담긴 내용을 가져 오도록 request(요청)하는 HTTP 라이브러리
- Beautiful Soup: requests 결과로 반환받은 (복잡한) HTML 문서를 탐색해서 원하는 추출할 수 있도록 분석해주는 파이썬 라이브러리.
- Beautiful Soup:은 날 것의 html을 의미있는 객체로 만들어서 사용자가 요리하기 쉽게 만들어 준다.


## request.get(url)함수 이용하여 원하는 URL에 데이터 요청하기

### **당근마켓 중고거래 인기매물(https://www.daangn.com/hot_articles)** 페이지 데이터 읽어오기

In [None]:
import requests as rq
# 웹 페이지 가져오기
daagnReq = rq.get("https://www.daangn.com/hot_articles")
# 사람이 읽기 쉬운 텍스트 형태의 코드
print(daagnReq.text)

### **국립안동대학교(https://www.andong.ac.kr/main/index.do)** 메인 페이지의 html 소스 읽기

In [None]:
import requests as rp
# 웹 페이지 가져오기
anuReq = rq.get("https://www.andong.ac.kr/main/index.do")
# 컴퓨터가 처리하기 쉬운 바이너리 코드 형식
print(anuReq.content) 

### 네이버 영화랭킹 페이지의 html 소스 읽기

In [None]:
import requests

requests = requests.get("https://movie.naver.com/movie/sdb/rank/rmovie.nhn")
html = requests.text
print(html)

## 요청한 웹 페이지의 텍스트 데이터에서 원하는 데이터 추출하기

In [None]:
# 안동대학교 웹 페이지 파싱하기
from bs4 import BeautifulSoup as bs
anuSoup = bs(anuReq.content, 'html.parser')
print(anuSoup)

In [None]:
# 당근마켓 중고거래 인기매물 페이지 파싱하기
from bs4 import BeautifulSoup as bs
daggnSoup = bs(daagnReq.content, 'html.parser')
print(daggnSoup)

### **파싱한 문서에서 필요한 데이터 추출하기**

In [None]:
# 필요한 데이터(안동대학교 홈페이지의 제목) 추출하기
mydata = anuSoup.find('title')
print(mydata)
# 추출한 데이터 활용하기
for string in mydata:
  print(string)

## 태그 속성을 이용하여 데이터를 크롤링하는 방법

- **find: 첫 번째 태그를 리턴**
  - data = soup.find('p', class_ = 'class name')
  - data = soup.find('p', 'class name')
  - data = soup.find('p', attrs = {'align':'center'})
  - data = soup.find(id = 'name')

- **findAll: 조건에 해당되는 모든 태그를 리스트로 리턴**
  - data = soup.findAll()
- **select_one(): 조건에 맞는 태그가 여러 개 있어도 한 개만 가져옴**
  - data = soup.select_one('태크이름')
  - data = soup.select_one('.클래스이름')
  - data = soup.select_one('#아이디이름')
  - data = soup.select_one('상위태크이름>자식태그>자식태그')
  - data = soup.select_one('태그이름.클래스이름')
  - data = soup.select_one('#아이디이름>태그이름.클래스이름')

- **select(): 조건에 맞는 태그를 여러 개 가져옴**

### **안동대학교 홈페이지 상단 배너 정보 읽기**

In [None]:
import requests as rq
from bs4 import BeautifulSoup as bs

anuRes = rq.get('https://www.andong.ac.kr/main/index.do')
soup = bs(anuRes.content, 'html.parser')
mydata = soup.find(id="top-banner")
print(mydata)

In [None]:
import requests as rq
from bs4 import BeautifulSoup as bs

anuRes = rq.get('https://www.andong.ac.kr/main/index.do')
soup = bs(anuRes.content, 'html.parser')
top_banner = soup.findAll('p', 'tit')
for t in top_banner:
  print(t.text)

In [None]:
import requests as rq
from bs4 import BeautifulSoup as bs

anuRes = rq.get('https://www.andong.ac.kr/main/index.do')
soup = bs(anuRes.content, 'html.parser')
top_banner = soup.select('#popupList > div > div > p.tit')
for t in top_banner:
  print(t.text)

### **당근마켓 중고거래 인기매물 페이지의 정보 읽기**

In [None]:
import requests as rq
from bs4 import BeautifulSoup as bs

res = rq.get('https://www.daangn.com/hot_articles')
soup = bs(res.content, 'html.parser')
# 판매중인 물건 이름 추출
sale = soup.findAll('h2', 'card-title')
for productName in sale:
  # print(productName.text)
  print(productName.text.strip())

In [None]:
res = rq.get('https://www.daangn.com/hot_articles')
soup = bs(res.content, 'html.parser')
# 판매중인 물건 이름 추출
sale = soup.findAll('div', 'card-price ')
for productPrice in sale:
  # print(productName.text)
  print(productPrice.text.strip())

In [None]:
import requests as rq
from bs4 import BeautifulSoup as bs

res = rq.get('https://www.daangn.com/hot_articles')
soup = bs(res.content, 'html.parser')

# 판매중인 물건의 이름, 가격, 판매지역 추출
info_1 = soup.findAll('h2', 'card-title')
info_2 = soup.findAll('div', 'card-price ')
info_3 = soup.findAll('div', 'card-region-name')

prodName = []
prodPrice = []
address = []

for name in info_1:
  prodName.append(name.text.strip())
for price in info_2:
  prodPrice.append(price.text.strip())
for addr in info_3:
  address.append(addr.text.strip())

address

### **11번가 '디지털/가전' 카테코리의 '도전! 베스트' 상품 리스트 스크랩핑**

In [None]:
from bs4 import BeautifulSoup as bs
import requests as rq

res = rq.get('https://www.11st.co.kr/browsing/BestSeller.tmall?method=getBestSellerMain&cornerNo=10')
soup = bs(res.content, 'html.parser')
dataList = soup.select('#challengeBestAdList > li > div > a > div.pname > p')
for data in dataList:
  print(data.text)

### **11번가 '디지털/가전' 카테고리의 '베스트500' 상품 리스트 크롤링**

In [None]:
res = rq.get('https://www.11st.co.kr/browsing/BestSeller.tmall?method=getBestSellerMain&cornerNo=10')
soup = bs(res.content, 'html.parser')
dataList = soup.select('#bestPrdList > div > ul > li > div > a > div.pname > p')
for data in dataList:
  print(data.text)

### **네이버 영화 >> 영화랭킹**

In [None]:
import requests as rq
from bs4 import BeautifulSoup as builder_registry

response = rq.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn')
html = response.text
soup = bs(html, 'html.parser')
movieRank = soup.select('#old_content > table > tbody > tr > td.title > div > a')
for movie in movieRank:
  print(movie.text)

### **네이버 영화 >> 상영 예정작**

In [None]:
import requests as rq
import pandas as pd
from bs4 import BeautifulSoup as builder_registry

res = rq.get('https://movie.naver.com/movie/running/current.nhn')
soup = bs(res.content, 'html.parser')
movieTitle = soup.select('#content > div.article > div > div.lst_wrap > ul > li > dl > dt > a')
movieRating = soup.select('#content > div.article > div > div.lst_wrap > ul > li > dl > dd.star > dl.info_star > dd > div > a > span.num')
movieVote = soup.select('#content > div.article > div > div.lst_wrap > ul > li > dl > dd.star > dl.info_star > dd > div > a > span.num2 > em')

movie = []
rating = []
participants = []
for title in movieTitle:
  movie.append(title.text.strip())
for rate in movieRating:
  rating.append(rate.text.strip())
for vote in movieVote:
  participants.append(vote.text.strip())

print(len(movie))
print(len(rating))
print(len(participants))
naverMovie = pd.DataFrame({'제목' : movie, '평점' : rating, '참여인원' : participants})
naverMovie.to_csv("/gdrive/My Drive/Python/naverMovie.csv", index=False, encoding='utf-8')

### **네이버 금융의 인기검색종목**

In [None]:
import requests as rq
from bs4 import BeautifulSoup as builder_registry

res = rq.get('https://finance.naver.com/')
soup = bs(res.content, 'html.parser')
dataList = soup.select("#container > div.aside > div.group_aside > div.aside_area.aside_popular > table > tbody > tr")
# dataList = soup.select("#container > div.aside > div.group_aside > div.aside_area.aside_popular > table > tbody > tr > th > a")

for data in dataList:
  item = data.find('a').get_text()
  price = data.find('td').get_text()
  diff = data.find('span').get_text()
  print(item, price, diff)

## 3_웹크롤링_뉴스 헤드라인 검색

In [None]:
import requests as rq
from bs4 import BeautifulSoup as builder_registry

res = rq.get('https://news.daum.net/digital#1')
soup = bs(res.content, 'html.parser')
headList = soup.select("#cSub > div > div.section_cate.section_headline > ul.list_mainnews > li > div.cont_thumb > strong > a")

for data in headList:
  print(data.get_text())

In [None]:
import requests as rq
from bs4 import BeautifulSoup as builder_registry

res = rq.get('https://news.daum.net/')
soup = bs(res.content, 'html.parser')
headLineNews1 = soup.select("#cSub > div > ul > li > div.item_issue > div > strong > a")
headLineNews2 = soup.select("#mArticle > div.box_headline > ul > li > strong > a")

for head1 in headLineNews1:
  print(head1.get_text())
for head2 in headLineNews2:
  print(head2.get_text())

In [None]:
from google.colab import drive
drive.mount('/gdrive', force_remount=True)

In [None]:
import requests as rq
import pandas as pd
from bs4 import BeautifulSoup as bs

res = rq.get('https://news.daum.net/')
soup = bs(res.content, 'html.parser')
headLineNews1 = soup.select("#cSub > div > ul > li > div.item_issue > div > strong > a")
journal1 = soup.select('#cSub > div > ul > li > div.item_issue > div > span')
headLineNews2 = soup.select("#mArticle > div.box_headline > ul > li > strong > a")
journal2 = soup.select("#mArticle > div.box_headline > ul > li > strong > span")

title = []
press = []
for head1 in headLineNews1:
  title.append(head1.get_text())
for j1 in journal1:
  press.append(j1.get_text())
for head2 in headLineNews2:
  title.append(head2.get_text())
for j2 in journal2:
  press.append(j2.get_text())

daumNewsHome = pd.DataFrame({"헤드라인": title, "언론사": press})
daumNewsHome.to_excel('/gdrive/My Drive/Python/daumNewsHome.xlsx', sheet_name='daumNews')
daumNewsHome