# 웹 크롤링(Web Crawling)
## 1. 크롤링(crawoling) 이란?
- Web상에 존재하는 Contents를 수집하는 작업 (프로그래밍으로 자동화 가능)
    - HTML 페이지를 가져와서, HTML/CSS등을 파싱하고, 필요한 데이터만 추출하는 기법
    - Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서, 받은 데이터 중 필요한 데이터만 추출하는 기법
    - Selenium등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법

## 2. BeautifulSoup 크롤링
- HTML의 태그를 파싱해서 필요한 데이터만 추출하는 함수를 제공하는 라이브러리

In [None]:
import requests
from bs4 import BeautifulSoup

# 1) reqeusts 라이브러리를 활용한 HTML 페이지 요청 
# 1-1) res 객체에 HTML 데이터가 저장되고, res.content로 데이터를 추출할 수 있음
res = requests.get('https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=001&aid=0011825430')

# print(res.content)
# 2) HTML 페이지 파싱 BeautifulSoup(HTML데이터, 파싱방법)
# 2-1) BeautifulSoup 파싱방법
soup = BeautifulSoup(res.content, 'html.parser')

# 3) 필요한 데이터 검색
title = soup.find('title')

# 4) 필요한 데이터 추출
print(title.get_text())

#### BeautifulSoup 기초 함수(find, find_all)
- find() : 가장 먼저 검색되는 태그 반환
- find_all() : 전체 태그 반환

In [None]:
from bs4 import BeautifulSoup

html = """
<html>
    <body>
        <h1 id='title'>[1]크롤링이란?</h1>;
        <p class='cssstyle'>웹페이지에서 필요한 데이터를 추출하는 것</p>
        <p id='body' align='center'>파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>
    </body>
</html>
"""
soup = BeautifulSoup(html, "html.parser")

In [None]:
title_data = soup.find('h1')

In [None]:
print(title_data)

In [None]:
print(title_data.string)

In [None]:
print(title_data.get_text())

In [None]:
# 가장 먼저 검색되는 태그를 반환
soup.find('p')

In [None]:
# 태그에 있는 id로 검색 (javascript 예를 상기!)
soup.find(id='title')

In [None]:
# HTML 태그와 CSS class를 활용해서 필요한 데이터를 추출하는 방법1
soup.find('p', class_='cssstyle')

In [None]:
# HTML 태그와 CSS class를 활용해서 필요한 데이터를 추출하는 방법2
soup.find('p', 'cssstyle')

In [None]:
# HTML 태그와 태그에 있는 속성:속성값을 활용해서 필요한 데이터를 추출하는 방법
soup.find('p', attrs = {'align': 'center'})

In [None]:
# find_all() 관련된 모든 데이터를 리스트 형태로 추출하는 함수
soup.find_all('p')

- string 검색

In [None]:
res = requests.get('http://v.media.daum.net/v/20170518153405933')
soup = BeautifulSoup(res.content, 'html5lib')

In [None]:
print(soup.find_all(string='오대석'))

In [None]:
print(soup.find_all(string=['[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI', '오대석']))

In [None]:
print(soup.find_all(string='AI'))

#### Example

- 30대 남성 뉴스 랭킹
- https://news.daum.net/ranking/age/

In [None]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://news.daum.net/ranking/age/')
soup = BeautifulSoup(res.content, 'html.parser')

In [None]:
text = soup.find(string='30대 남성')

In [None]:
text = text.find_parent('div')

In [None]:
link_title = text.find_all('a','link_txt')

In [None]:
# find_all() 메서드를 사용해서 태그와 클래스이름으로 링크가 걸려있는 기사 타이틀을 가져오기
for num in range(len(link_title)):
    print(link_title[num].get_text().strip())

#### BeautifulSoup CSS Selector 사용한 크롤링
- CSS 선택 문법을 이용하여 태그 검색
- select 함수 사용

In [None]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://news.v.daum.net/v/20200819204821138')
soup = BeautifulSoup(res.content, 'html.parser')

In [None]:
# 태그 검색
soup.find('title')

In [None]:
# select 함수는 리스트 형태로 전체 반환
soup.select('title')

In [None]:
# 띄어쓰기가 있다면 하위 태그를 검색
soup.select('html head title')

In [None]:
# 띄어쓰기가 있다면 하위 태그를 검색
# 이때 바로 직계의 자식이 아니여도 관계없음
soup.select('html title')

In [None]:
# > 를 사용하는 경우 바로 아래의 자식만 검색
# 바로 아래 자식이 아니기 때문에 에러 발생
soup.select('html > title')

In [None]:
# 바로 아래 자식을 검색
soup.select('head > title')

In [None]:
# .은 태그의 클래스를 검색
# class가 article_view인 태그 탐색
soup.select('.article_view')

In [None]:
# div태그 중 class가 article_view인 태그 탐색
soup.select('div.article_view')

In [None]:
# div 태그 중 id가 harmonyContainer인 태그 탐색
soup.select('#harmonyContainer')

In [None]:
# div태그 중 id가 mArticle 인 태그의 하위 태그 중 아이디가 article_title인 태그
soup.select('div#mArticle div#harmonyContainer')

#### CSS Selector 구하기 -> Chrome Browser 기능

In [None]:
soup.select('#harmonyContainer > section')

## Example 여러 페이지 가져오기

In [None]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://news.daum.net/ranking/age/')
soup = BeautifulSoup(res.content, 'html.parser')

In [None]:
text = soup.find(string='30대 남성')

In [None]:
text = text.find_parent('div')

In [None]:
link_title = text.find_all('a','link_txt')

In [None]:
link_title

In [None]:
 a = link_title[0]

In [None]:
a.get_attribute_list('href')

In [None]:
news_contents=[]
for item in link_title:
    sub_res = requests.get(item.get_attribute_list('href')[0])
    sub_soup = BeautifulSoup(sub_res.content, 'html.parser')
    news_contents.append(sub_soup.select('#harmonyContainer > section')[0].get_text())

In [None]:
news_contents

## 3. Selenium 웹 크롤링
- 브라우저를 제어해서 크롤링을 하는 방법
- Selenium: 웹을 테스트하기 위한 프레임워크
- 공식 홈페이지(http://www.seleniumhq.org/)

사전준비 (Selenium 설치)
1. Selenium 인스톨: pip install selenium
2. 웹드라이버 인스톨: 웹 테스트 자동화를 위해 제공되는 툴(각 browser및 os 별로 존재)
- selenium - 테스트 코드를 사용하여 브라우져에서의 액션을 테스트할 수 있게 해주는 툴
- Firefox, chromedriver 등 각 브라우져마다 웹드라이버 다운로드 가능
+ https://sites.google.com/a/chromium.org/chromedriver/ (Chrome 브라우저용)
+ https://github.com/mozilla/geckodriver/releases (Firefox 브라우저용)

확인: 설치 디렉토리를 알아두어야 함

In [None]:
try:
    !pip install selenium
except:
    pass

In [None]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

# 드라이버 생성
# chromedriver 설치된 경로를 정확히 기재해야 함
chromedriver = 'D:/Downloads/chromedriver.exe' # 윈도우 
#chromedriver = '/usr/local/Cellar/chromedriver/chromedriver' # 맥
driver = webdriver.Chrome(chromedriver)

# 크롤링할 사이트 호출
driver.get("http://www.python.org")

# Selenium은 웹테스트를 위한 프레임워크로 다음과 같은 방식으로 웹테스트를 자동으로 진행함 (참고)
assert "Python" in driver.title

# <input id="id-search-field" name="q" 검색창 name으로 검색하기
# 태그 name으로 특정한 태그를 찾을 수 있음
elem = driver.find_element_by_name("q")

# input 텍스트 초기화 
# elem.clear()

# 키 이벤트 전송가능함
# 태그가 input 태그이므로 입력창에 키이벤트가 전달되면, 입력값이 자동으로 작성됨
elem.send_keys("pycon")

# 태그가 input 태그이므로 엔터 입력시 form action이 진행됨
elem.send_keys(Keys.RETURN)

# Selenium은 웹테스트를 위한 프레임워크로 다음과 같은 방식으로 웹테스트를 자동으로 진행함 (참고)
assert "No results found." not in driver.page_source

# 명시적으로 일정시간을 기다릴 수 있음 (10초 기다림)
time.sleep(10)

# 크롬 브라우저 닫기 가능함
driver.quit()

## Open API 활용 Naver 검색
- Naver 개발자 등록하기 : https://developers.naver.com/

In [None]:
import urllib.request
import json

client_id = 'gzzaTJH1zQcv3qtEeVhf'
client_secret = 'wFk4b9RBO0'

# 한글등 non-ASCII text를 URL에 넣을 수 있도록 "%" followed by hexadecimal digits 로 변경
# URL은 ASCII 인코딩셋만 지원하기 때문임
encText = urllib.parse.quote_plus("국내 여행")
# print(encText)

url = "https://openapi.naver.com/v1/search/blog?query=" + encText # json 결과
# url = "https://openapi.naver.com/v1/search/blog.xml?query=" + encText # xml 결과
request = urllib.request.Request(url)
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)
response = urllib.request.urlopen(request)
rescode = response.getcode()
if(rescode==200):
    response_body = response.read()
    print(response_body.decode('utf-8'))
else:
    print("Error Code:" + rescode)

In [None]:
data = json.loads(response_body)

In [None]:
data

In [None]:
data['items']

In [None]:
url = "https://openapi.naver.com/v1/search/blog?query=" + encText + "&display=100"# json 결과
# url = "https://openapi.naver.com/v1/search/blog.xml?query=" + encText # xml 결과
request = urllib.request.Request(url)
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)
response = urllib.request.urlopen(request)
rescode = response.getcode()
if(rescode==200):
    response_body = response.read()
    data = json.loads(response_body)
    print(data['items'])
else:
    print("Error Code:" + rescode)

In [None]:
url = "https://openapi.naver.com/v1/search/blog?query=" + encText + "&display=100&start=101"# json 결과
# url = "https://openapi.naver.com/v1/search/blog.xml?query=" + encText # xml 결과
request = urllib.request.Request(url)
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)
response = urllib.request.urlopen(request)
rescode = response.getcode()
if(rescode==200):
    response_body = response.read()
    data = json.loads(response_body)
    print(data['items'])
else:
    print("Error Code:" + rescode)

In [None]:
import time
start_max = 1001
datas = []

start_item_num = 1

while(start_item_num < start_max):
    url = "https://openapi.naver.com/v1/search/blog?query=" + encText + "&display=100&start=" + str(start_item_num)
    # url = "https://openapi.naver.com/v1/search/blog.xml?query=" + encText # xml 결과
    print(url)
    request = urllib.request.Request(url)
    request.add_header("X-Naver-Client-Id",client_id)
    request.add_header("X-Naver-Client-Secret",client_secret)
    response = urllib.request.urlopen(request)
    rescode = response.getcode()
    if(rescode==200):
        response_body = response.read()
        data = json.loads(response_body)
        datas.extend(data['items'])
        #print(data)
    else:
        print("Error Code:" + rescode)
    
    start_item_num += 100
    time.sleep(1)

In [None]:
len(datas)

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame(datas)

In [None]:
df.head()

In [None]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%EA%B5%AC%EC%88%9C_%EB%8F%84%EC%8B%9C_%EB%AA%A9%EB%A1%9D')
soup = BeautifulSoup(res.content, 'html.parser')


In [None]:
pd.read_html(res.content)

In [None]:
tables = pd.read_html(res.content)

In [None]:
city_df = tables[0]
city_df.head()

In [None]:
def get_city_name(row):
    if(' ' in row['행정구역']):
        row['행정구역'] = row['행정구역'].split(' ')[1]
    return row['행정구역']
    

In [None]:
city_df.apply(get_city_name, axis=1)

In [None]:
def get_city_name(row):
    res = row['행정구역']
    if(' ' in res):
        res = res.split(' ')[1]
    if('특별자치시' in res):
        res = res.replace('특별자치시','')
    if('특별시' in res):
        res = res.replace('특별시','')
    if('광역시' in res):
        res = res.replace('광역시','')
    if('시' in res[-1:]):
        res = res[:-1]
    if('군' in res[-1:]):
        res = res[:-1]
    return res

In [None]:
cities = city_df.apply(get_city_name, axis=1)

In [None]:
cities_list = list(cities)

In [None]:
cities_list

In [None]:
new_df = df[df['title'].str.contains('|'.join(cities_list))]

In [None]:
new_df

In [None]:
df['city'] = [x[0] if len(x)> 0 else '' for x in df['title'].str.findall('|'.join(cities_list))]

In [None]:
new_df = df[df['city'] != '']

In [None]:
new_df

In [None]:
len(new_df)

In [None]:
new_df2 = new_df.groupby(['city']).count()[['title']].reset_index()
new_df2.columns = ['city','count']

In [None]:
from matplotlib import pyplot as plt
import seaborn as sns
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.figure(figsize=(15,8))

sns.barplot(x='city',y='count',data=new_df2)

In [None]:
from matplotlib import pyplot as plt
import seaborn as sns
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.figure(figsize=(15,8))

sns.barplot(x='city',y='count',data=new_df2)

plt.xticks(
    rotation=45, 
    horizontalalignment='right',
)

In [None]:
new_df3 = new_df2.sort_values('count', ascending=False).head(20)

In [None]:
from matplotlib import pyplot as plt
import seaborn as sns
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.figure(figsize=(15,8))

chart = sns.barplot(x='city',y='count',data=new_df3)
plt.xticks(
    rotation=45, 
    horizontalalignment='right',
)

## Open API 활용 Twitter 검색
- 트위터 개발자 등록하기 : https://developer.twitter.com/en

In [None]:
import base64

# 트위터 API 개발자 키를 아래에 입력
client_key = 'zmqfKGreKX4kTeoFnVmydvHvE'
client_secret = 'y7v6WRI3Fauu35eiUhO7K9Myg1Jh9ZoLg9L9miVtmmGAWg9nTC'

# b64 encoded 형태로 만드는 과정 
key_secret = '{}:{}'.format(client_key, client_secret).encode('ascii')
b64_encoded_key = base64.b64encode(key_secret)
b64_encoded_key = b64_encoded_key.decode('ascii')

In [None]:
import requests

# request에 필요한 url 만들기
base_url = 'https://api.twitter.com/'
auth_url = '{}oauth2/token'.format(base_url)

# HEADER 구성하기
auth_headers = {
    'Authorization': 'Basic {}'.format(b64_encoded_key),
    'Content-Type': 'application/x-www-form-urlencoded;charset=UTF-8'
}

# Authentication Data section 만들기
auth_data = {
    'grant_type': 'client_credentials'
}

# POST request를 보내서 status 확인!
auth_resp = requests.post(auth_url, headers=auth_headers, data=auth_data)
print(auth_resp.status_code)

In [None]:
# Bearer token 정의하기
access_token = auth_resp.json()['access_token']

# Search HEADER 구성하기
search_headers = {
    'Authorization': 'Bearer {}'.format(access_token)
}

# SEARCH TWEET
# Maximum number of tweets returned from a single token is 18,000 

search_params = {
    'q':'여행',
    'result_type': 'popular', # 'mixed', recent', 'popular' 
    'count':100, #  15 - 100
    'retryonratelimit':True, # rate limit에 도달했을 때 자동으로 다시 trial
}

search_url = '{}1.1/search/tweets.json'.format(base_url)
search_resp = requests.get(
    search_url, headers=search_headers, 
    params=search_params
)

In [None]:
import json
import pandas as pd
data = json.loads(search_resp.content)

In [None]:
data

In [None]:
pd.DataFrame(data['statuses'])

In [None]:
tot_data = []
old_max_id = 1296368293448622082

for x in range(50):
    search_params = {
        'q':'여행',
        'result_type': 'recent', # 'mixed', recent', 'popular' 
        'count':100, #  15 - 100
        'retryonratelimit':True, # rate limit에 도달했을 때 자동으로 다시 trial
        'max_id' : old_max_id
    }

    search_url = '{}1.1/search/tweets.json'.format(base_url)
    search_resp = requests.get(
        search_url, headers=search_headers, 
        params=search_params
    )
    
    data = json.loads(search_resp.content)
    
    old_max_id = data['statuses'][-1]['id']-1

    tot_data.extend(data['statuses'])
    
    

In [None]:
len(tot_data)

In [None]:
tot_data_df = pd.DataFrame(tot_data)
tot_data_df

#### tweepy 라이브러리로 데이터 수집

In [None]:
!pip install tweepy

In [None]:
import tweepy

#트위터의 개인 앱 계정에서 아래 4가지 사항 확인
consumer_key = "zmqfKGreKX4kTeoFnVmydvHvE"
consumer_secret = "y7v6WRI3Fauu35eiUhO7K9Myg1Jh9ZoLg9L9miVtmmGAWg9nTC"
access_token = "951618999405617152-bC4EbM8Q5x0NFpqn7w0PJmGiKsNLOvN"
access_token_secret = "8ouskEQZp1Le5ZaQrCKYc39MdV5mf4dUxoR9f0JFzB9Zl"


#계정 승인
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)
twitter_api = tweepy.API(auth)


#검색 키워드 정의
keyword = "여행"
api_result = []


#키워드 검색 및 결과
tweet = twitter_api.search(keyword)
for tw in tweet:
    api_result.append(tw.text) #텍스트 결과만 담기

In [None]:
api_result

#### GetOldTweet3 라이브러리로 데이터 수집

In [None]:
!pip install GetOldTweets3
import GetOldTweets3 as got

In [None]:
from bs4 import BeautifulSoup

In [None]:
import datetime

days_range = []

start = datetime.datetime.strptime("2020-08-01", "%Y-%m-%d")
end = datetime.datetime.strptime("2020-08-10", "%Y-%m-%d")
date_generated = [start + datetime.timedelta(days=x) for x in range(0, (end-start).days)]

for date in date_generated:
    days_range.append(date.strftime("%Y-%m-%d"))

In [None]:
import time

# 수집 기간 맞추기
start_date = days_range[0]
end_date = (datetime.datetime.strptime(days_range[-1], "%Y-%m-%d") 
            + datetime.timedelta(days=1)).strftime("%Y-%m-%d") # setUntil이 끝을 포함하지 않으므로, day + 1

# 트윗 수집 기준 정의
tweetCriteria = got.manager.TweetCriteria().setQuerySearch('국내')\
                                           .setSince(start_date)\
                                           .setUntil(end_date)\
                                           .setMaxTweets(-1)

# 수집 with GetOldTweet3
print("Collecting data start.. from {} to {}".format(days_range[0], days_range[-1]))
start_time = time.time()

tweet = got.manager.TweetManager.getTweets(tweetCriteria)

print("Collecting data end.. {0:0.2f} Minutes".format((time.time() - start_time)/60))
print("=== Total num of tweets is {} ===".format(len(tweet)))

In [None]:
from random import uniform
from tqdm import tqdm_notebook

# initialize
tweet_list = []

for index in tqdm.tqdm_notebook(tweet):
    
    # 메타데이터 목록 
    username = index.username
    link = index.permalink 
    content = index.text
    tweet_date = index.date.strftime("%Y-%m-%d")
    tweet_time = index.date.strftime("%H:%M:%S")
    retweets = index.retweets
    favorites = index.favorites
     
    # 결과 합치기
    info_list = [tweet_date, tweet_time, username, content, link, retweets, favorites]
                 #joined_date, num_tweets, num_following, num_follower]
    tweet_list.append(info_list)
    
    # 휴식 
    time.sleep(uniform(1,2))

In [None]:
twitter_df = pd.DataFrame(tweet_list, 
                          columns = ["date", "time", "user_name", "text", "link", "retweet_counts", "favorite_counts"])
twitter_df

## Word Cloud 만들어보기
- JDK 설치 -> JAVA_HOME 설정
- JPype 설치
- konlpy 설치

In [None]:
!pip install JPype1-1.0.2-cp38-cp38-win_amd64.whl

In [None]:
!pip install konlpy

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
# 필요한 라이브러리 로드
from bs4 import BeautifulSoup
import requests

base_url = 'https://news.daum.net/breakingnews/digital'

articles = []
max_count = 100
page_no = 1
while len(articles) < max_count:
    page_url = '{}?page={}'.format(base_url, page_no)
    page_response = requests.get(page_url)
    page_soup = BeautifulSoup(page_response.text)
    article_links = page_soup.select('div.cont_thumb a.link_txt')
    for link in article_links:
        article_url = link.get('href')
        if 'http' not in article_url:
            continue
        article_response = requests.get(article_url)
        article_soup = BeautifulSoup(article_response.text)
        article_text = article_soup.select('div.article_view')[0].text
        articles.append(article_text.strip().replace('\n', ' '))
    
    print(len(articles))
    page_no += 1
   

In [None]:
# 단어 갯수 세기
from konlpy.tag import Komoran
word_counts = {}

komoran = Komoran()
for article_text in articles:
    nouns = komoran.nouns(article_text)
    for noun in nouns:
        if len(noun) == 1:     # 한글자 명사 제외
            continue
        if noun not in word_counts:
            word_counts[noun] = 0
        word_counts[noun] += 1
print(word_counts)

In [None]:
# 라이브러리 불러오기
from wordcloud import WordCloud

# wordcloud 생성기 객체 만들고, word_counts 로 부터 wordcloud 생성
wc = WordCloud(
    font_path='NanumGothic.ttf',
    background_color='white',
    width=800,
    height=800
)

wc_img = wc.generate_from_frequencies(word_counts)
file_name = 'my_first_wordcloud.jpg'
#wc_img.to_file(file_name)   # 이미지 파일 저장

# show
plt.figure(figsize=[20,10])
plt.imshow(wc_img, interpolation='bilinear')
plt.axis("off")
plt.show()