# 텍스트마이닝


## 텍스트 마이닝이란?
* 텍스트로부터 높은 질의 정보를 뽑아내는 과정(패턴이나 트렌드를 파악함으로써)  *자연어처리, 통계학, 머신러닝, 딥러닝] 지식 필요* 
  + 일정한 길이의 벡터로 변환하면 머신러닝 기법 적용에 용이
  + 리뷰 분석, 스팸 구분 등등 활용
 * NLP 기본도구 + 머신러닝

## 분석방법
* 단계: 문서(텍스트)-표준화(변형된 단어 등을 원형으로 변환)-단어로 이루어진 시퀀스(리스트)-순서가 없는 벡터, 문맥정보 포함하는 벡터, 워드 임베딩로 변형- 유형에 맞는 분석기법 사용

### 도구
* 파이썬: NLTK, Scikit, Gensim, Keras, PyTorch
* NLP
  + 목적: sparse vector(0의 값이 다수)로 변환
  + 쪼개기-표준화-품사부착-말모둠으로 합치기/문서로 변환
 
### 단계별
* Tokenize: 문서를 문장으로 문장을 단어의 집합으로 분리, 의미없는 문장 분리, 영어는 공백을 기준으로 하기 때문에 한글보다 쉬움
* Text Normalization: 동일한 의미의 단어가 다른 형태를 갖는 것을 보완. 의미가 아닌 규칙에 의한 변환인 어간추출/사전을 이용해 품사를 고려하는 표제어 추출 두 방법을 사용
* POS-tagging: 형태소에 대해 품사를 할당하는 작업, 문맥에 따라 달라지는 동음어를 위해 문맥 파악이 필수
* Chunking: 주어와 동사가 없는 두 단어 이상의 집합인 구를 찾기
* 개체명 인식: 특정 정보를 포함한 명사구를 인식하여 관계를 추출
* BOW: 의미있는 단어의 집합을 벡터로 변환하는 기법(시퀀스를 무시하고, 순서가 없는 집합으로 생각)
  + vector space model
  + count vector: 문제점(TFIDF: 단어의 count를 단어가 나타난 문서의 수로 나누어 자주 등장하지 않는 단어의 weight를 올림)

### text classification
* Naive Bayes, Logistic Regression(다중회귀분석), Ridge and Lasso Regression

## 문제점 및 해결방법
* 차원의 저주:의미있는 단어가 희소하여 각 데이터 간의 거리가 너무 멀게 위치하여 문제
  + 차원을 줄여서 해결
* Zipf's law: 극히 소수의 데이터가 결정적인 영향을 미치게 됨
  + 빈도가 높은 단어 삭제, 1이상이면 1로 변환
* 단어가 쓰인 순서정보의 손실: 단어의 순서를 중요시, 하지만 문맥이 중요함
  + n-gram(부 분적 해결), 딥러닝
  
### Topic Modeling
* 단어의 빈도는 주제를 유추가능함
* Latnet Dirichlet Allocation

### word embedding
* one-hot-encoding으로 표현된 단어를 dense vector로 변환
  + one-hot-encoding: 각 단어를 모든 문서에서 사용된 단어들의 수 길이의 벡터로 표현
  + BOW는 단어에 대한 표현은 상관없이 통계량만 카운트하지만 위의 방법은 문맥을 고려
* word2Vec: 단어의 위치에 기반하여 의미를 내포하는 벡터 생성, 단어의 유사성을 이용하여 연산이 가능 시맨틱
* ELMo: 사전 훈련된 언어 모델을 사용하는 워드 임베딩 방법론, 이전 기법들이 동일한 단어가 문맥에 따라 전혀 다른 의미를 가지는 것을 반영하지 못하는 한계를 극복하기 위함
* Document Embedding:word2Vec을 기반
* RBM: 사전학습 목적으로 개발, 차원을 변경하면서 원래릐 정보량을 최대한 유지

* sequence-to-sequence->attention->transformer

# 웹 크롤링1 - Static Crawling
---
# 1. urllib 
* 파이썬은 웹 사이트에 있는 데이터를 추출하기 위해 urllib 라이브러리 사용
* 이를 이용해 HTTP 또는 FTP를 사용해 데이터 다운로드 가능
* urllib은 URL을 다루는 모듈을 모아 놓은 패키지
* urllib.request 모듈은 웹 사이트에 있는 데이터에 접근하는 기능 제공, 또한 인증, 리다렉트, 쿠키처럼 인터넷을 이용한 다양한 요청과 처리가 가능

In [1]:
from urllib import request

## 1.1 urllib.request를 이용한 다운로드
* urllib.request 모듈에 있는 urlretrieve() 함수 이용
* 다음의 코드는 PNG 파일을 test.png 라는 이름의 파일로 저장하는 예제임

In [2]:
# 라이브러리 읽어들이기 
from urllib import request

url="http://uta.pw/shodou/img/28/214.png" # 웹 페이지 저장
savename="test.png"

request.urlretrieve(url, savename) #  url에 해당하는 이미지를 다운받아 원하는 이름으로 저장
print("저장되었습니다") # "" 안 문자 출력

저장되었습니다


## 1.2. urlopen으로 파일에 저장하는 방법
* request.urlopen()은 메모리에 데이터를 올린 후 파일에 저장하게 된다.

In [3]:
# URL과 저장경로 지정하기
url = "http://uta.pw/shodou/img/28/214.png"
savename = "test1.png"
#다운로드
mem = request.urlopen(url).read()
#파일로 저장하기, wb는 쓰기와 바이너리모드
with open(savename, mode="wb") as f:
    f.write(mem)
    print("저장되었습니다..")

저장되었습니다..


## 1.3. API 사용하기
### 클라이언트 접속 정보 출력 (기본)
* API는 사용자의 요청에 따라 정보를 반환하는 프로그램
* IP 주소, UserAgent 등 클라이언트 접속정보 출력하는 "IP 확인 API" 접근해서 정보를 추출하는 프로그램

In [4]:
#데이터 읽어들이기
url="http://api.aoikujira.com/ip/ini" 
res=request.urlopen(url) #url 열기
data=res.read() # 읽어오기

#바이너리를 문자열로 변환하기
text=data.decode("utf-8")
print(text) # 출력

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=61.253.164.75
REMOTE_HOST=61.253.164.75
REMOTE_PORT=48812
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.8
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




## 2. BeautifulSoup
* 스크레이핑(Scraping or Crawling)이란 웹 사이트에서 데이터를 추출하고, 원하는 정보를 추출하는 것을 의미
* BeautifulSoup란 파이썬으로 스크레이핑할 때 사용되는 라이브러리로서 HTML/XML에서 정보를 추출할 수 있도록 도와줌. 그러나 다운로드 기능은 없음.
* 파이썬 라이브러리는 pip 명령어를 이용해 설치 가능. Python Package Index(PyPI)에 있는 패키지 명령어를 한줄로 설치 가능
  + URL (http://pypi.python.org/pypi)
pip install beautifulsoup4

* 예제 HTML

 <html><body>
   <h1>스크레이핑이란?</h1>
   <p>웹 페이지를 분석하는 것</p>>   <p>원하는 부분을 추출하는 것</p>
 </body></html>

### 패키지 import 및 예제 HTML

In [7]:
from bs4 import BeautifulSoup

html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

## 2.1. 기본 사용¶
* 다음은 Beautifulsoup를 이용하여 웹사이트로부터 HTML을 가져와 문자열로 만들어 이용하는 예제임
* h1 태그를 접근하기 위해 html-body-h1 구조를 사용하여 soup.html.body.h1 이런식으로 이용하게 됨.
* p 태그는 두개가 있어 soup.html.body.p 한 후 next_sibling을 두번 이용하여 다음 p를 추출. 한번만 하면 그 다음 공백이 추출됨.
* HTML 태그가 복잡한 경우 이런 방식으로 계속 진행하기는 적합하지 않음.

### 2) HTML 분석하기

In [8]:
soup = BeautifulSoup(html, 'html.parser') # 사이트로부터 html을 받아 문자열로 저장

### 3) 원하는 부분 추출하기

In [9]:
h1 = soup.html.body.h1 # h1태그에 접근
p1 = soup.html.body.p # p태그에 접근
p2 = p1.next_sibling.next_sibling # 두번째의 p태그에 접근

### 4) 요소의 글자 출력하기

In [10]:
print(f"h1 = {h1.string}") # h1 태그의 문자열 출력
print(f"p  = {p1.string}") # p1 태그의 문자열 출력
print(f"p  = {p2.string}") # p2 태그의 문자열 출력

h1 = 스크레이핑이란?
p  = 웹 페이지를 분석하는 것
p  = 원하는 부분을 추출하는 것


## 2.2 요소를 찾는 method
### 단일 element 추출: find()
BeautifulSoup는 루트부터 하나하나 요소를 찾는 방법 말고도 find()라는 메소드를 제공함

In [11]:
soup = BeautifulSoup(html, 'html.parser')# 파싱한 결과를 BeautifulSoup로 변환

* 1) find() 메서드로 원하는 부분 추출하기

In [13]:
title = soup.find("h1") # h1 태그 추출 후 저장
body  = soup.find("p") # P 캐그 추출 후 저장
print(title) # 출력

<h1>스크레이핑이란?</h1>


* 2) 텍스트 부분 출력하기

In [14]:
print(f"#title = {title.string}" )
print(f"#body = {body.string}")

#title = 스크레이핑이란?
#body = 웹 페이지를 분석하는 것


### 복수 elements 추출: find_all()
여러개의 태그를 한번에 추출하고자 할때 사용함. 다음의 예제에서는 여러개의 태그를 추출하는 법을 보여주고 있음

In [15]:
html = """
<html><body>
  <ul>
    <li><a href="http://www.naver.com">naver</a></li>
    <li><a href="http://www.daum.net">daum</a></li>
  </ul>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser') # 파싱한 결과를 BeautifulSoup로 변환

* 1) find_all() 메서드로 추출하기

In [16]:
links = soup.find_all("a") # 주어진 조건에 맞는 태그를 리스트로 찾아내는
print(links, len(links)) # 출력

[<a href="http://www.naver.com">naver</a>, <a href="http://www.daum.net">daum</a>] 2


* 2) 링크 목록 출력하기

In [17]:
for a in links:
    href = a.attrs['href'] # href의 속성에 있는 속성값을 추출
    text = a.string 
    print(text, ">", href) # 출력

naver > http://www.naver.com
daum > http://www.daum.net


# 3. Css Selector¶
> Css Selector란, 웹상의 요소에 css를 적용하기 위한 문법으로, 즉 요소를 선택하기 위한 패턴입니다.

> 출처: https://www.w3schools.com/cssref/css_selectors.asp

앞서 간단하게 태그를 사용하여 데이터를 추출하는 방법에 대해서 살펴보았습니다.

하지만 복잡하게 구조화된 웹 사이트에서 자신이 원하는 데이터를 가져오기 위해서는 Css Selector에 대한 이해가 필요합니다.

|**서식**|**설명**|
|--|--|
|*|모든요소를 선택|
|<요소이름>|요소 이름을 기반으로 선택|
|클래스 이름|클래스 이름을 기반으로 선택|
|#<id이름>|id 속성을 기반으로 선택|

## BeautifulSoup에서 Css Selector 사용하기¶
BeautifulSoup에서는 Css Selector로 값을 가져올 수 있도록 find와는 다른 다음과 같은 메서드를 제공합니다.

|**메서드**|**설명**|
|--|--|
|soup.select_one(선택자)|CSS 선택자로 요소 하나를 추출합니다|
|soup.select(선택자)|CSS 선택자오 요소 여러 개를 리스트를 추출합니다|

In [18]:
html = """
<html><body>
<div id="meigen">
  <h1>위키북스 도서</h1>
  <ul class="items">
    <li>유니티 게임 이펙트 입문</li>
    <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
    <li>모던 웹사이트 디자인의 정석</li>
  </ul>
</div>
</body></html>
"""

# HTML 분석하기 
soup = BeautifulSoup(html, 'html.parser')

* 필요한 부분을 CSS 쿼리로 추출하기

In [19]:
# 타이틀 부분 추출하기 --- (※3)
h1 = soup.select_one("div#meigen > h1").string # h1 태그 불러오기
print(f"h1 = {h1}")

# 목록 부분 추출하기 --- (※4)
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
  print(f"li = {li.string}")

h1 = 위키북스 도서
li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석


# 4. 활용 예제
앞서 배운 urllib과 BeautifulSoup를 조합하면, 웹스크레이핑 및 API 요청 작업을 쉽게 수행하실 수 있습니다.

1. URL을 이용하여 웹으로부터 html을 읽어들임 (urllib)
2. html 분석 및 원하는 데이터를 추출 (BeautifulSoup)

In [20]:
from bs4 import BeautifulSoup # 라이브러리 호출
from urllib import request, parse

## 4.1. 네이버 금융 - 환율 정보
* 다양한 금융 정보가 공개돼 있는 "네이버 금융"에서 원/달러 환율 정보를 추출해보자!
* 네이버 금융의 시장 지표 페이지 https://finance.naver.com/marketindex/
* 다음은 원/달러 환율 정보를 추출하는 프로그램임

### 1) HTML 가져오기

In [21]:
url = "https://finance.naver.com/marketindex/"
res = request.urlopen(url)

### 2) HTML 분석하기

In [22]:
soup = BeautifulSoup(res, "html.parser")

### 3) 원하는 데이터 추출하기

In [None]:
price = soup select_one("div head_info > span value") string 
print("usd.krw=", price) # 출력

## 4.2. 기상청 RSS
* 기상청 RSS에서 특정 내용을 추출하는 예제
* 기상청 RSS에서 XML 데이터를 추출하고 XML 내용을 출력
* 기상청의 RSS 서비스에 지역 번호를 지정하여 데이터 요청해보기 http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp
  + 참고: 기상청 RSS http://www.kma.go.kr/weather/lifenindustry/service_rss.jsp
  

|**매개변수**|**의미**|
|--|--|
|shnid|기상정보를 알고 싶은 지역을 지정|
* 지역번호는 다음과 같음

|**지역**-|**지역번호**|**지역**|**지역번호**|
|--|--|
|전국|108|전라북도|146|
|서울/경기도|109|전라남도|156|
|강원도|105|경상북도|143|
|충청북도|131|경상남도|159
|충청남도|133|제주특별자치도|184|
* 파이썬으로 요청 전용 매개변수를 만들 때는 urllib.parse 모듈의 urlencode() 함수를 사용해 매개변수를 URL로 인코딩한다.
### 1) HTML 가져오기

In [23]:
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

#매개변수를 URL로 인코딩한다.
values = {
    'stnId':'109'
}

params=parse.urlencode(values) # 매개변수를 url로 인코딩하여 저장
url += "?"+params # URL에 매개변수 추가
print("url=", url)

res = request.urlopen(url)

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109


### 2) HTML 분석하기

In [24]:
soup = BeautifulSoup(res, "html.parser")

### 3) 원하는 데이터 추출하기

In [25]:
header = soup.find("header")

title = header.find("title").text # title 의 텍스트 저장
wf = header.find("wf").text # wf의 텍스트 저장

print(title) # 출력
print(wf)

서울,경기도 육상중기예보
○ (강수) 29일(수) 오후에는 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 아침최저기온은 14~19도, 낮최고기온은 24~27도로 오늘(22일, 아침최저기온 16~18도, 낮최고기온 23~26도)과 비슷하겠습니다.<br />○ (해상) 서해중부해상의 물결은 1.0~2.0m로 일겠습니다.<br />○ (주말전망) 25일(토)과 26일(일)은 구름많겠습니다. 아침최저기온은 14~19도, 낮최고기온은 25~27도가 되겠습니다.


* css selector 기반

In [26]:
title = soup.select_one("header > title").text # title의 텍스트 추출
wf = header.select_one("header wf").text # wf의 텍스트 추출

print(title) # 출력
print(wf)

서울,경기도 육상중기예보
○ (강수) 29일(수) 오후에는 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 아침최저기온은 14~19도, 낮최고기온은 24~27도로 오늘(22일, 아침최저기온 16~18도, 낮최고기온 23~26도)과 비슷하겠습니다.<br />○ (해상) 서해중부해상의 물결은 1.0~2.0m로 일겠습니다.<br />○ (주말전망) 25일(토)과 26일(일)은 구름많겠습니다. 아침최저기온은 14~19도, 낮최고기온은 25~27도가 되겠습니다.


## 4.3. 윤동주 작가의 작품 목록
* 위키문헌 (https://ko.wikisource.org/wiki) 에 공개되어 있는 윤동주의 작품목록을 가져오기
* 윤동주 위키 (https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC)
* 하늘과 바람과 시 부분을 선택한 후 오른쪽 마우스 이용해 copy selector로 카피하면 다음의 CSS 선택자가 카피됨
  + #mw-content-text > div > ul:nth-child(6) > li > b > a
* nth-child(n) 은 n 번째 요소를 의미 즉 6번째 요소를 의미, #mw-content-text 내부에 있는 url 태그는 모두 작품과 관련된 태그. 따라서 따로 구분할 필요는 없으며 생략해도 됨. BeautifulSoup는 nth-child 지원하지 않음
  + Recall PR7 Problem1

In [27]:
# 뒤의 인코딩 부분은 "저자:윤동주"라는 의미입니다.
# 따로 입력하지 말고 위키 문헌 홈페이지에 들어간 뒤에 주소를 복사해서 사용하세요.

url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

# #mw-content-text 바로 아래에 있는 
# ul 태그 바로 아래에 있는
# li 태그 아래에 있는
# a 태그를 모두 선택합니다.
a_list = soup.select("#mw-content-text   ul > li  a")
for a in a_list:
    name = a.string
    print(f"- {name}", )

- 하늘과 바람과 별과 시
- 증보판
- 서시
- 자화상
- 소년
- 눈 오는 지도
- 돌아와 보는 밤
- 병원
- 새로운 길
- 간판 없는 거리
- 태초의 아침
- 또 태초의 아침
- 새벽이 올 때까지
- 무서운 시간
- 십자가
- 바람이 불어
- 슬픈 족속
- 눈감고 간다
- 또 다른 고향
- 길
- 별 헤는 밤
- 흰 그림자
- 사랑스런 추억
- 흐르는 거리
- 쉽게 씌어진 시
- 봄
- 참회록
- 간(肝)
- 위로
- 팔복
- 못자는밤
- 달같이
- 고추밭
- 아우의 인상화
- 사랑의 전당
- 이적
- 비오는 밤
- 산골물
- 유언
- 창
- 바다
- 비로봉
- 산협의 오후
- 명상
- 소낙비
- 한난계
- 풍경
- 달밤
- 장
- 밤
- 황혼이 바다가 되어
- 아침
- 빨래
- 꿈은 깨어지고
- 산림
- 이런날
- 산상
- 양지쪽
- 닭
- 가슴 1
- 가슴 2
- 비둘기
- 황혼
- 남쪽 하늘
- 창공
- 거리에서
- 삶과 죽음
- 초한대
- 산울림
- 해바라기 얼굴
- 귀뚜라미와 나와
- 애기의 새벽
- 햇빛·바람
- 반디불
- 둘 다
- 거짓부리
- 눈
- 참새
- 버선본
- 편지
- 봄
- 무얼 먹구 사나
- 굴뚝
- 햇비
- 빗자루
- 기왓장 내외
- 오줌싸개 지도
- 병아리
- 조개껍질
- 겨울
- 트루게네프의 언덕
- 달을 쏘다
- 별똥 떨어진 데
- 화원에 꽃이 핀다
- 종시


# 일반문제
-----------

In [28]:
from bs4 import BeautifulSoup
from urllib import request

## 1. 네이버 뉴스 헤드라인
배운 내용을 바탕으로 네이버 뉴스(https://news.naver.com/)에서 헤드라인 뉴스의 제목을 추출해보고자 합니다.

> Q: 다음의 코드에 css selector를 추가하여 최신 기사의 헤드라인을 스크레이핑하는 코드를 완성하시오.

In [29]:
url = "https://news.naver.com/" # urㅣ로 기사 불러오기

res = request.urlopen(url) # url 불러오기
soup = BeautifulSoup(res, "html.parser")
# 구분 분석 트리 생성 함수 사용
selector = "#today_main_news > div.hdline_news > ul > li > div.hdline_article_tit > a"
# 헤드라인 태그 저장
for a in soup.select(selector):
    title = a.text # 텍스트 저장
    print(title) # 출력


                                        '파산설' 중국 헝다 "23일 위안화 채권 이자 지급"
                                    

                                        美 싸이티바, 한국에 621억 투자…백신 원부자재 공장 짓는다
                                    

                                        전기요금 오를 듯… 연료비 상승에 한전 적자까지
                                    

                                        베트남에 백신 100만회분 공여…정부 "우리 충분히 쓰고 주겠다"
                                    

                                        김기현 "이재명, 배임 혐의 고발…與, 특검·국조 동의해야"
                                    


## 2. 시민의 소리 게시판
다음은 서울시 대공원의 시민의 소리 게시판 입니다.

https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgList.do?pgno=1

해당 페이지에 나타난 게시글들의 제목을 수집하고자 합니다.

> Q: 다음의 코드에 css selector를 추가하여 해당 페이지에서 게시글의 제목을 스크레이핑하는 코드를 완성하시오. 또한 과제 제출시 하단의 추가 내용을 참고하여 수집한 데이터를 csv 형태로 저장하여 해당 csv 파일도 함께 제출하시오.

In [30]:
url_head = "https://www.sisul.or.kr"

url_board = url_head + "/open_content/childrenpark/qna/qnaMsgList.do?pgno=1" # url 저장



res = request.urlopen(url_board) # 웹 페이지 불러오기
soup = BeautifulSoup(res, "html.parser") 

# selector = "#detail_con > div.generalboard > table > tbody > tr > td.left.title > a"
selector = "#detail_con > div.generalboard > table > tbody > tr > td.left.title > a"
titles = []
links = []
for a in soup.select(selector):
    titles.append(a.text)
    links.append(url_head + a.attrs["href"])
    
print(titles, links)

    

['강창수 해설사님 ', '동물해설사님 칭찬', '강창수 동물 해설사님', '놀이동산 푸드코트 김치가 중국산인 이유는?', '주슨트 설명 최고예요!!', '강창수 주슨트님 최고 !!', 'ZOOCENT 스케줄표?', '호주동물 호주설명 ', '호주및 호주동물 설명에 대해 ', '동물원'] ['https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=l2RBC0TijEbyuSpP5ZN52qoT7gnHctb3RrEglFvbp3EJVKHepZ5UxakTwptVDVaR.etisw2_servlet_user?qnaid=QNAS20210920000001&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=l2RBC0TijEbyuSpP5ZN52qoT7gnHctb3RrEglFvbp3EJVKHepZ5UxakTwptVDVaR.etisw2_servlet_user?qnaid=QNAS20210919000004&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=l2RBC0TijEbyuSpP5ZN52qoT7gnHctb3RrEglFvbp3EJVKHepZ5UxakTwptVDVaR.etisw2_servlet_user?qnaid=QNAS20210919000003&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=l2RBC0TijEbyuSpP5ZN52qoT7gnHctb3RrEglFvbp3EJVKHepZ5UxakTwptVDVaR.etisw2_servlet_user?qnaid=QNAS20210918000002&pgno=1', 'https://www.sisul.or.kr/open_con

### 추가 내용
수집된 자료를 데이터프레임으로 만들어 csv로 저장하는 것이 일반적입니다.

In [32]:
import pandas as pd


board_df = pd.DataFrame({"title": titles, "link": links})
board_df.head()

Unnamed: 0,title,link
0,강창수 해설사님,https://www.sisul.or.kr/open_content/childrenp...
1,동물해설사님 칭찬,https://www.sisul.or.kr/open_content/childrenp...
2,강창수 동물 해설사님,https://www.sisul.or.kr/open_content/childrenp...
3,놀이동산 푸드코트 김치가 중국산인 이유는?,https://www.sisul.or.kr/open_content/childrenp...
4,주슨트 설명 최고예요!!,https://www.sisul.or.kr/open_content/childrenp...


In [1]:
board_df.to_csv("board.csv", index=False)

NameError: name 'board_df' is not defined

# (Optional) 웹 크롤링2 - Dynamic Crawling
# 0. 라이브러리

In [2]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import pandas as pd
from pandas import DataFrame
import time

ModuleNotFoundError: No module named 'selenium'

# 1. Selenium 기초
자신의 크롬 버전을 확인하고 크롬 웹드라이버를 다운받아놓아야합니다.

* 2020.09.13 기준 최신 버전: 85.0.4183.102



## 1.1. Simple Text Crawling
멜론 사이트에서 노래 제목을 크롤링해보자

URL: https://www.melon.com/chart/index.htm

In [3]:
DRIVER_PATH = 'D:/dev_files/webdrivers/chrome/chromedriver85.exe'

 # chrome driver 설정
driver = webdriver.Chrome(DRIVER_PATH) 
driver.implicitly_wait(10)

url = "https://www.melon.com/chart/index.htm"

driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# title crawling
title = WebDriverWait(driver, 20) \
    .until(EC.presence_of_element_located((By.CSS_SELECTOR, "#frm > div > table > tbody > tr:nth-child(1) > td:nth-child(4) > div > div")))

# print("Title: {}".format(title.text))

title.text

NameError: name 'webdriver' is not defined

css selector의 규칙을 찾아본다

* 1번째 제목: #frm > div > table > tbody > tr:nth-child(1) > td:nth-child(4) > div > div"
* 2번째 제목: #frm > div > table > tbody > tr:nth-child(2) > td:nth-child(4) > div > div
. . .

* 100번째 제목: #frm > div > table > tbody > tr:nth-child(100) > td:nth-child(4) > div > div
또는 XPATH로도 확인해보자 (full Xpath)

* 1번째 제목: //*[@id="frm"]/div/table/tbody/tr[1]/td[4]/div/div
* 2번째 제목: //*[@id="frm"]/div/table/tbody/tr[2]/td[4]/div/div
. . .

* 50번째 제목: //*[@id="frm"]/div/table/tbody/tr[100]/td[4]/div/div
    


In [5]:
# 2번째 제목 크롤링
WebDriverWait(driver, 20) \
    .until(EC.presence_of_element_located((By.XPATH, "//*[@id='frm']/div/table/tbody/tr[2]/td[4]/div/div"))).text

NameError: name 'WebDriverWait' is not defined

## 1.2. Text Crawling with for loop
위에서 찾은 Xpath의 규칙을 바탕으로 for loop 만들자

In [6]:
# chrome driver 설정
driver = webdriver.Chrome(DRIVER_PATH)
driver.implicitly_wait(10)

url = "https://www.melon.com/chart/index.htm"

driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 빈 리스트 변수
title_list = []

# title crawling (TOP 50)
for i in range(1, 51):
    title = WebDriverWait(driver, 20) \
        .until(EC.presence_of_element_located((By.XPATH, f"//*[@id='frm']/div/table/tbody/tr[{i}]/td[4]/div/div")))
    title_list.append(title.text)
    
print(title_list)

NameError: name 'webdriver' is not defined

나중에 필요한 변수(제목, 가수, 가사... 등)을 모두 긁어 한번에 데이터프레임으로 저장하여 보관한다!

## 1.3. Text Crawling (Click & Back)
클릭하고 나오기 -> 동적 크롤링 가능 (가사 크롤링 가능)

노래 제목에 링크가 걸려있기 때문에, 해당 링크까지의 XPath를 추가한다

In [7]:
 # chrome driver 설정
driver = webdriver.Chrome(DRIVER_PATH)
driver.implicitly_wait(10)

url = "https://www.melon.com/chart/index.htm"

driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 1번째 click하기
click_element = WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.XPATH, '//*[@id="frm"]/div/table/tbody/tr[1]/td[3]/div/a')))
click_element.click()    

# back
driver.back()


# 2번째 click하기
click_element = WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.XPATH, '//*[@id="frm"]/div/table/tbody/tr[2]/td[3]/div/a')))
click_element.click()    

# back
driver.back()

NameError: name 'webdriver' is not defined

## 1.4. Text Crawling including contents
1.2처럼 for문과 함께 써보자! (첫 페이지 5개의 글에 대해 title, artist, heart(하트 갯수), lyrics(가사)를 크롤링

1.3에서 사용한 click & back을 활용하자

In [9]:
 # chrome driver 설정
driver = webdriver.Chrome(DRIVER_PATH)
driver.implicitly_wait(10)

url = "https://www.melon.com/chart/index.htm"
driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 빈 리스트 변수
title_list = []
artist_list = []
heart_list = []
lyrics_list = []

# crawling (TOP 5)
for i in range(1, 6):
    # click
    click_element = WebDriverWait(driver, 20) \
        .until(EC.presence_of_element_located((By.XPATH, f'//*[@id="frm"]/div/table/tbody/tr[{i}]/td[3]/div/a')))
    click_element.click()

    # title crawling
    title = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#downloadfrm > div > div > div.entry > div.info > div.song_name")))
    title_list.append(title.text)

    # artist crawling
    artist = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#downloadfrm > div > div > div.entry > div.info > div.artist > a > span:nth-child(1)")))
    artist_list.append(artist.text)
    
    # heart crawling
    heart = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#d_like_count")))
    heart_list.append(heart.text)

    # lyrics crawling
    lyrics = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#d_video_summary")))
    lyrics_list.append(lyrics.text)
    
    # back
    driver.back()
    
print(title_list)
print(artist_list)
print(heart_list)
print(lyrics_list)

NameError: name 'webdriver' is not defined

## TIP: 보통은 결과값을 데이터프레임 형태로 저장한다

In [10]:
# 결과 변수
raw_result = {'title': title_list,
              'artist': artist_list,
              'heart': heart_list,
          'lyrics': lyrics_list}

result = pd.DataFrame(raw_result)

# # csv 파일로 save
# result.to_csv("MelonTop5", mode='w')

# driver 종료
driver.quit()

result

NameError: name 'title_list' is not defined

**데이터프레임** 형식을 이용하면, 가독성도 좋고, 나중에 데이터 핸들링하기에도 편리하다!

# 2. Image Crawling
이미지 크롤링하기

* 1번째 이미지: /html/body/div/div[3]/div/div/div[4]/form/div/table/tbody/tr[1]/td[4]/div/a/img
* 2번째 이미지: /html/body/div/div[3]/div/div/div[4]/form/div/table/tbody/tr[2]/td[4]/div/a/img
...

* 50번째 이미지: /html/body/div/div[3]/div/div/div[4]/form/div/table/tbody/tr[50]/td[4]/div/a/img


**STEP1. URL Crawling**

In [11]:
 # chrome driver 설정
driver = webdriver.Chrome(DRIVER_PATH)
driver.implicitly_wait(10)

url = "https://www.melon.com/chart/index.htm"

driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 빈 리스트 변수
link_list = []

# # img crawling (TOP 50)
for i in range(1, 51):
    
    img = WebDriverWait(driver, 20) \
        .until(EC.presence_of_element_located((By.CSS_SELECTOR, f"#frm > div > table > tbody > tr:nth-child({i}) > td:nth-child(2) > div > a > img")))

    link_list.append(img.get_attribute('src'))

print(link_list)

NameError: name 'webdriver' is not defined

**STEP2. Download images using URLs**

자신의 디렉토리에 img 폴더 생성하고 실행

In [12]:
import urllib.request

count = 0
for link in link_list:
    count += 1
    urllib.request.urlretrieve(link, './img/img' + str(count) + '.jpg')

NameError: name 'link_list' is not defined