<a href="https://colab.research.google.com/github/ibk25244/su-ai/blob/master/10_1(colab)_Korean_text_analysis_visualization_1_movie_data_scraping_my.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

- - -

<font size=6 color='tomato'>한글 텍스트 분석 및 시각화 - <font color='royalblue'>1 단계 : 데이터 수집</font>   
<font size=5 color='purple'>Korean Text Analysis & Visualization - <font color='forestgreen'>Step 1: Movie Review Data Scraping</font>

* * *

**<font size=4>박 진 수</font>** 교수  
Intelligent Data Semantics Lab  
Seoul National University

- - -

>[텍스트 분석 절차](#scrollTo=oVPt_2OiO0HQ)

>[첫 번째 리뷰 내용 보여주기](#scrollTo=RIPJCaetD6GH)

>>[URL 구조 파악](#scrollTo=guPXvSTVO0HY)

>>[웹 상의 데이터 받아오기 : urllib.request.urlopen](#scrollTo=291XzvYQO0HZ)

>>[웹 객체 파싱하기 : bs4.BeautifulSoup](#scrollTo=eSvGuOQAO0Hh)

>>[웹 페이지(HTML) 구조 파악 : 구글 크롬 브라우저](#scrollTo=O6b3KrfgO0Hn)

>[첫 페이지의 리뷰 모두 출력하기](#scrollTo=xemtb62UO0H1)

>[여러 페이지의 리뷰 저장하기](#scrollTo=yWk_5NgGO0H7)

>>[각 페이지의 URL 구조 패턴](#scrollTo=L2TAZTacO0H8)

>>[첫 다섯 페이지의 리뷰 저장하기](#scrollTo=OYfgWMEMO0H8)

>[모든 페이지의 리뷰 저장하기](#scrollTo=W_JQFvWTO0IF)

>[THE END](#scrollTo=DZbP1gVfO0IV)



# 텍스트 분석 절차

**<font size='+3'>1 단계 - 데이터 수집</font>**
- 웹, SNS 등에서 분석에 필요한 데이터를 수집한다.
- 이미 데이터가 있으면 이 단계는 생략할 수 있다.

**2** 단계 - **데이터 전처리**
- 자연어를 기계가 이해할 수 있는 인공어(artificial language)로 번역한다.
- Tokenization, POS Tagging(형태소 분석), Pruning 등 

**3** 단계 - **데이터 탐색**
- 분석의 방향성을 제시하기 위해 전처리한 데이터를 탐색한다.
- 일반적으로는 단어의 출현 빈도(frequency)를 기반으로 탐색한다.

**4** 단계 - **데이터 분석**
- 텍스트 데이터를 통해 유의미한 정보를 추출하는 분석을 수행한다.
- 감성분석, 토픽모델, 머신러닝 등

**5** 단계 - **인사이트 도출**
- 경영 환경에서 효과적인 의사 결정에 도움을 줄 수 있는 인사이트를 도출한다.

'웹 스크래핑(web scraping)'이란 웹 상에 존재하는 컨텐츠를 수집하는 작업을 말한다. '웹 크롤링(web crawling)'이라고도 부른다. 

이를 위해서는 웹페이지를 구성하는 HTML의 구조를 이해하고 필요로 하는 정보만을 뽑아내는 것이 필수적이다.

파이썬에서는 **BeautifulSoup**이라는 패키지를 이용하여 HTML을 파싱하고 필요한 정보를 얻을 수 있다.

In [1]:
import bs4
print('BeautifulSoup version...:', bs4.__version__)

BeautifulSoup version...: 4.6.3


# 첫 번째 리뷰 내용 보여주기

[<다음 영화>](https://movie.daum.net/)  웹사이트에서 영화 ['비긴 어게인(2013)'](https://movie.daum.net/moviedb/main?movieId=80780)의 리뷰와 평점을 크롤링한다.
- [다음 영화 '비긴 어게인(2013)'](https://movie.daum.net/moviedb/main?movieId=80780)  
- 여기 사용하는 예는 '비긴 어게인(2013)'이지만 URL만 변경한다면 <다음 영화> 웹사이트에서 본인이 원하는 어떤 영화의 리뷰와 평점도 크롤링할 수 있다.

네티즌 평점 보기
- '평점' 섹션을 클릭해 들어가면 시청자들이 남긴 평점과 리뷰를 볼 수 있다.
- <https://movie.daum.net/moviedb/grade?movieId=80780>

## URL 구조 파악

URL 구조를 파악하기 위한 팁
- URL 구조를 파악하기 위해 두 번째 페이지를 클릭해본다.
- 보통 첫 번째 페이지는 메인 페이지와 연결되어 있기 때문에 URL 구조를 보는데 적합하지 않을 수 있다.
- 따라서 URL 구조를 파악하기 위해서는 일반적으로 두 번째, 세 번째 페이지를 열어보변서 귀납(inductive reasoning)적으로 파악하면 도움이 된다.

## 웹 상의 데이터 받아오기 : **urllib.request.urlopen**

이제 URL 구조를 파악하였으니, URL을 통해 웹 상의 리뷰 데이터를 받아올 수 있다.

In [2]:
import urllib

# '평점' 섹션의 첫 번째 페이지 URL이다.
url = 'https://movie.daum.net/moviedb/grade?movieId=80780&type=netizen&page=1'

# urlopen()으로 받아온 리뷰 데이터는 HTTPResponse 객체로 반환한다.
response = urllib.request.urlopen(url)

In [3]:
type(response)

http.client.HTTPResponse

In [4]:
response

<http.client.HTTPResponse at 0x7eff7cd9c4a8>

이 데이터는 **HTTPResponse** 객체 형식으로 되어있기 때문에 바로 사용할 수 없고 파싱(parsing)이라는 절차를 거쳐 우리가 직관적으로 이해할 수 있는 텍스트 형식으로 변환하여야 한다.

## 웹 객체 파싱하기 : **bs4.BeautifulSoup**

In [5]:
from bs4 import BeautifulSoup

# BeautifulSoup() 클래스의 인스턴스로 웹 데이터를 파싱한다. 
# Parser는 일반적으로 많이 사용하는 'html.parser'를 사용한다.
bs = BeautifulSoup(response, 'html.parser')  # 'html5lib'

In [6]:
type(bs)

bs4.BeautifulSoup

In [None]:
bs

## 웹 페이지(HTML) 구조 파악 : 구글 크롬 브라우저

가져올 리뷰 데이터 구조 파악
- 웹 스크레핑을 위해 웹 페이지의 전체 구조를 파악할 필요는 없다.
- 구글 크롬(chrome) 브라우저로 얻고자 하는 데이터를 선택하고 마우스 오른쪽 클릭 후 '검사'를 클릭하면 HTML 소스 코드를 볼 수 있다.

HTML 소스 코드 패턴 분석
- HTML 소스 코드를 자세히 살펴보면 우리가 수집하려는 리뷰 텍스트는 반복된 형식을 보여주고 있다.

```
<p class="desc_review">리뷰 내용</p>
```

In [8]:
# --- 방법 1
bs.find('p', 'desc_review')

<p class="desc_review"> <!-- 모바일에서 더보기 클릭시 style="height:auto" -->
                                            어쩌다 단체로 본 상큼한 음악영화.
<br/>상상속에서 악기편성하는게 재미 있었고 뭔가 이루어질 듯 하다가 그냥 헤어지는 여운이 있다.
                                        </p>

In [9]:
# --- 방법 2
# python 에서는 class가 사용값
bs.find('p', class_='desc_review')

<p class="desc_review"> <!-- 모바일에서 더보기 클릭시 style="height:auto" -->
                                            어쩌다 단체로 본 상큼한 음악영화.
<br/>상상속에서 악기편성하는게 재미 있었고 뭔가 이루어질 듯 하다가 그냥 헤어지는 여운이 있다.
                                        </p>

In [10]:
# --- 방법 3
# 딕셔너리 key, value 로 찾아옴
bs.find('p', {'class' : 'desc_review'})

<p class="desc_review"> <!-- 모바일에서 더보기 클릭시 style="height:auto" -->
                                            어쩌다 단체로 본 상큼한 음악영화.
<br/>상상속에서 악기편성하는게 재미 있었고 뭔가 이루어질 듯 하다가 그냥 헤어지는 여운이 있다.
                                        </p>

In [12]:
# --- 방법 4
review = bs.find(class_='desc_review')

In [13]:
type(review)

bs4.element.Tag

In [16]:
# 텍스트만 추출한 후 화이트스페이스(whitespace)를 제거하고 출력한다.
# 첫 번째 리뷰의 내용이 없다면 공백으로 출력될 수도 있다.
review.get_text(strip=True)

'어쩌다 단체로 본 상큼한 음악영화.상상속에서 악기편성하는게 재미 있었고 뭔가 이루어질 듯 하다가 그냥 헤어지는 여운이 있다.'

In [18]:
reviews = bs.findAll(class_='desc_review')

In [19]:
type(reviews)

bs4.element.ResultSet

In [21]:
for i in reviews :
  print(i.get_text(strip=True))

어쩌다 단체로 본 상큼한 음악영화.상상속에서 악기편성하는게 재미 있었고 뭔가 이루어질 듯 하다가 그냥 헤어지는 여운이 있다.
좋아요...
맘이 ..




조금 한템포 쉬어가는 영화였으면 대박이었을까
^^



# 첫 페이지의 리뷰 모두 출력하기

앞의 예에서는 첫 번째 리뷰만 찾아서 텍스트를 추출했는데, 여기서는 첫 페이지의 모든 리뷰를 리스트로 받아온 후 **for** 문을 활용해 각 리뷰를 꺼내 텍스트만 추출한다.
- **find_all**() : 전달인자로 받은 태그를 모두 찾아서 리스트(list) 자료형으로 반환한다.

In [24]:
# --- 웹 스크래핑에 필요한 모듈을 불러온다.
from urllib.request import urlopen
# from bs4 import BeautifulSoup
# import urllib

# '비긴 어게인(2013)' 영화 리뷰의 첫 페이지를 가져온다.
# URL만 바꾸면 다른 영화 리뷰 데이터 수집할 수 있다.
url = 'https://movie.daum.net/moviedb/grade?movieId=134698&type=netizen&page=1' 

try:
    response = urlopen(url)
except urllib.error.HTTPError as err:
    print('The server returned an HTTP error:', err)
except urllib.error.URLError as err:
    print('The server could not be found!', err)
else:
    bs = BeautifulSoup(response, 'html.parser')  # 'html5lib'

In [25]:
# --- 해당 페이지의 리뷰들을 추출한 후 리스트에 추가한다.
# find_all(name, attrs, recursive, string, limit, **kwargs) 메소드를 통해 모든 리뷰를 추출한다.
tag_reviews = bs.find_all(class_='desc_review')

# --- 평점도 동일하게 작업한다.
tag_grades = bs.find_all(class_='emph_grade')


if tag_reviews is not None:
    reviews = [review.get_text(strip=True) for review in tag_reviews]

if tag_grades is not None:
    grades = [grade.get_text() for grade in tag_grades]

# 결과를 출력한다.    
for i, review in enumerate(reviews):
    print(f'{grades[i]} - {review}')

9 - 감동적이었어요!!!
8 - 다시금 주변국에 의해 좌지우지 되지 않도록 힘을 키워야겠다는 생각이 드네요
10 - 감동깊게 잘보고 왔읍니다. 평일조조 이지만 사람이 많았어요. 일산에서 우리나라의 미래를 보는듯 합니다. 평화 통일
10 - 
10 - 오랫만에 재밌게 영화 봤어요 감독이 공부를 많이한듯~오락성도 뛰어남
10 - 좋은 영화!!
10 - 많은 생각을 하게 만드는 영화였습니다...
10 - 이 영화가 불편한 인간들  많네 ...몰래몰래 유니클로 들어가는 인간들
2 - 
10 - 


# 여러 페이지의 리뷰 저장하기

## 각 페이지의 URL 구조 패턴

앞서 파악한 각 페이지의 URL 구조는 아래와 같다.
- http://movie.daum.net/moviedb/grade?movieId=80780&type=netizen&page=1
- http://movie.daum.net/moviedb/grade?movieId=80780&type=netizen&page=2
- http://movie.daum.net/moviedb/grade?movieId=80780&type=netizen&page=3
- ...
- http://movie.daum.net/moviedb/grade?movieId=80780&type=netizen&page=n

다른 구조는 모두 같지만 맨 뒤의 정수(**1**, **2**, **3**,...)만 달라지면서 페이지가 달라진다.

그러므로, 여러 페이지의 리뷰에 접근하기 위해서는 맨 뒤의 정수만 바꿔가면서 페이지를 열면 된다.

## 첫 다섯 페이지의 리뷰 저장하기

In [None]:
# --- '비긴 어게인(2013)' 영화 리뷰의 첫 5페이지 리뷰를 모두 가져온다.
# from urllib.request import urlopen
# from bs4 import BeautifulSoup

grades = []                # 태그를 제거한 리뷰 평점 전체를 담을 리스트를 초기화한다.
reviews = []               # 태그를 제거한 리뷰 전체를 담을 리스트를 초기화한다.

try:
    # 첫 다섯 페이지의 리뷰를 출력하고 저장한다.
    for i in range(5):
        #url = 'https://movie.daum.net/moviedb/grade?movieId=134698&type=netizen&page=' + str(i+1)
        url = 'https://movie.daum.net/moviedb/grade?movieId=134698&type=netizen&page=' + f'{i+1}'
        
        http = urlopen(url)
        bs = BeautifulSoup(http, 'html.parser')  # 'html5lib'
        
        # 해당 페이지의 평점을 추출한다.
        grades += [grade.get_text() for grade in bs.find_all(class_='emph_grade')]
        
        # 해당 페이지의 리뷰를 추출한다.
        reviews += [review.get_text(strip=True) for review in bs.find_all(class_='desc_review')]

        # 진행 사항을 표시한다.
        print(f'... {i + 1} 페이지 완료')
    else:
        print('=' * 7, 'Job completed!', '=' * 25)
except urllib.error.HTTPError as err:
    print('The server returned an HTTP error:', err)
except urllib.error.URLError as err:
    print('The server could not be found!', err)

In [None]:
grades

In [None]:
reviews 


In [30]:
# --- 가져온 내용을 파일로 저장한다.
path = 'movie-reviews-5-pages.txt'

# 리뷰 전체 내용을 텍스트 파일 쓰기 모드로 연다.
with open(path, mode='w', encoding='utf-8') as file:
  for i, review in enumerate(reviews):
    file.write(grades[i] + '|')
    file.write(review + '\n')


In [31]:
# ======= For Google Colaboratory ===============================
# --- 수집한 데이터와 전처리한 데이터를 로컬 파일로 내려받기를 한다.
from google.colab import files
files.download(path)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# 모든 페이지의 리뷰 저장하기

먼저 총 리뷰 개수와 리뷰 페이지 수를 구하고 **for** 문을 통해서 앞서 작성한 리뷰와 평점 추출을 반복하자.

**[주의] : 아래 코드는 모든 리뷰 페이지를 가져오기 때문에 다소 시간이 걸릴 수 있다.**

In [None]:
# --- '비긴 어게인(2013)' 영화 리뷰의 첫 페이지를 가져온다.
# from urllib.request import urlopen
# from bs4 import BeautifulSoup
# import urllib

# URL만 바꾸면 다른 영화 리뷰 데이터 수집할 수 있다.
movie_id = '134698'
url = 'https://movie.daum.net/moviedb/grade?movieId=' + movie_id + '&type=netizen&page=1' 

try:
    http = urlopen(url)
except urllib.error.HTTPError as err:
    print('The server returned an HTTP error:', err)
except urllib.error.URLError as err:
    print('The server could not be found!', err)
else:
    bs = BeautifulSoup(http, 'html.parser')  # 'html5lib'

In [44]:
# -- 리뷰를 작성한 전체 네티즌의 인원을 담고 있는 태그를 가져온다
reviewers = bs.find('span', class_='txt_menu').get_text(strip=True)
print(reviewers)

(2,477)


In [47]:
# --- 총 리뷰 개수를 10으로 나누어 페이지 개수를 계산할 수 있다.
# 평가를 한 네티즌 인원 수를 받아들여 공백을 지운다.
# 총 리뷰 개수의 양쪽 괄호를 지우고 1000명이 넘으면 
# 콤마를 제거해야 integer 전환시 에러가 없다.

total = reviewers[1:-1]
total = total.replace(",", "")
total = int(total)

print(f'총 리뷰 개수: {total:,}')

총 리뷰 개수: 2,477


In [50]:
# --- 총 페이지 수를 계산한다.
# 총 평점 개수를 10으로 나누고 정수로 변환해 총 페이지 개수를 계산한다.
# 10으로 나누는 이유는 한 페이지당 평점이 10개씩 있어서 그렇다.
# 총 페이지 수를 계산한 결과를 변수 page_no에 할당한다.

if total % 10 == 0 :
  page_no = int(total/10)
else :
  page_no = int(total/10) +1

print(f'총 리뷰 페이지 수...: {page_no:,}')

총 리뷰 페이지 수...: 248


In [51]:
grades = []                   # 태그를 제거한 리뷰 평점 전체를 담을 리스트를 초기화한다.
reviews = []                  # 태그를 제거한 리뷰 전체를 담을 리스트를 초기화한다.

try:
    for i in range(page_no):  # 총 리뷰 페이지만큼 순환문을 사용해서 전체 리뷰를 가져온다.   
        url = 'https://movie.daum.net/moviedb/grade?movieId=134698&type=netizen&page=' + f'{i+1}'
        bs = BeautifulSoup(urlopen(url), 'html.parser')  # 'html5lib'

        # --- find_all(name, attrs, recursive, string, limit, **kwargs)메소드를 통해 모든 리뷰와 평점을 추출한다.
        # 태그를 제거한 해당 페이지의 네티즌 평점을 리스트에 추가한다.
        grades += [grade.get_text() for grade in bs.find_all(class_='emph_grade')]
        # 태그를 제거한 해당 페이지의 네티즌 리뷰를 리스트에 추가한다.
        reviews += [review.get_text(strip=True) for review in bs.find_all(class_='desc_review')]

        # 진행 사항을 표시한다.
        print('.', end='')
        if (i + 1) % 10 == 0:
            print(f' 현재 가져온 리뷰 개수: {len(reviews):,}')
    else:
        print('\n=======', 'Job completed!', '=' * 25)
except urllib.error.HTTPError as err:
    print('The server returned an HTTP error:', err)
except urllib.error.URLError as err:
    print('The server could not be found!', err)

.......... 현재 가져온 리뷰 개수: 100
.......... 현재 가져온 리뷰 개수: 200
.......... 현재 가져온 리뷰 개수: 300
.......... 현재 가져온 리뷰 개수: 400
.......... 현재 가져온 리뷰 개수: 500
.......... 현재 가져온 리뷰 개수: 600
.......... 현재 가져온 리뷰 개수: 700
.......... 현재 가져온 리뷰 개수: 800
.......... 현재 가져온 리뷰 개수: 900
.......... 현재 가져온 리뷰 개수: 1,000
.......... 현재 가져온 리뷰 개수: 1,100
.......... 현재 가져온 리뷰 개수: 1,200
.......... 현재 가져온 리뷰 개수: 1,300
.......... 현재 가져온 리뷰 개수: 1,400
.......... 현재 가져온 리뷰 개수: 1,500
.......... 현재 가져온 리뷰 개수: 1,600
.......... 현재 가져온 리뷰 개수: 1,700
.......... 현재 가져온 리뷰 개수: 1,800
.......... 현재 가져온 리뷰 개수: 1,900
.......... 현재 가져온 리뷰 개수: 2,000
.......... 현재 가져온 리뷰 개수: 2,100
.......... 현재 가져온 리뷰 개수: 2,200
.......... 현재 가져온 리뷰 개수: 2,300
.......... 현재 가져온 리뷰 개수: 2,400
........


In [52]:
# --- 수집한 리뷰의 수를 확인한다.
len(reviews),len(grades)

(2479, 2479)

In [54]:
# --- 수집한 리뷰 중 마지막 10개만 출력해본다.
print(reviews[:-10])

['', '풍자가 훌륭했어요. 한편 우리 현실이 생각나서 씁쓸하기도 하고', '감동적이었어요!!!', '다시금 주변국에 의해 좌지우지 되지 않도록 힘을 키워야겠다는 생각이 드네요', '감동깊게 잘보고 왔읍니다. 평일조조 이지만 사람이 많았어요. 일산에서 우리나라의 미래를 보는듯 합니다. 평화 통일', '', '오랫만에 재밌게 영화 봤어요 감독이 공부를 많이한듯~오락성도 뛰어남', '좋은 영화!!', '많은 생각을 하게 만드는 영화였습니다...', '이 영화가 불편한 인간들  많네 ...몰래몰래 유니클로 들어가는 인간들', '', '', '정말 잼있게 봤습니다. 두번이나....', '일본 총리를 꽃미남 배우로 등장시키지 않아서 열받은 사람들 많네요?', '여러가지 현실성이 떨어지는 것이 사실이지만,그럼에도 불구하고 재밌었다.긴 상영시간이 전혀 지루하지 않았고, 정우성이라는 배우의 깊어진 매력도 충분히 느낄 수 있었다.', '너무 황당해서..나중에는 김정은 유엔사무총장으로 등장 시킬듣..', '북한을 두개의 모습으로 분리해서 싸우게 하는 컨셉트가 마음에 든다. 중국 중국하는 곽도원에게서 미국미국하는 이나라의 어떤 자들도 생각하게 한다.', '재밌어요^^', '에필로그 마지막 대사의 무게 때문에 잠시 자리에서 못 일어났다.', '생각하게 만드는 영화', '재미있는데... 영화도 안보고 평점테러하는 사람들 뭐임??', '', '한반도 상황에대한 깊이있는 고찰과 함께 배우들의 명연기가 더해져 좋은 영화 잘 보았습니다', '앞부분이 너무 지루함..잠수함 액션과 연기력등은 최고..', '영화관계자 가족들이 댓글 점령?진짜 이런 쓰레기중의 쓰레기 영화가 2020년에 나왔다니...할말을 잃음ㅜㅜ1만원 아까워서 참고 또 참았으나 결국 중간에 극장을 뛰쳐나왔다', '앞이 좀 지루한데, 곧 전투함 액션씬 죽임!', '영화적인  재미 있음.  각자의 역할을 한  배우와  특수 효과의 콜라보', '오늘 보고 재미있어서 친구들에게 추천해줬어요.', '', '평점을4~5 정도 주는 건  

In [55]:
# --- 가져온 내용을 파일로 저장한다.
path = 'movie-reviews-A.txt'

# 텍스트 파일을 쓰기 모드로 연다.
# 이 때 빈 리뷰와 평점은 파일로 저장하지 않는다.
with open(path, mode='w', encoding='utf-8') as file:
  for i, review in enumerate(reviews):
    file.write(grades[i] + '|')
    file.write(review + '\n')

In [57]:
%pycat movie-reviews-A.txt

In [56]:
# ======= For Google Colaboratory ===============================
# --- 수집한 데이터와 전처리한 데이터를 로컬 파일로 내려받기를 한다.
from google.colab import files
files.download(path)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

---
# <font color='red'>THE END</font>