<a href="https://colab.research.google.com/github/BoYeonJang/ICT-AI-education/blob/main/(8%EC%9B%94%209%EC%9D%BC)%20%ED%8C%8C%EC%9D%B4%EC%8D%AC%EC%9D%84%20%ED%99%9C%EC%9A%A9%ED%95%9C%20%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D%20%EB%AA%A8%EB%8D%B8%20%EB%A7%8C%EB%93%A4%EA%B8%B0(1)/BeautifulSoup.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# BeautifulSoup 기초

## BeautifulSoup 특징

- HTML과 XML 파일에서 데이터를 뽑아내기 위한 파이썬 라이브러리
- HTML과 XML의 트리 구조를 탐색, 검색, 변경 가능
- 다양한 파서(Parser)를 선택하여 이용 가능

## HTML 파싱(Parsing)

### 웹페이지 예제 생성

In [2]:
%%writefile example.html
<!DOCTYPE html>
<html>
  <head>
    <title> Page Title </title>
  </head>
  <body>
    <h1> Heading </h1>
    <p> Paragraph </p>
    <div>
      <a href = "www.google.com"> google </a>
    </div>
    <div class = "class1">
      <p> a </p>
      <a href = "www.naver.com"> naver </a>
      <p> b </p>
      <p> c </p>
    </div>
    <div id = "id1">
      Example page
      <p> g </p>
    </div>
  </body>
</html>

Writing example.html


In [3]:
<!DOCTYPE html>
<html>
  <head>
    <title> </title>
  </head>
  <body>
    <a> </a>
  </body>
</html>

SyntaxError: ignored

In [4]:
from bs4 import BeautifulSoup
import urllib.request

with open ("example.html") as fp:
  soup = BeautifulSoup(fp, 'html.parser')

## HTML 태그 파싱

In [5]:
soup.title

<title> Page Title </title>

In [6]:
soup.title.name

'title'

In [7]:
soup.title.string

' Page Title '

In [8]:
soup.title.parent.name

'head'

In [9]:
soup.h1

<h1> Heading </h1>

In [10]:
soup.p

<p> Paragraph </p>

In [11]:
soup.div

<div>
<a href="www.google.com"> google </a>
</div>

In [12]:
soup.a

<a href="www.google.com"> google </a>

## HTML 태그 검색

- find(): 해당 조건에 맞는 하나의 태그를 가져옴
- fina_all(): 해당 조건에 맞는 모든 태그를 가져옴
- select(): CSS 선택자와 같은 형식으로 선택 가능

# 인터넷 웹페이지 가져오기

In [13]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

res_comic = requests.get('https://comic.naver.com/index')
soup_comic = BeautifulSoup(res_comic.text, 'lxml')

soup_comic

<!DOCTYPE html>
<html lang="ko">
<head>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
<title>네이버 웹툰</title>
<meta content="네이버 웹툰" property="og:title"/>
<meta content="https://ssl.pstatic.net/static/comic/images/og_tag_v2.png" property="og:image"/>
<meta content="매일매일 새로운 재미, 네이버 웹툰." property="og:description"/>
<meta content="https://comic.naver.com/index" property="og:url"/>
<meta content="article" property="og:type"/>
<meta content="네이버 웹툰" property="og:article:author"/>
<meta content="https://comic.naver.com" property="og:article:author:url"/>
<link href="https://ssl.pstatic.net/static/comic/favicon/webtoon_favicon_32x32.ico" rel="shortcut icon" type="image/x-icon"/>
<script type="text/javascript">function windowOpen(url){location.href = url;}function goArtistTitle(element, area, titleId, index, event) {nclk_v2(event,area,'',index);return artistAction.viewArtist(titleId, element);}</script>
<scri

# 네이버 웹툰 인기순위 웹스크래핑

- 인기순

In [14]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

res_comic = requests.get('https://comic.naver.com/index')
soup_comic = BeautifulSoup(res_comic.text, 'lxml')

comic_all = soup_comic.find('ol', attrs = {'id': 'realTimeRankFavorite'}).find_all('li')

list_comic_all = []

for rank, comic in enumerate(comic_all):
  list_comic = []
  list_comic.append(rank + 1)
  list_comic.append(comic.a.text.strip())
  list_comic.append('https://comic.naver.com' + comic.a['href'])
  list_comic_all.append(list_comic)

df_comic = pd.DataFrame(list_comic_all, columns = ['순위', '제목', '링크'])

df_comic

Unnamed: 0,순위,제목,링크
0,1,김부장-41화 우리집에 국수 먹으러 갈래?,https://comic.naver.com/webtoon/detail?titleId...
1,2,여신강림-219화,https://comic.naver.com/webtoon/detail?titleId...
2,3,내가 키운 S급들-42화 : 위기의 명우!,https://comic.naver.com/webtoon/detail?titleId...
3,4,멸망 이후의 세계-제 27 화,https://comic.naver.com/webtoon/detail?titleId...
4,5,중증외상센터 : 골든 아워-2부 64화 : 초응급,https://comic.naver.com/webtoon/detail?titleId...
5,6,마루는 강쥐-9화. 마트에 가자!,https://comic.naver.com/webtoon/detail?titleId...
6,7,랜덤채팅의 그녀!-244. 안티테제,https://comic.naver.com/webtoon/detail?titleId...
7,8,용사가 돌아왔다-62화 이성준(1),https://comic.naver.com/webtoon/detail?titleId...
8,9,1을 줄게-46화,https://comic.naver.com/webtoon/detail?titleId...
9,10,대학원 탈출일지-46화-식사(2),https://comic.naver.com/webtoon/detail?titleId...


# 영화 리뷰 스크래핑

- 네이버 영화 리뷰
- CSV 파일에 저장

In [None]:
from bs4 import BeautifulSoup
import requests
import time
import csv

need_reviews_cnt = 1000
reviews = []
review_data = []

# page를 1부터 1씩 증가하며 URL을 다음 페이지로 바꿈
for page in range(1, 500):
  url = f'https://movie.naver.com/movie/point/af/list.naver?&page={page}'

  # get: request로 url의 html 문서의 내용 요청
  html = requests.get(url)

  # html을 받아온 문서를 content로 지정 후 soup 객체로 변환
  soup = BeautifulSoup(html.content, 'html.parser')

  # find_all: 지정한 태그의 내용을 모두 찾아 리스트로 변환
  reviews = soup.find_all('td', {'class':'title'})

  # 한 페이지의 리뷰 리스트의 리뷰를 하나씩 보면서 데이터 추출
  for review in reviews:
    sentence = review.find('a', {'class':'report'}).get('onclick').split("', ")[2]

    # 만약 리뷰 내용이 비어있다면 데이터를 사용하지 않음
    if sentence != '':
      movie = review.find('a', {'class':'movie color_b'}).get_text()
      score = review.find('em').get_text()
      review_data.append([movie, sentence, int(score)])
      need_reviews_cnt -= 1

    # 현재까지 수집된 리뷰가 목표 수집 리뷰보다 많아진 경우 크롤링 중지
    if need_reviews_cnt < 0:
      break

    # 다음 페이지를 조회하기 전 0.5초 시간 차를 두기
    time.sleep(0.5)

columns_name = ['movie', 'sentence', 'score']

with open ('samples.csv', 'w', newline = '', encoding = 'utf8') as f:
  write = csv.writer(f)
  write.writerow(columns_name)
  write.writerows(review_data)