## 파싱(Parsing)이란?

**'파싱'** 이란 문자의 구조를 분석해서 원하는 정보를 얻어내는걸 말함
복잡한 HTML 코드에서 정보를 뽑아내는 것도 파싱의 일종

## Beautiful Soup

파이썬에서는 Beautiful Soup 을 통해 HTML을 파싱한다.

파싱할 HTML 코드를 변수 ``html_code``에 넣는다(파이썬에서 여러줄의 텍스트는 """와 """ 사이에 두면 하나의 문자열로 인식)

In [3]:
import requests

response = requests.get('https://workey.codeit.kr/ratings/index')
print(response.text)

<!DOCTYPE html>
<html lang="ko">
<head>
  <title>티비랭킹닷컴</title>
  <meta charset="utf-8">
  <link href="https://fonts.googleapis.com/css?family=Noto+Sans+KR" rel="stylesheet">
  <style>
    /* body start */
    body {
      font-family: 'Noto Sans KR', sans-serif;
      margin: 0;
    }

    /* navigation bar start */
    .nav-bar {
      position: fixed;
      width: 100%;
      padding-top: 10px;
      padding-bottom: 10px;
      background-color: #ffffff;
      box-shadow: 0 2px 4px 0 rgba(0, 0, 0, 0.14);
      z-index: 1;
    }

    .nav-bar #tv-image {
      margin-left: 78px;
      margin-right: 15px;
      height: 36px;
      vertical-align: middle;
    }

    .nav-bar span {
      font-weight: bold;
      color: #4a4a4a;
    }

    /* date picker start */
    .date-pick {
      padding-top: 56px;
      height: 200px;
      background-color: #efefef;
      margin-left: auto;
      margin-right: auto;
      position: relative;
    }

    .date-pick .search-box {
      text-align: 

In [9]:
html_code = """<!DOCTYPE html>
<html>
<head>
    <title>Sample Website</title>
</head>
<body>
<h2>HTML 연습!</h2>

<p>이것은 첫 번째 문단입니다.</p>
<p>이것은 두 번째 문단입니다!</p>

<ul>
    <li>커피</li>
    <li>녹차</li>
    <li>우유</li>
</ul>

<img src='https://i.imgur.com/bY0l0PC.jpg' alt="coffee"/>
<img src='https://i.imgur.com/fvJLWdV.jpg' alt="green-tea"/>
<img src='https://i.imgur.com/rNOIbNt.jpg' alt="milk"/>

</body>
</html>
"""

In [5]:
from bs4 import BeautifulSoup

HTML코드를 파싱하기 위해서는 HTML을 BeautifulSoup 타입으로 바꿔줘야한다.

In [12]:
soup = BeautifulSoup(html_code, 'html.parser')

# type 출력
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [13]:
tags = soup.select('li')

In [14]:
print(tags)

[<li>커피</li>, <li>녹차</li>, <li>우유</li>]


여기서 첫번쨰 ``<li>`` 태그만 출력해보자

In [15]:
print(tags[0])

<li>커피</li>


``.select()`` 로 가져온 태그는 사실 그냥 텍스트가 아니다

In [16]:
print(type(tags[0]))

<class 'bs4.element.Tag'>


위와 같이 text가 아닌 엘리먼트 태그라는 형식의 type이 출력된다.

이걸 BeautifulSoup 태그라고 부르자

여기서 ``.text``라고 붙이면 텍스트만 추출할 수 있다.

In [18]:
# 모든 li 태그 선택
tags = soup.select('li')

# 첫 번째 <li> 태그 출력하기
print(tags[0])

# 첫 번째 <li> 태그의 텍스트 출력하기
print(tags[0].text)

<li>커피</li>
커피


In [21]:
# 반복문을 사용하여 모든 문자열을 추출해서 리스트에 담자
tags = soup.select('li')

beverage_names = []

for li in tags:
    beverage_names.append(li.text)
    
print(beverage_names)

['커피', '녹차', '우유']


## 파싱(Parsing) II

이번에는 태그의 속성 값을 추출해보자

``<img>`` 태그의 ``src`` 속성에는 일반적으로 이미지 주소가 저장되어 있다.

In [7]:
from bs4 import BeautifulSoup

html_code = """<!DOCTYPE html>
<html>
<head>
    <title>Sample Website</title>
</head>
<body>
<h2>HTML 연습!</h2>

<p>이것은 첫 번째 문단입니다.</p>
<p>이것은 두 번째 문단입니다!</p>

<ul>
    <li>커피</li>
    <li>녹차</li>
    <li>우유</li>
</ul>

<img src='https://i.imgur.com/bY0l0PC.jpg' alt="coffee"/>
<img src='https://i.imgur.com/fvJLWdV.jpg' alt="green-tea"/>
<img src='https://i.imgur.com/rNOIbNt.jpg' alt="milk"/>

</body>
</html>
"""

# BeautifulSoup 타입으로 전환
soup = BeautifulSoup(html_code, 'html.parser')

# 모든 <img> 태그 선택하기
img_tags = soup.select('img')


print(img_tags)

[<img alt="coffee" src="https://i.imgur.com/bY0l0PC.jpg"/>, <img alt="green-tea" src="https://i.imgur.com/fvJLWdV.jpg"/>, <img alt="milk" src="https://i.imgur.com/rNOIbNt.jpg"/>]


위와 같이 img 링크의 리스트가 출력된다.

이 중에서 첫 번쨰 img 태그만 꺼내보자

In [8]:
img_tags = soup.select('img')

# 이 중 첫 번째 요소 출력하기
print(img_tags[0])

<img alt="coffee" src="https://i.imgur.com/bY0l0PC.jpg"/>


태그에 ``.text`` 를 붙이면 텍스트가 추출된 것처럼, 태그에 ``["속성 이름"]`` 을 붙여주면 해당 속성의 값을 가져올 수 있다.

In [10]:
img_tags = soup.select('img')

print(img_tags[0]['src'])

https://i.imgur.com/bY0l0PC.jpg


위와 같이 이미지의 주소만 출력된다.

``for``반목문을 활용하면 모든 이미지 주소를 가져올 수 있을 것

In [12]:
img_tags = soup.select('img')

imgs = []

for img in img_tags:
    imgs.append(img["src"])
    
print(imgs)

['https://i.imgur.com/bY0l0PC.jpg', 'https://i.imgur.com/fvJLWdV.jpg', 'https://i.imgur.com/rNOIbNt.jpg']


## CSS 선택자 더 알아보기

앞서 네가지의 CSS 선택자를 알아보았다.

### OR 연산

쉼표( , )는 OR 연산을 의미한다.

``
two, four {
  color: red;
}``

### AND 연산

두 CSS 선택자를 붙여쓰면, 두 조건에 모두 해당되는 요소를 선택한다.

``
.favorite.private {
  color: red;
}``

### 중첩된 요소

HTML 태그 안에 또 다른 HTML 태그가 있을 수 있다. 이를 태그가 중첩되어 있다고 하는데
일반적인 웹 페이지의 HTML 태그를 많이 중첩되어 있기 때문에 중첩에 대한 조건을 추가하는 경우가 많다.

``
<i>디저트</i>
<p>
  <i>다쿠아즈</i>
  <i>마카롱</i>
  <i>케이크</i>
</p>
``
``<i>`` 태그를 이탤릭체를 효과를 의미하는데
위 코드를 보면 여러개의 ``<i>`` 태그가 중첩되어 있음을 볼 수 있다.

이때 만약 ``<p>`` 태그 안에 중첩된 ``<i>``태그만 가져오고 싶다면 어떻게 해야할까?

이런 경우 띄어쓰기로 중첩을 표현할 수 있다.

``p i{
    color: red;
}
    ``


## 크롬 개발자 도구로 선택자 알아내기

조금 더 쉽게 HTML 태그의 구조를 알아내려면?

크롬 브라우저의 개발자 도구를 사용하면 된다.


## 파싱(Parsing) III

이번에는 실제 웹사이트의 reponse를 받아서 파싱해보자

### HTML 코드 받아오기

먼저 웹사이트의 HTML 코드를 받아오자

(이번 실습에서는 코드잇 음악차트를 이용할 것)

In [15]:
import requests

response = requests.get("https://workey.codeit.kr/music/index")

print(response.text)

<!DOCTYPE html>
<html lang="ko">
<head>
  <script src="https://cdn.jsdelivr.net/npm/vue/dist/vue.js"></script>
  <script src="https://unpkg.com/axios/dist/axios.min.js"></script>
  <meta charset="UTF-8">
  <title>Codeit Music</title>
  <style>
    body {
      margin: 0;
    }

    a {
      text-decoration: none;
      color: inherit;
    }

    img {
      vertical-align: middle;
    }

    ul {
      list-style: none;
      padding: 0;
      margin: 0;
    }

    * {
      box-sizing: border-box;
    }

    .header {
      position: fixed;
      top: 0;
      left: 0;
      width: 100%;
      height: 60px;
      background-color: #ffffff;
      overflow: hidden;
      z-index: 1;
    }

    .nav-warpper {
      max-width: 1163px;
      margin: 0 auto;
      height: 100%;
      line-height: 60px;
      padding: 0 20px
    }

    .header__logo .logo-img {
      width: 34px;
      margin-right: 25px;
    }

    .header__nav {
      display: inline-block;
      vertical-align: middle;
 

### BeautifulSoup 타입으로 바꾸기

파싱을 위해 HTML 코드를 BeautifulSoup형식으로 바꿔주자

In [18]:
import requests
from bs4 import BeautifulSoup

response = requests.get("https://workey.codeit.kr/music/index")

soup = BeautifulSoup(response.text, 'html.parser')

print(soup)

<!DOCTYPE html>

<html lang="ko">
<head>
<script src="https://cdn.jsdelivr.net/npm/vue/dist/vue.js"></script>
<script src="https://unpkg.com/axios/dist/axios.min.js"></script>
<meta charset="utf-8"/>
<title>Codeit Music</title>
<style>
    body {
      margin: 0;
    }

    a {
      text-decoration: none;
      color: inherit;
    }

    img {
      vertical-align: middle;
    }

    ul {
      list-style: none;
      padding: 0;
      margin: 0;
    }

    * {
      box-sizing: border-box;
    }

    .header {
      position: fixed;
      top: 0;
      left: 0;
      width: 100%;
      height: 60px;
      background-color: #ffffff;
      overflow: hidden;
      z-index: 1;
    }

    .nav-warpper {
      max-width: 1163px;
      margin: 0 auto;
      height: 100%;
      line-height: 60px;
      padding: 0 20px
    }

    .header__logo .logo-img {
      width: 34px;
      margin-right: 25px;
    }

    .header__nav {
      display: inline-block;
      vertical-align: middle;
    }

  

### 태그 골라내기

위 HTML태그에서 10명의 인기차트 아티스트 이름을 선택해보자

``'poppular__order'``클래스를 가진 ``<ul>``태그에 중첩된 모든 ``<li>``태그를 선택.
선택자를 ``.popular__order li``라고 하면 될 것

In [19]:
soup.select('.popular__order li')

[<li class="list">
 <span class="list__index blue">1</span> 아이유 (IU)
           </li>, <li class="list">
 <span class="list__index blue">2</span> 방탄소년단
           </li>, <li class="list">
 <span class="list__index blue">3</span> Red Velvet (레드벨벳)
           </li>, <li class="list">
 <span class="list__index">4</span> IKON
           </li>, <li class="list">
 <span class="list__index">5</span> 멜로망스
           </li>, <li class="list">
 <span class="list__index">6</span> 다비치
           </li>, <li class="list">
 <span class="list__index">7</span> 윤딴딴
           </li>, <li class="list">
 <span class="list__index">8</span> 수지 (SUZY)
           </li>, <li class="list">
 <span class="list__index">9</span> 김동률
           </li>, <li class="list">
 <span class="list__index">10</span> 폴킴
           </li>]

이 중에서 아티스트명 텍스트만 추출해보자

In [20]:
li_tags = soup.select('.popular__order li')

popular_artist = []

\
for pop in li_tags:
    popular_artist.append(pop.text)
    
print(popular_artist)

['\n1 아이유 (IU)\n          ', '\n2 방탄소년단\n          ', '\n3 Red Velvet (레드벨벳)\n          ', '\n4 IKON\n          ', '\n5 멜로망스\n          ', '\n6 다비치\n          ', '\n7 윤딴딴\n          ', '\n8 수지 (SUZY)\n          ', '\n9 김동률\n          ', '\n10 폴킴\n          ']


앞뒤 공백이 존재하지 이를 제거해보자

In [22]:
li_tags = soup.select('.popular__order li')

popular_artist = []

for pop in li_tags:
    popular_artist.append(pop.text.strip())
    
print(popular_artist)

['1 아이유 (IU)', '2 방탄소년단', '3 Red Velvet (레드벨벳)', '4 IKON', '5 멜로망스', '6 다비치', '7 윤딴딴', '8 수지 (SUZY)', '9 김동률', '10 폴킴']


## 그녀의 전화번호를 찾아서

운명적인 그녀를 만났지만 그녀가 오렌지 보틀에서 일한다는 것 말고는 아는 사실이 없다.

오렌지 보틀의 웹사이트에서 모든 지점의 전화번호를 모아보려 한다.

In [27]:
import requests

from bs4 import BeautifulSoup

response = requests.get('https://workey.codeit.kr/orangebottle/index')

soup = BeautifulSoup(response.text, 'html.parser')

<!DOCTYPE html>

<html>
<head>
<title>Orange bottle coffee</title>
<meta charset="utf-8"/>
<link href="https://fonts.googleapis.com/css?family=Noto+Sans+KR" rel="stylesheet"/>
<style>
        body {
            font-family: 'Noto Sans KR', sans-serif;
            margin: 0;
            background-color: #ffffff;
        }

        /*navigation bar*/
        #bottle {
            margin-top: 12px;
            margin-bottom: 11px;
            margin-left: 79px;
            margin-right: 24px;
            vertical-align: middle;
            width: 13px;
        }

        #title {
            font-size: 14px;
            font-weight: bold;
            vertical-align: middle;
            color: #4a4a4a;
        }

        ul {
            display: inline;
            padding-left: 0;
        }

        li {
            float: right;
            list-style-type: none;
            font-size: 14px;
        }

        #subscribe {
            color: #f5a623;
            margin-right: 25px;
   

In [33]:
class_tags = soup.select('.container .branch .phoneNum')

nums = []

for num in class_tags:
    nums.append(num.text)
    
print(nums)

['707-514-0033', '070 3460 5076', '905-389-4463', '(02) 6175 8642', '07183 30 07 96', '21-90-47700', '33 36175334', '845-857-0825', '507-876-0713', '773-757-1932', '301-787-8206', '310-718-6212', '781-646-1715', '315-576-8242', '650-577-7537', '229-460-4970', '305-540-4990', '606-614-9190', '814-965-6502', '8134-191-6900', '914-933-3946', '801-927-7191', '736 301 706', '916-863-6154', '252-218-2526', '803-535-5627', '580-730-2253', '240-597-0099', '210-727-9560', '919-887-6912', '614-449-8617', '830-229-4983', '303-284-0638', '734-981-4470', '701-496-3125', '605-677-5038', '209-848-9572', '760-464-6831', '508-272-0114', '845-915-5076', '973-640-3581', '541-579-1559', '336-212-0408', '845-340-3808', '561-526-2625', '801-608-1332', '510-214-0266', '785-253-0084', '585-749-2163', '312-362-2484', '570-603-5788', '802-738-8477', '507-771-8684', '720-634-0176', '313-930-0331', '8188-165-7118', '02-455-1973']


## 검색어 순위 받아오기

음악사이트의 검색어 순위를 받아오려 합니다.

'인기 아티스트' 아래에 있는 '검색어 순위'의 1위 ~ 10위 데이터를 파싱해서 리스트에 담아 print 해보세요

In [1]:
import requests
from bs4 import BeautifulSoup

response = requests.get('https://workey.codeit.kr/music/index')

soup = BeautifulSoup(response.text, 'html.parser')

print(soup)

<!DOCTYPE html>

<html lang="ko">
<head>
<script src="https://cdn.jsdelivr.net/npm/vue/dist/vue.js"></script>
<script src="https://unpkg.com/axios/dist/axios.min.js"></script>
<meta charset="utf-8"/>
<title>Codeit Music</title>
<style>
    body {
      margin: 0;
    }

    a {
      text-decoration: none;
      color: inherit;
    }

    img {
      vertical-align: middle;
    }

    ul {
      list-style: none;
      padding: 0;
      margin: 0;
    }

    * {
      box-sizing: border-box;
    }

    .header {
      position: fixed;
      top: 0;
      left: 0;
      width: 100%;
      height: 60px;
      background-color: #ffffff;
      overflow: hidden;
      z-index: 1;
    }

    .nav-warpper {
      max-width: 1163px;
      margin: 0 auto;
      height: 100%;
      line-height: 60px;
      padding: 0 20px
    }

    .header__logo .logo-img {
      width: 34px;
      margin-right: 25px;
    }

    .header__nav {
      display: inline-block;
      vertical-align: middle;
    }

  

In [39]:
soup.select('.list')[0].text

'\n1 아이유 (IU)\n          '

In [16]:
top_tags = soup.select('.rank .list')

ranking = []

for num in top_tags:
    ranking.append(num.text.strip().split(' '))
    
print(ranking)

[['1', '0', 'Queen'], ['2', '0', '방탄소년단'], ['3', '0', '아이유'], ['4', '7', '거미'], ['5', '1', '폴킴'], ['6', '1', '김범수'], ['7', '6', '헤이즈'], ['8', '2', '트와이스'], ['9', '7', '박효신'], ['10', '0', '신용재']]


리스트의 리스트를 인덱싱 할 줄 몰라.... 데이터 프레임으로 전환 후 해당 열을 리스트로 다시 전환하는 방법을 사용하였다.

In [38]:
import pandas as pd

df_rank = pd.DataFrame(ranking)
search_ranks = list(df_rank[2])
print(search_ranks)

['Queen', '방탄소년단', '아이유', '거미', '폴킴', '김범수', '헤이즈', '트와이스', '박효신', '신용재']


### 해설 - 검색어 순위 받아오기

In [40]:
import requests
from bs4 import BeautifulSoup

response = requests.get('https://workey.codeit.kr/music/index')

soup = BeautifulSoup(response.text, 'html.parser')

top_tags = soup.select('.rank .list')

ranking = []

for num in top_tags:
    ranking.append(num.text.strip().split(' ')[2])   # 이렇게 인덱싱하면 되는걸.....
    
print(ranking)

['Queen', '방탄소년단', '아이유', '거미', '폴킴', '김범수', '헤이즈', '트와이스', '박효신', '신용재']


## 필요한 페이지만 가져오기

만약 이케아에서 'desk'를 검색하면 총 몇개의 검색 결과 페이지가 나올까?

예상할 수 없을 것
파싱을 활용하면 이케아에서 desk 정보가 아무리 많아도 수집할 수 있다.

### 방법1: 파싱으로 페이지 개수 알아내기

이케아 검색창에 'desk'라고 입력하면

https://www.ikea.com/kr/ko/search/?query=desk 로 저절로 변경이 된다.(주소가)

개발자 도구를 통해 살펴보면 페이지 넘버 버튼이 모두 pagenation이라는 class에 ``<div>``태그 아래에 있는 것을 확인할 수 있다.

In [41]:
import requests
from bs4 import BeautifulSoup

# HTML 코드 받아오기
response = requests.get('https://www.ikea.com/kr/ko/search/?query=desk')

# BeautifulSoup 형태로 전환하기
soup = BeautifulSoup(response.text,'html.parser')

# 결과
print(soup)


<!DOCTYPE html>

<html lang="ko-KR" xml:lang="ko-KR" xmlns="http://www.w3.org/1999/xhtml">
<head>
<title id="htmlTitle">검색결과 - IKEA</title>
<meta content="text/html;charset=utf-8" http-equiv="Content-Type"/>
<meta content="text/css" http-equiv="Content-Style-Type"/>
<meta content="text/javascript" http-equiv="Content-Script-Type"/>
<meta content="2019-12-11" name="date_published" scheme="W3CDTF"/>
<meta content="noindex, follow" name="robots"/>
<meta content="ko-KR" name="language" scheme="rfc1766"/>
<meta content="-77" name="languageid"/>
<meta content="53" name="store_id"/>
<meta content="" name="description"/>
<meta content="search" name="keywords"/>
<meta content="KR" name="country"/>
<meta content="검색결과 - IKEA" name="title"/>
<meta content="Categories" name="category"/>
<meta content="1535-1535" name="IRWStats.siteVersion"/>
<meta content="search" name="IRWStats.pageType"/>
<meta content="search" name="IRWStats.internalPageType"/>
<meta content="search" name="IRWStats.productFind

코드는 살펴보지 pagenation 클래스를 갖는 ``<div>``태크 안에 ``<a>``태그들이 있고 가장 마지막 ``<a>``태그에 페이지번호가 있음을 확인

* <a href="/kr/ko/search/?query=desk&amp;pageNumber=2">2</a>

여기서 총 12개의 페이지가 존재한다는 것을 확인

따라서 마지막 ``<a>``태그의 텍스트를 가져온다면 페이지 개수를 알아낼 수 있을 것

In [64]:
import requests
from bs4 import BeautifulSoup

response = requests.get('https://www.ikea.com/kr/ko/search/?query=desk')

soup = BeautifulSoup(response.text, 'html.parser')

page_length = soup.select('.pagination a')[-1].text   # 리스트의 마지막 변수에서 text만 추출하여 길이로 사용했다.

print(page_length)

12


#### 위 값을 이용해서 for 반복문을 실행하면 실제 페이지 개수 만큼만 HTML코드를 받아올 수 있습니다.

In [66]:
import requests
from bs4 import BeautifulSoup

response = requests.get('https://www.ikea.com/kr/ko/search/?query=desk')

soup = BeautifulSoup(response.text, 'html.parser')

page_length = soup.select('.pagination a')[-1].text   # 리스트의 마지막 변수에서 text만 추출하여 길이로 사용했다.

pages = []

for i in range(1, int(page_length) + 1):
    response = requests.get('https://www.ikea.com/kr/ko/search/?query=desk&pageNumber=' + str(i))
    pages.append(response.text)
    
print(len(pages))

12


## 방법2: 일단 가져와서 확인해보기(더 스마트)

만약 전체 페이지 개수가 사이트에 드러나지 않는다면? (그런 경우가 있는듯)
일단은 페이지를 가져오고 데이터가 비어있는지 확인하는 방법이 있다.

desk 검색결과에 833 페이지도 있을까? 

일단 833 을 띄웠을 때 상품이 나와버리긴 하지만 일단 제품 이름인 prodName 클래스의 유무로 한 번 확인해보자

In [71]:
import requests
from bs4 import BeautifulSoup

# 빈 리스트 생성
pages = []

# 첫 페이지 번호 지정
page_num = 1

while True:
    # HTML 코드 받아오기
    response = requests.get("https://www.ikea.com/kr/ko/search/?query=desk&pageNumber=" + str(page_num))

    # BeautifulSoup 타입으로 변환하기
    soup = BeautifulSoup(response.text, 'html.parser')

    # ".prodName" 클래스가 있을 때만 HTML 코드를 리스트에 담기
    if len(soup.select('.pagination a')) > 0:
        pages.append(soup)
        page_num += 1
    else:
        break

# 가져온 페이지 개수 출력하기
print(len(pages))

12


## TV 시청률 크롤링

2010년 1월부터 2018년 12월까지 모든 달에 대해 데이터가 있는 모든 페이지의 HTML코드를 

**rating_pages**에 저장하기
단, **Beautiful Soup** 타입으로 변환한 코드가 아닌 **response**의 **text**를 저장하시오!

In [None]:
import requests
from bs4 import BeautifulSoup


pages = []



while True:
    response = requests.get('https://workey.codeit.kr/ratings/index?' + str(page_num))
    soup = BeautifulSoup(reponse.text, 'html.parser')
    if len(soup.select('.rank') > 0):
        
        