# CSS 선택자 정리하기

## 1. 태그 이름
: 특정 태그 전체를 선택하려면 태그 이름을 사용합니다.
|CSS 선택자|의미|
|---|---|
|li|모든 li 태그|
|p|모든 p 태그|

## 2. 아이디
: 특정 아이디의 태그를 선택하려면, 아이디 앞에 #을 붙입니다.
|CSS 선택자|의미|
|---|---|
|#coffee|아이디가 coffee인 태그|
|#tea-leaf|아이디가 tea-leaf인 태그|


## 3. 클래스
:특정 클래스의 태그를 선택하려면, 클래스 앞에 .을 붙입니다.
|CSS 선택자|의미|
|---|---|
|.favorite|클래스가 favorite인 태그|
|.reverse|클래스가 reverse인 태그|

## 4. 속성
: 속성의 이름과 값으로 태그를 선택하려면, [name="value"] 형식으로 적습니다.
|CSS 선택자|의미|
|---|---|
|[alt="green-tea]|alt 속성의 값이 "green-tea"인 태그|
|[href="https://www.codeit.kr/"]|href 속성의 값이 "https://codeit.kr/"인 태그|

## CSS 선택자 조합해서 사용하기

### 1. OR 연산
: 쉼표(,)를 활용하면 or연산이 됩니다. 두 CSS 선택자 중 하나라도 해당되면 선택합니다.
|CSS 선택자|의미|
|---|---|
|#login, .left|아이디가 login이거나 클래스가 left인 태그|
|p, i|모든 p 태그와 모든 i 태그|

### 2. AND 연산
: 두 CSS 선택자를 붙여쓰면 AND 연산이 됩니다. 두 CSS 선택자에 모두 해당되는 요소만 선택합니다.
|CSS 선택자|의미|
|---|---|
|.favorite.private|favorite 클래스와 private 클래스를 모두 가진 태그|
|p.favorite|favorite 클래스를 가진 p 태그|

### 3. 중첩된 요소
: 중첩된 태그를 선택하려면, 두 CSS 선택자를 띄어쓰면 됩니다.
첫 번째 CSS 선택자로 선택된 태그 내부에서, 두 번째 CSS 선택자를 찾습니다.
|CSS 선택자|의미|
|---|---|
|.favorite .private|favorite 클래스를 가진 태그에 중첩된 .private 클래스를 가진 태그|
|p .favorite|p 태그 아래에 중첩된, favorite 클래스를 가진 태그|

# 파싱(Parsing)

In [4]:
import requests

# HTML 코드 받아오기
response = requests.get("https://workey.codeit.kr/music/index")

# 결과 출력
print(response.text)

<!DOCTYPE html>
<html lang="ko">
<head>
  <script src="https://cdn.jsdelivr.net/npm/vue/dist/vue.js"></script>
  <script src="https://unpkg.com/axios/dist/axios.min.js"></script>
  <meta charset="UTF-8">
  <title>Codeit Music</title>
  <style>
    body {
      margin: 0;
    }

    a {
      text-decoration: none;
      color: inherit;
    }

    img {
      vertical-align: middle;
    }

    ul {
      list-style: none;
      padding: 0;
      margin: 0;
    }

    * {
      box-sizing: border-box;
    }

    .header {
      position: fixed;
      top: 0;
      left: 0;
      width: 100%;
      height: 60px;
      background-color: #ffffff;
      overflow: hidden;
      z-index: 1;
    }

    .nav-warpper {
      max-width: 1163px;
      margin: 0 auto;
      height: 100%;
      line-height: 60px;
      padding: 0 20px
    }

    .header__logo .logo-img {
      width: 34px;
      margin-right: 25px;
    }

    .header__nav {
      display: inline-block;
      vertical-align: middle;
 

In [5]:
import requests
from bs4 import BeautifulSoup

# HTML 코드 받아오기
response = requests.get("https://workey.codeit.kr/music/index")

# BeautifulSoup 타입으로 변환
soup = BeautifulSoup(response.text, 'html.parser')

# 결과 출력
print(soup)

<!DOCTYPE html>

<html lang="ko">
<head>
<script src="https://cdn.jsdelivr.net/npm/vue/dist/vue.js"></script>
<script src="https://unpkg.com/axios/dist/axios.min.js"></script>
<meta charset="utf-8"/>
<title>Codeit Music</title>
<style>
    body {
      margin: 0;
    }

    a {
      text-decoration: none;
      color: inherit;
    }

    img {
      vertical-align: middle;
    }

    ul {
      list-style: none;
      padding: 0;
      margin: 0;
    }

    * {
      box-sizing: border-box;
    }

    .header {
      position: fixed;
      top: 0;
      left: 0;
      width: 100%;
      height: 60px;
      background-color: #ffffff;
      overflow: hidden;
      z-index: 1;
    }

    .nav-warpper {
      max-width: 1163px;
      margin: 0 auto;
      height: 100%;
      line-height: 60px;
      padding: 0 20px
    }

    .header__logo .logo-img {
      width: 34px;
      margin-right: 25px;
    }

    .header__nav {
      display: inline-block;
      vertical-align: middle;
    }

  

In [6]:
import requests
from bs4 import BeautifulSoup

# HTML 코드 받아오기
response = requests.get("https://workey.codeit.kr/music/index")

# BeautifulSoup 타입으로 변환
soup = BeautifulSoup(response.text, 'html.parser')

# "popular__order" 클래스를 가진 태그에 중첩된 모든 <li> 태그 선택
soup.select(".popular__order li")

[<li class="list">
 <span class="list__index blue">1</span> 아이유 (IU)
           </li>, <li class="list">
 <span class="list__index blue">2</span> 방탄소년단
           </li>, <li class="list">
 <span class="list__index blue">3</span> Red Velvet (레드벨벳)
           </li>, <li class="list">
 <span class="list__index">4</span> IKON
           </li>, <li class="list">
 <span class="list__index">5</span> 멜로망스
           </li>, <li class="list">
 <span class="list__index">6</span> 다비치
           </li>, <li class="list">
 <span class="list__index">7</span> 윤딴딴
           </li>, <li class="list">
 <span class="list__index">8</span> 수지 (SUZY)
           </li>, <li class="list">
 <span class="list__index">9</span> 김동률
           </li>, <li class="list">
 <span class="list__index">10</span> 폴킴
           </li>]

In [7]:
import requests
from bs4 import BeautifulSoup

# HTML 코드 받아오기
response = requests.get("https://workey.codeit.kr/music/index")

# BeautifulSoup 타입으로 변환
soup = BeautifulSoup(response.text, 'html.parser')

# "popular__order" 클래스를 가진 태그에 중첩된 모든 <li> 태그 선택
li_tags = soup.select(".popular__order li")

# 빈 리스트 생성
popular_artists = []

# 텍스트 추출해서 리스트에 담기
for li in li_tags:
    popular_artists.append(li.text)

# 결과 출력
print(popular_artists)


['\n1 아이유 (IU)\n          ', '\n2 방탄소년단\n          ', '\n3 Red Velvet (레드벨벳)\n          ', '\n4 IKON\n          ', '\n5 멜로망스\n          ', '\n6 다비치\n          ', '\n7 윤딴딴\n          ', '\n8 수지 (SUZY)\n          ', '\n9 김동률\n          ', '\n10 폴킴\n          ']


In [8]:
import requests
from bs4 import BeautifulSoup

# HTML 코드 받아오기
response = requests.get("https://workey.codeit.kr/music/index")

# BeautifulSoup 타입으로 변환
soup = BeautifulSoup(response.text, 'html.parser')

# "popular__order" 클래스를 가진 태그에 중첩된 모든 <li> 태그 선택
li_tags = soup.select(".popular__order li")

# 빈 리스트 생성
popular_artists = []

# 텍스트 추출해서 리스트에 담기
for li in li_tags:
    popular_artists.append(li.text.strip())

# 결과 출력
print(popular_artists)

['1 아이유 (IU)', '2 방탄소년단', '3 Red Velvet (레드벨벳)', '4 IKON', '5 멜로망스', '6 다비치', '7 윤딴딴', '8 수지 (SUZY)', '9 김동률', '10 폴킴']


# ex. 그녀의 전화번호를 찾아서 1

In [9]:
import requests
from bs4 import BeautifulSoup

# HTML 코드 받아오기
response = requests.get("https://workey.codeit.kr/orangebottle/index")

# BeautifulSoup 타입으로 변환
soup = BeautifulSoup(response.text, 'html.parser')

# 결과 출력
print(soup)

<!DOCTYPE html>

<html>
<head>
<title>Orange bottle coffee</title>
<meta charset="utf-8"/>
<link href="https://fonts.googleapis.com/css?family=Noto+Sans+KR" rel="stylesheet"/>
<style>
        body {
            font-family: 'Noto Sans KR', sans-serif;
            margin: 0;
            background-color: #ffffff;
        }

        /*navigation bar*/
        #bottle {
            margin-top: 12px;
            margin-bottom: 11px;
            margin-left: 79px;
            margin-right: 24px;
            vertical-align: middle;
            width: 13px;
        }

        #title {
            font-size: 14px;
            font-weight: bold;
            vertical-align: middle;
            color: #4a4a4a;
        }

        ul {
            display: inline;
            padding-left: 0;
        }

        li {
            float: right;
            list-style-type: none;
            font-size: 14px;
        }

        #subscribe {
            color: #f5a623;
            margin-right: 25px;
   

In [10]:
# "phoneNum" 클래스를 가진 태그 선택하기
phoneNum_tags = soup.select('.phoneNum')

# 빈 리스트 생성
phone_numbers = []

# 텍스트 추출해서 리스트에 담기
for tag in phoneNum_tags:
    phone_numbers.append(tag.text)

In [11]:
# 결과 출력
print(phone_numbers)

['707-514-0033', '070 3460 5076', '905-389-4463', '(02) 6175 8642', '07183 30 07 96', '21-90-47700', '33 36175334', '845-857-0825', '507-876-0713', '773-757-1932', '301-787-8206', '310-718-6212', '781-646-1715', '315-576-8242', '650-577-7537', '229-460-4970', '305-540-4990', '606-614-9190', '814-965-6502', '8134-191-6900', '914-933-3946', '801-927-7191', '736 301 706', '916-863-6154', '252-218-2526', '803-535-5627', '580-730-2253', '240-597-0099', '210-727-9560', '919-887-6912', '614-449-8617', '830-229-4983', '303-284-0638', '734-981-4470', '701-496-3125', '605-677-5038', '209-848-9572', '760-464-6831', '508-272-0114', '845-915-5076', '973-640-3581', '541-579-1559', '336-212-0408', '845-340-3808', '561-526-2625', '801-608-1332', '510-214-0266', '785-253-0084', '585-749-2163', '312-362-2484', '570-603-5788', '802-738-8477', '507-771-8684', '720-634-0176', '313-930-0331', '8188-165-7118', '02-455-1973']


# ex. 검색어 순위 받아오기

In [12]:
import requests
from bs4 import BeautifulSoup

# HTML 코드 받아오기
response = requests.get("https://workey.codeit.kr/music/index")

# BeautifulSoup 타입으로 변환
soup = BeautifulSoup(response.text, 'html.parser')

# 결과 출력
print(soup)

<!DOCTYPE html>

<html lang="ko">
<head>
<script src="https://cdn.jsdelivr.net/npm/vue/dist/vue.js"></script>
<script src="https://unpkg.com/axios/dist/axios.min.js"></script>
<meta charset="utf-8"/>
<title>Codeit Music</title>
<style>
    body {
      margin: 0;
    }

    a {
      text-decoration: none;
      color: inherit;
    }

    img {
      vertical-align: middle;
    }

    ul {
      list-style: none;
      padding: 0;
      margin: 0;
    }

    * {
      box-sizing: border-box;
    }

    .header {
      position: fixed;
      top: 0;
      left: 0;
      width: 100%;
      height: 60px;
      background-color: #ffffff;
      overflow: hidden;
      z-index: 1;
    }

    .nav-warpper {
      max-width: 1163px;
      margin: 0 auto;
      height: 100%;
      line-height: 60px;
      padding: 0 20px
    }

    .header__logo .logo-img {
      width: 34px;
      margin-right: 25px;
    }

    .header__nav {
      display: inline-block;
      vertical-align: middle;
    }

  

In [13]:
# "rank__order" 클래스에 중첩된 <li> 태그 선택
li_tags = soup.select('.rank__order li')

# 빈 리스트 생성
search_ranks = []

# 텍스트 추출해서 리스트에 담기
for li in li_tags:
    search_ranks.append(li.text.strip().split(' ')[2])

# 결과 출력
print(search_ranks)

['Queen', '방탄소년단', '아이유', '거미', '폴킴', '김범수', '헤이즈', '트와이스', '박효신', '신용재']


# 필요한 페이지만 가져오기

In [14]:
import requests
from bs4 import BeautifulSoup

# HTML 코드 받아오기
response = requests.get("https://www.ikea.com/kr/ko/search/?query=desk")

# BeautifulSoup 타입으로 변환
soup = BeautifulSoup(response.text, 'html.parser')

# 결과 출력
print(soup.select('.pagination'))

[<div class="pagination">
<a class="active" href="#" onclick="return false;">1</a>
<a href="/kr/ko/search/?query=desk&amp;pageNumber=2">2</a>
<a href="/kr/ko/search/?query=desk&amp;pageNumber=3">3</a>
<a href="/kr/ko/search/?query=desk&amp;pageNumber=4">4</a>
<a href="/kr/ko/search/?query=desk&amp;pageNumber=5">5</a>
						
					... <a href="/kr/ko/search/?query=desk&amp;pageNumber=13">13</a>
</div>, <div class="pagination">
<a class="active" href="#" onclick="return false;">1</a>
<a href="/kr/ko/search/?query=desk&amp;pageNumber=2">2</a>
<a href="/kr/ko/search/?query=desk&amp;pageNumber=3">3</a>
<a href="/kr/ko/search/?query=desk&amp;pageNumber=4">4</a>
<a href="/kr/ko/search/?query=desk&amp;pageNumber=5">5</a>
						
					... <a href="/kr/ko/search/?query=desk&amp;pageNumber=13">13</a>
</div>]


In [15]:
import requests
from bs4 import BeautifulSoup

# HTML 코드 받아오기
response = requests.get("https://www.ikea.com/kr/ko/search/?query=desk")

# BeautifulSoup 타입으로 변환
soup = BeautifulSoup(response.text, 'html.parser')

# 마지막 <a> 태그의 텍스트 추출하기
page_length = soup.select('.pagination a')[-1].text

# 결과 출력
print(page_length)

13


In [17]:
import requests
from bs4 import BeautifulSoup

# HTML 코드 받아오기
response = requests.get("https://www.ikea.com/kr/ko/search/?query=desk")

# BeautifulSoup 타입으로 변환
soup = BeautifulSoup(response.text, 'html.parser')

# 마지막 <a> 태그의 텍스트 추출하기
page_length = soup.select('.pagination a')[-1].text

# 빈 리스트 생성하기
pages = []

# 실제 페이지 개수만큼만 HTML 코드 받아오기
for i in range(1, int(page_length) + 1):
    response = requests.get("https://www.ikea.com/kr/ko/search/?query=desk&pageNumber=" + str(i))
    pages.append(response.text)

# 받아온 HTML 코드 개수 출력
print(len(pages))

13


In [18]:
import requests
from bs4 import BeautifulSoup

# 빈 리스트 생성
pages = []

# 첫 페이지 번호 지정
page_num = 1

while True:
    # HTML 코드 받아오기
    response = requests.get("https://www.ikea.com/kr/ko/search/?query=desk&pageNumber=" + str(page_num))

    # BeautifulSoup 타입으로 변환하기
    soup = BeautifulSoup(response.text, 'html.parser')

    # ".prodName" 클래스가 있을 때만 HTML 코드를 리스트에 담기
    if len(soup.select('.prodName')) > 0:
        pages.append(soup)
        page_num += 1
    else:
        break

# 가져온 페이지 개수 출력하기
print(len(pages))

13


# ex. TV 시청률 크롤링 3

In [5]:
import requests
from bs4 import BeautifulSoup

# 기간 지정
years = list(range(2010, 2019))
months = list(range(1, 13))
weeks = list(range(0, 5))

# 빈 리스트 생성
rating_pages = []

for year in years:
    for month in months:
        for week in weeks:
            # HTML 코드 받아오기
            response = requests.get("https://workey.codeit.kr/ratings/index?year=" + str(year) + "&month=" + str(month) + "&weekIndex=" + str(week))
            # BeautifulSoup 타입으로 변환하기
            soup = BeautifulSoup(response.text, 'html.parser')
            # 'row' 클래스가 1개를 넘는 경우만 페이지를 리스트에 추가
            if len(soup.select('.row')) > 1:
                rating_pages.append(response.text)

# 테스트 코드
print(len(rating_pages))    # 가져온 총 페이지 수
print(rating_pages[0])      # 첫 번째 페이지의 html코드

468
<!DOCTYPE html>
<html lang="ko">
<head>
  <title>티비랭킹닷컴</title>
  <meta charset="utf-8">
  <link href="https://fonts.googleapis.com/css?family=Noto+Sans+KR" rel="stylesheet">
  <style>
    /* body start */
    body {
      font-family: 'Noto Sans KR', sans-serif;
      margin: 0;
    }

    /* navigation bar start */
    .nav-bar {
      position: fixed;
      width: 100%;
      padding-top: 10px;
      padding-bottom: 10px;
      background-color: #ffffff;
      box-shadow: 0 2px 4px 0 rgba(0, 0, 0, 0.14);
      z-index: 1;
    }

    .nav-bar #tv-image {
      margin-left: 78px;
      margin-right: 15px;
      height: 36px;
      vertical-align: middle;
    }

    .nav-bar span {
      font-weight: bold;
      color: #4a4a4a;
    }

    /* date picker start */
    .date-pick {
      padding-top: 56px;
      height: 200px;
      background-color: #efefef;
      margin-left: auto;
      margin-right: auto;
      position: relative;
    }

    .date-pick .search-box {
      text-ali

# web page를 DataFrame으로

In [21]:
import requests
from bs4 import BeautifulSoup

# 빈 리스트 생성
records = []

# 시작 페이지 지정
page_num = 1

while True:
    # HTML 코드 받아오기
    response = requests.get("https://www.ikea.com/kr/ko/search/?query=desk&pageNumber=" + str(page_num))

    # BeautifulSoup 타입으로 변형하기
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # "prodName" 클래스가 있을 때만 상품 정보 가져오기
    if len(soup.select('.prodName')) > 0:
        product_names = soup.select('.prodName')
        product_prices = soup.select('.prodPrice')
        product_urls = soup.select('.prodImg')
        page_num += 1
        
        # 상품의 정보를 하나의 레코드로 만들고, 리스트에 순서대로 추가하기
        index = 0
        for name in product_names:
            record = []
            record.append(product_names[index].text)
            record.append(product_prices[index].text.strip())
            record.append("https://www.ikea.com" + product_urls[index].get('src'))
            records.append(record)
            index += 1
    else:
        break

# 결과 출력
print(len(records))
print(records)

306
[['LILLÅSEN 릴로센', '₩\xa0149,000 /개', 'https://www.ikea.com/kr/ko/images/products/lillasen-lillosen-chaegsang__0736017_PE740344_S2.JPG'], ['MICKE 미케', '₩\xa059,900 /개', 'https://www.ikea.com/kr/ko/images/products/micke-mike-chaegsang__0736022_PE740349_S2.JPG'], ['BRÄDA 브레다', '₩\xa04,900 /개', 'https://www.ikea.com/kr/ko/images/products/brada-beuleda-noteubugbadchimdae__0094156_PE231892_S2.JPG'], ['BERGENES 베리에네스', '₩\xa02,900 /개', 'https://www.ikea.com/kr/ko/images/products/bergenes-belieneseu-hyudaepon-taebeullisholdeo__0730164_PE737412_S2.JPG'], ['MICKE 미케', '₩\xa0199,000 /개', 'https://www.ikea.com/kr/ko/images/products/micke-mike-koneowokeuseuteisyeon__0734328_PE739442_S2.JPG'], ['HILVER 힐베르', '₩\xa0200,000 /개', 'https://www.ikea.com/kr/ko/images/products/hilver-hilbeleu-teibeul__0736766_PE740721_S2.JPG'], ['MICKE 미케', '₩\xa099,900 /개', 'https://www.ikea.com/kr/ko/images/products/micke-mike-chaegsang__0736020_PE740347_S2.JPG'], ['MÖJLIGHET 뫼일릭헤트', '₩\xa02,900 /개', 'https://www.ike

In [22]:
import pandas as pd

# DataFrame 만들기
df = pd.DataFrame(data = records, columns = ['이름', '가격', '이미지 주소'])

# DataFrame 출력
df.head()

Unnamed: 0,이름,가격,이미지 주소
0,LILLÅSEN 릴로센,"₩ 149,000 /개",https://www.ikea.com/kr/ko/images/products/lil...
1,MICKE 미케,"₩ 59,900 /개",https://www.ikea.com/kr/ko/images/products/mic...
2,BRÄDA 브레다,"₩ 4,900 /개",https://www.ikea.com/kr/ko/images/products/bra...
3,BERGENES 베리에네스,"₩ 2,900 /개",https://www.ikea.com/kr/ko/images/products/ber...
4,MICKE 미케,"₩ 199,000 /개",https://www.ikea.com/kr/ko/images/products/mic...


# ex. TV 시청률 크롤링 최종 프로젝트

In [7]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

# 기간 지정
years = list(range(2010, 2019))
months = list(range(1, 13))
weeks = list(range(0, 5))

# 페이지를 담는 빈 리스트 생성
rating_pages = []

for year in years:
    for month in months:
        for week in weeks:
            # HTML 코드 받아오기
            response = requests.get("https://workey.codeit.kr/ratings/index?year=" + str(year) + "&month=" + str(month) + "&weekIndex=" + str(week))

            # BeautifulSoup 타입으로 변환하기
            soup = BeautifulSoup(response.text, 'html.parser')

            # "row" 클래스가 1개를 넘는 경우만 페이지를 리스트에 추가
            if len(soup.select('.row')) > 1:
                rating_pages.append(soup)

# 레코드를 담는 빈 리스트 만들기
records = []

# 각 페이지 파싱해서 정보 얻기
for page in rating_pages:
    date = page.select('option[selected=selected]')[2].text
    ranks = page.select('.row .rank')[1:]
    channels = page.select('.row .channel')[1:]
    programs = page.select('.row .program')[1:]
    percents = page.select('.row .percent')[1:]

    # 페이지에 있는 10개의 레코드를 리스트에 추가
    for i in range(10):
        record = []
        record.append(date)
        record.append(ranks[i].text)
        record.append(channels[i].text)
        record.append(programs[i].text)
        record.append(percents[i].text)
        records.append(record)

# DataFrame 만들기
df = pd.DataFrame(data=records, columns=['period', 'rank', 'channel', 'program', 'rating'])

# 결과 출력
df.head()

Unnamed: 0,period,rank,channel,program,rating
0,2009.12.28 ~ 2010.01.03,1,KBS2,주말연속극(수상한삼형제),33.4
1,2009.12.28 ~ 2010.01.03,2,KBS1,일일연속극(다함께차차차),33.1
2,2009.12.28 ~ 2010.01.03,3,KBS2,해피선데이,27.1
3,2009.12.28 ~ 2010.01.03,4,MBC,MBC연기대상2부,24.4
4,2009.12.28 ~ 2010.01.03,5,SBS,주말극장(천만번사랑해),24.2
