# 👉문자열 추출

## 1. 파싱할 HTML 코드를 변수 html_code에 넣기

- """하나의 문자열"""

In [1]:
html_code = """<!DOCTYPE html>
<html>
<head>
    <title>Sample Website</title>
</head>
<body>
<h2>HTML 연습!</h2>

<p>이것은 첫 번째 문단입니다.</p>
<p>이것은 두 번째 문단입니다!</p>

<ul>
    <li>커피</li>
    <li>녹차</li>
    <li>우유</li>
</ul>

<img src='https://i.imgur.com/bY0l0PC.jpg' alt="coffee"/>
<img src='https://i.imgur.com/fvJLWdV.jpg' alt="green-tea"/>
<img src='https://i.imgur.com/rNOIbNt.jpg' alt="milk"/>

</body>
</html>"""

## 2. BeautifulSoup 타입 만들기

In [2]:
from bs4 import BeautifulSoup

In [3]:
# BeautifulSoup 타입으로 변환
soup = BeautifulSoup(html_code, 'html.parser')

# type 출력
print(type(soup))

<class 'bs4.BeautifulSoup'>


## 3. 특정 태그 선택하기

In [4]:
# 모든 <li> 태그 선택하기
li_tags = soup.select('li')

# 결과 출력
print(li_tags)

[<li>커피</li>, <li>녹차</li>, <li>우유</li>]


In [5]:
# 첫 번째 요소 출력하기
print(li_tags[0])

<li>커피</li>


## 4. 태그에서 문자열 추출하기

In [6]:
# 첫 번째 요소 type 출력하기
print(type(li_tags[0]))

<class 'bs4.element.Tag'>


In [7]:
# 첫 번째 <li> 태그의 텍스트 출력하기
print(li_tags[0].text)

커피


In [8]:
# 모든 <li> 태그 선택하기
li_tags = soup.select('li')

# 빈 리스트 만들기
beverage_names = []

# 텍스트 추출해서 리스트에 담기
for li in li_tags:
    beverage_names.append(li.text)

# 결과 출력
print(beverage_names)

['커피', '녹차', '우유']


### 전체 코드 정리

In [9]:
# 전체 코드
from bs4 import BeautifulSoup

html_code = """<!DOCTYPE html>
<html>
<head>
    <title>Sample Website</title>
</head>
<body>
<h2>HTML 연습!</h2>

<p>이것은 첫 번째 문단입니다.</p>
<p>이것은 두 번째 문단입니다!</p>

<ul>
    <li>커피</li>
    <li>녹차</li>
    <li>우유</li>
</ul>

<img src='https://i.imgur.com/bY0l0PC.jpg' alt="coffee"/>
<img src='https://i.imgur.com/fvJLWdV.jpg' alt="green-tea"/>
<img src='https://i.imgur.com/rNOIbNt.jpg' alt="milk"/>

</body>
</html>"""

# BeautifulSoup 타입으로 변환
soup = BeautifulSoup(html_code, 'html.parser')

# 모든 <li> 태그 선택하기
li_tags = soup.select('li')

# 빈 리스트 만들기
beverage_names = []

# 텍스트 추출해서 리스트에 담기
for li in li_tags:
    beverage_names.append(li.text)

# 결과 출력
print(beverage_names)

['커피', '녹차', '우유']


---

# 👉태그의 속성 값 추출

In [10]:
from bs4 import BeautifulSoup

html_code = """<!DOCTYPE html>
<html>
<head>
    <title>Sample Website</title>
</head>
<body>
<h2>HTML 연습!</h2>

<p>이것은 첫 번째 문단입니다.</p>
<p>이것은 두 번째 문단입니다!</p>

<ul>
    <li>커피</li>
    <li>녹차</li>
    <li>우유</li>
</ul>

<img src='https://i.imgur.com/bY0l0PC.jpg' alt="coffee"/>
<img src='https://i.imgur.com/fvJLWdV.jpg' alt="green-tea"/>
<img src='https://i.imgur.com/rNOIbNt.jpg' alt="milk"/>

</body>
</html>"""

# BeautifulSoup 타입으로 변환
soup = BeautifulSoup(html_code, 'html.parser')

# 모든 <img> 태그 선택하기
img_tags = soup.select('img')

# 빈 리스트 만들기
img_srcs = []

# 이미지 주소 추출해서 리스트에 담기
for img in img_tags:
    img_srcs.append(img["src"])

# 결과 출력
print(img_srcs)

['https://i.imgur.com/bY0l0PC.jpg', 'https://i.imgur.com/fvJLWdV.jpg', 'https://i.imgur.com/rNOIbNt.jpg']


# 👉인기 아티스트 추출

In [11]:
import requests
from bs4 import BeautifulSoup

# HTML 코드 받아오기
response = requests.get("https://workey.codeit.kr/music/index")

# BeautifulSoup 타입으로 변환
soup = BeautifulSoup(response.text, 'html.parser')

# "popular__order" 클래스를 가진 태그에 중첩된 모든 <li> 태그 선택
li_tags = soup.select(".popular__order li")

# 빈 리스트 생성
popular_artists = []

# 텍스트 추출해서 리스트에 담기
for li in li_tags:
    popular_artists.append(li.text.strip())

# 결과 출력
print(popular_artists)

['1 아이유 (IU)', '2 방탄소년단', '3 Red Velvet (레드벨벳)', '4 IKON', '5 멜로망스', '6 다비치', '7 윤딴딴', '8 수지 (SUZY)', '9 김동률', '10 폴킴']


# 👉웹페이지 -> DataFrame

In [None]:
import time
import pandas as pd
import requests
from bs4 import BeautifulSoup

# 빈 리스트 생성
records = []

# 시작 페이지 지정
page_num = 1

while True:
    # HTML 코드 받아오기
    response = requests.get("http://www.ssg.com/search.ssg?target=all&query=nintendo&page=" + str(page_num))

    # BeautifulSoup 타입으로 변형하기
    soup = BeautifulSoup(response.text, 'html.parser')

    # "prodName" 클래스가 있을 때만 상품 정보 가져오기
    if len(soup.select('.csrch_tip')) == 0:
        product_names = soup.select('.cunit_info > div.cunit_md.notranslate > div > a > em.tx_ko')
        product_prices = soup.select('.cunit_info > div.cunit_price.notranslate > div.opt_price > em')
        product_urls = soup.select('.cunit_prod > div.thmb > a > img')
        page_num += 1
        time.sleep(3)
        
        # 상품의 정보를 하나의 레코드로 만들고, 리스트에 순서대로 추가하기
        for i in range(len(product_names)):
            record = []
            record.append(product_names[i].text)
            record.append(product_prices[i].text.strip())
            record.append("https://www.ssg.com" + product_urls[i].get('src'))
            records.append(record)
    else:
        break

# DataFrame 만들기
df = pd.DataFrame(data = records, columns = ["이름", "가격", "이미지 주소"])

# DataFrame 출력
df.head()