# 정적 크롤링 모듈

In [4]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

- 요청 모듈로 가져온 HTML 코드를 파이썬이 쓸 수 있는 형태로 변환해주는 역할

In [2]:
url = "http://www.naver.com"

page = urlopen(url)

soup = BeautifulSoup(page, "lxml")
# 파싱 = 정리 (HTML을 파이썬에서 이용할 수 있는 DOM형식으로 변경하는 것을 의미, HTML은 문자열이기 때문에)
# 파서 = 파싱을 해주는 프로그램(ex.lxml)

In [3]:
print(soup)

<!DOCTYPE html>
<html class="fzoom" lang="ko"> <head> <meta charset="utf-8"/> <meta content="origin" name="Referrer"/> <meta content="IE=edge" http-equiv="X-UA-Compatible"/> <meta content="width=1190" name="viewport"/> <title>NAVER</title> <meta content="NAVER" name="apple-mobile-web-app-title"/> <meta content="index,nofollow" name="robots"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description"/> <meta content="네이버" property="og:title"/> <meta content="https://www.naver.com/" property="og:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description"/> <meta content="summary" name="twitter:card"/> <meta content="" name="twitter:title"/> <meta content="https://www.naver.com/" name="twitter:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" name="twitter:image"/> <meta content="네이버 메인에서 다양

## 파서

- 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보를 가공해주는 프로그램
    - lxml
        - c언어로 구현되어 속도가 가장 빠름
        
    - html.parser
        - lxml과 html5lib의 중간 속도
    
    - html5lib
        - 웹브라우저 형태로 HTML을 분석
        - 속도가 가장 느림
        - 가장 안정적

In [4]:
# html을 예쁘게 출력
print(soup.prettify())

<!DOCTYPE html>
<html class="fzoom" lang="ko">
 <head>
  <meta charset="utf-8"/>
  <meta content="origin" name="Referrer"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=1190" name="viewport"/>
  <title>
   NAVER
  </title>
  <meta content="NAVER" name="apple-mobile-web-app-title"/>
  <meta content="index,nofollow" name="robots"/>
  <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description"/>
  <meta content="네이버" property="og:title"/>
  <meta content="https://www.naver.com/" property="og:url"/>
  <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/>
  <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description"/>
  <meta content="summary" name="twitter:card"/>
  <meta content="" name="twitter:title"/>
  <meta content="https://www.naver.com/" name="twitter:url"/>
  <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" name="twi

## 속성 데이터

In [5]:
html = html = """<html> <head><title class="t" id="ti">test site</title></head> <body> <p>test</p> <p>test1</p> <p>test2</p> </body></html>"""

- html
    - head
        - title
            - 속성
                - class : t
                - id : ti
    - body
        - p
        - p
        - p

In [6]:
soup = BeautifulSoup(html, "lxml")

In [7]:
print(soup)

<html> <head><title class="t" id="ti">test site</title></head> <body> <p>test</p> <p>test1</p> <p>test2</p> </body></html>


In [8]:
tag_title = soup.title # soup 안에서 처음으로 만나는 title 태그 찾기

In [9]:
print(tag_title)
print(type(tag_title))
print(tag_title.attrs) # 태그의 속성 가져오기 
print(tag_title["class"]) # 키가 없으면 에러 발생
print(tag_title["id"])

<title class="t" id="ti">test site</title>
<class 'bs4.element.Tag'>
{'class': ['t'], 'id': 'ti'}
['t']
ti


In [10]:
tag_title["class1"]

KeyError: 'class1'

In [11]:
# tag 타입은 딕셔너리 처럼 접근할 수 있고 딕셔너리 문법을 그대로 적용할 수 있음
tag_title.get("class1", "default_value")

'default_value'

In [12]:
type(tag_title)

bs4.element.Tag

### 태그 접근

In [13]:
tag_title = soup.title # title 태그
print(tag_title)

<title class="t" id="ti">test site</title>


- soup.태그이름 의 형태로 첫 번째로 등장하는 태그의 정보를 가져올 수 있음

In [14]:
print(tag_title.text)
print(tag_title.string)
print(tag_title.name)

test site
test site
title


In [15]:
# text와 string의 차이
html = """<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>"""

- html
    - head
        - title
    - body
        - p
            - span
            - span

In [16]:
soup = BeautifulSoup(html, "lxml")

tag_p = soup.p

data_text = tag_p.text
data_string = tag_p.string

print(data_text, type(data_text))
print(data_string, type(data_string))

test1test2 <class 'str'>
None <class 'NoneType'>


- text : 하위 태그들의 값도 모두 출력
- string : 정확히 해당 태그에 대한 값만 출력

In [17]:
# string으로 test1을 출력하려면
tag_p

<p><span>test1</span><span>test2</span></p>

In [18]:
tag_p.span

<span>test1</span>

In [19]:
tag_p.span.string

'test1'

### 자식 태그 접근

- content와 children 속성을 이용하여 자식 태그 가져오기

In [20]:
soup

<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>

In [21]:
soup.p

<p><span>test1</span><span>test2</span></p>

In [22]:
tag_p_children = soup.p.contents # 리스트 형태로 자식 태그들을 가져옴
print(tag_p_children)

[<span>test1</span>, <span>test2</span>]


In [23]:
tag_p_children = soup.p.children # children으로 가져온 값은 반복문을 사용해야함
print(tag_p_children)
print()

for child in tag_p_children:
    print(child)

<list_iterator object at 0x00000199BB8F1360>

<span>test1</span>
<span>test2</span>


### 부모 태그 접근

- parent 와 parents 로 부모 태그 가져오기

In [24]:
soup

<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>

In [25]:
soup.span

<span>test1</span>

In [26]:
tag_span = soup.span
tag_title = soup.title

span_parent = tag_span.parent
title_parent = tag_title.parent

print(span_parent)
print(title_parent)

<p><span>test1</span><span>test2</span></p>
<head><title>test site</title></head>


In [27]:
span_parents = tag_span.parents
title_parents = tag_title.parents

print(span_parents)
print(title_parents)

<generator object PageElement.parents at 0x00000199BBF0BF40>
<generator object PageElement.parents at 0x00000199BBF0BDC0>


In [28]:
for parent in span_parents:
    print(parent)
    
print()

for parent in title_parents:
    print(parent)

<p><span>test1</span><span>test2</span></p>
<body> <p><span>test1</span><span>test2</span></p> </body>
<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>
<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>

<head><title>test site</title></head>
<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>
<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>


### 형제 태그 접근

- 형제 태그 : 동등한 위치의 태그

In [29]:
tag_span

<span>test1</span>

In [30]:
tag_span.next_sibling

<span>test2</span>

In [31]:
# 다음 형제
a = tag_span.next_sibling
print(a)

<span>test2</span>


In [32]:
# 이전 형제
b = a.previous_sibling
print(b)

<span>test1</span>


In [33]:
# 이전 혹은 다음 형제가 없는 경우
print(a.next_silbing)
print(b.previous_sibling)

None
None


### 다음 요소, 이전 요소 접근하기

- next_element, previous_element
- 형제 태그와의 차이
    - 형제 태그 : 동일한 위치의 태그들만
    - 요소 : 태그도 포함하지만 그 안의 자식태그와 문자도 포함하는 개념

In [34]:
html = """<html> <head><title>test site</title></head> <body> <p><a>test1</a><b>test2</b><c>test3</c></p> </body></html>"""

- html
    - head
        - title
    - body
        - p
            - a
            - b
            - c

In [35]:
soup = BeautifulSoup(html, "lxml")

tag_a = soup.a
print(tag_a)

<a>test1</a>


In [36]:
tag_a_nexts = tag_a.next_elements

for i in tag_a_nexts:
    print(i)

test1
<b>test2</b>
test2
<c>test3</c>
test3
 


## 원하는 요소에 접근하기

### find_all()

- 원하는 태그들을 리스트 형태로 가져오기

In [37]:
html = """<html> <head><title>test site</title></head> <body> <p id="i" class="a">test1</p><p id="d" class="d">test2</p><p class="c">test3</p></p><a>a tag</a> <b>b tag</b></body></html>"""

 - html
     - head
         - title
     - body
         - p(id = i, class = a)
         - p(id = d, class = d
         - p(class = c)
         - a
         - b

In [38]:
soup = BeautifulSoup(html, "lxml")

In [39]:
soup.find_all("title")

[<title>test site</title>]

In [40]:
soup.find_all("p")

[<p class="a" id="i">test1</p>,
 <p class="d" id="d">test2</p>,
 <p class="c">test3</p>]

- id값으로 태그 가져오기

In [41]:
soup.find_all(id = "d")

[<p class="d" id="d">test2</p>]

In [42]:
# id의 존재 여부로 데이터 가져오기
print(soup.find_all(id = True))

[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>]


In [43]:
print(soup.body.find_all(id = False))

[<p class="c">test3</p>, <a>a tag</a>, <b>b tag</b>]


- 원하는 태그, 원하는 id 값으로 태그 가져오기

In [44]:
print(soup.find_all("p", id = "d"))
print(soup.find_all("p", id = "c"))

[<p class="d" id="d">test2</p>]
[]


- text 속성으로 태그 가져오기(다음 버전에서 삭제 예정)

In [45]:
print(soup.find_all("p", "test1")) # p x 태그 중에서 test1 이라는 값을 가진 태그
print(soup.find_all("p", text ="t"))

[]
[]


  print(soup.find_all("p", text ="t"))


- limit로 가져오는 태그 수 제한

In [46]:
print(soup.find_all("p", limit = 1))
print(soup.find_all("p", limit = 2))
print(soup.find_all("p", limit = 5)) # 태그의 양보다 많아도 에러를 띄우지 않음

[<p class="a" id="i">test1</p>]
[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>]
[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>, <p class="c">test3</p>]


In [47]:
# find_all에 아무런 값도 넣지 않으면 모든 태그를 가져옴
soup.find_all()

[<html> <head><title>test site</title></head> <body> <p class="a" id="i">test1</p><p class="d" id="d">test2</p><p class="c">test3</p><a>a tag</a> <b>b tag</b></body></html>,
 <head><title>test site</title></head>,
 <title>test site</title>,
 <body> <p class="a" id="i">test1</p><p class="d" id="d">test2</p><p class="c">test3</p><a>a tag</a> <b>b tag</b></body>,
 <p class="a" id="i">test1</p>,
 <p class="d" id="d">test2</p>,
 <p class="c">test3</p>,
 <a>a tag</a>,
 <b>b tag</b>]

- 여러 태그 동시에 가져오기

In [48]:
soup.find_all(["a", "b"])

[<a>a tag</a>, <b>b tag</b>]

- find_all() 연속으로 사용하기

In [49]:
soup.find_all("body")

[<body> <p class="a" id="i">test1</p><p class="d" id="d">test2</p><p class="c">test3</p><a>a tag</a> <b>b tag</b></body>]

In [50]:
tag_body = soup.find_all("body")
print(tag_body)
tag_body[0].find_all("p") # find_all의 결과는 리스트 형식이기 때문에 인덱스 번호로 출력 후 추가로 find_all 진행

[<body> <p class="a" id="i">test1</p><p class="d" id="d">test2</p><p class="c">test3</p><a>a tag</a> <b>b tag</b></body>]


[<p class="a" id="i">test1</p>,
 <p class="d" id="d">test2</p>,
 <p class="c">test3</p>]

### find()

- 하나의 요소만 가져옴
- 찾고자 하는 요소가 하나만 있을 때 사용
    - 예) id값으로 접근

In [51]:
soup.find("p")

<p class="a" id="i">test1</p>

In [52]:
print(soup.find("p", class_ = "d"))
print(soup.find("p", id = "i"))

<p class="d" id="d">test2</p>
<p class="a" id="i">test1</p>


In [53]:
# 연속으로 find() 사용
soup.find("body").find("p", class_ = "d")

<p class="d" id="d">test2</p>

### select()

- find_all()과 마찬가지로 매칭되는 모든 결과를 리스트로 반환
- 클래스는 마침표(.), 아이디는 샵(#)으로 자손태그는 띄어쓰기로 표현 자식태그는 (>)로 표현
- select_one() 으로 하나의 결과만 반환하는 것도 가능

In [54]:
print(soup.select("p")) # p 태그들
print(soup.select(".d")) # 클래스가 d인 태그들
print(soup.select("p.d"))  # 클래스가 d 인 p 태그들
print(soup.select("#i")) # id가 i인 태그들
print(soup.select("p#i")) # id가 i인 p태그들

[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>, <p class="c">test3</p>]
[<p class="d" id="d">test2</p>]
[<p class="d" id="d">test2</p>]
[<p class="a" id="i">test1</p>]
[<p class="a" id="i">test1</p>]


In [55]:
html = """<html> <head><title>test site</title></head> <body> <div><p id="i" class="a">test1</p><p class="d">test2</p></div><p class="d">test3</p></p> <a>a tag</a> <b>b tag</b></body></html>"""

- html
    - head
        - title
    - body
        - div
            - p(id = i, class = a)
            - p(class = d)
        - p(class = d)
        - a
        - b

In [56]:
soup = BeautifulSoup(html, "lxml")

In [57]:
print(soup.select("body p")) # body의 자손인 p 태그들
print(soup.select("body > p")) # body의 자식인 p 태그

[<p class="a" id="i">test1</p>, <p class="d">test2</p>, <p class="d">test3</p>]
[<p class="d">test3</p>]


In [58]:
print(soup.select("body .d")) # body 자손이면서 클래스가 d인 태그들

[<p class="d">test2</p>, <p class="d">test3</p>]


In [59]:
print(soup.select("body p.d")) # body의 자손이면서 클래스가 d인 p태그들

[<p class="d">test2</p>, <p class="d">test3</p>]


In [60]:
print(soup.select("body #i")) # body의 자손이면서 id가 i인 태그들

[<p class="a" id="i">test1</p>]


In [61]:
print(soup.select("body p#i")) # body의 자손이면서 id가 i인 p 태그들

[<p class="a" id="i">test1</p>]


In [62]:
print(soup.select("div p")) # div의 자손인 p태그들

[<p class="a" id="i">test1</p>, <p class="d">test2</p>]


## 웹크롤링 허용 문제

- 모든 사이트에는 웹 크롤링 권한에 관해 명시한 페이지가 있음
    - 사이트 url끝에 robots.txt 를 붙여서 확인
        - 예) http://www.google.com/robots.txt
        - Disallow : 허용되지 않는 경로
        - allow : 크롤링을 허용하는 경로

## 예제 1-1. 티스토리 크롤링

In [63]:
url = "https://ai-dev.tistory.com/1"

page = urlopen(url)

soup = BeautifulSoup(page, "lxml")

In [64]:
# 제목 수집
soup.select_one("div.hgroup > h1").string.strip()

'크롤링의 세계에 오신 것을 환영합니다.'

In [65]:
type(soup.select_one("div.hgroup > h1").string)

bs4.element.NavigableString

In [66]:
soup.select_one("div.tt_article_useless_p_margin > p").string

'Hello, world!'

In [67]:
url = "https://ai-dev.tistory.com/2"

page = urlopen(url)

soup = BeautifulSoup(page, "lxml")

In [68]:
soup.select("div.tt_article_useless_p_margin.contents_style > table > tbody td")

[<td style="width: 33.3333%; text-align: center;">상품</td>,
 <td style="width: 33.3333%; text-align: center;">색상</td>,
 <td style="width: 33.3333%; text-align: center;">가격</td>,
 <td style="width: 33.3333%; text-align: center;">셔츠1</td>,
 <td style="width: 33.3333%; text-align: center;">빨강</td>,
 <td style="width: 33.3333%; text-align: center;">20000</td>,
 <td style="width: 33.3333%; text-align: center;">셔츠2</td>,
 <td style="width: 33.3333%; text-align: center;">파랑</td>,
 <td style="width: 33.3333%; text-align: center;">19000</td>,
 <td style="width: 33.3333%; text-align: center;">셔츠3</td>,
 <td style="width: 33.3333%; text-align: center;">초록</td>,
 <td style="width: 33.3333%; text-align: center;">18000</td>,
 <td style="width: 33.3333%; text-align: center;">바지1</td>,
 <td style="width: 33.3333%; text-align: center;">검정</td>,
 <td style="width: 33.3333%; text-align: center;">50000</td>,
 <td style="width: 33.3333%; text-align: center;">바지2</td>,
 <td style="width: 33.3333%; text-align

In [69]:
for i in soup.select("div.tt_article_useless_p_margin.contents_style > table > tbody td"):
    print(i.string)

상품
색상
가격
셔츠1
빨강
20000
셔츠2
파랑
19000
셔츠3
초록
18000
바지1
검정
50000
바지2
파랑
51000


In [70]:
url = "https://sports.news.naver.com/news.nhn?oid=109&aid=0005001716"

page = urlopen(url)

soup = BeautifulSoup(page, "lxml")

In [71]:
news = soup.select("div.news_end")

In [72]:
news = news[0].contents

In [73]:
for i in news:
    if i.string != None:
        print(i.string)
        if "scrapper" in i.string:
            break



[OSEN=종로, 고용준 기자] "디플러스 기아와 재계약을 한 가장 큰 이유는 팬 분들 때문이죠. 여기에 이 팀은 제가 데뷔한 팀이기도 하고, 팀에서도 언제나 항상 잘해주셨고요. 다른 팀을 가기 보다는 팀과 운명을 같이 하고 싶었어요."
'쇼메이커' 허수는 지난 스토브리그 기간 6년간 동행해왔던 원소속팀 디플러스 기아와 3년 재계약을 체결하면서 사실상 '원클럽 맨'을 선언했다. 1년 내지는 2년 이라는 계약기간의 틀에서 극소수의 선수들을 제외하면 찾기 힘든 '원클럽 맨'의 길을 주저없이 선택하면서 그의 팀 사랑은 팬들 사이에서도 크게 화제가 됐다. 
'원클럽 맨'을 선언한 이후 첫 경기에서 완승을 거둔 뒤 만난 '쇼메이커' 허수는 팀의 간판 선수라는 타이틀을 어깨에 짊어진 부담감 보다 새로운 동료들과 합이 좋았다며 개막전 승리를 기뻐했다. 
디플러스 기아는 18일 오후 서울 종로 롤파크 LCK아레나에서 벌어진 ‘2024 LOL 챔피언스 코리아(이하 LCK)’ 스프링 1라운드 OK브리온과 경기서 ‘에이밍’ 김하람의 특급 원딜 캐리와 '쇼메이커' 허수의 안정된 경기력을 앞세워 2-0으로 승리했다. 
1군으로 콜업된 '루시드' 최용혁의 기대에 부응하는 경기력을 펼쳤고, 국내 최고 원딜로 꼽혔던 ‘에이밍’ 김하람의 가공할 폭발력이 시즌 1호 펜타킬로 이어졌다. 
경기 후 OSEN을 만난 '쇼메이커' 허수는 "1군 무대를 처음 뛴 루시드 선수도 있었고, 팀에 새로 합류한 멤버들과 합을 맞춘 첫 경기였는데, 2-0으로 순조롭게 이겨서 기분 좋다. 사이드 운영도 잘 풀렸다고 생각되고, 개인적으로도 만족스러운 경기였다"고 환한 웃음으로 승리 소감을 전했다. 
덧붙여 그는 "1세트의 경우 팀적으로 한타와 봇에서 이득을 봤던 것을 잘 굴리면서 경기를 풀어갔다. 2세트도 챔프 상성을 고려해도 라인전이 비교적 잘됐다. 흐름상 불리해졌을 당시에 최대한 외곽에서 시간을 벌면서 원딜과 미드가 성장할 수 있는 발판을 마련했다 점이 고무적이었다"며 연신 함박웃음을 터뜨렸다. 
새로 호흡

In [74]:
a = '<p class="source"><b>기사제공</b> OSEN</p>'

In [75]:
a.count("기사제공")

1

# 예제 1-2 티스토리 크롤링

In [76]:
url = "https://ai-dev.tistory.com/2"

page = urlopen(url)

soup = BeautifulSoup(page, "lxml")

In [77]:
table_text = soup.select("div.tt_article_useless_p_margin td")

[i.string for i in table_text]

['상품',
 '색상',
 '가격',
 '셔츠1',
 '빨강',
 '20000',
 '셔츠2',
 '파랑',
 '19000',
 '셔츠3',
 '초록',
 '18000',
 '바지1',
 '검정',
 '50000',
 '바지2',
 '파랑',
 '51000']

In [78]:
table_text = soup.select("div.tt_article_useless_p_margin li")

[i.string for i in table_text]

['모니터', 'CPU', '메모리', '그래픽카드', '하드디스크', '키보드', '마우스']

In [79]:
for i in table_text:
    print(i.string)

모니터
CPU
메모리
그래픽카드
하드디스크
키보드
마우스


## 예제2. 벅스 차트

In [80]:
url = "https://music.bugs.co.kr/chart"

page = urlopen(url)

soup = BeautifulSoup(page, "lxml")

In [90]:
for i in soup.select("table.list.trackList.byChart p.title a"):
    print(i.string)

Love 119
To. X
비의 랩소디
Perfect Night
Drama
MANIAC
에피소드
Get A Guitar
DASH
I AM
그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection))
You & Me
인사
헤어지자 말해요
Ditto
한 페이지가 될 수 있게
Baddie
Yes or No (Feat. 허윤진 of LE SSERAFIM, Crush)
ETA
Discord
Hype Boy
Love Lee
첫 눈
후라이의 꿈
Talk Saxy
Seven (feat. Latto) - Clean Ver.
넌 쉽게 말했지만
Super Shy
Steal The Show (From “엘리멘탈”)
잠시라도 우리
Standing Next to You
GODS
Chill Kill
예뻤어
숲
화이트 (White)
Spicy
Off The Record
너의 모든 순간
사건의 지평선
그대가 내 안에 박혔다
Kitsch
별 떨어진다 (I Do)
기억해줘요 내 모든 날과 그때를
머물러주오 (Prod. 안신애 & Philtre)
Attention
After LIKE
LOVE DIVE
한번만 더
Either Way
사랑할 수밖에
어떻게 이별까지 사랑하겠어, 널 사랑하는 거지
음악의 신
퀸카 (Queencard)
OMG
이브, 프시케 그리고 푸른 수염의 아내
꿈
Try Again
New Jeans
잘 지내자, 우리 (여름날 우리 X 로이킴)
Fast Forward
Dangerously
I Don’t Think That I Like Her
그대가 내 안에 박혔다(그내박)
Underwater
파이팅 해야지 (Feat. 이영지)
I Love You (Prod. 김도훈)
모든 날, 모든 순간 (Every day, Every Moment)
Smoke (Prod. Dynamicduo, Padi)
주저하는 연인들을 위해
I Love You
DIE 4 YOU
손오공
건물 사이에 피어난 장미 (Rose Blossom)
사랑인가 봐
달빛에 그려지는
다정히 내 이름을 부르면
UNFOR

In [91]:
for i in soup.select("p.title > a"):
    print(i.string)

Love 119
To. X
비의 랩소디
Perfect Night
Drama
MANIAC
에피소드
Get A Guitar
DASH
I AM
그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection))
You & Me
인사
헤어지자 말해요
Ditto
한 페이지가 될 수 있게
Baddie
Yes or No (Feat. 허윤진 of LE SSERAFIM, Crush)
ETA
Discord
Hype Boy
Love Lee
첫 눈
후라이의 꿈
Talk Saxy
Seven (feat. Latto) - Clean Ver.
넌 쉽게 말했지만
Super Shy
Steal The Show (From “엘리멘탈”)
잠시라도 우리
Standing Next to You
GODS
Chill Kill
예뻤어
숲
화이트 (White)
Spicy
Off The Record
너의 모든 순간
사건의 지평선
그대가 내 안에 박혔다
Kitsch
별 떨어진다 (I Do)
기억해줘요 내 모든 날과 그때를
머물러주오 (Prod. 안신애 & Philtre)
Attention
After LIKE
LOVE DIVE
한번만 더
Either Way
사랑할 수밖에
어떻게 이별까지 사랑하겠어, 널 사랑하는 거지
음악의 신
퀸카 (Queencard)
OMG
이브, 프시케 그리고 푸른 수염의 아내
꿈
Try Again
New Jeans
잘 지내자, 우리 (여름날 우리 X 로이킴)
Fast Forward
Dangerously
I Don’t Think That I Like Her
그대가 내 안에 박혔다(그내박)
Underwater
파이팅 해야지 (Feat. 이영지)
I Love You (Prod. 김도훈)
모든 날, 모든 순간 (Every day, Every Moment)
Smoke (Prod. Dynamicduo, Padi)
주저하는 연인들을 위해
I Love You
DIE 4 YOU
손오공
건물 사이에 피어난 장미 (Rose Blossom)
사랑인가 봐
달빛에 그려지는
다정히 내 이름을 부르면
UNFOR

In [5]:
url = "https://www.google.com/search?q=%EC%98%A4%EB%8A%98%EC%9D%98+%EC%9A%94%EC%9D%BC&oq=%EC%98%A4%EB%8A%98%EC%9D%98+%EC%9A%94%EC%9D%BC&gs_lcrp=EgZjaHJvbWUyBggAEEUYOTIKCAEQABgFGA8YHjIICAIQABgIGB7SAQkyMzQzajBqMTWoAgCwAgA&sourceid=chrome&ie=UTF-8"

page = urlopen(url)

soup = BeautifulSoup(page, "lxml")

soup.select("cite.qLRX3b")

HTTPError: HTTP Error 403: Forbidden