In [1]:
from bs4 import BeautifulSoup

In [6]:
# XML은 열고 닫는 태그가 항상 있어야함.
# XML 내에서 태그의 글자형태(대문자, 소문자)는 항상 같아야함
# 부모 - 자식의 관계가 중첩되면 안됨
# 하지만 html은 이러한 형식을 무시하고 사용 가능하다. > Not Well-formed
# parser가 자동으로 지원함.
html = '''
<html>
    <head></head>
    <body>
        <div>
            <p>
                <a = href = "/link1">링크1</a>
            </p>
        </div>
    </body>
</html>
'''

dom = BeautifulSoup(html, 'html.parser') # (markup, parser)

In [7]:
dom # 그냥 객체임 텍스트 x


<html>
<head></head>
<body>
<div>
<p>
<a =="" href="/link1">링크1</a>
</p>
</div>
</body>
</html>

In [8]:
dom.html # 자식 node를 확인하는 법

<html>
<head></head>
<body>
<div>
<p>
<a =="" href="/link1">링크1</a>
</p>
</div>
</body>
</html>

In [11]:
type(dom.html), dom.html.body.div, dom.div 

(bs4.element.Tag,
 <div>
 <p>
 <a =="" href="/link1">링크1</a>
 </p>
 </div>,
 <div>
 <p>
 <a =="" href="/link1">링크1</a>
 </p>
 </div>)

In [12]:
dom.html.body.div is dom.div # node를 타고 내려온 같은 객체다

True

In [15]:
dom.a.attrs['href'] # attrs로 key values을 얻을 수 있다.

'/link1'

In [19]:
dom.div.attrs['href'] if dom.div.has_attr('href') else None # 키 값이 있는지 확인

In [20]:
dom.a is dom.p.a, dom.div.a is dom.body.a

(True, True)

In [22]:
dom.a.span, type(dom.a.span) # span은 없는데, return 된게 none type이라그렇다.

(None, NoneType)

In [25]:
# img를 찾으려면 
# 1. None인지 확인하고
# 2. has_attr['src']가 있는지 확인
# 3. 속성을 확인하고 attrs를 가져온다.
dom.a.img.has_attr('src')
dom.a.img.attrs['src']

AttributeError: 'NoneType' object has no attribute 'attrs'

In [22]:
html = '''
        <div id ='result'>
            <p class='row'>
                <a class="red" href = "/link1">링크1</a>
                <a class="blue" href = "/link2">링크2</a>
            </p>
        </div>
'''
# 확인해야할 것
# 1. 완벽하게 구조화되지 않아도 문제 없음 
# 2. attributes는 key value(k = v)로 이루워짐.
dom = BeautifulSoup(html, 'html5lib') 
# 1. html.parser > 주어진 html을 해석 (작성한거 그대로 나옴)
# 2. lxml > 바디와 html이 추가됨 (html-body)
# 3. html5lib > 완전한 구조로 나옴 (html -head, body)

In [15]:
dom

<html><head></head><body><div id="result">
            <p class="row">
                <a class="red" href="/link1">링크1</a>
                <a class="blue" href="/link2">링크2</a>
            </p>
        </div>
</body></html>

In [16]:
dom.p.contents # a의 두번째를 공식적으로 찾을 수 없다.
               # contents를 보면 확인할 수 있다.

['\n                ',
 <a class="red" href="/link1">링크1</a>,
 '\n                ',
 <a class="blue" href="/link2">링크2</a>,
 '\n            ']

In [17]:
# .은 자손을 의미한다 > 첫번째 매칭되는 자손을 찾아준다
# 그렇다면 두번째 자손을 어떻게 찾는가?
# 방법1: [_ for _ in dom.p.children]
[type(_) for _ in dom.p.contents if type(_) ] # tag개체들만 가져와야 한다. > 지금은 못가져옴

[bs4.element.NavigableString,
 bs4.element.Tag,
 bs4.element.NavigableString,
 bs4.element.Tag,
 bs4.element.NavigableString]

In [19]:
# html markup tag로 감싸져있고, dom 입장 node (tag로 감싸져있다)
# id(고유한 속성), class(공통된 속성을 만듬 > 다중 상속 가능), form-data[name]
dom.div.attrs, dom.a.attrs

({'id': 'result'}, {'class': ['red'], 'href': '/link1'})

In [26]:
html = '''
        <div id ='result1'>
            <p class='row'>
                <a class="red" href = "/link1">링크1</a>
                <a class="blue" href = "/link2">링크2</a>
            </p>
            
            <p class='row'>
                <a class="red" href = "/link1">링크1</a>
                <a class="blue" href = "/link2">링크2</a>
            </p>
        </div>
        <div id ='result2'>
            <p class='row'>
                <a class="red" href = "/link1">링크1</a>
                <a class="blue" href = "/link2">링크2</a>
            </p>
            
            <p class='row'>
                <a class="red" href = "/link1">링크1</a>
                <a class="blue" href = "/link2">링크2</a>
            </p>
        </div>        
'''
# 이렇게 공통된 class가 있는 경우, 속성과 구조를 이용해야한다.
dom = BeautifulSoup(html, 'html.parser') 

In [None]:
# find를 사용하면 찾을 수 있다.
dom.find_ # previous(첫번째), next(다음)

In [29]:
dom.find(), dom.find_all() # 둘 다 칠드런을 찾는것이다(_all을 붙히면 여러개를 찾음.)

(<div id="result1">
 <p class="row">
 <a class="red" href="/link1">링크1</a>
 <a class="blue" href="/link2">링크2</a>
 </p>
 <p class="row">
 <a class="red" href="/link1">링크1</a>
 <a class="blue" href="/link2">링크2</a>
 </p>
 </div>,
 [<div id="result1">
  <p class="row">
  <a class="red" href="/link1">링크1</a>
  <a class="blue" href="/link2">링크2</a>
  </p>
  <p class="row">
  <a class="red" href="/link1">링크1</a>
  <a class="blue" href="/link2">링크2</a>
  </p>
  </div>,
  <p class="row">
  <a class="red" href="/link1">링크1</a>
  <a class="blue" href="/link2">링크2</a>
  </p>,
  <a class="red" href="/link1">링크1</a>,
  <a class="blue" href="/link2">링크2</a>,
  <p class="row">
  <a class="red" href="/link1">링크1</a>
  <a class="blue" href="/link2">링크2</a>
  </p>,
  <a class="red" href="/link1">링크1</a>,
  <a class="blue" href="/link2">링크2</a>,
  <div id="result2">
  <p class="row">
  <a class="red" href="/link1">링크1</a>
  <a class="blue" href="/link2">링크2</a>
  </p>
  <p class="row">
  <a class="red" 

In [27]:
dom.find('a') is dom.a # 내부적으로 가지고 있는 것을 함수로 끌고옴

True

In [30]:
dom.find(attrs = {'id': 'result1'}) is dom.div

True

In [32]:
# 좌변은 두번째 div에서의 a, 우변은 첫번째 div에서의 a (구조적 문제)
dom.find(attrs={'id': 'result2'}).a is dom.a 

False

In [34]:
dom.find('a', recursive=False) # 결과가 None이 나온다.

In [35]:
dom.find('a', recursive=True) # recursive > 구조를 가지고 찾을 때 탐색하는 범위다.
                              # 여기서는 자식을 찾을 지를 확인한다.
                              # a는 자식을 갖지 않고 있기 때문에 None이 나온다.

<a class="red" href="/link1">링크1</a>

In [36]:
# 만약 parser가 lxml, html5lib인 경우, div > html로 바꾼다.
dom.find('div', recursive=False) 

<div id="result1">
<p class="row">
<a class="red" href="/link1">링크1</a>
<a class="blue" href="/link2">링크2</a>
</p>
<p class="row">
<a class="red" href="/link1">링크1</a>
<a class="blue" href="/link2">링크2</a>
</p>
</div>

In [41]:
dom.div.p.find_all(recursive=False) # recursive=False로 두면 자식 노드들만 찾음

[<a class="red" href="/link1">링크1</a>, <a class="blue" href="/link2">링크2</a>]

In [43]:
dom.div.p.find_all(recursive=False)[0] is dom.a # 첫번째 자식

True

In [44]:
dom.div.p.find_all(recursive=False)[1] # 두번째 자식

<a class="blue" href="/link2">링크2</a>

In [48]:
dom.find(string = '링크1').find_parent() is dom.a # find_parent는 string = '링크1'을 가지는 부모 노드

True

In [51]:
dom.find_all(recursive= False, limit = 1)[0] is dom.div # limit는 자식 node의 개수를 한정한다.

True

In [53]:
dom.find_all(recursive=False, limit = 1)[0] is dom.find(recursive=False) # find는 한개만 들고오므로 같다.

True

In [54]:
import re

In [56]:
dom.find(text=re.compile('1$')) is dom.find(string = '링크1') # 1로 끝나는 text찾기

True

In [57]:
dom.find(attrs={'id': re.compile('1$')}) is dom.find(attrs={'id':'result1'}) # attribute가 1로 끝나는 id 찾기

True

In [66]:
# 첫번째 div 첫번째 a의 부모 노드를 찾는 방식(다 같음)
dom.a.find_parent() is dom.p
dom.p is dom.find('p')
dom.find('p') is dom.find(attrs={'class':'row'})
dom.find('p').find_all('a')[1].find_parent() is dom.p

True

In [69]:
dom.a.find_parent('div') # 가장 가까운 부모의 부모(div)를 찾음.

<div id="result1">
<p class="row">
<a class="red" href="/link1">링크1</a>
<a class="blue" href="/link2">링크2</a>
</p>
<p class="row">
<a class="red" href="/link1">링크1</a>
<a class="blue" href="/link2">링크2</a>
</p>
</div>

In [76]:
for _ in dom.a.find_parents(limit = 3): # limit가 1이면 부모, 2면 부모, 부모, 3면 부모 부모 부모
    print(_.name) # 노드의 tag이름

p
div
[document]


In [82]:
for _ in dom.p.find_next_siblings(): # 다음의 형제 노드들
    print(_)

<p class="row">
<a class="red" href="/link1">링크1</a>
<a class="blue" href="/link2">링크2</a>
</p>


In [83]:
dom.find_all(['a','p']) # 여러개를 찾고 싶을 때 []로 묶어줌

[<p class="row">
 <a class="red" href="/link1">링크1</a>
 <a class="blue" href="/link2">링크2</a>
 </p>,
 <a class="red" href="/link1">링크1</a>,
 <a class="blue" href="/link2">링크2</a>,
 <p class="row">
 <a class="red" href="/link1">링크1</a>
 <a class="blue" href="/link2">링크2</a>
 </p>,
 <a class="red" href="/link1">링크1</a>,
 <a class="blue" href="/link2">링크2</a>,
 <p class="row">
 <a class="red" href="/link1">링크1</a>
 <a class="blue" href="/link2">링크2</a>
 </p>,
 <a class="red" href="/link1">링크1</a>,
 <a class="blue" href="/link2">링크2</a>,
 <p class="row">
 <a class="red" href="/link1">링크1</a>
 <a class="blue" href="/link2">링크2</a>
 </p>,
 <a class="red" href="/link1">링크1</a>,
 <a class="blue" href="/link2">링크2</a>]

In [84]:
from requests import get
url = 'http://pythonscraping.com/pages/page3.html'

resp = get(url)

In [86]:
resp.status_code, resp.headers['content-type']

(200, 'text/html')

In [87]:
dom = BeautifulSoup(resp.content, 'html.parser')

In [88]:
[_.name for _ in dom.find_all(recursive=False)] # 각각 어떤 자식요소가 있는지 확인

['html']

In [None]:
# parser = html.parser
# DOM
html # 단 하나만 있음.
head      body
          div
         img, h1, div, table, div

In [97]:
[_ for _ in dom.div.find_all(recursive=False)][-1].attrs

{'id': 'footer'}

In [98]:
dom = BeautifulSoup(resp.content, 'html5lib')

In [None]:
# parser = html5lib
# DOM
html # 단 하나만 있음.
head      body
          div
         img, h1, div, table, p, div

In [100]:
[_.name for _ in dom.div.find_all(recursive=False)]

['img', 'h1', 'div', 'table', 'p', 'div']

In [101]:
dom = BeautifulSoup(resp.content, 'lxml')

In [None]:
# parser = lxml
# DOM
html # 단 하나만 있음.
head      body
          div
         img, h1, div, table, p, div

In [102]:
[_.name for _ in dom.div.find_all(recursive=False)]

['img', 'h1', 'div', 'table', 'div']

In [107]:
# 동일한 html을 받았음에도 parser를 바꿨을 때 dom이 만들어지는 형태가 조금씩 달라짐
dom = BeautifulSoup(resp.content, 'html.parser')

In [116]:
base = dom.find(attrs = {'id':'footer'})# ,recursive=False) # recursive옵션을 False로 두면 자식에서만 찾는다.

In [122]:
base.find_parent().find()

<img src="../img/gifts/logo.jpg" style="float:left;"/>

In [119]:
# 형제노드 중 가장 첫번째 = 부모의 첫번째 자식
base.find_previous_siblings()[-1] is base.find_parent().find()

True

In [124]:
table = base.find_previous_sibling()

In [126]:
len(table.find_all(recursive=False)) # 행들

6

In [127]:
table.find_all(recursive=False)[-1].find_all(recursive = False)[-1] # 행 내에 열을 찾고 그 행에서 마지막 행의 마지막 이미지가 나온다.

<td>
<img src="../img/gifts/img6.jpg"/>
</td>

In [130]:
for tr in table.find_all(recursive=False)[1:]:
    td = tr.find_all(recursive = False)[-1] # 테이블 내 마지막열의 사진들
    print(td.find('img').attrs['src'])

../img/gifts/img1.jpg
../img/gifts/img2.jpg
../img/gifts/img3.jpg
../img/gifts/img4.jpg
../img/gifts/img6.jpg


In [135]:
# 가격을 뽑으려면?
for tr in table.find_all(recursive=False)[1:]:
    td = tr.find_all(recursive = False)[-2] # 테이블 내 뒤에서 두번째 열
    print(re.sub(r'\s+','', td.text)) # \s가 1번 이상 사용된 건 ''로 변환 

$15.00
$10,000.52
$10,005.00
$0.50
$1.50


In [138]:
table.find_all('img', attrs={'src': re.compile('jpg$')})

[<img src="../img/gifts/img1.jpg"/>,
 <img src="../img/gifts/img2.jpg"/>,
 <img src="../img/gifts/img3.jpg"/>,
 <img src="../img/gifts/img4.jpg"/>,
 <img src="../img/gifts/img6.jpg"/>]

In [139]:
table.find_all(attrs={'src': re.compile('jpg$')})

[<img src="../img/gifts/img1.jpg"/>,
 <img src="../img/gifts/img2.jpg"/>,
 <img src="../img/gifts/img3.jpg"/>,
 <img src="../img/gifts/img4.jpg"/>,
 <img src="../img/gifts/img6.jpg"/>]

In [141]:
[re.sub('\s+','',_) for _ in table.find_all(text= re.compile('\$[0-9,.]+'))]

['$15.00', '$10,000.52', '$10,005.00', '$0.50', '$1.50']

In [142]:
[_.find_parent() for _ in table.find_all(text= re.compile('\$[0-9,.]+'))]

[<td>
 $15.00
 </td>,
 <td>
 $10,000.52
 </td>,
 <td>
 $10,005.00
 </td>,
 <td>
 $0.50
 </td>,
 <td>
 $1.50
 </td>]

In [145]:
from requests.compat import urljoin
for _ in dom.find_all('img', attrs = {'src':re.compile(r'jpg$')}):
    print(_.attrs['src']) # 상대 경로
    print(urljoin(resp.request.url, _.attrs['src'])) # 절대 경로

../img/gifts/logo.jpg
https://pythonscraping.com/img/gifts/logo.jpg
../img/gifts/img1.jpg
https://pythonscraping.com/img/gifts/img1.jpg
../img/gifts/img2.jpg
https://pythonscraping.com/img/gifts/img2.jpg
../img/gifts/img3.jpg
https://pythonscraping.com/img/gifts/img3.jpg
../img/gifts/img4.jpg
https://pythonscraping.com/img/gifts/img4.jpg
../img/gifts/img6.jpg
https://pythonscraping.com/img/gifts/img6.jpg


In [146]:
url_img = 'https://pythonscraping.com/img/gifts/img2.jpg'
resp = get(url_img)

In [149]:
print(resp.headers['content-type']) # content-type = imag/jpeg

image/jpeg


In [151]:
resp.content # text로 읽으면 안됨 > 이미지라서
len(resp.content)

58424

In [152]:
# 'img2.jpg' open
with open(resp.request.url.split('/')[-1], 'wb') as fp:
    fp.write(resp.content)

In [159]:
!dir *.jpg

 C ����̺��� �������� �̸��� �����ϴ�.
 ���� �Ϸ� ��ȣ: 309E-5D87

 c:\Users\GyeongJun\Desktop\����_SW����\Code\���� ���͸�

2023-09-13  ���� 11:28            58,424 img2.jpg
               1�� ����              58,424 ����Ʈ
               0�� ���͸�  163,242,549,248 ����Ʈ ����


In [160]:
from requests import request, get, post
from requests.exceptions import HTTPError
from time import sleep

def download(url, params = {}, method = 'GET', retrieds = 3):
    try:
        # params와 data를 method에 따라 정의함.
        resp = request(method, 
                       url, 
                       # get은 URL에 모든 매개변수를 배치한다
                       params= params if method == 'GET' else {} ,
                       # post는 모든 매개변수를 본문에 배치한다
                       data = params if method == 'POST' else {},
                       headers = {'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/117.0"}
                      )
        # raise_for_status는 요청/응답 코드가 200이 아니면 예외를 발생              
        resp.raise_for_status()
        # robots.txt => 잘 안돌아감
    except HTTPError as e:
        # 아니면,
        # if resp.status_code != 200:
        if 500 <= e.response.status_code:
            if retrieds > 0:
                sleep(3)
                download(url, method = method, params = params, retrieds = retrieds-1)
            else:
                print('재방문 횟수 초과')
        else:
            print('Request', resp.request.headers)
            print('Respones', e.response.headers)
    return resp


In [258]:
resp = download('https://www.google.com/search', {'q':'카리나'})

In [259]:
resp.status_code, resp.headers['Content-Type']

(200, 'text/html; charset=UTF-8')

In [260]:
dom = BeautifulSoup(resp.text, 'html.parser')

In [170]:
dom.find(text = re.compile('나무위키')).find_parent().find_parent().attrs # text를 이용해서 나무위키가 있는 노드를 찾음

{'jsname': 'UWckNb',
 'href': 'https://namu.wiki/w/%EC%B9%B4%EB%A6%AC%EB%82%98(aespa)',
 'data-jsarwt': '1',
 'data-usg': 'AOvVaw0AVyeVNjJkBjN3IUmzE7jM',
 'data-ved': '2ahUKEwjG6P-WxqaBAxUZWUEAHQmxAREQFnoECCwQAQ'}

In [176]:
dom.find_all(attrs={'jsname': 'UWckNb'})

[<a data-jsarwt="1" data-usg="AOvVaw0AVyeVNjJkBjN3IUmzE7jM" data-ved="2ahUKEwjG6P-WxqaBAxUZWUEAHQmxAREQFnoECCwQAQ" href="https://namu.wiki/w/%EC%B9%B4%EB%A6%AC%EB%82%98(aespa)" jsname="UWckNb"><br/><h3 class="LC20lb MBeuO DKV0Md">카리나(aespa) - 나무위키</h3><div class="notranslate TbwUpd NJjxre iUh30 ojE3Fb"><span class="DDKf1c"><div aria-hidden="true" class="eqA2re UnOTSe Vwoesf"><img alt="" class="XNo5Ab" src="

In [178]:
for _ in dom.find_all(attrs={'jsname': 'UWckNb'}):
    print(_.text.strip()) # 검색결과
    print(_.attrs['href']) # 사이트 주소

카리나(aespa) - 나무위키나무위키https://namu.wiki › 카리나(aespa)
https://namu.wiki/w/%EC%B9%B4%EB%A6%AC%EB%82%98(aespa)
카리나 (가수) - 위키백과, 우리 모두의 백과사전Wikipediahttps://ko.wikipedia.org › wiki › 카리나_(가수)
https://ko.wikipedia.org/wiki/%EC%B9%B4%EB%A6%AC%EB%82%98_(%EA%B0%80%EC%88%98)
AESPA KARINA 카리나 (@karina_aespas_)Instagramhttps://www.instagram.com › karina_aespas_
https://www.instagram.com/karina_aespas_/
[입덕직캠] 에스파 카리나 직캠 4K 'Salty & Sweet' (aespa ...YouTubehttps://www.youtube.com › watch
https://www.youtube.com/watch?v=sXeYkw4VE24
[얼빡직캠 4K] 에스파 카리나 'Spicy' (aespa KARINA ...YouTubehttps://www.youtube.com › watch
https://www.youtube.com/watch?v=TqBXWlVKXrs
#PictureChallenge 📸✌ with #KARINA #GISELLE #HYO ...YouTubehttps://www.youtube.com › watch
https://www.youtube.com/watch?v=gO_ONOnzH-s
🎺🫧✨ #Chicago #pinkchampagne #aespa #æspa #에스파 ...YouTubehttps://www.youtube.com › shorts
https://www.youtube.com/shorts/Dul1Q0SK0n4
카리나(aespa) (r3170 판)나무위키https://namu.wiki › 카리나(aespa)
https://namu.wiki/w/%EC%B9%B4

In [185]:
for _ in dom.find_all('h3', attrs={'class':'LC20lb MBeuO DKV0Md'}):
    print(_.text.strip())
    print(_.find_parent().attrs['href'])

카리나(aespa) - 나무위키
https://namu.wiki/w/%EC%B9%B4%EB%A6%AC%EB%82%98(aespa)
카리나 (가수) - 위키백과, 우리 모두의 백과사전
https://ko.wikipedia.org/wiki/%EC%B9%B4%EB%A6%AC%EB%82%98_(%EA%B0%80%EC%88%98)
AESPA KARINA 카리나 (@karina_aespas_)
https://www.instagram.com/karina_aespas_/
[입덕직캠] 에스파 카리나 직캠 4K 'Salty & Sweet' (aespa ...
https://www.youtube.com/watch?v=sXeYkw4VE24
[얼빡직캠 4K] 에스파 카리나 'Spicy' (aespa KARINA ...
https://www.youtube.com/watch?v=TqBXWlVKXrs
#PictureChallenge 📸✌ with #KARINA #GISELLE #HYO ...
https://www.youtube.com/watch?v=gO_ONOnzH-s
🎺🫧✨ #Chicago #pinkchampagne #aespa #æspa #에스파 ...
https://www.youtube.com/shorts/Dul1Q0SK0n4
카리나(aespa) (r3170 판)
https://namu.wiki/w/%EC%B9%B4%EB%A6%AC%EB%82%98(aespa)?rev=3170
230625 aespa(에스파) 'Next Level' 카리나 KARINA 4K ...
https://www.youtube.com/watch?v=v63rTR68TdA
KARINA big girl making money 💸 ...
https://www.youtube.com/watch?v=prSFnMkjtlI


In [193]:
dom.find_all(attrs={'data_lpage':re.compile('youtube.com')})

[]

In [263]:
for _ in dom.find_all(attrs={'data-lpage':re.compile('youtube.com')}):
    print(_.attrs['data-lpage'])

https://www.youtube.com/watch?v=TqBXWlVKXrs
https://www.youtube.com/watch?v=693lIQ4ZwoM


In [264]:
for _ in dom.find_all('img', attrs={'src':re.compile('(?:png|gif|bmp|jpg|jpeg)$')}):
    print(urljoin(resp.request.url, _.attrs['src']))

https://www.google.com/images/branding/googlelogo/2x/googlelogo_color_92x30dp.png
https://www.google.com/tia/tia.png


In [203]:
# 네이버로 찾기
resp = download('https://search.naver.com/search.naver', {'query':'카리나'})

In [204]:
resp.status_code, resp.headers['Content-Type']

(200, 'text/html; charset=UTF-8')

In [205]:
dom = BeautifulSoup(resp.text, 'html.parser')

In [211]:
dom.find(text = re.compile('나무위키')).find_parent().attrs # text를 이용해서 나무위키가 있는 노드를 찾음

{'target': '_blank',
 'href': 'https://namu.wiki/w/%EC%B9%B4%EB%A6%AC%EB%82%98%28aespa%29',
 'class': ['link_tit'],
 'onclick': 'goOtherCR(this,"a=sit_4po*e.link&r=0&i=a00000fa_1812d28439987fd2beb5be99&u="+urlencode(this.href))'}

In [214]:
dom.find(text = re.compile('원정대')).find_parent().attrs

{'href': 'http://sports.khan.co.kr/news/sk_index.html?art_id=202309121448013&sec_id=540201&pt=nv',
 'class': ['api_txt_lines', 'dsc_txt_wrap'],
 'target': '_blank',
 'onclick': "return goOtherCR(this, 'a=nws_all*a.body&r=1&i=8800006D_000000000000000000912496&g=144.0000912496&u='+urlencode(this.href));"}

In [237]:
for _ in dom.find_all(attrs={'target': '_blank', 'class': re.compile('(?:link_tit|api_txt_lines|news_tit|dsc_txt_wrap|name_link _cross_trigger _foryou_trigger)$')}):
    print(_.text.strip()) # 검색결과
    print(_.attrs['href']) # 사이트 주소

카리나(aespa) - 나무위키
https://namu.wiki/w/%EC%B9%B4%EB%A6%AC%EB%82%98%28aespa%29
香里奈 | TEN CARAT
https://tencarat.co.jp/karina/
“카리나 원해” 황민호, 大실망한 이유는?
http://sports.khan.co.kr/news/sk_index.html?art_id=202309121448013&sec_id=540201&pt=nv
트로트 가수 황민호가 에스파 멤버 카리나에 대한 애정을 표했다. 11일 TV 조선 예능 ‘귀염 뽕짝 원정대’... “누가 왔으면 좋겠어?”라는 질문에 황민호는 ‘에스파’의 카리나, 조승원은 ‘뉴진스’의 민지를 뽑았다....
http://sports.khan.co.kr/news/sk_index.html?art_id=202309121448013&sec_id=540201&pt=nv
카리나, 중단발 사진 공개…단발 욕구↑
http://sports.khan.co.kr/news/sk_index.html?art_id=202309111724003&sec_id=540101&pt=nv
그룹 에스파(aespa)의 멤버 카리나가 중단발 모습을 공개했다. 카리나는 11일 자신의 사회관계망서비스(SNS) 채널을 통해 사진 여러 장과 함께 “NYC(뉴욕시)”라는 멘트를 올렸다. 공개된 사진에서 카리나는...
http://sports.khan.co.kr/news/sk_index.html?art_id=202309111724003&sec_id=540101&pt=nv
카리나, 모자 커 보이는 착시효과..뉴욕시 '천사 강림' [스타IN★]
https://www.starnewskorea.com/stview.php?no=2023091118032779966
그룹 에스파 카리나가 미국 뉴욕에서 촬영한 사진을 공개했다. 11일 카리나는 자신의 인스타그램에 "NYC"라는 글과 함께 여러 장의 사진을 게재했다. 공개된 사진 속 카리나는 흰색 모자와 링 귀걸이, 분홍색 민소매...
https://

In [256]:
# 이미지
base = dom.find(attrs = {'class':'group_news'})

for _ in base.find_all('img'):
    if _.has_attr('src'):
        print(urljoin(resp.request.url, _.attrs['src'])) # data64 to jpg search

data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7
data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7
data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7
data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7
data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7
data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7
data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7
data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7


In [265]:
# 다음 검색창
# 실습해보기 !! 검색내용, 주소, 이미지
resp = download('https://search.daum.net/search', {'w':'tot', 'q':'카리나'})

In [266]:
resp.url, resp.status_code, resp.headers['Content-Type']

('https://search.daum.net/search?w=tot&q=%EC%B9%B4%EB%A6%AC%EB%82%98',
 200,
 'text/html; charset=utf-8')

In [267]:
dom = BeautifulSoup(resp.text, 'html.parser')

In [272]:
dom.find(text = re.compile('나무위키')).find_parent().attrs # text를 이용해서 나무위키가 있는 노드를 찾음

{'slot': 'title',
 'data-target': '_blank',
 'data-href': 'https://namu.wiki/w/%EC%B9%B4%EB%A6%AC%EB%82%98(%EA%B0%80%EB%94%94%EC%96%B8%20%ED%85%8C%EC%9D%BC%EC%A6%88)',
 'data-log': 'dc=TWA&at=link&p=99&r=2&d=373a1326f3f5a63f38a0e016b2adc2abec4ea52d&gd=web-namu-NzoTJvP1pj84oOAW&sc=WSA&bfdc=false',
 'data-extra-log': '{"twa":{"e2":"","rank":2,"topic":{}}}'}

In [314]:
for _ in dom.find_all('c-menu-share'):
    if _.has_attr('data-link'):
        print(_.attrs['data-title']) # 검색결과
        print(_.attrs['data-link']) # 사이트 주소

카리나 (배우)
https://ko.wikipedia.org/wiki/%EC%B9%B4%EB%A6%AC%EB%82%98%20%28%EB%B0%B0%EC%9A%B0%29
카리나(가디언 테일즈) - 나무위키
https://namu.wiki/w/%EC%B9%B4%EB%A6%AC%EB%82%98(%EA%B0%80%EB%94%94%EC%96%B8%20%ED%85%8C%EC%9D%BC%EC%A6%88)
고윤정 vs 카리나
https://cafe.daum.net/ssaumjil/LnOm/3029160?q=%EC%B9%B4%EB%A6%AC%EB%82%98&re=1
카리나 달글 10 🩵🫧 We go better things 🪸💙
https://cafe.daum.net/Duckgu/D2nu/41713?q=%EC%B9%B4%EB%A6%AC%EB%82%98&re=1
에스파 카리나의 평소 식사량
https://cafe.daum.net/subdued20club/ReHf/4409073?q=%EC%B9%B4%EB%A6%AC%EB%82%98&re=1
현재 리틧타고있는 카리나 버블
https://table.cafe.daum.net/p/1000055110/183711502795854080
카리나 닮은 여자. 사귄다 vs 안사귄다
https://cafe.daum.net/dotax/Elgq/4205089?q=%EC%B9%B4%EB%A6%AC%EB%82%98&re=1
에스파 카리나, 유노윤호 새 앨범 지원 사격 [공식]
https://cafe.daum.net/SoulDresser/FLTB/752076?q=%EC%B9%B4%EB%A6%AC%EB%82%98&re=1
최근 화제가 되고 있는 에스파 카리나 다이어트와 다이어트 식단
https://nizniz.tistory.com/149
시에나를 제대로 즐기는 방법 - 만지아의 탑, 캄포광장,시에나 대성당, 카타리나 그리고 카리나
https://brunch.co.kr/@gle-bay/204
원샷 카리나 - 카카오스토리
http://story.kakao.com

CSS Selector (선택자; 가상선택자) <br>
선택자 {화면 표현 속성(color, fontsize,...)}<br>
selector에 들어가는 것 > tagname, 속성<br>
속성은 HTML TAG의 Attributes이다 > id=value, class=values,...(공백)<br>
id는 한개의 value라서 앞으로 #로 표현한다. (#value: 아이디를 찾는법)<br>
class는 여러개의 value라서 앞에 .로 표현한다. (.value1.value2.value3...)<br>
cls1.cls2.cls3 in .cls1|.cls2|.cls3<br>
Attribute는 {key:value}로 구성<br>
> [key = value]<br>

class = "link_tit|news_tit|name_link|totoal_tit"<br>
.link_tit, [class = link_tit] (class인 경우), #link_tit, [id = link_tit] (id인 경우)<br>
selector의 특징은 구조와 속성을 모두 가지고 있을 수 있다. (구조 + 속성을 한번에 가져올 수 있다)<br>