# 입문자를 위한, 파이썬/R 데이터 분석 

## Today's mission

- 데이터 수집
  - 웹 데이터 수집 개념
  - 웹 데이터 기본 구조 
  - 웹 데이터 HTML
- Python 파이썬 관련 라이브러리 : Beautiful Soup
- 실습 (1) HTML 파일 활용
- 실습 (2) Chrome 브라우저 도구활용 
- 실습 (3) 사이트 크롤링

]

### 웹 데이터 수집 개념 :
 - 크롤링(crawling) 과 스크래핑(Scraping)
 - 웹 크롤러는 웹 페이지를 Chrome, IE 와 같은 브라우저로 접속하지 않고, Python 파이썬같은 프로그래밍 언어로 접속하여, 필요한 내용만 가져옴


![%EC%BA%A1%EC%B2%981.JPG](attachment:%EC%BA%A1%EC%B2%981.JPG)

### 웹 데이터 기본 구조 :
 - CSS + HTML + Java 

![%EC%BA%A1%EC%B2%982.JPG](attachment:%EC%BA%A1%EC%B2%982.JPG)

### 웹 데이터 HTML :
 - HTML코드는 웹페이지를 제공하는 사람(웹사이트 운영자)과 이를 이용하는 사람(ex: 검색엔진, 브라우저)간의 규약
 - 규약은 규약일 뿐, 너무 복잡하게 생각할 필요는 없음


##### 주요 HTML 태그

- h3 - 제목 (header)
- p - 단락 (paragraph)
- span - 개행 안 하는 단락
- div - 구역(divison)
- dl - 설명 리스트 (description list)
- dt - 설명 헤더 (description header)
- dd - 설명 내용
- img - 이미지(image)
- a - 링크(anchor)

### Python 파이썬 관련 라이브러리 : Beautiful Soup
 - 1) 뷰티플숩은 Crawling, Scraping 등을 위해 설계된 파이썬 패키지/라이브러리 
 
   (스크린 스크래핑의 대표적인 예로서, 웹 화면에서 데이터를 가져오는 웹 크롤링이라 이해하면 됨)

##### 주요 특징

- 1) HTML 구문 분석, 트리 탐색, 검색 및 수정을 위한 간단한 방법과 파이썬 기능을 활용하여 데이터 수집 프로그램 작성이 쉬움
- 2) 대부분의 문서 Encoding 자동 변환 (Unicode <-> UTF-8)   
     ex) unicode (세계문자 표준 기준코드, 16bit), UTF-8 (3bytes/1자), euc-kr (한글 2bytes/1자)
- 3) lxml, html5lib 등 기능적 라이브러리를 사용하면, 속도 및 호환성 높은 응용프로그램 제작이 가능

##### 참고 site :
- https://www.crummy.com/software/BeautifulSoup/
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/

### 실습 (1) HTML 파일 활용
 - 자료 다운로드 : https://github.com/PinkWink/DataScience/blob/master/data/03.%20test_first.html

In [None]:
# 패키지 설치 (일반적으로 Anaconda 에 기본으로 설치되어 있음)
#!pip install beautifulsoup4

In [1]:
# 패키지 import
from bs4 import BeautifulSoup

##### [참고]  import      vs.     from [모듈] import 

`import` 모듈 : 해당 모듈 전체를 가져온다.



`from 모듈 import 메소드 / 변수`  :  해당 모듈 내에 있는 특정 메소드나 모듈 내 정의된 변수를 가져온다.


In [2]:
# HTML 파일 읽어들이기
page = open("data/test_first.html",'r').read()
page

'<!DOCTYPE html>\n<html>\n    <head>\n        <title>Very Simple HTML Code by PinkWink</title>\n    </head>\n    <body>\n        <div>\n            <p class="inner-text first-item" id="first">\n                Happy PinkWink.\n                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>\n            </p>\n            <p class="inner-text second-item">\n                Happy Data Science.\n                <a href="https://www.python.org" id="py-link">Python</a>\n            </p>\n        </div>\n        <p class="outer-text first-item" id="second">\n            <b>\n                Data Science is funny.\n            </b>\n        </p>\n        <p class="outer-text">\n            <b>\n                All I need is Love.\n            </b>\n        </p>\n    </body>\n</html>'

In [11]:
# 읽어들인 HTML 문서 전체를 변수 soup 저장
soup = BeautifulSoup(page, features='html.parser') # lxml 또는 html5lib
soup

<!DOCTYPE html>

<html>
<head>
<title>Very Simple HTML Code by PinkWink</title>
</head>
<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>
</html>

In [13]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Very Simple HTML Code by PinkWink
  </title>
 </head>
 <body>
  <div>
   <p class="inner-text first-item" id="first">
    Happy PinkWink.
    <a href="http://www.pinkwink.kr" id="pw-link">
     PinkWink
    </a>
   </p>
   <p class="inner-text second-item">
    Happy Data Science.
    <a href="https://www.python.org" id="py-link">
     Python
    </a>
   </p>
  </div>
  <p class="outer-text first-item" id="second">
   <b>
    Data Science is funny.
   </b>
  </p>
  <p class="outer-text">
   <b>
    All I need is Love.
   </b>
  </p>
 </body>
</html>


In [17]:
soup.children

<list_iterator at 0x105b07640>

In [15]:
#html 코드에 포함된 한단계 아래(하위) Tag태그 정보 표시:
list(soup.children)

['html',
 '\n',
 <html>
 <head>
 <title>Very Simple HTML Code by PinkWink</title>
 </head>
 <body>
 <div>
 <p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>
 </div>
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>
 </body>
 </html>]

In [18]:
# soup 문서 전체 저장변수 중, html 태그만 취할 경우,
html = list(soup.children)[2]
html

<html>
<head>
<title>Very Simple HTML Code by PinkWink</title>
</head>
<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>
</html>

In [19]:
#html 코드에 포함된 한단계 아래(하위) Tag태그 정보 표시:
list(html.children)

['\n',
 <head>
 <title>Very Simple HTML Code by PinkWink</title>
 </head>,
 '\n',
 <body>
 <div>
 <p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>
 </div>
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>
 </body>,
 '\n']

In [20]:
print(list(html.children))

['\n', <head>
<title>Very Simple HTML Code by PinkWink</title>
</head>, '\n', <body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>, '\n']


In [21]:
# html 문서 전체 저장변수 중, body 태그만 취할 경우,
body = list(html.children)[3]
body

<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>

In [22]:
# soup 저장변수에서 head, body 찾는 다른 방법
soup.head

<head>
<title>Very Simple HTML Code by PinkWink</title>
</head>

In [23]:
soup.body

<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>

In [24]:
# body 저장변수 하위에 태그tag 확인방법 :
list(body.children)[1]

<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>

In [25]:
# 유용한 명령/함수 : find, find_all
soup.find('p')                           # 1개 , 첫번째 것을 찾을 때

<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>

In [26]:
soup.find_all('p')                       # p 태그 전체 찾을 때

[<p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>,
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>,
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [27]:
soup.find_all(class_="outer-text")       # class 가 outer-text 찾을 때

[<p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [35]:
soup.find_all(id="first")                # id 가 first인 태그 찾을 때

[<p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>]

In [36]:
soup.find_all('p', class_="outer-text")  # p 태그의 class가 outer-text 것 찾을 때

[<p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [39]:
soup.find_all('b')

[<b>
                 Data Science is funny.
             </b>,
 <b>
                 All I need is Love.
             </b>]

In [41]:
soup.find_all('a')#, link='http://www.pinkwink.kr')

[<a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>,
 <a href="https://www.python.org" id="py-link">Python</a>]

In [47]:
soup.find_all('a', href='http://www.pinkwink.kr')

[<a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>]

####  예시 :  href 속성으로 링크주소 찾아보기

In [30]:
soup.find_all('a')      # 클릭링크에 해당하는 a 테그를 먼저 찾음

[<a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>,
 <a href="https://www.python.org" id="py-link">Python</a>]

In [31]:
link = soup.find_all('a')
link

[<a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>,
 <a href="https://www.python.org" id="py-link">Python</a>]

In [48]:
type(link)

bs4.element.ResultSet

In [32]:
link[1]['href']

'https://www.python.org'

In [33]:
link[0].string #.text

'PinkWink'

In [34]:
for each in link:
    print(each)
    href = each['href']
    text = each.string
    print(text, href)
    print(text + ' => ', href)
    print()

<a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
PinkWink http://www.pinkwink.kr
PinkWink =>  http://www.pinkwink.kr

<a href="https://www.python.org" id="py-link">Python</a>
Python https://www.python.org
Python =>  https://www.python.org



### 실습 (2) Chrome 브라우저 도구활용

##### 예시) naver 환율정보

- url = 'https://finance.naver.com/marketindex/?tabSel=exchange#tab_section'

- requests 모듈 설치:

!pip install requests

- 파이썬에서 HTTP 요청을 만들기 위한 표준으로서, 간단한 API로 요청처리를 할 수 있도록 해주는 패키지/라이브러리/모듈 

In [None]:
#!pip install requests

In [49]:
import requests
from bs4 import BeautifulSoup

In [63]:
# 환율정보 url GET 방식으로 요청
url = 'https://finance.naver.com/marketindex'
market_index = requests.get(url)

In [64]:
market_index#.content           # 200 : 응답코드 200 은 서버의 응답이 정상,   404 : url 이 잘못되거나 오

<Response [200]>

In [65]:
# HTML parser 이용해 soup 객체 생성
soup = BeautifulSoup(market_index.content, 'html.parser')
soup


<script language="javascript" src="/template/head_js.naver?referer=info.finance.naver.com&amp;menu=marketindex&amp;submenu=market"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20240604222219/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20240604222219/js/jindo.1.5.3.element-text-patch.js" type="text/javascript"></script>
<div id="container" style="padding-bottom:0px;">
<div class="market_include">
<div class="market_data">
<div class="market1">
<div class="title">
<h2 class="h_market1"><span>환전 고시 환율</span></h2>
</div>
<!-- data -->
<div class="data">
<ul class="data_lst" id="exchangeList">
<li class="on">
<a class="head usd" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
<h3 class="h_lst"><span class="blind">미국 USD</span></h3>
<div class="head_info point_up">
<span class="value">1,378.10</span>
<span class="txt_krw

In [66]:
# CSS 이용해 찾습니다 :  <복사> - <selector 복사>
#exchangeList > li.on > a.head.usd > div > span.value
#exchangeList > li.on > a.head.usd > div > span.value
price = soup.select_one('div > span.value')
print(price)

<span class="value">1,378.10</span>


In [67]:
#worldExchangeList > li.on > a.head.jpy_usd > div > span.value
price = soup.select_one('li.on > a.head.jpy_usd > div > span.value')
print(price)

<span class="value">156.9000</span>


In [97]:
#worldExchangeList > li.on > a.head.jpy_usd > div > span.value
price_all = soup.select('div > span.value')
# print(price_all)
# prices = [i.text for i in price_all]
# prices

for i in price_all:
    print(i.text)

1,378.10
876.24
1,484.28
189.66
156.9000
1.0734
1.2717
105.1100
77.74
1655.1
2327.0
101956.96


In [None]:
price_all

In [92]:
# 결과에서 원하는 요소(element) 내용은 text 또는 string 통해 확인합니다
price.text

'156.9000'

In [93]:
price.string

'156.9000'

In [94]:
print('USD/KRW = ', price.text, price.string)

USD/KRW =  156.9000 156.9000


In [60]:
import pandas as pd
exch_rate = pd.read_html(url, encoding='euc-kr')

In [98]:
exch_rate

[            구분    금리   등락율
 0    CD금리(91일)  3.60  0.00
 1         콜 금리  3.59  0.01
 2     국고채 (3년)  3.35  0.05
 3     회사채 (3년)  3.78  0.05
 4     COFIX 잔액  3.76  0.02
 5  COFIX 신규취급액  3.54  0.05,
        구분      금리   등락율
 0  달러 인덱스  105.11  0.26,
 Empty DataFrame
 Columns: [업체명, 거래량, 전일비]
 Index: []]

##### 예시) naver 영화 순위 

- url = 'https://movie.naver.com/movie/sdb/rank/rmovie.nhn'

- requests 모듈 설치:

!pip install requests

- 파이썬에서 HTTP 요청을 만들기 위한 표준으로서, 간단한 API로 요청처리를 할 수 있도록 해주는 패키지/라이브러리/모듈 

In [101]:
import requests
from bs4 import BeautifulSoup

In [102]:
# 영화 랭킹 정보 url을 GET 방식으로 요청
url = 'https://movie.naver.com/movie/sdb/rank/rmovie.nhn'
movie_ranking = requests.get(url)
movie_ranking

<Response [200]>

In [103]:
# HTML parser 이용해 soup 객체 생성
soup = BeautifulSoup(movie_ranking.content, 'html.parser')
soup

<!DOCTYPE html>

<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge, chrome=1" http-equiv="X-UA-Compatible"/>
<title>영화 end - 주요정보</title>
<link href="/css/movie_tablet.css" rel="stylesheet" type="text/css"/>
<link href="/css/common.css" rel="stylesheet" type="text/css"/>
<link href="/css/layout.css" rel="stylesheet" type="text/css"/>
</head>
<body>
<!-- [D] 영화 리뷰 백업 서비스 안내페이지의 경우 wrap 에 backup 클래스 추가 부탁드립니다. -->
<div class="basic backup" id="wrap">
<!-- header -->
<div id="header">
<h1 class="svc_name">
<span class="ci_logo" title="naver로 바로가기"><img alt="NAVER" height="13" src="/img/logo_ci.png" width="62"/></span>
<span class="svc_logo" title="영화서비스홈으로 바로가기"><img alt="영화" height="19" src="/img/logo_svc.png" width="34"/></span>
</h1>
<!-- [D] 각 항목 활성화는 on으로 표기 -->
<div class="scrollbar scrollbar-noscript" id="scrollbar" style="width:148px">
<div class="scrollbar-box" style="width:148px">
<div class="scrollbar-content" style="width:148px">
<div class="in_scroll">
<u

In [104]:
soup.find('div')

<div class="basic backup" id="wrap">
<!-- header -->
<div id="header">
<h1 class="svc_name">
<span class="ci_logo" title="naver로 바로가기"><img alt="NAVER" height="13" src="/img/logo_ci.png" width="62"/></span>
<span class="svc_logo" title="영화서비스홈으로 바로가기"><img alt="영화" height="19" src="/img/logo_svc.png" width="34"/></span>
</h1>
<!-- [D] 각 항목 활성화는 on으로 표기 -->
<div class="scrollbar scrollbar-noscript" id="scrollbar" style="width:148px">
<div class="scrollbar-box" style="width:148px">
<div class="scrollbar-content" style="width:148px">
<div class="in_scroll">
<ul class="navi">
<li>
<span class="menu_tit" title="서비스 종료 안내"><strong>서비스 종료 안내</strong></span>
</li>
</ul>
</div>
</div>
</div>
<div class="scrollbar-v" style="display:none">
<div class="scrollbar-button-up"></div>
<div class="scrollbar-track">
<div class="scrollbar-thumb"></div>
</div>
<div class="scrollbar-button-down"></div>
</div>
</div>
</div>
<!-- //header -->
<!-- container -->
<div id="container">
<!-- content -->
<div id="c

### 실습 (3) 네이버지식인
 - 참고 링크 : https://wikidocs.net/85739
 - 사이트 정보 : https://kin.naver.com/search/list.nhn?query=%ED%8C%8C%EC%9D%B4%EC%8D%AC

In [105]:
import requests
from bs4 import BeautifulSoup

In [106]:
url = 'https://kin.naver.com/search/list.nhn?query=%ED%8C%8C%EC%9D%B4%EC%8D%AC'

In [107]:
url

'https://kin.naver.com/search/list.nhn?query=%ED%8C%8C%EC%9D%B4%EC%8D%AC'

In [108]:
response = requests.get(url)

In [109]:
response

<Response [200]>

In [110]:
print(response.status_code)

200


In [111]:
html = response.text
#html

In [112]:
soup = BeautifulSoup(html, 'html.parser')

In [113]:
print(soup)


<!DOCTYPE html>

<html lang="ko">
<head>
<meta contents="always" name="referrer"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="파이썬의 지식iN Q&amp;A 검색결과입니다. 궁금증을 해결하지 못했다면 지식iN '질문하기'를 해보세요." name="description">
<meta content="width=1024" name="viewport"/>
<meta content="none" name="msapplication-config">
<link href="https://ssl.pstatic.net/static.kin/static/pc/20240529105836/css/min/common.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/static.kin/static/pc/20240529105836/css/min/components.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/static.kin/static/pc/20240529105836/css/min/other.css" rel="stylesheet" type="text/css"/>
<script>
	
	var pcDomain = "kin.naver.com";
	var pcDomainWithProtocol = "https://kin.naver.com";
	var pcKinServiceProtocol = "https";

	var mobileDomain = "m.kin.naver.com";
	var mobileDomainWithProtocol = "https://m.kin.naver.com";
	var mobileKinServiceProtocol = "https";

	var uploa

- <F12> 사용 및 CSS Selector

In [114]:
#s_content > div.section > ul > li:nth-child(1) > dl > dt > a
title = soup.select_one('#s_content > div.section > ul > li:nth-child(1) > dl > dt > a')
print(title)

<a class="_nclicks:kin.txt _searchListTitleAnchor" href="https://kin.naver.com/qna/detail.naver?d1id=1&amp;dirId=10402&amp;docId=469201467&amp;qb=7YyM7J207I2s&amp;enc=utf8§ion=kin.qna_ency&amp;rank=1&amp;search_sort=0&amp;spq=0" target="_blank"><b>파이썬</b> 질문</a>


In [115]:
print(title.get_text())

파이썬 질문


- 네이버 지식인 크롤링 :: 제목 여러개 뽑기

In [116]:
#s_content > div.section > ul
ul = soup.select_one('ul.basic1')
print(ul)

<ul class="basic1">
<li>
<div class="thumb">
<a class="_nclicks:kin.img" href="https://kin.naver.com/qna/detail.naver?d1id=1&amp;dirId=10402&amp;docId=469201467&amp;qb=7YyM7J207I2s&amp;enc=utf8§ion=kin.qna_ency&amp;rank=1&amp;search_sort=0&amp;spq=0" target="_blank"><img alt="파이썬 질문" onerror="this.parentNode.parentNode.style.display='none';" src="https://kin-phinf.pstatic.net/20240506_156/1714962124487dc8ph_JPEG/1714962124440.jpeg?type=m100"/></a>
</div>
<dl>
<dt>
<a class="_nclicks:kin.txt _searchListTitleAnchor" href="https://kin.naver.com/qna/detail.naver?d1id=1&amp;dirId=10402&amp;docId=469201467&amp;qb=7YyM7J207I2s&amp;enc=utf8§ion=kin.qna_ency&amp;rank=1&amp;search_sort=0&amp;spq=0" target="_blank"><b>파이썬</b> 질문</a>
</dt>
<dd class="txt_inline">2024.05.06.</dd>
<dd><b>파이썬</b> 문제 답 좀 알려주시면 감사하겠습니다! 1) 3,4 - 리스트 인덱스 순서는 자동으로 지정 됨 2) 6 - len() 함수는 리스트의 요소의 수를 리턴해줌. 3) 3... </dd>
<dd class="tag_area">
</dd>
<dd class="txt_block">
<a class="txt_g1 _nclicks:kin.cat1" href="/search/list

In [117]:
#s_content > div.section > ul > li:nth-child(1) > dl > dt > a
#s_content > div.section > ul > li:nth-child(2) > dl > dt > a
#s_content > div.section > ul > li:nth-child(3) > dl > dt > a
titles = ul.select('li > dl > dt > a')
titles

[<a class="_nclicks:kin.txt _searchListTitleAnchor" href="https://kin.naver.com/qna/detail.naver?d1id=1&amp;dirId=10402&amp;docId=469201467&amp;qb=7YyM7J207I2s&amp;enc=utf8§ion=kin.qna_ency&amp;rank=1&amp;search_sort=0&amp;spq=0" target="_blank"><b>파이썬</b> 질문</a>,
 <a class="_nclicks:kin.txt _searchListTitleAnchor" href="https://kin.naver.com/qna/detail.naver?d1id=1&amp;dirId=10402&amp;docId=470084065&amp;qb=7YyM7J207I2s&amp;enc=utf8§ion=kin.qna_ency&amp;rank=2&amp;search_sort=0&amp;spq=0" target="_blank">고등학생 <b>파이썬</b> 책</a>,
 <a class="_nclicks:kin.txt _searchListTitleAnchor" href="https://kin.naver.com/qna/detail.naver?d1id=1&amp;dirId=10402&amp;docId=470117251&amp;qb=7YyM7J207I2s&amp;enc=utf8§ion=kin.qna_ency&amp;rank=3&amp;search_sort=0&amp;spq=0" target="_blank"><b>파이썬</b> pip 설치가 안됨</a>,
 <a class="_nclicks:kin.txt _searchListTitleAnchor" href="https://kin.naver.com/qna/detail.naver?d1id=1&amp;dirId=10402&amp;docId=461494098&amp;qb=7YyM7J207I2s&amp;enc=utf8§ion=kin.qna_ency&amp

In [118]:
for title in titles:
    print(title.get_text())

파이썬 질문
고등학생 파이썬 책
파이썬 pip 설치가 안됨
파이썬 책 추천
파이썬 문법 질문
파이썬 문제 풀어주세요
파이썬 입력과 변수 질문
파이썬독학 어떻게들 하고 계신가요?
중1 파이썬 독학
파이썬 해커 되는법 파이썬 해킹에 관해서


- select_one 은 찾은 html 중 가장 첫번째 html 을 가져오고
- select 는 찾은 모든 html 을 리스트 형태로 반환 합니다.

In [119]:
import requests
from bs4 import BeautifulSoup

url = 'https://kin.naver.com/search/list.nhn?query=%ED%8C%8C%EC%9D%B4%EC%8D%AC'

response = requests.get(url)

if response.status_code == 200:
    html = response.text
    soup = BeautifulSoup(html, 'html.parser')
    ul = soup.select_one('ul.basic1')
    titles = ul.select('li > dl > dt > a')
    for title in titles:
        print(title.get_text())
else : 
    print(response.status_code)

파이썬 질문
고등학생 파이썬 책
파이썬 pip 설치가 안됨
파이썬 책 추천
파이썬 문법 질문
파이썬 문제 풀어주세요
파이썬 입력과 변수 질문
파이썬독학 어떻게들 하고 계신가요?
중1 파이썬 독학
파이썬 해커 되는법 파이썬 해킹에 관해서
