# 네이버 지식인 페이지 정적 크롤링
정적 크롤링을 통해 네이버 지식인 페이지에서 데이터를 추출하는 방법을 학습합니다.

### 1. 필요한 라이브러리 설치 및 임포트
먼저, 웹 크롤링을 위해 필요한 라이브러리들을 설치하고 임포트합니다.

- bs4: BeautifulSoup 라이브러리는 HTML/XML 페이지를 파싱하여 데이터를 쉽게 추출할 수 있게 도와줍니다.
- requests: HTTP 요청을 보내 웹 페이지의 HTML을 받아오는 라이브러리입니다.
- pandas: 데이터를 표 형태로 처리하고, 엑셀 파일로 저장하는 데 사용됩니다.
- openpyxl: pandas가 엑셀 파일을 처리할 수 있도록 도와주는 라이브러리입니다.

In [1]:
!pip install bs4
!pip install requests
!pip install pandas
!pip install openpyxl

Collecting bs4
  Downloading bs4-0.0.2-py2.py3-none-any.whl.metadata (411 bytes)
Collecting beautifulsoup4 (from bs4)
  Downloading beautifulsoup4-4.13.4-py3-none-any.whl.metadata (3.8 kB)
Collecting soupsieve>1.2 (from beautifulsoup4->bs4)
  Downloading soupsieve-2.7-py3-none-any.whl.metadata (4.6 kB)
Downloading bs4-0.0.2-py2.py3-none-any.whl (1.2 kB)
Downloading beautifulsoup4-4.13.4-py3-none-any.whl (187 kB)
Downloading soupsieve-2.7-py3-none-any.whl (36 kB)
Installing collected packages: soupsieve, beautifulsoup4, bs4
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3/3[0m [bs4]
[1A[2KSuccessfully installed beautifulsoup4-4.13.4 bs4-0.0.2 soupsieve-2.7
Collecting pandas
  Downloading pandas-2.2.3-cp311-cp311-macosx_11_0_arm64.whl.metadata (89 kB)
Collecting numpy>=1.23.2 (from pandas)
  Downloading numpy-2.2.6-cp311-cp311-macosx_14_0_arm64.whl.metadata (62 kB)
Collecting pytz>=2020.1 (from pandas)
  Downloading pytz-2025.2-py2.py3-none-any.whl.metadata (22 kB)
Coll

### 2. HTML 페이지 불러오기 및 파싱
이제 웹 페이지를 불러와서 HTML을 파싱하여 필요한 데이터를 추출하는 작업을 시작합니다.

- requests.get(url): 지정한 URL에 HTTP GET 요청을 보냅니다.
- BeautifulSoup(html, 'html.parser'): 응답 받은 HTML을 BeautifulSoup을 사용해 파싱합니다.

In [2]:
from bs4 import BeautifulSoup
import requests

# 네이버 지식인 삼성전자 검색 페이지 URL
url = "https://kin.naver.com/search/list.naver?query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90"
response = requests.get(url)  # 요청 보내기
html = response.text  # 응답 받은 HTML 문서
soup = BeautifulSoup(html, 'html.parser')  # BeautifulSoup으로 파싱
soup


<!DOCTYPE html>

<html lang="ko">
<head>
<meta contents="always" name="referrer"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="삼성전자의 지식iN Q&amp;A 검색결과입니다. 궁금증을 해결하지 못했다면 지식iN '질문하기'를 해보세요." name="description">
<meta content="width=1024" name="viewport"/>
<meta content="none" name="msapplication-config">
<link href="https://ssl.pstatic.net/static.kin/static/pc/20250423191635/css/min/common.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/static.kin/static/pc/20250423191635/css/min/components.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/static.kin/static/pc/20250423191635/css/min/other.css" rel="stylesheet" type="text/css"/>
<script>
	
	var pcDomain = "kin.naver.com";
	var pcDomainWithProtocol = "https://kin.naver.com";
	var pcKinServiceProtocol = "https";

	var mobileDomain = "m.kin.naver.com";
	var mobileDomainWithProtocol = "https://m.kin.naver.com";
	var mobileKinServiceProtocol = "https";

	var uplo

### 3. 특정 HTML 요소 선택
크롤링할 HTML 요소를 선택하기 위해 CSS 선택자를 사용하여 데이터를 추출합니다.

- soup.select_one(): CSS 선택자를 사용하여 첫 번째 일치하는 요소를 선택합니다.
- tree: 선택된 HTML 요소(첫 번째 질문)에 대한 정보를 담고 있습니다.

In [3]:
# 첫 번째 질문 요소 선택
tree = soup.select_one(".basic1 > li > dl")
tree  # 첫 번째 질문의 HTML 구조를 출력하여 확인

<dl>
<dt>
<a class="_nclicks:kin.txt _searchListTitleAnchor" href="https://kin.naver.com/qna/detail.naver?d1id=4&amp;dirId=40609&amp;docId=466096204&amp;qb=7IK87ISx7KCE7J6Q&amp;enc=utf8" target="_blank">2024 <b>삼성전자</b> 5급 채용 일정</a>
<img alt="지식파트너 답변" class="ico_pro" height="14" src="https://ssl.pstatic.net/static/kin/09renewal/ico_kin_partner.gif" width="51"/>
</dt>
<dd class="txt_inline">2024.12.06.</dd>
<dd>2024 <b>삼성전자</b> DS 5급 채용 일정 언제쯤 나올까요..? 3급 채용은 어제 뜬 것 같던데... <b>삼성전자</b> DS 5급 하반기 채용은 2024년 11월 11일에 서류 접수를 시작하였습니다. 11/11... </dd>
<dd class="tag_area">
</dd>
<dd class="txt_block">
<a class="txt_g1 _nclicks:kin.cat1" href="/search/list.naver?query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90§ion=qna">Q&amp;A</a>
								
									 &gt; <a class="txt_g1 _nclicks:kin.cat2" href="/search/list.naver?query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90§ion=qna&amp;dirId=40609">생산, 기술</a>
<span class="bar">|</span>
<span class="hit">답변수 4</span> UP 1
							
							
							</dd>
</dl>

### 4. 정보 추출: 제목, 링크, 날짜, 카테고리, 답변수
선택한 HTML 요소에서 원하는 데이터를 추출합니다.

- title_tag.text: title_tag 요소에서 텍스트(제목)를 추출합니다.
- title_tag.attrs['href']: title_tag 요소에서 링크를 추출합니다.
- date_tag.text, category_tag.text: 각각 작성일과 카테고리를 추출합니다.
- hit_tag.text.split(): 답변수를 추출하고 불필요한 문자를 제거합니다.

In [None]:
# 제목과 링크 추출

# 가장앞에 ., 특수문자:앞에 // , 공백: .로 변환,  _: 변환

title_tag = soup.select_one("._nclicks\\:kin\\.txt._searchListTitleAnchor")
title = title_tag.text
link = title_tag.attrs['href']
print(title, link)


2024 삼성전자 5급 채용 일정 https://kin.naver.com/qna/detail.naver?d1id=4&dirId=40609&docId=466096204&qb=7IK87ISx7KCE7J6Q&enc=utf8


In [7]:
# 날짜 추출
date_tag = soup.select_one(".txt_inline")
date = date_tag.text
print(date)

2024.12.06.


In [8]:
# 카테고리 추출
category_tag = soup.select_one(".txt_g1._nclicks\\:kin\\.cat2")
category = category_tag.text
print(category)

생산, 기술


In [10]:
# 조회수 추출
hit_tag = soup.select_one(".hit")
texts = hit_tag.text
hit = texts.split(" ")[1]  # "조회수 1234"에서 숫자만 추출
print(hit)

4


### 5. 한 페이지에서 모든 질문 정보 추출
한 페이지에 여러 질문이 있을 때, 모든 질문의 정보를 추출합니다.

- soup.select(): 여러 개의 요소를 선택하여 리스트로 반환합니다.
- 각 질문에 대해 for 루프를 돌며 제목, 링크, 날짜, 카테고리, 조회수를 추출합니다.

In [None]:
# 여러 질문 정보 추출
trees = soup.select(".basic1 > li > dl")
for tree in trees:
    title = tree.select_one("._nclicks\\:kin\\.txt").text
    link = tree.select_one("._nclicks\\:kin\\.txt").attrs['href']
    date = tree.select_one(".txt_inline").text
    category = tree.select_one("._nclicks\\:kin\\.cat2").text
    hit = tree.select_one(".hit").text.split()[1]
    
    # 출력
    print(title, link, date, category, hit)

### 6. 여러 페이지 크롤링
페이지를 변경하면서 여러 페이지의 데이터를 크롤링합니다.

- for page_num in range(1, 4): 1페이지부터 3페이지까지 순차적으로 크롤링합니다.
- 각 페이지에서 데이터를 추출하여 data 리스트에 추가하고, 이를 pandas DataFrame으로 변환하여 엑셀 파일로 저장합니다.

In [11]:
# 여러 페이지에서 정보 추출
data = []
for page_num in range(1, 4):  # 1~3페이지 크롤링
    url = f"https://kin.naver.com/search/list.naver?query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90&page={page_num}"
    response = requests.get(url)
    html = response.text
    soup = BeautifulSoup(html, 'html.parser')
    trees = soup.select(".basic1 > li > dl")
    
    for tree in trees:
        ################
        # 데이터를 리스트에 추가
        title = tree.select_one("._nclicks\\:kin\\.txt").text
        link = tree.select_one("._nclicks\\:kin\\.txt").attrs['href']
        date = tree.select_one(".txt_inline").text
        category = tree.select_one("._nclicks\\:kin\\.cat2").text
        hit = tree.select_one(".hit").text.split()[1]
        print(title, link, date, category, hit)
        data.append([title, link, date, category, hit])


    # 출력

# DataFrame으로 변환
import pandas as pd
df = pd.DataFrame(data, columns=["Title", "Link", "Date", "Category", "Hit"])
df.head()

2024 삼성전자 5급 채용 일정 https://kin.naver.com/qna/detail.naver?d1id=4&dirId=40609&docId=466096204&qb=7IK87ISx7KCE7J6Q&enc=utf8 2024.12.06. 생산, 기술 4
삼성전자 주가 전망 어디까지 갈것인가? https://kin.naver.com/qna/detail.naver?d1id=4&dirId=40102&docId=480414718&qb=7IK87ISx7KCE7J6Q&enc=utf8 2025.01.15. 주식, 증권 34
삼성전자 주식 배당금 https://kin.naver.com/qna/detail.naver?d1id=4&dirId=40102&docId=483021954&qb=7IK87ISx7KCE7J6Q&enc=utf8 2025.03.12. 주식, 증권 8
삼성전자 비스포크 냉장고 무엇이 있나요? https://kin.naver.com/qna/detail.naver?d1id=5&dirId=50104&docId=480669097&qb=7IK87ISx7KCE7J6Q&enc=utf8 2025.05.02. 청소, 주방, 계절 가전 7
삼성전자 취업 학과 https://kin.naver.com/qna/detail.naver?d1id=4&dirId=40612&docId=484149173&qb=7IK87ISx7KCE7J6Q&enc=utf8 2025.04.13. 취업 정책, 제도 1
삼성전자가전a/s https://kin.naver.com/qna/detail.naver?d1id=11&dirId=113108&docId=484680940&qb=7IK87ISx7KCE7J6Q&enc=utf8 2025.04.29. 금속공학 2
삼성전자 주식 https://kin.naver.com/qna/detail.naver?d1id=4&dirId=40102&docId=484122843&qb=7IK87ISx7KCE7J6Q&enc=utf8 2025.04.11. 주식, 증권 5
삼성전자 86인치TV KQ85

Unnamed: 0,Title,Link,Date,Category,Hit
0,2024 삼성전자 5급 채용 일정,https://kin.naver.com/qna/detail.naver?d1id=4&...,2024.12.06.,"생산, 기술",4
1,삼성전자 주가 전망 어디까지 갈것인가?,https://kin.naver.com/qna/detail.naver?d1id=4&...,2025.01.15.,"주식, 증권",34
2,삼성전자 주식 배당금,https://kin.naver.com/qna/detail.naver?d1id=4&...,2025.03.12.,"주식, 증권",8
3,삼성전자 비스포크 냉장고 무엇이 있나요?,https://kin.naver.com/qna/detail.naver?d1id=5&...,2025.05.02.,"청소, 주방, 계절 가전",7
4,삼성전자 취업 학과,https://kin.naver.com/qna/detail.naver?d1id=4&...,2025.04.13.,"취업 정책, 제도",1


### 7. 결과 저장
위의 크롤링한 데이터를 엑셀 파일로 저장합니다.

- df.to_excel(): 추출한 데이터를 엑셀 파일로 저장합니다. index=False를 설정하여 인덱스를 제외하고 저장합니다.

In [12]:
# pandas를 사용해 엑셀로 저장
df.to_excel("jisik_in.xlsx", index=False, engine='openpyxl')