In [10]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import quote
import pandas as pd
from tqdm import tqdm
import re

# 사용자 에이전트 헤더
user_agent = (
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 "
    "(KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
)
headers = {"User-Agent": user_agent}

# 블로그 URL에서 iframe 제거 및 정리된 URL 반환
def get_cleaned_blog_url(url):
    res = requests.get(url, headers=headers)
    res.raise_for_status()
    soup = BeautifulSoup(res.text, "lxml")
    iframe_src = soup.find("iframe")["src"]
    return f"https://blog.naver.com/{iframe_src}"

# 블로그 글에서 본문 및 작성시간 추출
def extract_blog_content(url):
    res = requests.get(url, headers=headers)
    res.raise_for_status()
    soup = BeautifulSoup(res.text, "lxml")

    content_div = (
        soup.find("div", class_="se-main-container") or soup.find("div", id="postViewArea")
    )
    if content_div:
        content = content_div.get_text(strip=True)
    else:
        content = "네이버 블로그는 맞지만, 확인 불가"

    time_elem = (
        soup.find("span", class_="sub_time sub_txt")
        or soup.find("span", class_="se_publishDate pcol2")
    )
    if time_elem:
        time = time_elem.get_text(strip=True)
    else:
        time = "작성시간 없음"

    return content, time

# 해시태그 추출 함수
def extract_hashtags(text):
    pattern = "#([0-9a-zA-Z가-힣]*)"
    hash_w = re.compile(pattern)
    hashtags = hash_w.findall(text)
    return hashtags

# 네이버 블로그 크롤러 함수
def naver_blog_crawler(query, max_pages=10):
    data_list = []

    for page_num in range(1, max_pages + 1):
        base_url = f"https://search.naver.com/search.naver?where=view&sm=tab_jum&query={quote(query)}&start={page_num * 10}"

        res = requests.get(base_url, headers=headers)
        res.raise_for_status()
        soup = BeautifulSoup(res.text, "lxml")

        posts = soup.find_all("li", class_="bx _svp_item")

        for post in tqdm(posts, desc="진행 중", ncols=100):
            post_title_elem = post.find("a", class_="api_txt_lines")
            if post_title_elem:
                post_title = post_title_elem.get_text()
                post_link = post_title_elem["href"]
                is_blog_post = "blog.naver.com" in post_link

                if is_blog_post:
                    cleaned_url = get_cleaned_blog_url(post_link)
                    content, post_time = extract_blog_content(cleaned_url)
                    hashtags = extract_hashtags(content)
                    if not hashtags:
                        hashtags = [""]
                    data_list.append(
                        {
                            "제목": post_title,
                            "링크": post_link,
                            "본문": content,
                            "작성시간": post_time,
                            "해시태그": hashtags,
                        }
                    )
                else:
                    data_list.append(
                        {
                            "제목": post_title,
                            "링크": post_link,
                            "본문": "카페 및 포스트: 확인 불가",
                            "작성시간": "작성시간 확인 불가",
                            "해시태그": [],
                        }
                    )
            else:
                data_list.append(
                    {
                        "제목": "제목 및 링크를 찾을 수 없음",
                        "링크": "",
                        "본문": "",
                        "작성시간": "작성시간 없음",
                        "해시태그": [],
                    }
                )

    df = pd.DataFrame(data_list)
    return df

if __name__ == "__main__":
    query = input("검색어를 입력하세요: ")
    max_pages = 10  # 최대 페이지 수 설정
    df = naver_blog_crawler(query, max_pages)
    csv_filename = "naverblog_crawling.csv"
    df.to_csv(csv_filename, index=False, encoding="utf-8-sig")
    print("크롤링이 완료되었습니다.")
df

검색어를 입력하세요: 고령화


진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:09<00:00,  3.13it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:10<00:00,  2.95it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:11<00:00,  2.52it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:13<00:00,  2.25it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:13<00:00,  2.18it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:15<00:00,  1.96it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:09<00:00,  3.29it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:11<00:00,  2.67it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:07<00:00,  3.81it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 29/29 [00:06<00:00,  4.82it/s]

크롤링이 완료되었습니다.





Unnamed: 0,제목,링크,본문,작성시간,해시태그
0,덴티움 주가 / 임플란트 관련주 / 고령화 관련주 / 치아 관련주,https://blog.naver.com/kbskba2020/223209198048,"상장종목:덴티움상장시장:코스피당일시황:나스닥+,코스피,코스닥-Blog ID :브릿지...",2023. 9. 12. 12:07,[]
1,고령화 시대의 찐! 수혜주 휴비츠 주가 날아간다?!,https://blog.naver.com/kiwoomhero/223097285732,​이번 리포트에서는 투자자들의 관심이 집중되고 있는#휴비츠의 주가 상승과 신규 사업...,2023. 5. 10. 14:10,"[휴비츠의, 고령화시대에, 시력측정, 안과용진단기를, 덴티스트리에, 치과시술의]"
2,230726 저출산고령화.. 저출산은 어렵겠지만 고령화는 천천히 해결될 듯(주식 투...,https://cafe.naver.com/geobuk2/1764986?art=ZXh...,카페 및 포스트: 확인 불가,작성시간 확인 불가,[]
3,D 램/AI 시장/마이크론 日 반도체 투자/위식도역류 약 시장/車 부품주/현대로템/...,https://blog.naver.com/nuzzon603/223106362797,삼성전자 '12나노급 D 램' 세계 첫 양산삼성전자 '12나노급 D램' 세계 첫 양...,2023. 5. 19. 14:17,[]
4,"저출산과 고령화, 우리나라 경제에 어떤 영향을 미치게 될까요?",https://blog.naver.com/generalstore119/2232019...,우리나라에서 저출산 및 고령화 문제는 국민소득 감소와 국가재정 악화 등 경제에 심각...,2023. 9. 4. 13:10,[]
...,...,...,...,...,...
294,고령화 사회 해법,https://cafe.naver.com/bikecargogo/5796131?art...,카페 및 포스트: 확인 불가,작성시간 확인 불가,[]
295,"“고령화 시대, 의료관광특구 메리트”… 고급 의료 인프라",https://cafe.naver.com/phcht12/41460?art=ZXh0Z...,카페 및 포스트: 확인 불가,작성시간 확인 불가,[]
296,공주치과 고령화 시대에 필요한 치료,https://cafe.naver.com/gunzalab/2846?art=ZXh0Z...,카페 및 포스트: 확인 불가,작성시간 확인 불가,[]
297,신소재와 관련된 저출산이나 고령화 문제,https://cafe.naver.com/suhui/27458485?art=ZXh0...,카페 및 포스트: 확인 불가,작성시간 확인 불가,[]
