In [3]:
#최종
import requests
from bs4 import BeautifulSoup
from urllib.parse import quote
import pandas as pd
from tqdm import tqdm 

# 사용자 에이전트 헤더
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
headers = {"User-Agent": user_agent}

# 블로그 URL에서 iframe 제거 및 정리된 URL 반환
def get_cleaned_blog_url(url):
    res = requests.get(url, headers=headers)
    res.raise_for_status()
    soup = BeautifulSoup(res.text, "lxml")
    iframe_src = soup.find("iframe")["src"]
    return f"https://blog.naver.com/{iframe_src}"

# 블로그 글에서 본문 및 작성시간 추출
def extract_blog_content(url):
    res = requests.get(url, headers=headers)
    res.raise_for_status()
    soup = BeautifulSoup(res.text, "lxml")

    content_div = soup.find("div", class_="se-main-container") or soup.find("div", id="postViewArea")
    if content_div:
        content = content_div.get_text(strip=True)
    else:
        content = "네이버 블로그는 맞지만, 확인 불가"

    time_elem = soup.find("span", class_="sub_time sub_txt") or soup.find("span", class_="se_publishDate pcol2")
    if time_elem:
        time = time_elem.get_text(strip=True)
    else:
        time = "작성시간 없음"

    return content, time

# 검색어 입력 받기
query = input("검색어를 입력하세요: ")

data_list = []

# 페이지 번호 범위 설정 (1부터 10까지 크롤링)
for page_num in range(1, 15):  # 수정: 1부터 10까지 페이지 크롤링
    base_url = f"https://search.naver.com/search.naver?where=view&sm=tab_jum&query={quote(query)}&start={page_num * 10}"

    res = requests.get(base_url, headers=headers)
    res.raise_for_status()
    soup = BeautifulSoup(res.text, "lxml")

    posts = soup.find_all("li", class_="bx _svp_item")

    # tqdm 사용하기
    for post in tqdm(posts, desc="진행 중", ncols=100):  # tqdm으로 루프 감싸기
        post_title_elem = post.find("a", class_="api_txt_lines")
        if post_title_elem:
            post_title = post_title_elem.get_text()
            post_link = post_title_elem["href"]
            is_blog_post = "blog.naver.com" in post_link

            if is_blog_post:
                cleaned_url = get_cleaned_blog_url(post_link)
                content, post_time = extract_blog_content(cleaned_url)
                data_list.append({"제목": post_title, "링크": post_link, "본문": content, "작성시간": post_time})
            else:
                data_list.append({"제목": post_title, "링크": post_link, "본문": "카페 및 포스트: 확인 불가", "작성시간": "작성시간 확인 불가"})
        else:
            data_list.append({"제목": "제목 및 링크를 찾을 수 없음", "링크": "", "본문": "", "작성시간": "작성시간 없음"})

df = pd.DataFrame(data_list)
csv_filename = "naverblog_crawling.csv"
df.to_csv(csv_filename, index=False, encoding="utf-8-sig")

print("크롤링이 완료되었습니다.")

검색어를 입력하세요: 노인 혐오


진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:10<00:00,  2.97it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:12<00:00,  2.40it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:14<00:00,  2.10it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:15<00:00,  1.96it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:11<00:00,  2.53it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:10<00:00,  2.85it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:12<00:00,  2.49it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:13<00:00,  2.16it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:14<00:00,  2.04it/s]

크롤링이 완료되었습니다.





In [6]:
df

Unnamed: 0,제목,링크,본문,작성시간
0,노인혐오인가?,https://blog.naver.com/kjh73725/223117780230,"가끔가다 안 좋은 분위기를 풍기는(옷 차림새, 냄새,행동 등) 사람을 보기만 해도 ...",2023. 6. 1. 19:01
1,노인 혐오가 요즘 사회적 문제라네요...,https://cafe.naver.com/lobbymanager/63992?art=...,카페 및 포스트: 확인 불가,작성시간 확인 불가
2,나이들어 백팩을 메는 진짜 이유 -------> 저소득층 노인 혐오글 계속 도배하는...,https://cafe.naver.com/jaegebal/4570449?art=ZX...,카페 및 포스트: 확인 불가,작성시간 확인 불가
3,노인혐오 아님!) 서울시 만70세 이상 면허 자진반납,https://blog.naver.com/jeon_darc/223057596005,서울시는 올해 ‘운전 면허 자진반납 어르신 선불 교통카드 지원사업’을 다음달 3일부...,2023. 3. 28. 9:22
4,한 일본인의 노인 혐오,https://cafe.naver.com/aiaieiei12/267933?art=Z...,카페 및 포스트: 확인 불가,작성시간 확인 불가
...,...,...,...,...
295,노인혐오 안하고싶은데 계속 혐오감이 들어요.,https://cafe.naver.com/aclove/366554?art=ZXh0Z...,카페 및 포스트: 확인 불가,작성시간 확인 불가
296,노인혐오스택 +1,https://cafe.naver.com/pnmath/3293528?art=ZXh0...,카페 및 포스트: 확인 불가,작성시간 확인 불가
297,“동네 노인들 성희롱 때문”…‘노시니어존’ 카페의 속사정 [잇슈 키워드] / KBS...,https://cafe.naver.com/jihosoccer123/2159157?a...,카페 및 포스트: 확인 불가,작성시간 확인 불가
298,노인 혐오가 사회문제화 되고 있습니다. 노인 혐오의 발생원인과 해결방법에 대해서 본...,https://cafe.naver.com/haksagogo/764890?art=ZX...,카페 및 포스트: 확인 불가,작성시간 확인 불가


In [None]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import quote
import pandas as pd

# 사용자 에이전트 헤더
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
headers = {"User-Agent": user_agent}

# 블로그 URL에서 iframe 제거 및 정리된 URL 반환
def get_cleaned_blog_url(url):
    res = requests.get(url, headers=headers)
    res.raise_for_status()
    soup = BeautifulSoup(res.text, "lxml")
    iframe_src = soup.find("iframe")["src"]
    return f"https://blog.naver.com/{iframe_src}"

# 블로그 글에서 본문 및 작성시간 추출
def extract_blog_content(url):
    res = requests.get(url, headers=headers)
    res.raise_for_status()
    soup = BeautifulSoup(res.text, "lxml")

    content_div = soup.find("div", class_="se-main-container") or soup.find("div", id="postViewArea")
    if content_div:
        content = content_div.get_text(strip=True)
    else:
        content = "네이버 블로그는 맞지만, 확인 불가"

    time_elem = soup.find("span", class_="sub_time sub_txt") or soup.find("span", class_="se_publishDate pcol2")
    if time_elem:
        time = time_elem.get_text(strip=True)
    else:
        time = "작성시간 없음"

    return content, time

query = "노인혐오" #쿼리변경
base_url = f"https://search.naver.com/search.naver?where=view&sm=tab_jum&query={quote(query)}"

data_list = []

for page_num in range(1, 10): #스크래핑 페이지 변경 (1-10페이지 까지 순회)
    url = f"{base_url}&start={page_num * 10}"

    res = requests.get(url, headers=headers)
    res.raise_for_status()
    soup = BeautifulSoup(res.text, "lxml")

    posts = soup.find_all("li", class_="bx _svp_item")

    for post in posts:
        post_title_elem = post.find("a", class_="api_txt_lines")
        if post_title_elem:
            post_title = post_title_elem.get_text()
            post_link = post_title_elem["href"]
            is_blog_post = "blog.naver.com" in post_link

            if is_blog_post:
                cleaned_url = get_cleaned_blog_url(post_link)
                content, post_time = extract_blog_content(cleaned_url)
                data_list.append({"제목": post_title, "링크": post_link, "본문": content, "작성시간": post_time})
            else:
                data_list.append({"제목": post_title, "링크": post_link, "본문": "카페 및 포스트: 확인 불가", "작성시간": "작성시간 확인 불가"})
        else:
            data_list.append({"제목": "제목 및 링크를 찾을 수 없음", "링크": "", "본문": "", "작성시간": "작성시간 없음"})

df = pd.DataFrame(data_list)
csv_filename = "naverblog_crawling.csv"
df.to_csv(csv_filename, index=False, encoding="utf-8-sig")

df


In [19]:
# 최최종
import requests
from bs4 import BeautifulSoup
from urllib.parse import quote
import pandas as pd
from tqdm import tqdm
import re

# 사용자 에이전트 헤더
user_agent = (
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 "
    "(KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
)
headers = {"User-Agent": user_agent}

# 블로그 URL에서 iframe 제거 및 정리된 URL 반환
def get_cleaned_blog_url(url):
    res = requests.get(url, headers=headers)
    res.raise_for_status()
    soup = BeautifulSoup(res.text, "lxml")
    iframe_src = soup.find("iframe")["src"]
    return f"https://blog.naver.com/{iframe_src}"

# 블로그 글에서 본문 및 작성시간 추출
def extract_blog_content(url):
    res = requests.get(url, headers=headers)
    res.raise_for_status()
    soup = BeautifulSoup(res.text, "lxml")

    content_div = (
        soup.find("div", class_="se-main-container") or soup.find("div", id="postViewArea")
    )
    if content_div:
        content = content_div.get_text(strip=True)
    else:
        content = "네이버 블로그는 맞지만, 확인 불가"

    time_elem = (
        soup.find("span", class_="sub_time sub_txt")
        or soup.find("span", class_="se_publishDate pcol2")
    )
    if time_elem:
        time = time_elem.get_text(strip=True)
    else:
        time = "작성시간 없음"

    return content, time

# 해시태그 추출 함수
def extract_hashtags(text):
    pattern = "#([0-9a-zA-Z가-힣]*)"
    hash_w = re.compile(pattern)
    hashtags = hash_w.findall(text)
    return hashtags

# 검색어 입력 받기
query = input("검색어를 입력하세요: ")

data_list = []

# 페이지 번호 범위 설정 (1부터 10까지 크롤링)
for page_num in range(1, 4):  # 수정: 1부터 10까지 페이지 크롤링
    base_url = f"https://search.naver.com/search.naver?where=view&sm=tab_jum&query={quote(query)}&start={page_num * 10}"

    res = requests.get(base_url, headers=headers)
    res.raise_for_status()
    soup = BeautifulSoup(res.text, "lxml")

    posts = soup.find_all("li", class_="bx _svp_item")

    # tqdm 사용하기
    for post in tqdm(posts, desc="진행 중", ncols=100):  # tqdm으로 루프 감싸기
        post_title_elem = post.find("a", class_="api_txt_lines")
        if post_title_elem:
            post_title = post_title_elem.get_text()
            post_link = post_title_elem["href"]
            is_blog_post = "blog.naver.com" in post_link

            if is_blog_post:
                cleaned_url = get_cleaned_blog_url(post_link)
                content, post_time = extract_blog_content(cleaned_url)
                hashtags = extract_hashtags(content)  # 해시태그 추출
                if not hashtags:
                    hashtags = [""]  # 해시태그가 없는 경우 공백으로 표시
                data_list.append(
                    {
                        "제목": post_title,
                        "링크": post_link,
                        "본문": content,
                        "작성시간": post_time,
                        "해시태그": hashtags,
                    }
                )
            else:
                data_list.append(
                    {
                        "제목": post_title,
                        "링크": post_link,
                        "본문": "카페 및 포스트: 확인 불가",
                        "작성시간": "작성시간 확인 불가",
                        "해시태그": [],
                    }
                )
        else:
            data_list.append(
                {
                    "제목": "제목 및 링크를 찾을 수 없음",
                    "링크": "",
                    "본문": "",
                    "작성시간": "작성시간 없음",
                    "해시태그": [],
                }
            )

df = pd.DataFrame(data_list)
csv_filename = "naverblog_crawling.csv"
df.to_csv(csv_filename, index=False, encoding="utf-8-sig")

print("크롤링이 완료되었습니다.")


검색어를 입력하세요: 노인 혐오


진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:08<00:00,  3.57it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:11<00:00,  2.72it/s]
진행 중: 100%|██████████████████████████████████████████████████████| 30/30 [00:13<00:00,  2.21it/s]

크롤링이 완료되었습니다.





In [20]:
df

Unnamed: 0,제목,링크,본문,작성시간,해시태그
0,노인혐오인가?,https://blog.naver.com/kjh73725/223117780230,"가끔가다 안 좋은 분위기를 풍기는(옷 차림새, 냄새,행동 등) 사람을 보기만 해도 ...",2023. 6. 1. 19:01,[]
1,노인 혐오가 요즘 사회적 문제라네요...,https://cafe.naver.com/lobbymanager/63992?art=...,카페 및 포스트: 확인 불가,작성시간 확인 불가,[]
2,나이들어 백팩을 메는 진짜 이유 -------> 저소득층 노인 혐오글 계속 도배하는...,https://cafe.naver.com/jaegebal/4570449?art=ZX...,카페 및 포스트: 확인 불가,작성시간 확인 불가,[]
3,노인혐오 아님!) 서울시 만70세 이상 면허 자진반납,https://blog.naver.com/jeon_darc/223057596005,서울시는 올해 ‘운전 면허 자진반납 어르신 선불 교통카드 지원사업’을 다음달 3일부...,2023. 3. 28. 9:22,[]
4,한 일본인의 노인 혐오,https://cafe.naver.com/aiaieiei12/267933?art=Z...,카페 및 포스트: 확인 불가,작성시간 확인 불가,[]
...,...,...,...,...,...
85,기독교 노인 보수혐오중,https://blog.naver.com/horihoa74/222073351296,이번 광화문집회를 빌미삼아기독교 혐오노인혐오보수혐오 를 갖게 하는데 성공했다네요.....,2020. 8. 28. 10:57,[]
86,[2020 문학주간] 작가들과 이야기하는 혐오시대의 흑백논리,https://blog.naver.com/jump_arko/222170231205,"2020 문학주간""문학은 더 가깝게""<혐오시대의 흑백논리>글/사진 아르코크리에이터 ...",2020. 12. 13. 9:00,[]
87,(미래) 한국에도 찾아올 노인 혐오 시대...,https://blog.naver.com/toptopjy/222945080798,​https://n.news.naver.com/article/023/00037320...,2022. 12. 3. 20:33,[]
88,"지금,또 혐오하셨네요 #11",https://blog.naver.com/hsh2002aza/222243033839,목차부터 천천히 꼭꼭 씹어서 봐야합니다.(폰카 렌즈가 깨져서 상태가 안 좋아요ㅜㅜ)...,2021. 2. 14. 15:48,"[지금또혐오하셨네요, 혐오주의, 청소년혐오반대, 20대혐오반대, 주부혐오반대, 노인..."
