 NaverBlogCrawler 클래스의 주요 함수:

1. parse_blog_data(self, data):

    HTML 데이터를 파싱하여 블로그 제목, URL, 설명, 작성 날짜를 추출하는 함수입니다.
    BeautifulSoup를 사용하여 HTML 데이터를 구문 분석하고 원하는 정보를 추출합니다.

2. async_requests(self, url_lst):

    비동기 HTTP 요청을 사용하여 여러 블로그 페이지에서 데이터를 가져오는 함수입니다.
    aiohttp와 asyncio를 활용하여 비동기적으로 데이터를 수집합니다.

3. get_total_blog_count(self, data):

    검색 결과에서 전체 블로그 수를 파싱하는 함수입니다.
    검색 결과 데이터에서 블로그 수를 추출하여 반환합니다.

4. sync_request(self):

    동기적인 HTTP 요청을 사용하여 검색 결과에서 블로그 수를 가져오는 함수입니다.

5. crawl_blogs(self):

    주어진 페이지 범위 내에서 블로그 데이터를 크롤링하는 메인 함수입니다.
    비동기 방식으로 여러 페이지를 크롤링하고 데이터를 저장한 뒤 반환합니다.

In [2]:
# aiohttp 오류 발생 시 설치
!pip3 install aiohttp

In [8]:
import time
import aiohttp
import asyncio
from bs4 import BeautifulSoup
import json
import requests
import pandas as pd
import nest_asyncio

nest_asyncio.apply()

class NaverBlogCrawler:
    def __init__(self, keyword, start_page, end_page, start_date, end_date):
        self.keyword = keyword
        self.start_page = start_page
        self.end_page = end_page
        self.start_date = start_date
        self.end_date = end_date

        self.data = {}  # 크롤링한 데이터를 저장
        
    def parse_blog_data(self, data):
        soup = BeautifulSoup(data.replace("\\", ""), "html.parser")
        title_and_url_elems = soup.find_all("a", {"class": "api_txt_lines"})
        desc_elems = soup.find_all("div", {"class": "api_txt_lines"})
        date_elems = soup.find_all("span", {"class": "sub_time"})

        return [(title_and_url_elems[i].text, title_and_url_elems[i]['href'], desc_elems[i].text, date_elems[i].text)
                for i in range(len(title_and_url_elems))]

    def async_requests(self, url_lst):
        
        async def get_blog_data(_url):
            async with aiohttp.ClientSession() as session:
                async with session.get(_url) as response:
                    text = await response.text()
                    for title, url, desc, date in self.parse_blog_data(text):
                        self.data[url] = {'title': title, 'description': desc, 'date': date}

        loop = asyncio.get_event_loop()
        loop.run_until_complete(
            asyncio.gather(*(get_blog_data(url_lst[i]) for i in range(len(url_lst))))
        )

    def get_total_blog_count(self, data):
        print(data)
        data = data.replace('\\', '')
        start_index = data.find('"total":"') + 9
        end_index = data[start_index:start_index + 50].find('"') + start_index
        count = int(data[start_index:end_index])

        return count

    def sync_request(self):
        url = f'https://s.search.naver.com/p/blog/search.naver?where=blog&sm=tab_pge&api_type=1&query={self.keyword}&rev=44&start={int(self.start_page) * 30}&dup_remove=1&post_blogurl=&post_blogurl_without=&nso=so:dd,p:from{self.end_date}to{self.start_date}&nlu_query={{"r_category":"29+27"}}&dkey=0&source_query=&nx_search_query={self.keyword}&spq=0&_callback=viewMoreContents'
        response = requests.get(url)
        print(response.text)
        count = self.get_total_blog_count(response.text)
        return count

    def crawl_blogs(self):
        urls = [
            f'https://s.search.naver.com/p/blog/search.naver?where=blog&sm=tab_pge&api_type=1&query={self.keyword}&rev=44&start={i * 30}&dup_remove=1&post_blogurl=&post_blogurl_without=&nso=so:dd,p:from{self.end_date}to{self.start_date}&nlu_query={{"r_category":"29+27"}}&dkey=0&source_query=&nx_search_query={self.keyword}&spq=0&_callback=viewMoreContents'
            for i in range(self.start_page, self.end_page)
        ]
        self.async_requests(urls)
        return self.data

if __name__ == '__main__':
    
    naver_crawler = NaverBlogCrawler(keyword='고령화', start_page=1, end_page=130, start_date=20180101, end_date=20230901)
    crawled_data = naver_crawler.crawl_blogs()
    url_list = list(crawled_data.keys())
    df = pd.DataFrame.from_dict(crawled_data, orient='index').reset_index()
    df.columns = ['url', 'title', 'description', 'date']
    df['idx'] = df['url'].apply(lambda x: url_list.index(x)) #데이터 중복 방지
    df.to_csv('naver_blog_data.csv', index=False)

df

Unnamed: 0,url,title,description,date,idx
0,https://blog.naver.com/bsk00602/223199949826,보험설계사 시험일정 및 합격자발표 확인방법,(https://exam.insure.or.kr/upload/upfile/commo...,2023.09.01.,0
1,https://blog.naver.com/highhope_/223199947479,23.09.01 부동산 신문 기사 정리,https://n.news.naver.com/mnews/article/029/000...,2023.09.01.,1
2,https://blog.naver.com/fix9196/223199946422,사회복지사 요양보호사 두개 모두 취득했죠,본격적으로 고령화 시대를 맞이하고 노인들에 대한 사업이나 정책이 확대되다보니 사회복...,2023.09.01.,2
3,https://blog.naver.com/success161212/223199944944,2023년 지역별 출산지원금 출산혜택 총정리,대한민국에서는 출산율 저하와 인구 고령화 문제를 해결하기 위해 출산지원정책의 일환으...,2023.09.01.,3
4,https://blog.naver.com/stardust_74/223199938231,TSMC用 지하수와 '소쿠리 밭'은 공존 가능할까...,"농가 인구의 감소 및 고령화가 진행되어, 영농 조직이 농지를 이어받는 등의 노력을 ...",2023.09.01.,4
...,...,...,...,...,...
3817,https://blog.naver.com/laborlawmaster/22319802...,"""돈이냐, 정년연장이냐""…현대차 노조 '세대갈등'(2023.08.30)","업계 한 관계자는 “생산직의 고령화와 전기차 전환, 국민연금 수급 개시 연령 상향,...",2023.08.30.,3817
3818,https://blog.naver.com/tkdkwk123-/223198025090,정부는 저출산 고령화에 선제적으로 대응하기 위해 고령층...,정부는 저출산 고령화에 선제적으로 대응하기 위해 고령층... 정부는 저출산 고령화에...,2023.08.30.,3818
3819,https://blog.naver.com/highfive6612/223198025391,"수의사 관련 학과 및 자격증, 연봉, 되는 법, 미래 전망까지","있고, 고령화 시대로 접어들면서 난치병 치료를 위한 신약 및 바이오 장기의 수요가 ...",2023.08.30.,3819
3820,https://blog.naver.com/kimhs2769/223198024293,"중국 침체에 직격탄 맞은 독일, '나홀로 역 성장.'",이와 함께 저출산과 고령화로 인한 노동력 부족 역시 독일의 반등을 어렵게 하는 요인...,2023.08.30.,3820
