https://namu.wiki/robots.txt

User-agent: *
Disallow: /
Allow: /$
Allow: /ads.txt
Allow: /w/
Allow: /history/
Allow: /backlink/
Allow: /OrphanedPages
Allow: /UncategorizedPages
Allow: /ShortestPages
Allow: /LongestPages
Allow: /RecentChanges
Allow: /RecentDiscuss
Allow: /Search
Allow: /discuss/
Allow: /js/
Allow: /img/
Allow: /css/
Allow: /skins/
Allow: /favicon.ico
Allow: /_nuxt/
Allow: /sidebar.json
Allow: /cdn-cgi/

In [53]:
import requests
from bs4 import BeautifulSoup, NavigableString, Tag
import json
import re
from datetime import datetime
import pandas as pd
import time
from urllib.parse import urljoin

class MemeCrawler:
    def __init__(self):
        self.base_url = "https://namu.wiki"
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        }
        self.session = requests.Session()
        self.session.headers.update(self.headers)

    def get_page_content(self, url):
        """웹 페이지의 콘텐츠를 가져옵니다."""
        try:
            print(f"🌐 페이지 요청 중: {url}")
            response = self.session.get(url)
            response.raise_for_status()
            print(f"✅ 페이지 로딩 성공 (상태 코드: {response.status_code})")
            return BeautifulSoup(response.content, 'html.parser')
        except requests.exceptions.RequestException as e:
            print(f"❌ 페이지 요청 실패: {url}, 오류: {e}")
            return None

    def _process_meme_elements(self, elements):
        """
        한 밈을 구성하는 HTML 요소 리스트를 받아 title과 link 정보를 추출합니다.
        [<a..>류정란</a>, ' 챌린지'] -> ("류정란 챌린지", {"류정란": "http..."})
        """
        if not elements:
            return None, None

        # 1. 모든 텍스트 조각을 합쳐 완전한 title 생성
        title_parts = []
        for el in elements:
            text = el.get_text() if isinstance(el, Tag) else str(el)
            title_parts.append(text)
        full_title = "".join(title_parts).strip()

        # 2. 링크 정보를 딕셔너리로 추출
        related_links = {}
        for el in elements:
            if isinstance(el, Tag) and el.name == 'a':
                href = el.get('href', '')
                if href and not href.startswith('#fn-'):
                    linked_text = el.get_text(strip=True)
                    full_url = urljoin(self.base_url, href)
                    related_links[linked_text] = full_url
        
        return (full_title, related_links) if full_title else (None, None)

    def parse_meme_list(self, content_divs, year_main):
        """주어진 대분류(year_main)에 대해 콘텐츠 div 목록을 파싱합니다."""
        memes = []
        current_sub_year = year_main

        for div in content_divs:
            text_content = div.get_text(strip=True)
            if not text_content:
                continue

            # Case 1: 소분류 연도 헤더 (예: "2015년")
            year_match = re.fullmatch(r'(\d{4}년)', text_content)
            if year_match:
                current_sub_year = year_match.group(1)
                print(f"  ➡️  소분류 연도 업데이트: {current_sub_year}")
                continue

            # Case 2: 월별 밈 데이터 (":" 포함)
            if ':' in text_content:
                month = text_content.split(':', 1)[0].strip()
                
                # 현재 밈을 구성하는 요소들을 임시 저장하는 리스트
                current_meme_elements = []
                
                # 첫 텍스트 요소에서 '월:' 부분 제거
                if div.contents and isinstance(div.contents[0], NavigableString):
                    if ':' in div.contents[0]:
                        cleaned_first_element = str(div.contents[0]).split(':', 1)[1]
                        div.contents[0].replace_with(NavigableString(cleaned_first_element))

                # 쉼표(,)를 기준으로 밈을 나누어 처리
                for element in div.contents:
                    if isinstance(element, NavigableString) and ',' in str(element):
                        parts = str(element).split(',')
                        
                        # 쉼표 앞부분을 현재 밈에 추가하고 하나의 밈으로 완성
                        current_meme_elements.append(NavigableString(parts[0]))
                        title, links = self._process_meme_elements(current_meme_elements)
                        if title:
                            memes.append({
                                'year_main': year_main, 'year_sub': current_sub_year, 'month': month,
                                'title': title, 'related_links': links, 'crawled_at': datetime.now().isoformat()
                            })
                            print(f"  ✅ [밈 추출] {title}")

                        # 쉼표로만 구분된 텍스트 밈들 처리
                        for middle_part in parts[1:-1]:
                            title, links = self._process_meme_elements([NavigableString(middle_part)])
                            if title:
                                memes.append({
                                    'year_main': year_main, 'year_sub': current_sub_year, 'month': month,
                                    'title': title, 'related_links': links, 'crawled_at': datetime.now().isoformat()
                                })
                                print(f"  ✅ [밈 추출] {title}")
                        
                        # 다음 밈을 위해 마지막 조각으로 리스트 초기화
                        current_meme_elements = [NavigableString(parts[-1])]
                    else:
                        # 쉼표가 없는 요소는 현재 밈에 계속 추가
                        current_meme_elements.append(element)
                
                # 마지막으로 남아있는 밈 처리
                if current_meme_elements:
                    title, links = self._process_meme_elements(current_meme_elements)
                    if title:
                        memes.append({
                            'year_main': year_main, 'year_sub': current_sub_year, 'month': month,
                            'title': title, 'related_links': links, 'crawled_at': datetime.now().isoformat()
                        })
                        print(f"  ✅ [밈 추출] {title}")
        return memes

    def crawl_all_memes(self):
        """모든 데이터 컨테이너를 찾아 밈을 크롤링합니다."""
        target_url = "https://namu.wiki/w/밈(인터넷%20용어)"
        soup = self.get_page_content(target_url)
        if not soup:
            return []

        all_memes = []
        
        content_wrappers = soup.select('div.W1ezmmoN')
        print(f"\n🚀 총 {len(content_wrappers)}개의 데이터 컨테이너를 찾았습니다.")

        for wrapper in content_wrappers:
            heading_tag = wrapper.find_previous(['h1', 'h2', 'h3', 'h4', 'h5'])
            
            if heading_tag:
                year_main = heading_tag.get_text(strip=True).split('[')[0]
            else:
                year_main = 'Unknown Section'

            print(f"\n{'='*60}\n🔍 섹션 처리 중: '{year_main}'\n{'='*60}")
            
            content_divs = wrapper.select('div.RhzQ8fAX')
            memes_from_block = self.parse_meme_list(content_divs, year_main)
            all_memes.extend(memes_from_block)
            
            time.sleep(0.1)

        return all_memes

    def save_to_file(self, data, filename_base='memes_final'):
        """데이터를 JSON과 CSV 파일로 저장합니다."""
        if not data:
            print("⚠️ 수집된 데이터가 없어 저장할 수 없습니다.")
            return

        # JSON으로 저장 (딕셔너리를 문자열로 변환하여 저장)
        for item in data:
            if 'related_links' in item and isinstance(item['related_links'], dict):
                item['related_links'] = json.dumps(item['related_links'], ensure_ascii=False)

        json_filename = f"{filename_base}.json"
        with open(json_filename, 'w', encoding='utf-8') as f:
            # 원본 데이터를 다시 로드하여 JSON에 예쁘게 저장
            df = pd.DataFrame(data)
            records = df.to_dict('records')
            json.dump(records, f, ensure_ascii=False, indent=2)
        print(f"\n💾 데이터가 {json_filename} 파일로 저장되었습니다.")

        # CSV로 저장
        csv_filename = f"{filename_base}.csv"
        df = pd.DataFrame(data)
        df.to_csv(csv_filename, index=False, encoding='utf-8-sig')
        print(f"💾 데이터가 {csv_filename} 파일로 저장되었습니다.")

# --- 메인 실행 블록 ---
def main():
    crawler = MemeCrawler()
    
    print("🎭 나무위키 밈 크롤러를 시작합니다...")
    memes_data = crawler.crawl_all_memes()
    
    if memes_data:
        print(f"\n🎉 크롤링 완료! 총 {len(memes_data)}개의 밈을 수집했습니다.")
        
        crawler.save_to_file(memes_data)
        
        print("\n📋 수집된 데이터 샘플 (마지막 5개):")
        df = pd.DataFrame(memes_data)
        print(df.tail().to_string())
    else:
        print("\n❌ 데이터를 수집하지 못했습니다. 웹사이트 구조가 변경되었을 수 있습니다.")

if __name__ == "__main__":
    main()

🎭 나무위키 밈 크롤러를 시작합니다...
🌐 페이지 요청 중: https://namu.wiki/w/밈(인터넷%20용어)
✅ 페이지 로딩 성공 (상태 코드: 200)

🚀 총 56개의 데이터 컨테이너를 찾았습니다.

🔍 섹션 처리 중: '1.개요'

🔍 섹션 처리 중: '2.문화적 특징'

🔍 섹션 처리 중: '3.역사'

🔍 섹션 처리 중: '4.밈의 수명'

🔍 섹션 처리 중: '5.국가별 밈 목록'

🔍 섹션 처리 중: '5.1.대한민국'

🔍 섹션 처리 중: '5.2.해외'

🔍 섹션 처리 중: '5.2.1.일본'

🔍 섹션 처리 중: '6.파생된 밈'

🔍 섹션 처리 중: '6.1.Geometry Dash계열'
  ✅ [밈 추출] Knobbelboy

🔍 섹션 처리 중: '6.2.Grand Theft Auto 시리즈계열'

🔍 섹션 처리 중: '6.3.네모바지 스폰지밥계열'

🔍 섹션 처리 중: '6.4.드래곤볼계열'

🔍 섹션 처리 중: '6.5.릭 앤 모티'

🔍 섹션 처리 중: '6.6.마다가스카의 펭귄계열'

🔍 섹션 처리 중: '6.7.마리오 시리즈계열'

🔍 섹션 처리 중: '6.8.마인크래프트계열'

🔍 섹션 처리 중: '6.9.블루 아카이브계열'

🔍 섹션 처리 중: '6.10.별의 커비 시리즈계열'

🔍 섹션 처리 중: '6.11.소닉 더 헤지혹 시리즈계열'

🔍 섹션 처리 중: '6.12.팩맨 시리즈계열'
  ✅ [밈 추출] 새로운 모험)

🔍 섹션 처리 중: '6.13.슈렉 시리즈계열'

🔍 섹션 처리 중: '6.14.스타워즈계열'
  ✅ [밈 추출] 로그 원: 스타워즈 스토리

🔍 섹션 처리 중: '6.15.심슨 가족계열'

🔍 섹션 처리 중: '6.16.유튜브 리와인드2018'

🔍 섹션 처리 중: '6.17.이니셜 D계열'

🔍 섹션 처리 중: '6.18.포켓몬스터계열'

🔍 섹션 처리 중: '6.19.레인보우 식스 시즈계열'

🔍 섹션 처리 중: '6.20.팀 포트리스 2계열'

🔍 섹션 처리 중: '7.시기별 유행 밈'

🔍

In [63]:
import json
import re
import pandas as pd

def clean_year_prefix(text_string):
    """
    문자열에서 연도 앞의 숫자/점 접두사를 제거하는 함수.
    e.g., "1. 2023" -> "2023"
    
    Args:
        text_string (str): 정리할 원본 문자열.

    Returns:
        str: 접두사가 제거된 문자열.
    """
    if not isinstance(text_string, str):
        return text_string # 문자열이 아니면 그대로 반환

    # 정규표현식으로 '19' 또는 '20'으로 시작하는 첫 4자리 숫자를 찾음
    match = re.search(r'(19|20)\d{2}', text_string)
    
    if match:
        # 연도를 찾았다면, 그 위치부터 문자열을 잘라내어 반환
        return text_string[match.start():]
    else:
        # 연도 패턴을 찾지 못하면 원본 값을 그대로 반환
        return text_string

def remove_brackets(text_string):
    """
    문자열에서 대괄호([])와 그 안의 내용을 모두 제거하는 함수.
    e.g., "좋은 답변[9월~]" -> "좋은 답변"
    
    Args:
        text_string (str): 정리할 원본 문자열.

    Returns:
        str: 대괄호와 내용이 제거된 문자열.
    """
    if not isinstance(text_string, str):
        return text_string # 문자열이 아니면 그대로 반환
    
    # 정규표현식을 사용하여 '[...]' 패턴을 찾아 제거하고, 양쪽 공백도 제거
    return re.sub(r'\[.*?\]', '', text_string).strip()

def clean_json_data(input_filename="memes_final.json", output_filename="memes_cleaned.json"):
    """
    JSON 파일을 읽어 다음 규칙에 따라 데이터를 정제하고 새 파일로 저장합니다.
    1. 'year_main', 'year_sub' 필드의 숫자/점 접두사를 제거합니다.
    2. 모든 텍스트 필드에서 대괄호([])와 그 안의 내용을 제거합니다.
    3. 'year_main'이 "2012년 이전"인 데이터부터 'region': '해외' 필드를, 그 이전 데이터에는 'region': '국내' 필드를 추가합니다.
    """
    try:
        # 1. 원본 JSON 파일 불러오기
        with open(input_filename, 'r', encoding='utf-8') as f:
            data = json.load(f)
        print(f"✅ '{input_filename}' 파일에서 총 {len(data)}개의 데이터를 불러왔습니다.")

    except FileNotFoundError:
        print(f"❌ 오류: '{input_filename}' 파일을 찾을 수 없습니다. 파일명을 확인해주세요.")
        return

    cleaned_data = []
    is_overseas_section = False # 해외 밈 섹션 시작을 추적하는 플래그

    # 2. 데이터 필터링 및 수정
    for item in data:
        updated_item = item.copy()

        # "2012년 이전" 항목을 처음 만나면 플래그를 True로 설정
        if not is_overseas_section and item.get('year_main') == '2012년 이전':
            is_overseas_section = True
        
        # 플래그 상태에 따라 'region' 필드 추가
        if is_overseas_section:
            updated_item['region'] = '해외'
        else:
            updated_item['region'] = '국내'
        
        # 'year_main'과 'year_sub' 필드에 접두사 정제 함수 우선 적용
        if 'year_main' in updated_item:
            updated_item['year_main'] = clean_year_prefix(item.get('year_main'))
        if 'year_sub' in updated_item:
            updated_item['year_sub'] = clean_year_prefix(item.get('year_sub'))
        
        # 모든 필드를 순회하며, 값이 문자열인 경우 대괄호 제거 함수 적용
        for key, value in updated_item.items():
            if isinstance(value, str):
                updated_item[key] = remove_brackets(value)
        
        cleaned_data.append(updated_item)

    # 3. 수정된 데이터를 새로운 JSON 파일로 저장
    with open(output_filename, 'w', encoding='utf-8') as f:
        json.dump(cleaned_data, f, ensure_ascii=False, indent=2)

    print(f"🎉 데이터 정제 완료! 결과가 '{output_filename}' 파일에 저장되었습니다.")
    
    # 4. (선택) 수정된 결과 일부를 DataFrame으로 확인
    if cleaned_data:
        print("\n--- 수정된 데이터 샘플 (국내/해외 경계) ---")
        df = pd.DataFrame(cleaned_data)
        # 'region' 필드가 국내/해외로 나뉘는 지점을 확인하기 위해 경계 데이터 출력
        try:
            # '해외' 리전이 시작되는 첫 인덱스를 찾음
            first_overseas_index = df[df['region'] == '해외'].index[0]
            start_index = max(0, first_overseas_index - 3)
            end_index = min(len(df), first_overseas_index + 3)
            print(df.iloc[start_index:end_index].to_string())
        except IndexError:
            # '해외' 데이터가 없는 경우 (또는 모든 데이터가 '해외'인 경우)
            print(df.head().to_string())


# --- 메인 실행 블록 ---
if __name__ == "__main__":
    # input_filename에 실제 파일명을 입력하여 실행하세요.
    clean_json_data(input_filename="memes_cleaned.json")



✅ 'memes_cleaned.json' 파일에서 총 1327개의 데이터를 불러왔습니다.
🎉 데이터 정제 완료! 결과가 'memes_cleaned.json' 파일에 저장되었습니다.

--- 수정된 데이터 샘플 (국내/해외 경계) ---
    year_main year_sub   month                        title                                                                   related_links                  crawled_at region
596     2025년    2025년      9월                     와 기가 막히노                                                                              {}  2025-09-19T18:44:12.810255     국내
597     2025년    2025년      9월                         케케크롱                                                                              {}  2025-09-19T18:44:12.810255     국내
598     2025년    2025년      9월                          하지마                      {"하지마": "https://namu.wiki/w/%ED%95%98%EC%A7%80%EB%A7%88"}  2025-09-19T18:44:12.810255     국내
599  2012년 이전    1996년   8~12월  Dancing Baby (Baby Cha-Cha)  {"Dancing Baby (Baby Cha-Cha)": "https://knowyourmeme.com/memes/dancing-baby"}  2025-09-19T18:44:13.018884 

In [56]:
API_KEY = "AIzaSyB3z2P1CYI1sEh4AtgbJe-6NDB8lYlJi5M"
SEARCH_ENGINE_ID = "41f14a1f733694566"

In [None]:
import os
import requests
from bs4 import BeautifulSoup
from googleapiclient.discovery import build

def google_web_search(search_term, api_key, cx, num_results=10):
    """
    Google API를 사용하여 웹 검색 결과를 가져옵니다.
    """
    try:
        service = build("customsearch", "v1", developerKey=api_key)
        res = service.cse().list(q=search_term, cx=cx, num=num_results).execute()
        return res.get('items', [])
    except Exception as e:
        print(f"Google 웹 검색 API 오류: {e}")
        return []

def google_image_search(search_term, api_key, cx, num_results=3):
    """
    ✨ Google API를 사용하여 이미지 검색 결과를 가져옵니다.
    """
    try:
        service = build("customsearch", "v1", developerKey=api_key)
        res = service.cse().list(
            q=search_term,
            cx=cx,
            searchType='image', # <-- 이미지 검색을 위한 핵심 옵션
            num=num_results
        ).execute()
        return res.get('items', [])
    except Exception as e:
        print(f"Google 이미지 검색 API 오류: {e}")
        return []


def scrape_page_content(url):
    """
    주어진 URL의 웹 페이지에 접속하여 본문 텍스트를 스크레이핑합니다.
    """
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        
        soup = BeautifulSoup(response.text, 'html.parser')
        
        paragraphs = soup.find_all('p')
        full_text = "\n".join([p.get_text(strip=True) for p in paragraphs])
        
        return full_text if full_text else "본문 내용을 추출할 수 없습니다."

    except requests.exceptions.RequestException as e:
        return f"페이지에 접속할 수 없습니다: {e}"
    except Exception as e:
        return f"내용을 파싱하는 중 오류 발생: {e}"


# --- 메인 스크립트 실행 ---
if __name__ == "__main__":
    meme_title = "시그마 보이"
    search_term = f"{meme_title} 밈"

    print(f"'{search_term}' 키워드로 검색을 시작합니다...")
    
    # 1단계: Google API로 웹 페이지 URL 목록 수집
    web_results = google_web_search(search_term, API_KEY, SEARCH_ENGINE_ID)
    
    # ✨ 2단계: Google API로 이미지 URL 목록 수집
    image_search_term = f"{meme_title} 밈 템플릿" # 템플릿 이미지를 찾기 위해 검색어 보강
    image_results = google_image_search(image_search_term, API_KEY, SEARCH_ENGINE_ID)

    # --- 최종 결과 출력 ---

    # 웹 페이지 결과 출력
    if not web_results:
        print("\n웹 검색 결과가 없습니다.")
    else:
        print("\n" + "="*20 + " 웹 페이지 검색 결과 " + "="*20)
        for i, result in enumerate(web_results):
            print(f"\n--- 웹 결과 #{i+1} ---")
            print(f"  - 제목: {result.get('title', 'N/A')}")
            print(f"  - 링크: {result.get('link', 'N/A')}")
            
            page_url = result.get('link')
            if page_url:
                full_content = scrape_page_content(page_url)
                print(f"  - 전체 내용 (일부): \n{full_content[:200]}...")
    
    # 이미지 결과 출력
    if not image_results:
        print("\n이미지 검색 결과가 없습니다.")
    else:
        print("\n" + "="*20 + " 이미지 검색 결과 " + "="*22)
        # 대표 이미지는 첫 번째 결과로 선정
        print(f"  - 대표 이미지: {image_results[0].get('link', 'N/A')}")
        for i, result in enumerate(image_results):
            print(f"  - 이미지 #{i+1}: {result.get('link', 'N/A')}")
            
    print("\n" + "="*58)
    print("검색 및 스크레이핑 완료.")


'시그마 보이 밈' 키워드로 검색을 시작합니다...


--- 웹 결과 #1 ---
  - 제목: Sigma(밈) - 나무위키
  - 링크: https://namu.wiki/w/Sigma(%EB%B0%88)
  - 전체 내용 (일부): 
이 저작물은CC BY-NC-SA 2.0 KR에 따라 이용할 수 있습니다. (단, 라이선스가 명시된 일부 문서 및 삽화 제외)기여하신 문서의 저작권은 각 기여자에게 있으며, 각 기여자는 기여하신 부분의 저작권을 갖습니다.나무위키는 백과사전이 아니며 검증되지 않았거나, 편향적이거나, 잘못된 서술이 있을 수 있습니다.나무위키는 위키위키입니다. 여러분이 직접 문서...

--- 웹 결과 #2 ---
  - 제목: '시그마 보이'가 누구 또는 뭔데? : r/Thailand
  - 링크: https://www.reddit.com/r/Thailand/comments/1iezrza/who_or_what_is_sigma_boy/?tl=ko
  - 전체 내용 (일부): 
5살부터 12살까지 태국 학생들 모두 몇 달 동안 '시그마 보이'를 계속 언급하는데, 뭔 소린지 전혀 모르겠어. 태국 관련 용어인가? 그리고 검지 손가락으로 손짓도 하던데...
Create your account and connect with a world of communities.
Anyone can view, post, and comment to th...

--- 웹 결과 #3 ---
  - 제목: Sigma Boy - 나무위키
  - 링크: https://namu.wiki/w/Sigma%20Boy
  - 전체 내용 (일부): 
이 저작물은CC BY-NC-SA 2.0 KR에 따라 이용할 수 있습니다. (단, 라이선스가 명시된 일부 문서 및 삽화 제외)기여하신 문서의 저작권은 각 기여자에게 있으며, 각 기여자는 기여하신 부분의 저작권을 갖습니다.나무위키는 백과사전이 아니며 검증되지 않았거나, 편향적이거나, 잘못된 서술이 있을 수 있습니다.나무위키는 위키위키입니다. 여러분이