In [47]:
base_url = "https://www.museum.go.kr/MUSEUM/contents/M0504000000.do"
query_string = "?startCount=<number>&searchId=treasure&schM=list"

tag_samples = """
<li class="card">
    <a href="?schM=view&relicId=348" class="img-box">
        <img src="/relic_image//PS01001001/bon001/2016/1124093013018/700/bon001958-000-0001.jpg" alt="감산사 석조미륵보살입상 대표이미지" onerror="this.src='/ux/content/museum/images/onerror.png';">
    </a>
    <div class="txt">
        <a href="?schM=view&relicId=348">
            감산사 석조미륵보살입상</a>
        <!-- <span class="label-type purple-2">국보</span>
        <span class="label-type black">추천</span> -->
    </div>
</li>

<li class="card">
    <a href="?schM=view&relicId=349" class="img-box">
        <img src="/relic_image//PS01001001/bon001/2017/0508160735009/700/bon001959-00-01.jpg" alt="감산사 석조아미타불입상 대표이미지" onerror="this.src='/ux/content/museum/images/onerror.png';">
    </a>
    <div class="txt">
        <a href="?schM=view&relicId=349">
            감산사 석조아미타불입상</a>
        <!-- <span class="label-type purple-2">국보</span>
        <span class="label-type black">추천</span> -->
    </div>
</li>
""".strip()

prompt = f"""
beautifulsoup 파서를 통해 웹 사이트 링크 정보를 수집하려고 합니다. 
```
[base_url]: {base_url}
```
[query_string]: {query_string} 
```
[tag_samples]: 
{tag_samples} 
```

<information>
1. [base_url]을 기준으로 총 37패이지로 구성되어 있습니다.
2. 한 페이지에는 총 12개의 전시물 정보가 있으므로 쿼리 파라미터는 startCount=0, startCount=12, startCount=24...방식으로 증가합니다.
3. [tag_samples]는 각 페이지별로 card 형태로 전시물 정보가 들어 있는 구조를 보여주는 예시입니다.
</information>

<instructions>
1. 37번 순회하면서 beautifulsoup 파서를 통해 쿼리 스트링을 반환하는 파이썬 함수를 작성합니다.
2. 쿼리 스트링의 예시는 "?schM=view&relicId=348"입니다.
3. 함수의 반환값은 다음과 같은 리스트 구조입니다.
    [{{"page": <페이지 번호>, "link": <쿼리 스트링>}}, ...] 
4. 서버 부하 방지를 위해 한 번 순회시마다 1초의 휴지를 둡니다.
</instructions>

<response_format>
    ```python
        ...여기에 코드 작성...
    ```
    </python>
</response_format>
""".strip()

print(prompt)

beautifulsoup 파서를 통해 웹 사이트 링크 정보를 수집하려고 합니다. 
```
[base_url]: https://www.museum.go.kr/MUSEUM/contents/M0504000000.do
```
[query_string]: ?startCount=<number>&searchId=treasure&schM=list 
```
[tag_samples]: 
<li class="card">
    <a href="?schM=view&relicId=348" class="img-box">
        <img src="/relic_image//PS01001001/bon001/2016/1124093013018/700/bon001958-000-0001.jpg" alt="감산사 석조미륵보살입상 대표이미지" onerror="this.src='/ux/content/museum/images/onerror.png';">
    </a>
    <div class="txt">
        <a href="?schM=view&relicId=348">
            감산사 석조미륵보살입상</a>
        <!-- <span class="label-type purple-2">국보</span>
        <span class="label-type black">추천</span> -->
    </div>
</li>

<li class="card">
    <a href="?schM=view&relicId=349" class="img-box">
        <img src="/relic_image//PS01001001/bon001/2017/0508160735009/700/bon001959-00-01.jpg" alt="감산사 석조아미타불입상 대표이미지" onerror="this.src='/ux/content/museum/images/onerror.png';">
    </a>
    <div class="txt">
        <a href="?schM=v

In [50]:
import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-3-7-sonnet-20250219",
    max_tokens=1024,
    temperature=0,
    messages=[
        {"role": "user", "content": prompt},
        {"role": "assistant", "content": "<python>"},
    ], 
    stop_sequences=["</python>"],
)

print(response.content[0].text.replace("```python", "").replace("```", "").strip())

import requests
from bs4 import BeautifulSoup
import time

def collect_relic_links():
    """
    국립중앙박물관 웹사이트에서 문화재 링크 정보를 수집하는 함수
    
    Returns:
        list: 페이지 번호와 문화재 링크 정보를 담은 딕셔너리 리스트
    """
    base_url = "https://www.museum.go.kr/MUSEUM/contents/M0504000000.do"
    results = []
    
    # 37페이지 순회 (startCount는 0부터 시작하여 12씩 증가)
    for page in range(37):
        start_count = page * 12
        page_url = f"{base_url}?startCount={start_count}&searchId=treasure&schM=list"
        
        try:
            # 웹 페이지 요청
            response = requests.get(page_url)
            response.raise_for_status()  # 오류 발생 시 예외 발생
            
            # BeautifulSoup으로 HTML 파싱
            soup = BeautifulSoup(response.text, 'html.parser')
            
            # 카드 리스트 찾기
            cards = soup.find_all('li', class_='card')
            
            # 각 카드에서 링크 추출
            for card in cards:
                links = card.find_all('a')
                if links:
                  

In [49]:
# Remove the triple backticks and 'python' from the response
print(response.content[0].text.replace("```python", "").replace("```", "").strip())


import requests
from bs4 import BeautifulSoup
import time

def collect_relic_links():
    """
    국립중앙박물관 웹사이트에서 문화재 링크 정보를 수집하는 함수
    
    Returns:
        list: 페이지 번호와 문화재 링크 정보를 담은 딕셔너리 리스트
    """
    base_url = "https://www.museum.go.kr/MUSEUM/contents/M0504000000.do"
    results = []
    
    # 37페이지 순회 (startCount는 0부터 시작하여 12씩 증가)
    for page in range(37):
        start_count = page * 12
        page_url = f"{base_url}?startCount={start_count}&searchId=treasure&schM=list"
        
        try:
            # 웹페이지 요청
            response = requests.get(page_url)
            response.raise_for_status()  # 오류 발생 시 예외 발생
            
            # BeautifulSoup으로 HTML 파싱
            soup = BeautifulSoup(response.text, 'html.parser')
            
            # 카드 리스트 찾기
            cards = soup.find_all('li', class_='card')
            
            # 각 카드에서 링크 추출
            for card in cards:
                links = card.find_all('a')
                if links:
                   

In [1]:
import requests
from bs4 import BeautifulSoup
import time

def collect_relic_links():
    """
    국립중앙박물관 웹사이트에서 문화재 링크 정보를 수집하는 함수
    
    Returns:
        list: 페이지 번호와 문화재 링크 정보를 담은 딕셔너리 리스트
    """
    base_url = "https://www.museum.go.kr/MUSEUM/contents/M0504000000.do"
    results = []
    
    # 37페이지 순회 (startCount는 0부터 시작하여 12씩 증가)
    for page in range(37):
        start_count = page * 12
        page_url = f"{base_url}?startCount={start_count}&searchId=treasure&schM=list"
        
        try:
            # 웹페이지 요청
            response = requests.get(page_url)
            response.raise_for_status()  # 오류 발생 시 예외 발생
            
            # BeautifulSoup으로 HTML 파싱
            soup = BeautifulSoup(response.text, 'html.parser')
            
            # 카드 리스트 찾기
            cards = soup.select('li.card')
            
            # 각 카드에서 링크 추출
            for card in cards:
                link_tag = card.select_one('div.txt a')
                if link_tag and 'href' in link_tag.attrs:
                    query_string = link_tag['href']
                    results.append({
                        "page": page + 1,  # 페이지 번호는 1부터 시작
                        "link": query_string
                    })
            
            print(f"페이지 {page + 1}/37 처리 완료: {len(cards)}개 항목 발견")
            
            # 서버 부하 방지를 위한 1초 대기
            #time.sleep(1)
            
        except Exception as e:
            print(f"페이지 {page + 1} 처리 중 오류 발생: {e}")
    
    return results

# 함수 사용 예시
if __name__ == "__main__":
    links = collect_relic_links()
    print(f"총 {len(links)}개의 링크를 수집했습니다.")
    print("첫 5개 링크 샘플:")
    for i in range(min(5, len(links))):
        print(links[i])

페이지 1/37 처리 완료: 12개 항목 발견
페이지 2/37 처리 완료: 12개 항목 발견
페이지 3/37 처리 완료: 12개 항목 발견
페이지 4/37 처리 완료: 12개 항목 발견
페이지 5/37 처리 완료: 12개 항목 발견
페이지 6/37 처리 완료: 12개 항목 발견
페이지 7/37 처리 완료: 12개 항목 발견
페이지 8/37 처리 완료: 12개 항목 발견
페이지 9/37 처리 완료: 12개 항목 발견
페이지 10/37 처리 완료: 12개 항목 발견
페이지 11/37 처리 완료: 12개 항목 발견
페이지 12/37 처리 완료: 12개 항목 발견
페이지 13/37 처리 완료: 12개 항목 발견
페이지 14/37 처리 완료: 12개 항목 발견
페이지 15/37 처리 완료: 12개 항목 발견
페이지 16/37 처리 완료: 12개 항목 발견
페이지 17/37 처리 완료: 12개 항목 발견
페이지 18/37 처리 완료: 12개 항목 발견
페이지 19/37 처리 완료: 12개 항목 발견
페이지 20/37 처리 완료: 12개 항목 발견
페이지 21/37 처리 완료: 12개 항목 발견
페이지 22/37 처리 완료: 12개 항목 발견
페이지 23/37 처리 완료: 12개 항목 발견
페이지 24/37 처리 완료: 12개 항목 발견
페이지 25/37 처리 완료: 12개 항목 발견
페이지 26/37 처리 완료: 12개 항목 발견
페이지 27/37 처리 완료: 12개 항목 발견
페이지 28/37 처리 완료: 12개 항목 발견
페이지 29/37 처리 완료: 12개 항목 발견
페이지 30/37 처리 완료: 12개 항목 발견
페이지 31/37 처리 완료: 12개 항목 발견
페이지 32/37 처리 완료: 12개 항목 발견
페이지 33/37 처리 완료: 12개 항목 발견
페이지 34/37 처리 완료: 12개 항목 발견
페이지 35/37 처리 완료: 12개 항목 발견
페이지 36/37 처리 완료: 12개 항목 발견
페이지 37/37 처리 완료: 1개 항목 발견
총 433개의 링크를

In [2]:
import json
with open('relic_links.json', 'w', encoding='utf-8') as f:
    json.dump(links, f, ensure_ascii=False, indent=4)

In [78]:
base_url = "https://www.museum.go.kr/MUSEUM/contents/M0504000000.do"


image_file_sample = """
<a href="javascript:;" class="swiper-slide" style="background:url('/relic_image//PS01001001/bon001/2016/1124093013018/700/bon001958-000-0001.jpg') no-repeat center; background-size:cover">감산사 석조미륵보살입상 이미지 1 보기</a>
<a href="javascript:;" class="swiper-slide" style="background:url('/relic_image//PS01001001/bon001/2017/0508160735009/700/bon001958-00-01.jpg') no-repeat center; background-size:cover">감산사 석조미륵보살입상 이미지 2 보기</a>
...중략...
"""

label_sample = """
<div class="outview-tit-box">
    <div class="label-list">
        <span class="label-type purple-2">중요</span>
    </div>
    <div class="outview">
        <strong class="outveiw-tit">감산사 석조미륵보살입상</strong>
        <ul class="outview-list">
            <li><strong>다른명칭</strong>
                <p>국보 경주 감산사 석조 미륵보살 입상(1962), 慶州 甘山寺 石造彌勒菩薩立像</p>
            </li>
            <li>
                <strong>전시명칭</strong>
                <p>감산사미륵보살과 아미타불</p>
            </li>
            <li><strong>국적/시대</strong>
                <p>한국 - 통일신라</p>
            </li>
            <li><strong>출토지</strong>
                <p>출토지 - 경상북도</p>
            </li>
            <li><strong>재질</strong>
                <p>돌 - 화강암</p>
            </li>
            <li><strong>분류</strong>
                <p>종교신앙 - 불교 - 예배 - 불상</p>
            </li>
            <li><strong>크기</strong>
                <p>높이 270.0cm</p>
            </li>
            <li><strong>지정문화유산</strong>
                <p>국보 </p>
            </li>
            <li><strong>소장품번호</strong>
                <p>본관 1958 </p>
            </li>
            <li><strong>전시위치</strong>
                <p>불교조각</p>
            </li>
        </ul>
    </div>
</div>
"""

content_sample = """
<div class="view-info-cont view-info-cont2">
    <p>신체와 광배는 하나의 돌로 제작하고, 별도로 제작한 대좌에 결합시켰다. 이러한 형식은 감산사 절터에서 함께 수습된 &lt;아미타불&gt;과 같다. 머리에는 높은 보관을 썼는데 중앙에
        화불(化佛)이 있다. 얼굴은 갸름하나 살이 올라 있고 눈과 입에 미소가 어려 있다. 목에는 삼도가 뚜렷하며 목걸이, 팔찌, 영락 장식 등으로 신체를 화려하게 장식하고 있다. 오른손은
        자연스럽게 내려뜨리고 있고, 왼손은 들어 올려 손바닥을 보이고 있다. 팔목에는 천의가 걸쳐져 있는데, 법의(法衣)는 얇아서 신체의 풍만하고 유려한 곡선을 더욱 살려주고 있다. 광배는
        배모양에 신체를 모두 감싸는 주형거신광(舟形擧身光)으로, 세 가닥의 선으로 두광과 신광을 구분하였다. 광배 뒷면에는 명문이 새겨져 있는데, 이를 통해 719년 김지성(金志誠)이 돌아가신
        어머니를 위해 조성한 미륵보살상임을 알 수 있다. 표현이 사실적이고 관능적인 모습을 한 통일신라 8세기 불상의 대표적인 사례이다.</p>
    <div class="btn-list mt10"></div>
    <div class='codeView01 codeCopyright line'>
        <img src='https://www.kogl.or.kr/open/web/images/images_2014/codetype/new_img_opentype01.png'
            alt='공공저작물 자유이용허락 출처표시' />
        <div class="txt">
            국립중앙박물관이(가) 창작한 감산사 석조미륵보살입상 저작물은 공공누리&nbsp;<a href='https://www.kogl.or.kr/info/licenseType1.do'
                target='_blank' title='새 창으로 열기'>공공저작물 자유이용허락 출처표시</a>&nbsp;조건에 따라 이용할 수 있습니다.
        </div>
    </div>
</div>
"""	

relic_index_sample =  """
{
    "348": {
        "url": "https://www.museum.go.kr/MUSEUM/contents/M0504000000.do?schM=view&searchId=treasure&relicId=348",
        "img": "/relic_image/PS01001001/bon001/2016/1124093013018/bon001958-000-0001.jpg",
        "label": {
            "명칭": "감산사 석조미륵보살입상",
            "다른명칭": "국보 경주 감산사 석조 미륵보살 입상(1962), 慶州 甘山寺 石造彌勒菩薩立像",
            "전시명칭": "감산사미륵보살과 아미타불",
            "국적/시대": "한국 - 통일신라",
            "출토지": "출토지 - 경상북도",
            "재질": "돌 - 화강암",
            "분류": "종교신앙 - 불교 - 예배 - 불상",
            "크기": "높이 270.0cm",
            "지정문화유산": "국보",
            "소장품번호": "본관 1958",
            "전시위치": "불교조각"
        },
        "content": "신체와 광배는 하나의 돌로 제작하고, 별도로 제작한 대좌에 결합시켰다. 이러한 형식은 감산사 절터에서 함께 수습된 <아미타불>과 같다. 머리에는 높은 보관을 썼는데 중앙에 화불(化佛)이 있다. 얼굴은 갸름하나 살이 올라 있고 눈과 입에 미소가 어려 있다. 목에는 삼도가 뚜렷하며 목걸이, 팔찌, 영락 장식 등으로 신체를 화려하게 장식하고 있다. 오른손은 자연스럽게 내려뜨리고 있고, 왼손은 들어 올려 손바닥을 보이고 있다. 팔목에는 천의가 걸쳐져 있는데, 법의(法衣)는 얇아서 신체의 풍만하고 유려한 곡선을 더욱 살려주고 있다. 광배는 배모양에 신체를 모두 감싸는 주형거신광(舟形擧身光)으로, 세 가닥의 선으로 두광과 신광을 구분하였다. 광배 뒷면에는 명문이 새겨져 있는데, 이를 통해 719년 김지성(金志誠)이 돌아가신 어머니를 위해 조성한 미륵보살상임을 알 수 있다. 표현이 사실적이고 관능적인 모습을 한 통일신라 8세기 불상의 대표적인 사례이다.",
        "copyright_img": "https://www.kogl.or.kr/open/web/images/images_2014/codetype/new_img_opentype01.png"
    },
    "349": {
        ...
    },
    ...
}
"""

prompt = f"""
스크래핑을 통해 json 포맷의 데이터베이스를 만들려고 합니다.
[base_url]: {base_url}
```
[html_image_file_sample]:
{image_file_sample}
[html_label_sample]:
{label_sample}
[html_content_sample]:
{content_sample}
```
[relic_index_sample]
{relic_index_sample}
```
<INSTRUCTIONS>
다음 지침에 의거하여 전시물 데이터베이스를 구축하는 파이썬 프로그램을 작성합니다.
<JSON 정보 추출 함수 작성>
1. relic_links.json 파일을 읽습니다. 다음은 샘플입니다. 
    [
        {{"page": 1, "link": "?schM=view&relicId=348"}},
        {{"page": 1, "link": "?schM=view&relicId=349"}},
        ...
    ]
2. [base_url]에 link(쿼리 스트링)을 결합해서 URL을 만듭니다.
3. url에 접근하여 HTML을 수신받은 후 Beautifulsoup 파서를 통해  [relic_data_sample] 형식의 데이터를 만듭니다. 
    - 이때 Key는 relicId로 합니다.
    - [relic_index_sample] 데이터 구성은 [html_xxx_sample] 정보를 참조하되, 이미지 파일은 첫번째 <a> 태그의 정보를 가져옵니다. 
4. 결과는 relic_index_json 변수에 담습니다.
5. 서버 부하 방지를 위해 한 번 순회시마다 1초의 휴지를 둡니다.
</JSON 정보 추출 함수 작성 지침>       

<공공누리 유형 점검 함수 작성>
relic_index_json['copyright_img'] != https://www.kogl.or.kr/open/web/images/images_2014/codetype/new_img_opentype01.png인 전시물은 삭제하고 결과를 출력합니다.
</공공누리 유형 점검 함수 작성>

<데이터베이스 구축 함수 작성>
1. database라는 이름의 폴더를 만듭니다. 존재하면 삭제하고 다시 만듭니다.
2. database 폴더에 <JSON 정보 추출 함수 작성 지침/>에서 만든 relic_index_json을 relic_index.json이라는 파일로 만듭니다.
3. database 폴더 밑에 relciId를 이름으로하여 하위 폴더를 만듭니다.
4. 하위 폴더에 다음 정보를 작성합니다.
    1) relic_index_json 중 relicId에 해당하는 정보로 relic_data.json 파일을 만듭니다.
    2) 전시물 이미지 파일을 다운로드합니다.
</데이터베이스 구축 함수 작성>
</INSTRUCTIONS>    

<RESPONSE_FORMAT>
    ```python
        ...여기에 코드 작성...
    ```
    </python>
</RESPONSE_FORMAT>
"""

In [79]:
print(prompt)


스크래핑을 통해 json 포맷의 데이터베이스를 만들려고 합니다.
[base_url]: https://www.museum.go.kr/MUSEUM/contents/M0504000000.do
```
[html_image_file_sample]:

<a href="javascript:;" class="swiper-slide" style="background:url('/relic_image//PS01001001/bon001/2016/1124093013018/700/bon001958-000-0001.jpg') no-repeat center; background-size:cover">감산사 석조미륵보살입상 이미지 1 보기</a>
<a href="javascript:;" class="swiper-slide" style="background:url('/relic_image//PS01001001/bon001/2017/0508160735009/700/bon001958-00-01.jpg') no-repeat center; background-size:cover">감산사 석조미륵보살입상 이미지 2 보기</a>
...중략...

[html_label_sample]:

<div class="outview-tit-box">
    <div class="label-list">
        <span class="label-type purple-2">중요</span>
    </div>
    <div class="outview">
        <strong class="outveiw-tit">감산사 석조미륵보살입상</strong>
        <ul class="outview-list">
            <li><strong>다른명칭</strong>
                <p>국보 경주 감산사 석조 미륵보살 입상(1962), 慶州 甘山寺 石造彌勒菩薩立像</p>
            </li>
            <li>
                <strong>전시명

In [80]:
import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-3-7-sonnet-20250219",
    max_tokens=3072,
    temperature=0,
    messages=[
        {"role": "user", "content": prompt},
        {"role": "assistant", "content": "<python>"},
    ], 
    stop_sequences=["</python>"],
)

print(response.content[0].text.replace("```python", "").replace("```", "").strip())

import os
import json
import time
import shutil
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

def extract_relic_data():
    """
    relic_links.json 파일을 읽어 각 전시물의 정보를 추출하여 JSON 형태로 반환하는 함수
    """
    base_url = "https://www.museum.go.kr/MUSEUM/contents/M0504000000.do"
    relic_index_json = {}
    
    # relic_links.json 파일 읽기
    try:
        with open('relic_links.json', 'r', encoding='utf-8') as f:
            relic_links = json.load(f)
    except FileNotFoundError:
        print("relic_links.json 파일을 찾을 수 없습니다.")
        return {}
    
    # 각 링크에 접근하여 데이터 추출
    for item in relic_links:
        link = item['link']
        # relicId 추출
        relic_id = link.split('relicId=')[1]
        
        # URL 생성
        url = urljoin(base_url, link)
        
        try:
            # 웹 페이지 요청
            response = requests.get(url)
            response.raise_for_status()  # 오류 발생 시 예외 발생
            
            # BeautifulSoup으로 HTML 파싱
            so

In [3]:
import os
import json
import time
import shutil
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

def extract_relic_data():
    """
    relic_links.json 파일을 읽어 각 전시물의 정보를 추출하여 JSON 형태로 반환하는 함수
    """
    base_url = "https://www.museum.go.kr/MUSEUM/contents/M0504000000.do"
    relic_index_json = {}
    
    # relic_links.json 파일 읽기
    try:
        with open('relic_links.json', 'r', encoding='utf-8') as f:
            relic_links = json.load(f)
    except FileNotFoundError:
        print("relic_links.json 파일을 찾을 수 없습니다.")
        return {}
    
    # 각 링크에 접근하여 데이터 추출
    for idx, item in enumerate(relic_links):
        if idx > 1000:
            break
        link = item['link']
        # relicId 추출
        relic_id = link.split('relicId=')[1]
        
        # URL 생성
        url = urljoin(base_url, link)
        
        try:
            # 웹 페이지 요청
            response = requests.get(url)
            response.raise_for_status()  # 오류 발생 시 예외 발생
            
            # BeautifulSoup으로 HTML 파싱
            soup = BeautifulSoup(response.text, 'html.parser')
            
            # 이미지 URL 추출 (첫 번째 이미지)
            image_tag = soup.select_one('a.swiper-slide')
            if image_tag:
                bg_url = image_tag['style']
                img_url = bg_url.split("url('")[1].split("')")[0]
            else:
                img_url = ""
            
            # 라벨 정보 추출
            label_data = {}
            outview_tit = soup.select_one('.outveiw-tit')
            if outview_tit:
                label_data["명칭"] = outview_tit.text.strip()
            
            outview_list = soup.select('.outview-list li')
            for li in outview_list:
                key = li.select_one('strong').text.strip()
                value = li.select_one('p').text.strip()
                label_data[key] = value
            
            # 내용 추출
            content = soup.select_one('.view-info-cont p')
            content_text = content.text.strip() if content else ""
            
            # 저작권 이미지 URL 추출
            copyright_img = soup.select_one('.codeView01 img')
            copyright_img_url = copyright_img['src'] if copyright_img else ""
            
            # 데이터 구성
            relic_index_json[relic_id] = {
                "url": url,
                "img": img_url,
                "label": label_data,
                "content": content_text,
                "copyright_img": copyright_img_url
            }
            
            print(f"Extracted data for relic ID: {relic_id}")
            
            # 서버 부하 방지를 위한 대기
            #time.sleep(1)
            
        except Exception as e:
            print(f"Error extracting data for {url}: {e}")
    
    return relic_index_json

def check_copyright(relic_index_json):
    """
    공공누리 유형 1 (출처표시)가 아닌 전시물을 필터링하는 함수
    """
    kogl_type1_url = "https://www.kogl.or.kr/open/web/images/images_2014/codetype/new_img_opentype01.png"
    filtered_data = {}
    
    for relic_id, data in relic_index_json.items():
        if data.get("copyright_img") == kogl_type1_url:
            filtered_data[relic_id] = data
    
    removed_count = len(relic_index_json) - len(filtered_data)
    print(f"Removed {removed_count} items that don't have KOGL Type 1 license")
    
    return filtered_data

def build_database(relic_index_json):
    """
    데이터베이스 폴더 구조를 생성하고 데이터를 저장하는 함수
    """
    # database 폴더 생성 (이미 존재하면 삭제 후 재생성)
    if os.path.exists('database'):
        shutil.rmtree('database')
    os.makedirs('database')
    
    # relic_index.json 파일 생성
    with open('database/relic_index.json', 'w', encoding='utf-8') as f:
        json.dump(relic_index_json, f, ensure_ascii=False, indent=4)
    
    # 각 전시물별 폴더 생성 및 데이터 저장
    for relic_id, data in relic_index_json.items():
        # 전시물 폴더 생성
        relic_dir = os.path.join('database', relic_id)
        os.makedirs(relic_dir, exist_ok=True)
        
        # relic_data.json 파일 생성
        with open(os.path.join(relic_dir, 'relic_data.json'), 'w', encoding='utf-8') as f:
            json.dump(data, f, ensure_ascii=False, indent=4)
        
        # 이미지 다운로드
        img_url = data.get('img', '')
        if img_url:
            # 상대 경로를 절대 경로로 변환
            if img_url.startswith('/'):
                img_url = 'https://www.museum.go.kr' + img_url
            
            try:
                img_response = requests.get(img_url, stream=True)
                img_response.raise_for_status()
                
                # 이미지 파일명 추출
                img_filename = os.path.basename(img_url)
                img_path = os.path.join(relic_dir, img_filename)
                
                # 이미지 저장
                with open(img_path, 'wb') as img_file:
                    for chunk in img_response.iter_content(chunk_size=8192):
                        img_file.write(chunk)
                
                print(f"Downloaded image for relic ID: {relic_id}")
                
            except Exception as e:
                print(f"Error downloading image for relic ID {relic_id}: {e}")
        
        # 서버 부하 방지를 위한 대기
        time.sleep(0.5)
    
    print(f"Database built successfully with {len(relic_index_json)} items")

def main():
    # 전시물 데이터 추출
    print("Extracting relic data...")
    relic_index_json = extract_relic_data()
    
    # 공공누리 유형 점검
    print("Checking copyright...")
    filtered_data = check_copyright(relic_index_json)
    
    # 데이터베이스 구축
    print("Building database...")
    build_database(filtered_data)
    
    print("Process completed!")

if __name__ == "__main__":
    main()

Extracting relic data...
Extracted data for relic ID: 348
Extracted data for relic ID: 349
Extracted data for relic ID: 350
Extracted data for relic ID: 355
Extracted data for relic ID: 358
Extracted data for relic ID: 372
Extracted data for relic ID: 482
Extracted data for relic ID: 487
Extracted data for relic ID: 499
Extracted data for relic ID: 517
Extracted data for relic ID: 518
Extracted data for relic ID: 521
Extracted data for relic ID: 530
Extracted data for relic ID: 531
Extracted data for relic ID: 532
Extracted data for relic ID: 533
Extracted data for relic ID: 534
Extracted data for relic ID: 535
Extracted data for relic ID: 536
Extracted data for relic ID: 537
Extracted data for relic ID: 538
Extracted data for relic ID: 539
Extracted data for relic ID: 540
Extracted data for relic ID: 541
Extracted data for relic ID: 542
Extracted data for relic ID: 543
Extracted data for relic ID: 544
Extracted data for relic ID: 545
Extracted data for relic ID: 546
Extracted data for

In [1]:
import os
import json
import requests
from bs4 import BeautifulSoup
import shutil
import re
import time
from urllib.parse import urljoin

def extract_relic_data():
    """
    relic_links.json 파일을 읽어 각 유물의 정보를 추출하여 relic_index_json 변수에 저장
    """
    base_url = "https://www.museum.go.kr/MUSEUM/contents/M0504000000.do"
    
    # relic_links.json 파일 읽기
    with open('relic_links.json', 'r', encoding='utf-8') as f:
        relic_links = json.load(f)
    
    relic_index_json = {}
    
    for idx, item in enumerate(relic_links):
        link = item['link']
        # relicId 추출
        relic_id = re.search(r'relicId=(\d+)', link).group(1)
        
        # URL 생성
        url = f"{base_url}{link}"
        
        print(f"Processing relic ID: {relic_id}, URL: {url}")
        
        try:
            # 웹 페이지 요청
            response = requests.get(url)
            response.raise_for_status()
            
            # HTML 파싱
            soup = BeautifulSoup(response.text, 'html.parser')
            
            # 이미지 URL 추출
            image_links = soup.select('a.swiper-slide')
            img_url = None
            if image_links:
                # 첫 번째 이미지의 background-url 추출
                style = image_links[0].get('style', '')
                img_match = re.search(r"url\('([^']+)'\)", style)
                if img_match:
                    img_url = img_match.group(1)
                    # 이미지 경로에서 /700/ 부분을 제거하여 원본 경로 추출
                    img_url = re.sub(r'/700/', '/', img_url)
            
            # 라벨 정보 추출
            label_data = {}
            outview_tit = soup.select_one('.outveiw-tit')
            if outview_tit:
                label_data['명칭'] = outview_tit.text.strip()
            
            outview_list = soup.select('.outview-list li')
            for li in outview_list:
                strong = li.select_one('strong')
                p = li.select_one('p')
                if strong and p:
                    key = strong.text.strip()
                    value = p.text.strip()
                    label_data[key] = value
            
            # 내용 추출
            content = soup.select_one('.view-info-cont p')
            content_text = content.text.strip() if content else ""
            
            # 저작권 이미지 URL 추출
            copyright_img = soup.select_one('.codeView01 img')
            copyright_img_url = copyright_img.get('src') if copyright_img else None
            
            # 데이터 구성
            relic_data = {
                "url": url,
                "img": img_url,
                "label": label_data,
                "content": content_text,
                "copyright_img": copyright_img_url
            }
            
            relic_index_json[relic_id] = relic_data
            
            # 요청 간 간격 두기
            #time.sleep(1)
            
        except Exception as e:
            print(f"Error processing relic ID {relic_id}: {e}")

        # if idx > 5:
        #     break
    
    return relic_index_json

relic_index_json = extract_relic_data()    


Processing relic ID: 348, URL: https://www.museum.go.kr/MUSEUM/contents/M0504000000.do?schM=view&relicId=348
Processing relic ID: 349, URL: https://www.museum.go.kr/MUSEUM/contents/M0504000000.do?schM=view&relicId=349
Processing relic ID: 350, URL: https://www.museum.go.kr/MUSEUM/contents/M0504000000.do?schM=view&relicId=350
Processing relic ID: 355, URL: https://www.museum.go.kr/MUSEUM/contents/M0504000000.do?schM=view&relicId=355
Processing relic ID: 358, URL: https://www.museum.go.kr/MUSEUM/contents/M0504000000.do?schM=view&relicId=358
Processing relic ID: 372, URL: https://www.museum.go.kr/MUSEUM/contents/M0504000000.do?schM=view&relicId=372
Processing relic ID: 482, URL: https://www.museum.go.kr/MUSEUM/contents/M0504000000.do?schM=view&relicId=482
Processing relic ID: 487, URL: https://www.museum.go.kr/MUSEUM/contents/M0504000000.do?schM=view&relicId=487
Processing relic ID: 499, URL: https://www.museum.go.kr/MUSEUM/contents/M0504000000.do?schM=view&relicId=499
Processing relic ID

In [2]:
relic_index_json['348']

{'url': 'https://www.museum.go.kr/MUSEUM/contents/M0504000000.do?schM=view&relicId=348',
 'img': '/relic_image//PS01001001/bon001/2016/1124093013018/bon001958-000-0001.jpg',
 'label': {'명칭': '감산사 석조미륵보살입상',
  '다른명칭': '국보 경주 감산사 석조 미륵보살 입상(1962), 慶州 甘山寺 石造彌勒菩薩立像',
  '전시명칭': '감산사미륵보살과 아미타불',
  '국적/시대': '한국 - 통일신라',
  '출토지': '출토지 - 경상북도',
  '재질': '돌 - 화강암',
  '분류': '종교신앙 - 불교 - 예배 - 불상',
  '크기': '높이 270.0cm',
  '지정문화유산': '국보',
  '소장품번호': '본관1958',
  '전시위치': '불교조각'},
 'content': '신체와 광배는 하나의 돌로 제작하고, 별도로 제작한 대좌에 결합시켰다. 이러한 형식은 감산사 절터에서 함께 수습된 <아미타불>과 같다. 머리에는 높은 보관을 썼는데 중앙에 화불(化佛)이 있다. 얼굴은 갸름하나 살이 올라 있고 눈과 입에 미소가 어려 있다. 목에는 삼도가 뚜렷하며 목걸이, 팔찌, 영락 장식 등으로 신체를 화려하게 장식하고 있다. 오른손은 자연스럽게 내려뜨리고 있고, 왼손은 들어 올려 손바닥을 보이고 있다. 팔목에는 천의가 걸쳐져 있는데, 법의(法衣)는 얇아서 신체의 풍만하고 유려한 곡선을 더욱 살려주고 있다. 광배는 배모양에 신체를 모두 감싸는 주형거신광(舟形擧身光)으로, 세 가닥의 선으로 두광과 신광을 구분하였다. 광배 뒷면에는 명문이 새겨져 있는데, 이를 통해 719년 김지성(金志誠)이 돌아가신 어머니를 위해 조성한 미륵보살상임을 알 수 있다. 표현이 사실적이고 관능적인 모습을 한 통일신라 8세기 불상의 대표적인 사례이다.',
 'copyright_img': 'https://www.kogl.or.k

In [None]:
# relic_index.json 파일 생성
with open('relic_index.json', 'w', encoding='utf-8') as f:
    json.dump(relic_index_json, f, ensure_ascii=False, indent=4)

In [75]:
# # copyright_img가 'https://www.kogl.or.kr/open/web/images/images_2014/codetype/new_img_opentype01.png'가 아닌 항목 찾기
# non_standard_copyright = {relic_id: data for relic_id, data in relic_index_json.items() 
#                          if data['copyright_img'] != 'https://www.kogl.or.kr/open/web/images/images_2014/codetype/new_img_opentype01.png'}

# # 해당 항목 출력
# if non_standard_copyright:
#     print("다른 저작권 이미지를 가진 항목:")
#     for relic_id, data in non_standard_copyright.items():
#         print(f"ID: {relic_id}, Copyright: {data['copyright_img']}")
    
#     # 해당 항목 삭제
#     for relic_id in non_standard_copyright.keys():
#         del relic_index_json[relic_id]
#     print(f"\n{len(non_standard_copyright)}개 항목이 삭제되었습니다.")
# else:
#     print("모든 전시물 정보가 공공누리 제1유형입니다.")

# # 남은 항목 수 출력
# print(f"\n남은 항목 수: {len(relic_index_json)}")
# relic_index_json

In [68]:

# def build_database(relic_index_json):
#     """
#     추출한 유물 정보를 기반으로 데이터베이스 구축
#     """
#     # database 폴더 생성 (이미 존재하면 삭제 후 재생성)
#     if os.path.exists('database'):
#         shutil.rmtree('database')
#     os.makedirs('database')
    
#     # relic_index.json 파일 생성
#     with open('database/relic_index.json', 'w', encoding='utf-8') as f:
#         json.dump(relic_index_json, f, ensure_ascii=False, indent=4)
    
#     # 각 유물별 폴더 생성 및 파일 저장
#     for relic_id, relic_data in relic_index_json.items():
#         relic_dir = os.path.join('database', relic_id)
#         os.makedirs(relic_dir, exist_ok=True)
        
#         # relic_data.json 파일 생성
#         with open(os.path.join(relic_dir, 'relic_data.json'), 'w', encoding='utf-8') as f:
#             json.dump(relic_data, f, ensure_ascii=False, indent=4)
        
#         # 이미지 파일 다운로드
#         if relic_data['img']:
#             try:
#                 img_url = relic_data['img']
#                 if not img_url.startswith('http'):
#                     img_url = urljoin('https://www.museum.go.kr', img_url)
                
#                 img_response = requests.get(img_url, stream=True)
#                 img_response.raise_for_status()
                
#                 # 이미지 파일명 추출
#                 img_filename = os.path.basename(img_url)
#                 img_path = os.path.join(relic_dir, img_filename)
                
#                 with open(img_path, 'wb') as img_file:
#                     img_response.raw.decode_content = True
#                     shutil.copyfileobj(img_response.raw, img_file)
                
#                 print(f"Downloaded image for relic ID {relic_id}")
#             except Exception as e:
#                 print(f"Error downloading image for relic ID {relic_id}: {e}")
        
#         # 저작권 이미지 다운로드
#         if relic_data['copyright_img']:
#             try:
#                 copyright_img_url = relic_data['copyright_img']
#                 copyright_response = requests.get(copyright_img_url, stream=True)
#                 copyright_response.raise_for_status()
                
#                 # 저작권 이미지 파일명 추출
#                 copyright_filename = os.path.basename(copyright_img_url)
#                 copyright_path = os.path.join(relic_dir, copyright_filename)
                
#                 with open(copyright_path, 'wb') as copyright_file:
#                     copyright_response.raw.decode_content = True
#                     shutil.copyfileobj(copyright_response.raw, copyright_file)
                
#                 print(f"Downloaded copyright image for relic ID {relic_id}")
#             except Exception as e:
#                 print(f"Error downloading copyright image for relic ID {relic_id}: {e}")
        
#         # 요청 간 간격 두기
#         time.sleep(0.5)

# build_database(relic_index_json)        


Downloaded image for relic ID 348
Downloaded copyright image for relic ID 348
Downloaded image for relic ID 349
Downloaded copyright image for relic ID 349
Downloaded image for relic ID 350
Downloaded copyright image for relic ID 350
Downloaded image for relic ID 355
Downloaded copyright image for relic ID 355
Downloaded image for relic ID 358
Downloaded copyright image for relic ID 358
Downloaded image for relic ID 372
Downloaded copyright image for relic ID 372
Downloaded image for relic ID 482
Downloaded copyright image for relic ID 482


In [None]:

# def main():
#     # 유물 정보 추출
#     relic_index_json = extract_relic_data()
    
#     # 데이터베이스 구축
#     build_database(relic_index_json)
    
#     print("Database construction completed.")

# if __name__ == "__main__":
#     main()

In [None]:

# def main():
#     # 유물 정보 추출
#     relic_index_json = extract_relic_data()
    
#     # 데이터베이스 구축
#     build_database(relic_index_json)
    
#     print("Database construction completed.")

# if __name__ == "__main__":
#     main()