<a href="https://colab.research.google.com/github/Song-yiJung/mmhistorytext/blob/main/%EC%A1%B0%EC%84%A0%EC%B4%9D%EB%8F%85%EB%B6%80%EB%B0%95%EB%AC%BC%EA%B4%80%EB%AC%B8%EC%84%9C%EC%88%98%EC%A7%91%EB%B0%8F%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 웹스크래핑

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# 기본 URL 설정
base_url = 'https://www.museum.go.kr/modern-history/doc.do?pseq={}'
pseq_range = range(6000, 6390)  # pseq 범위 (샘플: 1~200)
#6001부터 시작하기

# 결과 저장 리스트 초기화
data = []

# 데이터 추출 함수
def scrape_page(pseq):
    url = base_url.format(pseq)
    response = requests.get(url)
    if response.status_code != 200:
        print(f"Failed to fetch {url}")
        return

    soup = BeautifulSoup(response.text, 'html.parser')

    # h2 데이터 추출 (XPath: //*[@id="container"]/div/div[2]/div[1]/h2)
    h2_element = soup.select_one('#container > div > div:nth-of-type(2) > div:nth-of-type(1) > h2')
    h2_text = h2_element.text.strip() if h2_element else "N/A"

    # 문서 목록 테이블 추출
    table_rows = soup.select('table tr')  # 테이블 행 선택자
    for row in table_rows[1:]:  # 첫 번째 행은 헤더이므로 제외
        cols = row.find_all('td')
        if len(cols) >= 3:  # 필요한 열 개수 확인
            doc_title = cols[0].text.strip()
            doc_type = cols[1].text.strip()
            pages = cols[2].text.strip()
            data.append({
                'H2 Title': h2_text,
                'Document Title': doc_title,
                'Type': doc_type,
                'Pages': pages,
                'URL': url
            })

# 페이지 순회 및 데이터 수집
for pseq in pseq_range:
    print(f"Scraping pseq={pseq}...")
    scrape_page(pseq)

# DataFrame 생성 및 CSV 저장
df = pd.DataFrame(data)
output_file = 'museum_data_sample.csv'
df.to_csv(output_file, index=False, encoding='utf-8-sig')

print(f"Data saved to {output_file}")

# 웹스크래핑 결과 파일들 업로드

In [None]:
from google.colab import files

# 파일 업로드
uploaded = files.upload()

# 업로드된 파일 이름 리스트 출력
file_list = list(uploaded.keys())
print("업로드한 파일 목록:")
print(file_list)

Saving museum_data_sample1_1000.xlsx to museum_data_sample1_1000 (1).xlsx
Saving museum_data_sample1000_2000.xlsx to museum_data_sample1000_2000 (1).xlsx
Saving museum_data_sample2000_5000.xlsx to museum_data_sample2000_5000 (1).xlsx
Saving museum_data_sample5001_6000.xlsx to museum_data_sample5001_6000 (1).xlsx
Saving museum_data_sample6000_6389.xlsx to museum_data_sample6000_6389 (1).xlsx
업로드한 파일 목록:
['museum_data_sample1_1000 (1).xlsx', 'museum_data_sample1000_2000 (1).xlsx', 'museum_data_sample2000_5000 (1).xlsx', 'museum_data_sample5001_6000 (1).xlsx', 'museum_data_sample6000_6389 (1).xlsx']


# 한글 한자 토큰화에 필요한 모듈 설치

In [None]:
!pip install kiwipiepy # This line installs the kiwipiepy module.
import pandas as pd

# kiwi 로드
from kiwipiepy import Kiwi
kiwi = Kiwi()
from kiwipiepy.sw_tokenizer import SwTokenizer
from kiwipiepy.sw_tokenizer import SwTokenizerConfig
import gc
# Install the hanja module
!pip install hanja
import hanja
import pickle
import bz2

Collecting kiwipiepy
  Downloading kiwipiepy-0.20.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (1.1 kB)
Collecting kiwipiepy-model<0.21,>=0.20 (from kiwipiepy)
  Downloading kiwipiepy_model-0.20.0.tar.gz (34.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m34.7/34.7 MB[0m [31m36.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Downloading kiwipiepy-0.20.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.5/3.5 MB[0m [31m52.1 MB/s[0m eta [36m0:00:00[0m
[?25hBuilding wheels for collected packages: kiwipiepy-model
  Building wheel for kiwipiepy-model (setup.py) ... [?25l[?25hdone
  Created wheel for kiwipiepy-model: filename=kiwipiepy_model-0.20.0-py3-none-any.whl size=34818026 sha256=f68cfb327ecd7da0588c5b3c37cc7c7feca638ef2a9899c9a8ce75e7cafd2830
  Stored in directory: /root/.cache/pip/wheels/b6/b1/66/2be9840f

# 업로드한 파일들 통합

In [None]:
from google.colab import files
import pandas as pd

# 1. 파일 업로드
uploaded = files.upload()  # 로컬에서 파일 업로드
file_list = list(uploaded.keys())  # 업로드된 파일 이름 리스트
print("업로드한 파일 목록:")
print(file_list)

# 2. .xlsx 파일 처리
excel_files = [f for f in file_list if f.endswith('.xlsx')]  # 업로드된 엑셀 파일 목록 가져오기

if not excel_files:
    raise FileNotFoundError("업로드된 파일 중 '.xlsx' 확장자의 엑셀 파일이 없습니다.")

# 데이터프레임 통합
dataframes = []
for file_name in excel_files:
    df = pd.read_excel(file_name)  # 엑셀 파일 읽기
    dataframes.append(df)

# 모든 데이터프레임 병합
merged_df = pd.concat(dataframes, ignore_index=True)

# 병합 결과 확인 (상위 5행 출력)
print("병합된 데이터 (상위 5행):")
print(merged_df.head())

# 3. 병합된 데이터를 새로운 엑셀 파일로 저장
output_file = "merged_excel.xlsx"
merged_df.to_excel(output_file, index=False)
print(f"병합된 데이터가 '{output_file}'로 저장되었습니다.")

# 4. 병합된 파일 다운로드
files.download(output_file)

Saving museum_data_sample1_1000.xlsx to museum_data_sample1_1000 (4).xlsx
Saving museum_data_sample1000_2000.xlsx to museum_data_sample1000_2000 (4).xlsx
Saving museum_data_sample2000_5000.xlsx to museum_data_sample2000_5000 (4).xlsx
Saving museum_data_sample5001_6000.xlsx to museum_data_sample5001_6000 (4).xlsx
Saving museum_data_sample6000_6389.xlsx to museum_data_sample6000_6389 (4).xlsx
업로드한 파일 목록:
['museum_data_sample1_1000 (4).xlsx', 'museum_data_sample1000_2000 (4).xlsx', 'museum_data_sample2000_5000 (4).xlsx', 'museum_data_sample5001_6000 (4).xlsx', 'museum_data_sample6000_6389 (4).xlsx']
병합된 데이터 (상위 5행):
  Document Type  Document Number                Document Title Document Form  \
0            기부                1           山口源固 소장 와(瓦), 토기 목록            문서   
1            기부                2              山口源固 구장품(舊藏品) 목록            문서   
2            기부                1  오사카 긴타로(大坂金太郞, 대판금태랑) 기증품 목록            문서   
3            기부                1                           

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# 한글 한자 기반으로 토큰화

In [None]:
import pandas as pd
import re
from kiwipiepy import Kiwi

# Kiwi 객체 생성
kiwi = Kiwi()

# 한글과 한자를 추출하는 함수 정의
def extract_korean_and_hanja(text):
    if pd.isna(text):  # NaN 값 처리
        return ''
    return ''.join(re.findall(r'[가-힣一-龥]+', text))  # 한글과 한자만 추출

# 한글과 한자를 기반으로 토큰화하는 함수 정의
def tokenize_korean_and_hanja(text):
    filtered_text = extract_korean_and_hanja(text)  # 한글과 한자만 추출
    if not filtered_text:  # 필터링된 텍스트가 없으면 빈 리스트 반환
        return []
    tokens = kiwi.tokenize(filtered_text)  # 형태소 분석
    return [token.form for token in tokens]  # 모든 토큰의 원형 반환

# 엑셀 파일 로드
file_name = "merged_excel (2).xlsx"  # 업로드된 엑셀 파일 이름
df = pd.read_excel(file_name)

# Document Title 열에서 한글과 한자 추출 및 토큰화 수행
if 'Document Title' in df.columns:  # 'Document Title' 열이 존재하는지 확인
    df['Korean and Hanja Only'] = df['Document Title'].apply(extract_korean_and_hanja)  # 한글과 한자만 추출
    df['Tokenized'] = df['Korean and Hanja Only'].apply(tokenize_korean_and_hanja)  # 토큰화 수행
else:
    raise KeyError("Error: 'Document Title' 열이 데이터프레임에 존재하지 않습니다.")

# 결과 출력 (상위 5행)
print(df[['Document Title', 'Korean and Hanja Only', 'Tokenized']].head())

                 Document Title Korean and Hanja Only  \
0           山口源固 소장 와(瓦), 토기 목록          山口源固소장와瓦토기목록   
1              山口源固 구장품(舊藏品) 목록          山口源固구장품舊藏品목록   
2  오사카 긴타로(大坂金太郞, 대판금태랑) 기증품 목록  오사카긴타로大坂太郞대판금태랑기증품목록   
3                           평가서                   평가서   
4      보물 백자투조모란문호(白磁透彫牡丹文壺) 기부   보물백자투조모란문호白磁透彫牡文壺기부   

                                Tokenized  
0             [山口源固, 소장, 오, 어, 瓦, 토기, 목록]  
1                    [山口源固, 구장품, 舊藏品, 목록]  
2  [오사카긴타로, 大坂太郞, 대, 판금, 태, 랑, 기증, 품목, 록]  
3                                   [평가서]  
4     [보물, 백자, 투, 조모, 란, 문호, 白磁透彫牡文壺, 기부]  


# Document Type 열에서 데이터별 수량 카운트

In [None]:
import pandas as pd

# 엑셀 파일 로드
file_name = "merged_excel (2).xlsx"  # 업로드된 엑셀 파일 이름
df = pd.read_excel(file_name)

# Document Type 열에서 데이터별 수량 카운트
type_counts = df['Document Type'].value_counts()

# 결과 출력
print("Document Type별 데이터 수량:")
print(type_counts)

Document Type별 데이터 수량:
Document Type
고적조사    6446
보존      6167
발견      4536
지정      2418
진열      2245
구입      2121
국유림      598
기타       514
도면       295
기부       159
Name: count, dtype: int64


In [None]:
# 결과를 새로운 엑셀 파일로 저장 (선택 사항)
output_file = "document_type_counts.xlsx"
type_counts.to_excel(output_file, sheet_name="Type Counts")
print(f"분석 결과가 '{output_file}'로 저장되었습니다.")

분석 결과가 'document_type_counts.xlsx'로 저장되었습니다.


# Document Type별로 Document Form 데이터를 그룹화하고 수량 카운트

In [None]:
import pandas as pd

# 엑셀 파일 로드
file_name = "merged_excel (2).xlsx"  # 업로드된 엑셀 파일 이름
df = pd.read_excel(file_name)

# Document Type별로 Document Form 데이터를 그룹화하고 수량 카운트
grouped = df.groupby('Document Type')['Document Form'].value_counts()

# 결과를 데이터프레임으로 변환
result_df = grouped.reset_index(name='Count')

# 결과 출력
print("Document Type별 Document Form 데이터 및 수량:")
print(result_df)

Document Type별 Document Form 데이터 및 수량:
    Document Type Document Form  Count
0            고적조사            문서   4245
1            고적조사            도면    658
2            고적조사            사진    599
3            고적조사            표지    251
4            고적조사            봉투    155
..            ...           ...    ...
114            진열            전보     19
115            진열            목차     14
116            진열            사진      9
117            진열            견본      1
118            진열            속지      1

[119 rows x 3 columns]


In [None]:
# 결과를 새로운 엑셀 파일로 저장 (선택 사항)
output_file = "document_type_form_counts.xlsx"
result_df.to_excel(output_file, index=False)
print(f"분석 결과가 '{output_file}'로 저장되었습니다.")

분석 결과가 'document_type_form_counts.xlsx'로 저장되었습니다.


# 다이쇼(大正) 텍스트가 포함된 데이터 추출

In [None]:
import pandas as pd
from google.colab import files

# 엑셀 파일 로드
file_name = "merged_excel (2).xlsx"  # 업로드된 엑셀 파일 이름
df = pd.read_excel(file_name)

# "다이쇼(大正)" 텍스트가 포함된 행 필터링
filtered_df = df[df['Document Title'].str.contains("다이쇼|大正", na=False, case=False)]  # na=False로 NaN 값 처리

# 필요한 열만 선택
result_df = filtered_df[['Document Title', 'Document Type', 'Document Form', 'URL']]

# 결과 출력
print("다이쇼(大正)가 포함된 데이터:")
print(result_df)

# 결과를 새로운 엑셀 파일로 저장
output_file = "filtered_daiisho_data.xlsx"
result_df.to_excel(output_file, index=False)
print(f"필터링된 데이터가 '{output_file}'로 저장되었습니다.")

# 다운로드
files.download(output_file)

다이쇼(大正)가 포함된 데이터:
                                  Document Title Document Type Document Form  \
124                                  다이쇼(大正) 11년            기부            표지   
213                 다이쇼(大正) 5년 6월 조사 개성 고분 사진 목록            진열            문서   
215                   다이쇼(大正) 5년 8월 고적조사 사진원판 목록            진열            문서   
217                다이쇼(大正) 5년 8~11월 고적조사 사진원판 목록            진열            문서   
219                다이쇼(大正) 5년 9~11월 고적조사 사진원판 목록            진열            문서   
...                                          ...           ...           ...   
24831               다이쇼(大正) 13년 5월 및 6월 촬영 사진 목록          고적조사            문서   
24832              다이쇼(大正) 13년 촬영 금관총 유물 사진 목록 1          고적조사            문서   
24833              다이쇼(大正) 13년 촬영 금관총 유물 사진 목록 2          고적조사            문서   
24834  다이쇼(大正) 13년 8월 촬영 교토(京都, 경도) 대학 소장품 사진 목록          고적조사            문서   
25204    다이쇼(大正) 2년 조사 미야자키 현(宮崎縣) 내 고적도(古蹟圖) 목록            진열            문서   

                     

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# 경주 텍스트 데이터가 포함된 데이터 추출

In [None]:
import pandas as pd
from google.colab import files

# 엑셀 파일 로드
file_name = "merged_excel (2).xlsx"  # 업로드된 엑셀 파일 이름
df = pd.read_excel(file_name)

# "경주|慶州" 텍스트가 포함된 행 필터링
filtered_df = df[df['Document Title'].str.contains("경주|慶州", na=False, case=False)]  # na=False로 NaN 값 처리

# 필요한 열만 선택
result_df = filtered_df[['Document Title', 'Document Type', 'Document Form', 'URL']]

# 결과 출력
print("경주(慶州)가 포함된 데이터:")
print(result_df)

# 결과를 새로운 엑셀 파일로 저장
output_file = "filtered_gyeongju_data.xlsx"
result_df.to_excel(output_file, index=False)
print(f"필터링된 데이터가 '{output_file}'로 저장되었습니다.")

# 다운로드
files.download(output_file)

경주(慶州)가 포함된 데이터:
                                  Document Title Document Type Document Form  \
448       물품 청구서 - 경주 김각간묘호석(金角干墓護石) 12신상(神像) 탁본            진열            문서   
861      경주 수집품 목록 - 쇼와(昭和) 4년 4월 후지타(藤田, 등전) 위원            진열            문서   
898    수집품 목록 - 다이쇼(大正) 12년도 오바(小場, 소장) 위원 경주 수집            진열            문서   
952            목록 - 경주분관 진열품 쇼와(昭和) 5년 10월 현재 조사            진열            문서   
953                             【목록 - 경주 분관 진열품】            진열            문서   
...                                          ...           ...           ...   
24653                               경주 국립공원 건설 건            기타            문서   
24655                    경주읍 충효리 부근 철도선로 통과 건 진정            기타            문서   
24656                    경주읍 충효리 부근 철도선로 통과 건 진정            기타            문서   
24660    [도면] 경주군 경주읍 충효리 임야도 (축척 1/30) 중앙철도 예정선            기타            도면   
24830         다이쇼(大正) 12년 봄 경주 금관총(金冠塚) 촬영 사진 목록          고적조사            문서   

                      

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# "국유" 텍스트가 포함된 행 필터링

In [None]:
import pandas as pd
from google.colab import files

# 엑셀 파일 로드
file_name = "merged_excel (2).xlsx"  # 업로드된 엑셀 파일 이름
df = pd.read_excel(file_name)

# "국유" 텍스트가 포함된 행 필터링
filtered_df = df[df['Document Title'].str.contains("국유", na=False, case=False)]  # na=False로 NaN 값 처리

# 필요한 열만 선택
result_df = filtered_df[['Document Title', 'Document Type', 'Document Form', 'URL']]

# 결과 출력
print("국유가 포함된 데이터:")
print(result_df)

# 결과를 새로운 엑셀 파일로 저장
output_file = "nationalization_data.xlsx"
result_df.to_excel(output_file, index=False)
print(f"필터링된 데이터가 '{output_file}'로 저장되었습니다.")

# 다운로드
files.download(output_file)

국유가 포함된 데이터:
                                       Document Title Document Type  \
377                             인계품 목록 (국유탑비 이전 시 발견)            진열   
1993                                       국유에 속하는 유물            진열   
4498                                 매장물조서 [국유지(國有地)]            발견   
4527                                매장물 조서 [국유지(國有地)]            발견   
8844   경성부 효제정 소재의 국유재산에 대한 천연기념물 소재지 조사 건(對 4월 26일부)            지정   
...                                               ...           ...   
23540                                  국유 종각(鐘閣) 수리 건            보존   
23548                                  국유 종각(鐘閣) 수리 건            보존   
24136                                         삼국유사 강독            기타   
24244                           [도면] 행암산(行岩山) 국유림 경계도            도면   
24608                   [도면] 경상북도 경주군 서면 대곡리 국유림 (성지)          고적조사   

      Document Form                                                URL  
377              문서  https://www.museum.go.kr/modern-history/

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
import pandas as pd
from google.colab import files

# 엑셀 파일 로드
file_name = "merged_excel (2).xlsx"  # 업로드된 엑셀 파일 이름
df = pd.read_excel(file_name)

# "關野" 텍스트가 포함된 행 필터링
filtered_df = df[df['Document Title'].str.contains("關野", na=False, case=False)]  # na=False로 NaN 값 처리

# 필요한 열만 선택
result_df = filtered_df[['Document Title', 'Document Type', 'Document Form', 'URL']]

# 결과 출력
print("關野 포함된 데이터:")
print(result_df)

# 결과를 새로운 엑셀 파일로 저장
output_file = "guanyajung_data.xlsx"
result_df.to_excel(output_file, index=False)
print(f"필터링된 데이터가 '{output_file}'로 저장되었습니다.")

# 다운로드
files.download(output_file)

關野 포함된 데이터:
                                          Document Title Document Type  \
367                 다이쇼(大正) 6년도 전기 고적조사 - 세키노(關野, 관야) 위원            진열   
421    임시현금전도관리(臨時現金前渡官吏) 세키노 다다시(關野貞, 관야정) 중국[支那] 구입...            진열   
503                         고적조사 수집품 목록 - 세키노(關野, 관야) 위원            진열   
523              목록 - 다이쇼(大正) 10년 10월 세키노(關野, 관야) 위원 수집품            진열   
538            수집품 목록 - 다이쇼(大正) 11년 5월 세키노(關野, 관야) 위원 수집            진열   
831       수집품 목록 - 다이쇼(大正) 13년 10월 세키노(關野, 관야) 위원 채수(採收)            진열   
1123                채집품 목록 - 사와(澤, 택) 촉탁, 세키노(關野, 관야) 위원            진열   
1489     세키노 다다시(關野貞, 관야정)가 다케베(武部, 무부) 학무국장에게 보낸 내신(來信)            진열   
2118               세키노 다다시(關野貞, 관야정) 해외 유학에 따른 조사, 기타 촉탁            구입   
2119                 세키노 다다시(關野貞, 관야정)의 물품 수집에 필요한 금액 증액            구입   
11750                  【결재용 표지 - 세키노(關野, 관야) 고적조사위원 복명서】          고적조사   
12752             고적조사 보고서 - 세키노 다다시(關野貞, 관야정) 고적조사위원 제출          고적조사   
13587                  [편지

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>