# 제15강 실습: 표준국어대사전 표제어 추출 및 분석

## 오늘의 목표

1. 표준국어대사전 XML 데이터에서 표제어 정보를 추출할 수 있다.
2. 추출한 데이터를 pandas 데이터프레임으로 구조화할 수 있다.
3. 한글 음절의 구조를 분석하고 유형별로 분류할 수 있다.

## 1. 패키지 설치 및 임포트

In [2]:
# 필요한 패키지 설치
%pip install -U lxml pandas


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.1.1[0m[39;49m -> [0m[32;49m25.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython -m pip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


In [19]:
# 라이브러리 임포트
import os
import zipfile          # ZIP 파일 처리
from tqdm import tqdm   # 진행 상황 출력
from lxml import etree  # XML 파싱
import pandas as pd     # 데이터프레임 처리
from collections import Counter  # 빈도 계산

## 2. ZIP 파일 읽기

표준국어대사전 XML 데이터는 ZIP 압축 형식으로 제공됩니다. 
88개의 XML 파일이 하나의 ZIP 파일에 포함되어 있습니다.

In [4]:
# ZIP 파일 경로 설정
zipfilename = '../data/nikl/stdict_xml_20251005.zip'

# ZIP 파일 열기
z = zipfile.ZipFile(zipfilename)

# ZIP 파일 내부의 파일 목록 확인
filenames = z.namelist()
print(f"총 {len(filenames)}개의 XML 파일")
print("처음 3개 파일:", filenames[:3])

총 88개의 XML 파일
처음 3개 파일: ['1496243_340000.xml', '1496243_275000.xml', '1496243_335000.xml']


## 3. XML 파일 읽기 및 파싱

ZIP 파일 내부의 XML 파일을 압축 해제 없이 직접 읽고 파싱합니다.

In [5]:
# 첫 번째 XML 파일 읽기
fname = filenames[0]
f = z.open(fname)

# UTF-8로 디코딩
text = f.read().decode('utf-8')

# 내용 확인
print(f"파일명: {fname}")
print(f"파일 크기: {len(text):,} 문자")
print("\n처음 500자:")
print(text[:500])

파일명: 1496243_340000.xml
파일 크기: 6,793,306 문자

처음 500자:
<?xml version="1.0" encoding="UTF-8"?>
<channel>
	<title>사전 검색</title>
	<link>https:stdict.korean.go.kr</link>
	<description>사전 검색 결과</description>
	<lastBuildDate>20251005 05:33:04</lastBuildDate>
	<total>436145</total>
	<item>
		<target_code>297815</target_code>
		<word_info>
			<word><![CDATA[조포-사01]]></word>
			<word_unit>단어</word_unit>
			<word_type>한자어</word_type>
			<original_language_info>
				<original_language><![CDATA[造泡寺]]></original_language>
				<language_type><![CDATA[한자]]></langu


In [6]:
# 문자열을 XML로 파싱
root = etree.fromstring(text.encode('utf-8'))

# 루트 요소 확인
print(f"루트 태그: {root.tag}")

# 전체 항목 수 확인
total = root.find('total')
print(f"총 표제어 수: {total.text}")

루트 태그: channel
총 표제어 수: 436145


In [7]:
etree.dump(root.find('item'))

<item>
		<target_code>297815</target_code>
		<word_info>
			<word>조포-사01</word>
			<word_unit>단어</word_unit>
			<word_type>한자어</word_type>
			<original_language_info>
				<original_language>造泡寺</original_language>
				<language_type>한자</language_type>
			</original_language_info>
			<pronunciation_info>
				<pronunciation>조ː포사</pronunciation>
			</pronunciation_info>
			<pos_info>
				<pos_code>297815001</pos_code>
				<pos>명사</pos>
				<comm_pattern_info>
					<comm_pattern_code>297815001001</comm_pattern_code>
					<sense_info>
						<sense_code>471005</sense_code>
						<type>일반어</type>
						<definition>능(陵)이나 원소(園所)에 속하여 나라 제사에 쓰는 두부를 맡아 만들던 절.</definition>
						<definition_original>능(陵)이나 원소(園所)에 속하여 나라 제사에 쓰는 두부를 맡아 만들던 절.</definition_original>
						<cat_info>
							<cat>역사</cat>
						</cat_info>
						<lexical_info>
							<word>조포-소</word>
							<unit>의미</unit>
							<type>동의어</type>
							<link_target_code>446797</link_target_code>
							<link>https://stdict.korean.go

In [8]:
etree.dump(root.find('item').find('word_info'))

<word_info>
			<word>조포-사01</word>
			<word_unit>단어</word_unit>
			<word_type>한자어</word_type>
			<original_language_info>
				<original_language>造泡寺</original_language>
				<language_type>한자</language_type>
			</original_language_info>
			<pronunciation_info>
				<pronunciation>조ː포사</pronunciation>
			</pronunciation_info>
			<pos_info>
				<pos_code>297815001</pos_code>
				<pos>명사</pos>
				<comm_pattern_info>
					<comm_pattern_code>297815001001</comm_pattern_code>
					<sense_info>
						<sense_code>471005</sense_code>
						<type>일반어</type>
						<definition>능(陵)이나 원소(園所)에 속하여 나라 제사에 쓰는 두부를 맡아 만들던 절.</definition>
						<definition_original>능(陵)이나 원소(園所)에 속하여 나라 제사에 쓰는 두부를 맡아 만들던 절.</definition_original>
						<cat_info>
							<cat>역사</cat>
						</cat_info>
						<lexical_info>
							<word>조포-소</word>
							<unit>의미</unit>
							<type>동의어</type>
							<link_target_code>446797</link_target_code>
							<link>https://stdict.korean.go.kr/search/searchView.do?word_no=297816&amp;s

## 4. XML 구조 탐색

표준국어대사전 XML은 다음과 같은 계층 구조를 가집니다:
- `channel` (루트)
  - `item` (각 표제어)
    - `target_code` (고유 식별자)
    - `word_info` (단어 정보)
      - `word` (표제어)
      - `word_unit` (단어 단위)
      - `word_type` (단어 유형)
      - `pos_info` (품사 정보)
        - `pos` (품사)

In [9]:
# 모든 item 요소 찾기
items = root.findall('item')
print(f"이 파일의 item 수: {len(items)}")

# 첫 번째 item 확인
first_item = items[0]

# target_code 추출
target_code = first_item.find('target_code').text
print(f"\ntarget_code: {target_code}")

# word_info 하위의 정보 추출
word_info = first_item.find('word_info')
word = word_info.find('word').text
word_unit = word_info.find('word_unit').text
word_type = word_info.find('word_type').text

print(f"표제어: {word}")
print(f"단어 단위: {word_unit}")
print(f"단어 유형: {word_type}")

# 품사 추출 (존재하는 경우)
pos_info = word_info.find('pos_info')
if pos_info is not None:
    pos = pos_info.find('pos').text
    print(f"품사: {pos}")
else:
    print("품사: 없음")

이 파일의 item 수: 5000

target_code: 297815
표제어: 조포-사01
단어 단위: 단어
단어 유형: 한자어
품사: 명사


## 5. 표제어 정보 추출 함수

각 `item` 요소에서 필요한 정보를 추출하는 함수를 작성합니다.

In [10]:
def extract_word_info(item):
    """item 요소에서 표제어 정보 추출"""
    # target_code 추출
    target_code = item.find('target_code').text
    
    # word_info 요소 찾기
    word_info = item.find('word_info')
    
    # 표제어, 단어 단위, 단어 유형 추출
    word = word_info.find('word').text
    word_unit = word_info.find('word_unit').text

    word_type = word_info.find('word_type')
    if word_type is not None:
        word_type = word_type.text
    else:
        word_type = '없음'
    
    # pos_info에서 품사 추출 (존재하지 않을 수 있음)
    pos_info = word_info.find('pos_info')
    if pos_info is not None:
        pos = pos_info.find('pos').text
    else:
        pos = '없음'
    
    return {
        'target_code': target_code,
        'word': word,
        'word_unit': word_unit,
        'word_type': word_type,
        'pos': pos
    }

# 함수 테스트
test_data = extract_word_info(items[0])
print(test_data)

{'target_code': '297815', 'word': '조포-사01', 'word_unit': '단어', 'word_type': '한자어', 'pos': '명사'}


## 6. 모든 파일에서 데이터 추출

88개의 모든 XML 파일을 순회하며 표제어 정보를 추출합니다.

**주의:** 이 작업은 시간이 소요될 수 있습니다 (약 1-2분).

In [11]:
# 전체 데이터를 저장할 리스트
all_data = []

# 모든 XML 파일 처리
print("파일 처리 중...")
for i, fname in enumerate(tqdm(filenames)):
    
    # 파일 읽기 및 파싱
    f = z.open(fname)
    text = f.read().decode('utf-8')
    root = etree.fromstring(text.encode('utf-8'))
    
    # 모든 item에서 정보 추출
    items = root.findall('item')
    for item in items:
        data = extract_word_info(item)
        all_data.append(data)

print(f"\n처리 완료! 총 {len(all_data):,}개의 표제어 추출")

파일 처리 중...


  0%|          | 0/88 [00:00<?, ?it/s]

100%|██████████| 88/88 [00:21<00:00,  4.18it/s]


처리 완료! 총 436,145개의 표제어 추출





## 7. 데이터프레임 생성 및 탐색

In [12]:
# 딕셔너리 리스트를 데이터프레임으로 변환
df = pd.DataFrame(all_data)

# 데이터프레임 확인
print("데이터프레임 상위 5행:")
print(df.head())
print(f"\n데이터프레임 크기: {df.shape}")

데이터프레임 상위 5행:
  target_code    word word_unit word_type pos
0      297815  조포-사01        단어       한자어  명사
1      478592  조포-사02        단어       한자어  명사
2      297816    조포-소        단어       한자어  명사
3      297817    조포-전        단어       한자어  명사
4      297818    조포-체        단어       한자어  명사

데이터프레임 크기: (436145, 5)


In [13]:
# 단어 단위별 통계
print("단어 단위별 빈도:")
print(df['word_unit'].value_counts())

단어 단위별 빈도:
word_unit
단어     361826
구       62997
속담       7436
관용구      3886
Name: count, dtype: int64


In [14]:
# 단어 유형별 통계
print("단어 유형별 빈도:")
print(df['word_type'].value_counts())

단어 유형별 빈도:
word_type
한자어    236183
혼종어     88905
고유어     75749
외래어     23986
없음      11322
Name: count, dtype: int64


In [15]:
# 품사별 통계
print("품사별 빈도 (상위 10개):")
print(df['pos'].value_counts().head(10))

품사별 빈도 (상위 10개):
pos
명사       269580
품사 없음     70637
동사        56432
형용사       12764
부사        12011
구         11322
어미          811
의존 명사       737
접사          532
감탄사         528
Name: count, dtype: int64


## 8. 데이터 정렬

target_code를 기준으로 데이터를 정렬합니다.

In [16]:
# target_code를 인덱스로 설정
df.set_index('target_code', inplace=True)

# 인덱스를 정수형으로 변환
df.index = df.index.astype('int')

# 인덱스 값을 기준으로 정렬
df.sort_index(inplace=True)

print("정렬된 데이터프레임 상위 10행:")
print(df.head(10))

정렬된 데이터프레임 상위 10행:
                word word_unit word_type pos
target_code                                 
1               가경-지        단어       한자어  명사
2            가계-하다01        단어       혼종어  동사
3               가계02        단어       한자어  명사
4              가계-되다        단어       혼종어  동사
5            가계-하다03        단어       혼종어  동사
6               가계04        단어       한자어  명사
7               가계05        단어       한자어  명사
8               가계07        단어       한자어  명사
9               가계08        단어       한자어  명사
10              가계09        단어       한자어  명사


## 9. CSV 파일로 저장

In [20]:
# CSV 파일명 생성 (ZIP 파일명 기반)
# csvfilename = zipfilename.replace('.zip', '.csv')
csvfilename = '../data/nikl/stdict_20251005_basic_info.csv'

# 데이터프레임을 CSV로 저장
df.to_csv(csvfilename)

file_size = os.path.getsize(csvfilename)
print(f"저장 완료: {csvfilename}")
print(f"파일 크기: {file_size:,} bytes ({file_size/1024/1024:.2f} MB)")

저장 완료: ../data/nikl/stdict_20251005_basic_info.csv
파일 크기: 19,409,292 bytes (18.51 MB)
