# 오늘의 목표

1. XML 파일의 구조를 이해하고 beautifulsoup(bs4) 라이브러리를 통해 내부 정보를 추출할 수 있다.
2. 유니코드 인코딩에서 한글 문자를 어떻게 표현하고 처리하는지 설명할 수 있다.

# 오늘 할 일

한글 음절 구조 추출

+ 뷁 --> CGVCC
+ 아 --> V


1. 파일명 변경: '전체 내려받기_표준국어대사전_xml_20231105.zip'
--> `stdict_xml_20241104.zip`
2. 파일 이동: `LDS2024/data/` 폴더로 이동

In [2]:
%pip install -U pip pyproject
%pip install -U bs4 lxml pandas

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [3]:
import zipfile # 압축 파일 읽기
from bs4 import BeautifulSoup # xml 객체 처리하기
import pandas as pd

## zip 파일 읽기

In [4]:
zipfilename = '../data/stdict_xml_20241104.zip'

z = zipfile.ZipFile(zipfilename)
filenames = z.namelist()
print(filenames)
print(len(filenames))

['1373634_355000.xml', '1373634_165000.xml', '1373634_145000.xml', '1373634_40000.xml', '1373634_195000.xml', '1373634_305000.xml', '1373634_5000.xml', '1373634_425000.xml', '1373634_60000.xml', '1373634_200000.xml', '1373634_435000.xml', '1373634_380000.xml', '1373634_250000.xml', '1373634_405000.xml', '1373634_175000.xml', '1373634_340000.xml', '1373634_230000.xml', '1373634_80000.xml', '1373634_190000.xml', '1373634_350000.xml', '1373634_265000.xml', '1373634_50000.xml', '1373634_315000.xml', '1373634_295000.xml', '1373634_45000.xml', '1373634_85000.xml', '1373634_110000.xml', '1373634_155000.xml', '1373634_410000.xml', '1373634_170000.xml', '1373634_240000.xml', '1373634_320000.xml', '1373634_335000.xml', '1373634_255000.xml', '1373634_285000.xml', '1373634_55000.xml', '1373634_70000.xml', '1373634_20000.xml', '1373634_15000.xml', '1373634_435505.xml', '1373634_420000.xml', '1373634_430000.xml', '1373634_375000.xml', '1373634_300000.xml', '1373634_125000.xml', '1373634_345000.xml',

In [5]:
fname = filenames[0]
f = z.open(fname)
text = f.read().decode('utf-8')
print(len(text))

6943561


In [6]:
text.splitlines()[:10]

['<?xml version="1.0" encoding="UTF-8"?>',
 '<channel>',
 '\t<title>사전 검색</title>',
 '\t<link>https:stdict.korean.go.kr</link>',
 '\t<description>사전 검색 결과</description>',
 '\t<lastBuildDate>20241105 07:30:18</lastBuildDate>',
 '\t<total>435505</total>',
 '\t<item>',
 '\t\t<target_code>314631</target_code>',
 '\t\t<word_info>']

In [7]:
# xml 파일 -> soup 객체
soup = BeautifulSoup(text, features='xml')
soup # <item> 태그 안에 단어가 들어있는 것 같다.

<?xml version="1.0" encoding="utf-8"?>
<channel>
<title>사전 검색</title>
<link>https:stdict.korean.go.kr</link>
<description>사전 검색 결과</description>
<lastBuildDate>20241105 07:30:18</lastBuildDate>
<total>435505</total>
<item>
<target_code>314631</target_code>
<word_info>
<word>직섬-석면</word>
<word_unit>단어</word_unit>
<word_type>한자어</word_type>
<original_language_info>
<original_language>直閃石綿</original_language>
<language_type>한자</language_type>
</original_language_info>
<pronunciation_info>
<pronunciation>직썸성면</pronunciation>
</pronunciation_info>
<pos_info>
<pos_code>314631001</pos_code>
<pos>명사</pos>
<comm_pattern_info>
<comm_pattern_code>314631001001</comm_pattern_code>
<sense_info>
<sense_code>472487</sense_code>
<type>일반어</type>
<definition>철과 마그네슘의 규산염을 주성분으로 하는 각섬석. 잎사귀 모양 또는 실 모양의 결정으로 회갈색, 누런 갈색, 푸른 갈색을 띠며 유리 광택이 있다. 변성암 가운데서 난다.</definition>
<definition_original>철과 마그네슘의 규산염을 주성분으로 하는 각섬석. 잎사귀 모양 또는 실 모양의 결정으로 회갈색, 누런 갈색, 푸른 갈색을 띠며 유리 광택이 있다. 변성암 가운데서 난다.</definition_original>
<ca

In [8]:
print(type(soup))

<class 'bs4.BeautifulSoup'>


xml 객체에서 특정한 tag 정보에 접근하기

```
bs4.BeautifulSoup.find(<tag name>)
```

In [9]:
item0 = soup.find('item') # 여러 item 중 제일 먼저 나온 것을 보여줌.
item0

<item>
<target_code>314631</target_code>
<word_info>
<word>직섬-석면</word>
<word_unit>단어</word_unit>
<word_type>한자어</word_type>
<original_language_info>
<original_language>直閃石綿</original_language>
<language_type>한자</language_type>
</original_language_info>
<pronunciation_info>
<pronunciation>직썸성면</pronunciation>
</pronunciation_info>
<pos_info>
<pos_code>314631001</pos_code>
<pos>명사</pos>
<comm_pattern_info>
<comm_pattern_code>314631001001</comm_pattern_code>
<sense_info>
<sense_code>472487</sense_code>
<type>일반어</type>
<definition>철과 마그네슘의 규산염을 주성분으로 하는 각섬석. 잎사귀 모양 또는 실 모양의 결정으로 회갈색, 누런 갈색, 푸른 갈색을 띠며 유리 광택이 있다. 변성암 가운데서 난다.</definition>
<definition_original>철과 마그네슘의 규산염을 주성분으로 하는 각섬석. 잎사귀 모양 또는 실 모양의 결정으로 회갈색, 누런 갈색, 푸른 갈색을 띠며 유리 광택이 있다. 변성암 가운데서 난다.</definition_original>
<cat_info>
<cat>광업</cat>
</cat_info>
<lexical_info>
<word>직-섬석</word>
<unit>의미</unit>
<type>동의어</type>
<link_target_code>472486</link_target_code>
<link>https://stdict.korean.go.kr/search/searchView.do?word_no=488045&am

관심 있는 태그
+ target_code
+ word
+ word_unit
+ word_type
+ pos

In [10]:
print(type(item0))

<class 'bs4.element.Tag'>


In [11]:
tags = ('target_code', 'word', 'word_unit', 'word_type', 'pos')

for tag in tags:
    print(item0.find(tag))

<target_code>314631</target_code>
<word>직섬-석면</word>
<word_unit>단어</word_unit>
<word_type>한자어</word_type>
<pos>명사</pos>


모든 item을 찾고자 할 때:

```
bs4.BeautifulSoup.find_all(<tag name>)
```

In [12]:
items = soup.find_all('item')
print(len(items))

5000


In [13]:
item0 = items[0]
item0.find(tags[0]) # <tag>content</tag>

<target_code>314631</target_code>

`bs4.Element.tag` 객체에서 content만 가져오기

```
bs4.Element.tag.text
```

In [14]:
print(item0.find(tags[0]).text)

314631


In [15]:
print(type(item0.find('candy')))

<class 'NoneType'>


In [16]:
def get_content(soup, tag):
    find = soup.find(tag)
    # soup 객체에 tag 태그가 있는 경우
    if find:
        return find.text
    # 없는 경우
    else:
        return ''

In [17]:
print(get_content(item0, 'word'))

직섬-석면


In [18]:
def to_dict(item, tags=tags):
    # {tag: content} 꼴의 dict
    return {tag: get_content(item, tag) for tag in tags}

In [19]:
to_dict(item0)

{'target_code': '314631',
 'word': '직섬-석면',
 'word_unit': '단어',
 'word_type': '한자어',
 'pos': '명사'}

In [20]:
for item in items:
    try:
        to_dict(item)
    except:
        print(item)
        break

### BeautifulSoup --> DataFrame

In [21]:
df5000 = pd.DataFrame([to_dict(item) for item in items])
df5000

Unnamed: 0,target_code,word,word_unit,word_type,pos
0,314631,직섬-석면,단어,한자어,명사
1,314632,직성01,단어,한자어,명사
2,314914,직성02,단어,한자어,명사
3,314915,직성03,단어,한자어,명사
4,524235,직성(이) 풀리다,관용구,,구
...,...,...,...,...,...
4995,320959,쩔거덩,단어,고유어,부사
4996,320972,쩔거덩-거리다,단어,고유어,동사
4997,321225,쩔거덩-대다,단어,고유어,동사
4998,487019,쩔거덩-쩔거덩,단어,고유어,부사


In [22]:
f.close()
z.close()

지금까지 국립국어대사전 표제어로 이루어진 XML 파일로부터 필요한 정보를 추출하여 하나의 데이터프레임을 만들어 보았다.

이제 압축 파일 안에 들어 있는 모든 XML 파일을 같은 방식으로 처리해 보자.

In [23]:
from tqdm import tqdm

In [24]:
# 데이터프레임 초기화
df = pd.DataFrame()

# zip 형식의 압축 파일 처리하기
with zipfile.ZipFile(zipfilename) as z:

  # 압축 파일에 들어 있는 모든 파일에 대한 반복문
  for fname in tqdm(z.namelist()):
    
    # 만일 xml 파일이 아니면 읽지 않고 다음 파일로 넘어가기
    if not fname.endswith('.xml'):
      continue
    
    # 파일을 열어서
    with z.open(fname) as f:
      # 파일 내용을 문자열로 읽기
      text = f.read().decode('utf-8')
      # 문자열을 BeautifulSoup 객체로 처리하기
      soup = BeautifulSoup(text, features='xml')
      # 'item' 태그를 모두 찾기
      items = soup.find_all('item')
      # 아이템들을 dict 자료형으로 변환한 뒤 데이터프레임으로 변환하기
      df_new = pd.DataFrame([to_dict(item) for item in items])
      
      # 데이터프레임 업데이트
      df = pd.concat([df, df_new])

  3%|▎         | 3/88 [00:13<06:22,  4.49s/it]

100%|██████████| 88/88 [06:22<00:00,  4.34s/it]


위에서 만든 데이터프레임의 모습을 살펴보자.

모두 435505개의 행으로 이루어져 있다.

In [25]:
df

Unnamed: 0,target_code,word,word_unit,word_type,pos
0,314631,직섬-석면,단어,한자어,명사
1,314632,직성01,단어,한자어,명사
2,314914,직성02,단어,한자어,명사
3,314915,직성03,단어,한자어,명사
4,524235,직성(이) 풀리다,관용구,,구
...,...,...,...,...,...
4995,427113,미역-취,단어,고유어,명사
4996,126522,미역치,단어,고유어,명사
4997,126524,미역-튀각,단어,고유어,명사
4998,128742,미역-하다,단어,혼종어,동사


데이터프레임의 각 column들의 값을 요약해 보자.

In [26]:
# DO SOMETHING HERE
df.describe()

Unnamed: 0,target_code,word,word_unit,word_type,pos
count,435505,435505,435505,435505,435505
unique,435505,435505,4,5,16
top,427124,미연01,단어,한자어,명사
freq,1,1,361231,235813,269124


앞서 데이터프레임을 살펴본 결과, 단어가 배열된 순서에 일정한 규칙이 없는 것 같다.

target_code 값을 기준으로 행들을 정렬해 보자.

In [27]:
# target_code 값을 데이터프레임의 인덱스로 설정하기
df.set_index('target_code', inplace=True)
# 인덱스의 자료형을 int로 설정하기
df.index = df.index.astype('int')
# 인덱스 값을 기준으로 행들을 정렬하기
df.sort_index(inplace=True)
df

Unnamed: 0_level_0,word,word_unit,word_type,pos
target_code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,가경-지,단어,한자어,명사
2,가계-하다01,단어,혼종어,동사
3,가계02,단어,한자어,명사
4,가계-되다,단어,혼종어,동사
5,가계-하다03,단어,혼종어,동사
...,...,...,...,...
535113,뒷-놀이,단어,고유어,명사
535114,본-놀이,단어,혼종어,명사
535115,지지난-주,단어,혼종어,명사
535117,특별-자치시,단어,한자어,명사


마지막으로, 정렬된 데이터프레임을 csv 파일로 저장하자.

In [28]:
csvfilename = zipfilename.replace('.zip', '.csv')

df.to_csv(csvfilename)

!rm ../data/stdict_xml_20241104.zip