# Evn

In [None]:
# imports
import argparse
import os
import random
import shutil
import json
import zipfile
import math
import copy
import collections
import re

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import sentencepiece as spm
import tensorflow as tf
import tensorflow.keras.backend as K

from tqdm.notebook import tqdm, trange

In [None]:
# 환경 설정
args = {
    # random seed value
    "seed": 1234
}
args = argparse.Namespace(**args)

print(args)

In [None]:
# random seed 설정
def set_seed(seed):
    random.seed(seed)
    np.random.seed(seed)
    tf.random.set_seed(seed)

In [None]:
# data dir
data_dir = '/content/drive/MyDrive/문서/강의계획서/삼성전기/삼성전기.20220228/data'
os.listdir(data_dir)

In [None]:
kowiki_dir = os.path.join(data_dir, "kowiki")
if not os.path.isdir(kowiki_dir):
    os.makedirs(kowiki_dir)
os.listdir(kowiki_dir)

# 말뭉치(한국어위키) 다운로드
- 한국어 위키 다운로드 및 전처리 후 보관하는 과정입니다.
- http://medialab.di.unipi.it/wiki/Wikipedia_Extractor (관련정보)
- https://github.com/attardi/wikiextractor (wiki extracotr script)
- https://dumps.wikimedia.org/ (위키 다운로드)

In [None]:
# 최신 kowiki dump 다운로드
!wget https://dumps.wikimedia.org/kowiki/latest/kowiki-latest-pages-articles.xml.bz2

In [None]:
# wikiextractor clone
!git clone https://github.com/attardi/wikiextractor.git

In [None]:
# wikiextractor 실행을 위해 wikiextractor 폴더로 이동
%cd wikiextractor
!pwd

In [None]:
# wiki extracotr 실행
!python -m wikiextractor.WikiExtractor ../kowiki-latest-pages-articles.xml.bz2 \
    --json \
    --output ../kowiki_json \
    --processes 3

In [None]:
# wikiextractor 실행 완료후 현재 폴더로 이동
%cd ..
!pwd

In [None]:
# json 폴더 목록 확인
dirnames = os.listdir('kowiki_json')
dirnames

In [None]:
# 폴더 이름순으로 정렬
dirnames = sorted(dirnames)
dirnames

In [None]:
# 전체 파일명 출력
for dirname in dirnames:
    dir = os.path.join('kowiki_json', dirname)
    print(dir)
    filenames = os.listdir(dir)
    filenames = sorted(filenames)
    print(filenames)

In [None]:
# 주제내 공백라인 삭제
def trim_text(text):
    output = []
    for line in text.split('\n'):
        line = line.strip()
        if line:
            output.append(line)
    return '\n'.join(output)

In [None]:
text = """지미카터
    지미 카터는 조지아주 섬터 카운티 플레인스 마을에서 태어났다.

조지아 공과대학교를 졸업하였다.
그 후 해군에 들어가 전함·원자력·잠수함의 승무원으로 일하였다.

1953년 미국 해군 대위로 예편하였고 이후 땅콩·면화 등을 가꿔 많은 돈을 벌었다.
그의 별명이 "땅콩 농부" (Peanut Farmer)로 알려졌다."""

print(trim_text(text))

In [None]:
# 한 파일의 데이터 확인
with open('/content/kowiki_json/AA/wiki_00') as reader:
    for line in reader:
        wiki = json.loads(line)
        print(wiki)

In [None]:
# 전체 파일을 하나의 파일로 저장
with open('kowiki.txt', 'w') as writer:
    for dirname in dirnames:
        dir = os.path.join('kowiki_json', dirname)
        print(dir)
        filenames = os.listdir(dir)
        filenames = sorted(filenames)
        for filename in filenames:
            filepath = os.path.join(dir, filename)
            with open(filepath) as reader:
                for line in reader:
                    wiki = json.loads(line)
                    writer.write(wiki['title'])
                    writer.write('\n')
                    writer.write(wiki['text'])
                    writer.write('\n')
                    writer.write('\n')
                    writer.write('\n')
                    writer.write('\n')

In [None]:
# 파일 확인
!ls -l

In [None]:
# 파일 압축
!zip kowiki.txt.zip kowiki.txt

In [None]:
# 압축파일 보관
shutil.move('kowiki.txt.zip', os.path.join(kowiki_dir , 'kowiki.txt.zip'))

In [None]:
# 파일목록 확인
os.listdir(kowiki_dir)