# 3. 단어 추출 word extraction

## 3-a. 단어 추출을 하는 이유
- 커뮤니티 text는 신조어, 은어가 많다.
- 토큰화를 하기 위해선, 신조어와 은어를 추출해야 한다.

## 3-b. 단어 추출 계획
1. text로만 이루어진 txt 파일 만들기
2. soynlp 의 WordExtractor 를 이용하여 단어 추출
3. 단어와 수치 데이터를 csv 파일로 저장

## 3-c. 단어 추출 진행

### 3-c-1. 파일 불러오기

In [1]:
import pandas as pd
df = pd.read_csv("2_spaced_text.csv", encoding="utf-8")
df.head(3)

Unnamed: 0,search_keyword,date_created,time_created,writer,is_reply,id,spaced_text
0,JYP,2023-06-13,12:50:42,ㅇㅇ,0,10100746844,jyp가반년만에 배가 올랏네 근디보니는인적자원위주로 하는 사업은먼ㅂㄹ걍제조업이조음
1,JYP,2023-05-16,17:52:40,ㅇㅇ(118.34),0,10100730087,야 개보지년들아 jyp 주가 봤냐 미쳣다 지금 개잡주 오르는건 그러려니 하는데 와 ...
2,JYP,2023-05-16,17:52:48,ㅇㅇ(118.34),1,10100730087,ㅠㅠ


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1133622 entries, 0 to 1133621
Data columns (total 7 columns):
 #   Column          Non-Null Count    Dtype 
---  ------          --------------    ----- 
 0   search_keyword  1133622 non-null  object
 1   date_created    1133622 non-null  object
 2   time_created    1133622 non-null  object
 3   writer          1133622 non-null  object
 4   is_reply        1133622 non-null  int64 
 5   id              1133622 non-null  int64 
 6   spaced_text     1133622 non-null  object
dtypes: int64(2), object(5)
memory usage: 60.5+ MB


### 3-c-2. corpus를 list 형태로 만든다

In [3]:
corpus = df['spaced_text'].tolist()

### 3-c-3. word_extractor 학습시키기

In [4]:
from soynlp.word import WordExtractor

word_extractor = WordExtractor(min_frequency=100,
    min_cohesion_forward=0.05, 
    min_right_branching_entropy=0.0
)
word_extractor.train(corpus) # list of str or like
words = word_extractor.extract()

training was done. used memory 3.435 Gb use memory 4.072 Gb
all cohesion probabilities was computed. # words = 59960
all branching entropies was computed # words = 1570734
all accessor variety was computed # words = 1570734


In [5]:
words['주식']

Scores(cohesion_forward=0.32426893842157706, cohesion_backward=0.08914439301179633, left_branching_entropy=4.927465840542019, right_branching_entropy=4.633951899155429, left_accessor_variety=660, right_accessor_variety=640, leftside_frequency=74529, rightside_frequency=4179)

In [7]:
len(words)

27941

### 3-c-4. word extraction 결과 출력

In [42]:
# 결과 출력

import math

def word_score(score):
    return (score.cohesion_forward * math.exp(score.right_branching_entropy))

print('단어   (빈도수, cohesion, branching entropy, word_score)\n')
for word, score in sorted(words.items(), key=lambda x:word_score(x[1]), reverse=True)[14000:16000]:
    print('%s     (%d, %.3f, %.3f, %.3f)' % (
            word, 
            score.leftside_frequency, 
            score.cohesion_forward,
            score.right_branching_entropy,
            word_score(score)
            )
         )

단어   (빈도수, cohesion, branching entropy, word_score)

인수에     (371, 0.057, 2.985, 1.118)
천억에     (110, 0.061, 2.906, 1.118)
전통시장     (106, 0.084, 2.584, 1.118)
알아야     (543, 0.104, 2.374, 1.118)
엑스컴     (172, 0.229, 1.584, 1.118)
친인척     (131, 0.109, 2.326, 1.118)
요소로     (122, 0.069, 2.778, 1.117)
네임드     (161, 0.066, 2.831, 1.117)
날아가는거     (111, 0.308, 1.287, 1.117)
포드는     (139, 0.059, 2.946, 1.116)
의장     (2065, 0.053, 3.049, 1.116)
pac     (155, 0.070, 2.776, 1.116)
연준은     (157, 0.050, 3.098, 1.116)
매수에     (345, 0.054, 3.024, 1.115)
파월이     (123, 0.059, 2.938, 1.115)
본격     (5003, 0.184, 1.802, 1.115)
일본에     (1659, 0.124, 2.199, 1.115)
sc제형     (120, 0.112, 2.297, 1.115)
날아     (2663, 0.217, 1.637, 1.114)
불공정     (328, 0.092, 2.494, 1.114)
바이     (30486, 0.405, 1.011, 1.114)
간담회를     (104, 0.177, 1.841, 1.114)
역사     (2769, 0.107, 2.340, 1.114)
구경하는     (105, 0.131, 2.142, 1.114)
서든어택     (140, 0.138, 2.089, 1.113)
제로금리     (103, 0.102, 2.391, 1.113)
대안으로     (104, 0.077, 2.667

### 3-c-5. threshold 판단
- 눈으로 직접 살펴보며, 무의미한 결과를 거를 word_score의 threshold를 정한다
- 살펴본 결과. word_score >= 0.895 인 값만 유의미한 데이터로 간주한다
- 결과 dict : scored_words

In [46]:
threshold = 0.895
# threshold 를 기준으로 dictionary 생성
scored_words = {word: word_score(score) for word, score in words.items() if word_score(score) >= threshold}

print(scored_words)

{'선정': 2.387611710994185, '팀장': 3.4850607648750818, '였다': 37.97139479637932, 'be': 1.5614350942316297, '해야': 3.6486358519509023, '말이': 5.346888029765904, '폐쇄': 6.1517922465833985, '활용': 6.6976218470182705, '맨날': 152.49678185700432, 'ㅈㄹ': 2.3432100922114305, '냉각': 0.9149628222285909, '향후': 53.61825873328721, '결제': 3.1547384676517947, '삶이': 3.9191466347033095, '워낙': 25.13698533042061, '공급': 5.373732791086956, '늦게': 17.503362763322958, '껴서': 14.217699588866315, '욕하': 1.1067984674635838, '권고': 3.289436633096929, '확산': 1.8345596056381694, 'ft': 3.6109184669039096, '층이': 8.593651989792052, '독일': 18.03531590539151, '보유': 1.9617681097296031, '섞어': 3.7264048778777985, '짓을': 1.4402773744611934, '탱커': 6.625721791845611, '수급': 2.536027009558652, '경영': 1.780840450660691, 'ㅈㄴ': 56.41557250069011, '높아': 2.193843032546588, 'me': 3.6425801245076155, '찾기': 1.1738345831152261, '누구': 2.864699590826406, '응원': 1.4613202769485627, '채용': 5.945193325437412, '같다': 12.850734726730485, '줍는': 1.7107402057982048, '

In [47]:
len(scored_words)

15088

## 3-d. 단어 정제
1. 영어 포함된 단어 정제
  - 특수한 경우이므로, 프로세스를 나누어 진행한다
2. 조사 포함된 단어 제거
  - "sk텔레콤에" 처럼 조사가 붙은 단어들을 제거한다.
  - 단어 끝에 붙은 조사 처리 : "은", "는", "으로", "이다", "합니다", "였다", "에", "와", "과"
  - list를 뽑아보고, 예외로 처리할 게 있는지 판단한다.
  - "이/가"는 "시가" 같은 멀쩡한 단어를 쪼갤 수 있으니, 진행하지 않거나 주의한다.
    

### 3-d-1. 단어 정제 : 영어가 포함된 단어
- 영어가 포함된 단어들을 리스트로 뽑아보고, 유의미한 단어를 선정한다
- 일반적으로 쓰이는 영어는 굳이 하지 않는다
- 무의미한 단어는 리스트에서 제거한다.
- 결과 dict : scored_words_2

In [57]:
import re

def contains_english(key):
    # 키 값에 영어 알파벳이 하나라도 포함되어 있는지 확인
    return bool(re.search(r'[a-zA-Z]', key))

# 영어 알파벳이 포함된 키들만 추출
english_included_keys = [key for key in scored_words.keys() if contains_english(key)]

print(english_included_keys)
# for key, value in scored_words.items():
#     if contains_english(key):
#         print(f"{key}: {value}")

['be', 'ft', 'me', 'vs', 'to', 'yg', 'am', 'ro', 'ce', 'qq', 'et', 'kr', 're', 'd램', 'da', 'or', 'as', 'ra', 'up', 'ar', 'de', 'gs', 'ho', 'eu', 'oe', 'fa', 'ts', 'ze', 'ui', 'ir', 'mo', 'in', 'ip', 'of', 'he', 'mm', 'ht', 'ai', 'ne', 'cj', 'fo', 'ot', 'en', '린m', 'sm', 'ca', 'ma', 'zz', 'bm', 'mi', 'we', 'vi', 'dr', 'ww', 'th', 'te', 'tv', 'it', 'un', 'an', 'wh', 'ms', 'kb', 'dc', 'xx', 'kt', 'pc', 'na', 'us', '억j', 'xl', 'gm', 'po', 'co', 'no', 'nc', 'ev', 'es', 'lg', 'al', 'yo', 'xp', 'on', 'sk', 'op', 'ba', 'fps', 'ess', 'top', 'dls', 'cns', 'skb', 'ios', 'yg는', 'ter', 'one', 'nft', 'kwh', 'use', 'app', 'has', 'uam', 'vip', 'ubs', 'gmp', 'a씨가', 'api', 'ddd', 'rsi', 'amc', 'sk는', 'abs', 'com', 'nhn', 'kai', 'arm', 'net', 'gwh', 'non', 'est', 'mit', 'mac', 'etn', 'bio', 'jyp', 'hbm', 'ip로', 'etf', 'ira', 'sbs', 'hit', 'pcb', 'lng', 'aid', 'dna', 'skt', 'ing', 'ent', 'ip의', 'yes', 'pac', 'oil', 'fta', 'gen', 'lgd', 'ark', 'lpg', 'rpg', 'ott', 'ear', 'her', 'd램을', 'lgu', 'bbb', 'end', 

In [62]:
len(english_included_keys)

811

In [61]:
# 육안으로 유의미한 단어 판단하기
# 유의미하다고 판단한 단어 리스트
selected_words = ['d램', '린m', 'ai', 'ip', 'ui', 'up', 'lg', 'yg', 'sm', 'kb', 'sk', 'nc', 'z세대', 'nhn', 'ios', 'fps', 'app', 'vip', 'api', 
                  'rsi', 'abs', 'arm', 'skt', 'ent', 'net', 'mac', 'bio', 'jyp', 'etf', 'sbs', 'lng', 'oil', 'lgd', 'lpg', 'rpg', 'ott', 
                  'lgu', 'sdi', 'gif', 'npc', 'cpi', 'amd', 'txt', 'pop', 'ssd', 'nct', 'bts', 'uae', 'nxp', 'ame', 'ceo', 'fda', 'ibm', 
                  'mou', 'cgv', 'wto', 'dmz', 'ytn', 'hdc', 'gme', 'hlb', 'lcd', 'cmo', 'fta',  'k리그', 'ict', 'mbc', 'bmw', 'byd', 'nft',
                  'suv', 'usd', 'vpn', 'qld', 'ipo', 'krx', 'web', 'eps', 'pc방', 'qoq', 'yoy', 'ytd', 'voo', 'it주', 'inc', 'gtx', 'fed', 
                  '모델y', 'pvp', 'itc', 'hmm', 'kia', 'jpg', 'euv', 'tsla', 'mrna', 'long', 'mz세대', 'mega', 'qled', 'soxx', 'sc제형', 
                  'cj그룹', '챗gpt', '아모레g', 'oecd', 'dram', 'sk하닉', 'lg디플', 'fact', '리니지w', 'edgc', 'view', 'kb금융', 'lg전자',
                  'cnbc', 'ls산전', 'ymtc', 'e커머스', 'it업계', 'cb전환', 'sk가스', 'tsmc', '카카오t', 'gs건설', 'sk온', 'oled', 'hpsp', 
                  'yg엔터', '삼sdi', 'lg엔솔', 'k배터리', 'ls전선', 'ford', 'imf', 'will', 'sk그룹', 'lg그룹', '고per', '저per', 'pc게임', 
                  'opec', 'soxs', '한국gm', 'gdp', 'k바이오', 'mlcc', 'catl', 'lg화학', 'pick', 'it기업', '리니지m', 'unit', 'sk이노', 
                  'sk바사', '갤럭시s', 'e스포츠', 'kb증권', 'lges', 'it부품', 'sm엔터', 'corp', 'cweb', 'qqq', 'tqqq', 'line', 'sk증권', 
                  'call', 'hsbc', 'asml', 'cctv', 'free', 'fomc', 'clsa', 'sns', 'feat', 'smic', 'fomo', 'html', 'cent', 'news', 'kpop', 
                  'good', 'cdmo', 'it버블', 'jp모건', 'msci', 'ncma', 'down', 'gs그룹', 'none', '코나ev', 'http', 'lg상사', 'soxl', 
                  'ftse', 'kcgi', 'lg생건', 'qr코드', 'meta', 'jtbc', '카카오m', 'fngu', 'pbr', 'jp모간', 'sqqq', '램시마sc', 'tesla', 
                  'sk케미칼', 'gs칼텍스', 'image', 'lg이노텍', 'price', 'kg케미칼', '우수ams', 'sk스퀘어', 'pc온라인', 'dl이앤씨', 
                  'https', 'db하이텍', '삼성sdi', 'sk에너지', 'short', '원익ips', 'sk렌터카', '한전kps', 'gc녹십자', 'kc코트렐', 'honda', 
                  'hynix', '트릭스터m', 'sk텔레콤', '효성itx', 'naver', '포스코dx', 'it소프트', 'gs홈쇼핑', 'intel', 'spc삼립', 'jyp엔터',  
                  'posco', 'sk디앤디', 'ap시스템', 'cmg제약', 'covid', 'nhtsa', 'kt모바일', 'rfhic', 'kospi', '현대hcn', 'money', 'kodex', 
                  'kosef', 'index', 'tcc스틸', 'ratio', '삼성sds', 'hk이노엔', 'value', 'stock', 'it기업들', 'skiet', 'lg배터리', 'ak홀딩스', 
                  'lx세미콘', 'under', 'gs리테일', 'lg화학우', 'ssg닷컴', 'point', 'sk실트론', 'nc소프트', '스페이스x', 'micron',
                  'sk바이오팜', 'nasdaq', 'lx하우시스', 'ebitda', 'kb자산운용', 'profit', 'recall', 'ds투자증권', 'db손해보험', 'ceo스코어', 
                  'mmorpg', 'google', 'cj헬로비전', 'sfa반도체', 'lg생활건강', 'lg하우시스', 'lig넥스원', '텔콘rf제약', 'kbstar', 
                  'jw중외제약', 'lg유플러스', 'nh투자증권', 'motors', '램시마sc', 'toyota', 'sk네트웍스', 'mobile', 'kb국민은행', 'nvidia', 
                  'kindex', '포스코ict', 'sne리서치', '삼성sdi와', 'market', 'pi첨단소재', 'hanaro', 'kg이니시스', 'db금융투자', 'sk하이닉스', 
                  'cj대한통운', 'kosdaq', 'jb금융지주', 'margin', 'bgf리테일', 'kg동부제철', 'cj제일제당', '아프리카tv', 'kpx생명과학', 
                  'mbk파트너스', 'hyundai', 'finance', 'battery', 'sk디스커버리', 'ktb투자증권', 'dgb금융지주', 'sk브로드밴드', 'samsung', 
                  'arirang', 'sk이노베이션', 'sk머티리얼즈', 'initial', 'lg디스플레이', 'cj프레시웨이', 'bnk금융지주',' ibk투자증권', 
                  'ls전선아시아', 'posco홀딩스', 'nice평가정보', 'earnings', 'skc코오롱pi', 'lg에너지솔루션', 'sm엔터테인먼트', 'analysis', 
                  'jyp엔터테인먼트',  'valuation', 'nhn엔터테인먼트', 'jcn울산중앙방송', 'hdc현대산업개발', 'sk바이오사이언스']

In [63]:
len(selected_words)

353

In [72]:
# english_included_keys 에서 selected_words 로 선정된 원소 제거하기
filter = [item for item in english_included_keys if item not in selected_words]
filter
len(filter)

462

In [76]:
# scored_words 에 적용
def remove_matching_keys(dictionary, key_list):
    """
    딕셔너리에서 주어진 키 리스트에 일치하는 키-값 쌍을 제거합니다.

    :param dictionary: 수정할 딕셔너리
    :param key_list: 제거할 키들의 리스트
    :return: 수정된 딕셔너리
    """
    return {k: v for k, v in dictionary.items() if k not in key_list}

# 함수 적용
scored_words_2 = remove_matching_keys(scored_words, filter)
len(scored_words_2)

14626

### 3-d-2. 단어 정제 : 조사가 포함된 단어

{'선정': 2.387611710994185,
 '팀장': 3.4850607648750818,
 '였다': 37.97139479637932,
 '해야': 3.6486358519509023,
 '말이': 5.346888029765904,
 '폐쇄': 6.1517922465833985,
 '활용': 6.6976218470182705,
 '맨날': 152.49678185700432,
 'ㅈㄹ': 2.3432100922114305,
 '냉각': 0.9149628222285909,
 '향후': 53.61825873328721,
 '결제': 3.1547384676517947,
 '삶이': 3.9191466347033095,
 '워낙': 25.13698533042061,
 '공급': 5.373732791086956,
 '늦게': 17.503362763322958,
 '껴서': 14.217699588866315,
 '욕하': 1.1067984674635838,
 '권고': 3.289436633096929,
 '확산': 1.8345596056381694,
 '층이': 8.593651989792052,
 '독일': 18.03531590539151,
 '보유': 1.9617681097296031,
 '섞어': 3.7264048778777985,
 '짓을': 1.4402773744611934,
 '탱커': 6.625721791845611,
 '수급': 2.536027009558652,
 '경영': 1.780840450660691,
 'ㅈㄴ': 56.41557250069011,
 '높아': 2.193843032546588,
 '찾기': 1.1738345831152261,
 '누구': 2.864699590826406,
 '응원': 1.4613202769485627,
 '채용': 5.945193325437412,
 '같다': 12.850734726730485,
 '줍는': 1.7107402057982048,
 '뽑은': 1.1121995152528543,
 '찍어': 1.29620556

In [78]:
key_list = list(scored_words_2.keys())
len(key_list)

14626

In [80]:
# 특정 문자열로 끝나는 단어 리턴
def find_endswith(input_list, endswith):
    result = [item for item in input_list if item.endswith(endswith)]
    return result
find_endswith(key_list, "는")

['줍는',
 '드는',
 '뜨는',
 '묻는',
 '갚는',
 '붙는',
 '나는',
 '겪는',
 '먹는',
 '걔는',
 '않는',
 '듣는',
 '푸는',
 '되는',
 '쩌는',
 '끄는',
 '잡는',
 '튀는',
 '또는',
 '낳는',
 '쏘는',
 '읽는',
 '넣는',
 '얘는',
 '쓰는',
 '맞는',
 '띄는',
 '버는',
 '걷는',
 '타는',
 '갖는',
 '돕는',
 '없는',
 '넘는',
 '파는',
 '짓는',
 '잇는',
 '쉬는',
 '쟤는',
 '있는',
 '받는',
 '얻는',
 '믿는',
 '하는',
 '찾는',
 '라는',
 '까는',
 '뛰는',
 '닫는',
 '잃는',
 '뽑는',
 '싸다는',
 '기아는',
 '변화는',
 '뭐하는',
 '오르는',
 '끝나는',
 '판매는',
 '내리는',
 '포드는',
 '안되는',
 '여기는',
 '뒤지는',
 '프로는',
 '팔리는',
 '만드는',
 '산다는',
 '규모는',
 '살리는',
 '좋다는',
 '피해는',
 '쳐박는',
 '욕하는',
 '약파는',
 '대표는',
 '근거는',
 '증가는',
 '누르는',
 '회사는',
 '갈리는',
 '돈되는',
 '현대는',
 '경제는',
 '꼽히는',
 '모으는',
 '본다는',
 '밀리는',
 '빠지는',
 '했다는',
 '이제는',
 '미래는',
 '한다는',
 '달라는',
 '잘되는',
 '즐기는',
 '자체는',
 '나서는',
 '말로는',
 '떠나는',
 '일에는',
 '뜻하는',
 '띄우는',
 '많다는',
 '나라는',
 '바뀌는',
 '못버는',
 '월에는',
 '수요는',
 '크다는',
 '장비는',
 '버스는',
 '나오는',
 '모르는',
 '거라는',
 '고르는',
 '맞추는',
 '까지는',
 '않다는',
 '요새는',
 '떨구는',
 '올해는',
 '노조는',
 '처먹는',
 '격차는',
 '단타는',
 '승자는',
 '분야는',
 '치솟는',
 '불리는',
 '주가는',
 '셀트는',
 '친

['는',
 '줍는',
 '드는',
 '뜨는',
 '묻는',
 '갚는',
 '붙는',
 '나는',
 '겪는',
 '먹는',
 '걔는',
 '않는',
 '샀는',
 '듣는',
 '됐는',
 '푸는',
 '되는',
 '죽는',
 '왔는',
 '봤는',
 '쩌는',
 '끄는',
 '잡는',
 '냈는',
 '튀는',
 '또는',
 '낳는',
 '쏘는',
 '읽는',
 '넣는',
 '쳤는',
 '얘는',
 '쓰는',
 '쌓는',
 '맞는',
 '탔는',
 '찍는',
 '띄는',
 '뚫는',
 '삿는',
 '버는',
 '걷는',
 '꼽는',
 '했는',
 '썼는',
 '타는',
 '갖는',
 '돕는',
 '없는',
 '떴는',
 '줬는',
 '맡는',
 '넘는',
 '됬는',
 '파는',
 '짓는',
 '잇는',
 '쉬는',
 '쟤는',
 '있는',
 '였는',
 '받는',
 '얻는',
 '믿는',
 '났는',
 '하는',
 '갔는',
 '찾는',
 '햇는',
 '라는',
 '까는',
 '뛰는',
 '닫는',
 '잃는',
 '뽑는',
 '싸다는',
 '기아는',
 '변화는',
 '뭐하는',
 '털었는',
 '오르는',
 'yg는',
 '끝나는',
 '판매는',
 '담았는',
 '내리는',
 '포드는',
 '안되는',
 '왜하는',
 '여기는',
 '뒤지는',
 '프로는',
 '팔리는',
 '만드는',
 '산다는',
 '규모는',
 '살리는',
 '머하는',
 '돈없는',
 '좋다는',
 '피해는',
 '쳐박는',
 '욕하는',
 '약파는',
 '대표는',
 '근거는',
 '증가는',
 '나왔는',
 '누르는',
 '회사는',
 '벌었는',
 '갈리는',
 'sk는',
 '돈되는',
 '현대는',
 '경제는',
 '꼽히는',
 '모으는',
 '본다는',
 '밀리는',
 '먹었는',
 '떠뜨는',
 '않았는',
 '받았는',
 '빠지는',
 '해봤는',
 '했다는',
 '이제는',
 '미래는',
 '한다는',
 '달라는',
 '잘되는',
 '몰랐는',
 '즐기는',
 '자체

### 결과 - endwith = "는"
- "하는", "했는"

In [30]:
find_endswith(key_list, "하는")

['하는',
 '뭐하는',
 '왜하는',
 '머하는',
 '욕하는',
 '뜻하는',
 '당하는',
 '망하는',
 '못하는',
 '일하는',
 '통하는',
 '달하는',
 '피하는',
 '변하는',
 '잘하는',
 '말하는',
 '원하는',
 '안하는',
 '상회하는',
 '선호하는',
 '강화하는',
 '반등하는',
 '사야하는',
 '등장하는',
 '금지하는',
 '납품하는',
 '상장하는',
 '결정하는',
 '노력하는',
 '따라하는',
 '반복하는',
 '평가하는',
 '매각하는',
 '근무하는',
 '차지하는',
 '확장하는',
 '연구하는',
 '발표하는',
 '운용하는',
 '주도하는',
 '베팅하는',
 '추구하는',
 '영위하는',
 '착각하는',
 '생각하는',
 '대응하는',
 '매매하는',
 '홀딩하는',
 '이해하는',
 '위협하는',
 '폭등하는',
 '증가하는',
 '급락하는',
 '운영하는',
 '대표하는',
 '매수하는',
 '제시하는',
 '횡보하는',
 '제조하는',
 '담당하는',
 '진행하는',
 '싫어하는',
 '발행하는',
 '하락하는',
 '집중하는',
 '존재하는',
 '공급하는',
 '확보하는',
 '지원하는',
 '탈출하는',
 '고민하는',
 '장투하는',
 '유지하는',
 '공유하는',
 '지급하는',
 '확대하는',
 '떡락하는',
 '투자하는',
 '공부하는',
 '돌파하는',
 '좋아하는',
 '기록하는',
 '진출하는',
 '사랑하는',
 '사업하는',
 '구매하는',
 '선택하는',
 '해야하는',
 '적용하는',
 '요구하는',
 '이용하는',
 '확인하는',
 '예측하는',
 '주장하는',
 '변화하는',
 '방어하는',
 '추락하는',
 '몰빵하는',
 '경쟁하는',
 '걱정하는',
 '활동하는',
 '접근하는',
 '소리하는',
 '비교하는',
 '인증하는',
 '성공하는',
 '보유하는',
 '언급하는',
 '추종하는',
 '설명하는',
 '제한하는',
 '구축하는',
 '인정하는',
 '

## 3-e. 단어 리스트를 파일로 저장

### 3-e-1. 파일로 저장하기

In [82]:
# 파일로 저장
filename = "word_list.txt"
with open(filename, "w", encoding="utf-8") as file:
    for word in key_list:
        file.write(word + "\n")

print("파일 저장 완료.")

파일 저장 완료.


### 3-e-2. 불러와서 확인하기

In [83]:
# 불러올 파일명 지정
filename = "word_list.txt"

# 파일로부터 문자열 리스트 불러오기
with open(filename, "r", encoding="utf-8") as file:
    word_list = [line.rstrip('\n') for line in file]

print("불러온 문자열 리스트:")
print(word_list)

불러온 문자열 리스트:
['선정', '팀장', '였다', '해야', '말이', '폐쇄', '활용', '맨날', 'ㅈㄹ', '냉각', '향후', '결제', '삶이', '워낙', '공급', '늦게', '껴서', '욕하', '권고', '확산', '층이', '독일', '보유', '섞어', '짓을', '탱커', '수급', '경영', 'ㅈㄴ', '높아', '찾기', '누구', '응원', '채용', '같다', '줍는', '뽑은', '찍어', '틱톡', '양전', '잡고', '뜻임', '데뷔', '싼데', '각자', '층은', '일부', '날아', '간다', '드는', '콜마', '교환', '뜨는', '힐스', '딴데', '실제', '병원', '꽁돈', '끝나', '홍보', '늦은', '방탄', '쌓인', '받을', '뿐이', '탄생', '칵테', '낼은', '휫짜', '청산', '매매', '엘화', '애미', '효성', '셋다', '늘어', '국가', '막상', '철강', '부분', '가지', '아이', '그런', '끌고', '흥행', '첫날', '적자', '아닌', '칠레', '없고', '치킨', '줄이', 'ㅅㄱ', '추진', '듭니', '루닛', '측에', '뻘글', '장비', '영업', '펀드', '엄마', '늙은', '취업', '달리', '묻는', '국장', 'yg', '발표', '빗썸', '벚꽃', '띠용', '엄청', '도시', '도입', '갚는', '다음', '던지', '프로', '행복', '휴가', '많아', '끼리', '네이', '끌어', '꺼억', '설치', '안랩', '붙는', '낮아', '칩스', '산거', '엣지', '잇다', '웹젠', '셔틀', '댄스', '구조', '누적', '쏘카', '뷰티', '물린', '파이', '로아', '큰거', '것을', '특허', '비교', '점에', '캡처', '예상', '내일', 'ㄱㅊ', '온다', '유저', '낸다', '쌍용', '긴급', '짜리', '나는', '종합', '팍팍', '편입', '맞다', '걔

## 3-f. 함수화
- 함수로 만들어 재사용 가능하도록 만든다.