# 3. 단어 추출 word extraction

## 3-a. 단어 추출을 하는 이유
- 커뮤니티 text는 신조어, 은어가 많다.
- 토큰화를 하기 위해선, 신조어와 은어를 추출해야 한다.

## 3-b. 단어 추출 계획
1. text로만 이루어진 txt 파일 만들기
2. soynlp 의 WordExtractor 를 이용하여 단어 추출
3. 단어와 수치 데이터를 csv 파일로 저장

## 3-c. 단어 추출 진행

### 3-c-1. 파일 불러오기

In [23]:
import pandas as pd
df = pd.read_csv("2_spaced_text.csv", encoding="utf-8")
df.head(3)

Unnamed: 0,search_keyword,date_created,time_created,writer,is_reply,id,spaced_text
0,JYP,2023-06-13,12:50:42,ㅇㅇ,0,10100746844,jyp가반년만에 배가 올랏네 근디보니는인적자원위주로 하는 사업은먼ㅂㄹ걍제조업이조음
1,JYP,2023-05-16,17:52:40,ㅇㅇ(118.34),0,10100730087,야 개보지년들아 jyp 주가 봤냐 미쳣다 지금 개잡주 오르는건 그러려니 하는데 와 ...
2,JYP,2023-05-16,17:52:48,ㅇㅇ(118.34),1,10100730087,ㅠㅠ


In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1133622 entries, 0 to 1133621
Data columns (total 7 columns):
 #   Column          Non-Null Count    Dtype 
---  ------          --------------    ----- 
 0   search_keyword  1133622 non-null  object
 1   date_created    1133622 non-null  object
 2   time_created    1133622 non-null  object
 3   writer          1133622 non-null  object
 4   is_reply        1133622 non-null  int64 
 5   id              1133622 non-null  int64 
 6   spaced_text     1133622 non-null  object
dtypes: int64(2), object(5)
memory usage: 60.5+ MB


### 3-c-2. corpus를 list 형태로 만든다

In [25]:
corpus = df['spaced_text'].tolist()

### 3-c-3. word_extractor 학습시키기

In [26]:
from soynlp.word import WordExtractor

word_extractor = WordExtractor(min_frequency=100,
    min_cohesion_forward=0.05, 
    min_right_branching_entropy=0.0
)
word_extractor.train(corpus) # list of str or like
words = word_extractor.extract()

training ... (800000 in 1133622 sents) use memory 4.894 Gb

MemoryError: 

In [20]:
words['주식']

Scores(cohesion_forward=0.32426893842157706, cohesion_backward=0.08914439301179633, left_branching_entropy=4.927465840542019, right_branching_entropy=4.633951899155429, left_accessor_variety=660, right_accessor_variety=640, leftside_frequency=74529, rightside_frequency=4179)

In [21]:
len(words)

27941

### 3-c-4. word extraction 결과 출력

In [22]:
# 결과 출력

import math

def word_score(score):
    return (score.cohesion_forward * math.exp(score.right_branching_entropy))

print('단어   (빈도수, cohesion, branching entropy)\n')
for word, score in sorted(words.items(), key=lambda x:word_score(x[1]), reverse=True)[:300]:
    print('%s     (%d, %.3f, %.3f)' % (
            word, 
            score.leftside_frequency, 
            score.cohesion_forward,
            score.right_branching_entropy
            )
         )

단어   (빈도수, cohesion, branching entropy)

ㅋㅋㅋ     (126375, 0.818, 5.302)
갑자기     (4026, 0.743, 5.332)
맨날     (2950, 0.812, 5.235)
으로     (5057, 0.616, 5.494)
때문에     (12534, 0.611, 5.465)
먼저     (4405, 0.722, 5.275)
됩니다     (1721, 0.951, 4.965)
ㄹㅇ     (20779, 0.981, 4.883)
죄다     (2300, 0.655, 5.253)
함께     (6111, 0.629, 5.285)
펄어비스     (27569, 0.964, 4.856)
솔직히     (6165, 0.720, 5.131)
까지     (7506, 0.487, 5.510)
프로     (17126, 0.636, 5.231)
된다     (9011, 0.794, 5.008)
봅니다     (1120, 0.938, 4.798)
존나     (28457, 0.699, 5.090)
잖아     (122, 0.803, 4.938)
카카오     (100531, 0.904, 4.810)
진짜     (33619, 0.462, 5.473)
근데     (26372, 0.665, 5.092)
ㅠㅠ     (13874, 0.917, 4.753)
땜에     (546, 0.769, 4.923)
ㅜㅜ     (4093, 0.890, 4.775)
캬ㅋㅋㅋ     (7079, 0.959, 4.672)
넷마블     (15633, 0.909, 4.713)
셀트리온     (57220, 0.805, 4.831)
ㅇㅇ     (23092, 0.697, 4.975)
ㅉㅉ     (1403, 0.952, 4.606)
굳이     (2155, 0.721, 4.864)
너무     (21702, 0.681, 4.901)
뱅크     (967, 0.735, 4.817)
컴투스     (8737, 0.842, 4.677)
하이닉스   

## 3-d. word extraction 결과를 토대로, 앞으로의 프로세스 계획하기
1. 불용어 처리
   - 단어 끝에 붙은 조사 처리
       - "은", "는", "으로", "이다", 
       - list를 뽑아보고, 예외로 처리할 게 있는지 판단한다.
       - "이/가"는 "시가" 같은 멀쩡한 단어를 쪼갤 수 있으니, 진행하지 않거나 주의한다.
       - 

## 3-d. 함수화
- 함수로 만들어 재사용 가능하도록 만든다.