# 2. 띄어쓰기 spacing

## 2-a. 띄어쓰기를 하는 이유
- 커뮤니티 text는 띄어쓰기가 잘 되어있지 않다
- 원활한 word extraction을 위해 띄어쓰기를 해주어 단어의 경계를 그어준다
- 사용할 라이브러리 : soynlp
    - 모든 text를 원하는 대로 띄어쓰기 해주는 것은 아니다.
    - 하지만 원하지 않는 방향으로 띄어쓰기 하는 일은 거의 없다
    - 다음 공정에 조금이라도 도움을 주기 위한 프로세스이다.

## 2-b. 띄어쓰기 계획
1. text로만 이루어진 txt 파일 만들기
2. spacing 모델 학습
3. spacing 모델을 파일로 저장한다
4. 함수화
    1. spacing 모델을 불러온다
    2. 기존의 파일에 적용한다 
    3. 새로운 파일을 만든다

## 2-c. 띄어쓰기 진행

### 2-c-1. 파일 불러오기

In [1]:
import pandas as pd
df = pd.read_csv("1_cleansed_text.csv", encoding="utf-8")
df.head(3)

Unnamed: 0,search_keyword,date_created,time_created,writer,is_reply,id,cleansed_text
0,JYP,2023-06-13,12:50:42,ㅇㅇ,0,10100746844,jyp가반년만에 배가올랏네 근디보니는인적자원위주로하는사업은먼ㅂㄹ걍제조업이조음
1,JYP,2023-05-16,17:52:40,ㅇㅇ(118.34),0,10100730087,야 개보지년들아 jyp 주가 봤냐 미쳣다 지금 개잡주 오르는건 그러려니 하는데와 진...
2,JYP,2023-05-16,17:52:48,ㅇㅇ(118.34),1,10100730087,ㅠㅠ


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1133622 entries, 0 to 1133621
Data columns (total 7 columns):
 #   Column          Non-Null Count    Dtype 
---  ------          --------------    ----- 
 0   search_keyword  1133622 non-null  object
 1   date_created    1133622 non-null  object
 2   time_created    1133622 non-null  object
 3   writer          1133622 non-null  object
 4   is_reply        1133622 non-null  int64 
 5   id              1133622 non-null  int64 
 6   cleansed_text   1133622 non-null  object
dtypes: int64(2), object(5)
memory usage: 60.5+ MB


### 2-c-2. 말뭉치만 txt로 저장한다 (단어 추출을 위해서)

In [3]:
texts = df['cleansed_text'].tolist()

# txt 파일로 저장
with open('2_cleansed_corpus.txt', 'w', encoding='utf-8') as file:
    for text in texts:
        file.write(text + '\n')

### 2-c-3. spacing 모델 학습

In [4]:
from soyspacing.countbase import CountSpace

# spacing 모델 학습시키기
corpus_fname = '2_cleansed_corpus.txt'  # 입력 말뭉치 파일
model = CountSpace()
model.train(corpus_fname)  # spacing 모델 학습

all tags length = 3089508 --> 2119629, (num_doc = 1133621)

### 2-c-4. spacing 모델 파일로 저장

In [5]:
# 학습된 spacing 모델 파일로 저장하기
model_fname = "2_spacing_model"
model.save_model(model_fname, json_format=False)

### 2-c-5. 저장된 spacing 모델 불러오기

In [6]:
# spacing 모델 파일 불러오기
from soyspacing.countbase import CountSpace

model_fname = "2_spacing_model"
model = CountSpace()
model.load_model(model_fname, json_format=False)

### 2-c-6. spacing 함수 정의

In [7]:
# spacing 함수
def get_spaced_text(input_text):
    # parameters
    verbose=False
    mc = 10   # min_count
    ft = 0.3  # force_abs_threshold
    nt =-0.3  # nonspace_threshold
    st = 0.3  # space_threshold

    # with parameters
    spaced_text, tags = model.correct(
        doc=input_text,
        verbose=verbose,
        force_abs_threshold=ft,
        nonspace_threshold=nt,
        space_threshold=st,
        min_count=mc)

    return spaced_text

### 2-c-7. spacing 함수 테스트

In [11]:
# 테스트
input_text = '행님댓글읽다보니까수급+a로가야살아남을확률이높아지는거구나싶긴함요즘수급만보고매매하는거에한계를느끼긴했음ㅠㅠ글구최근에해운이랑철강한번오고담주는건설일것같음'
print(get_spaced_text(input_text))

행님댓글읽다보니까 수급+a로가야살아남을확률이 높아지는거구나 싶긴함요즘수급만 보고 매매하는거에 한계를 느끼긴했음 ㅠㅠ글구최근에해운이랑철강한번 오고담주는건설일것같음


### 2-c-8. csv 파일에 spacing 적용시키기

In [12]:
# .csv 파일 불러오기
import pandas as pd
df = pd.read_csv("1_cleansed_text.csv", encoding="utf-8")
df.head(3)

Unnamed: 0,search_keyword,date_created,time_created,writer,is_reply,id,cleansed_text
0,JYP,2023-06-13,12:50:42,ㅇㅇ,0,10100746844,jyp가반년만에 배가올랏네 근디보니는인적자원위주로하는사업은먼ㅂㄹ걍제조업이조음
1,JYP,2023-05-16,17:52:40,ㅇㅇ(118.34),0,10100730087,야 개보지년들아 jyp 주가 봤냐 미쳣다 지금 개잡주 오르는건 그러려니 하는데와 진...
2,JYP,2023-05-16,17:52:48,ㅇㅇ(118.34),1,10100730087,ㅠㅠ


In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1133622 entries, 0 to 1133621
Data columns (total 7 columns):
 #   Column          Non-Null Count    Dtype 
---  ------          --------------    ----- 
 0   search_keyword  1133622 non-null  object
 1   date_created    1133622 non-null  object
 2   time_created    1133622 non-null  object
 3   writer          1133622 non-null  object
 4   is_reply        1133622 non-null  int64 
 5   id              1133622 non-null  int64 
 6   cleansed_text   1133622 non-null  object
dtypes: int64(2), object(5)
memory usage: 60.5+ MB


In [14]:
# df의 칼럼에 spacing 적용시키기
df['spaced_text'] = df['cleansed_text'].apply(get_spaced_text)
df.head(3)

Unnamed: 0,search_keyword,date_created,time_created,writer,is_reply,id,cleansed_text,spaced_text
1133617,휴젤,2020-04-30,20:08:57,사이버경찰,1,241400137263,갤 잘못온듯,갤 잘못온듯
1133618,휴젤,2020-04-30,20:09:36,윤연준(211.108),1,241400137263,ccl 지금 시총 반도안되는 개잡주들 천지인즛,ccl 지금 시총 반도 안되는 개잡주들 천지인즛
1133619,휴젤,2020-04-29,11:55:10,ㅇㅇ(123.215),0,241400125127,미국주식보다 한국꺼보면 ㄹㅇ 암걸릴 것 같음 특히 휴젤 저거 아는분이 임원진인데 회...,미국주식보다 한국꺼보면 ㄹㅇ 암걸릴 것 같음 특히 휴젤 저거 아는분이 임원진인데 회...
1133620,휴젤,2020-04-29,11:56:16,ㅇㄷ(175.223),1,241400125127,한국 상장회사들중에 ㅂㅅ은곳이 넘 많음,한국 상장회사들중에 ㅂㅅ은곳이 넘 많음
1133621,휴젤,2020-04-29,11:56:38,ㅇㅇ(223.33),1,241400125127,신흥국 회사투자 망설여지는 게 이거 때문임 주식시장에 대한 개념이 안 잡혀있음,신흥국 회사 투자 망설여지는 게 이거 때문임 주식시장에 대한 개념이 안 잡혀있음


### 2-c-9. spacing이 적용된 df를 csv 파일로 저장하기

In [16]:
# 불필요한 칼럼 제거
df_new = df.drop(['cleansed_text'], axis=1)
df_new.head(3)

Unnamed: 0,search_keyword,date_created,time_created,writer,is_reply,id,spaced_text
0,JYP,2023-06-13,12:50:42,ㅇㅇ,0,10100746844,jyp가반년만에 배가 올랏네 근디보니는인적자원위주로 하는 사업은먼ㅂㄹ걍제조업이조음
1,JYP,2023-05-16,17:52:40,ㅇㅇ(118.34),0,10100730087,야 개보지년들아 jyp 주가 봤냐 미쳣다 지금 개잡주 오르는건 그러려니 하는데 와 ...
2,JYP,2023-05-16,17:52:48,ㅇㅇ(118.34),1,10100730087,ㅠㅠ


In [17]:
# .csv 파일로 저장
df_new.to_csv("2_spaced_text.csv", encoding='utf-8', index=False)

## 2-d. 함수화
- 함수로 만들어 재사용 가능하도록 만든다.

### 2-d-1. 함수 만들기

In [18]:
# 시간 측정 데코레이터
import time

def time_decorator(func):
    def wrapper(*args, **kwargs):
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        print(f"Function '{func.__name__}' executed in {end_time - start_time} seconds.")
        return result
    return wrapper

In [19]:
import pandas as pd
from soyspacing.countbase import CountSpace
    
@time_decorator
def make_cleansed_csv_file(fname_to_read, spacing_model_fname, text_column_name, fname_to_save, train_model=True):
    
    # 1. 데이터 읽어오기
    print("[progress 1/8] 데이터 읽어오기")
    fpath_to_read = fname_to_read + ".csv"
    df = pd.read_csv(fpath_to_read, encoding="utf-8")

    if train_model:
        # 2. 학습을 위한 corpus 만들기
        print("[progress 2/8] 학습을 위한 corpus 파일 생성")
        texts = df['cleansed_text'].tolist()
        corpus_fname = fname_to_read + ".txt"
        with open(corpus_fname, 'w', encoding='utf-8') as file:
            for text in texts:
                file.write(text + '\n')
    
        # 3. spacing 모델 학습
        print("[progress 3/8] spacing 모델 학습")
        model = CountSpace()
        model.train(corpus_fname)  
    
        # 4. 학습된 spacing 모델을 파일로 저장
        print("[progress 4/8] 학습된 spacing 모델을 파일로 저장")
        model.save_model(spacing_model_fname, json_format=False)
    else:
        print("[progress 2~4/8] spacing 모델 학습을 진행하지 않고, 저장된 모델을 불러오겠습니다.")
        
    # 5. 저장된 spacing 모델 파일 불러오기
    print("[progress 5/8] 저장된 spacing 모델 파일 불러오기")
    saved_model = CountSpace()
    saved_model.load_model(spacing_model_fname, json_format=False)
    
    # 6. spacing 함수 정의
    print("[progress 6/8] spacing 함수 정의")
    def get_spaced_text(input_text):
        # parameters
        verbose=False
        mc = 10   # min_count
        ft = 0.3  # force_abs_threshold
        nt =-0.3  # nonspace_threshold
        st = 0.3  # space_threshold
    
        # with parameters
        spaced_text, tags = saved_model.correct(
            doc=input_text,
            verbose=verbose,
            force_abs_threshold=ft,
            nonspace_threshold=nt,
            space_threshold=st,
            min_count=mc)
    
        return spaced_text

    # 7. csv 파일에 spacing 적용시키기
    print("[progress 7/8] csv 파일에 spacing 적용시키기")
    df['spaced_text'] = df[text_column_name].apply(get_spaced_text)
    df.head(3)

    # 8. spacing이 적용된 데이터를 파일로 저장하기
    print("[progress 8/8] spacing이 적용된 데이터를 파일로 저장하기")
    df_new = df.drop(['text', 'cleansed_text'], axis=1)  # 불필요한 칼럼 제거
    df_new.to_csv("2_spaced_text.csv", encoding='utf-8', index=False)  # csv 파일로 저장 

    print("[done]")

### 2-d-2. 함수 테스트

In [None]:
fname_to_read = "1_cleansed_text"
spacing_model_fname = "2_spacing_model"
text_column_name = "cleansed_text"
fname_to_save = "2_spaced_text"
make_cleansed_csv_file(fname_to_read, spacing_model_fname, text_column_name, fname_to_save, train_model=False)

[progress 1/8] 데이터 읽어오기
[progress 2~4/8] spacing 모델 학습을 진행하지 않고, 저장된 모델을 불러오겠습니다.
[progress 5/8] 저장된 spacing 모델 파일 불러오기
[progress 6/8] spacing 함수 정의
[progress 7/8] csv 파일에 spacing 적용시키기
