## Data Preprocessing

In [1]:
import pandas as pd

In [2]:
train_path = "train.csv"
test_path = "test.csv"

train_df = pd.read_csv(train_path)
test_df = pd.read_csv(test_path)

#### 1. 한글과 주요 문장부호(.,?!~)만 남기기

In [3]:
import re

# 한글과 주요 문장부호(.,?!~)만 남기기
def clean_korean_text(text):
    return re.sub(r"[^가-힣.,?!~\s]", "", text)

# 전처리 적용
train_df["cleaned_input"] = train_df["input"].apply(clean_korean_text)

# 결과 확인
print(train_df[["input", "cleaned_input"]].head(10))


                                               input  \
0  별 한 게토 았깝땀. 왜 싸람듯릭 펼 1캐를 쥰눈징 컥꺾폰 싸람믐롯섞 맒록 섧멍핥쟈...   
1                             잚많 쟉꼬 갉 태 좋눼욥. 차못동 줆 ㅋ   
2                                    절테 간면 않 된는 굣 멥몫   
3  야... 칵컥 좋꾜 부됴 뼝 뚫렷썹 신원햐쥠만 닮패 넴센 밌쪄벅림. 샥퀘 핥류만 묵...   
4  집윈 축쳐눌료 딴너왓눈뎁 카셩뷔 좋곱 칼쿰한네올. 쩌럼한뒈 뮬콰 욺료토 잊쿄 빻토 ...   
5               펀냔휜 잘 쉭곶 왔쑵닝따. 준윙에 맏쥡됴 만학썩 좋흖 겼 갇따용.   
6  쓰윔튿룸위 깝써칙갖 있네 ㅋ 꼭굽 췸규웨 낑펙투, 합뻔퓨 옥쪽, 캬뻬 깥은 띰 떼잎...   
7  쨉빵뮨 의싸 쩐허 없쓺. 씬랏슬톄잎뾰댜 떠 짝음. 홈뗄 줄찾짱 15땜만 캉눙. 혹텔...   
8                             념묵 멎쥑교 꽁귀 좋습니닸. 췐곡윕뉘댜!   
9  짱졈: 쩡켤함, 츄챠 씨셜 죠흠, 쉼섦 좋음.   단젊: 줏짢 츌짜할 떼 뷸뻔함, ...   

                                       cleaned_input  
0  별 한 게토 았깝땀. 왜 싸람듯릭 펼 캐를 쥰눈징 컥꺾폰 싸람믐롯섞 맒록 섧멍핥쟈닐...  
1                              잚많 쟉꼬 갉 태 좋눼욥. 차못동 줆   
2                                    절테 간면 않 된는 굣 멥몫  
3  야... 칵컥 좋꾜 부됴 뼝 뚫렷썹 신원햐쥠만 닮패 넴센 밌쪄벅림. 샥퀘 핥류만 묵...  
4  집윈 축쳐눌료 딴너왓눈뎁 카셩뷔 좋곱 칼쿰한네올. 쩌럼한뒈 뮬콰 욺료토 잊쿄 빻토 ...  
5               펀냔휜 잘 쉭곶 왔쑵닝따. 준윙에 맏쥡됴 만학썩 좋흖 겼 갇따용. 

#### 2. 자음/ 모음 분리 문제 해결

In [5]:
from konlpy.tag import Okt

# 형태소 분석기 초기화
okt = Okt()

# 형태소 분석을 이용한 단어 복원
def restore_korean_text(text):
    tokens = okt.morphs(text)  # 형태소 단위로 분리
    restored_text = " ".join(tokens)  # 공백 기준으로 다시 결합
    return restored_text

# 형태소 분석 적용
train_df["restored_input"] = train_df["cleaned_input"].apply(restore_korean_text)

# 결과 확인
print(train_df[["cleaned_input", "restored_input"]].head(10))


                                       cleaned_input  \
0  별 한 게토 았깝땀. 왜 싸람듯릭 펼 캐를 쥰눈징 컥꺾폰 싸람믐롯섞 맒록 섧멍핥쟈닐...   
1                              잚많 쟉꼬 갉 태 좋눼욥. 차못동 줆    
2                                    절테 간면 않 된는 굣 멥몫   
3  야... 칵컥 좋꾜 부됴 뼝 뚫렷썹 신원햐쥠만 닮패 넴센 밌쪄벅림. 샥퀘 핥류만 묵...   
4  집윈 축쳐눌료 딴너왓눈뎁 카셩뷔 좋곱 칼쿰한네올. 쩌럼한뒈 뮬콰 욺료토 잊쿄 빻토 ...   
5               펀냔휜 잘 쉭곶 왔쑵닝따. 준윙에 맏쥡됴 만학썩 좋흖 겼 갇따용.   
6  쓰윔튿룸위 깝써칙갖 있네  꼭굽 췸규웨 낑펙투, 합뻔퓨 옥쪽, 캬뻬 깥은 띰 떼잎블...   
7  쨉빵뮨 의싸 쩐허 없쓺. 씬랏슬톄잎뾰댜 떠 짝음. 홈뗄 줄찾짱 땜만 캉눙. 혹텔 읾...   
8                             념묵 멎쥑교 꽁귀 좋습니닸. 췐곡윕뉘댜!   
9  짱졈 쩡켤함, 츄챠 씨셜 죠흠, 쉼섦 좋음.   단젊 줏짢 츌짜할 떼 뷸뻔함, 룸 ...   

                                      restored_input  
0  별 한 게토 았깝땀 . 왜 싸람 듯릭 펼 캐 를 쥰눈징 컥꺾폰 싸람 믐롯섞 맒록 섧...  
1                             잚많 쟉꼬 갉 태 좋눼욥 . 차못 동 줆  
2                                  절테 간 면 않 된는 굣 멥 몫  
3  야 ... 칵컥 좋꾜 부됴 뼝 뚫렷썹 신 원 햐 쥠만 닮 패 넴센 밌쪄벅림 . 샥퀘...  
4  집윈 축 쳐 눌료 딴 너 왓눈뎁 카셩뷔 좋 곱 칼쿰 한 네 올 . 쩌럼한뒈 뮬콰 욺...  
5           펀냔휜 잘 쉭곶 왔쑵닝따 . 준윙 에 맏쥡됴 만학 썩 좋흖 겼 갇따용 . 

#### 3. 띄어쓰기 및 철자 교정

In [6]:
# 띄어쓰기 보정을 위한 함수
def correct_spacing(text):
    return text.replace("  ", " ")  # 공백 두 개 이상을 하나로 줄이기

# 띄어쓰기 보정 적용
train_df["final_input"] = train_df["restored_input"].apply(correct_spacing)

# 결과 확인
print(train_df[["restored_input", "final_input"]].head(10))


                                      restored_input  \
0  별 한 게토 았깝땀 . 왜 싸람 듯릭 펼 캐 를 쥰눈징 컥꺾폰 싸람 믐롯섞 맒록 섧...   
1                             잚많 쟉꼬 갉 태 좋눼욥 . 차못 동 줆   
2                                  절테 간 면 않 된는 굣 멥 몫   
3  야 ... 칵컥 좋꾜 부됴 뼝 뚫렷썹 신 원 햐 쥠만 닮 패 넴센 밌쪄벅림 . 샥퀘...   
4  집윈 축 쳐 눌료 딴 너 왓눈뎁 카셩뷔 좋 곱 칼쿰 한 네 올 . 쩌럼한뒈 뮬콰 욺...   
5           펀냔휜 잘 쉭곶 왔쑵닝따 . 준윙 에 맏쥡됴 만학 썩 좋흖 겼 갇따용 .   
6  쓰윔튿룸위 깝써칙갖 있네 꼭굽 췸규웨 낑펙투 , 합뻔퓨 옥쪽 , 캬뻬 깥 은 띰 떼...   
7  쨉빵뮨 의 싸 쩐허 없 쓺 . 씬랏슬톄잎뾰댜 떠 짝음 . 홈 뗄 줄 찾 짱 땜 만 ...   
8                          념묵 멎쥑교 꽁 귀 좋습니닸 . 췐곡윕뉘댜 !   
9  짱졈 쩡켤함 , 츄챠 씨셜 죠 흠 , 쉼섦 좋음 . 단 젊 줏짢 츌짜할 떼 뷸뻔함 ...   

                                         final_input  
0  별 한 게토 았깝땀 . 왜 싸람 듯릭 펼 캐 를 쥰눈징 컥꺾폰 싸람 믐롯섞 맒록 섧...  
1                             잚많 쟉꼬 갉 태 좋눼욥 . 차못 동 줆  
2                                  절테 간 면 않 된는 굣 멥 몫  
3  야 ... 칵컥 좋꾜 부됴 뼝 뚫렷썹 신 원 햐 쥠만 닮 패 넴센 밌쪄벅림 . 샥퀘...  
4  집윈 축 쳐 눌료 딴 너 왓눈뎁 카셩뷔 좋 곱 칼쿰 한 네 올 . 쩌럼한뒈 뮬콰 욺...  
5           펀냔휜 잘 쉭곶 왔쑵닝따 . 준윙 에 맏쥡됴 만학 썩 좋흖 겼 갇따용 . 

#### 4. 최종 전처리 결과 확인 및 저장

In [7]:
# 최종 전처리 결과 확인
print(train_df[["input", "cleaned_input", "restored_input", "final_input", "output"]].head(10))

# 전처리된 데이터 저장 (필요한 경우)
train_df.to_csv("preprocessed_train.csv", index=False)


                                               input  \
0  별 한 게토 았깝땀. 왜 싸람듯릭 펼 1캐를 쥰눈징 컥꺾폰 싸람믐롯섞 맒록 섧멍핥쟈...   
1                             잚많 쟉꼬 갉 태 좋눼욥. 차못동 줆 ㅋ   
2                                    절테 간면 않 된는 굣 멥몫   
3  야... 칵컥 좋꾜 부됴 뼝 뚫렷썹 신원햐쥠만 닮패 넴센 밌쪄벅림. 샥퀘 핥류만 묵...   
4  집윈 축쳐눌료 딴너왓눈뎁 카셩뷔 좋곱 칼쿰한네올. 쩌럼한뒈 뮬콰 욺료토 잊쿄 빻토 ...   
5               펀냔휜 잘 쉭곶 왔쑵닝따. 준윙에 맏쥡됴 만학썩 좋흖 겼 갇따용.   
6  쓰윔튿룸위 깝써칙갖 있네 ㅋ 꼭굽 췸규웨 낑펙투, 합뻔퓨 옥쪽, 캬뻬 깥은 띰 떼잎...   
7  쨉빵뮨 의싸 쩐허 없쓺. 씬랏슬톄잎뾰댜 떠 짝음. 홈뗄 줄찾짱 15땜만 캉눙. 혹텔...   
8                             념묵 멎쥑교 꽁귀 좋습니닸. 췐곡윕뉘댜!   
9  짱졈: 쩡켤함, 츄챠 씨셜 죠흠, 쉼섦 좋음.   단젊: 줏짢 츌짜할 떼 뷸뻔함, ...   

                                       cleaned_input  \
0  별 한 게토 았깝땀. 왜 싸람듯릭 펼 캐를 쥰눈징 컥꺾폰 싸람믐롯섞 맒록 섧멍핥쟈닐...   
1                              잚많 쟉꼬 갉 태 좋눼욥. 차못동 줆    
2                                    절테 간면 않 된는 굣 멥몫   
3  야... 칵컥 좋꾜 부됴 뼝 뚫렷썹 신원햐쥠만 닮패 넴센 밌쪄벅림. 샥퀘 핥류만 묵...   
4  집윈 축쳐눌료 딴너왓눈뎁 카셩뷔 좋곱 칼쿰한네올. 쩌럼한뒈 뮬콰 욺료토 잊쿄 빻토 ...   
5               펀냔휜 잘 쉭곶 왔쑵닝따. 준윙에 맏쥡됴 만학썩 좋흖 겼