# Import & Data

In [4]:
import pandas as pd
import json

with open('data/origin_data/nikluge-sa-2022-train.jsonl', 'r') as f:
    data = [json.loads(line) for line in f]

with open('data/origin_data/nikluge-sa-2022-dev.jsonl', 'r') as f:
    data2 = [json.loads(line) for line in f]

df = pd.DataFrame(data + data2)
df

Unnamed: 0,id,sentence_form,annotation
0,nikluge-sa-2022-train-00001,둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악.,"[[본품#품질, [기어, 16, 18], negative]]"
1,nikluge-sa-2022-train-00002,"이거 뭐 삐꾸를 준 거 아냐 불안하고, 거금 투자한 게 왜 이래.. 싶어서 정이 확...","[[본품#품질, [기어 텐션, 67, 72], negative]]"
2,nikluge-sa-2022-train-00003,간사하게도 그 이후에는 라이딩이 아주 즐거워져서 만족스럽게 탔다.,"[[제품 전체#일반, [None, 0, 0], positive]]"
3,nikluge-sa-2022-train-00004,샥이 없는 모델이라 일반 도로에서 타면 노면의 진동 때문에 손목이 덜덜덜 떨리고 이...,"[[제품 전체#일반, [샥이 없는 모델, 0, 8], neutral]]"
4,nikluge-sa-2022-train-00005,안장도 딱딱해서 엉덩이가 아팠는데 무시하고 타고 있다.,"[[본품#일반, [안장, 0, 2], negative]]"
...,...,...,...
5790,nikluge-sa-2022-dev-02790,썸머세트라고 해서 세럼 + 선크림 이렇게 패키지로 파는 것 괜찮음,"[[패키지/구성품#일반, [썸머세트, 0, 4], positive]]"
5791,nikluge-sa-2022-dev-02791,비싸다.,"[[제품 전체#가격, [None, 0, 0], negative]]"
5792,nikluge-sa-2022-dev-02792,비싸지만 건강이 더 비싸니까.,"[[제품 전체#가격, [None, 0, 0], negative]]"
5793,nikluge-sa-2022-dev-02793,대형으로 샀더니 잘 맞음.,"[[제품 전체#일반, [대형, 0, 2], positive]]"


In [5]:
# 글자 수가 5자 이하인 문장 필터링
df = df[df['sentence_form'].apply(lambda x: len(x) > 5)]
df

Unnamed: 0,id,sentence_form,annotation
0,nikluge-sa-2022-train-00001,둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악.,"[[본품#품질, [기어, 16, 18], negative]]"
1,nikluge-sa-2022-train-00002,"이거 뭐 삐꾸를 준 거 아냐 불안하고, 거금 투자한 게 왜 이래.. 싶어서 정이 확...","[[본품#품질, [기어 텐션, 67, 72], negative]]"
2,nikluge-sa-2022-train-00003,간사하게도 그 이후에는 라이딩이 아주 즐거워져서 만족스럽게 탔다.,"[[제품 전체#일반, [None, 0, 0], positive]]"
3,nikluge-sa-2022-train-00004,샥이 없는 모델이라 일반 도로에서 타면 노면의 진동 때문에 손목이 덜덜덜 떨리고 이...,"[[제품 전체#일반, [샥이 없는 모델, 0, 8], neutral]]"
4,nikluge-sa-2022-train-00005,안장도 딱딱해서 엉덩이가 아팠는데 무시하고 타고 있다.,"[[본품#일반, [안장, 0, 2], negative]]"
...,...,...,...
5789,nikluge-sa-2022-dev-02789,완전 쫀득도 아니고 그렇다고 너무 물이라서 흐르지 않는 정도를 내가 개인적으로 좋아...,"[[본품#일반, [None, 0, 0], positive]]"
5790,nikluge-sa-2022-dev-02790,썸머세트라고 해서 세럼 + 선크림 이렇게 패키지로 파는 것 괜찮음,"[[패키지/구성품#일반, [썸머세트, 0, 4], positive]]"
5792,nikluge-sa-2022-dev-02792,비싸지만 건강이 더 비싸니까.,"[[제품 전체#가격, [None, 0, 0], negative]]"
5793,nikluge-sa-2022-dev-02793,대형으로 샀더니 잘 맞음.,"[[제품 전체#일반, [대형, 0, 2], positive]]"


# 데이터 전처리

## 1. 이모지 & 이모티콘 & 반복되는 단어 제거

In [6]:
import re
import emoji

def preprocess_text(text):
    # 유니코드 이모티콘 제거
    text = emoji.replace_emoji(text, replace='')

    # 텍스트 이모티콘 (^^, +_+, T_T, ㅠㅠ 등) 제거
    text_emoticon_pattern = re.compile(r'(\^\^|\^_+\^|\+\_+\+|T_T|ㅠㅠ|ㅡㅡ|ㅇㅅㅇ|ㅜㅜ|;_;|ㅠㅠ)')
    text = text_emoticon_pattern.sub('', text)
    
    # 반복되는 웃음 표현 (ㅋㅋㅋ, ㅎㅎㅎ) 2글자로 제한
    laughter_pattern = re.compile(r'(ㅋ{2,}|ㅎ{2,})')
    text = laughter_pattern.sub(lambda x: x.group(0)[:2], text)

    return text

In [7]:
df['preprocess_text'] = df['sentence_form'].apply(lambda x : preprocess_text(x))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['preprocess_text'] = df['sentence_form'].apply(lambda x : preprocess_text(x))


In [8]:
df

Unnamed: 0,id,sentence_form,annotation,preprocess_text
0,nikluge-sa-2022-train-00001,둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악.,"[[본품#품질, [기어, 16, 18], negative]]",둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악.
1,nikluge-sa-2022-train-00002,"이거 뭐 삐꾸를 준 거 아냐 불안하고, 거금 투자한 게 왜 이래.. 싶어서 정이 확...","[[본품#품질, [기어 텐션, 67, 72], negative]]","이거 뭐 삐꾸를 준 거 아냐 불안하고, 거금 투자한 게 왜 이래.. 싶어서 정이 확..."
2,nikluge-sa-2022-train-00003,간사하게도 그 이후에는 라이딩이 아주 즐거워져서 만족스럽게 탔다.,"[[제품 전체#일반, [None, 0, 0], positive]]",간사하게도 그 이후에는 라이딩이 아주 즐거워져서 만족스럽게 탔다.
3,nikluge-sa-2022-train-00004,샥이 없는 모델이라 일반 도로에서 타면 노면의 진동 때문에 손목이 덜덜덜 떨리고 이...,"[[제품 전체#일반, [샥이 없는 모델, 0, 8], neutral]]",샥이 없는 모델이라 일반 도로에서 타면 노면의 진동 때문에 손목이 덜덜덜 떨리고 이...
4,nikluge-sa-2022-train-00005,안장도 딱딱해서 엉덩이가 아팠는데 무시하고 타고 있다.,"[[본품#일반, [안장, 0, 2], negative]]",안장도 딱딱해서 엉덩이가 아팠는데 무시하고 타고 있다.
...,...,...,...,...
5789,nikluge-sa-2022-dev-02789,완전 쫀득도 아니고 그렇다고 너무 물이라서 흐르지 않는 정도를 내가 개인적으로 좋아...,"[[본품#일반, [None, 0, 0], positive]]",완전 쫀득도 아니고 그렇다고 너무 물이라서 흐르지 않는 정도를 내가 개인적으로 좋아...
5790,nikluge-sa-2022-dev-02790,썸머세트라고 해서 세럼 + 선크림 이렇게 패키지로 파는 것 괜찮음,"[[패키지/구성품#일반, [썸머세트, 0, 4], positive]]",썸머세트라고 해서 세럼 + 선크림 이렇게 패키지로 파는 것 괜찮음
5792,nikluge-sa-2022-dev-02792,비싸지만 건강이 더 비싸니까.,"[[제품 전체#가격, [None, 0, 0], negative]]",비싸지만 건강이 더 비싸니까.
5793,nikluge-sa-2022-dev-02793,대형으로 샀더니 잘 맞음.,"[[제품 전체#일반, [대형, 0, 2], positive]]",대형으로 샀더니 잘 맞음.


## 2. 오타 교정

In [9]:
from transformers import T5ForConditionalGeneration, T5Tokenizer

def spell_check(text):
    model = T5ForConditionalGeneration.from_pretrained("j5ng/et5-typos-corrector")
    tokenizer = T5Tokenizer.from_pretrained("j5ng/et5-typos-corrector")

    output = model.generate(**tokenizer("맞춤법을 고쳐주세요: " + text, return_tensors="pt"))

    return tokenizer.decode(output[0], skip_special_tokens=True)

In [10]:
df['spell_check'] = df['preprocess_text'].apply(lambda x : spell_check(x))

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


ReadTimeout: (ReadTimeoutError("HTTPSConnectionPool(host='huggingface.co', port=443): Read timed out. (read timeout=10)"), '(Request ID: e7725352-a92e-4a23-aaab-e954c12d0dfe)')

In [None]:
df