In [2]:
import pandas as pd

df = pd.read_csv("../data/2_noise_detected_2800.csv")
len(df)

2800

# 전처리

## 1. 의미 없는 문자 제거

In [3]:
# text 앞뒤에 그래픽/게시판/종합 등의 의미 없는 단어가 나오는 경우 삭제
df["text"] = df["text"].replace(r"^(그래픽|게시판)", "", regex=True)
df["text"] = df["text"].replace(r"^(종합|1보|2보)", "", regex=True)
df["text"] = df["text"].replace(r"(종합|종합1보|종합2보|1보|2보)$", "", regex=True)
df.head()

Unnamed: 0,ID,text,target,is_noise
0,ynat-v1_train_00000,정i :파1 미사z KT( 이용기간 2e 단] Q분종U,4,1
1,ynat-v1_train_00001,K찰.국DLwo 로L3한N% 회장 2 T0&}송=,3,1
2,ynat-v1_train_00002,"m 김정) 자주통일 새,?r열1나가야",2,1
3,ynat-v1_train_00003,갤노트8 주말 27만대 개통…시장은 불법 보조금 얼룩,5,0
4,ynat-v1_train_00004,pI美대선I앞두고 R2fr단 발] $비해 감시 강화,6,1


In [4]:
# 말줄임표: 띄어쓰기 처리 혹은 제거
df["text"] = df["text"].str.replace("…", " ")
df["text"] = df["text"].str.replace("...", "")
df.head()

Unnamed: 0,ID,text,target,is_noise
0,ynat-v1_train_00000,정i :파1 미사z KT( 이용기간 2e 단] Q분종U,4,1
1,ynat-v1_train_00001,K찰.국DLwo 로L3한N% 회장 2 T0&}송=,3,1
2,ynat-v1_train_00002,"m 김정) 자주통일 새,?r열1나가야",2,1
3,ynat-v1_train_00003,갤노트8 주말 27만대 개통 시장은 불법 보조금 얼룩,5,0
4,ynat-v1_train_00004,pI美대선I앞두고 R2fr단 발] $비해 감시 강화,6,1


## 2. 특수문자 제거

In [5]:
import re

# 영어, 숫자, 한글, 한자 제외
special_letter_pattern = r"[^a-zA-Z0-9\sㄱ-ㅎㅏ-ㅣ가-힣\u4e00-\u9fff]"
df["text"] = df["text"].replace(special_letter_pattern, "", regex=True)
df.head()

Unnamed: 0,ID,text,target,is_noise
0,ynat-v1_train_00000,정i 파1 미사z KT 이용기간 2e 단 Q분종U,4,1
1,ynat-v1_train_00001,K찰국DLwo 로L3한N 회장 2 T0송,3,1
2,ynat-v1_train_00002,m 김정 자주통일 새r열1나가야,2,1
3,ynat-v1_train_00003,갤노트8 주말 27만대 개통 시장은 불법 보조금 얼룩,5,0
4,ynat-v1_train_00004,pI美대선I앞두고 R2fr단 발 비해 감시 강화,6,1


## 3. 한자는 한글 뜻을 함께 기입하여 사용

In [6]:
from collections import Counter


# 한자 추출 함수 정의
def extract_hanza(text):
    # CJK 통합 한자 범위(U+4E00 ~ U+9FFF)에 해당하는 문자 추출
    return "".join(re.findall("[\u4e00-\u9fff]", text))


# 문자 빈도 축정
def get_char_frequency(text_list):
    # 모든 문자를 하나의 리스트로 합치기
    chars = [char for text in text_list for char in text]
    # Counter를 사용하여 빈도 계산
    char_counts = Counter(chars)
    # 빈도순으로 정렬
    return pd.Series(char_counts).sort_values(ascending=False)

# 한자 빈도수 측정
hanza = df["text"].apply(extract_hanza)

char_frequency = get_char_frequency(hanza)
hanza = list(char_frequency.keys())
print(len(hanza), hanza)

49 ['美', '北', '中', '朴', '靑', '日', '與', '文', '英', '野', '佛', '伊', '獨', '反', '前', '軍', '硏', '對', '外', '社', '黃', '亞', '韓', '株', '車', '崔', '院', '金', '丁', '小', '和', '企', '安', '展', '檢', '親', '銀', '證', '先', '父', '南', '詩', '家', '大', '印', '阿', '故', '州', '重']


In [7]:
hanza_hangul_meaning = [
    ('美', '미국', '나라'), ('北', '북한', '나라'), ('中', '중국', '나라'),
    ('朴', '박', '성씨'), ('靑', '청와대', '정치'), ('日', '일본', '나라'),
    ('與', '여당', '정치'), ('文', '문','성씨'), ('英', '영국', '나라'),
    ('野', '야당', '정치'), ('佛', '프랑스', '나라'), ('伊', '이탈리아', '나라'),
    ('獨', '독일', '나라'), ('反', '반', '일반'), ('前', '전', '일반'),
    ('軍', '군대', '일반'), ('硏', '연구원', '일반'), ('對', '대', '일반'),
    ('外', '외', '일반'), ('社', '회사', '경제'), ('黃', '황','성씨'),
    ('亞', '아시아', '나라'), ('韓', '한국', '나라'), ('株', '주식', '경제'),
    ('車', '차', '일반'), ('崔', '최','성씨'), ('院', '위원', '일반'),
    ('金', '김','성씨'), ('丁', '정','성씨'), ('小', '소', '일반'),
    ('和', '네덜란드', '나라'), ('企', '기업', '경제'), ('安', '안','성씨'),
    ('展', '전시', '일반'), ('檢', '검찰', '정치'), ('親', '친', '일반'),
    ('銀', '은행', '경제'), ('證', '증권', '경제'), ('先', '선', '일반'),
    ('父', '아버지', '일반'), ('南', '남한', '나라'), ('詩', '시', '일반'),
    ('家', '집안', '일반'), ('大', '대', '일반'), ('印', '인도', '나라'),
    ('阿', '아프리카', '나라'), ('故', '고', '일반'), ('州', '주', '나라'),
    ('重', '중공업', '경제')
]

def annotate_hanzi_with_meaning(text):
    for hanzi, hangul, _ in hanza_hangul_meaning:
        text = text.replace(hanzi, f"{hanzi}({hangul})")
    return text

In [8]:
df.loc[:, "text"] = df["text"].apply(annotate_hanzi_with_meaning)
df.head(10)

In [10]:
df.to_csv("3_d_2800_hanzi_dictionary.csv", index=False)

## 4. 형태소 분석기로 노이즈 제거

In [11]:
df = df[df["is_noise"]==1]
df.head()

In [None]:
# 형태소 분석기 임포트
from konlpy.tag import *
okt = Okt()

In [None]:
df["pos_tagging"] = df["text"].copy()
df["okt"] = df["pos_tagging"].apply(lambda text: okt.pos(text))