In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

### 데이터 로드 및 정리

In [2]:
cvs_data = pd.read_excel('datasets/한국어_단발성_대화_데이터셋.xlsx')

In [3]:
cvs_data.head()

Unnamed: 0,Sentence,Emotion,Unnamed: 2,Unnamed: 3,Unnamed: 4,공포,5468
0,언니 동생으로 부르는게 맞는 일인가요..??,공포,,,,놀람,5898.0
1,그냥 내 느낌일뿐겠지?,공포,,,,분노,5665.0
2,아직너무초기라서 그런거죠?,공포,,,,슬픔,5267.0
3,유치원버스 사고 낫다던데,공포,,,,중립,4830.0
4,근데 원래이런거맞나요,공포,,,,행복,6037.0


In [4]:
cvs_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38594 entries, 0 to 38593
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Sentence    38594 non-null  object 
 1   Emotion     38594 non-null  object 
 2   Unnamed: 2  0 non-null      float64
 3   Unnamed: 3  0 non-null      float64
 4   Unnamed: 4  0 non-null      float64
 5   공포          7 non-null      object 
 6   5468        7 non-null      float64
dtypes: float64(4), object(3)
memory usage: 2.1+ MB


In [5]:
cvs_data1 = cvs_data.drop(['공포', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4', 5468], axis=1)
cvs_data1

Unnamed: 0,Sentence,Emotion
0,언니 동생으로 부르는게 맞는 일인가요..??,공포
1,그냥 내 느낌일뿐겠지?,공포
2,아직너무초기라서 그런거죠?,공포
3,유치원버스 사고 낫다던데,공포
4,근데 원래이런거맞나요,공포
...,...,...
38589,솔직히 예보 제대로 못하는 데 세금이라도 아끼게 그냥 폐지해라..,혐오
38590,재미가 없으니 망하지,혐오
38591,공장 도시락 비우생적임 아르바이트했는데 화장실가성 손도 않씯고 재료 담고 바닥 떨어...,혐오
38592,코딱지 만한 나라에서 지들끼리 피터지게 싸우는 센징 클래스 ㅉㅉㅉ,혐오


In [6]:
df = pd.DataFrame(cvs_data1)

cvs_data1 = df.loc[12864:25728]
cvs_data1

Unnamed: 0,Sentence,Emotion
12864,두고두고 역사에 남아 조롱받을 년.,분노
12865,최씨일가 전부다 무기징역에 처하고 관련자들 징역에 처하는 엄중한 벌을 주기를... ...,분노
12866,어떻게 대통령이 개대중이처럼 부끄러운 줄 모를 수가 있냐,분노
12867,망치로 대가리 찍고 싶다!,분노
12868,씨바..그냥 법원 없애라..,분노
...,...,...
25724,유행다가고 물식으니 이제서??북한이냐 ㅋㅋ,중립
25725,가능하기도 하지. 약정 5년하면 그 수익 및 앱에서도 수익창출. 기기 꽁짜로 줘도 ...,중립
25726,떨어지면 액정 걍 깨진다,중립
25727,미국과 일본과 유럽인들은 아이폰을 씁니다,중립


### 기초적인 전처리, 숫자/특수문자/문장부호 제거

In [7]:
punct = "/-'?!.,#$%\'()*+-/:;<=>@[\\]^_`{|}~" + '""“”’' + '∞θ÷α•à−β∅³π‘₹´°£€\×™√²—–&'
punct_mapping = {"‘": "'", "₹": "e", "´": "'", "°": "", "€": "e", "™": "tm", "√": " sqrt ", "×": "x", "²": "2", "—": "-", "–": "-", "’": "'", "_": "-", "`": "'", '“': '"', '”': '"', '“': '"', "£": "e", '∞': 'infinity', 'θ': 'theta', '÷': '/', 'α': 'alpha', '•': '.', 'à': 'a', '−': '-', 'β': 'beta', '∅': '', '³': '3', 'π': 'pi', }

def clean_punc(text, punct, mapping):
    for p in mapping:
        text = text.replace(p, mapping[p])
    
    for p in punct:
        text = text.replace(p,'')
    
    specials = {'\u200b': ' ', '…': ' ... ', '\ufeff': '', 'करना': '', 'है': ''}
    for s in specials:
        text = text.replace(s, specials[s])
    
    return text.strip()


In [8]:
import re

def clean_text(texts):
    corpus = []
    for i in range(0, len(texts)):
        review = re.sub(r'[@%\\*=()/~#&\+á?\xc3\xa1\-\|\.\:\;\!\-\,\_\~\$\'\"]', '',str(texts[i])) #remove punctuation
        review = re.sub(r'\d+','', str(texts[i]))# remove number
        review = review.lower() #lower case
        review = re.sub(r'<[^>]+>','',review) #remove Html tags
        review = re.sub(r"^\s+", '', review) #remove space from start
        review = re.sub(r'\s+$', '', review) #remove space from the end
        review = re.sub(r'\s+$', '', review) #remove space from the end
        review = re.sub(r'[ㄱ-ㅎㅏ-ㅣ]+', ' ', review)  # 여러 공백을 하나로
        corpus.append(review)
    return corpus

In [9]:

text_column = 'Sentence'

# NaN 값을 빈 문자열로 대체
cvs_data1[text_column].fillna("", inplace=True)

# clean_punc 함수 적용
cvs_data1[text_column] = cvs_data1[text_column].apply(lambda x: clean_punc(str(x), punct, punct_mapping))

# clean_text 함수 적용
# clean_text를 각 행에 대해 처리하도록 수정
cvs_data1[text_column] = cvs_data1[text_column].apply(lambda x: clean_text([x])[0])

# 처리 결과 확인
print(cvs_data1.head(10))

                                                Sentence Emotion
12864                                 두고두고 역사에 남아 조롱받을 년      분노
12865  최씨일가 전부다 무기징역에 처하고 관련자들 징역에 처하는 엄중한 벌을 주기를 위증하...      분노
12866                    어떻게 대통령이 개대중이처럼 부끄러운 줄 모를 수가 있냐      분노
12867                                      망치로 대가리 찍고 싶다      분노
12868                                        씨바그냥 법원 없애라      분노
12869                  이런 질문을 드릴테니 이렇게 대답하세요안봐도 비디오다또라이몽      분노
12870                                           저새끼 죽고싶나      분노
12871     국민들의 분노가 세월호가족들의 피눈물이 당신자신의 손으로 그 눈을 후벼파게 될것이다      분노
12872                                          나쁜 사람들 천벌      분노
12873                                            대국민사기극       분노


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  cvs_data1[text_column].fillna("", inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cvs_data1[text_column].fillna("", inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cvs_data1[text_column] = cvs_data1[text_column]

### 맞춤법 검사

In [10]:
from hanspell import spell_checker

In [11]:
spell_checker.setParam("b3b2ab79e776e61858bdb4ff9f42a533d1038547", "1736487711699")  
 
## 판다스 데이터프레임의 text_column 열을 spell_checker.check 함수로 처리
# cvs_data1[text_column] = cvs_data1[text_column].apply(lambda x: spell_checker.check(x).checked)

'''
sent = cvs_data1.head()
checked_sent = []
for i in sent:
    temp = spell_checker.check(i[text_column])
    i[text_column] = temp.checked
'''
# cvs_data1.to_excel('단발성_데이터셋_맞춤법.xlsx', index=False)

'\nsent = cvs_data1.head()\nchecked_sent = []\nfor i in sent:\n    temp = spell_checker.check(i[text_column])\n    i[text_column] = temp.checked\n'

### 형태소 분리

In [12]:
import MeCab

In [13]:
t = MeCab.Tagger()
print(t.parse("아버지가방에들어가신다"))

아버지	NNG,*,F,아버지,*,*,*,*
가	JKS,*,F,가,*,*,*,*
방	NNG,장소,T,방,*,*,*,*
에	JKB,*,F,에,*,*,*,*
들어가	VV,*,F,들어가,*,*,*,*
신다	EP+EC,*,F,신다,Inflect,EP,EC,시/EP/*+ㄴ다/EC/*
EOS



In [14]:
from konlpy.tag import Mecab

m = Mecab('C:/mecab/mecab-ko-dic')
m.morphs('아버지가방에들어가신다.')

['아버지', '가', '방', '에', '들어가', '신다', '.']

In [19]:
spell_checked = pd.read_csv('datasets/spell_checked_sentences.csv')
spell_checked.head()

Unnamed: 0,Emotion,spell_check_sentence
0,공포,언니 동생으로 부르는 게 맞는 일인가요
1,공포,그냥 내 느낌일 뿐이겠지
2,공포,아직 너무 초기라서 그런 거죠
3,공포,유치원 버스 사고 낫다던데
4,공포,근데 원래 이런 거 맞나요


In [24]:
Morphological_Analysis = spell_checked['spell_check_sentence']

Morphological_list = []
for i in Morphological_Analysis:
    try:
        p = m.pos(i)
    except:
        p = "none"
    Morphological_list.append(p)

df1 = pd.DataFrame(spell_checked['Emotion'])
df2 = pd.DataFrame(Morphological_list)
df = pd.concat([df1, df2], axis=1)
df.head()
df.to_csv('datasets/단발성_데이터셋_형태소_분리', encoding='utf-8')

### 불용어 제거

In [25]:
import re