## konlpy 예시

In [54]:
from konlpy.tag import Okt
import re

# 예시 텍스트 데이터
text_data = "한국어 텍스트 데이터 전처리 예시입니다."

# Okt 형태소 분석기 생성
okt = Okt()

# 한국어 형태소 분석
tokens = okt.morphs(text_data)

# 특수 문자 및 숫자 제거
tokens = [re.sub(r'[^가-힣\s]', '', token) for token in tokens]

# 불용어 처리 (불용어 사전은 적절히 구축해야 합니다)
stop_words = ['은', '는', '이', '가', '을', '를']
tokens = [word for word in tokens if word not in stop_words]

# 전처리된 토큰 출력
print(tokens)


['한국어', '텍스트', '데이터', '전', '처리', '예시', '입니다', '']


## 감성사전 수집

In [45]:
import pandas as pd

In [48]:
# 공백으로 구분된 text_file : tab으로 구분 -> NaN 추가 처리
sentiword_dict = pd.read_csv('C:/Users/user/Desktop/preprocess/SentiWord_Dict.txt', sep = "\t", encoding = "utf-8",
                              header=None, names=['words', 'sentiment'])
sentiword_dict

Unnamed: 0,words,sentiment
0,(-;,1.0
1,(;_;),-1.0
2,(^^),1.0
3,(^-^),1.0
4,(^^*,1.0
...,...,...
14850,갈등 -1,
14851,의혹,-1.0
14852,내팽개치다,-2.0
14853,횡령,-2.0


In [49]:
sentiword_dict['sentiment'].isnull().sum()

1

In [50]:
sentiword_dict.loc[14850, 'words'] = '갈등'
sentiword_dict.loc[14850, 'sentiment'] = -1

In [51]:
sentiword_dict['sentiment'].isnull().sum()

0

In [53]:
sentiword_dict['sentiment'] = sentiword_dict['sentiment'].astype(int)
sentiword_dict

Unnamed: 0,words,sentiment
0,(-;,1
1,(;_;),-1
2,(^^),1
3,(^-^),1
4,(^^*,1
...,...,...
14850,갈등,-1
14851,의혹,-1
14852,내팽개치다,-2
14853,횡령,-2


In [133]:
sentiword_dict['sentiment'].unique()

array([ 1, -1,  0, -2,  2])

In [None]:
# -1, -2 : 부정
# 0 : 중립
# 1, 2 : 긍정

## 데이터 전처리

In [123]:
review_jungrang = pd.read_csv('C:/Users/user/Desktop/preprocess/JungrangTotal.csv', index_col=0)
review_jungrang.head()

Unnamed: 0,name,hospital_id,nickname,content,date,revisit
0,365mc모인이비인후과의원,19527111,Wiseburge David,사가정\n모인 이비인후과\n항상 만원이다,11.24.금,4번째 방문
1,365mc모인이비인후과의원,19527111,Dk9,좋아요,11.23.목,1번째 방문
2,365mc모인이비인후과의원,19527111,귀한집딸z,좋아요,11.20.월,2번째 방문
3,365mc모인이비인후과의원,19527111,꽃길걷는중임,항상 친절한 진료 감사합니다~,11.20.월,2번째 방문
4,365mc모인이비인후과의원,19527111,막둥,ㅇㅇ,11.18.토,4번째 방문


In [124]:
review_jungrang = review_jungrang[['name', 'content']].reset_index(drop=True)
review_jungrang

Unnamed: 0,name,content
0,365mc모인이비인후과의원,사가정\n모인 이비인후과\n항상 만원이다
1,365mc모인이비인후과의원,좋아요
2,365mc모인이비인후과의원,좋아요
3,365mc모인이비인후과의원,항상 친절한 진료 감사합니다~
4,365mc모인이비인후과의원,ㅇㅇ
...,...,...
5970,효치과의원,굳
5971,효치과의원,좋아요
5972,효치과의원,친절하십니다\n과잉진료 없음
5973,효치과의원,친절해요..


In [125]:
review_jungrang.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5975 entries, 0 to 5974
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   name     5975 non-null   object
 1   content  5975 non-null   object
dtypes: object(2)
memory usage: 93.5+ KB


In [126]:
# 결측치 제거 -> null값 없음
review_jungrang.dropna(inplace=True)

In [127]:
# 중복값 확인
duplicated = review_jungrang[review_jungrang['content'].duplicated()]
duplicated

Unnamed: 0,name,content
2,365mc모인이비인후과의원,좋아요
5,365mc모인이비인후과의원,ㅇㅇ
6,365mc모인이비인후과의원,ㅇㅇ
7,365mc모인이비인후과의원,ㅇㅇ
9,365mc모인이비인후과의원,굿
...,...,...
5965,효치과의원,친절해요!
5968,효치과의원,굳굳
5970,효치과의원,굳
5971,효치과의원,좋아요


In [128]:
# 중복값 제거
review_jungrang.drop_duplicates(subset=['content'], inplace=True)
review_jungrang.shape

(3146, 2)

In [129]:
review_jungrang.reset_index(drop=True)

Unnamed: 0,name,content
0,365mc모인이비인후과의원,사가정\n모인 이비인후과\n항상 만원이다
1,365mc모인이비인후과의원,좋아요
2,365mc모인이비인후과의원,항상 친절한 진료 감사합니다~
3,365mc모인이비인후과의원,ㅇㅇ
4,365mc모인이비인후과의원,굿
...,...,...
3141,효치과의원,"원장님, 간호사님 친절하시고 무엇보다도 과잉진료가 없어서 만족합니다."
3142,효치과의원,젛아요!
3143,효치과의원,네
3144,효치과의원,친절하십니다\n과잉진료 없음


In [130]:
review_jungrang['content'] = review_jungrang['content'].str.replace('\n', ' ')
review_jungrang['content']

0                         사가정 모인 이비인후과 항상 만원이다
1                                          좋아요
3                            항상 친절한 진료 감사합니다~ 
4                                           ㅇㅇ
8                                            굿
                         ...                  
5966    원장님, 간호사님 친절하시고 무엇보다도 과잉진료가 없어서 만족합니다.
5967                                      젛아요!
5969                                         네
5972                            친절하십니다 과잉진료 없음
5974                                     좋아요~~
Name: content, Length: 3146, dtype: object

In [131]:
review_jungrang['content'] = review_jungrang['content'].str.replace('[~!]', ' ', regex=True)
review_jungrang['content'] = review_jungrang['content'].str.replace('[^가-힣]', ' ', regex=True)
review_jungrang[['content']]

Unnamed: 0,content
0,사가정 모인 이비인후과 항상 만원이다
1,좋아요
3,항상 친절한 진료 감사합니다
4,
8,굿
...,...
5966,원장님 간호사님 친절하시고 무엇보다도 과잉진료가 없어서 만족합니다
5967,젛아요
5969,네
5972,친절하십니다 과잉진료 없음


In [132]:
review_jungrang = review_jungrang.reset_index(drop=True)
review_jungrang

Unnamed: 0,name,content
0,365mc모인이비인후과의원,사가정 모인 이비인후과 항상 만원이다
1,365mc모인이비인후과의원,좋아요
2,365mc모인이비인후과의원,항상 친절한 진료 감사합니다
3,365mc모인이비인후과의원,
4,365mc모인이비인후과의원,굿
...,...,...
3141,효치과의원,원장님 간호사님 친절하시고 무엇보다도 과잉진료가 없어서 만족합니다
3142,효치과의원,젛아요
3143,효치과의원,네
3144,효치과의원,친절하십니다 과잉진료 없음


## 형태소 분석

In [None]:
# 감성 사전 형태소 리스트
pos_subset = 

In [88]:
from konlpy.tag import Okt

# 분절도구, 문장을 분해해서 형태소 단위로 반환기능 제공
tokenizer = Okt()

In [90]:
review_jungrang['content'][0]

'사가정 모인 이비인후과 항상 만원이다'

In [89]:
tokenizer.morphs(review_jungrang['content'][0])

['사가정', '모인', '이비인후과', '항상', '만원', '이다']

In [91]:
# Okt분석기 결과 명사 동사 조사 등등 단위로 쪼갬
# 영어권 기반으로 만들어진 keras 지원 토크나이저를 사용하면 영어처럼 공백단위로 분절해서 의미 해석 문제
# 문장 -> 형태소 분해 -> 공백 단위로 합치기 -> ? 의미 있나
' '.join(tokenizer.morphs(review_jungrang['content'][0]))

'사가정 모인 이비인후과 항상 만원 이다'

In [92]:
# 함수화
review_jungrang['content'] = review_jungrang['content'].apply(lambda x: ' '.join(tokenizer.morphs(x)))

In [94]:
from tensorflow.keras.preprocessing.text import Tokenizer

nlp_tokenizer = Tokenizer()




In [95]:
# 문장 => 분절 => 토큰분해 => 사전구축 모두 완료
nlp_tokenizer.fit_on_texts( review_jungrang['content'] )

In [96]:
# 사전화 과정까지 마무리한 문장의 총 수
nlp_tokenizer.document_count

3146

In [97]:
# 벡터화
doc_vectors = nlp_tokenizer.texts_to_sequences(review_jungrang['content'])
len(doc_vectors)

3146

In [98]:
review_jungrang['content'][0], doc_vectors[0]

('사가정 모인 이비인후과 항상 만원 이다', [849, 2690, 850, 50, 1116, 619])

In [99]:
review_jungrang['content'][1], doc_vectors[1]

('좋아요', [12])

In [100]:
# 문장의 벡터 길이가 제각각이니까 보정이 필요 -> 패딩
# 최대 문장 길이 기반(데이터 량이 커질 확률이 존재), 특정 길이로 맞출것인지(정보 손실 가능성 존재)

In [101]:
# 벡터 문장들 중 가장 큰 길이 획득
max_len = max([len(v) for v in doc_vectors])
max_len

113

In [102]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
# pad_sequences -> 맨 앞자리는 항상 0으로 채운다(데이터로 사용 x) : 1+113
padded_x = pad_sequences(doc_vectors, 1+max_len)
padded_x.shape

(3146, 114)

In [105]:
# 데이터는 뒤에 두고, 앞부분은 모두 0으로 채움
# 토크나이저 별로 문장의 시작, 문장의 끝, 패딩 등 기호로 사용
# <pad>, ... => 별도의 토크나이저도 존재
padded_x[2]

array([  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,  50, 104,   4,  35])

In [107]:
# 사전화 확인
print(nlp_tokenizer.index_word)

{1: '도', 2: '잘', 3: '이', 4: '진료', 5: '치료', 6: '에', 7: '님', 8: '너무', 9: '선생님', 10: '가', 11: '원장', 12: '좋아요', 13: '들', 14: '친절하시고', 15: '설명', 16: '의사', 17: '친절하고', 18: '을', 19: '간호사', 20: '병원', 21: '더', 22: '치과', 23: '를', 24: '곳', 25: '친절하게', 26: '안', 27: '보기', 28: '방문', 29: '분들', 30: '은', 31: '으로', 32: '내용', 33: '다', 34: '고', 35: '감사합니다', 36: '해주셔서', 37: '하고', 38: '요', 39: '친절하세요', 40: '는', 41: '꼼꼼하게', 42: '로', 43: '친절해요', 44: '직원', 45: '침', 46: '쌤', 47: '과', 48: '모두', 49: '때', 50: '항상', 51: '해주세요', 52: '상담', 53: '해', 54: '정말', 55: '입니다', 56: '받고', 57: '에서', 58: '과잉', 59: '여기', 60: '해주시고', 61: '분', 62: '만', 63: '많이', 64: '한', 65: '의', 66: '했는데', 67: '추천', 68: '같아요', 69: '까지', 70: '다른', 71: '것', 72: '한의원', 73: '친절', 74: '꼼꼼히', 75: '처음', 76: '효과', 77: '스케일링', 78: '좋았어요', 79: 'ㅎㅎ', 80: '넘', 81: '약', 82: '환자', 83: '마음', 84: '서', 85: '합니다', 86: '봐주세요', 87: '통증', 88: '진짜', 89: '시설', 90: '해주십니다', 91: '해서', 92: '없이', 93: '중', 94: '검진', 95: '해주시', 96: '오늘', 97: '적', 98: '기분', 99: '인데', 100: '하는'

In [108]:
# 토큰의 빈도수
print(nlp_tokenizer.word_counts)

OrderedDict([('사가정', 6), ('모인', 1), ('이비인후과', 6), ('항상', 137), ('만원', 4), ('이다', 9), ('좋아요', 407), ('친절한', 60), ('진료', 656), ('감사합니다', 171), ('ㅇㅇ', 4), ('굿', 45), ('친절해요', 158), ('의욕', 1), ('을', 296), ('복', 1), ('돋아주십니다', 1), ('굳', 14), ('친절하게', 210), ('상담', 135), ('잘', 1041), ('해주네요', 2), ('ㄱㅅ', 1), ('진짜', 71), ('명의', 6), ('세', 12), ('요', 163), ('선생님', 491), ('이', 963), ('꼼꼼하세요', 12), ('설명', 339), ('해주시네요', 31), ('조', 5), ('아유', 1), ('김용민', 1), ('원장', 446), ('님', 522), ('신명호', 1), ('에게', 21), ('받았어요', 32), ('친절하시고', 348), ('도', 1067), ('해주세요', 137), ('병', 3), ('에', 541), ('대해', 32), ('하셔오', 1), ('ㅡ', 6), ('일반', 6), ('6', 8), ('인실인데', 1), ('다른', 90), ('병원', 263), ('보다', 47), ('입원', 13), ('실', 22), ('넓다', 1), ('선물', 8), ('물통', 1), ('양치', 1), ('세트', 1), ('간식', 3), ('수건', 1), ('받았다', 1), ('간호', 16), ('간병', 1), ('통합', 1), ('이라', 48), ('보호자', 4), ('없어도', 1), ('되고', 12), ('병실', 3), ('면회', 1), ('가', 461), ('안되서', 5), ('조용히', 1), ('쉴수있었다', 1), ('딱', 14), ('내', 54), ('스타일', 4), ('갈', 42), ('때',

In [109]:
# 사전의 인덱스 확인
print( nlp_tokenizer.word_index )

{'도': 1, '잘': 2, '이': 3, '진료': 4, '치료': 5, '에': 6, '님': 7, '너무': 8, '선생님': 9, '가': 10, '원장': 11, '좋아요': 12, '들': 13, '친절하시고': 14, '설명': 15, '의사': 16, '친절하고': 17, '을': 18, '간호사': 19, '병원': 20, '더': 21, '치과': 22, '를': 23, '곳': 24, '친절하게': 25, '안': 26, '보기': 27, '방문': 28, '분들': 29, '은': 30, '으로': 31, '내용': 32, '다': 33, '고': 34, '감사합니다': 35, '해주셔서': 36, '하고': 37, '요': 38, '친절하세요': 39, '는': 40, '꼼꼼하게': 41, '로': 42, '친절해요': 43, '직원': 44, '침': 45, '쌤': 46, '과': 47, '모두': 48, '때': 49, '항상': 50, '해주세요': 51, '상담': 52, '해': 53, '정말': 54, '입니다': 55, '받고': 56, '에서': 57, '과잉': 58, '여기': 59, '해주시고': 60, '분': 61, '만': 62, '많이': 63, '한': 64, '의': 65, '했는데': 66, '추천': 67, '같아요': 68, '까지': 69, '다른': 70, '것': 71, '한의원': 72, '친절': 73, '꼼꼼히': 74, '처음': 75, '효과': 76, '스케일링': 77, '좋았어요': 78, 'ㅎㅎ': 79, '넘': 80, '약': 81, '환자': 82, '마음': 83, '서': 84, '합니다': 85, '봐주세요': 86, '통증': 87, '진짜': 88, '시설': 89, '해주십니다': 90, '해서': 91, '없이': 92, '중': 93, '검진': 94, '해주시': 95, '오늘': 96, '적': 97, '기분': 98, '인데': 99, '하는': 100

In [111]:
len(nlp_tokenizer.word_index)

6887