단어 표현 (Word Representation)
언어적 특성을 활용해 단어를 수치화 하여, 컴퓨터가 이해할 수 있는 형태로 변환
Word Embedding / Word Vector 로 표현
통계기반의 자연어 처리를 수행하는데 근간이 되는 분석 기법
텍스트 마이닝의 선행 단계
One Hot Encoding
문장의 모든 단어를 0 또는 1로 변환
각 단어를 Index로 만들어서, 문장 내 해당 단어가 등장하면 Index값에 1 / 등장하지 않으면 0 변환
장점 :
방법 자체가 매우 간단함
컴퓨터나 사람이 이해하기 쉽다
단점 :
대량의 Text를 분석하는 경우, 단어의 종류가 많아 Martix의 크기가 매우 커짐 (비효율적)
단어 벡터 자체에 단어의 의미나 특성같은 것은 전혀 표현되지 않음
문장 내 단어의 순서를 반영하지 않음 / 맥락파악/의도파악에는 명확한 한계

In [1]:
text1 = """그대 기억이 지난 사랑이 내 안을 파고드는 가시가 되어~
제발 가라고 아주 가라고~"""

In [2]:
import pandas as pd 
from konlpy.tag import Okt

In [3]:
okt = Okt() # 한국어 형태소 분석기 

In [4]:
df_text = pd.DataFrame(okt.pos(text1), columns=['단어','품사'])
df_onehot = pd.get_dummies(df_text['단어']).replace({True:1, False:0})
print(df_onehot.shape)
df_onehot

(22, 18)


  df_onehot = pd.get_dummies(df_text['단어']).replace({True:1, False:0})


Unnamed: 0,\n,~,가,가라,가시,고,그대,기억,내,되어,사랑,아주,안,을,이,제발,지난,파고드는
0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0
3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0
4,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0
6,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0
7,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0
9,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1


Continuous Bag of Words (CBOW)
문서 내의 모든 단어를 모아놓고 단어에 대한 빈도수를 바탕으로 특정 문장 내 특정 단어가 몇번 출현했는지 추출
장점 :
매우 직관적
넓은 범위(비교적 긴 문장)에서 사용이 가능하고, 쉽고 빠른 구성
문장의 특성을 보다 잘 나타낼 수 있음 (One Hot 기법에 비해)
문장 간 구분이 명확하여, 특정 문장에서 어떤 주제를 시사하는지 파악 용이
단점 :
문장 내 단어의 순서가 반영되지 않음 -> 문장 내 단어의 문맥적 의미를 파악하기 어려움 (Semantic Context 문제)
분석하는 문장 내 희소 단어( 전체 문장에 많이 등장하지 않는, 빈도수가 적은 단어)가 등장하면 Sparse Matrix 현상 발생 (Sparse Matrix - 대부분의 행렬이 0값으로 채워져 있는 경우) -> 텍스트 마이닝

In [5]:
from sklearn.feature_extraction.text import CountVectorizer

In [6]:
text2 = """너와 함께 한 시간 모두 눈부셨다. 
날이 좋아서, 날이 좋지 않아서, 날이 적당해서, 모든 날이 좋았다.
그리고 무슨일이 벌어져도 니 잘못이 아니다."""

In [7]:
# 문장 분리 Sentence Separation 
sent1 = text2.split('\n')
sent1

['너와 함께 한 시간 모두 눈부셨다. ',
 '날이 좋아서, 날이 좋지 않아서, 날이 적당해서, 모든 날이 좋았다.',
 '그리고 무슨일이 벌어져도 니 잘못이 아니다.']

In [8]:
# CBOW 
vector_model = CountVectorizer()
x = vector_model.fit_transform(sent1)

In [9]:
vector_model.get_feature_names_out()

array(['그리고', '날이', '너와', '눈부셨다', '모두', '모든', '무슨일이', '벌어져도', '시간', '아니다',
       '않아서', '잘못이', '적당해서', '좋아서', '좋았다', '좋지', '함께'], dtype=object)

In [10]:
x.toarray()

array([[0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1],
       [0, 4, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0],
       [1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0]], dtype=int64)

In [11]:
pd.DataFrame(data=x.toarray(), columns=vector_model.get_feature_names_out())

Unnamed: 0,그리고,날이,너와,눈부셨다,모두,모든,무슨일이,벌어져도,시간,아니다,않아서,잘못이,적당해서,좋아서,좋았다,좋지,함께
0,0,0,1,1,1,0,0,0,1,0,0,0,0,0,0,0,1
1,0,4,0,0,0,1,0,0,0,0,1,0,1,1,1,1,0
2,1,0,0,0,0,0,1,1,0,1,0,1,0,0,0,0,0


Term Frequence Inverse Document Frequency (TF-IDF)
CBOW 기법을 보완하기 위해, 개별 문서나 문장에서 자주 나타나는 단어에 가중치를 두고, 전체적으로 많이 등장하는 단에는 패널티를 부여해 단어를 표현
특정 문장에서 많이 등장하는 단어는 중요한 단어가 되지만, 다른 문장에서도 해당 단어가 많이 사용된다면, 범용적으로 사용되는 단어이거나 전체 문단을 관통하는 주제어일 가능성이 높음
가중치를 이용해, 범용적으로 등장하는 문단 전체 주제어는 제한하고, 특정 문장에서 등장하는 강조되는 단어를 찾아내 텍스트 마이닝을 수행할 시, 높은 성능을 보임

In [12]:
text3 = """왜 또 아픈 상처에 소금을 뿌리십니까?
제게도 꿈은 있었습니다.
전 있잖아요. 국문학과를 가고 싶었어요.
가야 할 때가 언제 인가를 분명히 알고 가는이의 뒷모습은 얼마나 아름다운가.
봄 한 철 격정을 이내한 나의 사랑은 지고 있다.
분분한 낙화.
한 잔은 떠나간 너 를 위하여.
한 잔은 너 와 나의 영원했던 사랑을 위하여.
한 잔은 이미 초라해진 나를 위하여.
그리고 마지막 한 잔은 미리 알고 정하신 신을 위하여.
- 낭만어부 - """

In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.tokenize import sent_tokenize

In [14]:
sent2 = sent_tokenize(text3)
sent2

['왜 또 아픈 상처에 소금을 뿌리십니까?',
 '제게도 꿈은 있었습니다.',
 '전 있잖아요.',
 '국문학과를 가고 싶었어요.',
 '가야 할 때가 언제 인가를 분명히 알고 가는이의 뒷모습은 얼마나 아름다운가.',
 '봄 한 철 격정을 이내한 나의 사랑은 지고 있다.',
 '분분한 낙화.',
 '한 잔은 떠나간 너 를 위하여.',
 '한 잔은 너 와 나의 영원했던 사랑을 위하여.',
 '한 잔은 이미 초라해진 나를 위하여.',
 '그리고 마지막 한 잔은 미리 알고 정하신 신을 위하여.',
 '- 낭만어부 -']

In [15]:
vector_model2 = TfidfVectorizer()
x = vector_model2.fit_transform(sent2)

In [16]:
df_text2 = pd.DataFrame(data=x.toarray(), columns=vector_model2.get_feature_names_out())
df_text2.shape

(12, 43)

In [17]:
df_text2.head(3)

Unnamed: 0,가고,가는이의,가야,격정을,국문학과를,그리고,꿈은,나를,나의,낙화,...,이미,인가를,있다,있었습니다,있잖아요,잔은,정하신,제게도,지고,초라해진
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.57735,0.0,0.0,0.0,...,0.0,0.0,0.0,0.57735,0.0,0.0,0.0,0.57735,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0


Skip - Gram
중심 단어로부터 주변 단어를 예측/표현, 주어진 단어로부터 그 주변에 위치한 단어들이 확률적으로 등장할 값을 계산
장점 :
의미론적 관계 학습 : 단어 간의 복잡한 의미를 도출 할 수 있음
드물게 나타나는 단어도 확률값으로 표현하여 처리하기 떄문에, 단어 표현에 있어 효율성이 높음
단어 간 유사도 계산

In [29]:
# !pip install gensim

In [22]:
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize

In [23]:
# 어절 분리 -> 문장 내 단어를 각각의 토큰으로 분할 
sent3 = [word_tokenize(x) for x in sent_tokenize(text3)]

In [24]:
model = Word2Vec(sent3, vector_size=100, window=5, min_count=1, sg=1)
# vector_size=100 : 학습 될 단어의 벡터 차원 수를 결정 
# window= : 모델이 학습 될 때, 고려되는 Text의 크기
# 중심 단어를 기준으로 좌/우 몇개 단어를 컨텍스트로 볼 지 결정 
# min_count=1 : 학습에 포함 시킬 최소 단어 수 
# sg=1 : Skip-Gram 방식을 활용 

In [25]:
# 단어 간 유사도 계산 
model.wv.similarity('너', '위하여')
# 두 단어의 유사도는 코사인 유사도를 계산하여 출력 
# +1 : 두 단어가 매우 유사하고 관련이 깊다 (승용차 - 자동차)
# 0 : 두 단어가 서로 상관이 없다 (맥락이 없다) 
# -1 : 두 단어는 서로 반대되는 관계가 있다 / 맥락적으로 반되는 의미의 단어도 같은 문장에서 등장 

-0.04430876

문장 표현 (Sentence Representation)
텍스트 분류 및 연관 분석 등 텍스트 마이닝 기법을 사용하기 위해, 문장 단위로 자연어를 처리하여 표현하는 기법
Text to Sequence
문장 내 단어들을 하나의 정수와 매칭시켜, 한 문장을 여러개의 정수로 구성 (Label Encoding)
컴퓨터가 자체적으로 갖는 단어사전을 구성하여, 문장 내 각 단어들의 위치정보를 구성하는 작업
Padding
텍스트의 길이에 따라 Vector (Sequence)의 크기가 달라지는데, 이를 마이닝 기법에 적용하기 위해 가장자리 값을 0으로 채워주는 기법

In [26]:
import pandas as pd 
import numpy as np 

In [27]:
df1 = pd.read_excel('data/31_Data.xlsx')
df1.shape

(2575, 6)

In [28]:
df1.head(2)

Unnamed: 0,관계,지속강화해야할행동,현재하고있지않지만해야할행동,더이상하지말아야할행동,직종,임원추천여부
0,타인,-Very Supportive\n-Highly encouraging,- More Communication with team members,-None,경영/기획/컨설팅,추천
1,타인,Socializing and Networking with all employees ...,Provide a System for further development,Nothing to rCQBort,경영/기획/컨설팅,추천


In [30]:
# 글을 작성한 직원 기준으로 정리된 데이터를 Text를 기준으로 변환 
df2 = df1.reset_index().melt(id_vars=['index','관계','직종','임원추천여부'])
df3 = df2.rename(columns={'index':'사원ID','variable':'항목','value':'TEXT'})
df3.head(3)

Unnamed: 0,사원ID,관계,직종,임원추천여부,항목,TEXT
0,0,타인,경영/기획/컨설팅,추천,지속강화해야할행동,-Very Supportive\n-Highly encouraging
1,1,타인,경영/기획/컨설팅,추천,지속강화해야할행동,Socializing and Networking with all employees ...
2,2,타인,인사/총무,비추천,지속강화해야할행동,no comment


In [31]:
df4 = df3.dropna()

In [32]:
df4['Target'] = df4['임원추천여부'].replace({'추천':1, '비추천':0})
df4['Target'].value_counts()

  df4['Target'] = df4['임원추천여부'].replace({'추천':1, '비추천':0})
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df4['Target'] = df4['임원추천여부'].replace({'추천':1, '비추천':0})


Target
1    5821
0    1820
Name: count, dtype: int64

In [33]:
Y = df4['Target']
X = df4['TEXT']

In [34]:
from sklearn.model_selection import train_test_split

In [35]:
X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=0.3, random_state=1234)

In [36]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import MinMaxScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report

In [37]:
# 사용자가 만든 함수를 scikit Learn 파이프라인 내에서 사용할 수 있도록 변환 
from sklearn.preprocessing import FunctionTransformer

In [38]:
# 자연어 문장 처리 함수를 구성 (Text2Seq / Padding) 
def text_preprocessing(X):
    text_to_seq = Tokenizer(num_words=10000) # 단어 사전 (하나의 단어에 하나의 정수를 매칭)
    text_to_seq.fit_on_texts(X) # 해당 데이터에 대해 단어 사전을 구성 
    seq1 = text_to_seq.texts_to_sequences(X) # 구성된 사전을 활용해, 자연어를 숫자로 변환 
    return pad_sequences(seq1, maxlen=30)

In [39]:
text_preprocessing(X)

array([[   0,    0,    0, ..., 5044, 5045,  858],
       [   0,    0,    0, ...,  718,    8,  105],
       [   0,    0,    0, ...,    0,   73,  578],
       ...,
       [   0,    0,    0, ...,    0,    0,    0],
       [   0,    0,    0, ...,  276,   72,    2],
       [   0,    0,    0, ...,    0,    0,    1]])

In [40]:
# 파이프라인에 해당 함수를 사용할 수 있도록 변환 
text_transformer = FunctionTransformer(text_preprocessing)
text_transformer

In [41]:
pipe_model = make_pipeline( text_transformer, MinMaxScaler(), RandomForestClassifier() )

In [42]:
hyper = {'randomforestclassifier__max_depth':[3,5,7],
        'randomforestclassifier__class_weight':['balanced']}
grid_model = GridSearchCV(pipe_model, param_grid=hyper, cv=3, scoring='f1', n_jobs=-1)
grid_model.fit(X_train, Y_train)
best_model = grid_model.best_estimator_

In [43]:
Y_train_pred = best_model.predict(X_train)
Y_test_pred  = best_model.predict(X_test)

In [44]:
print(classification_report(Y_train, Y_train_pred))
print(classification_report(Y_test,  Y_test_pred))

              precision    recall  f1-score   support

           0       0.32      0.82      0.46      1290
           1       0.89      0.44      0.59      4058

    accuracy                           0.53      5348
   macro avg       0.60      0.63      0.53      5348
weighted avg       0.75      0.53      0.56      5348

              precision    recall  f1-score   support

           0       0.24      0.59      0.34       530
           1       0.78      0.44      0.56      1763

    accuracy                           0.47      2293
   macro avg       0.51      0.52      0.45      2293
weighted avg       0.66      0.47      0.51      2293



In [45]:
# 새로운 값 입력 
new_data = input()
input_data = pd.DataFrame(data=[new_data], columns=['TEXT'])
input_data

 이 회사는 진짜 팀워크가 좋아요!


Unnamed: 0,TEXT
0,이 회사는 진짜 팀워크가 좋아요!


In [46]:
best_model.predict(input_data) # 0 : 비주천으로 분류 

array([0], dtype=int64)