# 단어 표현

- One Hot Encoding : 텍스트 마이닝 이전, 단어를 Matrix 형태로 표현
- CBOW : 텍스트 마이닝 이전, 단어를 Maxtrix 형태로 표현
- Skip-Gram : 주변 단어에 대한 예측 및 유사도 계산

## TF - IDF (Term Frequence Inverse Document Frequency)

- CBOW 방식을 보완하기 위해 개별 문서나, 문장에 자주 나타나는 단어에 가중치를 두되, 전체적으로 많이 등장하는 단어에는 패널티를 부여해 확률 값으로 단어를 표현
- 특정 문장에서 많이 등장하는 단어는 중요한 단어가 되지만, 다른 문장에서도 많이 사용한다면, 범용적으로 사용되는 단어일 가능성이 높음
- 각 문장의 특징을 더 명확하게 구분 짓는 기법 -> 텍스트 마이닝(분류) 높은 성능을 발휘

In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer
from konlpy.tag import Kkma

In [7]:
text1 = '''아무리 우겨 봐도 어쩔 수 없네
저기 개똥 무덤이 내 집인걸
가슴을 내밀어도 친구가 없네
노래하던 새들도 멀리 날아가네
가지 마라 가지 마라 가지 말아라
나를 위해 한 번만 노래를 해 주렴
아아 외로운 밤 쓰라린 가슴 안고
오늘 밤도 그렇게 울다 잠이 든다

마음을 다 주어도 친구가 없네
사랑하고 싶지만 모두 떠나가네
가지 마라 가지 마라 가지 말아라
나를 위해 한 번만 손을 잡아 주렴
아아 외로운 밤 쓰라린 가슴 안고
오늘 밤도 그렇게 울다 잠이 든다
아아 외로운 밤 쓰라린 가슴 안고
오늘 밤도 그렇게 울다 잠이 든다
아아 외로운 밤 쓰라린 가슴 안고
오늘 밤도 그렇게 울다 잠이 든다
울다 잠이 든다 '''

In [8]:
kkma = Kkma()
sent1 = kkma.sentences(text1) # 하나의 문단을 문장으로 분해

In [10]:
tfidf_model = TfidfVectorizer()
x = tfidf_model.fit_transform(sent1) # TF-IDF 기법으로 해석

In [11]:
word_featrue = tfidf_model.get_feature_names_out() # 각 문장의 단어를 분해

In [12]:
word_tfidf = x.toarray() # 각 문장별 단어의 확률값을 확인

In [13]:
import pandas as pd

In [15]:
pd.DataFrame(data=word_tfidf, columns=word_featrue)

Unnamed: 0,가슴,가슴을,가지,그렇게,나를,내밀어도,노래를,노래하던,든다,떠나가네,...,우겨,울다,위해,잠이,잡아,저기,주렴,주어도,집인,친구가
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.471225,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.401854,0.0,0.0,0.0,0.401854,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.401854,0.0,0.0,0.401854,0.333573
2,0.0,0.0,0.674112,0.0,0.0,0.0,0.0,0.2707,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.21778,0.0,0.0,0.21778,0.21778,0.0,0.262359,0.0,0.21778,0.0,...,0.0,0.21778,0.21778,0.21778,0.0,0.0,0.21778,0.262359,0.0,0.21778
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.5,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,0.0,0.0,0.801784,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
6,0.266309,0.0,0.0,0.266309,0.08877,0.0,0.0,0.0,0.355079,0.0,...,0.0,0.355079,0.08877,0.355079,0.10694,0.0,0.08877,0.0,0.0,0.0


# 문장 표현 (Sentence Representation)
- 텍스트 분류 및 연관분석 등, 텍스트 마이닝 기법을 사용하기 전, 문장단위의 표현 방법
- Text to Sequence : 여러 문장을 컴퓨터가 이해할 수 있는 Sequence로 표현
- Padding : 변환된 Sequence를 똑같은 형태로 (Column의 수를 지정)하여 변환하는 작업

In [16]:
# 기업의 한줄평을 X , 기업추천여부 Y -> 분류 모델 생성 (Text Mining + 문장 표현)
df1 = pd.read_csv(r'C:\Users\UserK\Desktop\Ranee\data\ML\24_Data.csv')
df2 = df1.dropna()

**Text to Sequence**

In [20]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [17]:
df2['기업한줄평']

0                   "부서 by 부서, 팀장 by 팀장으로 근무환경이 달라지는 곳"
1                           "과거에 비해 안좋아졌지만 그래도 괜찮은  회사"
2                         "여러 장단점이 있긴 한데 장점이 더 많아보입니다."
3                   "대외 인지도에 비해 실제로 느끼는 업무 만족도가 많이 떨어짐"
4                              "우수한 동료들이 많고 성장할 수 있는 곳"
                            ...                        
74         "좋은 공기업이고 금융관련하연 많은것을 배울수 있지만 홍보는 말단사원일 뿐이다"
75                             "조직문화가 너무 보수적이고 업무강도 높음"
77    "경쟁이 치열하고 개인적인 분위기. 업무에 따라 만족도 천차만별. 2-3년 주기의 ...
78               "현장실습생으로 근무를 해보았는데 정말 좋은 공기업이라고 생각됩니다"
79                        "외부에서는 권력기관 정작 내부에서는 불만의 아우성"
Name: 기업한줄평, Length: 76, dtype: object

In [24]:
token_model = Tokenizer()
token_model.fit_on_texts(df2['기업한줄평']) # 기업 한줄평 내 모든 단어 토큰을 하나의 정수로 매칭

In [25]:
text_seq = token_model.texts_to_sequences(df2['기업한줄평']) # 텍스트를 매칭된 숫자로 변환
text_seq

[[28, 29, 28, 87, 29, 88, 89, 90, 3],
 [91, 14, 92, 30, 93, 4],
 [31, 94, 95, 96, 32, 9, 97],
 [33, 98, 14, 99, 100, 15, 101, 34, 102],
 [103, 104, 10, 105, 1, 2, 3],
 [106, 107, 108, 35, 109, 110, 111],
 [112, 113, 114, 15, 115, 116, 36, 117, 118, 119, 120, 121],
 [122, 123, 37, 124, 11, 4],
 [38, 125, 126, 127, 128, 39, 129, 130, 131, 132, 133, 134],
 [135, 136, 137, 138, 139],
 [140, 141, 16, 142, 143],
 [144, 145, 17, 146],
 [147, 16, 35, 8, 148, 149, 150, 151, 152, 3],
 [40, 153, 154, 41, 5, 155, 156, 1, 18, 42, 43, 44, 157],
 [158, 45, 159, 160, 45, 161, 4],
 [162, 163, 164, 165, 166, 167, 168, 169, 170],
 [171, 172, 173, 4, 46, 174, 12, 19, 4],
 [175, 176, 177, 47],
 [48, 178, 179, 180, 181, 4, 182, 183, 49, 50, 184, 185, 186, 32, 20],
 [187, 188, 189, 190, 15, 191, 192, 193, 194, 47],
 [195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205],
 [206, 207, 208, 209, 6, 51, 210, 211, 212, 213, 52],
 [214, 53, 215, 216, 217, 218, 219],
 [54, 220, 221, 222, 223, 224, 225, 226, 227, 2

In [26]:
token_model.word_index # 어떤 문자가 어떤 숫자로 매칭되었는가 표현

{'수': 1,
 '있는': 2,
 '곳': 3,
 '회사': 4,
 '좋은': 5,
 '있음': 6,
 '직장': 7,
 '하지만': 8,
 '더': 9,
 '많고': 10,
 '많은': 11,
 '누구나': 12,
 '기업': 13,
 '비해': 14,
 '업무': 15,
 '만족하며': 16,
 '프라이드가': 17,
 '있으나': 18,
 '아는': 19,
 '있다': 20,
 '있습니다': 21,
 '최고의': 22,
 '사람들이': 23,
 '대한': 24,
 '신의': 25,
 '우리나라': 26,
 '보수적이고': 27,
 '부서': 28,
 'by': 29,
 '그래도': 30,
 '여러': 31,
 '장점이': 32,
 '대외': 33,
 '많이': 34,
 '다닐만': 35,
 '복지': 36,
 '배울': 37,
 '아쉬운': 38,
 '곳이지만': 39,
 '다니기': 40,
 '노력해서': 41,
 '내부': 42,
 '경쟁이': 43,
 '매우': 44,
 '다니기엔': 45,
 '이름만': 46,
 '좋은곳': 47,
 '모든': 48,
 '안정적이고': 49,
 '높은': 50,
 '업무강도': 51,
 '높음': 52,
 '금융을': 53,
 '다양한': 54,
 '서로': 55,
 '되는': 56,
 '정말': 57,
 '갖고': 58,
 '업무의': 59,
 '그냥': 60,
 '직장이지만': 61,
 '이름만으로도': 62,
 '기업입니다': 63,
 '다들': 64,
 '좋고': 65,
 '것': 66,
 '같습니다': 67,
 '일을': 68,
 '금융': 69,
 '분위기를': 70,
 '특수한': 71,
 '경험을': 72,
 '있으며': 73,
 '따라': 74,
 '수직적': 75,
 '나쁘지': 76,
 '않은': 77,
 '다소': 78,
 '타': 79,
 '그에': 80,
 '너무': 81,
 '분위기': 82,
 '따르는': 83,
 '나름': 84,
 '자부심을': 85,
 '심함': 86,
 '팀장'

**Padding**
- 텍스트 길이에 따라 Sequence 길이가 달라지는데, 이 서로다른 길이를 0으로 채워 나눠진 문장을 일정한 크기의 Matrix 표현

In [27]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [28]:
pad_sequences(text_seq, maxlen=50,padding='post')

array([[ 28,  29,  28, ...,   0,   0,   0],
       [ 91,  14,  92, ...,   0,   0,   0],
       [ 31,  94,  95, ...,   0,   0,   0],
       ...,
       [ 43, 578, 579, ...,   0,   0,   0],
       [592, 593, 594, ...,   0,   0,   0],
       [597, 598, 599, ...,   0,   0,   0]])

In [29]:
X=pad_sequences(text_seq, maxlen=50,padding='post')
pd.DataFrame(X)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,40,41,42,43,44,45,46,47,48,49
0,28,29,28,87,29,88,89,90,3,0,...,0,0,0,0,0,0,0,0,0,0
1,91,14,92,30,93,4,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,31,94,95,96,32,9,97,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,33,98,14,99,100,15,101,34,102,0,...,0,0,0,0,0,0,0,0,0,0
4,103,104,10,105,1,2,3,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
71,5,569,570,571,572,573,574,575,576,0,...,0,0,0,0,0,0,0,0,0,0
72,577,81,27,51,52,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
73,43,578,579,82,580,74,581,582,583,584,...,0,0,0,0,0,0,0,0,0,0
74,592,593,594,57,5,595,596,0,0,0,...,0,0,0,0,0,0,0,0,0,0


**Text Mining**

In [30]:
df2['Target'] = df2['기업추천여부'].replace({'추천' : 1 , '비추천' : 0 })
df2['Target'].value_counts()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2['Target'] = df2['기업추천여부'].replace({'추천' : 1 , '비추천' : 0 })


Target
1    57
0    19
Name: count, dtype: int64

In [31]:
X = df2['기업한줄평']
Y = df2['Target']

In [32]:
from sklearn.model_selection import train_test_split

In [33]:
X_train, X_test, Y_train, Y_test = train_test_split(X,Y,random_state=1234)

In [48]:
# 파이프라인을 구성하여 Text to Seq , Padding 수행
# 특정 데이터를 전처리하는 함수를 생성해 파이프라인 안에 넣어 처리
def text_preprocessing(X) :
    token_model = Tokenizer()
    token_model.fit_on_texts(X) # 입력 받은  X로 단어 사전을 구성
    seq_x = token_model.texts_to_sequences(X)
    return pad_sequences(seq_x, maxlen=20, padding='post')

In [49]:
# 사용자가 직접 생성한 전처리 함수를 Pipeline 내에서 사용할 수 있게 변환
from sklearn.preprocessing import FunctionTransformer

In [50]:
text_token_transfer = FunctionTransformer(text_preprocessing)
text_token_transfer

In [51]:
# 파이프 라인을 구성하여 학습
from imblearn.pipeline        import make_pipeline
from imblearn.over_sampling  import SMOTE
from sklearn.preprocessing   import MinMaxScaler
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble        import RandomForestClassifier

In [52]:
# 학습 파이프라인을 구성
model_pipe = make_pipeline(text_token_transfer, MinMaxScaler(), SMOTE(), RandomForestClassifier())

In [53]:
# 교차검증 및 하이퍼파라미터 튜닝
hyper_list = {'randomforestclassifier__max_depth' : [5,10,15,20],
              'randomforestclassifier__min_samples_split' : range(5,10),
              'randomforestclassifier__criterion' : ['gini','entropy']}
grid_model = GridSearchCV(model_pipe, param_grid = hyper_list, cv=3, scoring='f1', n_jobs=-1)
grid_model.fit(X_train, Y_train)
best_model= grid_model.best_estimator_

In [54]:
from sklearn.metrics import classification_report

In [55]:
Y_train_pred = best_model.predict(X_train)
Y_test_pred = best_model.predict(X_test)

In [56]:
print(classification_report(Y_train, Y_train_pred))
print(classification_report(Y_test, Y_test_pred))

              precision    recall  f1-score   support

           0       0.80      1.00      0.89        16
           1       1.00      0.90      0.95        41

    accuracy                           0.93        57
   macro avg       0.90      0.95      0.92        57
weighted avg       0.94      0.93      0.93        57

              precision    recall  f1-score   support

           0       0.00      0.00      0.00         3
           1       0.73      0.50      0.59        16

    accuracy                           0.42        19
   macro avg       0.36      0.25      0.30        19
weighted avg       0.61      0.42      0.50        19



In [57]:
# 새로운 데이터 입력
new_Data = '회사의 협력적 관계에 있어서 가장 중요한건 팀워크입니다만?ㅋㅋ 우리 회사는 그게 잘 안되는듯'
input_data = pd.DataFrame(data=[new_Data], columns=['기업한줄평'])

In [58]:
best_model.predict(input_data) # 기업 추천 여부 예측

array([1], dtype=int64)

In [59]:
best_model.predict_proba(input_data) # 기업 추천 여부 확률을 예측

array([[0.19615159, 0.80384841]])

# 신경망 알고리즘을 이용한 자연어 처리

## RNN (Recurrent Neral Network / 순환신경망 알고리즘)
- 순서를 갖는 Sequence 데이터를 처리 / 현재까지 처리된 정보 상태(State) 저장하여 앞/뒤 정보를 유지하며 학습을 수행
  - ![image.png](https://wikidocs.net/images/page/22886/rnn_image3.5.PNG)
  - 1. 문장 표현 Sequence가 순차적으로 Node에 들어감
    2. 각 Node가 선행 단어부터 순차적으로 처리 -> 앞서 처리된 단어의 결과를 이용해, 다음층으로 보낼 가중치를 계산
    3. 각 단어의 위치에서 Layer(Node)통과한 결과가 출력
- 특징 :
  - 데이터의 순서와 서열을 반영하여 학습 ( 나는 고양이를 좋아해 VS 고양이는 나를 좋아해 를 구별 가능)
  - 장기 의존성 문제(Long Term Dependencies) : 시퀀스가 길어지면, 이전에 처리된 정보가 점점 학습이 진행되며 손실
    - Gradient 소실, 폭주 문제로 이어짐 

In [None]:
from keras.layers import SimpleRNN
from keras.layers import Embedding 
from keras.models import Sequential 
from keras.layers import Dense

X_train_rnn = text_preprocessing(X_train)
X_test_rnn = text_preprocessing(X_test)

model_RNN = Sequential()
model_RNN.add(Embedding(10000, 8))
model_RNN.add(SimpleRNN(32))
model_RNN.add(Dense(1, activation='sigmoid'))
model_RNN.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model_RNN.fit(X_train_rnn, Y_train, epochs=20, validation_split=0.3)

def func1(result):
    if result >= 0.5 : return 1 
    return 0

Y_train_pred = pd.Series(model_RNN.predict(X_train_rnn).flatten()).apply(func1)
Y_test_pred  = pd.Series(model_RNN.predict(X_test_rnn ).flatten()).apply(func1)

print(classification_report(Y_train, Y_train_pred))
print(classification_report(Y_test,  Y_test_pred))

# LSTM (Long Short-Term Memory)

- RNN 모델의 장기의존문제를 해결하기 위해 고안된 RNN 계열의 모델
- ![img3](https://wikidocs.net/images/page/22888/vaniila_rnn_and_different_lstm_ver2.PNG)
- Seq의 길이가 긴 데이터에 대해 Cell State라는 Node를 활용하여, 장기적으로 정보가 전달 될 수 있도록 정보를 저장 하는 Node를 추가한 형태
- LSTM은 Cell State를 조정하기 위해 세가지 주요 Gate(입력값이 처리되는 Filter)를 사용
  - 1. Input Gate (입력 게이트) : Cell State에 새로운 정보를 저장할지 말지를 결정
       - 하나는 Sigmoid 함수로 구성 -> 어떤 값을 Update 할 지를 결정
       - 다른 하나는 Tanh 함수로 구성 -> Cell State에 추가될 후보 값들을 생성
       - ![imge1](https://wikidocs.net/images/page/22888/inputgate.PNG)
  - 2. Forget Gate (삭제 게이트) : Cell State에서 어떤 정보를 제거할 지 결정
       - 현재 Input(입력)과 이전 Node에 있는 State 중 Sigmoid를 이용하여, 0과 1사이 값을 출력
       - 1 : 정보를 유지 / 0 : 정보를 삭제
       - ![imge1](https://wikidocs.net/images/page/22888/forgetgate.PNG)
  - 3. Output Gate (출력 게이트) : Cell State의 정보를 기반으로 어떤 값을 출력할지를 결정
       - Sigmoid 함수를 이용해 어떤 Cell State를 출력할지 결정하고, Cell State는 Tanh를 통과하여 값의 범위를 조정한 뒤 Sigmoid Node와 합쳐져 최종 출력을 계산
       - ![imge2](https://wikidocs.net/images/page/22888/outputgateandhiddenstate.PNG)

In [60]:
from keras.layers import LSTM

- Drop Out : 신경망을 학습할 때, 과적합 현상을 방지하기 위한 규제 방법 / 일정 비율의 Node에 대한 Weight Update를 비활성화 

In [None]:
model_LSTM = Sequential()
model_LSTM.add( Embedding(10000, 8))
model_LSTM.add( LSTM(128, dropout=0.2 ))
model_LSTM.add( Dense(1, activation='sigmoid'))
model_LSTM.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model_LSTM.fit(X_train_rnn, Y_train, epochs=20, validation_split=0.3)

Y_train_pred = pd.Series(model_LSTM.predict(X_train_rnn).flatten()).apply(func1)
Y_test_pred  = pd.Series(model_LSTM.predict(X_test_rnn ).flatten()).apply(func1)

print(classification_report(Y_train, Y_train_pred))
print(classification_report(Y_test, Y_test_pred))

# GRU (Gated Recurrent Unit)

- LSTM 의 변형 형태로, LSTM 모델의 3가지 게이트 구조를 단순화하여 효율적인 계산 (시간과 자원)
- ![img4](https://wikidocs.net/images/page/22889/gru.PNG)

- Update Gate : 현재 계산된 State값을 다음 Node에 얼마나 반영할 지를 계산
    - LSTM 모델에 Input Gate 와 Forget Gate을 수행
    - 과거의 정보를 얼마나 유지하고, 다음 정보를 전달할지를 결정 
- Reset Gate : 이전에 Node에서 전달받은 State가 현재의 입력값과 함께 어떻게 연산 될지를 결정
      - LSTM에 Cell State 없이, 과거의 정보를 효과적으로 필터링
- LSTM 알고리즘과 비교했을 때, 더 적은 Parameter(Layer, Node, Time)로 잘 작동 됨

In [None]:
from keras.layers import GRU 

model_GRU = Sequential()
model_GRU.add( Embedding(10000,8))
model_GRU.add( GRU(128, dropout=0.2) )
model_GRU.add( Dense(1, activation='sigmoid'))
model_GRU.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model_GRU.fit(X_train_rnn, Y_train, epochs=20, validation_split=0.3)

Y_train_pred = pd.Series(model_GRU.predict(X_train_rnn).flatten()).apply(func1)
Y_test_pred  = pd.Series(model_GRU.predict(X_test_rnn ).flatten()).apply(func1)

print(classification_report(Y_train, Y_train_pred))
print(classification_report(Y_test,  Y_test_pred))