In [1]:
import pandas as pd
import numpy as np

In [2]:
train = pd.read_csv('data/train.csv')
test = pd.read_csv('data/test.csv')
data_info = pd.read_csv('data/data_info.csv', encoding = 'cp949')

In [3]:
## del column
train.drop(["ID", "Dialogue_ID", "Speaker"], axis = 1, inplace = True)
test.drop(["ID", "Dialogue_ID", "Speaker"], axis = 1, inplace = True)

In [21]:
X = train['Utterance']
y = train['Target']

In [5]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
from nltk.corpus import stopwords
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [22]:
token = []
stop_words = set(stopwords.words('english'))

for i in X :
    tok = text_to_word_sequence(i)
    result = []

    for word in tok :
        word = word.lower() # 모든 단어 소문자 치환

        if len(word) > 2 : # 길이가 2 이하인 단어 제거
            result.append(word)
    
    token.append(result)

In [23]:
token

[['also',
  'was',
  'the',
  'point',
  'person',
  'company’s',
  'transition',
  'from',
  'the',
  'system'],
 ['you', 'must’ve', 'had', 'your', 'hands', 'full'],
 ['that', 'did', 'that', 'did'],
 ['let’s', 'talk', 'little', 'bit', 'about', 'your', 'duties'],
 ['duties', 'all', 'right'],
 ['now',
  'you’ll',
  'heading',
  'whole',
  'division',
  'you’ll',
  'have',
  'lot',
  'duties'],
 ['see'],
 ['but',
  'there’ll',
  'perhaps',
  'people',
  'under',
  'you',
  'you',
  'can',
  'dump',
  'certain',
  'amount',
  'them'],
 ['good', 'know'],
 ['can', 'into', 'detail'],
 ['don’t', 'beg', 'you'],
 ['all',
  'right',
  'then',
  'we’ll',
  'have',
  'definite',
  'answer',
  'for',
  'you',
  'monday',
  'but',
  'think',
  'can',
  'say',
  'with',
  'some',
  'confidence',
  'you’ll',
  'fit',
  'well',
  'here'],
 ['really'],
 ['absolutely', 'you', 'can', 'relax'],
 ['but',
  'then',
  'who',
  'the',
  'waitress',
  'went',
  'out',
  'with',
  'last',
  'month'],
 ['you', 'k

In [25]:
tokenizer = Tokenizer()

tokenizer.fit_on_texts(token)

In [26]:
## 단어별 index 확인하기
print(tokenizer.word_index)



In [28]:
encod = tokenizer.texts_to_sequences(token)

In [29]:
max_len = max(len(item) for item in encod)
print(max_len)

52


In [30]:
for sentence in encod :
    while len(sentence) < max_len :
        sentence.append(0)

padded_np = np.array(encod)
padded_np

array([[390,  19,   2, ...,   0,   0,   0],
       [  1, 833,  78, ...,   0,   0,   0],
       [  4,  51,   4, ...,   0,   0,   0],
       ...,
       [  1,  63,  17, ...,   0,   0,   0],
       [  9,   0,   0, ...,   0,   0,   0],
       [  4,  19,  57, ...,   0,   0,   0]])

In [36]:
len(pad_sequences(encod, padding = 'post')[0])

52

In [22]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
from nltk.corpus import stopwords
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

def word_token(X) :

    token = []
    stop_words = set(stopwords.words('english'))

    for i in X :
        tok = text_to_word_sequence(i) # 단어 토큰화
        result = []

        for word in tok :
            word = word.lower() # 모든 단어 소문자 치환

            if len(word) > 2 : # 길이가 2 이하인 단어 제거 (의미 없다고 판단)
                result.append(word)
        
        token.append(result)

    tokenizer = Tokenizer()
    tokenizer.fit_on_texts(token) # 정수 인코딩
    encod = tokenizer.texts_to_sequences(token) # 문장의 단어를 인코딩한 숫자로 변환

    # word_pad = pad_sequences(encod, padding = 'post') # 모든 문장 같은 길이로 만들기 위해서 padding

    return encod

In [23]:
X = word_token(X)

In [15]:
test_x = test['Utterance']
test_data = word_token(test_x)
test_data

array([[ 40,  45,   2, ...,   0,   0,   0],
       [ 11,  81,  27, ...,   0,   0,   0],
       [  1,   7,   6, ...,   0,   0,   0],
       ...,
       [117,  52,  89, ...,   0,   0,   0],
       [ 81,   1,  33, ...,   0,   0,   0],
       [ 25,   1,  41, ...,   0,   0,   0]])

### 

In [41]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

doc = train['Utterance']
emotion = train['Target']

# 나이브 베이즈로 텍스트 처리를 할 때는 텍스트 데이터를 수치형 데이터로 변환해야함. 
## 클래스 객체 생성
cv = CountVectorizer()

## 수치형 데이터로 변환하기 위해서 생성한 객체.fit_transform(학습으로 사용할 문장)
## 행렬 형태의 수치형 데이터로 변환됨
csr_doc_matrix = cv.fit_transform(doc)

## 행렬을 만들어 각 줄은 문장1, 문장2. 각 컬럼들은 문장에서 생성된 모든 단어들. 값은 문장에서 해당 컬럼 단어가 발생한 빈도수. 이걸 합쳐 하나의 행렬, 큰 벡터로 생성.

# 각 단어 및 문장별 고유 ID 부여 및 단어의 빈도수를 계산
print(csr_doc_matrix)
# (0, 0)  1, (0, 7)   1

## 클래스 객체 생성
clf = MultinomialNB()

# CountVectorizer로 변환된 텍스트 데이터를 사용해 모델 학습
## 학습 데이터와 학습 데이터 내 문장이 나타내는 감정(레이블)을 넣어줌. 
## 감정(레이블)은 텍스트 자체를 넣어도 상관이 없으나 학습 데이터 자체는 문장 자체가 아닌 CountVectorizer로 fit_transform을 한 행렬을 넣어줘야함. 
clf.fit(csr_doc_matrix, emotion)

test_doc = test['Utterance']

# 학습된 CountVectorizer 형태로 변환
transformed_test = cv.transform(test_doc)
pred = clf.predict(transformed_test)

print(pred)

  (0, 179)	1
  (0, 5101)	1
  (0, 4708)	2
  (0, 3574)	1
  (0, 3464)	1
  (0, 3280)	1
  (0, 3096)	1
  (0, 1008)	1
  (0, 4851)	1
  (0, 1880)	1
  (0, 2556)	1
  (0, 4786)	1
  (0, 2016)	1
  (0, 4617)	1
  (1, 5309)	1
  (1, 3092)	1
  (1, 5019)	1
  (1, 2081)	1
  (1, 5313)	1
  (1, 2107)	1
  (1, 1890)	1
  (2, 4706)	2
  (2, 1305)	2
  (3, 5313)	1
  (3, 4294)	1
  :	:
  (9985, 1376)	1
  (9985, 2425)	1
  (9985, 2009)	1
  (9985, 4928)	1
  (9985, 2474)	1
  (9985, 5232)	1
  (9985, 103)	1
  (9985, 251)	1
  (9986, 5309)	1
  (9986, 3902)	1
  (9986, 5224)	1
  (9986, 267)	1
  (9986, 2898)	1
  (9986, 2077)	1
  (9986, 2948)	1
  (9987, 5286)	1
  (9988, 5101)	2
  (9988, 4706)	1
  (9988, 4718)	1
  (9988, 1993)	1
  (9988, 1818)	1
  (9988, 2700)	1
  (9988, 3282)	1
  (9988, 5179)	1
  (9988, 4083)	1
['neutral' 'neutral' 'neutral' ... 'neutral' 'neutral' 'neutral']


In [43]:
submit = pd.read_csv('data/sample_submission.csv')

In [44]:
submit['Target'] = pred
submit.head()

Unnamed: 0,ID,Target
0,TEST_0000,neutral
1,TEST_0001,neutral
2,TEST_0002,neutral
3,TEST_0003,neutral
4,TEST_0004,neutral


In [45]:
submit.to_csv('./submit.csv', index=False)

In [None]:
from sklearn.model_selection import train_test_split
input_train, input_eval, label_train, label_eval = train_test_split(X, y, test_size = 0.2, random_state = 42)

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Flatten, Dense, Embedding, Conv1D