## 형태소 분석기

In [80]:
from konlpy.tag import Okt, Kkma, Komoran

In [81]:
# 형태소 분석기
okt = Okt()
Kkma = Kkma()
Komoran = Komoran()

In [82]:
import numpy as np
import pandas as pd
from tensorflow.keras.utils import pad_sequences, to_categorical 

In [83]:
df = pd.read_csv('kedi.csv',encoding='cp949')

In [84]:
X = df.프로그램명
y = df.소분류

In [85]:
x = X[0]

In [86]:
okt.nouns(x)

['명중', '명', '한글맞춤법']

In [66]:
Komoran.nouns(x)

['명', '중', '명', '한글', '맞춤법']

In [67]:
okt.pos(x)

[('10', 'Number'),
 ('명중', 'Noun'),
 ('9', 'Number'),
 ('명', 'Noun'),
 ('이', 'Josa'),
 ('틀리는', 'Verb'),
 ('한글맞춤법', 'Noun')]

In [68]:
data = []
for sentence in X[:5]:
    data.append(okt.nouns(sentence))

In [69]:
data

[['명중', '명', '한글맞춤법'],
 ['명중', '명', '한글맞춤법'],
 ['명중', '명', '한글맞춤법', '참고도서', '전집', '제공'],
 ['명중', '명', '한글맞춤법', '참고도서', '제공', '스마트러닝'],
 ['명중', '명', '한글맞춤법', '스마트러닝']]

In [70]:
# X를 형태소 분석해서 데이터 1차 가공
X = X.apply(okt.nouns)

In [71]:
## 문자를 숫자로 바꾸는 작업
# 1. 유니크한 값을 정리
word_list = []
for x in X:
    word_list.extend(x)
word_list = list(set(word_list))
# 2. index_word 구성된 딕셔너리 작성 (dictionary comprehention)
index_word = { i+1:v for i,v in enumerate(word_list)}
# 3. word_index 구성된 딕셔너리 작성
word_index = { v:i for i,v in index_word.items()}

In [72]:
tmp2 = []
for i in X[0:3]:
    tmp = []
    for j in i:
        tmp.append(word_index[j])
    tmp2.append(tmp)
tmp2

[[9683, 10808, 5709],
 [9683, 10808, 5709],
 [9683, 10808, 5709, 13875, 5658, 1362]]

In [73]:
# word들을 정수로 변환
def trans_word_index(x):
    tmp = []
    for i in x:
        tmp.append(word_index[i])
    return tmp
def trans_index_word(x):
    tmp = []
    for i in x:
        tmp.append(index_word[i])
        return tmp

X = X.apply(trans_word_index)

In [57]:
X_ = X.values

In [74]:
max_length = X.apply(len).max()
X_ = pad_sequences(X,maxlen=max_length)

In [75]:
## 길이 통일 
X.apply(len).max()

21

In [76]:
word_list = []
for i in y:
    word_list.extend([i])
word_list = list(set(word_list))
word_list

['멀티미디어',
 '인문교양',
 '성악',
 '조형',
 '논술·글쓰기',
 '사회복지',
 '레저·스포츠',
 '종교음악',
 '마케팅',
 '수화(손언어)',
 '정치',
 '철학',
 '경제',
 '데이터베이스',
 '아동발달',
 '전략·국제경영',
 '농업·원예',
 '취업·창업',
 '건설·건축·토목',
 '문학이론·문예창작',
 '전통공예',
 '마술',
 '정치학',
 '생활공예',
 '논술·구술',
 '역사',
 '전통무용',
 '여성',
 '기계·금속',
 '경영정보',
 '인터넷',
 '경영이론',
 '일본어',
 '영상예술',
 '통신',
 '운영체제',
 '대중음악',
 '윤리',
 '언어',
 '독서',
 '동·서양문학',
 '서예·서화',
 '제2외국어',
 '의료',
 '한국어',
 '디자인이론·교양',
 '문화',
 '교육학',
 '신문·방송·출판',
 '전기·전자',
 '실내인테리어',
 '생활무용',
 '보건',
 '한글지도(문해)',
 '사진·만화',
 '그림·회화',
 '아동지도',
 '응용치료',
 '일러스트레이션',
 '한방',
 '조직관리',
 '현대무용',
 '심리·상담',
 '간호',
 '프로그래밍',
 '서양악기',
 '중국어',
 '글씨디자인',
 '한국문학',
 '사회학',
 '통계',
 '미술이론·교양',
 '국사',
 '법학',
 '컴퓨터기초',
 '국악·민요',
 '소방·경찰·경호',
 '생활요리',
 '행정학',
 '기타외국어',
 '무용이론·교양',
 '생물·화학·물리·천문',
 '한문',
 '과학이론·교양',
 '금융재무',
 '다도',
 '생산관리',
 '전통악기',
 '재료·정밀',
 '부동산',
 '음악',
 '일반 기타',
 '과학일반',
 '수학',
 '진로교육',
 '꽃예술',
 '사회일반',
 '입시 기타',
 '음악이론·교양',
 'OA',
 '교통·운송',
 '결혼·가족·가정',
 '종교',
 '환경·지리',
 '체육이론·교양',
 '미술',
 '영어',
 '레크리에이션',
 '

In [78]:
index_word_y = { i:v for i, v in enumerate(word_list)}
word_index_y = { v:i for i,v in index_word_y.items()}

In [79]:
def trans_y(x):
    return word_index_y[x]
y_ = y.apply(trans_y)