In [1]:
import pandas as pd
import numpy as np
from konlpy.tag import Okt
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.metrics.pairwise import euclidean_distances
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
pip install git+https://github.com/haven-jeon/PyKoSpacing.git

In [None]:
pip install git+https://github.com/ssut/py-hanspell.git

In [4]:
df = pd.read_excel("./df_sample03.xlsx", engine="openpyxl")

In [5]:
from pykospacing import Spacing
from hanspell import spell_checker

In [6]:
spacing = Spacing()

In [7]:
for i, row in df.iterrows() :
    text = "".join(row["내용"])
    text.split(". ")
    text.replace(" ", '')
    text = spacing(text)
    text_spell = spell_checker.check(text)
    row["내용"] = text_spell.checked

In [None]:
df.head()

In [9]:
tagger = Okt()

In [10]:
def get_morphs(text):
    morphs = tagger.morphs(text)
    morphs = [word for word in morphs if len(word) > 1]
    return morphs

In [11]:
cv = CountVectorizer(max_features=1000, tokenizer = get_morphs)

In [12]:
tdm = cv.fit_transform(df["내용"])

In [13]:
tfidf = TfidfTransformer()
tdm_tfidf = tfidf.fit_transform(tdm)

### 유클리드 거리를 활용한 문서 유사도 계산

#### Count Vectorizer

In [14]:
dist = euclidean_distances(tdm[0], tdm[1:])
np.argmin(dist) + 1

16

#### TF-IDF Vectorizer

In [15]:
dist2 = euclidean_distances(tdm_tfidf[0], tdm_tfidf[1:])
np.argmin(dist2) + 1

11

### 코사인 유사도거리를 기준으로 한 문서 유사도 계산

#### Count Vectorizer

In [16]:
sim = cosine_similarity(tdm[0], tdm[1:])
np.argmax(sim) + 1

11

#### TF-IDF Vectorizer

In [17]:
sim2 = cosine_similarity(tdm_tfidf[0], tdm_tfidf[1:])
np.argmax(sim2) + 1

11

### 평가

(학생 개인정보로 인하여 오픈할 수 없으나)
서류들 사이에 지원 학교 / 학과 / 진로목표 / 봉사 경험 모든 내용 면에서 유사도가 낮음
문장이나 활용 어휘 면에서 유사한 내용을 반환한 것으로 보이나 
입시에 활용되는 데이터 면에서는 유의미한 분석이라고 볼 수 없음

어떻게 해결할 것인가?
1. 클래스 분류하여 라벨링 작업 후 신경망을 구축하여 분석해본다(ANN 또는 DNN)
2. 문장 단위로 나누어 유사도를 검증한다(머신러닝)

In [None]:
df.loc[0, "내용"]

In [None]:
df.loc[11, "내용"]

In [None]:
df.loc[16, "내용"]