In [26]:
import pandas as pd
df_Seoul120 = pd.read_csv("https://bit.ly/seoul-120-text-csv")
Seoul120_content = df_Seoul120['내용']
Seoul120_content[:3]

0    아빠 육아휴직 장려금   업무개요  남성근로자의 육아휴직을 장려하고 양육에 따른 경...
1    서울산업진흥원 서울메이드란 서울의 감성을 담은 다양하고 새로운 경험을 제공하기 위해...
2    강북구 정비중  업무개요  투명 폐트병을 교환보상하므로 수거율을 높이고 폐기물을 감...
Name: 내용, dtype: object

In [27]:
stopwords = []

In [28]:
# 토크나이징 함수 정의
from konlpy.tag import Okt
okt = Okt()

def tokenizer(raw, pos=["Noun","Alpha","Verb","Number"], stopword=stopwords):
    return [
        word for word, tag in okt.pos(
            raw, 
            stem=True    # stemming 바뀌나->바뀌다
            )
            if len(word) > 1 and tag in pos and word not in stopword

    ]

In [29]:
# tokenizer
from sklearn.feature_extraction.text import TfidfVectorizer
tfidfVectorizer = TfidfVectorizer(tokenizer=tokenizer)

In [30]:
features = tfidfVectorizer.fit_transform(Seoul120_content)
features.toarray()[:2]



array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [31]:
from sklearn.metrics.pairwise import cosine_similarity

In [40]:
result_list = cosine_similarity(features.toarray()[1772:1773], features.toarray())
result_list

array([[0.06642318, 0.00122671, 0.00490687, ..., 0.0108573 , 0.02590003,
        0.02998956]])

In [41]:
df_Seoul120['유사도'] = result_list[0]
df_Seoul120

Unnamed: 0,번호,분류,제목,내용,내용번호,유사도
0,2645,복지,아빠 육아휴직 장려금,아빠 육아휴직 장려금 업무개요 남성근로자의 육아휴직을 장려하고 양육에 따른 경...,23522464,0.066423
1,2644,경제,[서울산업진흥원] 서울메이드란?,서울산업진흥원 서울메이드란 서울의 감성을 담은 다양하고 새로운 경험을 제공하기 위해...,23194045,0.001227
2,2643,환경,(강북구) 정비중,강북구 정비중 업무개요 투명 폐트병을 교환보상하므로 수거율을 높이고 폐기물을 감...,23032485,0.004907
3,2642,복지,"광진맘택시 운영(임산부,영아 양육가정 전용 택시)",광진맘택시 운영임산부영아 양육가정 전용 택시 업무개요 교통약자인 임산부와 영아가정...,22904492,0.029660
4,2641,복지,마포 뇌병변장애인 비전센터,마포 뇌병변장애인 비전센터 마포뇌병변장애인 비전센터 운영 구분 내용 목적 학...,22477798,0.015529
...,...,...,...,...,...,...
2640,5,주택도시계획,이미 지정된 재정비촉진지구의 인접지를 추가 확장하고 싶은데 어떻게 해야 하나요?,이미 지정된 재정비촉진지구의 인접지를 추가 확장하고 싶은데 어떻게 해야 하나요 관할...,2894353,0.030988
2641,4,환경,수돗물의 톤당 원가는?,수돗물의 톤당 원가는우리시 년 톤당 원가는 원 입니다 우리시 년 톤당 요금은 원 입니다,19353862,0.000000
2642,3,복지,출산휴가후 집근처에 안심하고 맡길 수 있는 어린이집이 있는지?,출산휴가후 집근처에 안심하고 맡길 수 있는 어린이집이 있는지 서울시 육아종합지원...,19699584,0.010857
2643,2,교통,자동차검사장을 지정받고자 하는데 어떻게 해야 하나요?,자동차검사장을 지정받고자 하는데 어떻게 해야 하나요 자동차종합정비업체 소형자동차정...,2898293,0.025900


In [43]:
df_Seoul120['유사도'].sort_values(ascending=False)[:6]

1772    1.000000
1775    0.752630
1771    0.613373
1780    0.569272
1768    0.540980
1767    0.494657
Name: 유사도, dtype: float64