* tf(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수
* df(t) : 특정 단어 t가 등장한 문서의 수
* idf(d, t) : df(t)에 반비례하는 수



In [None]:
import pandas as pd # 데이터프레임 사용을 위해
from math import log # IDF 계산을 위해

docs = [
    '먹고 싶은 사과',
    '먹고 싶은 바나나',
    '길고 노란 바나나 바나나',
    '저는 과일이 좋아요'
]
vocab = list(set(w for doc in docs for w in doc.split()))

In [None]:
vocab

['저는', '길고', '먹고', '싶은', '노란', '사과', '과일이', '바나나', '좋아요']

In [None]:
N = len(docs) # 총 문서의 수

def tf(t, d):
  return d.count(t)

In [None]:
result = []
for i in range(N): # 각 문서에 대해서 아래 명령을 수행
  result.append([])
  d = docs[i]
  for j in range(len(vocab)):
    t = vocab[j]
    result[-1].append(tf(t, d))

In [None]:
tf_ = pd.DataFrame(result, columns = vocab)
tf_

Unnamed: 0,저는,길고,먹고,싶은,노란,사과,과일이,바나나,좋아요
0,0,0,1,1,0,1,0,0,0
1,0,0,1,1,0,0,0,1,0
2,0,1,0,0,1,0,0,2,0
3,1,0,0,0,0,0,1,0,1


In [None]:
def idf(t):
  df = 0
  for doc in docs:
    df += t in doc
  return log(N / (df + 1))

In [None]:
result = []
for j in range(len(vocab)):
  t = vocab[j]
  result.append(idf(t))

idf_ = pd.DataFrame(result, index = vocab, columns = ['IDF'])
idf_

Unnamed: 0,IDF
저는,0.693147
길고,0.693147
먹고,0.287682
싶은,0.287682
노란,0.693147
사과,0.693147
과일이,0.693147
바나나,0.287682
좋아요,0.693147


In [None]:
def tfidf(t, d):
  return tf(t, d) * idf(t)

In [None]:
result = []
for i in range(N):
  result.append([])
  d = docs[i]
  for j in range(len(vocab)):
    t = vocab[j]
    result[-1].append(tfidf(t, d))

tfidf_ = pd.DataFrame(result, columns = vocab)
tfidf_

Unnamed: 0,저는,길고,먹고,싶은,노란,사과,과일이,바나나,좋아요
0,0.0,0.0,0.287682,0.287682,0.0,0.693147,0.0,0.0,0.0
1,0.0,0.0,0.287682,0.287682,0.0,0.0,0.0,0.287682,0.0
2,0.0,0.693147,0.0,0.0,0.693147,0.0,0.0,0.575364,0.0
3,0.693147,0.0,0.0,0.0,0.0,0.0,0.693147,0.0,0.693147


In [None]:
!apt-get update
!apt-get install g++ openjdk-8-jdk
!pip3 install konlpy

0% [Working]            Hit:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
Get:2 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,626 B]
Get:3 http://security.ubuntu.com/ubuntu jammy-security InRelease [110 kB]
Hit:4 http://archive.ubuntu.com/ubuntu jammy InRelease
Get:5 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [119 kB]
Hit:6 https://ppa.launchpadcontent.net/c2d4u.team/c2d4u4.0+/ubuntu jammy InRelease
Get:7 http://archive.ubuntu.com/ubuntu jammy-backports InRelease [109 kB]
Get:8 http://security.ubuntu.com/ubuntu jammy-security/restricted amd64 Packages [995 kB]
Hit:9 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Get:10 http://archive.ubuntu.com/ubuntu jammy-updates/universe amd64 Packages [1,251 kB]
Get:11 https://ppa.launchpadcontent.net/graphics-drivers/ppa/ubuntu jammy InRelease [24.3 kB]
Get:12 http://security.ubuntu.com/ubuntu jammy-security/main amd64 Packages [915 kB]
Get

In [None]:
import pandas as pd
import re
from konlpy.tag import  Okt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel
import numpy as np
from collections import Counter

okt = Okt()

In [None]:
print(okt.morphs(u'우리 아이오아이는 이뻐요'))

['우리', '아이오', '아이', '는', '이뻐요']


In [None]:
print(okt.nouns(u'우리 아이오아이는 이뻐요'))

['우리', '아이오', '아이']


In [None]:
print(okt.pos(u'우리 아이오아이는 이뻐요'))

[('우리', 'Noun'), ('아이오', 'Noun'), ('아이', 'Noun'), ('는', 'Josa'), ('이뻐요', 'Adjective')]


In [None]:
from google.colab import files
myfile = files.upload()

Saving 네이버시리즈영화정보_청불포함.csv to 네이버시리즈영화정보_청불포함.csv


In [None]:
from collections import Counter
tempList = ['a', 'b', 'a', 'a', 'c', 'f']

result = Counter(tempList)
print(result)

Counter({'a': 3, 'b': 1, 'c': 1, 'f': 1})


In [None]:
data = pd.read_csv('/content/네이버시리즈영화정보_청불포함.csv',
                   encoding = 'utf-8')
data.head()

Unnamed: 0.1,Unnamed: 0,제목,본문
0,0,까불지마,벽돌과 개떡 그들은 한 때 잘나가던 동방파의 서열 23위를 다투는 사이 삼복은 그들...
1,1,엘리트,어두운 학원 교실 조기교육을 받고 있는 아이들이 시험 문제를 풀고 있다 시험이 끝났...
2,2,밀정 1930,동양의 파리로 알려진 화려한 1930년대 상해 그러나 화려한 노래와 춤의 이면에는 ...
3,3,엠티맨,첫날 밤 그의 소리가 들리고 둘째 날 밤 그의 모습이 보이고 셋째 날 밤 그가 너를...
4,5,바이크 원정대 인 이탈리아,이탈리아 남부 살레르노를 중심으로바이커들의 로망 이탈리아를 달린다해외여행에 대한 설...


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16703 entries, 0 to 16702
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  16703 non-null  int64 
 1   제목          16703 non-null  object
 2   본문          16696 non-null  object
dtypes: int64(1), object(2)
memory usage: 391.6+ KB


In [None]:
data = data.drop_duplicates(['제목'])
data.head()

Unnamed: 0.1,Unnamed: 0,제목,본문
0,0,까불지마,벽돌과 개떡 그들은 한 때 잘나가던 동방파의 서열 23위를 다투는 사이 삼복은 그들...
1,1,엘리트,어두운 학원 교실 조기교육을 받고 있는 아이들이 시험 문제를 풀고 있다 시험이 끝났...
2,2,밀정 1930,동양의 파리로 알려진 화려한 1930년대 상해 그러나 화려한 노래와 춤의 이면에는 ...
3,3,엠티맨,첫날 밤 그의 소리가 들리고 둘째 날 밤 그의 모습이 보이고 셋째 날 밤 그가 너를...
4,5,바이크 원정대 인 이탈리아,이탈리아 남부 살레르노를 중심으로바이커들의 로망 이탈리아를 달린다해외여행에 대한 설...


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16201 entries, 0 to 16702
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  16201 non-null  int64 
 1   제목          16201 non-null  object
 2   본문          16195 non-null  object
dtypes: int64(1), object(2)
memory usage: 506.3+ KB


In [None]:
# isnull(): Null or NaN의 위치에 True를 반환하는 함수
data.isnull().sum()

Unnamed: 0    0
제목            0
본문            6
dtype: int64

In [None]:
data_dropna = data.dropna(axis=0)

In [None]:
data_dropna.head()

Unnamed: 0.1,Unnamed: 0,제목,본문
0,0,까불지마,벽돌과 개떡 그들은 한 때 잘나가던 동방파의 서열 23위를 다투는 사이 삼복은 그들...
1,1,엘리트,어두운 학원 교실 조기교육을 받고 있는 아이들이 시험 문제를 풀고 있다 시험이 끝났...
2,2,밀정 1930,동양의 파리로 알려진 화려한 1930년대 상해 그러나 화려한 노래와 춤의 이면에는 ...
3,3,엠티맨,첫날 밤 그의 소리가 들리고 둘째 날 밤 그의 모습이 보이고 셋째 날 밤 그가 너를...
4,5,바이크 원정대 인 이탈리아,이탈리아 남부 살레르노를 중심으로바이커들의 로망 이탈리아를 달린다해외여행에 대한 설...


In [None]:
data_dropna.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16195 entries, 0 to 16702
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  16195 non-null  int64 
 1   제목          16195 non-null  object
 2   본문          16195 non-null  object
dtypes: int64(1), object(2)
memory usage: 506.1+ KB


In [None]:
data_dropna['본문'].isnull().sum()

0

In [None]:
from tqdm.notebook import tqdm

temp_list = []
for i in tqdm(data_dropna.index):
  morph = okt.morphs(data_dropna.loc[i]['본문'])
  temp_list = temp_list + morph

  0%|          | 0/16195 [00:00<?, ?it/s]

In [None]:
len(temp_list)

1368441

In [None]:
result = Counter(temp_list)
sorted_dict = sorted(result.items(), key = lambda item: item[1],
                     reverse = True)
print(len(sorted_dict))
print(sorted_dict)

67440
[('을', 52352), ('의', 45817), ('를', 28566), ('에', 28215), ('이', 26554), ('는', 19742), ('은', 18769), ('들', 17181), ('한', 15138), ('가', 15118), ('그', 12652), ('에서', 11038), ('으로', 11007), ('로', 10903), ('과', 9821), ('와', 9119), ('보기', 7861), ('인', 7721), ('더', 6722), ('에게', 6563), ('줄거리', 6331), ('하는', 6310), ('된다', 5946), ('한다', 5837), ('것', 5241), ('하고', 5227), ('위해', 4978), ('된', 4622), ('수', 4570), ('자신', 4561), ('적', 4390), ('도', 4323), ('날', 3945), ('그녀', 3916), ('시작', 3905), ('사람', 3431), ('어느', 3380), ('있는', 3316), ('고', 3283), ('다', 3225), ('함께', 3077), ('친구', 3021), ('하지만', 2949), ('되고', 2841), ('사랑', 2763), ('하게', 2673), ('알', 2506), ('못', 2476), ('없는', 2463), ('게', 2462), ('사건', 2452), ('일', 2346), ('해', 2282), ('중', 2241), ('할', 2221), ('이다', 2175), ('리더', 2159), ('집', 2125), ('곳', 2122), ('두', 2055), ('분', 2053), ('속', 2026), ('하기', 1955), ('그리고', 1837), ('전', 1836), ('까지', 1813), ('후', 1803), ('남자', 1802), ('마을', 1792), ('있다', 1788), ('되는데', 1784), ('살', 1772), ('가족',

In [None]:
myfile = files.upload()

Saving korean_stopword.csv to korean_stopword.csv


In [None]:
# pd.read_csv로 csv파일 불러오기
k_stopword = pd.read_csv('/content/korean_stopword.csv')
# list():
stopword = list(k_stopword['불용어'])
stopword

['이',
 '있',
 '하',
 '것',
 '들',
 '그',
 '되',
 '수',
 '이',
 '보',
 '않',
 '없',
 '나',
 '사람',
 '주',
 '아니',
 '등',
 '같',
 '우리',
 '때',
 '년',
 '가',
 '한',
 '지',
 '대하',
 '오',
 '말',
 '일',
 '그렇',
 '위하',
 '때문',
 '그것',
 '두',
 '말하',
 '알',
 '그러나',
 '받',
 '못하',
 '일',
 '그런',
 '또',
 '문제',
 '더',
 '사회',
 '많',
 '그리고',
 '좋',
 '크',
 '따르',
 '중',
 '나오',
 '가지',
 '씨',
 '시키',
 '만들',
 '지금',
 '생각하',
 '그러',
 '속',
 '하나',
 '집',
 '살',
 '모르',
 '적',
 '월',
 '데',
 '자신',
 '안',
 '어떤',
 '내',
 '내',
 '경우',
 '명',
 '생각',
 '시간',
 '그녀',
 '다시',
 '이런',
 '앞',
 '보이',
 '번',
 '나',
 '다른',
 '어떻',
 '여자',
 '개',
 '전',
 '들',
 '사실',
 '이렇',
 '점',
 '싶',
 '말',
 '정도',
 '좀',
 '원',
 '잘',
 '통하',
 '소리',
 '놓',
 '요',
 '곳',
 '어서',
 '제',
 '려고',
 '어요',
 '다가',
 '습',
 '저',
 '후',
 '이나',
 '까지',
 '고',
 '조',
 '거',
 '시',
 '길이',
 '던',
 '도',
 '면',
 '단',
 '용',
 '해',
 '녕',
 '리',
 '등등',
 '권',
 '고',
 '초',
 '합',
 '잡',
 '비',
 '막',
 '리가',
 '루',
 '요',
 '로',
 '와',
 '리']

In [None]:
print(sorted_dict[:300])

[('을', 52352), ('의', 45817), ('를', 28566), ('에', 28215), ('이', 26554), ('는', 19742), ('은', 18769), ('들', 17181), ('한', 15138), ('가', 15118), ('그', 12652), ('에서', 11038), ('으로', 11007), ('로', 10903), ('과', 9821), ('와', 9119), ('보기', 7861), ('인', 7721), ('더', 6722), ('에게', 6563), ('줄거리', 6331), ('하는', 6310), ('된다', 5946), ('한다', 5837), ('것', 5241), ('하고', 5227), ('위해', 4978), ('된', 4622), ('수', 4570), ('자신', 4561), ('적', 4390), ('도', 4323), ('날', 3945), ('그녀', 3916), ('시작', 3905), ('사람', 3431), ('어느', 3380), ('있는', 3316), ('고', 3283), ('다', 3225), ('함께', 3077), ('친구', 3021), ('하지만', 2949), ('되고', 2841), ('사랑', 2763), ('하게', 2673), ('알', 2506), ('못', 2476), ('없는', 2463), ('게', 2462), ('사건', 2452), ('일', 2346), ('해', 2282), ('중', 2241), ('할', 2221), ('이다', 2175), ('리더', 2159), ('집', 2125), ('곳', 2122), ('두', 2055), ('분', 2053), ('속', 2026), ('하기', 1955), ('그리고', 1837), ('전', 1836), ('까지', 1813), ('후', 1803), ('남자', 1802), ('마을', 1792), ('있다', 1788), ('되는데', 1784), ('살', 1772), ('가족', 1764)

In [None]:
stopword = stopword + ['을', '의', '를', '에', '이', '는', '은', '들', '한', '가', '에서',
                       '으로', '로', '과', '와', '인', '더', '에게', '수', '도', '다', '게',
                       '있다']

In [None]:
morphs_lst = []
for i in tqdm(data_dropna.index):
  morphs = ''
  morph = okt.morphs(data_dropna.loc[i]['본문'], stem=True)
  for txt in morph:
    if txt not in stopword:
      morphs = morphs + ' ' + txt
  morphs_lst.append(morphs)

data_dropna['morphs'] = morphs_lst
data_dropna.head()

  0%|          | 0/16195 [00:00<?, ?it/s]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_dropna['morphs'] = morphs_lst


Unnamed: 0.1,Unnamed: 0,제목,본문,morphs
0,0,까불지마,벽돌과 개떡 그들은 한 때 잘나가던 동방파의 서열 23위를 다투는 사이 삼복은 그들...,벽돌 개떡 하다 잘나가다 동방 파의 서열 23 위 다투다 사이 삼복 직속 후배 3...
1,1,엘리트,어두운 학원 교실 조기교육을 받고 있는 아이들이 시험 문제를 풀고 있다 시험이 끝났...,어 두운 학원 교실 조기교육 받다 아이 시험 풀 시험 끝나다 선생님 은정 종소리 ...
2,2,밀정 1930,동양의 파리로 알려진 화려한 1930년대 상해 그러나 화려한 노래와 춤의 이면에는 ...,동양 파리 알려지다 화려하다 1930년 대 상해 화려하다 노래 춤 이면 에는 일본...
3,3,엠티맨,첫날 밤 그의 소리가 들리고 둘째 날 밤 그의 모습이 보이고 셋째 날 밤 그가 너를...,첫날 밤 들리다 둘째 날 밤 모습 셋째 날 밤 너 찾아가다 10 대다 아이 연 실...
4,5,바이크 원정대 인 이탈리아,이탈리아 남부 살레르노를 중심으로바이커들의 로망 이탈리아를 달린다해외여행에 대한 설...,이탈리아 남부 살레르노 중심 바이 크다 들다 로망 이탈리아 달린다 해외여행 대한 ...


In [None]:
data_dropna.tail()

Unnamed: 0.1,Unnamed: 0,제목,본문,morphs
16698,21816,아빠하고 나하고,2D 컴퓨터그래픽 애니메이션 네온사인 간판들이 즐비한 현란한 거리를 지나 승용차를 ...,2 D 컴퓨터그래픽 애니메이션 네온사인 간판 즐비하다 현란하다 거리 지나 승용차 ...
16699,21817,마요네즈,존 웨인보다는 험프리 보가트에게 매력을 느끼고 딸에게 밍크코트를 사달라고 조르고 바...,존 웨인 보다는 험프리 가트 매력 느끼다 딸 밍크 코트 사 달라 조르다 바퀴벌레 ...
16700,21818,연풍연가,일상을 벗어나 제주행 비행기에 몸을 싣는 태희장동건 분 여느 때처럼 관광객을 배웅하...,일상 벗어나다 주행 비행기 몸 싣다 태희 장동건 분 여느 처럼 관광객 배웅 하다 ...
16701,21821,끝없는 싸움 에바다,96년 말 못하는 어린 농아생들의 싸움으로 시작된 에바다 투쟁은 벌써 만3년이 넘어...,96년 못 하다 어리다 농아 생 싸움 시작 되다 에바 투쟁 벌써 만 3년 넘어가다...
16702,21822,미술관 옆 동물원,결혼 비디오 촬영기사 춘희심은하 분 결혼식 촬영 때마다 마주치는 보좌관 인공안성기 ...,결혼 비디오 촬영기사 춘희 심은하 분 결혼식 촬영 마다 마주치다 보좌 관 인공 안...


In [None]:
# tf-idf: https://wikidocs.net/31698
tfidf = TfidfVectorizer()
# morphs 열에 대해서 tf-idf를 수행
tfidf_matrix = tfidf.fit_transform(data_dropna['morphs'])
print(tfidf_matrix.shape)

(16195, 44010)


In [None]:
# 코사인 유사도: https://wikidocs.net/24603
# 코사인 유사도를 사용하면 바로 문서의 ( )를 구한다.
cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)
cosine_sim

array([[1.        , 0.00571628, 0.00811579, ..., 0.00841821, 0.00696398,
        0.01352586],
       [0.00571628, 1.        , 0.00667108, ..., 0.00901933, 0.0217611 ,
        0.0038614 ],
       [0.00811579, 0.00667108, 1.        , ..., 0.00924203, 0.00875833,
        0.00515759],
       ...,
       [0.00841821, 0.00901933, 0.00924203, ..., 1.        , 0.00984403,
        0.00240724],
       [0.00696398, 0.0217611 , 0.00875833, ..., 0.00984403, 1.        ,
        0.0012654 ],
       [0.01352586, 0.0038614 , 0.00515759, ..., 0.00240724, 0.0012654 ,
        1.        ]])

In [None]:
cosine_sim.shape

(16195, 16195)

In [None]:
indices = pd.Series(data_dropna.index, index = data_dropna['제목']).drop_duplicates()
print(indices.head())

제목
까불지마              0
엘리트               1
밀정 1930           2
엠티맨               3
바이크 원정대 인 이탈리아    4
dtype: int64


In [None]:
idx = indices['원더 우먼 1984']
print(idx)

27


In [None]:
def get_recommendations(title, cosine_sim=cosine_sim):
  idx = indices[title]
  sim_scores = list(enumerate(cosine_sim[idx]))
  sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
  sim_scores = sim_scores[1 : 6]
  movie_indices = []
  for i in sim_scores:
    movie_indices.append(i[0])
  return data['제목'].iloc[movie_indices]

In [None]:
get_recommendations('엑스맨 아포칼립스')

14894          유니온 스퀘어
14291        사이보그 프린세스
14801     분노의 질주 더 맥시멈
8141             좀비 헌터
13910    무사 노보우 최후의 결전
Name: 제목, dtype: object