In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
PATH = '/content/drive/MyDrive/Colab Notebooks/BDA 데분기/data/'

In [3]:
import pandas as pd
import numpy as np
df = pd.read_csv(PATH + 'movie_rv.csv')

In [4]:
df.head()

Unnamed: 0.1,Unnamed: 0,id,document,label
0,0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,2,10265843,너무재밓었다그래서보는것을추천한다,0
3,3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


## 텍스트 전처리
- 1. 데이터 정제(Python 문법 > strip,lower 등)
- 2. 한글/영어에 따라 전처리 진행(nltk 패키지 사용)
    - 토큰화 : 주어진 텍스트의 단위를 token으로 나누는 작업
      - 문장토큰화/단어토큰화(일반적)/단어보다 더 작은형태로 토큰화
    - 정규화 : 어간추출, 표제어 추출
      - ex) go, goes 같은 것들을 하나로 정규화 시킴
    - 품사태깅 : 명사,대명사,형용사 등으로 분석 요구에 따라 태깅


In [5]:
import nltk

In [6]:
nltk.download('punkt')
nltk.download('webtext')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('average_perceptron_tagger')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package webtext to /root/nltk_data...
[nltk_data]   Unzipping corpora/webtext.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Error loading average_perceptron_tagger: Package
[nltk_data]     'average_perceptron_tagger' not found in index


False

In [7]:
sp1 = 'Machine learning algorithms can analyze large datasets to identify patterns and make predictions without being explicitly programmed.'

### 문장 토큰화(sent_tokenize)

In [8]:
from nltk.tokenize import sent_tokenize

In [9]:
sent_tokenize(sp1)

['Machine learning algorithms can analyze large datasets to identify patterns and make predictions without being explicitly programmed.']

### 단어 토큰화(word_tokenize, WordPuncTokenizer)

In [10]:
from nltk.tokenize import word_tokenize # 단어토큰화
from nltk.tokenize import WordPunctTokenizer # 단어토큰화, 특수문자도 함께 제거

In [11]:
print(word_tokenize(sp1))

['Machine', 'learning', 'algorithms', 'can', 'analyze', 'large', 'datasets', 'to', 'identify', 'patterns', 'and', 'make', 'predictions', 'without', 'being', 'explicitly', 'programmed', '.']


In [12]:
print(WordPunctTokenizer().tokenize(sp1))

['Machine', 'learning', 'algorithms', 'can', 'analyze', 'large', 'datasets', 'to', 'identify', 'patterns', 'and', 'make', 'predictions', 'without', 'being', 'explicitly', 'programmed', '.']


### 정규표현식 토크나이즈
- 패턴, 불용어 등 분석에 의미없는 단어 제거

In [13]:
from nltk.tokenize import RegexpTokenizer

In [14]:
tokenizer = RegexpTokenizer('[\w"]+')
tokens = tokenizer.tokenize(sp1.lower())

In [15]:
print(tokens)

['machine', 'learning', 'algorithms', 'can', 'analyze', 'large', 'datasets', 'to', 'identify', 'patterns', 'and', 'make', 'predictions', 'without', 'being', 'explicitly', 'programmed']


### 노이즈, 불용어 제거

In [16]:
from nltk.corpus import stopwords # 불용어 가져오는 패키지
en_stops = set(stopwords.words('english'))

In [17]:
print(en_stops)

{'all', 'hasn', 'through', "hasn't", 'because', 'once', "that'll", "it's", 'she', 'had', 'as', 'other', 'same', 'mustn', 'he', 'themselves', 'between', 'yours', 'be', 'me', 'her', 'does', 'off', "didn't", 'some', 'its', 'by', 'about', 'which', 've', 'll', 'my', 'this', 'or', 'theirs', 'again', "hadn't", 'the', 'ain', "mustn't", 'over', 'until', 'before', 'after', 'isn', 'doing', 'of', 'your', 'herself', 'myself', 'been', 'under', "doesn't", 'from', 're', 'what', 'for', 'them', 's', 'then', 'both', 'more', 'few', "you've", 't', 'shan', 'but', 'those', 'have', 'with', 'him', 'weren', 'who', 'up', 'hers', 'nor', "weren't", 'is', 'only', 'further', 'are', 'down', "shouldn't", "you'll", 'mightn', 'while', 'ours', "haven't", 'our', 'we', "she's", 'don', 'couldn', "mightn't", 'd', 'wouldn', 'out', 'yourself', 'you', 'yourselves', 'when', 'where', 'not', 'just', 'y', 'at', 'than', 'won', 'below', 'any', 'aren', 'such', "won't", 'to', "you'd", 'were', 'most', 'on', 'shouldn', 'himself', 'whom',

- stopwords 제외한 단어 추출

In [18]:
res = [word for word in tokens if word not in en_stops]
print(res)

['machine', 'learning', 'algorithms', 'analyze', 'large', 'datasets', 'identify', 'patterns', 'make', 'predictions', 'without', 'explicitly', 'programmed']


### 정규화
- porterStammer

In [19]:
from nltk.stem import PorterStemmer
stem = PorterStemmer()

In [20]:
print(stem.stem('start'), stem.stem('starts'), stem.stem('started'))

start start start


In [21]:
tokens = word_tokenize(sp1)
res1 = [stem.stem(token) for token in tokens]

In [22]:
print(res1)

['machin', 'learn', 'algorithm', 'can', 'analyz', 'larg', 'dataset', 'to', 'identifi', 'pattern', 'and', 'make', 'predict', 'without', 'be', 'explicitli', 'program', '.']


- LancasterStemmer

In [23]:
from nltk.stem import LancasterStemmer
lstem = LancasterStemmer()

In [24]:
print(lstem.stem('start'), lstem.stem('starts'), lstem.stem('started'))

start start start


### 표제어 추출(Lemmatization)
- 단어의 기본형을 변환

In [25]:
from nltk.stem import WordNetLemmatizer

In [26]:
lemma = WordNetLemmatizer()

In [27]:
print(lemma.lemmatize('go'))
print(lemma.lemmatize('going'))
print(lemma.lemmatize('goes'))

go
going
go


In [28]:
print(lemma.lemmatize('going',pos = 'v'))

go


### 품사 태깅

In [36]:
nltk.download('tagsets')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package tagsets to /root/nltk_data...
[nltk_data]   Package tagsets is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [37]:
tokens =  word_tokenize(sp1)
print(nltk.pos_tag(tokens))

[('Machine', 'NN'), ('learning', 'VBG'), ('algorithms', 'NNS'), ('can', 'MD'), ('analyze', 'VB'), ('large', 'JJ'), ('datasets', 'NNS'), ('to', 'TO'), ('identify', 'VB'), ('patterns', 'NNS'), ('and', 'CC'), ('make', 'VB'), ('predictions', 'NNS'), ('without', 'IN'), ('being', 'VBG'), ('explicitly', 'RB'), ('programmed', 'VBN'), ('.', '.')]


In [38]:
want_tag = ['NN']

NN_tag = [word for word, tag in nltk.pos_tag(tokens) if tag in want_tag]

In [39]:
NN_tag

['Machine']

### 한글 형태소 분석

In [None]:
#!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m58.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m39.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.0 konlpy-0.6.0


In [None]:
from konlpy.tag import Okt

Okt
- morphas(phrase): 형태소 단위로 분리
- nouns(phrase): 형태소 단위로 분리 후, 명사만 추출
- pos : 형태소 단위로 분리, 태깅

In [None]:
sentence = ''' 머신러닝은 컴퓨터가 데이터를 분석하고 패턴을 학습하여 문제를 해결하거나 예측하는 인공지능의 한 분야입니다.
머신러닝 알고리즘은 대규모 데이터셋을 기반으로 하여 복잡한 관계를 발견하고 모델을 훈련시키는데,
이를 통해 의사 결정을 내리거나 예측을 수행할 수 있습니다. 머신러닝 기술은 다양한 분야에서 활용되며,
자연어 처리, 이미지 인식, 의료 진단, 금융 예측 등 다양한 문제에 적용되어 사회적 가치를 창출하고 있습니다.
딥러닝과 같은 고급 머신러닝 기술의 발전으로 인해 머신러닝은 더욱 강력하고 정교한 모델을 개발하고 최적화할 수 있게 되었습니다.'''

In [None]:
k = Okt()

In [None]:
print(k.nouns(sentence))

['머신', '러닝', '컴퓨터', '데이터', '분석', '패턴', '학습', '문제', '해결', '거나', '예측', '인공', '지능', '분야', '머신', '러닝', '알고리즘', '대규모', '데이터', '셋', '기반', '관계', '발견', '모델', '훈련', '통해', '의사', '결정', '예측', '수행', '수', '머신', '러닝', '기술', '분야', '활용', '자연어', '처리', '이미지', '인식', '의료', '진단', '금융', '예측', '등', '문제', '적용', '사회', '가치', '창', '출하', '딥', '러닝', '고급', '머신', '러닝', '기술', '발전', '머신', '러닝', '더욱', '모델', '개발', '최적화', '수']


In [None]:
print(k.pos(sentence))

[('머신', 'Noun'), ('러닝', 'Noun'), ('은', 'Josa'), ('컴퓨터', 'Noun'), ('가', 'Josa'), ('데이터', 'Noun'), ('를', 'Josa'), ('분석', 'Noun'), ('하고', 'Josa'), ('패턴', 'Noun'), ('을', 'Josa'), ('학습', 'Noun'), ('하여', 'Verb'), ('문제', 'Noun'), ('를', 'Josa'), ('해결', 'Noun'), ('하', 'Suffix'), ('거나', 'Noun'), ('예측', 'Noun'), ('하는', 'Verb'), ('인공', 'Noun'), ('지능', 'Noun'), ('의', 'Josa'), ('한', 'Verb'), ('분야', 'Noun'), ('입니다', 'Adjective'), ('.', 'Punctuation'), ('머신', 'Noun'), ('러닝', 'Noun'), ('알고리즘', 'Noun'), ('은', 'Josa'), ('대규모', 'Noun'), ('데이터', 'Noun'), ('셋', 'Noun'), ('을', 'Josa'), ('기반', 'Noun'), ('으로', 'Josa'), ('하여', 'Verb'), ('복잡한', 'Adjective'), ('관계', 'Noun'), ('를', 'Josa'), ('발견', 'Noun'), ('하고', 'Josa'), ('모델', 'Noun'), ('을', 'Josa'), ('훈련', 'Noun'), ('시키는데', 'Verb'), (',', 'Punctuation'), ('이를', 'Verb'), ('통해', 'Noun'), ('의사', 'Noun'), ('결정', 'Noun'), ('을', 'Josa'), ('내리거나', 'Verb'), ('예측', 'Noun'), ('을', 'Josa'), ('수행', 'Noun'), ('할', 'Verb'), ('수', 'Noun'), ('있습니다', 'Adjective'), ('.', 'Punctu

## CountVectorize

In [None]:
df.isna().sum()

Unnamed: 0    0
id            0
document      5
label         0
dtype: int64

In [None]:
df['document'] = df['document'].fillna(0)
df['document'] = df['document'].astype(str)

In [None]:
df_docu_sp2 = df['document'].iloc[:50000]
df_docu_sp2

0                                      아 더빙.. 진짜 짜증나네요 목소리
1                        흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나
2                                        너무재밓었다그래서보는것을추천한다
3                            교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정
4        사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...
                               ...                        
49995    "이게 소위 스페인식 Neo-realism 이란 건가? - 물론, ""아동 판타지"...
49996                                     보지마셈 저 믿으세요 보지마셈
49997                                                 최고졸작
49998                                    재밌고 좋았음 10자 쓰라고?!
49999                                 소박하지만 잔잔한 감동을 주는 영화.
Name: document, Length: 50000, dtype: object

In [None]:
df_docu_sp2.isna().sum()

0

- bow 카운트 기반
- 학습하기 위해서 어떤 벡터를 만들어야 하는지가 중요

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
# max_feature 빈도 기반, 우선순위로 100개 1000개 등 원하는 피처 제한 가능

In [None]:
re_cv = CountVectorizer(max_features = 1000) #1000개 제한

In [None]:
df['document']

0                                       아 더빙.. 진짜 짜증나네요 목소리
1                         흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나
2                                         너무재밓었다그래서보는것을추천한다
3                             교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정
4         사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...
                                ...                        
149995                                  인간이 문제지.. 소는 뭔죄인가..
149996                                        평점이 너무 낮아서...
149997                      이게 뭐요? 한국인은 거들먹거리고 필리핀 혼혈은 착하다?
149998                          청춘 영화의 최고봉.방황과 우울했던 날들의 자화상
149999                             한국 영화 최초로 수간하는 내용이 담긴 영화
Name: document, Length: 150000, dtype: object

In [None]:
re_dtm = re_cv.fit_transform(df_docu_sp2)# 전처리 없이 바로 진행(원래는 해야함)

In [None]:
re_cv.get_feature_names_out()[:100]

array(['0점', '0점은', '10', '10자', '10점', '1점', '1점도', '2점', '3류', '3점',
       '4점', '80년대', '90년대', '9점', 'b급', 'good', 'oo', 'ooo', 'ooo기',
       'ost', 'the', 'tv', 'ㄷㄷ', 'ㅅㅂ', 'ㅇㅇ', 'ㅉㅉ', 'ㅋㅋ', 'ㅋㅋㅋ', 'ㅋㅋㅋㅋ',
       'ㅋㅋㅋㅋㅋ', 'ㅎㅎ', 'ㅎㅎㅎ', 'ㅜㅜ', 'ㅠㅠ', 'ㅠㅠㅠ', 'ㅡㅡ', '가끔', '가는', '가볍게',
       '가서', '가슴', '가슴이', '가장', '가지고', '가진', '각본', '간만에', '갈수록', '감독',
       '감독님', '감독은', '감독의', '감독이', '감동', '감동과', '감동도', '감동을', '감동이',
       '감동적이고', '감동적인', '감사합니다', '갑자기', '강추', '같네요', '같다', '같습니다', '같아서',
       '같아요', '같은', '같은데', '같음', '같이', '개봉', '개뿔', '개연성', '개인적으로', '거의',
       '건지', '걸작', '겁나', '것도', '것은', '것을', '것이', '것이다', '게다가', '결국', '결말',
       '결말도', '결말은', '결말이', '계속', '공감이', '공포', '공포영화', '과연', '괜찮은', '괜히',
       '굉장히', '구성'], dtype=object)

### okt - 동사, 명사 추출

In [None]:
tw_tag = Okt()

In [None]:
print('전체 형태소 추출 ',tw_tag.morphs(df.document[1]))
print('명사만 추출 ',tw_tag.nouns(df.document[1]))
print('태그 같이추출 ',tw_tag.pos(df.document[1]))

전체 형태소 추출  ['흠', '...', '포스터', '보고', '초딩', '영화', '줄', '....', '오버', '연기', '조차', '가볍지', '않구나']
명사만 추출  ['흠', '포스터', '보고', '초딩', '영화', '줄', '오버', '연기']
태그 같이추출  [('흠', 'Noun'), ('...', 'Punctuation'), ('포스터', 'Noun'), ('보고', 'Noun'), ('초딩', 'Noun'), ('영화', 'Noun'), ('줄', 'Noun'), ('....', 'Punctuation'), ('오버', 'Noun'), ('연기', 'Noun'), ('조차', 'Josa'), ('가볍지', 'Adjective'), ('않구나', 'Verb')]


- 전체 데이터 적용

In [None]:
def my_tokenizer(doc):
    return[
        token
        for token, pos in tw_tag.pos(doc)
        if pos in ['Noun','Verb']
    ]

print('실제 결과는', my_tokenizer(df.document[1]))

실제 결과는 ['흠', '포스터', '보고', '초딩', '영화', '줄', '오버', '연기', '않구나']


In [None]:
# 사용할 토큰 지정 가능
re_cv = CountVectorizer(max_features = 1000, tokenizer = my_tokenizer)

In [None]:
re_dtm = re_cv.fit_transform(df_docu_sp2)



In [None]:
#어떤 식으로 카운팅 기반으로 되어 있는지 확인해 보자!
for word, count in zip(re_cv.get_feature_names_out(), re_dtm[1].toarray()[0]):
    if count>0:
        print(word,count,end=',')

보고 1,연기 1,영화 1,줄 1,초딩 1,포스터 1,흠 1,

### Cosine_Similarity

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

# 기준 리뷰
st = len(df_docu_sp2[0])//2

In [None]:
st

9

In [None]:
# 중심점으로 부터 뒤 절반을 가지고 와서 비교할 문서를 생성
source = df_docu_sp2[0][-st:]

In [None]:
source

'짜증나네요 목소리'

In [None]:
# 코사인 유사도를 계산하기 위해 벡터로 변환
source_rv = re_cv.transform([source])

In [None]:
source_rv

<1x1000 sparse matrix of type '<class 'numpy.int64'>'
	with 1 stored elements in Compressed Sparse Row format>

In [None]:
sim_res=cosine_similarity(source_rv,re_dtm)

In [None]:
sim_res

array([[0.57735027, 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ]])

In [None]:
sim_res[0]

array([0.57735027, 0.        , 0.        , ..., 0.        , 0.        ,
       0.        ])

In [None]:
print('유사도 정렬', sorted(sim_res[0], reverse = True)[:100])

유사도 정렬 [1.0, 1.0, 0.8944271909999159, 0.8164965809277261, 0.7559289460184544, 0.7071067811865475, 0.7071067811865475, 0.7071067811865475, 0.7071067811865475, 0.7071067811865475, 0.7071067811865475, 0.7071067811865475, 0.7071067811865475, 0.7071067811865475, 0.7071067811865475, 0.7071067811865475, 0.7071067811865475, 0.7071067811865475, 0.7071067811865475, 0.6963106238227914, 0.5773502691896258, 0.5773502691896258, 0.5773502691896258, 0.5773502691896258, 0.5773502691896258, 0.5773502691896258, 0.5773502691896258, 0.5773502691896258, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.48507125007266594, 0.47140452079103173, 0.4472135954999579, 0.4472135954999579, 0.4472135954999579, 0.4472135954999579, 0.4472135954999579, 0.4472135954999579, 0.4472135954999579, 0.4082482904638631, 0.4082482904638631, 0.4082482904638631, 0.4082482904638631, 0.4082482904638631, 0.4082482904638631, 0.3779644730092272, 0.3779644730092272, 0.3779644730092272, 0.3779644730092272, 0.3779644730092

In [None]:
# 가장 유사한 리뷰가 무엇인지 확인
print('가장 유사한 리뷰는 무엇인지?',np.argmax(sim_res[0]))

가장 유사한 리뷰는 무엇인지? 7876


In [None]:
df_docu_sp2[7876]

'김용만의 목소리가 좋았다.'

#### 카운트 기반 문제
- 단어가 많다고 좋은건 아님
- TF-IDF(Term-Frequency-Inverse Document Frequency)
- 단어 빈도 - 역문서 빈도
- 카운트 대신 단어의 빈도에 그 단어가 출연한 문서의 수의 역수를 곱함
- 단어의 빈도를 그 단어가 나타난 문서의 수로 나눠준 것
- 단어가 나타난 문서의 수가 클수록 값이 작아짐 > 빈도를 사용한 계산이 더 적절할 수 있음

## TF-IDF

In [None]:
from sklearn.feature_extraction.text import TfidfTransformer

transformer = TfidfTransformer()
transformer

In [None]:
rv_tfidf = transformer.fit_transform(re_dtm)

In [None]:
rv_tfidf

<50000x1000 sparse matrix of type '<class 'numpy.float64'>'
	with 227438 stored elements in Compressed Sparse Row format>

In [None]:
re_dtm[10].toarray()[0] # re_dtm의 배열, 0,1,2 대부분

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

In [None]:
rv_tfidf[0].toarray()[0] # tf_idf 카운팅이 아닌 확률처럼 소수로 되어있다. 빈도기반이라

array([0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.     

In [None]:
tf = TfidfTransformer()
rv_rfidf = tf.fit_transform(re_dtm)

In [None]:
source_idf=tf.transform(source_rv)

In [None]:
source_idf

<1x1000 sparse matrix of type '<class 'numpy.float64'>'
	with 1 stored elements in Compressed Sparse Row format>

In [None]:
sim_res_tfidf=cosine_similarity(source_idf,rv_tfidf)

In [None]:
print('가장 유사한 리뷰는 무엇인지?',np.argmax(sim_res_tfidf[0]))

가장 유사한 리뷰는 무엇인지? 7876


In [None]:
df_docu_sp2[7876]

'김용만의 목소리가 좋았다.'

### 두가지 방법으로 코사인유사도 계산 > 더 좋은 차이를 만드는 방법은 전처리
- 아무것도 하지 않고 카운팅해서 진행 > 전처리 후 진행 차이 확인 필요