### TF-IDF (Term Frequency - Inverse Document Frequency)  
- #### TF (Term Frequency)  
    정의 : 특정 단어가 문서 내에서 얼마나 자주 등장하는지를 측정하는 것  
    계산 방법 :  
        TF(t, d) = (해당 단어 t의 빈도수) / (문서 d의 총 단어 수)  
    목적 : 문서 내에서 단어의 중요성을 평가  
          
- #### IDF (Inverse Document Frequency)  
    정의 : 특정 단어가 전체 문서에서 얼마나 흔하지 않은지를 측정하는 것  
    계산 방법 :  
        IDF(t) = log (전체 문서 수) / (단어 t가 포함된 문서 수)  
    목적 : 흔한 단어의 가중치는 낮추고, 드문 단어의 가중치를 높임  
  
- #### TF-IDF  
    정의 : TF와 IDF를 결합하여 각 단어의 중요도를 계산  
    계산 방법 :  
        TF-IDF(t, d) = TF(t, d) X IDF(t)  

#### TfidfVectorizer  
- TF-IDF 방식으로 텍스트 데이터를 벡터화하는데 사용된다.

In [32]:
# TF-IDF 패키지 불러오기
from sklearn.feature_extraction.text import TfidfVectorizer

In [33]:
# 예시 리스트
lists = [
    'This is the first lists',
    'This lists is the second lists',
    'And this lists is the third one',
    'Is this the first lists?'
]

# TF-IDF 벡터라이저 초기화
lists_vectorizer = TfidfVectorizer()

# 문서 데이터(위의 예시 리스트)를 TF-IDF 값으로 벡터화
X = lists_vectorizer.fit_transform(lists)

In [34]:
# 변환 결과를 출력
print('lists 사용한 피처 확인', lists_vectorizer.get_feature_names_out())
print('----')
print('TF-IDF 매트릭스\n', X.toarray()) # 숫자의 의미는 단어의 빈도수를 의미한다.
# TF-IDF의 값이 높다면 전체의 문서에서 자주 등장하는 것이 아닌 특정 문서에서 중요하게 등장하는 것을 의미한다.
# TF-IDF의 값이 낮다면 전체의 문서에서 자주 등장하는 단어를 의미한다.

lists 사용한 피처 확인 ['and' 'first' 'is' 'lists' 'one' 'second' 'the' 'third' 'this']
----
TF-IDF 매트릭스
 [[0.         0.60276058 0.39896105 0.39896105 0.         0.
  0.39896105 0.         0.39896105]
 [0.         0.         0.30610726 0.61221452 0.         0.5865905
  0.30610726 0.         0.30610726]
 [0.49451206 0.         0.25805691 0.25805691 0.49451206 0.
  0.25805691 0.49451206 0.25805691]
 [0.         0.60276058 0.39896105 0.39896105 0.         0.
  0.39896105 0.         0.39896105]]


In [35]:
## 한국어로 진행
corpus_ko = [
    '오늘 식사는 매우 맛있습니다',
    '내일 식사는 매우 맛있을까요?',
    '내일은 눈이 올 것 같습니다',
    '모두 내일은 두꺼운옷을 준비하세요',
    'BDA는 이제 곧 수료식을 진행합니다',
    '우리는 꾸준히 운동합니다',
    '우리는 내일도 내일또 운동합니다'
]

In [36]:
# 불용어 추가하기!
stop_words = ['bda는']

In [37]:
# TF-IDF 벡터라이저 초기화
ko_vectorizer = TfidfVectorizer(stop_words=stop_words) # 제거할 불용어를 설정
# 문서 데이터(위의 corpus_ko)를 TF-IDF 값으로 벡터화
X = ko_vectorizer.fit_transform(corpus_ko)

In [38]:
# 변환 결과를 출력
print('사용한 피처 확인', ko_vectorizer.get_feature_names_out())
print('----')
print('TF-IDF 매트릭스\n', X.toarray()) # 숫자의 의미는 단어의 빈도수를 의미한다.
# TF-IDF의 값이 높다면 전체의 문서에서 자주 등장하는 것이 아닌 특정 문서에서 중요하게 등장하는 것을 의미한다.
# TF-IDF의 값이 낮다면 전체의 문서에서 자주 등장하는 단어를 의미한다.

사용한 피처 확인 ['같습니다' '꾸준히' '내일' '내일도' '내일또' '내일은' '눈이' '두꺼운옷을' '맛있습니다' '맛있을까요' '매우'
 '모두' '수료식을' '식사는' '오늘' '우리는' '운동합니다' '이제' '준비하세요' '진행합니다']
----
TF-IDF 매트릭스
 [[0.         0.         0.         0.         0.         0.
  0.         0.         0.54408243 0.         0.45163515 0.
  0.         0.45163515 0.54408243 0.         0.         0.
  0.         0.        ]
 [0.         0.         0.54408243 0.         0.         0.
  0.         0.         0.         0.54408243 0.45163515 0.
  0.         0.45163515 0.         0.         0.         0.
  0.         0.        ]
 [0.60981929 0.         0.         0.         0.         0.50620239
  0.60981929 0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.        ]
 [0.         0.         0.         0.         0.         0.43218152
  0.         0.52064676 0.         0.         0.         0.52064676
  0.         0.         0.         0.         0.         0.
  0.52064676 0.       

In [39]:
# 하이퍼파라미터를 좀 더 추가해서 다양하게 전처리 작업을 수행할 수 있다.
# min_df는 최소 빈도수를 의미한다.
# ngram_range는 단어의 묶음을 의미한다.
ko_vectorizer = TfidfVectorizer(stop_words=stop_words, min_df = 2, ngram_range = (1, 2))
X = ko_vectorizer.fit_transform(corpus_ko)

In [40]:
# 변환 결과를 출력
print('사용한 피처 확인', ko_vectorizer.get_feature_names_out())
print('----')
print('TF-IDF 매트릭스\n', X.toarray()) # 숫자의 의미는 단어의 빈도수를 의미한다.
# ngram_range = (1, 2)를 통해 '날씨는 매우'와 같은 묶음을 만들 수 있다.

사용한 피처 확인 ['내일은' '매우' '식사는' '식사는 매우' '우리는' '운동합니다']
----
TF-IDF 매트릭스
 [[0.         0.57735027 0.57735027 0.57735027 0.         0.        ]
 [0.         0.57735027 0.57735027 0.57735027 0.         0.        ]
 [1.         0.         0.         0.         0.         0.        ]
 [1.         0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.70710678 0.70710678]
 [0.         0.         0.         0.         0.70710678 0.70710678]]


### 텍스트 전처리를 통해 분석

In [41]:
import pandas as pd
df = pd.read_csv('movie_rv.csv')

In [42]:
df_sp = df.iloc[:20000]

In [43]:
## 리뷰 데이터를 어떻게 분석하면 될까?!
import re
from konlpy.tag import Okt ## 한국어 형태소 분석기를 불러오는 모듈

# Okt 형태소 분석기 생성
okt = Okt()

### 유사도 측정, LDA 토픽모델링

In [44]:
## 전처리 함수
def preprocess_text(text):
    # 문자열 확인하고, 아니면 빈 문자열 반환
    if not isinstance(text, str):
        return ''
    # 특수문자 제거
    re.sub('r[^ㄱ-ㅎㅏ-ㅣ가-힣\s]', '', text)
    # 형태소로 분석을 통해 추출 (명사만 추출)
    nouns = okt.nouns(text)
    return ' '.join(nouns)

df_sp['document_cleand'] = df_sp['document'].apply(preprocess_text)
    

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_sp['document_cleand'] = df_sp['document'].apply(preprocess_text)


In [45]:
# 전처리된 데이터와 원본 데이터를 비교해보자.
display(df_sp[['document', 'document_cleand']])

Unnamed: 0,document,document_cleand
0,아 더빙.. 진짜 짜증나네요 목소리,더빙 진짜 목소리
1,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,흠 포스터 보고 초딩 영화 줄 오버 연기
2,너무재밓었다그래서보는것을추천한다,무재 밓었 다그 래서 추천
3,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,교도소 이야기 구먼 재미 평점 조정
4,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,몬페 의 연기 영화 스파이더맨 커스틴 던스트
...,...,...
19995,커스턴양은 어려서나 지금이나 얼굴이 똑같네.,스턴 서나 지금 얼굴
19996,초반부는 좋았는데 끝으로 갈수록 이건 뭐 코미디도 아니고...끝부분은 너무 유치했다...,초반 끝 갈수록 이건 뭐 코미디 끝 부분 애 쉿 빵 오컬트 요소 결말 수 차라리 스...
19997,작가야 왜 사냐~!!!!,작가 왜
19998,내가 본 한국영화 top10에 들어감!!,내 한국영


### CountVectorizer  
- 텍스트데이터를 단어 빈도 수를 기준으로 벡터화하는 것  

In [46]:
from sklearn.feature_extraction.text import CountVectorizer

In [47]:
# CountVectorizer
cv = CountVectorizer()
X_cv_count = cv.fit_transform(df_sp['document_cleand'])

# TfidfVectorizer
tfidf = TfidfVectorizer()
X_tfidf_count = tfidf.fit_transform(df_sp['document_cleand'])

### 코사인 유사도  
- cosine_similarity로 유사도를 측정하자!  
  
  #### cosine_similarity  
  정의 :  
  - 두 벡터 간의 각도를 기반으로 유사성을 측정하는 메트릭스  
  - 두 벡터가 이루는 각의 코사인을 계산하여 유사도를 판단  
  - 값의 범위는 [-1, 1]이며, 1에 가까울수록 두 벡터는 매우 유사하고, 0이면 직교, -1은 완전히 반대의 방향을 의미한다.  
  
  수식 :  
  cosine_similarity(A, B) = (A ∙ B) / ||A|| ||B||  
  * A ∙ B : 두 벡터의 내적  
  * ||A||와 ||B||는 각 벡터의 유클리드 노름(= Euclidean norm)  
    * 유클리드 노름(= 유클리드 길이, Euclidean length)이란? 
      - 우리가 일반적으로 생각하는 직선 거리  
        ex) 2차원 평면 위의 벡터 (3,4)의 경우, 그 직선 거리는 3^2 + 4^2의 제곱근인 5가 된다.  
      
      
  해당 함수는 두 벡터의 배열을 입력 받아 코사인 유사도를 계산 후 행렬로 반환한다.  

In [48]:
## cosine_similarity
from sklearn.metrics.pairwise import cosine_similarity

In [49]:
cos_sim_count = cosine_similarity(X_cv_count)
cos_sim_tfidf = cosine_similarity(X_tfidf_count)

In [54]:
cos_sim_count

array([[1., 0., 0., ..., 0., 0., 0.],
       [0., 1., 0., ..., 0., 0., 0.],
       [0., 0., 1., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 1., 0., 0.],
       [0., 0., 0., ..., 0., 1., 0.],
       [0., 0., 0., ..., 0., 0., 1.]])

In [53]:
cos_sim_tfidf

array([[1., 0., 0., ..., 0., 0., 0.],
       [0., 1., 0., ..., 0., 0., 0.],
       [0., 0., 1., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 1., 0., 0.],
       [0., 0., 0., ..., 0., 1., 0.],
       [0., 0., 0., ..., 0., 0., 1.]])

In [56]:
# 코사인 유사도를 통해 리뷰 20개 정도 추려서
# 리뷰와 코사인유사도가 같은 5개 정도를 출력하는 코드

num_rvs = 20
for i in range(num_rvs):
    # cv
    simliar_indices_count = cos_sim_count[i].argsort()[::-1][0:5]
    simliar_reviews_count = [(cos_sim_count[i][j], df_sp['document'][j]) for j in simliar_indices_count]
    
    # tfidf
    simliar_indices_tfidf = cos_sim_tfidf[i].argsort()[::-1][0:5]
    simliar_reviews_tfidf = [(cos_sim_tfidf[i][j], df_sp['document'][j]) for j in simliar_indices_tfidf]
    
    print(f"\n Original Review {i+1} : {df_sp['document'][i]}")
    print("\n Top 5 similar reviews using countvectorizer:")
    for sim_score, reviews in simliar_reviews_count:
        print(f"Similarity : {sim_score:.3f}, Reviews:{reviews}")
    
    print("\n Top 5 similar reviews using Tfidf:")    
    for sim_score, reviews in simliar_reviews_tfidf:
        print(f"Similarity : {sim_score:.3f}, Reviews:{reviews}")


 Original Review 1 : 아 더빙.. 진짜 짜증나네요 목소리

 Top 5 similar reviews using countvectorizer:
Similarity : 1.000, Reviews:아 더빙.. 진짜 짜증나네요 목소리
Similarity : 0.674, Reviews:러시아 영화 진짜 재미없다. 내용전개 진짜 이상하고 이해안돼. 억지로 짜집기한거같아. 더빙도 왜 연예인인거야? 이수근 진짜 더빙 못한다. 한국측 더빙작가가 대본을 이상하게 짠거야, 뭐야? 진짜 이상하고 재미없었다. 아오 빡쳐 ㅡㅡ;;
Similarity : 0.577, Reviews:진짜 재미없었다. 남는 것도 없고...
Similarity : 0.577, Reviews:말이필요없다. 진짜너무재밌다.♥♥
Similarity : 0.577, Reviews:진짜 좋았어요 ㅠㅠ

 Top 5 similar reviews using Tfidf:
Similarity : 1.000, Reviews:아 더빙.. 진짜 짜증나네요 목소리
Similarity : 0.637, Reviews:더빙이 똥이야 ....
Similarity : 0.637, Reviews:엄청잼있겟당 (근대더빙이면좋겟는듯)
Similarity : 0.637, Reviews:으아아 더빙을 어떻게한거냐
Similarity : 0.555, Reviews:강소라씨의 목소리더빙은..그냥 성우가 하셨으면 진짜 짱이였을텐데...영화내용은 재밌고 교훈도 있고!!

 Original Review 2 : 흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나

 Top 5 similar reviews using countvectorizer:
Similarity : 1.000, Reviews:흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나
Similarity : 0.577, Reviews:포스터가 영화를 망쳤어 ㅠ
Similarity : 0.577, Reviews:너무 보고 싶은 영화~~
Similarity : 0.5

- LDA  
- 토픽 모델링  
- 텍스트 기반 문서에서 핵심 주제(Topic)을 찾는다. 데이터 분석 방법론  
- 작동방법  
    - 확률 기반으로 텍스트의 문서 내에 토픽들이 어떤 비율로 구성되어 있는지 확인  
    - 임의 토픽을 분석가가 정한 다음에, 해당 토픽에 대해서 카운팅을 해보고 ( 임의로 카운팅 )  
    - 다른 리뷰들이 어떤 식으로 토픽이 분포되어 있는지 보고 맞춰가면서 새로운 리뷰 단어에 대해서 토픽을 찾는다.  

In [57]:
# 사이킷런에서 제공하는 패키지
from sklearn.decomposition import LatentDirichletAllocation

# LDA 모델 생성
# 내가 원하는 토픽 주제는 분석가가 정할 수 있다. 2개, 3개
# 2개의 토픽을 정하는데, 이 토픽은 어떤 특정 값이 아니라 계산해서 유사하다고 판단되는 토픽들을 묶어서 보여주는 것
# 해석의 의미는 분석가가 진행해야 한다.
lda = LatentDirichletAllocation(n_components = 2, random_state=111)

lda.fit(X_cv_count)

In [58]:
# lda에 있는 값들을 출력해야 한다.
# 상위 몇 개 단어를 가지고 올 것인가?
n_top_words = 10

def print_top_words(model, feature_name, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print(f"Topic #{topic_idx}")
        print(" ".join([feature_name[i] for i in topic.argsort()[:-n_top_words - 1:-1]]))

tf_feature_names = cv.get_feature_names_out()
print_top_words(lda, tf_feature_names, n_top_words)

Topic #0
영화 진짜 평점 연기 최고 스토리 생각 보고 배우 재미
Topic #1
정말 사람 내용 영화 드라마 사랑 이야기 이영화 그냥 장면
