In [None]:

from nltk.corpus import movie_reviews

#1단계: 모든 문서를 단어 리스트로 변환
documents = [list(movie_reviews.words(fileid)) 
            for fileid in movie_reviews.fileids()]

print(f"전체 문서 수: {len(documents)}")
print(f"첫 문서의 단어 수: {len(documents[0])}")
print(f"첫 문서의 첫 50개 단어:\n{documents[0][:50]}")

#2단계: 전체 단어 빈도 계산 (불용어 제외 전)
word_count = {}
for doc in documents:
    for word in doc:
        word_count[word] = word_count.get(word, 0) + 1

#상위 10개 빈도 단어 확인
sorted_words = sorted(word_count.items(), key=lambda x: x[1], reverse=True)
print("\n상위 10개 빈도 단어:")
for i, (word, count) in enumerate(sorted_words[:10], 1):
    print(f"  {i}. '{word}': {count}회")

#3단계: 불용어 제거 후 처리
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords

#정규표현식으로 3글자 이상의 단어만 추출
tokenizer = RegexpTokenizer(r"[\w']{3,}")
#영어 불용어 로드
english_stops = set(stopwords.words('english'))

#모든 리뷰를 토큰화하고 불용어 제거
processed_documents = []
for fileid in movie_reviews.fileids():
    raw_text = movie_reviews.raw(fileid)
    tokens = [token for token in tokenizer.tokenize(raw_text) 
            if token not in english_stops]
    processed_documents.append(tokens)

#처리 후 단어 빈도 재계산
word_count_processed = {}
for doc in processed_documents:
    for word in doc:
        word_count_processed[word] = word_count_processed.get(word, 0) + 1

sorted_processed = sorted(word_count_processed.items(), 
                        key=lambda x: x[1], reverse=True)

print(f"\n전체 서로 다른 단어 수: {len(sorted_processed)}")
print("\n처리 후 상위 10개 단어:")
for i, (word, count) in enumerate(sorted_processed[:10], 1):
    print(f"  {i}. '{word}': {count}회")

#4단계: 특성 선택 (상위 1000개 단어)
word_features = [word for word, count in sorted_processed[:1000]]
print(f"\n특성으로 선택된 단어 수: {len(word_features)}")
print(f"특성 예시: {word_features[:20]}")

전체 문서 수: 2000
첫 문서의 단어 수: 879
첫 문서의 첫 50개 단어:
['plot', ':', 'two', 'teen', 'couples', 'go', 'to', 'a', 'church', 'party', ',', 'drink', 'and', 'then', 'drive', '.', 'they', 'get', 'into', 'an', 'accident', '.', 'one', 'of', 'the', 'guys', 'dies', ',', 'but', 'his', 'girlfriend', 'continues', 'to', 'see', 'him', 'in', 'her', 'life', ',', 'and', 'has', 'nightmares', '.', 'what', "'", 's', 'the', 'deal', '?', 'watch']

상위 10개 빈도 단어:
  1. ',': 77717회
  2. 'the': 76529회
  3. '.': 65876회
  4. 'a': 38106회
  5. 'and': 35576회
  6. 'of': 34123회
  7. 'to': 31937회
  8. ''': 30585회
  9. 'is': 25195회
  10. 'in': 21822회

전체 서로 다른 단어 수: 43011

처리 후 상위 10개 단어:
  1. 'film': 8935회
  2. 'one': 5791회
  3. 'movie': 5538회
  4. 'like': 3690회
  5. 'even': 2564회
  6. 'time': 2409회
  7. 'good': 2407회
  8. 'story': 2136회
  9. 'would': 2084회
  10. 'much': 2049회

특성으로 선택된 단어 수: 1000
특성 예시: ['film', 'one', 'movie', 'like', 'even', 'time', 'good', 'story', 'would', 'much', 'also', 'get', 'character', 'two', 'well', '

In [2]:
# 각 문서의 고정된 길이의 백터로 변환 ( 모든 문서가 같은 차원 )
# 기계 학습 알고리즘의 입력 형식으로 변환해야함.

In [3]:
processed_documents[0] # 불용어가 제거된 상태. ( 연속된 3개 문장임)

['plot',
 'two',
 'teen',
 'couples',
 'church',
 'party',
 'drink',
 'drive',
 'get',
 'accident',
 'one',
 'guys',
 'dies',
 'girlfriend',
 'continues',
 'see',
 'life',
 'nightmares',
 "what's",
 'deal',
 'watch',
 'movie',
 'sorta',
 'find',
 'critique',
 'mind',
 'fuck',
 'movie',
 'teen',
 'generation',
 'touches',
 'cool',
 'idea',
 'presents',
 'bad',
 'package',
 'makes',
 'review',
 'even',
 'harder',
 'one',
 'write',
 'since',
 'generally',
 'applaud',
 'films',
 'attempt',
 'break',
 'mold',
 'mess',
 'head',
 'lost',
 'highway',
 'memento',
 'good',
 'bad',
 'ways',
 'making',
 'types',
 'films',
 'folks',
 'snag',
 'one',
 'correctly',
 'seem',
 'taken',
 'pretty',
 'neat',
 'concept',
 'executed',
 'terribly',
 'problems',
 'movie',
 'well',
 'main',
 'problem',
 'simply',
 'jumbled',
 'starts',
 'normal',
 'downshifts',
 'fantasy',
 'world',
 'audience',
 'member',
 'idea',
 "what's",
 'going',
 'dreams',
 'characters',
 'coming',
 'back',
 'dead',
 'others',
 'look',


In [4]:
for doc in processed_documents[:5]:
    print(len(doc), end=' ')

323 130 262 278 391 

## ------- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -  - -

In [5]:
# 1. 데이터 준비
reviews = [movie_reviews.raw(fileid) for filid in movie_reviews.fileids()]
# print(reviews[50])

# 카운터 백터
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer(vocabulary=word_features)
reviews_cv = cv.fit_transform(reviews)
print(f'특성 수 : {cv.get_feature_names_out()}')

특성 수 : ['film' 'one' 'movie' 'like' 'even' 'time' 'good' 'story' 'would' 'much'
 'also' 'get' 'character' 'two' 'well' 'first' 'characters' 'see' 'way'
 'make' 'life' 'really' 'films' 'plot' 'little' 'people' 'could' 'bad'
 'scene' 'never' 'best' 'man' 'new' 'scenes' 'many' 'know' 'movies'
 'director' 'action' 'great' 'another' 'love' 'made' 'big' 'end' 'back'
 'something' 'still' 'seems' 'work' 'makes' "there's" 'world' 'however'
 'every' 'though' 'better' 'real' 'seen' 'enough' 'take' 'around' 'going'
 'performance' 'audience' 'role' 'old' 'gets' 'may' 'things' 'think'
 'years' 'last' 'actually' 'comedy' 'look' 'funny' 'long' 'almost' 'thing'
 'fact' 'nothing' 'say' 'right' 'although' 'played' 'find' "that's" 'john'
 'come' 'ever' 'since' 'cast' 'script' 'year' 'plays' 'star' 'young'
 'comes' 'show' 'part' 'screen' 'original' 'without' 'actors' 'acting'
 'three' 'point' 'least' 'lot' 'takes' 'day' 'quite' 'away' 'effects'
 'course' 'goes' "can't" 'minutes' 'guy' 'interesting' 'far' '

In [6]:
%pip install gdown

Note: you may need to restart the kernel to use updated packages.


In [7]:
import pandas as pd
url = "https://drive.google.com/uc?id=1nS74XHctc1WZamEe-sosu2GuLeP7p9jH"
df = pd.read_csv(url)
df.head()

Unnamed: 0,review,rating,date,title
0,돈 들인건 티가 나지만 보는 내내 하품만,1,2018.10.29,인피니티 워
1,몰입할수밖에 없다. 어렵게 생각할 필요없다. 내가 전투에 참여한듯 손에 땀이남.,10,2018.10.26,인피니티 워
2,이전 작품에 비해 더 화려하고 스케일도 커졌지만.... 전국 맛집의 음식들을 한데 ...,8,2018.10.24,인피니티 워
3,이 정도면 볼만하다고 할 수 있음!,8,2018.10.22,인피니티 워
4,재미있다,10,2018.10.20,인피니티 워


In [8]:
sample_review = df.review[1]
sample_review

'몰입할수밖에 없다. 어렵게 생각할 필요없다. 내가 전투에 참여한듯 손에 땀이남.'

In [9]:
%pip install konlpy

Note: you may need to restart the kernel to use updated packages.


In [10]:
%pip install JPYpe1

Note: you may need to restart the kernel to use updated packages.


In [11]:
from konlpy.tag import Okt
okt = Okt()




In [12]:
# 명사만 추출
okt.nouns(sample_review)

['몰입', '생각', '내', '전투', '참여', '듯', '손', '땀', '이남']

In [13]:
okt.pos(sample_review)

[('몰입', 'Noun'),
 ('할수밖에', 'Verb'),
 ('없다', 'Adjective'),
 ('.', 'Punctuation'),
 ('어렵게', 'Adjective'),
 ('생각', 'Noun'),
 ('할', 'Verb'),
 ('필요없다', 'Adjective'),
 ('.', 'Punctuation'),
 ('내', 'Noun'),
 ('가', 'Josa'),
 ('전투', 'Noun'),
 ('에', 'Josa'),
 ('참여', 'Noun'),
 ('한', 'Determiner'),
 ('듯', 'Noun'),
 ('손', 'Noun'),
 ('에', 'Josa'),
 ('땀', 'Noun'),
 ('이남', 'Noun'),
 ('.', 'Punctuation')]

In [14]:
# 명사 동사 형용사  Noun Verb Adjective
[word for word, tag in okt.pos(sample_review) if tag in ['Noun',  'Verb',  'Adjective']]

['몰입',
 '할수밖에',
 '없다',
 '어렵게',
 '생각',
 '할',
 '필요없다',
 '내',
 '전투',
 '참여',
 '듯',
 '손',
 '땀',
 '이남']

In [15]:
def custom_tokenizer(doc) :
    '''
    커스텀 코드나이저
    '''
    return [word for word, tag in okt.pos(doc) if tag in ['Noun',  'Verb',  'Adjective']]

In [16]:
# CountVectorizer에 커스텀 코드나이저 적용
daum_cv = CountVectorizer(max_features=1000, tokenizer=custom_tokenizer)
review_cv = daum_cv.fit_transform(df.review)
review_cv.shape



(14725, 1000)

In [17]:
# 코사인 유사도 -1 ~ 1 사이의 값으로 벡터간 각도 기반 유사도 계산
# 0에 가까운 값 : 직교(무관) 1에 가까우면 같은 방향
# 모든 유사도를 계산 : 상위 N개 결과 도출 (추천 시스템의 기초)

In [18]:
from sklearn.metrics.pairwise import cosine_similarity
reviews = df.review.copy().to_list()
original_review = reviews[1]

midpoint = len(original_review) // 2
query_text = original_review[midpoint:]
print(query_text)

# 벡터로 변환
query_vector = daum_cv.transform([query_text])
display(query_vector)

다. 내가 전투에 참여한듯 손에 땀이남.


<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 3 stored elements and shape (1, 1000)>

In [19]:
# 모든 리뷰와 유사도 계산
similarity_score = cosine_similarity(query_vector, review_cv)
similarity_score.shape

(1, 14725)

In [20]:
similarity_score.max()

np.float64(0.6546536707079772)

In [21]:
from konlpy.tag import Okt
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
import pandas as pd
url = "https://drive.google.com/uc?id=1nS74XHctc1WZamEe-sosu2GuLeP7p9jH"
df = pd.read_csv(url)
okt = Okt()
def custom_tokenizer(doc):
    """
    형태소 분석 후 명사, 동사, 형용사만 추출
    """
    pos_tags = okt.pos(doc)
    tokens = [word for word, pos in pos_tags 
              if pos in ['Noun', 'Verb', 'Adjective']]
    return tokens

daum_cv = CountVectorizer(
    max_features=1000,
    tokenizer=custom_tokenizer
)

reviews = df.review
daum_dtm  = daum_cv.fit_transform(reviews)
original_review = reviews[0]  # 첫 번째 리뷰
print(f"원본 리뷰 (처음 200자):\n{original_review[:200]}\n")

# 문서의 뒤 절반을 query로 사용 (부분 검색 시나리오)
midpoint = len(original_review) // 2
query_text = original_review[midpoint:]  # 뒤 절반
print(f"쿼리 텍스트 (처음 150자):\n{query_text[:150]}\n")

# 2단계: 쿼리 문서를 벡터로 변환
query_vector = daum_cv.transform([query_text])
print(f"쿼리 벡터 크기: {query_vector.shape}")

# 유사도 분석
scores = cosine_similarity(query_vector,daum_dtm)
most_simular_idx = np.argmax(scores[0])
scores[0][most_simular_idx], reviews[most_simular_idx]



원본 리뷰 (처음 200자):
돈 들인건 티가 나지만 보는 내내 하품만

쿼리 텍스트 (처음 150자):
만 보는 내내 하품만

쿼리 벡터 크기: (1, 1000)


(np.float64(0.7071067811865475), '보는 내내 설레였다')

In [22]:
query_text

'만 보는 내내 하품만'

In [23]:
np.array(reviews)[scores[0].argsort()[::-1][:5]]

array(['보는 내내 설레였다', '보는 내내 너무 괴로웠다', '여전한 군바리 국가지배...보는 내내 슬펐다.',
       '보는 내내 눈시울이 ㅠㅠ', '돈 들인건 티가 나지만 보는 내내 하품만'], dtype=object)

In [24]:
# 개선 TF - IDF
# 단어의 상대적 중요도를 반영한 백터화 기법

# 라이브러리(프레임워크) 가져오기
from sklearn.feature_extraction.text import TfidfVectorizer, TfidfTransformer
# TF : 특정 단어가 문서에서 얼마나 자주 나타나는지 비율
# 해당 단어의 빈도 / 문서의 전체 단어 수  / 좋다 -> 문서에서 10번 나오고, 해당 문서는 100단어가 있음. 10/100
# IDF (Inverse Document Frequency) 단어가 전체 문장에서 얼마나 드문냐~ (희귀성)
# log(전체 문서 / 해당 단어 포함 문서)  단어의 가중치를 낮추기 위해서 log를 적용 
# 2000개 문서 중에서 100개만 '좋다'가 들어있다. 이거에 대한 IDF 는 log(2000/100)=2.99  /  TF-IDF 는 TF x IDF 임.
# TF-IDF 는 TF x IDF -> 특정 문서에서 의미 있는 단어에 높은 가중치 부여


In [25]:
count_cv = CountVectorizer(
    max_features = 1000,
    tokenizer = custom_tokenizer
)
count_dtm = count_cv.fit_transform(reviews) # 전체 문서의 단어 등장 횟수로 벡터 만들기 (BOW)

tfidf_cv = TfidfVectorizer(
    max_features = 1000,
    tokenizer = custom_tokenizer
)
tfidf_dtm = tfidf_cv.fit_transform(reviews) # 전체 문서의 단어 중요도(TF-IDF)로 벡터 만들기
count_dtm.shape , tfidf_dtm.shape

((14725, 1000), (14725, 1000))

In [26]:
# 쿼리 백터화
query_count = count_cv.transform([query_text])
qeury_tfidf = tfidf_cv.transform([query_text])

# 코사인 유사도 계산
count_sim = cosine_similarity(query_count,count_dtm)[0]
tfidf_sim = cosine_similarity(qeury_tfidf,tfidf_dtm)[0]

In [27]:
a = np.array([1,2,3,4,5])
a.argsort() # 이건 오름차순으로 인덱스가 나옴
(-a).argsort() # a값에 - 를 붙이면 내림차순으로 바뀜

array([4, 3, 2, 1, 0])

In [28]:
top5_count_index = (-count_sim).argsort()[:5] # 상위 5개만 보겠다 ~
top5_tfidf_index = (-tfidf_sim).argsort()[:5]

In [29]:
reviews = np.array(reviews) # reviews를 numpy로 변경

In [30]:
reviews[top5_count_index][1:]

array(['여전한 군바리 국가지배...보는 내내 슬펐다.', '보는 내내 너무 괴로웠다', '보는 내내 눈시울이 ㅠㅠ',
       '돈 들인건 티가 나지만 보는 내내 하품만'], dtype=object)

In [31]:
reviews[top5_tfidf_index][1:]

array(['여전한 군바리 국가지배...보는 내내 슬펐다.', '보는 내내 설레였다', '보는 내내 눈시울이 ㅠㅠ',
       '보는 내내 너무 괴로웠다'], dtype=object)