**5주차 실습 - 카운트 기반 문서 표현 라이브러리 활용하기**

- 출처: 딥 러닝을 이용한 자연어 처리 입문(https://wikidocs.net/book/2155)

# **1. Bag of Words**

In [2]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

doc1 = '먹고 싶은 사과'
doc2 = '먹고 싶은 바나나'
doc3 = '길고 노란 바나나 바나나'
doc4 = '저는 과일이 좋아요'

docs = [doc1, doc2, doc3, doc4]

In [7]:
# CountVectorizer 초기화
vectorizer = CountVectorizer()

# 문서를 BoW 행렬로 변환
bow_matrix = vectorizer.fit_transform(docs)
#print(bow_matrix)
# BoW 행렬을 array로 저장
bow_scores = bow_matrix.toarray()
print(bow_scores)
# 특성 이름(단어) 가져오기
feature_names = vectorizer.get_feature_names_out()

# 결과를 표시하기 위한 pandas DataFrame 생성
df_bow = pd.DataFrame(bow_scores, columns=feature_names)

# 문서 텍스트를 담은 컬럼 추가
df_bow['문서'] = docs


[[0 0 0 1 0 1 1 0 0]
 [0 0 0 1 1 0 1 0 0]
 [0 1 1 0 2 0 0 0 0]
 [1 0 0 0 0 0 0 1 1]]


In [8]:
bow_scores

array([[0, 0, 0, 1, 0, 1, 1, 0, 0],
       [0, 0, 0, 1, 1, 0, 1, 0, 0],
       [0, 1, 1, 0, 2, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 1, 1]])

In [9]:
df_bow

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요,문서
0,0,0,0,1,0,1,1,0,0,먹고 싶은 사과
1,0,0,0,1,1,0,1,0,0,먹고 싶은 바나나
2,0,1,1,0,2,0,0,0,0,길고 노란 바나나 바나나
3,1,0,0,0,0,0,0,1,1,저는 과일이 좋아요


# **2. TF-IDF**

In [13]:

from sklearn.feature_extraction.text import TfidfVectorizer

# TfidfVectorizer 초기화
vectorizer = TfidfVectorizer()

# 문서를 TF-IDF 행렬로 변환
tfidf_matrix = vectorizer.fit_transform(docs)

# TF-IDF 행렬을 array로 저장
tfidf_scores = tfidf_matrix.toarray()

# 특성 이름(단어) 가져오기
feature_names = vectorizer.get_feature_names_out()

# 결과를 표시하기 위한 pandas DataFrame 생성
df_tfidf = pd.DataFrame(tfidf_scores, columns=feature_names)

# 문서 텍스트를 담은 컬럼 추가
df_tfidf['문서'] = docs


In [14]:
tfidf_scores

array([[0.        , 0.        , 0.        , 0.52640543, 0.        ,
        0.66767854, 0.52640543, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.57735027, 0.57735027,
        0.        , 0.57735027, 0.        , 0.        ],
       [0.        , 0.47212003, 0.47212003, 0.        , 0.7444497 ,
        0.        , 0.        , 0.        , 0.        ],
       [0.57735027, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.57735027, 0.57735027]])

In [15]:
df_tfidf

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요,문서
0,0.0,0.0,0.0,0.526405,0.0,0.667679,0.526405,0.0,0.0,먹고 싶은 사과
1,0.0,0.0,0.0,0.57735,0.57735,0.0,0.57735,0.0,0.0,먹고 싶은 바나나
2,0.0,0.47212,0.47212,0.0,0.74445,0.0,0.0,0.0,0.0,길고 노란 바나나 바나나
3,0.57735,0.0,0.0,0.0,0.0,0.0,0.0,0.57735,0.57735,저는 과일이 좋아요


# **3. 코사인 유사도(Cosine Similarity)**

In [16]:
from sklearn.metrics.pairwise import cosine_similarity

# 모든 문서(BoW) 사이의 코사인 유사도 계산
cosine_similarities = cosine_similarity(bow_matrix)

# 코사인 유사도 행렬 출력
df_cosine_similarities = pd.DataFrame(cosine_similarities, columns=docs, index=docs)

In [18]:
df_cosine_similarities

Unnamed: 0,먹고 싶은 사과,먹고 싶은 바나나,길고 노란 바나나 바나나,저는 과일이 좋아요
먹고 싶은 사과,1.0,0.666667,0.0,0.0
먹고 싶은 바나나,0.666667,1.0,0.471405,0.0
길고 노란 바나나 바나나,0.0,0.471405,1.0,0.0
저는 과일이 좋아요,0.0,0.0,0.0,1.0


In [19]:
# 모든 문서(TF-IDF) 사이의 코사인 유사도 계산
cosine_similarities = cosine_similarity(tfidf_matrix)

# 코사인 유사도 행렬 출력
df_cosine_similarities = pd.DataFrame(cosine_similarities, columns=docs, index=docs)

In [20]:
df_cosine_similarities

Unnamed: 0,먹고 싶은 사과,먹고 싶은 바나나,길고 노란 바나나 바나나,저는 과일이 좋아요
먹고 싶은 사과,1.0,0.607841,0.0,0.0
먹고 싶은 바나나,0.607841,1.0,0.429808,0.0
길고 노란 바나나 바나나,0.0,0.429808,1.0,0.0
저는 과일이 좋아요,0.0,0.0,0.0,1.0


# **4. 영화 리뷰 예시**

In [13]:
!curl -s https://raw.githubusercontent.com/teddylee777/machine-learning/master/99-Misc/01-Colab/mecab-colab.sh | bash

bash: line 2: wget: command not found
bash: line 5: wget: command not found
fatal: destination path 'mecab-python-0.996' already exists and is not an empty directory.


In [14]:
import pandas as pd


df = pd.read_csv('data/daum_movie_review.csv')

In [2]:
df

Unnamed: 0,review,rating,date,title
0,돈 들인건 티가 나지만 보는 내내 하품만,1,2018.10.29,인피니티 워
1,몰입할수밖에 없다. 어렵게 생각할 필요없다. 내가 전투에 참여한듯 손에 땀이남.,10,2018.10.26,인피니티 워
2,이전 작품에 비해 더 화려하고 스케일도 커졌지만.... 전국 맛집의 음식들을 한데 ...,8,2018.10.24,인피니티 워
3,이 정도면 볼만하다고 할 수 있음!,8,2018.10.22,인피니티 워
4,재미있다,10,2018.10.20,인피니티 워
...,...,...,...,...
14720,어른들을 위한 동화 정말 오랜만에 좋은 애니를 보았습니다 가족의 소중...,10,2018.01.12,코코
14721,디즈니는 못해도 본전은 한다.,7,2018.01.12,코코
14722,가족을 위한 영화... 괜찮은 영화.~~~,8,2018.01.12,코코
14723,간만에 제대로 잘짜여진 각본의 영화를 봤네 여운이 아직도 남아~어른을 위한 애니~,10,2018.01.12,코코


In [3]:
from konlpy.tag import Okt

okt = Okt()

print('품사 태깅', okt.pos(df.review[0]))
print('명사:', okt.nouns(df.review[0]))

품사 태깅 [('돈', 'Noun'), ('들인건', 'Verb'), ('티', 'Noun'), ('가', 'Josa'), ('나', 'Noun'), ('지만', 'Josa'), ('보는', 'Verb'), ('내내', 'Noun'), ('하품', 'Noun'), ('만', 'Josa')]
명사: ['돈', '티', '나', '내내', '하품']


In [4]:
def review_tokenizer(doc):
    # 품사 태그가 'Noun', 'Verb', 'Adjective'인 토큰만 유지
    return [token for token, pos in okt.pos(doc) if pos in ['Noun', 'Verb', 'Adjective']]

review_tokenizer(df.review[0])

['돈', '들인건', '티', '나', '보는', '내내', '하품']

In [5]:
from sklearn.feature_extraction.text import CountVectorizer

# 최대 100개의 feature(단어)를 가진 CountVectorizer 인스턴스를 생성
# max_features: 최대 feature 개수를 정하는 옵션
daum_cv = CountVectorizer(max_features=100, tokenizer=review_tokenizer)

# CountVectorizer를 적용하여 문서-단어 행렬을 생성
daum_dtm = daum_cv.fit_transform(df.review)



In [6]:
# feature(단어) 이름을 출력
daum_cv.get_feature_names_out()

array(['가슴', '가족', '감독', '감동', '같은', '거', '것', '공포영화', '광주', '그', '그냥',
       '기대', '꼭', '끝', '나', '내', '내용', '넘', '눈물', '느낌', '다시', '더', '돈',
       '듯', '때', '또', '마동석', '마블', '마음', '마지막', '말', '모두', '뭐', '배우',
       '별로', '보고', '보는', '보면', '본', '볼', '봤는데', '봤습니다', '봤어요', '부분', '분',
       '사람', '사랑', '생각', '송강호', '수', '스토리', '시간', '신파', '안', '액션', '없는',
       '역사', '역시', '연기', '영화', '완전', '왜', '우리', '원작', '윤계상', '음악', '이',
       '이런', '이해', '인생', '임', '입니다', '있는', '잘', '장면', '재미', '재밌게', '저',
       '점', '정도', '정말', '좀', '좋은', '중간', '진짜', '차태현', '처음', '최고', '편',
       '평점', '하나', '하는', '한', '한국', '한번', '할', '함', '합니다', '해', '해서'],
      dtype=object)

In [7]:
# 첫번째 카운트 벡터를 출력
# 희소 표현(sparse representation): 100개 중 3개의 원소만 0이 아님
daum_dtm[0]

<1x100 sparse matrix of type '<class 'numpy.int64'>'
	with 3 stored elements in Compressed Sparse Row format>

In [8]:
# 벡터의 모든 값을 저장하는 것이 아닌 0이 아닌 값과 그 인덱스만 저장
print(daum_dtm[0])

  (0, 22)	1
  (0, 14)	1
  (0, 36)	1


In [9]:
# DTM을 출력
daum_dtm

<14725x100 sparse matrix of type '<class 'numpy.int64'>'
	with 45689 stored elements in Compressed Sparse Row format>

In [10]:
# DTM의 크기(행의 수, 열의 수)
print(daum_dtm.shape)

# DTM의 원소 중 0이 아닌 원소의 수
print(daum_dtm.size)

# 0아닌 원소의 비율
print(daum_dtm.size / (daum_dtm.shape[0] * daum_dtm.shape[1]))

(14725, 100)
45689
0.03102818336162988


In [11]:
# 리뷰 벡터의 0이 아닌 원소의 단어를 출력
for word, count in zip(daum_cv.get_feature_names_out(), daum_dtm[0].toarray()[0]):
    if count > 0:
        print(word, ':', count, end=', ')

나 : 1, 돈 : 1, 보는 : 1, 

In [15]:
# 모든 리뷰(BoW 기준) 사이의 코사인 유사도 계산
cosine_similarities = cosine_similarity(daum_dtm)

NameError: name 'cosine_similarity' is not defined

In [None]:
cosine_similarities

In [None]:
import numpy as np

print(np.count_nonzero(cosine_similarities == 0))
print(cosine_similarities.size)
print(179590365 / 216825625)