In [1]:
import os
os.environ['JAVA_HOME'] = r'C:\Program Files\Java\jdk-24'

In [8]:
with open('./bts_korean.txt', encoding='utf-8') as doc:
    text = doc.read()
    print(text[:100])


방탄복이 총알을 막아내는 것처럼, 살아가는 동안 힘든 일을 겪는 10대, 20대가 겪는 힘든 일과 편견을 막아내고 자신들의 음악적 가치를 당당히 지켜내겠다는 의미를 담고 있다. 


In [29]:
# 2. 형태소 분석 (Okt)
from konlpy.tag import Okt
okt = Okt()

# 빈 줄은 제거
lines = [line.strip() for line in text.split('\n') if line.strip()]

r = []
for line in lines:
    token = okt.morphs(line)
    txt = " ".join(token)  # TF-IDF를 위해서는 공백으로 구분
    r.append(txt)

# 형태소 분석 결과 확인 (시각적으로 구분)
print("\n=== 형태소 분석 결과 예시 ===")
for i in range(min(3, len(lines))):
    token = okt.morphs(lines[i])
    print(f"원본: {lines[i]}")
    print(f"형태소 분석 (| 구분): {' | '.join(token)}")
    print(f"TF-IDF용 (공백 구분): {r[i]}")
    print("-" * 60)


=== 형태소 분석 결과 예시 ===
원본: 방탄복이 총알을 막아내는 것처럼, 살아가는 동안 힘든 일을 겪는 10대, 20대가 겪는 힘든 일과 편견을 막아내고 자신들의 음악적 가치를 당당히 지켜내겠다는 의미를 담고 있다. 방탄소년단을 지칭하는 'BTS'는 본래 이름인 'BangTan Sonyeundan' 혹은 'Bulletproof Boys'의 준말이다.[3] 2017년 빅히트 뮤직은 방탄소년단의 공식 로고를 교체하면서 과거와 미래를 아우르는 개념으로 의미를 확장시키고, 'Beyond The Scene'의 준말로 의미를 추가했다. 이는 매 순간마다 청춘의 장면들을 뛰어넘는다는 의미를 가지고 있다.[4][5][6]
형태소 분석 (| 구분): 방탄복 | 이 | 총알 | 을 | 막아내는 | 것 | 처럼 | , | 살아가는 | 동안 | 힘든 | 일 | 을 | 겪는 | 10 | 대 | , | 20 | 대가 | 겪는 | 힘든 | 일과 | 편견 | 을 | 막아내고 | 자신 | 들 | 의 | 음악 | 적 | 가치 | 를 | 당당히 | 지켜내겠다는 | 의미 | 를 | 담고 | 있다 | . | 방탄소년단 | 을 | 지칭 | 하는 | ' | BTS | ' | 는 | 본래 | 이름 | 인 | ' | BangTan | Sonyeundan | ' | 혹은 | ' | Bulletproof | Boys | ' | 의 | 준말 | 이다 | .[ | 3 | ] | 2017년 | 빅히트 | 뮤직 | 은 | 방탄소년단 | 의 | 공식 | 로고 | 를 | 교체 | 하면서 | 과거 | 와 | 미래 | 를 | 아우르는 | 개념 | 으로 | 의미 | 를 | 확장 | 시키고 | , | ' | Beyond | The | Scene | ' | 의 | 준말 | 로 | 의미 | 를 | 추가 | 했다 | . | 이는 | 매 | 순간 | 마다 | 청춘 | 의 | 장면 | 들 | 을 | 뛰어넘는다는 | 의미 | 를 | 가지 | 고 | 있다 | .[ | 4 | ][ | 5 | ][ | 6 | ]
TF-IDF용 (공백

In [32]:
# 3. TF-IDF 벡터 생성
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(r)

print('\n=== TF-IDF 벡터화 결과 ===')
print('type of tfidf_matrix {}'.format(type(tfidf_matrix)))
print('shape of tfidf_matrix {}'.format(tfidf_matrix.shape))


=== TF-IDF 벡터화 결과 ===
type of tfidf_matrix <class 'scipy.sparse._csr.csr_matrix'>
shape of tfidf_matrix (46, 1817)


In [33]:
vocab = sorted(tfidf.vocabulary_.items())
vocab[1000:1050]

[('방송국', 1000),
 ('방송대상', 1001),
 ('방시혁', 1002),
 ('방식', 1003),
 ('방영', 1004),
 ('방지', 1005),
 ('방콕', 1006),
 ('방탄', 1007),
 ('방탄복', 1008),
 ('방탄소년단', 1009),
 ('배경음악', 1010),
 ('배정', 1011),
 ('밸리', 1012),
 ('버드', 1013),
 ('버블', 1014),
 ('버전', 1015),
 ('번의', 1016),
 ('번째', 1017),
 ('범위', 1018),
 ('벗어난', 1019),
 ('베스트', 1020),
 ('베이징', 1021),
 ('베트남', 1022),
 ('벨기에', 1023),
 ('별로', 1024),
 ('병원', 1025),
 ('보내며', 1026),
 ('보도', 1027),
 ('보여', 1028),
 ('보여주고', 1029),
 ('보여주는', 1030),
 ('보여주었다', 1031),
 ('보이', 1032),
 ('보이밴드', 1033),
 ('보컬', 1034),
 ('본격', 1035),
 ('본래', 1036),
 ('본부', 1037),
 ('본상', 1038),
 ('본인', 1039),
 ('봄날', 1040),
 ('부른', 1041),
 ('부문', 1042),
 ('부작', 1043),
 ('부제', 1044),
 ('부족한', 1045),
 ('부터', 1046),
 ('부터는', 1047),
 ('북경', 1048),
 ('분야', 1049)]

In [34]:
import pandas as pd

df = pd.DataFrame(tfidf_matrix.toarray(), columns=tfidf.get_feature_names_out())
print(df.head(5))


   000      000만   0시        10       100  1000만  100만  101  102  1029만  ...  \
0  0.0  0.000000  0.0  0.067886  0.000000    0.0   0.0  0.0  0.0    0.0  ...   
1  0.0  0.000000  0.0  0.000000  0.220165    0.0   0.0  0.0  0.0    0.0  ...   
2  0.0  0.106051  0.0  0.066862  0.000000    0.0   0.0  0.0  0.0    0.0  ...   
3  0.0  0.000000  0.0  0.060878  0.000000    0.0   0.0  0.0  0.0    0.0  ...   
4  0.0  0.000000  0.0  0.000000  0.000000    0.0   0.0  0.0  0.0    0.0  ...   

   후속곡        훈장  휘파람  휩쓸었고     휩쓸었으며   휴가   휴식        힘든        힙합        힛잇  
0  0.0  0.000000  0.0   0.0  0.000000  0.0  0.0  0.238623  0.000000  0.000000  
1  0.0  0.000000  0.0   0.0  0.057498  0.0  0.0  0.000000  0.000000  0.000000  
2  0.0  0.117512  0.0   0.0  0.000000  0.0  0.0  0.000000  0.000000  0.000000  
3  0.0  0.000000  0.0   0.0  0.000000  0.0  0.0  0.000000  0.000000  0.000000  
4  0.0  0.000000  0.0   0.0  0.000000  0.0  0.0  0.000000  0.216364  0.098028  

[5 rows x 1817 columns]


In [35]:
tfidf_table = tfidf_matrix.toarray()

keywords = []
for weight in tfidf_table:
    w_vec = list(enumerate(weight))
    w_vec = sorted(w_vec, key=lambda x : x[1], reverse=True)
    print(w_vec[:3])
    keywords.append(w_vec)


[(1391, 0.430696553380354), (648, 0.2386230708752513), (1534, 0.2386230708752513)]
[(992, 0.3735681880260472), (1062, 0.36699564667152373), (725, 0.3598663737687989)]
[(1258, 0.44320057021926296), (967, 0.37710167568041086), (819, 0.2880638518165585)]
[(1391, 0.2896766458314016), (1626, 0.21398988915857484), (1798, 0.1893518706599571)]
[(1002, 0.29408518933253147), (1815, 0.21636434011822728), (993, 0.19605679288835431)]
[(166, 1.0), (0, 0.0), (1, 0.0)]
[(166, 0.9144367098438163), (1009, 0.4047289261839538), (0, 0.0)]
[(827, 0.35996184274415655), (166, 0.2469370005314146), (1248, 0.17295486512464578)]
[(168, 1.0), (0, 0.0), (1, 0.0)]
[(1542, 0.6524116372072586), (168, 0.4557994032632066), (682, 0.4163573919575669)]
[(168, 0.22710882947689656), (992, 0.2166177171473032), (1208, 0.2157864034565383)]
[(170, 1.0), (0, 0.0), (1, 0.0)]
[(1280, 0.4763283169698138), (1439, 0.4763283169698138), (1747, 0.3969043101189451)]
[(682, 0.26548759613259637), (1382, 0.19612185236911844), (1276, 0.188750

In [36]:
import numpy as np
def tfidf_rank(tfidf_matrix):
    rank = []
    avg, stddev = 0.0, 0.0
    for idx, tfidf in enumerate(tfidf_matrix):
        rank.append((idx, tfidf.sum()))

    rank.sort(key=lambda x : x[1], reverse=True)

    tfidf_sum = [tfidf.sum() for tfidf in tfidf_matrix]
    avg = np.mean(tfidf_sum)
    stddev = np.std(tfidf_sum)
    return rank, avg, stddev

rank, avg, stddev = tfidf_rank(tfidf_matrix)

print(rank[:2])
print('avg = {}, stddev = {}'.format(avg, stddev))

rank_doc = [lines[doc_id[0]] for doc_id in rank[:5]]

for i, doc in enumerate(rank_doc, 1):
    print(f"[Top {i}] {doc}")


[(25, 15.222731341045211), (22, 15.014881675236833)]
avg = 6.041735003060479, stddev = 4.879044481820437
[Top 1] 2017년 11월 13일 방탄소년단의 트위터 코리아 공식 계정은 2017년 11월 13일, 방탄소년단 그룹 공식 트위터(@BTS_twt) 팔로워 수가 대한민국 최초로 1000만을 기록했다고 발표했다.[166] 또 방탄소년단은 지난 9월에는 기네스 월드 레코드에서 발표한 '기네스 세계기록 2018'에 따르면, 방탄소년단은 '트위터 최다 활동' 남성 그룹 부문에서 리트윗 수 15만 2,112회를 기록해 기네스북에 오르며 막강한 영향력을 자랑했다.[2] 11월 19일 미국 캘리포니아주 로스앤젤레스 마이크로 소프트 공연장에서 열린 미국 3대 음악 시상식으로 꼽히는 아메리칸 뮤직 어워드에서 "DNA" 무대를 선보인 방탄소년단은 미국 유력 매체들의 극찬을 받으며 성공적인 미국 데뷔 무대를 가졌다. K-pop 그룹 최초이자 2017년 올해 아시아 뮤지션으로서는 유일하게 '퍼포머'로 초청받은 방탄소년단은 엔딩 직전 무대를 배정받는 대우를 받았고, 포브스, 빌보드, 할리우드 리포터, 팝크러시 등 여러 언론의 주목을 받았다.[167][168] 방탄소년단 멤버들은 레드카펫 인터뷰에서 미국 TV에 데뷔하는 것이 믿기지 않는다고 말하며 “'아미(팬클럽명)' 덕분에 이 자리에 설 수 있게 됐다”고 감사 인사를 했다.[169] 또 'AMA's' 무대에 오른 이후, 미국 CBS 심야 토크쇼 《더 레이트 레이트 쇼 위드 제임스 코든》, NBC 토크쇼 《엘런 디제너러스 쇼》, ABC 토크쇼 《지미 키멜 라이브》에 연이어 출연했고,[170][171][172] ABC 신년맞이 쇼 《딕 클라크스 뉴 이어스 로킹 이브》 녹화를 마치며 미국 지상파 간판 토크쇼까지 섭렵했다. 11월 24일 방탄소년단은 세계적인 DJ 스티브 아오키와 래퍼 디자이너가 참여한 "MIC Drop"의 리믹스 버전을 발매한다고 발