## 뉴스 주요 키워드 추출 및 텍스트 클러스터링
---
* 전체 크롤링한 뉴스 주요 키워드 추출(TF-IDF)
* 키워드별 텍스트 클러스터링, 넘버링
* 클러스터링 된 키워드별 문서 건수 확인


### 뉴스 토픽 선정
* 토큰화된 명사 리스트로만 나오는데
* 아예 주요 토픽을 만들 수 있을지

In [131]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [132]:
import pandas as pd
import numpy as np

In [133]:
df = pd.read_excel("/content/drive/MyDrive/Colab Notebooks/20220825_all_soc.xlsx") # , encoding = "CP949"
df.head()

Unnamed: 0,분야,타이틀,발행일자,링크,본문
0,pol,우린 우거지예요!(우리의 거대한 지구사랑),2022-08-26,https://news.nate.com/view/20220825n41233?mid=...,환경과 무관한 사람이 있을까요. 요즘 어딜 가나 제로웨이스트나 친환경 관련 이야기가...
1,pol,[청년 픽!] 대학생도 국민내일배움카드!,2022-08-26,https://news.nate.com/view/20220825n41232?mid=...,국민내일배움카드는 급격한 기술 발전 및 노동시장 변화에 대응하는 사회안전망 차원에서...
2,pol,[청년 픽!] 청년전세임대주택 살아 보니~,2022-08-26,https://news.nate.com/view/20220825n41231?mid=...,‘주거’는 인간이 생활하는데 기본적으로 갖춰져야 할 의·식·주 중 하나를 이루고 있...
3,pol,이런 게 바로 혁신제품이지~,2022-08-26,https://news.nate.com/view/20220825n41230?mid=...,"혁신제품 권역별 순회 전시회 참관기8월 24일, 부산 벡스코 1층 4F홀에서 혁신제..."
4,pol,"윤석열 대통령실 커피, 국민의힘 국회의원 연찬회 등장",2022-08-25,https://news.nate.com/view/20220825n29314?mid=...,ⓒ데일리안 홍금표 기자25일 오후 충남 천안 재능교육연수원에서 열린 국민의힘 202...


In [134]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9766 entries, 0 to 9765
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   분야      9766 non-null   object
 1   타이틀     9766 non-null   object
 2   발행일자    9766 non-null   object
 3   링크      9766 non-null   object
 4   본문      9765 non-null   object
dtypes: object(5)
memory usage: 381.6+ KB


In [135]:
df.shape

(9766, 5)

In [136]:
df['분야'].unique()

array(['pol', 'eco', 'soc'], dtype=object)

### 뉴스마다 토픽 선정

#### 찾아보기
* [데이콘 뉴스토픽 분류 - 3등](https://dacon.io/competitions/official/235747/codeshare/3054?page=1&dtype=recent)
* [textrank - 블로그](https://www.dinolabs.ai/288)

In [137]:
# !pip install konlpy

In [138]:
# !pip install tqdm

In [139]:
import konlpy
from tqdm import tqdm

In [140]:
df.isnull().sum(axis = 0)

분야      0
타이틀     0
발행일자    0
링크      0
본문      1
dtype: int64

In [141]:
df[df['본문'].isnull()]

Unnamed: 0,분야,타이틀,발행일자,링크,본문
6272,eco,"[속보]""기준금리 0.25%p 인상 결정은 금통위원 '만장일치'""",2022-08-25,https://news.nate.com/view/20220825n12925?mid=...,


* 본문 내용 없는 경우 -> 속보/이미지만 있는 기사
  * 토큰화는 타이틀 포함할 것이므로 일단 삭제하지 않는다.
  * 오히려 속보면 중요한 뉴스일 수 있기 때문

### 중복 제거
* 중복이 많으면 중요한 기사일 수도 있지만 뉴스 제목이 똑같으면 복사한 기사라고 생각

In [142]:
df.shape

(9766, 5)

In [143]:
doc = df.drop_duplicates(['타이틀'], keep = 'first')
doc.shape
# 제목 같은 기사 약 800개

(8928, 5)

In [144]:
df[df['본문'].isnull()]

Unnamed: 0,분야,타이틀,발행일자,링크,본문
6272,eco,"[속보]""기준금리 0.25%p 인상 결정은 금통위원 '만장일치'""",2022-08-25,https://news.nate.com/view/20220825n12925?mid=...,


In [145]:
doc = df.copy()
# doc['text50'] = []

In [146]:
doc['text50'] = np.nan
doc['text15'] = np.nan

In [147]:
doc.head(1)

Unnamed: 0,분야,타이틀,발행일자,링크,본문,text50,text15
0,pol,우린 우거지예요!(우리의 거대한 지구사랑),2022-08-26,https://news.nate.com/view/20220825n41233?mid=...,환경과 무관한 사람이 있을까요. 요즘 어딜 가나 제로웨이스트나 친환경 관련 이야기가...,,


In [148]:
for index, row in doc.iterrows():
  if len(str(doc['본문'][index])) >= 50:
    doc['text50'][index] = str(doc['본문'][index])[:50]
  else:
    doc['text50'][index] = str(doc['본문'][index])

  if len(str(doc['본문'][index])) >= 15:
    doc['text15'][index] = str(doc['본문'][index])[:15]
  else:
    doc['text15'][index] = str(doc['본문'][index])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [149]:
doc.text15

0       환경과 무관한 사람이 있을까
1       국민내일배움카드는 급격한 기
2       ‘주거’는 인간이 생활하는데
3       혁신제품 권역별 순회 전시회
4       ⓒ데일리안 홍금표 기자25일
             ...       
9761    우크라이나 자포리자주 에네르
9762    [앵커]다음 달 7일부터 일
9763    최다 의석 획득한 정당 대표
9764    역외시장서 한때 1달러=6.
9765    조 바이든 미국 대통령은 우
Name: text15, Length: 9766, dtype: object

In [150]:
# df['text50'] = df['본문'] if len(df['본문']) <= 30 else df['본문'][:30]
#elseif(len(df['본문']) >= 50, df['본문'][:50], df['본문'])
doc.tail()

Unnamed: 0,분야,타이틀,발행일자,링크,본문,text50,text15
9761,soc,"IAEA ""자포리자 원전 포격 사실 보고 받아, 시찰단 파견 시급""",2022-08-25,https://news.nate.com/view/20220825n00357?mid=...,우크라이나 자포리자주 에네르호다르시에 위치한 자포리자 원자력발전소 입구를 러시아의 ...,우크라이나 자포리자주 에네르호다르시에 위치한 자포리자 원자력발전소 입구를 러시아의 ...,우크라이나 자포리자주 에네르
9762,soc,日 입국 시 음성증명서…다음 달 7일부터 사라진다,2022-08-25,https://news.nate.com/view/20220825n00290?mid=...,[앵커]다음 달 7일부터 일본에 입국할 때 음성증명서를 제출하지 않아도 됩니다.코로...,[앵커]다음 달 7일부터 일본에 입국할 때 음성증명서를 제출하지 않아도 됩니다.코로...,[앵커]다음 달 7일부터 일
9763,soc,앙골라 총선 실시…'47년 일당통치 연장이냐 종식이냐',2022-08-25,https://news.nate.com/view/20220825n00281?mid=...,최다 의석 획득한 정당 대표가 대통령…로렌수 현 대통령 재선 노려앙골라 총선(루안다...,최다 의석 획득한 정당 대표가 대통령…로렌수 현 대통령 재선 노려앙골라 총선(루안다...,최다 의석 획득한 정당 대표
9764,soc,"로이터 ""중국 당국, 일부 은행 공세적 위안화 매도에 경고""",2022-08-25,https://news.nate.com/view/20220825n00272?mid=...,역외시장서 한때 1달러=6.8704위안…최근 2년 최저치 기록위안화 100위안 지폐...,역외시장서 한때 1달러=6.8704위안…최근 2년 최저치 기록위안화 100위안 지폐...,역외시장서 한때 1달러=6.
9765,soc,"바이든, 우크라 독립기념일 맞아 4조 원 추가 군사지원 발표",2022-08-25,https://news.nate.com/view/20220825n00265?mid=...,조 바이든 미국 대통령은 우크라이나 독립기념일을 맞아 4조 원 규모의 추가 군사지원...,조 바이든 미국 대통령은 우크라이나 독립기념일을 맞아 4조 원 규모의 추가 군사지원...,조 바이든 미국 대통령은 우


In [151]:
doc.to_excel("temp_doc.xlsx")

* 50글자만 잘라서 중복 제거

In [152]:
doc.duplicated(['text15'])

0       False
1       False
2       False
3       False
4       False
        ...  
9761    False
9762    False
9763    False
9764    False
9765    False
Length: 9766, dtype: bool

In [153]:
# 앞 50글자 중복되는 행
# 8049행 남는다

# 앞 15글자 중복되는 행
# 6452행 남는다

doc[(doc.duplicated(['text15']) ==True)].shape

(3314, 7)

In [154]:
doc.drop_duplicates(subset = 'text15', keep = 'first').shape

(6452, 7)

In [155]:
doc = doc.drop_duplicates(subset = 'text15', keep = 'first')
doc.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6452 entries, 0 to 9765
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   분야      6452 non-null   object
 1   타이틀     6452 non-null   object
 2   발행일자    6452 non-null   object
 3   링크      6452 non-null   object
 4   본문      6451 non-null   object
 5   text50  6452 non-null   object
 6   text15  6452 non-null   object
dtypes: object(7)
memory usage: 403.2+ KB


* 문제
  * 속보인 경우, 기자 메일만 남아서 중복으로 처리됨
  

In [156]:
# doc[(doc['타이틀'].str.contains('[속보]'))]

# 1639 rows

* ~[속보]이면 남겨두고, 그 외에는 본문 50글자 같으면 중복으로 제거~

In [157]:
# doc = pd.DataFrame(doc)

In [158]:
# doc[doc['타이틀'].str.contains('[속보]')]

### 형태소 분석기
* ~뉴스 제목으로 분석~
* 뉴스 원문으로 분석

In [159]:
doc.shape

(6452, 7)

In [160]:
## 중복 제거한 데이터프레임 doc => df로 카피
df = doc.copy()

In [163]:
from konlpy.tag import Okt

okt = Okt() # 형태소 분석기 객체 생성
noun_list = []
for content in tqdm(df['text50']): 
    nouns = okt.nouns(content) # 명사만 추출하기, 결과값은 명사 리스트
    noun_list.append(nouns)

100%|██████████| 6452/6452 [00:21<00:00, 303.24it/s]


In [164]:
df['nouns1'] = noun_list
df.head(3)

Unnamed: 0,분야,타이틀,발행일자,링크,본문,text50,text15,nouns1
0,pol,우린 우거지예요!(우리의 거대한 지구사랑),2022-08-26,https://news.nate.com/view/20220825n41233?mid=...,환경과 무관한 사람이 있을까요. 요즘 어딜 가나 제로웨이스트나 친환경 관련 이야기가...,환경과 무관한 사람이 있을까요. 요즘 어딜 가나 제로웨이스트나 친환경 관련 이야기가...,환경과 무관한 사람이 있을까,"[환경, 무관, 사람, 요즘, 가나, 제로, 웨, 이스트, 친환경, 관련, 이야기,..."
1,pol,[청년 픽!] 대학생도 국민내일배움카드!,2022-08-26,https://news.nate.com/view/20220825n41232?mid=...,국민내일배움카드는 급격한 기술 발전 및 노동시장 변화에 대응하는 사회안전망 차원에서...,국민내일배움카드는 급격한 기술 발전 및 노동시장 변화에 대응하는 사회안전망 차원에서...,국민내일배움카드는 급격한 기,"[국민, 배움, 카드, 기술, 발전, 및, 노동시장, 변화, 대응, 회안, 전망, ..."
2,pol,[청년 픽!] 청년전세임대주택 살아 보니~,2022-08-26,https://news.nate.com/view/20220825n41231?mid=...,‘주거’는 인간이 생활하는데 기본적으로 갖춰져야 할 의·식·주 중 하나를 이루고 있...,‘주거’는 인간이 생활하는데 기본적으로 갖춰져야 할 의·식·주 중 하나를 이루고 있...,‘주거’는 인간이 생활하는데,"[주거, 인간, 생활, 기본, 의, 식, 주, 중, 하나, 만큼]"


In [165]:
df[df['본문'].isnull()]

Unnamed: 0,분야,타이틀,발행일자,링크,본문,text50,text15,nouns1
6272,eco,"[속보]""기준금리 0.25%p 인상 결정은 금통위원 '만장일치'""",2022-08-25,https://news.nate.com/view/20220825n12925?mid=...,,,,[]


In [166]:
# 명사리스트 비어있는 경우 삭제

drop_index_list = [] # 지워버릴 index를 담는 리스트
for i, row in df.iterrows():
    temp_nouns = row['nouns1']
    if len(temp_nouns) == 0: # 만약 명사리스트가 비어 있다면
        drop_index_list.append(i) # 지울 index 추가
        
df = df.drop(drop_index_list) # 해당 index를 지우기

# index를 지우면 순회시 index 값이 중간중간 비기 때문에 index를 다시 지정
df.index = range(len(df))

In [167]:
df.shape

(6436, 8)

## TF-IDF
* 뉴스별 키워드 점수
* 파라미터
  * min_df = 최소 빈도값(특정 단어 나타나는 "문서"의 수)
  * min_df보다 작은 DF를 가진 단어들은 제외, 인덱스 부여하지 않음

In [168]:
from sklearn.feature_extraction.text import TfidfVectorizer

# 문서를 명사 집합으로 보고 문서 리스트로 치환 (tfidfVectorizer 인풋 형태를 맞추기 위해)
text = [" ".join(noun) for noun in df['nouns1']]

tfidf_vectorizer = TfidfVectorizer(min_df = 5, ngram_range=(1,2))
tfidf_vectorizer.fit(text)
vector = tfidf_vectorizer.transform(text).toarray()

In [169]:
text[:10]

['환경 무관 사람 요즘 가나 제로 웨 이스트 친환경 관련 이야기 화두',
 '국민 배움 카드 기술 발전 및 노동시장 변화 대응 회안 전망 차원 국민',
 '주거 인간 생활 기본 의 식 주 중 하나 만큼',
 '혁신 제품 권역별 순회 전시회 참관 기 부산 벡스코 층 홀 혁신 제품 권역',
 '데일리안 홍 금표 기자 오후 충남 천안 재능교육 수원 국민 힘 국회',
 '국민 힘 국회의원 찬회 특강 초청 이지성 작가 배우자 차유람 씨 입',
 '호주 상공 연합 공중급유 훈련 실시 서울 연합뉴스 현지 시간 호주 상공',
 '방송 또 신군부 언급 연일 비판 국민 힘 이준석 전 대표 윤석열 정부',
 '최상 목 경제 수석 매우 진행 뉘앙스 윤석열 대통령 맨 오른쪽 이',
 '김건희 나경원 배현진 당 여성 이미지 부족 입 차유람 남편 강연 논란 여']

### TF-IDF 결과로 DBSCAN 클러스터링
* [DBSCAN 참고](https://pizzathief.oopy.io/dbscan)

![dbscan para](https://s3.us-west-2.amazonaws.com/secure.notion-static.com/bc797cb7-0491-48bf-9963-40ce4c14b2f5/Untitled.png?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=AKIAT73L2G45EIPT3X45%2F20220828%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20220828T081916Z&X-Amz-Expires=86400&X-Amz-Signature=ea6ad5c7b0cd723bddf4b1435880b6f1e93bde0adb2951188d1a0222a34d5681&X-Amz-SignedHeaders=host&response-content-disposition=filename%20%3D%22Untitled.png%22&x-id=GetObject)


In [170]:
from sklearn.cluster import DBSCAN
import numpy as np

vector = np.array(vector) # Normalizer를 이용해 변환된 벡터
model = DBSCAN(eps=0.6,min_samples=5, metric = "cosine")
# 거리 계산 식으로는 Cosine distance를 이용
result = model.fit_predict(vector)
df['result1'] = result

In [171]:
df.result1.unique()

array([-1,  0, 12, 74,  1, 14,  7,  2,  3, 60,  4,  5, 11,  6,  8,  9, 10,
       13, 15, 16, 56, 17, 18, 19, 75, 20, 38, 21, 47, 22, 33, 23, 24, 27,
       71, 25, 26, 28, 30, 29, 31, 32, 43, 34, 35, 36, 37, 39, 42, 45, 57,
       40, 41, 53, 44, 46, 63, 52, 48, 49, 65, 50, 51, 68, 54, 55, 58, 59,
       61, 62, 64, 69, 72, 66, 67, 70, 73])

In [172]:
df.head()

Unnamed: 0,분야,타이틀,발행일자,링크,본문,text50,text15,nouns1,result1
0,pol,우린 우거지예요!(우리의 거대한 지구사랑),2022-08-26,https://news.nate.com/view/20220825n41233?mid=...,환경과 무관한 사람이 있을까요. 요즘 어딜 가나 제로웨이스트나 친환경 관련 이야기가...,환경과 무관한 사람이 있을까요. 요즘 어딜 가나 제로웨이스트나 친환경 관련 이야기가...,환경과 무관한 사람이 있을까,"[환경, 무관, 사람, 요즘, 가나, 제로, 웨, 이스트, 친환경, 관련, 이야기,...",-1
1,pol,[청년 픽!] 대학생도 국민내일배움카드!,2022-08-26,https://news.nate.com/view/20220825n41232?mid=...,국민내일배움카드는 급격한 기술 발전 및 노동시장 변화에 대응하는 사회안전망 차원에서...,국민내일배움카드는 급격한 기술 발전 및 노동시장 변화에 대응하는 사회안전망 차원에서...,국민내일배움카드는 급격한 기,"[국민, 배움, 카드, 기술, 발전, 및, 노동시장, 변화, 대응, 회안, 전망, ...",-1
2,pol,[청년 픽!] 청년전세임대주택 살아 보니~,2022-08-26,https://news.nate.com/view/20220825n41231?mid=...,‘주거’는 인간이 생활하는데 기본적으로 갖춰져야 할 의·식·주 중 하나를 이루고 있...,‘주거’는 인간이 생활하는데 기본적으로 갖춰져야 할 의·식·주 중 하나를 이루고 있...,‘주거’는 인간이 생활하는데,"[주거, 인간, 생활, 기본, 의, 식, 주, 중, 하나, 만큼]",-1
3,pol,이런 게 바로 혁신제품이지~,2022-08-26,https://news.nate.com/view/20220825n41230?mid=...,"혁신제품 권역별 순회 전시회 참관기8월 24일, 부산 벡스코 1층 4F홀에서 혁신제...","혁신제품 권역별 순회 전시회 참관기8월 24일, 부산 벡스코 1층 4F홀에서 혁신제...",혁신제품 권역별 순회 전시회,"[혁신, 제품, 권역별, 순회, 전시회, 참관, 기, 부산, 벡스코, 층, 홀, 혁...",-1
4,pol,"윤석열 대통령실 커피, 국민의힘 국회의원 연찬회 등장",2022-08-25,https://news.nate.com/view/20220825n29314?mid=...,ⓒ데일리안 홍금표 기자25일 오후 충남 천안 재능교육연수원에서 열린 국민의힘 202...,ⓒ데일리안 홍금표 기자25일 오후 충남 천안 재능교육연수원에서 열린 국민의힘 202...,ⓒ데일리안 홍금표 기자25일,"[데일리안, 홍, 금표, 기자, 오후, 충남, 천안, 재능교육, 수원, 국민, 힘,...",0


* 클러스터링 결과 확인

In [173]:
cluster_idx = {}
cluster_nums = {}
for cluster_num in set(result):
    # -1,0은 노이즈 판별이 났거나 클러스터링이 안된 경우
    if(cluster_num == -1 or cluster_num == 0): 
        continue
    else:
        print("cluster num : {}".format(cluster_num))
       

        temp_df = df[df['result1'] == cluster_num] # cluster num 별로 조회
        num = len(df.index[df['result1'] == cluster_num].to_list())
        for title in temp_df['타이틀']:
            print(title) # 제목으로 살펴보자
        
        # print(df.index[df['result'] == cluster_num].to_list())
        # tmp = [num, df.index[df['result'] == cluster_num].to_list()]
        # tmp = [num] + df.index[df['result'] == cluster_num].to_list()
        
        cluster_idx[cluster_num] = df.index[df['result1'] == cluster_num].to_list()
        # cluster_nums.append(num)
        cluster_nums[cluster_num] = num

        print("docs_num : {}".format(num))

        print()


print(cluster_idx)

cluster num : 1
美 크리튼브링크 차관보 방한…"한국과 긴밀히 협의"
크리튼브링크 美동아태차관보 방한…한미관계 현안 논의(종합)
크리튼브링크 미 동아태차관보 방한
크리튼브링크 美동아태차관보 방한
美동아태차관보 방한…인플레감축법 논의될듯
美 동아태 차관보 오늘 방한…한미동맹 강화 등 논의
docs_num : 6

cluster num : 2
밀양경찰서 지하사격장 리모델링 공사 중 불…4명 연기 흡입
진주시, 초소형위성 인증모델 공개…내년 상반기 발사 예정
홍태용 김해시장 "비대면 의생명·의료기기산업 육성 협업 강화"
경남교육청, 메타버스 플랫폼 '열린 교육감실' 구축·행사 진행
진주시 11월에 진주국제농식품박람회 개최…농업 경쟁력 강화
바르게살기 거창군여성봉사회, 전통시장 장보기행사 참여
KTL 중국시험소, 전자기파 국제 공인시험기관 지정
박완수 경남도지사 "기업 투자 유치 선점…자문위원회 출범"
함안 우거리 토기가마군, 경남도 문화재 지정 예고
홍남표 창원시장 "추석 물가 안정 총력 다하겠다"
컴투스, 현실 도시 옮긴 메타버스 선보인다
[2022 뉴시스 한류엑스포]최용호대표 "故김성재·송해 아바타로 재탄생"
[기업] "메타버스는 차세대 인터넷"…메타, 교육 전략 소개
VR로 진로찾고 학습효과 키운다
실제 생활 담아낸 '메타버스' 나온다…컴투버스 2024년 상용화
김해시·FITI시험연구원, 업무협약 체결
'컴투스式 메타버스' 베일 벗었다…"2024년 1분기 상용화"(영상)
컴투버스 "축구장 3200개 크기의 '아일랜드'…땅도 사고판다"(종합)
김해에 의생명·의료기기 시험인증 지역사무소 생긴다
이경일 컴투버스 대표 "KT와 메타버스 사업 논의 중…내년엔 해외 기업 투자 유치도"
성현회계법인, 메타버스 홍보관 열고 신입회계사 채용 나선다
가상공간 분양하고 유저에 시민권…컴투버스 2024년부터 상용화
건축가 유현준 교수도 영입…컴투스 "메타버스 시대 선도하겠다"
김진아 페이스북코리아 대표 "메타버스, 차세대 인터넷…생태계 위한 협업할 것"
"모든 인터넷콘텐

In [174]:
cluster_nums

{1: 6,
 2: 31,
 3: 22,
 4: 7,
 5: 21,
 6: 11,
 7: 63,
 8: 6,
 9: 4,
 10: 4,
 11: 15,
 12: 12,
 13: 7,
 14: 7,
 15: 7,
 16: 7,
 17: 5,
 18: 9,
 19: 5,
 20: 9,
 21: 6,
 22: 11,
 23: 16,
 24: 7,
 25: 6,
 26: 9,
 27: 6,
 28: 14,
 29: 5,
 30: 21,
 31: 9,
 32: 5,
 33: 5,
 34: 4,
 35: 6,
 36: 8,
 37: 7,
 38: 19,
 39: 8,
 40: 8,
 41: 16,
 42: 9,
 43: 11,
 44: 6,
 45: 22,
 46: 7,
 47: 15,
 48: 5,
 49: 7,
 50: 5,
 51: 6,
 52: 7,
 53: 9,
 54: 13,
 55: 6,
 56: 4,
 57: 9,
 58: 4,
 59: 4,
 60: 5,
 61: 5,
 62: 6,
 63: 7,
 64: 5,
 65: 5,
 66: 4,
 67: 5,
 68: 5,
 69: 5,
 70: 7,
 71: 5,
 72: 5,
 73: 8,
 74: 7,
 75: 8}

In [175]:
## 값으로 정렬해서 위의 5~10개만 가져오기

## 내림차순 정렬
# sorted(cluster_nums.items(), key = lambda x: x[1])
result_clus = sorted(cluster_nums.items(), key = lambda x:x[1], reverse = True)[:10]
result_clus

[(7, 63),
 (2, 31),
 (3, 22),
 (45, 22),
 (5, 21),
 (30, 21),
 (38, 19),
 (23, 16),
 (41, 16),
 (11, 15)]

In [176]:
for clus in result_clus:
  print(f"{clus[0]}---------------------------------------")
  temp_df = df[df['result1'] == clus[0]] # cluster num 별로 조회
  print(temp_df['본문'])

7---------------------------------------
227       [파이낸셜뉴스][파이낸셜뉴스 핫뉴스] → 간호사에 딱 걸린 사지마비 환자의 반전...
461     [인천=뉴스핌] 홍재경 기자 =인천도시공사(iH)는 검암 플라시아 복합환승센터 개발...
674     인천시청[인천시 제공](인천=연합뉴스) 신민재 기자 = 유정복 인천시장이 보수 성향...
1714    상업·주거 복합환승센터 인천도시공사와 사업 협약2024년 하반기 착공키로롯데건설이 ...
1852    인천도시공사와 관련 협약 체결총사업비 1조4900억원 달해검암 플라시아 복합환승센터...
                              ...                        
5010    유유제약 베노케어크림.[아시아경제 이관주 기자] 유유제약은 자극받은 피부를 진정시키...
5081    큐어반 폼 잘라 사진=대원제약 제공[데일리한국 최성수 기자]대원제약은 상처 관리를 ...
5217      [파이낸셜뉴스] 우체국보험이 800억원을 VC(벤처캐피탈)에 위탁, 투자한다. ...
5298    [파이낸셜뉴스]   모니터가 앞에 달린 펠로톤의 실내용 고정식 자전거가 2019년 ...
5571    정용진 부회장 - 유정복 시장 회동신세계그룹과 인천시가 스타필드 청라 및 야구 돔구...
Name: 본문, Length: 63, dtype: object
2---------------------------------------
272     [밀양=뉴스핌] 남경문 기자 = 25일 오후 3시44분께 경남 밀양경찰서 지하 사격...
371     [진주=뉴스핌] 남경문 기자 = 경남 진주시는 25일 한국산업기술시험원 우주부품시험...
425     [김해=뉴스핌] 남경문 기자 = 경남 김해시는 25일 시장실에서 FITI시험연구원과...
463     [창원=뉴스핌] 남경문 기자 = 경남도교육청은 25일 실감형 메타버스 플랫폼 '열린...
769     청년농업

* 본문 내용이 아예 같은 기사 여러 개 묶여서 클러스터링 결과에 영향 주는 것으로 보임

* [광주뉴스핌 누구누구 기자] 이런식으로 앞 몇글자 같은 기사들이 묶이는데, text15 정도로 클러스터링 해보기.
* 연예, 지역 특정 키워드로 묶인 결과에서 거르면 괜찮을 것으로 보임

* 앞의 15글자 똑같으면 제거, 클러스터링은 50글자로 해보기