In [4]:
import pandas as pd
from konlpy.tag import Mecab
from nltk.tokenize import sent_tokenize
import networkx as nx


# 문장단위로 나누어 토큰화
def sentences(text):
    return sent_tokenize(text)

# 자카드 유사도
def sentence_similarity(sentence1, sentence2):
    mecab = Mecab(dicpath=r"C:/mecab/mecab-ko-dic")

    # 문자에 태깅후 명사 동사추출
    sentence1 = [word for word in mecab.pos(sentence1) if word[1][0] in ['N', 'V']]
    sentence2 = [word for word in mecab.pos(sentence2) if word[1][0] in ['N', 'V']]
    
    # 자카드 유사도 공식
    union = set(sentence1).union(set(sentence2))
    intersection = set(sentence1).intersection(set(sentence2))
    return len(intersection)/len(union)

# nodes를 가지고 edges 리스트를 만드는 함수
def connect(nodes):
    return [(start,end ,sentence_similarity(start, end)) 
        for start in nodes for end in nodes if start is not end] # 같은 문장이 아닌경우 검사

# 노드와 엣지를 이용해 그래프를 그리고 가중치 지정
def rank(nodes,edges):
    graph=nx.diamond_graph()
    graph.clear() 
    graph.add_nodes_from(nodes)
    graph.add_weighted_edges_from(edges)

    return nx.pagerank(graph)

# 문서를 num_summaries 갯수만큼 요약
def summarize(text,num_summaries=3):
    nodes=sentences(text)
    edges=connect(nodes)
    scores=rank(nodes,edges)
    return sorted(scores.items(), key=lambda x: x[1], reverse=True)[:num_summaries]

# summary=summarize(doc, 3)

# for sent in summary :
#     print(sent)
df = pd.read_csv('./clean_IT_news1-1.csv').head(10)

# 데이터프레임값을 행단위로 추출
for index, row in df.iterrows():
    content = row['content']
    # summarize() 함수를 이용하여 요약문 생성
    summary = summarize(content, 3)
    for sent in summary:
        print(sent)
    print("\n----------\n")

# 문장단위가 아닌 기사단위로 자카드



("벤츠코리아 '더 뉴 EQS SUV' 실내.", 0.04401717774612361)
("벤츠코리아 '더 뉴 EQS SUV'.", 0.042768581470144666)
("벤츠코리아 '더 뉴 EQS SUV' 2열.", 0.039814423976621764)

----------

('안드로이드오토 버전은 구글 플레이스토어를 통해 배포되고 있으며, 업데이트를 거치면 바로 사용할 수 있다.', 0.025061753117709078)
('안드로이드 오토의 구글맵은 국내에서 지원하지 않아 사용할 수 없다.', 0.024276087647561125)
('안드로이드 오토 버전의 가장 큰 변경점은 메인 화면이다.', 0.023665626237512172)

----------

('복합 위치인증을 활용한 출결관리 서비스 아임히어.', 0.023214453083997496)
('복합 위치인증을 활용한 기업 근태관리 서비스 아임히어워크.', 0.02245218621573181)
('출결관리 서비스 아임히어·아임히어워크.', 0.019733759571634767)

----------

('엔엑스플러스 동양 무협 방치 RPG 요도봉인기 양대 마켓 출시.', 0.23001756982270932)
("엔엑스플러스는 로우핸드가 개발한 동양 무협 방치 RPG '요도봉인기'를 구글 플레이와 애플 앱스토어에 출시했다고 1일 밝혔다.", 0.22190204156402377)
('아울러 여러 가지 성장 재화를 획득할 수 있는 토벌과 실력의 한계에 도전하는 무봉탑, 속성별 우두머리와 맞서는 오행전 등 다양한 전투 콘텐츠로 끊임없는 즐길 거리를 제공한다.', 0.17057915052833006)

----------

('대동은 모빌리티 등 미래 사업을 위한 기술을 연구하고 로봇 사업으로 진출하고자 서울 서초구 대동모빌리티 사무소에 로보틱스센터를 열었다.', 0.09724162177368512)
("농기계 기업 대동은 한국로봇융합연구원과와 손잡고 로봇 사업 진출을 위한 핵심 기술 연구와 상품

In [3]:
import pandas as pd

df = pd.read_csv('./clean_IT_news1-1.csv').head(10)
for index, row in df.iterrows():
    content = row['content']
    print(content)

 한국 진출 20주년을 맞이하는 메르세데스-벤츠코리아가 '럭셔리와 전동화, 지속 가능성'을 미래 비전으로 제시했다. 이 비전을 달성하기 위해 올해 2개 신차와 2개 완전 변경 모델, 8개 부분 변경 모델 등 12종의 신차를 내놓겠다고 밝혔다. 벤츠코리아는 올해 신차 출시 행렬의 선봉장이자, 벤츠 전기차 전용 플랫폼을 적용해 만든 첫 대형 전기 SUV, '더 뉴 EQS'의 출시를 발표했다. 벤츠코리아는 1일 서울 용산구 한남동 그랜드 하얏트 서울 호텔에서 전기 SUV '더 뉴 EQS SUV' 출시 행사를 진행했다. 벤츠 전기차 전용 플랫폼 'EVA2' 적용한 첫 전기차 '더 뉴 EQS SUV' 벤츠코리아는 1일 서울 용산구 한남동 그랜드 하얏트 서울 호텔에서 전기 SUV '더 뉴 EQS SUV' 출시 행사를 진행했다. 이날 공개한 더 뉴 EQS SUV는 벤츠가 개발한 전기차 전용 플랫폼 'EVA2'를 기반으로 만든 첫 번째 전기 SUV다. 이 차는 최대 7명이 탑승하도록 설계됐으며, 스탠더드 모델인 '더 뉴 EQS 450 4MATIC'과 상위 모델인 '더 뉴 EQS 580 4MATIC' 트림으로 구분된다. 배터리 용량은 두 트림 모두 , 1회 충전 시 주행가능 거리는 최대 459km, 최대 447km다. 벤츠코리아 '더 뉴 EQS SUV'. 더 뉴 EQS SUV에 탑재한 배터리는 최대 200kW까지 급속 충전이 가능하며, 이 경우 잔여용량 10%에서 80%까지 약 31분에 충전할 수 있다. 더 뉴 EQS 450 4MATIC의 모터 최고출력은 265kW, 최대토크는 800Nm이며, 더 뉴 EQS 580 4MATIC의 모터 최고출력은 400kW, 최대토크 858Nm이다. 더 뉴 EQS SUV 주요 제원. 출처=벤츠코리아 정지상태에서 시속 100km까지 도달하는 시간은 더 뉴 EQS 450 4MATIC의 경우 6초, 더 뉴 EQS 580 4MATIC은 더 뉴 EQS 450 4MATIC의 공차중량은 2,805kg, 더 뉴 EQS 580 4MATIC의 공차중량은 2,81