In [1]:
import pandas as pd
from konlpy.tag import Okt
from sklearn.feature_extraction.text import TfidfVectorizer

In [2]:
# KoNLPy의 Okt 형태소 분석기 사용
okt = Okt()

In [3]:
def tokenize(text):
    # 형태소 분석을 통해 명사만 추출
    return [word for word in okt.nouns(text) if len(word) > 1]

In [4]:
def extract_keywords_from_documents(documents, top_n=5):
    # TF-IDF 벡터화기 생성
    vectorizer = TfidfVectorizer(tokenizer=tokenize, min_df=1)
    X = vectorizer.fit_transform(documents)
    
    # 단어와 TF-IDF 점수 매핑
    words = vectorizer.get_feature_names_out()
    tfidf_scores = X.toarray()
    
    # 각 문서별 키워드 추출
    keywords_per_document = []
    for i, doc_scores in enumerate(tfidf_scores):
        tfidf_df = pd.DataFrame({'Word': words, 'TF-IDF Score': doc_scores})
        top_keywords = tfidf_df.sort_values(by='TF-IDF Score', ascending=False).head(top_n)
        keywords_per_document.append({
            'Document': i,
            'Keywords': ', '.join(top_keywords['Word'])
        })
    
    return pd.DataFrame(keywords_per_document)

In [8]:
# 예시 문장
documents = [
    '이낙연 측근이 말하는 ‘치밀한’ 사면론 카드 “결국 문재인 대통령이 어떤 판단을 하느냐에 달렸다. 대통령이 사면을 결정하면 지지층의 반발도 어느 정도 잦아들 가능성이 있다.” 이낙연 더불어민주당 대표가 새해 첫 메시지로 던진 이명박·박근혜 두 전직 대통령 사면 관련 논란에 대한 이 대표 측 한 인사의 말이다. 정치권에선 이 대표 사면론에 대해 비판 일색이었다. 여권 내부에선 ‘사과도 없는 범죄자들을 어떻게 사면하느냐’, ‘특히 박근혜씨는 형사범죄뿐 아니라 국민들의 판단(탄핵)도 있었다’ 등의 의견이 있고, 야권에서도 ‘이낙연 지지율 반등 카드’라는 지적과 함께 김종인 국민의힘 비상대책위원장의 두 전직 대통령 범죄 관련 사과로 환영만 할수 없다는 분위기도 있다. 해당 관계자는 미디어오늘에 “당장은 비난이 많을 수밖에 없고 나도 원론적 입장만 따지면 사면 반대입장이지만 이 대표 입장에선 정치적으로 고려한 결정 아니겠느냐”고 했다. 여기서 ‘정치적 고려’란 문 대통령이 느끼는 정치적 부담과 이 대표 대권 행보를 뜻한다. 문 대통령 입장에선 자신의 임기 직전 두 전직 대통령이 모두 옥에 갇혔고, 박근혜씨의 경우 전직 대통령 중 최장기간(약 3년10개월) 수감 중인데 이는 법적인 문제를 떠나 문 대통령에게 정치적 부담으로 느껴진 게 사실이라고 전했다. 또한 호남 인사로 분류되는 이 대표가 향후 대권행보에서 영남권 지지를 얻을 돌파구이기도 하다는 게 해당 관계자의 설명이다. 이런 가운데 6일 리얼미터·오마이뉴스 여론조사를 보면 두 전직 대통령 사면에 대해 찬성(47.7%)과 반대(48%) 의견은 팽팽했다. 정치권과 언론에서 사면론에 비판적 의견이 지배했던 것과 다른 분위기다. 민주당 지지층에선 반대(88.8%), 국민의힘 지지층에선 찬성(81.4%)이 압도적으로 나타난 것을 봐도 ‘표계산’의 관점에서 볼 때 사면론 카드를 실패했다고 단정하긴 어렵다. 또한 7일 조선일보는 “박근혜는 사면, 이명박은 보류 검토”란 기사에서 ‘여권 핵심 관계자’의 말을 인용해 박근혜씨 사면을 검토한다는 내용을 전했다. 이는 이 대표 쪽 관계자일 가능성이 높다. 조선일보 취재에 청와대 관계자는 “사면 관련 입장이 없다”고 했고, 해당 보도 이후 청와대 대변인은 “사면을 검토한 적 없다”고 했지만 여당 대표가 실제 사면을 건의할 경우 청와대가 이를 일방적으로 외면할 수 없는 것도 사실이다. 이 대표 쪽 관계자는 미디어오늘에 “문 대통령과 이 대표가 지난 연말에 만났는데 그 자리에서 무엇을 논의했는지는 당사자들만 알 수 있다”고 선을 그으면서도 “두분은 서로 어떤 생각을 하는지 알만한 각별한 사이”라며 사전교감 가능성을 열어뒀다. 이 대표는 사면건의와 영수회담 제안에 대해 “대통령과 사전교감이 없었다”고 말해왔다. 사전교감 여부를 떠나 결과적으로 공은 대통령에게 넘어간 분위기다. 문 대통령이 이 대표 건의를 받아들여 사면할 경우 이 대표는 그가 말한대로 ‘대통령에 대한 충정’을 보이면서 동시에 영남·보수성향 지지층에게도 어필하는 두 마리 토끼를 잡게 된다. 문 대통령이 최종적으로 임기 내에 사면을 단행하지 않더라도 이 대표에 대한 메시지를 내놓을 것이란 예상도 가능하다. 여권의 유력 대선주자인 이 대표가 혼자서 소위 ‘쇼’를 한 모양새가 되는 건 정권 입장에서도 부담스러운 일이기 때문이다. 이 대표는 사면 건의를 꺼내든 이유로 ‘국민통합’을 말했다. 이는 총리 시절부터 그가 구상해 온 생각인 만큼 앞으로 국민통합과 관련한 의제를 더 던질 것이라고 해당 관계자는 전했다. 이달 내 진행할 것으로 보이는 문 대통령과 이 대표의 신년기자회견에서 어떤 메시지가 나올지 주목된다.',
    '국민의힘 추미애-문재인까지 고발하자 민주 “황당무계” 국민의힘이 서울동부구치소의 코로나19 감염자 급증 및 사망자 발생 책임을 물어 추미애 법무부장관을 형사고발했다. 국민의힘은 또 윤석열 검찰총장을 불법적으로 징계했다며 추 장관과 함께 문재인 대통령까지 검찰에 고발했다. 이에 더불어민주당은 황당무계하다는 반응을 내놓았다. 이들은 또 기승전-검찰고발이냐며 모든 것을 검찰총장에게 해결해달라고 하느냐고 반문했다. 국민의힘 법제사법위원회 소속 의원들은 6일 오후 기자회견에서 추 장관을 고발한 사유에 대해 “법무부 산하 서울동부구치소의 코로나19 감염자에 대한 격리수용 등을 제대로 관리하지 않아 수용자 인권과 생명을 제대로 지키지 못하고 5일 현재 사망자 1명, 감염자 1085명에 이르게 한 혐의”라고 주장했다. 이들은 “지난해 11월27일 서울동부구치소 직원 1명이 확진 판정을 받은 이후 서울동부치소는 역학조사 및 접촉자 분리를 제대로 실시하지 않고 전수조사 대응이 늦었으며, 최초 확진자 발생 전 마스크도 지급하지 않았다”며 “지난해 9월엔 보건마스크를 자비로 구매하게 허가해 달라는 여주교도소 재소자의 진정을 기각하는 등 수감자들의 생명·신체의 위험을 방치하고 사망자와 감염자를 낳아 업무상과실·중과실치사상, 직무유기 혐의를 저질렀다”고 주장했다. 국민의힘은 “추 장관은 서울동부구치소의 확진자가 700명을 넘어선 지난 12월 29일, 첫 확진자가 나온 지 32일이 지나서야 서울동부구치소를 찾았다”며 “그 전날까지 추 장관은 ‘윤 총장을 탄핵시켜야 한다’는 여당 의원의 글을 SNS에 올리며 연일 윤 총장 찍어내기에 정신이 팔려 있었다”고 비판했다. 문 대통령과 추 장관의 윤석열 검찰총장 징계 건도 고발했다. 국민의힘은 “윤석열 검찰총장에 대한 감찰을 법무부 감찰규정 등 법령에 위반되게 진행했고, 재량권을 일탈하여 직무집행정지처분을 했고, 의사정족수도 못 갖춘 절차상 심각한 하자가 있음에도 추미애 장관과 문재인 대통령은 직권을 남용해 윤 총장 징계를 강행했다”며 “검찰의 철저한 수사를 당부 드린다”고 촉구했다. 이에 더불어민주당은 서울동부구치소 집단감염 비판을 받겠다면서도 고발까지 나선 것은 보복수사에 해당한다고 반발했다. 문 대통령까지 고발한 것 역시 황당무계하다는 반응이다. 김태년 더불어민주당 원내대표는 7일 오전 정책조정회의에서 추 장관 고발을 두고 “이성과 품격을 내던진 야당 고발 정치에 깊은 유감”이라고 밝혔다. 그는 “동부구치소 발 집단 감염 초기 대응은 비판할 수 있고, 추장관도 책임을 통감하며 거듭 사과했다”면서도 “하지만 추장관 고발은 검찰 끌여 들어 보복수사하겠다는 잔인한 정쟁”이라고 비판했다. 김 원내대표는 국민의힘의 추 장관 고발이 처음이 아니라며 울산시장 선거개입 의혹, 아들 병역 관련, 윤석열 징계 추진 등을 들어 “국민의힘이 추 장관에 묻지마 고발 되풀이하고 있다”고 했다. 그는 “국회에서 정치로 해결해야할 일들과 국정운영 사안까지 검찰 고발을 남발했다”며 “정치와 행정 영역 판단을 검찰과 법원에 넘기는 것은 민주주의를 후퇴시키는 행위”라고 비판했다. 김 원내대표는 특히 윤 총장 징계 재가를 빌미로 문 대통령 고발도 나선 것과 관련해서는 “황당무계하다”며 “정치의 금도를 지켜달라”고 했다. 이어 그는 “민주주의의 가드레일 부수는 묻지마 고발을 철회하기 바란다”며 “국민 갈등과 정치 불신을 키우는 무차별적 정쟁 유발에는 단호히 대응하겠다”고 강조했다. 강선우 더불어민주당 대변인도 논평을 내어 국민의힘의 고발 고질병이 또 도졌다며 ‘기승전 고발정치’에 몰두하고 있다고 밝혔다. 강 대변인은 “대통령의 인사권까지 고발하고 나섰다”며 “검찰총장을 앞세워 정치적 이득을 얻어 보려는 속셈인것인지, 아니면 스스로 일을 풀어나갈 힘이 없어 무능함을 고소 고발로 감추려는 것인지 알 수 없다”고 덧붙였다.',
    '윤호중 “인력 전혀 안줄여 놀라” 검찰 개혁 비협조 비판 검찰이 검경 수사권 조정이 됐는데도 기소권 중심의 조직으로 개편하거나 수사권 인력을 전혀 조정하지 않고 있다는 지적이 제기돼 주목된다. 특히 이것이 검찰이 수사권 조정을 흔쾌히 받아들이지 않고 있고, 검찰개혁에 협조하지 않으려는 것 아니냐는 목소리도 나왔다. 윤호중 국회 법제사법위원장은 7일 더불어민주당 당대표 회의실에서 열린 ‘더불어민주당 검찰개혁특위 3차회의’에서 이같이 전했다. 윤 위원장은 특위 출범 후 엊그제 2차회의에서 검경 수사권 조정후 검찰의 이행 상황 현황을 점검한 결과 “검찰개혁특위를 즉각 가동해 중단없는 2단계 검찰개혁에 착수한 일을 정말 잘했구나라고 확인했다”고 지적했다. 그 이유를 두고 윤 위원장은 “검찰이 직접 수사해오던 범위가 대폭 축소돼 6대 범죄 중에서도 중대 규모 범죄에 대해서만 수사하게 돼 있고 검찰의 직접 수사건수도 4분의 1 이하로 줄어들게 됐는데도 검찰은 그동안 운영해왔던 검찰 수사 인력을 전혀 조정하지 않고 있었다”며 “수사권이 줄었으니 기소권을 중심으로 운영하려면 기소권 중심으로 개편해야 하는데, 이 또한 전혀 이뤄지지 않고 있었다”고 전했다. 윤 위원장은 위원들이 다들 굉장히 놀랐다며 “검찰은 지금도 검찰 수사권 조정을 흔쾌히 받아들이고 있지 않은 상황이었다”고 평가했다. 윤 위원장은 “국회가 법 개정으로 검찰개혁을 추진해왔고 앞으로 해나갈텐데 검찰이 적극 협조하려는 의사 있는지 의심하지 않을 수 없다”며 “더욱더 검찰개혁에 매진해야겠다는 그런 사실을 확인했다”고 강조했다. 윤 위원장은 향후 검찰개혁 특위가 입법과제를 발굴해 오는 2월 초까지 입법안을 마련해 국회에 제출할 예정이라고 덧붙였다. 이낙연 더불어민주당 대표는 지난해 검경수사권 조정을 통해 6대 범죄만 검찰이 직접 수사하도록 하는 형사소송법 개정한 것을 들어 “개정 형사소송법이 1일부터 이미 시행되고 있다”고 전했다. 이 대표는 이와 함께 공수처 출범이 검찰의 기소독점에 예외를 만드는 70년 형사사법 역사가 새로운 변화를 맞는다고도 평가했다. 이어 이 대표는 검찰의 기소와 수사권 분리를 두고 “불공정한 수사와 선택적 기소를 포함한 검찰권 남용 방지를 포함해 검찰개혁의 추가 과제를 신속하고 과감하게 이행해 나가야 한다”며 “검찰청법과 형소법 개정안을 다음달 2월까지 국회 제출하고 그 안을 토대로 검찰개혁 추가 과제를 신속 착실하게 추진해가도록 하겠다”고 밝혔다. 이 대표는 “제도에 못지 않게 조직 문화나 구성원 의식 변화 수반돼야 한다”며 “할 수 있다면 그런 문제까지 포함해서 검찰이 문자 그대로 국민의 검찰 성숙한 민주검찰로 거듭나도록 해야 한다”고 촉구했다.',
]

In [11]:
# 문서별 키워드 추출
df_keywords = extract_keywords_from_documents(documents, top_n=10)

In [12]:
# 결과 출력
print(df_keywords)

   Document                                   Keywords
0         0  사면, 대통령, 대표, 관계자, 입장, 전직, 박근혜, 지층, 건의, 정치
1         1  고발, 장관, 동부, 구치소, 감염, 국민, 정치, 징계, 검찰총장, 검찰
2         2   검찰, 개혁, 수사권, 조정, 위원장, 전혀, 특위, 대표, 수사, 국회
