In [1]:
from collections import Counter
import re

def count_words(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()
    
    # 한글 및 영문 단어 추출 (기본적으로 공백과 구두점을 제거)
    words = re.findall(r'\b[\w가-힣]+\b', text)
    
    # 단어 빈도 계산
    word_count = Counter(words)
    
    return word_count

if __name__ == "__main__":
    file_path = "script"  # 분석할 텍스트 파일 경로
    word_counts = count_words(file_path)
    
    # 결과 출력
    for word, count in word_counts.most_common(10):  # 상위 10개 단어 출력
        print(f"{word}: {count}")

이: 142
이렇게: 127
것: 99
좀: 98
더: 92
이런: 91
지금: 84
그런: 79
안: 73
이게: 67


In [5]:
from collections import Counter
import re

def count_words(file_path):
    stopwords = {
        "저게", "왜", "저래", "가긴", "가", "아니", "요거죠", "이건", "너무", "또", "혹시라도", "없는지", "어떤", "때는", "이런", "것들도",
        "더", "많고", "일반적으로", "쓰이는", "처리", "계속", "조금", "때", "수", "게", "이런게", "떠", "저희", "그", "이", "저", "그것", "그래서",
        "그런", "입니다", "했는데", "하지만", "그리고", "또한", "때문에", "그러나", "등", "이렇게", "그렇게", "뭐", "어떻게", "있습니다"
    }
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()
    
    # 한글 및 영문 단어 추출 (기본적으로 공백과 구두점을 제거)
    words = re.findall(r'\b[\w가-힣]+\b', text)
    
    # Stopwords 제거
    filtered_words = [word for word in words if word not in stopwords]
    
    # 단어 빈도 계산
    word_count = Counter(filtered_words)
    
    return word_count

if __name__ == "__main__":
    file_path = "script"  # 분석할 텍스트 파일 경로
    word_counts = count_words(file_path)
    
    # 결과 출력
    for word, count in word_counts.most_common(10):  # 상위 10개 단어 출력
        print(f"{word}: {count}")


것: 99
좀: 98
지금: 84
안: 73
이게: 67
있는: 56
굉장히: 54
거: 52
같아요: 48
근데: 45


In [11]:
from collections import Counter
import re
from konlpy.tag import Okt
from konlpy.corpus import kolaw

def get_stopwords():
    # 한국어 불용어 리스트 (KoNLPy에서 제공하는 법률 말뭉치 활용)
    stopwords = set(kolaw.open('constitution.txt').read().split())
    return stopwords

def count_words(file_path):
    stopwords = get_stopwords()
    okt = Okt()
    
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()
    
    # 형태소 분석을 통한 명사 추출
    words = okt.nouns(text)
    
    # Stopwords 제거
    filtered_words = [word for word in words if word not in stopwords]
    
    # 단어 빈도 계산
    word_count = Counter(filtered_words)
    
    return word_count

if __name__ == "__main__":
    file_path = "script"  # 분석할 텍스트 파일 경로
    word_counts = count_words(file_path)
    
    # 결과 출력
    for word, count in word_counts.most_common(100):  # 상위 10개 단어 출력
        print(f"{word}: {count}")

것: 195
거: 193
좀: 143
그랜저: 135
더: 119
뭐: 118
지금: 113
안: 94
조금: 82
생각: 82
느낌: 81
차: 74
게: 65
여기: 60
디자인: 54
엔진: 50
걸: 48
정도: 45
소리: 44
또: 43
정말: 41
약간: 41
그냥: 41
저: 40
자: 37
가지: 37
건: 36
모드: 36
부분: 35
자동차: 34
현대차: 34
기능: 33
일단: 32
진짜: 31
사람: 30
음악: 29
때문: 29
왜: 28
한번: 28
사실: 28
를: 28
공간: 28
현대: 27
얘기: 27
다른: 27
제: 26
핸들: 26
보: 25
기존: 25
자체: 25
모델: 25
등: 25
신형: 25
하나: 24
시트: 24
승: 23
거의: 23
가속: 22
주행: 22
차선: 22
세대: 22
선택: 21
저희: 21
면: 21
버튼: 21
이전: 20
열: 20
내: 20
가장: 20
뒤: 20
앞: 19
번: 19
전: 19
좌석: 19
기본: 19
정숙: 19
이번: 18
볼: 18
운전: 18
말: 18
시간: 18
말씀: 18
스포츠: 18
수가: 18
쪽: 18
비: 17
점: 17
식: 17
상태: 17
요런: 17
사용: 17
사운드: 17
막: 17
옵션: 16
해: 16
얘: 16
두: 16
작동: 16
컬러: 16
모습: 16
