In [5]:
import re

# 원시 텍스트
raw_text = "Hello!!! 자연어 처리 is FUN.   Do you agree? :)"

# 불필요한 기호 제거 : \w(문자/숫자/_), \s(공백)만 남기고 나머지 특수문자는 제거
clean_text = re.sub(r"[^\w\s]", "", raw_text)

# 소문자 변환 : 영어 대문자를 소문자로 통일
clean_text = clean_text.lower()

# 공백 제거 : 연속 공백/앞뒤 공백 제거 후 단어 사이를 공백 1칸으로 정리
clean_text = " ".join(clean_text.split())

print("처리된 텍스트:", clean_text)

처리된 텍스트: hello 자연어 처리 is fun do you agree


In [6]:
from nltk.tokenize import sent_tokenize

text = "자연어 처리는 재미있다! 하지만 배우기는 어렵다. Python으로 가능합니다."
print(sent_tokenize(text))

['자연어 처리는 재미있다!', '하지만 배우기는 어렵다.', 'Python으로 가능합니다.']


In [8]:
from nltk.corpus import stopwords          # 불용어 목록
from nltk.tokenize import word_tokenize    # 문장을 토큰(단어) 단위로 분리하는 토크나이저
import string
import re



In [9]:
str.maketrans("", "", string.punctuation)

{33: None,
 34: None,
 35: None,
 36: None,
 37: None,
 38: None,
 39: None,
 40: None,
 41: None,
 42: None,
 43: None,
 44: None,
 45: None,
 46: None,
 47: None,
 58: None,
 59: None,
 60: None,
 61: None,
 62: None,
 63: None,
 64: None,
 91: None,
 92: None,
 93: None,
 94: None,
 95: None,
 96: None,
 123: None,
 124: None,
 125: None,
 126: None}

In [11]:
# 원시 텍스트
raw_text = "자연어 처리123는 데이터 과학의 한 분야다! 여러 전처리가 필요하다."

# 특수문자 제거
clean_text = raw_text.translate(str.maketrans("", "", string.punctuation))

# 숫자 제거
clean_text = re.sub(r"\d+", "", clean_text)

clean_text


'자연어 처리는 데이터 과학의 한 분야다 여러 전처리가 필요하다'

In [12]:
# 불용어 제거
tokens = word_tokenize(clean_text)    # 문장을 토큰 리스트로 토큰화
stop_words = set(stopwords.words("korean"))
filtered_tokens = [word for word in tokens if word not in stop_words]    # 불용어에 해당하지 않는 토큰만 남김

print("전처리 결과:", filtered_tokens)

OSError: No such file or directory: 'C:\\Users\\Playdata\\AppData\\Roaming\\nltk_data\\corpora\\stopwords\\korean'

In [13]:
!pip install konlpy

Collecting konlpy
  Using cached konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Using cached jpype1-1.6.0-cp312-cp312-win_amd64.whl.metadata (5.1 kB)
Collecting lxml>=4.1.0 (from konlpy)
  Using cached lxml-6.0.2-cp312-cp312-win_amd64.whl.metadata (3.7 kB)
Using cached konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
Using cached jpype1-1.6.0-cp312-cp312-win_amd64.whl (355 kB)
Using cached lxml-6.0.2-cp312-cp312-win_amd64.whl (4.0 MB)
Installing collected packages: lxml, JPype1, konlpy

   ---------------------------------------- 0/3 [lxml]
   ---------------------------------------- 0/3 [lxml]
   ---------------------------------------- 0/3 [lxml]
   ---------------------------------------- 0/3 [lxml]
   ---------------------------------------- 0/3 [lxml]
   ------------- -------------------------- 1/3 [JPype1]
   ------------- -------------------------- 1/3 [JPype1]
   ------------- -------------------------- 1/3 [JPype1]
   ------------- ----

In [15]:
from konlpy.tag import Okt
import re, string

okt = Okt()

# 원시 텍스트
raw_text = "자연어 처리123는 데이터 과학의 한 분야다! 여러 전처리가 필요하다."

# 특수문자 제거
clean_text = raw_text.translate(str.maketrans("", "", string.punctuation))

# 숫자 제거
clean_text = re.sub(r"\d+", "", clean_text)

tokens = okt.morphs(clean_text)    # 형태소 단위 토큰화

stop_words = {"은","는","이","가","을","를","에","에서","와","과","도","한","하다","되다","있다","없다"}
filtered_tokens = [word for word in tokens if word not in stop_words]    # 불용어에 해당하지 않는 토큰만 남김
filtered_tokens

['자연어', '처리', '데이터', '과학', '의', '분야', '다', '여러', '전', '처리', '필요하다']

In [None]:
from konlpy.tag import Okt

# 텍스트
text = "자연어 처리는 정말 재미있다!"

# 형태소 분석
okt = Okt()
morphs = okt.morphs(text)    # 문장을 형태소(최소 의미 단위) 리스트로 분리
pos = okt.pos(text)          # (형태소, 품사) 튜플 리스트로 품사 태깅 수행

print("형태소 분석 결과:", morphs)
print("품사 태깅 결과:", pos)

형태소 분석 결과: ['자연어', '처리', '는', '정말', '재미있다', '!']
품사 태깅 결과: [('자연어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('정말', 'Noun'), ('재미있다', 'Adjective'), ('!', 'Punctuation')]


In [1]:
# CounterVectorizer(BoW), TFidfVectorizer(희귀도)
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

# 샘플 데이터
corpus = ["자연어 처리는 재미있다.", "자연어 처리는 어렵다.", "데이터는 유용하다."]

# Bag-of-Words : 문서-단어 행렬을 단어 등장 횟수로 만드는 BoW 벡터화 클래스
vectorizer = CountVectorizer()
bow = vectorizer.fit_transform(corpus)      # 코퍼스에 맞춰 단어사전 학습 + BoW 벡터로 변환(희소행렬)
print("Bag-of-Words:\\n", bow.toarray())    # 희소행렬을 배열로 변환해 출력

# TF-IDF : 단어 빈도 (TF)와 문서 희소성 (IDF)를 반영해 중요 단어에 가중치를 주는 벡터화 클래스
tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(corpus)  # 코퍼스에 맞춰 단어사전 학습 + TF-IDF 벡터로 변환 (희소행렬)
print("TF-IDF:\\n", tfidf_matrix.toarray())

Bag-of-Words:\n [[0 0 0 1 1 1]
 [0 1 0 1 0 1]
 [1 0 1 0 0 0]]
TF-IDF:\n [[0.         0.         0.         0.51785612 0.68091856 0.51785612]
 [0.         0.68091856 0.         0.51785612 0.         0.51785612]
 [0.70710678 0.         0.70710678 0.         0.         0.        ]]


In [2]:
vectorizer.get_feature_names_out()

array(['데이터는', '어렵다', '유용하다', '자연어', '재미있다', '처리는'], dtype=object)

In [3]:
tfidf.get_feature_names_out()

array(['데이터는', '어렵다', '유용하다', '자연어', '재미있다', '처리는'], dtype=object)

- TF-IDF 지표
    - 값 = 빈도(TF) * 희소성(IDF) 기반의 가중치(중요도)
    - 여러 문서에 흔하게 나오는 단어는 점수가 낮아지고, 특정 문서에만 주로 나오는 단어는 점수가 높아진다.

In [None]:
# 샘플 텍스트
text = "자연어 처리는 재미있다. 자연어는 어렵지만 재미있다."

# 단어 빈도 계산
from collections import Counter
words = text.split()
word_count = Counter(words)

# 문장 길이 계산
sentences = text.split(". ")
# 각 문장을 공백 기준으로 나누고, 단어 길이 계산
sentence_lengths = [len(sentence.split()) for sentence in sentences]

print("단어 빈도:", word_count)
print("문장 길이:", sentence_lengths)

단어 빈도: Counter({'재미있다.': 2, '자연어': 1, '처리는': 1, '자연어는': 1, '어렵지만': 1})
문장 길이: [3, 3]


In [5]:
# 간단한 규칙기반
text = "고객님, 오늘의 할인 코드는 SAVE20입니다."

if "할인" in text:
    print("할인 관련 메시지입니다.")
else:
    print("일반 메시지입니다.")

할인 관련 메시지입니다.
