In [None]:
'''
### 댓글 분석하기

- 게시글에 달린 댓글들을 수집해서 댓글이 긍정적인 감정을 가지고 있는지, 부정적인 감정을 가지고 있는지 분석해보고자 합니다. 
- 그런데 수집된 댓글들이 너무 지저분해서 알아보기가 쉽지 않습니다.
- 이 댓글들을 깔끔하게 정리하는 함수`preprocessing`를 만들어 봅시다.

### 조건

- 특수 기호는 모두 지우고 알파벳과 숫자만 남기기
- 모두 소문자로 바꾸기
- 중복된 공백 제거하고 공백을 하나만 남기기
'''

In [1]:
# 정규표현식을 사용하여 텍스트 전처리
import re

def modify(text):
    # re.sub(패턴, 대치할 문자, 적용)
    # r : raw문자열로 특수문자를 있는 그대로 인식함
    # ^ : 부정의 의미로 안에 있는 문자들을 제외하고 적용함 (알파벳, 숫자, 공백문자)
    text = re.sub(r'[^a-zA-z0-9\s]', '', text)
    
    # .lower()를 통해 대문자를 소문자로 변환
    text = text.lower()
    
    # \s에 +를 포함해서 하나 이상의 연속된 공백들을 한 번의 공백으로 변환
    text = re.sub(r'\s+', ' ', text).strip()
    
    # 줄 바꿈도 없앤다면 .split()도 사용 가능함
    # text = ' '.join(text.split())
    
    return text

word1 = "WOW!! ThIs mOvIe...    was @@aMAZING@@!!     I couldn't BELIEVE how **good** the actors were.  The plot was    so~~ thrilling."
word2 = "Worst movie EVER!!!    I can't believe I spent $15 on this...    the acting was horrIBle, and the plot? non-existent!! :(  do NOT recommend.   :("

text1 = modify(word1)
text2 = modify(word2)

print(text1)
print("\n")
print(text2)

wow this movie was amazing i couldnt believe how good the actors were the plot was so thrilling


worst movie ever i cant believe i spent 15 on this the acting was horrible and the plot nonexistent do not recommend


In [None]:
'''
### step-up

아주 간단한 텍스트 분석 중 하나는, 해당 텍스트에 어떤 단어가 가장 많이 들어가 있는지 확인하는 것입니다.
텍스트 내에서 각 단어가 몇 번씩 등장하는지 빈도수를 계산해 보세요!
'''

In [2]:
import re
from collections import Counter

def preprocessing(text):
    """
    텍스트에서 특수기호 제거, 소문자화, 중복 공백 제거를 수행합니다.
    """
    text = text.lower()  # 소문자 변환
    text = re.sub(r'[^a-zA-Z0-9\s]', '', text)  # 알파벳, 숫자, 공백 제외 모두 제거
    text = re.sub(r'\s+', ' ', text).strip()  # 중복 공백 제거, 앞뒤 공백 제거
    return text

def word_frequencies(text):
    """
    전처리된 텍스트에서 단어 빈도수를 계산해 딕셔너리 형태로 반환합니다.
    """
    tokens = text.split()  # 공백 기준으로 단어 나누기
    freq = Counter(tokens)  # 단어 빈도 계산
    return freq

# 🔽 테스트 예시
message1 = "WOW!! ThIs mOvIe...    was @@aMAZING@@!!     I couldn't BELIEVE how **good** the actors were.  The plot was    so~~ thrilling."
message2 = "Worst movie EVER!!!    I can't believe I spent $15 on this...    the acting was horrIBle, and the plot? non-existent!! :(  do NOT recommend.   :("

# 전처리
text1 = preprocessing(message1)
text2 = preprocessing(message2)

# 단어 빈도수 분석
freq1 = word_frequencies(text1)
freq2 = word_frequencies(text2)

# 결과 출력 (상위 5개 단어)
print("📊 Message 1:", freq1.most_common(5))
print("📊 Message 2:", freq2.most_common(5))

📊 Message 1: [('was', 2), ('the', 2), ('wow', 1), ('this', 1), ('movie', 1)]
📊 Message 2: [('i', 2), ('the', 2), ('worst', 1), ('movie', 1), ('ever', 1)]
