# 댓글 분석하기
---
- 게시글에 달린 댓글들을 수집해서 댓글이 긍정적인 감정을 가지고 있는지, 부정적인 감정을 가지고 있는지 분석해보고자 합니다.     그런데 수집된 댓글들이 너무 지저분해서 알아보기가 쉽지 않습니다. 이 댓글들을 깔끔하게 정리하는 함수`preprocessing`를 만들어 봅시다.
- 조건
    - 특수 기호는 모두 지우고, 알파벳과 숫자만 남기기
    - 모두 소문자로.
    - 중복된 공백 제거, 공백을 하나만 남기기

- 발전 과제
    - 해당 텍스트에서 어떤 단어가 가장 많이 들어가 있는지 확인하는 것.
    - 텍스트 내에서 각 단어가 몇 번씩 등장하는지 빈도수를 계산.

In [34]:
import re

In [35]:
def preprocessing(text):
    text = ' '.join(re.sub(r'[^a-zA-Z0-9 ]', '', text).lower().split())
    
    ## ' '.join(text) : 단어 사이를 공백 1개로만 연결해서 중복 공백 제거
    ## re.sub(제거할문자열, 변경할 문자열, text)
    ### r'[^a-zA-Z0-9 ] : ^ not, a-zA-Z: 소/대문자 알파벳
    ### 0-9 (공백까지 포함해서) 0~9까지 공백문자까지..
    ## .lower() : 소문자로 변경
    ## split() : 문자열을 공백 기준으로 나누어서 단어 리스트로 변환

    return text

In [38]:
## 확인
message1 = "WOW!! ThIs mOvIe...    was @@aMAZING@@!!     I couldn't BELIEVE how **good** the actors were.  The plot was    so~~ thrilling."
message2 = "Worst movie EVER!!!    I can't believe I spent $15 on this...    the acting was horrIBle, and the plot? non-existent!! :(  do NOT recommend.   :("

preprocessing(message1)

'wow this movie was amazing i couldnt believe how good the actors were the plot was so thrilling'

In [39]:
preprocessing(message2)

'worst movie ever i cant believe i spent 15 on this the acting was horrible and the plot nonexistent do not recommend'

### 텍스트 내 단어 빈도수 계산.

In [40]:
from collections import Counter

text_words = Counter()

def count_vocab(text):
    txt = preprocessing(text).split() # 공백기준으로 단어 나누기.
    for word in txt:
        text_words[word] += 1  
    
    return text_words

In [41]:
## 확인
message1 = "WOW!! ThIs mOvIe...    was @@aMAZING@@!!     I couldn't BELIEVE how **good** the actors were.  The plot was    so~~ thrilling."
message2 = "Worst movie EVER!!!    I can't believe I spent $15 on this...    the acting was horrIBle, and the plot? non-existent!! :(  do NOT recommend.   :("

count_vocab(message1)

Counter({'wow': 1,
         'this': 1,
         'movie': 1,
         'was': 2,
         'amazing': 1,
         'i': 1,
         'couldnt': 1,
         'believe': 1,
         'how': 1,
         'good': 1,
         'the': 2,
         'actors': 1,
         'were': 1,
         'plot': 1,
         'so': 1,
         'thrilling': 1})

In [42]:
count_vocab(message2)

Counter({'wow': 1,
         'this': 2,
         'movie': 2,
         'was': 3,
         'amazing': 1,
         'i': 3,
         'couldnt': 1,
         'believe': 2,
         'how': 1,
         'good': 1,
         'the': 4,
         'actors': 1,
         'were': 1,
         'plot': 2,
         'so': 1,
         'thrilling': 1,
         'worst': 1,
         'ever': 1,
         'cant': 1,
         'spent': 1,
         '15': 1,
         'on': 1,
         'acting': 1,
         'horrible': 1,
         'and': 1,
         'nonexistent': 1,
         'do': 1,
         'not': 1,
         'recommend': 1})