# \[Week3] 텍스트분석 기초

## 1. 텍스트 분석 기본 용어 정리
https://wikidocs.net/21694  
위의 링크와 구글링으로 정리  
용어 정리는 추후에 본인이 보기에 편한 형식으로 정리하면 됩니다.

1. 토큰화 (Tokenization)  
\[답변] 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업보통 의미있는 단위로 토큰을 정의한다

2. 불용어 (Stopword)  
\[답변]  자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어들 ex) 조사, 접미사 등

3. 정규표현식 (Regular Expression) 문법  

1) 정규 표현식에 해당하는 스트링 2개 이상  
(1) a+  
\[답변] 반복을 표현하며 a 문자가 한번 이상 반복됨을 의미한다.
<br>
(2) a{3}b{2,}  
\[답변] 반복을 표현하며 a 문자가 3번 반복, b 문자가 2번 이상 반복됨을 의미한다
<br> 
(3) .+b$  
\[답변] b로 끝나야되는데, b앞에 1개 이상의 알파벳이 있어야된다. 
<br>
(4) ^ab*  
\[답변] ab로 시작하는 단어들 모두
<br>
(5) \[a-z]+\[^a|z]  
\[답변] a-z 사이의 알파벳 중 a와z는 아닌 것 

2) 정규 표현식 문자 규칙 의미  
(1) \\\ \[답변] 역슬래쉬 문자 자체를 의미함
<br>
(2) \d \[답변]digit 를 표현하며 숫자를 의미
<br>
(3) \D \[답변]non digit 를 표현하며 숫자가 아닌 것
<br>
(4) \s \[답변]space를 표현하며 공백 문자가 아닌 것
<br>
(5) \S \[답변]non space를 표현하며 공백 문자가 아닌 것
<br>
(6) \w \[답변]word 를 표현하며 알파벳 + 숫자 + _ 중의 한 문자
<br>
(7) \W \[답변]non word를 표현하며 알파벳 + 숫자 + _ 가 아닌 문자

3) 정규표현식 모듈 함수 사용

(1) 출력 결과 : \['010', '1234', '5678', '25']

In [1]:
import re
text = """이름 : 눈송이
전화번호 : 010-1234-5678
나이 : 25
성별 : 여""" 
re.findall("\d+",text)

['010', '1234', '5678', '25']

(2) 출력 결과 : \['1234', '5678']

In [11]:
import re
text = """이름 : 눈송이
전화번호 : 010-1234-5678
나이 : 25
성별 : 여""" 
re.findall("\d{4}",text)

['1234', '5678']

(3) 출력 결과 : \['John', 'James', 'Noonsong'] 

In [5]:
import re
text = """100 John    PROF
101 James   STUD
102 Noonsong   STUD""" 
re.findall('[A-Z][a-z]+', text)

['John', 'James', 'Noonsong']

4. 정수 인코딩(Integer Encoding)  

1) 문장 분리 및 토큰화

In [22]:
# 이 셀은 실행만 시키면 됩니다.
text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."
# 문장 분리
sentences = text.replace("!", ".").split(". ")
# 토큰화
tokenized = [sentence.lower().split() for sentence in sentences]

2) 각 단어에 대한 빈도수 딕셔너리 저장  
\[출력] \[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain.', 1)]

In [23]:
# 각 단어에 대한 빈도수 딕셔너리로 저장 
# *stopword는 제거
from nltk.corpus import stopwords
vocab = {}
stop_words = set(stopwords.words('english'))
sentences = []      # stopword 제거된 토큰화된 문장 리스트 저장
# 여기부터 코드 작성
for sentences in tokenized:
    result=[]
    for word in sentences:
        if word not in stop_words:
            result.append(word)
            if word not in vocab:
                vocab[word]=0
            vocab[word]+=1
    sentences.append(result)
# 빈도수 높은 순으로 정렬
# 여기부터 코드 작성
vocab_sorted=sorted(vocab.items(), key=lambda x:x[1], reverse=True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain.', 1)]


3) 빈도순으로 정렬된 단어에 정수 인덱스 부여  
\[출력] \[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]

In [24]:
word_to_index = {}
i = 1
# 여기부터 코드 작성
for(word, frequency) in vocab_sorted:
    word_to_index[word]=i
    i=i+1
# dictionary에 없는 단어
word_to_index['OOV'] = len(word_to_index) + 1
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain.': 13, 'OOV': 14}


4) word_to_index를 사용하여 sentences의 모든 단어들을 맵핑되는 정수로 인코딩  
\[출력] \[\[1, 5], \[1, 8, 5], \[1, 3, 5], \[9, 2], \[2, 4, 3, 2], \[3, 2], \[1, 4, 6], \[1, 4, 6], \[1, 4, 2], \[7, 7, 3, 2, 10, 1, 11], \[1, 12, 3, 13]]

In [43]:
encoded = []
for s in sentences:
    temp = []
    for w in s:
        try:
            temp.append(word_to_index[w])
        except KeyError:
            temp.append(word_to_index['OOV'])
    encoded.append(temp)
print(encoded)

[[14, 14, 14], [14, 14, 14, 14, 14, 14], [14, 14, 14, 14], [14, 14], [14], [14, 14, 14, 14], [14, 14, 14, 14, 14, 14, 14, 14, 14], [1, 12, 3, 13]]


5. 패딩(Padding)  
0으로 패딩해보기

1) 가장 긴 문장 길이 찾기

In [44]:
max_len = max(len(sentence)for sentence in encoded) # 가장 긴 문장 길이 찾기
print(max_len)

9


2) 가장 긴 문장 길이에 맞춰 0으로 채워넣기  
\[\[ 1  5  0  0  0  0  0]  
 \[ 1  8  5  0  0  0  0]  
 \[ 1  3  5  0  0  0  0]  
 \[ 9  2  0  0  0  0  0]  
 \[ 2  4  3  2  0  0  0]  
 \[ 3  2  0  0  0  0  0]  
 \[ 1  4  6  0  0  0  0]  
 \[ 1  4  6  0  0  0  0]  
 \[ 1  4  2  0  0  0  0]  
 \[ 7  7  3  2 10  1 11]  
 \[ 1 12  3 13  0  0  0]]

In [45]:
import numpy as np
for sentence in encoded:
    while len(sentence) < max_len: 
        sentence.append(0)

encoded = np.array(encoded)        # 지금은 보기 좋게 하기 위함임..
print(encoded)

[[14 14 14  0  0  0  0  0  0]
 [14 14 14 14 14 14  0  0  0]
 [14 14 14 14  0  0  0  0  0]
 [14 14  0  0  0  0  0  0  0]
 [14  0  0  0  0  0  0  0  0]
 [14 14 14 14  0  0  0  0  0]
 [14 14 14 14 14 14 14 14 14]
 [ 1 12  3 13  0  0  0  0  0]]


6. 원-핫 인코딩(One-Hot Encoding)  
\[출력] \[0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

In [46]:
def one_hot_encoding(word, word_to_index):
    # 아래 pass 지우고 여기부터 코드 작성
    one_hot_vector=[0]*(len(word_to_index))
    index=word_to_index[word]
    one_hot_vector[index]=1
    return one_hot_vector

In [47]:
# 위의 함수와 정수 인코딩 실행 후 실행할 것.
one_hot_encoding("huge", word_to_index)

[0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

7. Bag of Words(BoW)  
\[답변] 단어들의 출현 빈도에만 집중하는 텍스트데이터 수치화 표현방법

## 2. 텍스트 분석 전처리 경험해보기

1. 본인이 좋아하는 노래 가사, 시 등 text에 저장

In [58]:
text = "I'm mad at Disney Disney They tricked me tricked me Had me wishing on a shooting star."

2. 토큰화

In [59]:
# Tokenizer 사용해보셔도 됩니다.
# Tokenizer 사용 시 시간이 좀 걸리기 때문에 그냥 띄어쓰기 기준으로 나눴습니다,
text = text.split()

3. 불용어 제거

In [61]:
stopwords = ['i','me','on','a','they']

4. 빈도수 리스트 만들기

In [64]:
word_dict = {}
# 코드 작성
for word in text:
    word=word.lower()
    if word not in stopwords:
        if word not in word_dict:
            word_dict[word]=0
        word_dict[word]+=1
print(word_dict)

{"i'm": 1, 'mad': 1, 'at': 1, 'disney': 2, 'tricked': 2, 'had': 1, 'wishing': 1, 'shooting': 1, 'star.': 1}


5. 워드 클라우드 이미지 생성

In [71]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt
# word_dict 를 이용해 wordcloud 만들기
# 코드 작성
wordcloud=WordCloud().generate_from_frequencies(word_dict)
plt.figure(figsize=(12,12))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show

ModuleNotFoundError: No module named 'wordcloud'