# 텍스트 사전 준비 작업 - 텍스트 정규화

## 토큰화

### 문장 토큰화
- 문장의 마침표, 개행 문자 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것

In [1]:
import nltk
from nltk import sent_tokenize
nltk.download('punkt')

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text_sample)
print(type(sentences), len(sentences))
print(sentences)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


### 단어 토큰화
- 문장을 단어로 토큰화하는 것
- BoW(Bag of Word)와 같이 단어의 순서가 중요하지 않은 경우 문장 토큰화를 사용하지 않고 단어 토큰화만 사용해도 된다.
- 일반적으로 문장 토큰화는 각 문장이 가지는 시맨틱적인 의미가 중요한 요소로 사용될 때 사용

In [2]:
from nltk import word_tokenize

sentence = 'The Matrix is everywhere its all around us, here even in this room.'
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [7]:
# 여러 문장들에 대해 문장별 단어 토큰화 수행
def tokenize_text(text):
    
    sentences = sent_tokenize(text)
    word_tokens = [ word_tokenize(sentence) for sentence in sentences ]
    return word_tokens

word_tokens = tokenize_text(text_sample)
print(word_tokens)

[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


## stopwords 제거
- 분석에 큰 의미가 없는 단어를 제거하는 것을 의미
- is, the, a, will 등 문맥적으로 큰 의미가 없는 단어가 이에 속한다.

In [3]:
# 불용어 사전 다운로드
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [9]:
# nltk.corpus.stopwords.words('english') 언어 적기 -- 한국어 지원 안됨
print('영어 stop word 갯수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop word 갯수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [4]:
# 위에서 만든 단어 토큰에 불용어 제거
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

print('원본 단어:')
print(word_tokens)

for sentence in word_tokens:
    filtered_word = []
    for word in sentence:
        word = word.lower()
        if word not in stopwords:
            filtered_word.append(word)
        else:
            continue
    all_tokens.append(filtered_word)

print()
print('불용어 제거 단어')
print(all_tokens)


원본 단어:


NameError: name 'word_tokens' is not defined

## 어간추출(Stemming)과 표제어 추출(Lemmatization)
- 문법적 또는 의미적으로 변화하는 **단어의 원형을 찾는다.**
- ex) worked, works, working의 동사 원형인 work를 찾는다.
- Lemmatization이 Stemming보다 정교하며 의미론적인 기반에서 단어의 원형을 찾는다.



In [5]:
# 어간추출
from nltk.stem import LancasterStemmer

stemmer = LancasterStemmer()

# work
print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
# amuse
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))


work work work
amus amus amus


## DTM (문서 단어 행렬)
- 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것
- 사이킷런의 CounterVectorizer를 사용하여 생성할 수 있다.
- CounterVectorizer를 이용한 피처 벡터화
    - 모든 문자를 소문자로 변환 -> 토큰화 -> 텍스트 정규화 stop Words 필터링만 수행 -> 토큰 된 단어들을 추출하여 vectorization 적용

- Countervectorizer 사용

In [6]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = ['you know I want your love. because I Love you.']
vector = CountVectorizer()

# 문서로부터 각 단어의 빈도수 산출
print('bag of words vector: ', vector.fit_transform(corpus).toarray())
# I는 BoW를 만드는 과정에서 사라졌는대, 이는 countervectroizer가 기본적으로 길이가 2이상인 문자에 대해서만 토큰으로 인식 하기 때문이다
print('vocabulary: ',vector.vocabulary_)

bag of words vector:  [[1 1 2 1 2 1]]
vocabulary:  {'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


### 불용어를 제거한 BoW 만들기

In [7]:
from nltk.corpus import stopwords
stop = stopwords.words('english')


(1) 사용자 정의 불용어 사용

In [6]:
text = ["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words=['the','en','a','is','not'])
print('bag of words vector: ' , vect.fit_transform(text).toarray())
print('vocabulary:',vect.vocabulary_)

bag of words vector:  [[1 1 1 1 1 1]]
vocabulary: {'family': 2, 'an': 0, 'important': 3, 'thing': 5, 'it': 4, 'everything': 1}


(2) CountVectorizer에서 제공하는 잧체 불용어 사용

In [7]:
text = ["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words='english')
print('bag of words vector: ' , vect.fit_transform(text).toarray())
print('vocabulary:',vect.vocabulary_)

bag of words vector:  [[1 1 1]]
vocabulary: {'family': 0, 'important': 1, 'thing': 2}


(3) ntlk에서 제공하는 불용어 사용

In [8]:
text = ["Family is not an important thing. It's everything."]
stop_words = stopwords.words('english')
vect = CountVectorizer(stop_words=stop_words)
print('bag of words vector: ' , vect.fit_transform(text).toarray())
print('vocabulary:',vect.vocabulary_)

bag of words vector:  [[1 1 1 1]]
vocabulary: {'family': 1, 'important': 2, 'thing': 3, 'everything': 0}


## TF-IDF(Term Frequency-Inverse Doucment Frequency)
- TfidfVectorizer 사용

In [11]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = ['you know I want your love', # 문서1
          'I like you', # 문서2
          'what should I do' # 문서3
        ]

tfidf = TfidfVectorizer()

print(tfidf.fit_transform(corpus).toarray())
print(sorted(tfidf.vocabulary_.items(), key = lambda x:x[0]))

[[0.         0.46735098 0.         0.46735098 0.         0.46735098
  0.         0.35543247 0.46735098]
 [0.         0.         0.79596054 0.         0.         0.
  0.         0.60534851 0.        ]
 [0.57735027 0.         0.         0.         0.57735027 0.
  0.57735027 0.         0.        ]]
[('do', 0), ('know', 1), ('like', 2), ('love', 3), ('should', 4), ('want', 5), ('what', 6), ('you', 7), ('your', 8)]
