# 입문자를 위한, 파이썬/R 데이터 분석   

]

## Today's mission

- Text Tokenization
- 참고: Stemming(어간추출) 과 Lemmatization(표제어추출)
- Stopwords 제거
- 참고: 머신러닝을 통한 Text 분석 소개
- Bag of Words – BOW

]

## Text Tokenization

**문장 토큰화**

In [1]:
from nltk import sent_tokenize
text_sample = 'The Matrix is everywhere its all around us, here even in this room.  \
              You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences),len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


**단어 토큰화**

In [2]:
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


**여러 문장들에 대한 단어 토큰화**

In [3]:
# Type 
def tokenize_text(text_sample):
    sentences = sent_tokenize(text_sample)
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

word_tokens = tokenize_text(text_sample)
print(type(word_tokens),len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


**n-gram**
- n-gram은 n개의 연속적인 단어 나열을 의미
- 갖고 있는 코퍼스에서 n개의 단어 뭉치 단위로 끊어서 이를 하나의 토큰으로 간주

In [4]:
from nltk import ngrams

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)

all_ngrams = ngrams(words, 2)
ngrams = [ngram for ngram in all_ngrams]
print(ngrams)

[('The', 'Matrix'), ('Matrix', 'is'), ('is', 'everywhere'), ('everywhere', 'its'), ('its', 'all'), ('all', 'around'), ('around', 'us'), ('us', ','), (',', 'here'), ('here', 'even'), ('even', 'in'), ('in', 'this'), ('this', 'room'), ('room', '.')]


]

## 참고 : Stemming(어간추출) 과 Lemmatization(표제어추출)

**어간 추출(Stemming)**
- 어간(Stem)을 추출하는 작업
- 어간 추출은 형태학적 분석을 단순화한 버전이라고 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업
- 다시 말해, 이 작업은 섬세한 작업이 아니기 때문에 어간 추출 후에 나오는 결과 단어는 사전에 존재하지 않는 단어일 수도 있음

In [5]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


**표제어 추출(Lemmatization)**
- 표제어(Lemma)는 한글로는 '표제어' 또는 '기본 사전형 단어' 정도의 의미하며 표제어 추출은 단어들로부터 표제어를 찾아가는 과정
- 표제어 추출은 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단
- 예를 들어서 am, are, is는 서로 다른 스펠링이지만 그 뿌리 단어는 be라고 볼 수 있고, 이 때, 이 단어들의 표제어는 be

In [7]:
import nltk
nltk.download('omw-1.4')

[nltk_data] Downloading package omw-1.4 to
[nltk_data]     /Users/shinminseog/nltk_data...


True

In [8]:
from nltk.stem import WordNetLemmatizer

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

amuse amuse amuse
happy happy
fancy fancy


]

### Stopwords 제거

- 불용어(Stopword)는 갖고 있는 데이터에서 유의미한 단어 토큰만을 선별하기 위해서는 큰 의미가 없는 단어 토큰을 제거하는 작업
- 여기서 큰 의미가 없다라는 것은 자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어들을 말함
- 예를 들면, I, my, me, over, 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없음
- 이러한 단어들을 불용어(stopword)라고 하며, NLTK에서는 위와 같은 100여개 이상의 영어 단어들을 불용어로 패키지 내에서 미리 정의하고 있음

In [9]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/shinminseog/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [11]:
nltk.corpus.stopwords.words('english')

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [13]:
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example)

result = []
for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 

print(word_tokens) 
print(result)

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


## 참고 : 머신러닝을 통한 Text 분석 소개: 

1. 문서의 변수화 작업, bag-of-words

감성분석은 문서의 양극성을 분석하는 작업이다. 
데이터에서 추출한 단어들을 설명 변수, 해당 데이터에 대한 양과 음의 레이블을 목적 변수로 하는 것이 일반적이다.

분류를 위한 설명 변수들을 정해줘야 하는데, 즉 텍스트를 수치형 피처 벡터로 표현할 수 있어야 한다. 
가장 기본적인 방법이 bag-of-words 모델이라고 할 수 있다.

bag-of-words 모델은 전체 문서 집합의 단어들의 단어집을 만든 후, 특정 문서에서 단어집에 포함된 단어가
얼마나 자주 사용되었는지 횟수를 포함하는 각 문서에 대한 피처 벡터를 만든다.

각 문서의 단어들은 단어집 내에서의 부분집합을 나타낼 뿐이기 때문에, 피처벡터는 대부분 0이 된다.
문서에서 단어집에 있는 단어가 있을 확률이 당연히 높지 않기 때문에 그렇다.
이 때문에 보통 문서 용어 데이터를 희소하다(sparse)고 한다.

In [14]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

In [15]:
# NLP 혹은 tokenizer 기능까지는 아니고, string에서 whitespace로 구분된 영역들을 벡터로 추출해줌.
count = CountVectorizer()

CountVectorizer
: 단어들의 카운트(출현 빈도(frequency))로 여러 문서들을 벡터화
카운트 행렬, 단어 문서 행렬 (Term-Document Matrix, TDM))
모두 소문자로 변환시키기 때문에 me 와 Me 는 모두 같은 특성이 된다.

참고 : [sklearn.feature_extraction.text.CountVectorizer](
http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html)

In [16]:
docs = np.array([
    'The moon is dark',
    'The weatherforecast is sweet',
    'The moon is dark and the weatherforecast is sweet'
])

In [17]:
bag = count.fit_transform(docs)

- fit_transform()

결론부터 말씀드리자면 fit_transform()은 train dataset에서만 사용됩니다
우리가 만든 모델은 train data에 있는 mean과 variance를 학습하게 됩니다
이렇게 학습된 Scaler()의 parameter는 test data를 scale하는데 사용됩니다
다시말해 train data로 학습된 Scaler()의 parameter를 통해 test data의 feature 값들이 스케일 되는 것입니다

- transform()

train data로부터 학습된 mean값과 variance값을 test data에 적용하기 위해 transform() 메서드를 사용합니다

In [18]:
# 단어집의 콘텐츠를 나타낸다. value값은 인덱스를 나타낸다.
print(count.vocabulary_)

{'the': 5, 'moon': 3, 'is': 2, 'dark': 1, 'weatherforecast': 6, 'sweet': 4, 'and': 0}


In [22]:
print(sorted(count.vocabulary_))

['and', 'dark', 'is', 'moon', 'sweet', 'the', 'weatherforecast']


In [19]:
# 단어집에 있는 단어들의 각각의 카운트 갯수를 나타낸다.
print(bag.toarray())

[[0 1 1 1 0 1 0]
 [0 0 1 0 1 1 1]
 [1 1 2 1 1 2 1]]


In [21]:
docs

array(['The moon is dark', 'The weatherforecast is sweet',
       'The moon is dark and the weatherforecast is sweet'], dtype='<U49')

2 용어 빈도수-문서 빈도수(tf-idf)로 단어 관련성 평가

문서의 텍스트를 처리할 때, 특정 단어가 여러 개의 문서에서 발생하는 경우를 자주 볼 수 있다.
많이 나온 단어일수록 중요하겠지만, 의미 없는 단어들이 많이 나올 수도 있을 것이다.

그래서 사용하는것이 바로 TF-IDF이다. 
TF-IDF는 해당 엔티티(단어)가 가지는 중요도를 알아내는 것이 목적이다.

TF(Term Frequency)는 특정 단어가 문서 내에서 얼마나 자주 등장하는지에 대한 것이고,
이 값이 높을수록 문서에서 중요한 것이라고 할 수 있다.
하지만 여러 문서들에서 공통적으로 등장한다면, 희소성이 없는 흔한 단어라는 것을 나타낸다.
이것을 DF(Document Frequency)라 하며, DF는 특정 단어가 문서군 내에서 얼마나 등장하는
지에 대한 것이다. IDF는 DF의 역수인데, 전체 문서 갯수를 해당 단어가 등장한 갯수로 나누는 것이다.
TF-IDF는 이 두 값을 곱한 값이다.

수식에 대한 직관으로 풀어서 설명하자면, 
한 문서 내에서 등장하는 여부에 전체 문서에서 희소하게 등장하는 여부를 곱한 것이다.
당연히 TF-IDF 값이 높으면 유니크한 엔티티일 것이다.

TF-IDF를 구현할 때, IDF의 값 등이 역수를 취하다 보니 무한히 커질 수가 있다.
이를 방지하기 위해 표준화를 시켜줘야 하는데, 보통 log를 씌우거나 하는 등으로 진행된다.
또한 DF의 역수를 취할 때 분모가 0이 되지 않도록 1을 더해주는 방법을 취해야 한다.
파이썬에서는 sklearn에서 TfidfTranformer라는 클래스로 구현되어있다.

문서의 길이가 길어질수록 빈도가 높아지는 경향이 있기 때문에, 
raw-term frequency를 정규화하는 과정이 필요하다.
TfidfTranformer에서는 raw-term frequency를 정규화하는 과정이 디폴트로 내장되어있는데,
L2 정규화를 적용한다.

In [23]:
from sklearn.feature_extraction.text import TfidfTransformer

In [24]:
tfidf = TfidfTransformer()

In [25]:
np.set_printoptions(precision=2)

In [26]:
# tf-idf를 계산한 행렬을 나타낸다.
print(tfidf.fit_transform(count.fit_transform(docs)).toarray())

[[0.   0.56 0.43 0.56 0.   0.43 0.  ]
 [0.   0.   0.43 0.   0.56 0.43 0.56]
 [0.4  0.31 0.48 0.31 0.31 0.48 0.31]]


## Bag of Words – BOW

Bag of Words란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법입니다. Bag of Words를 직역하면 단어들의 가방이라는 의미입니다. 단어들이 들어있는 가방을 상상해봅시다. 갖고있는 어떤 텍스트 문서에 있는 단어들을 가방에다가 전부 넣습니다. 그러고나서 이 가방을 흔들어 단어들을 섞습니다. 만약, 해당 문서 내에서 특정 단어가 N번 등장했다면, 이 가방에는 그 특정 단어가 N개 있게됩니다. 또한 가방을 흔들어서 단어를 섞었기 때문에 더 이상 단어의 순서는 중요하지 않습니다.

BoW를 만드는 과정을 이렇게 두 가지 과정으로 생각해보겠습니다.

(1) 우선, 각 단어에 고유한 정수 인덱스를 부여합니다.

(2) 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만듭니다.

한국어 예제를 통해서 BoW에 대해서 이해해보도록 하겠습니다.

문서1 : 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.

문서1에 각 단어에 대해서 인덱스를 부여한 결과는 첫번째 출력 결과

('정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9)

문서1의 BoW는 두번째 출력 결과

[1, 2, 1, 1, 2, 1, 1, 1, 1, 1]  

두번째 출력 결과를 보면, 물가상승률의 인덱스는 4이며, 문서1에서 물가상승률은 2번 언급되었기 때문에 인덱스 4(다섯번째 값)에 해당하는 값이 2임을 알 수 있습니다. (원한다면 한국어에서 불용어에 해당되는 조사들 또한 제거하여 더 정제된 BoW를 만들 수도 있습니다.)


**사이킷런 CountVectorizer 테스트**

In [27]:
text_sample_01 = 'The Matrix is everywhere its all around us, here even in this room. \
                  You can see it out your window or on your television. \
                  You feel it when you go to work, or go to church or pay your taxes.'
text_sample_02 = 'You take the blue pill and the story ends.  You wake in your bed and you believe whatever you want to believe\
                  You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'
text=[]
text.append(text_sample_01); text.append(text_sample_02)
print(text,"\n", len(text))

['The Matrix is everywhere its all around us, here even in this room.                   You can see it out your window or on your television.                   You feel it when you go to work, or go to church or pay your taxes.', 'You take the blue pill and the story ends.  You wake in your bed and you believe whatever you want to believe                  You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'] 
 2


**CountVectorizer객체 생성 후 fit(), transform()으로 텍스트에 대한 feature vectorization 수행**

In [28]:
from sklearn.feature_extraction.text import CountVectorizer

# Count Vectorization으로 feature extraction 변환 수행. 
# 단어 피처에 값을 부여할 때 각 문서에 해당 단어가 나타나는 횟수, 즉, count를 부여하는 경우
cnt_vect = CountVectorizer()
cnt_vect.fit(text)

CountVectorizer()

In [29]:
# 학습 데이터로 fit( )된 CountVectorizer를 이용하여 테스트 데이터를 feature extraction 변환 수행.
# text 으로 완성한 어휘사전 기준으로 vectorize
ftr_vect = cnt_vect.transform(text)

**피처 벡터화 후 데이터 유형 및 여러 속성 확인**

In [30]:
print(type(ftr_vect), ftr_vect.shape)
print(ftr_vect)  ## tuple 로 구성된 csr_matrix 를 보여준다.

<class 'scipy.sparse.csr.csr_matrix'> (2, 51)
  (0, 0)	1
  (0, 2)	1
  (0, 6)	1
  (0, 7)	1
  (0, 10)	1
  (0, 11)	1
  (0, 12)	1
  (0, 13)	2
  (0, 15)	1
  (0, 18)	1
  (0, 19)	1
  (0, 20)	2
  (0, 21)	1
  (0, 22)	1
  (0, 23)	1
  (0, 24)	3
  (0, 25)	1
  (0, 26)	1
  (0, 30)	1
  (0, 31)	1
  (0, 36)	1
  (0, 37)	1
  (0, 38)	1
  (0, 39)	1
  (0, 40)	2
  :	:
  (1, 1)	4
  (1, 3)	1
  (1, 4)	2
  (1, 5)	1
  (1, 8)	1
  (1, 9)	1
  (1, 14)	1
  (1, 16)	1
  (1, 17)	1
  (1, 18)	2
  (1, 27)	2
  (1, 28)	1
  (1, 29)	1
  (1, 32)	1
  (1, 33)	1
  (1, 34)	1
  (1, 35)	2
  (1, 38)	4
  (1, 40)	1
  (1, 42)	1
  (1, 43)	1
  (1, 44)	1
  (1, 47)	1
  (1, 49)	7
  (1, 50)	1


In [31]:
print(cnt_vect.vocabulary_)

{'the': 38, 'matrix': 22, 'is': 19, 'everywhere': 11, 'its': 21, 'all': 0, 'around': 2, 'us': 41, 'here': 15, 'even': 10, 'in': 18, 'this': 39, 'room': 30, 'you': 49, 'can': 6, 'see': 31, 'it': 20, 'out': 25, 'your': 50, 'window': 46, 'or': 24, 'on': 23, 'television': 37, 'feel': 12, 'when': 45, 'go': 13, 'to': 40, 'work': 48, 'church': 7, 'pay': 26, 'taxes': 36, 'take': 35, 'blue': 5, 'pill': 27, 'and': 1, 'story': 34, 'ends': 9, 'wake': 42, 'bed': 3, 'believe': 4, 'whatever': 44, 'want': 43, 'red': 29, 'stay': 33, 'wonderland': 47, 'show': 32, 'how': 17, 'deep': 8, 'rabbit': 28, 'hole': 16, 'goes': 14}


In [32]:
cnt_vect = CountVectorizer(max_features=5, stop_words='english')
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
print(type(ftr_vect), ftr_vect.shape)
print(cnt_vect.vocabulary_)


<class 'scipy.sparse.csr.csr_matrix'> (2, 5)
{'window': 4, 'pill': 1, 'wake': 2, 'believe': 0, 'want': 3}


**ngram_range 확인**

In [33]:
cnt_vect = CountVectorizer(ngram_range=(1,3))
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
print(type(ftr_vect), ftr_vect.shape)
print(cnt_vect.vocabulary_)

<class 'scipy.sparse.csr.csr_matrix'> (2, 201)
{'the': 129, 'matrix': 77, 'is': 66, 'everywhere': 40, 'its': 74, 'all': 0, 'around': 11, 'us': 150, 'here': 51, 'even': 37, 'in': 59, 'this': 140, 'room': 106, 'you': 174, 'can': 25, 'see': 109, 'it': 69, 'out': 90, 'your': 193, 'window': 165, 'or': 83, 'on': 80, 'television': 126, 'feel': 43, 'when': 162, 'go': 46, 'to': 143, 'work': 171, 'church': 28, 'pay': 93, 'taxes': 125, 'the matrix': 132, 'matrix is': 78, 'is everywhere': 67, 'everywhere its': 41, 'its all': 75, 'all around': 1, 'around us': 12, 'us here': 151, 'here even': 52, 'even in': 38, 'in this': 60, 'this room': 141, 'room you': 107, 'you can': 177, 'can see': 26, 'see it': 110, 'it out': 70, 'out your': 91, 'your window': 199, 'window or': 166, 'or on': 86, 'on your': 81, 'your television': 197, 'television you': 127, 'you feel': 179, 'feel it': 44, 'it when': 72, 'when you': 163, 'you go': 181, 'go to': 47, 'to work': 148, 'work or': 172, 'or go': 84, 'to church': 146, '