In [1]:
#2021.06.24. THUR 
#Hankyeong

##CH11. 텍스트 분석(Text Analysis)
#00. 패키지 호출
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.corpus import stopwords

#01. Bag of Words의 Counter Vectorizer
#TIP. Bag of Words란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법임. 
#(1) corpus 생성하기.
corpus = ['you know I want you love. because I love you.']

#(2) Count Vectorizer 객체 생성하기. 
count_vect = CountVectorizer()

#(3) Count Vectorizer 객체에 corpus를 넣어 학습하기. 
output = count_vect.fit_transform(corpus)

#(4) output 확인하기. 
output.toarray()

array([[1, 1, 2, 1, 3]], dtype=int64)

In [2]:
#(5) output의 인덱스값 확인하기. 
count_vect.vocabulary_

{'you': 4, 'know': 1, 'want': 3, 'love': 2, 'because': 0}

In [3]:
#MEMO. 추출결과 because(0)는 1번, know(1)는 1번, love(2)는 2번, want(3)는 1번, you(4)는 3번나왔음.  

In [4]:
#02. stop_words 파라미터를 통해 불용어를 직접 제거하기. 
#(1) corpus 생성하기. 
text = ["Family is not an important thing. It's everything."]

#(2) the, a, an, is 등 불용어 직접 설정하기. 
count_vect = CountVectorizer(stop_words=['the','a','an','is'])

#(3) text를 넣어 학습하기. 
output = count_vect.fit_transform(text).toarray()
output

array([[1, 1, 1, 1, 1, 1]], dtype=int64)

In [5]:
#(4) output의 인덱스값 확인하기. 
count_vect.vocabulary_

{'family': 1, 'not': 4, 'important': 2, 'thing': 5, 'it': 3, 'everything': 0}

In [6]:
#03. Scikit-Learn에서 제공하는 불용어 사전? 사용하기. 
#(1) corpus 생성하기. 
text = ["Family is not an important thing. It's everything."]

#(2) 불용어 설정하기.  
count_vect = CountVectorizer(stop_words='english')

#(3) text를 넣어 학습하기. 
output = count_vect.fit_transform(text)
output.toarray()

array([[1, 1, 1]], dtype=int64)

In [7]:
#(4) output의 인덱스값 확인하기. 
count_vect.vocabulary_

{'family': 0, 'important': 1, 'thing': 2}

In [8]:
#04. Count Vectorizer의 ngram 파라미터 이용하기.
#(1) text 할당하기.   
text = ['Machine Learning is fun and not boring.']

#(2) CountVectorizer 객체 할당하고, ngram의 범위 (1,2)로 지정하기.   
count_vect = CountVectorizer(ngram_range=(1,2))

#(3) 추출된 결과 확인하기. 
count_vect.fit_transform(text).toarray()

array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]], dtype=int64)

In [9]:
#(4) 추출된 결과의 인덱스 넘버 확인하기. 
count_vect.vocabulary_

{'machine': 9,
 'learning': 7,
 'is': 5,
 'fun': 3,
 'and': 0,
 'not': 11,
 'boring': 2,
 'machine learning': 10,
 'learning is': 8,
 'is fun': 6,
 'fun and': 4,
 'and not': 1,
 'not boring': 12}

In [10]:
#(4) CountVectorizer 객체 할당하고, ngram의 범위 (1,3)로 지정하기.   
count_vect = CountVectorizer(ngram_range=(1,3), stop_words='english')

#(5) 추출된 결과 확인하기. 
count_vect.fit_transform(text).toarray()

array([[1, 1, 1, 1, 1, 1, 1, 1, 1]], dtype=int64)

In [11]:
#(6) 추출된 결과의 인덱스 넘버 확인하기. 
count_vect.vocabulary_

{'machine': 6,
 'learning': 3,
 'fun': 1,
 'boring': 0,
 'machine learning': 7,
 'learning fun': 4,
 'fun boring': 2,
 'machine learning fun': 8,
 'learning fun boring': 5}

In [12]:
#PLUS. Count Vectorizer의 하이퍼 파라미터 확인하기. 
count_vect.get_params()

{'analyzer': 'word',
 'binary': False,
 'decode_error': 'strict',
 'dtype': numpy.int64,
 'encoding': 'utf-8',
 'input': 'content',
 'lowercase': True,
 'max_df': 1.0,
 'max_features': None,
 'min_df': 1,
 'ngram_range': (1, 3),
 'preprocessor': None,
 'stop_words': 'english',
 'strip_accents': None,
 'token_pattern': '(?u)\\b\\w\\w+\\b',
 'tokenizer': None,
 'vocabulary': None}

In [13]:
#05. Bag of Words의 TF-IDF Vectorizer 
#(1) corpus 생성하기. 
text = ['Machine Learning is fun and not boring.']

#(2) Tfid Vectorizer 객체 생성하기. 
tfid_vect = TfidfVectorizer()

#(3) text를 넣어 학습하기. 
tfid_vect.fit_transform(corpus).toarray()

array([[0.25, 0.25, 0.5 , 0.25, 0.75]])

In [14]:
#(4) 인덱스값 확인하기. 
tfid_vect.vocabulary_

{'you': 4, 'know': 1, 'want': 3, 'love': 2, 'because': 0}

In [15]:
#06. Tfid Vectorizer의 stop_word, ngram 파라미터 이용하기.
#(1) 객체 할당하기. 
tfid_vect = TfidfVectorizer(ngram_range=(1,2), stop_words='english')

#(2) 추출 결과 확인하기. 
tfid_vect.fit_transform(text).toarray()

array([[0.37796447, 0.37796447, 0.37796447, 0.37796447, 0.37796447,
        0.37796447, 0.37796447]])

In [16]:
#(3) 추출된 결과의 인덱스 넘버 확인하기. 
tfid_vect.vocabulary_

{'machine': 5,
 'learning': 3,
 'fun': 1,
 'boring': 0,
 'machine learning': 6,
 'learning fun': 4,
 'fun boring': 2}

In [17]:
#PLUS. tfid Vectorizer의 하이퍼 파라미터 확인하기. 
tfid_vect.get_params()

{'analyzer': 'word',
 'binary': False,
 'decode_error': 'strict',
 'dtype': numpy.float64,
 'encoding': 'utf-8',
 'input': 'content',
 'lowercase': True,
 'max_df': 1.0,
 'max_features': None,
 'min_df': 1,
 'ngram_range': (1, 2),
 'norm': 'l2',
 'preprocessor': None,
 'smooth_idf': True,
 'stop_words': 'english',
 'strip_accents': None,
 'sublinear_tf': False,
 'token_pattern': '(?u)\\b\\w\\w+\\b',
 'tokenizer': None,
 'use_idf': True,
 'vocabulary': None}