# chapter 4 - Web Mining Techniques
웹 마이닝 기법

## 1 웹 구조 마이닝
Web structure mining

### 01 웹 크롤러 - Spyder
### 02 인덱서- DB
### 03 페이지 랭킹 알고리즘 - Ranking (명성)
page I's in-link : 외부 페이지에서 I page 연결 수

page I's out-link : 페이지 I 가 연결하는 외부페이지 수
1. P(i) : i 페이지 방문확률
2. P(j) : j 페이지 방문확률
3. Aji: 노트 j에서 노드 i로 전이될 확률 
$$ P(i) = \sum_j A_{ji} P(j) $$

### 04 rank sing (랭크싱크) 
서로 링크한 경우에는 Loop에 빠져서, 랜덤한 점프 전이행렬을 추가
1. (1-d) 페이지를 임의로 방문할 확률
2. A는 확룰로써 총 합은 1이다
$$ P = (\frac{(1-d)E}{N}+dA^T)P $$
3. 아래의 식의 P벡터를 $e^T P=N $으로 정규화를 하면 식이 간단해진다
$$ P = (1-d)e + dA^TP \to P(i) = (1-d)+d\sum_{j=1}A_{ji}P(j) $$

## 2 웹 콘텐츠 마이닝
### 01 Parsing
파싱
### 02 자연어 처리
NLTK

Stemming : 단어를 어간으로 축소

In [1]:
text = """On 1 January 2007, Irish became a full EU official language, 
with a temporary derogation for a renewable period of five years (see Council 
Regulation (EC) No 920/2005 of 13 June 2005 (OJ L 156, 18.6.2005, p. 3)) stating 
that 'the institutions of the European Union shall not be bound by the obligation
to draft all acts in Irish and to publish them in that language in the Official 
Journal of the European Union """

In [2]:
from nltk.tokenize import WordPunctTokenizer
tknzr = WordPunctTokenizer()

words = tknzr.tokenize(text)
print('Words length : ', len(words), '\n\n', words[:20])

Words length :  91 

 ['On', '1', 'January', '2007', ',', 'Irish', 'became', 'a', 'full', 'EU', 'official', 'language', ',', 'with', 'a', 'temporary', 'derogation', 'for', 'a', 'renewable']


In [3]:
from nltk.corpus import stopwords
stopwords = stopwords.words('english')

words_clean = [ w.lower()   for w in words   if w not in stopwords]
print('Clean words length : ', len(words_clean), '\n\n', words_clean[:15])

Clean words length :  64 

 ['on', '1', 'january', '2007', ',', 'irish', 'became', 'full', 'eu', 'official', 'language', ',', 'temporary', 'derogation', 'renewable']


In [4]:
from nltk.stem.porter import PorterStemmer
stemmer = PorterStemmer()

words_clean_stem = [stemmer.stem(w)  for w in words_clean]
print('Clean words stem length : ', len(words_clean_stem), '\n\n', words_clean_stem[:15])
# token 의 갯수는 동일, 접사를 제거한 나머지를 출력

Clean words stem length :  64 

 ['on', '1', 'januari', '2007', ',', 'irish', 'becam', 'full', 'eu', 'offici', 'languag', ',', 'temporari', 'derog', 'renew']


### 03 정보 검색 모델
Information retrieval models

모델목록 : Boolean Model(불리언), Vector space model(벡터), Probabilistic model(확률)

Vector 모델 목록
1. TF-IDF(Term Frequency-Inverse Document Frequency) 단어빈도 - 역문서 빈도
2. LSA(Latent Semantic Analysis) 잠재의미분석
3. Doc2Vec (Word2Vec)

쿼리 단어간의 벡터로 표현하고, <strong>쿼리 벡터</strong>와 <strong>각 문서</strong>간의 <strong>$\cos \theta$ 유사도</strong> 를 측정, 비교한다 

### 04 TF-IDF
아주 <strong>많은 문서에 빈번</strong>하게 등장하는 단어는 <strong>중요도가 낮고</strong>, 
<strong>일부문서에 빈번</strong>한 단어의 <strong>중요도가 높다</strong>
$$ W_{ij} = tf_{ij}*idf_j $$
$ tf_{ij} = \frac {f_{ij}}{max f_{i1}...f_{iV}}$  문서 i에서 <strong>단어 j의 정규화 빈도</strong>

$ idf_j = log\frac{N}{df} $ <strong>역문서 빈도</strong>로 $idf_j$는 단어 j를 포함하는 웹페이지 갯수 (N은 전체 웹페이지 갯수)

### 05 잠재 의미 분석(LSA)
단어와 문서를 효과적으로 설명할 수 있는 정형적인 잠재공간이 존재하고, 비슷한 의미의 단어는 비슷한 위치에 나타난다

문서의 잠재공간 투영은 <strong>절단SVD</strong>를 이용한다