In [1]:
'''
빅데이터 - 비정형(텍스트) - HOW?
자연어처리 이용,
이유1. 온갖 잡다한 종류의 텍스트 포함
이유2. for feature selection
[Preprocessing]
[Tokenizing]
1. split, splitlines => 문서-문단(문장의 나열)-단어(어절)의 조합-형태소 조합
   tokenize
2. sent_tokenize, word_tokenize, regex_tokenize, Tweettokenize
   => 구두점(Punk), .?!, '', "", ,
[Lematization]
3. 국민의 국민에게, ...
   (형태학적-Morphological) 형태소분석-형태소분리(Konlpy)
   (통사론적-POS) 품사(체언 위주)
   (구문론적-ParseTree, Gramer) 주어-목적어-보어-술어
[Language Model]
4. LM(Language Model) : 언어의 패턴(생성 확률) => ML(NNLM->W2V)
   Out of Voca - 없는 단어가 정말 많다.
   Ngram - 빈도만으로 확률 가능 / 없는 단어, 패턴 찾기
[Stemming]
5. Stem(어근/어간) 공통된 말을 찾는법
   WPM-BPE 발전
   
6. Zipf's Law
   => 고빈도 단어(빈도의 대부분을 차지) => 중요하지 않음 => Stopwords 제거
7. Normalization
   대소문자, 약어, 신조어(사전에 없는 단어), 명사추정, 불용어(Stopwords)
   => 욕(비속어)사전, ****
8. RE(regular expression)
======> Feature
D = {t1, t2, ...} => Vector, T
'''



In [24]:
from konlpy.corpus import kolaw
from collections import defaultdict
from string import punctuation
import re

In [3]:
corpus = kolaw.open(kolaw.fileids()[0]).read()

a = defaultdict(lambda : 0)

for _ in corpus.split():
    a[_] += 1

In [4]:
for k, v in a.items():
    if k.startswith('국민'):
        print(k, v)

국민생활의 1
국민투표에 3
국민에게 2
국민으로부터 1
국민이 2
국민전체에 1
국민에 1
국민의 7
국민은 35
국민을 1
국민 2
국민경제의 3
국민경제자문회의를 1
국민투표의 1
국민투표사무에 1
국민경제상 1


In [5]:
L = defaultdict(lambda:0)
R = defaultdict(lambda:0)

In [6]:
for _ in corpus.split():
    if len(_) > 1:
        for i in range(1, len(_)-1):
            L[_[:i+1]] += 1
            R[_[i+1:]] += 1 

In [7]:
sorted(L.items(), key=lambda _:_[1],
       reverse = True)[:10]

[('법률', 123),
 ('국회', 77),
 ('의하', 72),
 ('대통', 68),
 ('대통령', 63),
 ('국민', 61),
 ('아니', 58),
 ('헌법', 57),
 ('있다', 57),
 ('한다', 56)]

In [8]:
sorted(R.items(), key=lambda _:_[1],
       reverse = True)[:10]

[('의', 415),
 ('.', 339),
 ('는', 274),
 ('에', 230),
 ('을', 205),
 ('은', 184),
 ('다.', 172),
 ('이', 148),
 ('여', 145),
 ('조', 137)]

In [9]:
from konlpy.tag import Hannanum, Kkma, Okt, Komoran

kkma = Kkma()
hann = Hannanum()
okt = Okt()
kom = Komoran()

In [10]:
s = '팩폭의 수위가 느껴진다.'

In [11]:
kkma.pos(s), okt.pos(s), hann.pos(s), kom.pos(s)

([('팩', 'NNG'),
  ('폭', 'NNG'),
  ('의', 'JKG'),
  ('수위', 'NNG'),
  ('가', 'JKS'),
  ('느껴지', 'VV'),
  ('ㄴ다', 'EFN'),
  ('.', 'SF')],
 [('팩폭', 'Noun'),
  ('의', 'Josa'),
  ('수위', 'Noun'),
  ('가', 'Josa'),
  ('느껴진다', 'Verb'),
  ('.', 'Punctuation')],
 [('팩폭', 'N'),
  ('의', 'J'),
  ('수위', 'N'),
  ('가', 'J'),
  ('느끼', 'P'),
  ('어', 'E'),
  ('지', 'P'),
  ('ㄴ다', 'E'),
  ('.', 'S')],
 [('팩', 'NNG'),
  ('폭', 'NNG'),
  ('의', 'JKG'),
  ('수위', 'NNP'),
  ('가', 'JKS'),
  ('느끼', 'VV'),
  ('어', 'EC'),
  ('지', 'VX'),
  ('ㄴ다', 'EF'),
  ('.', 'SF')])

In [12]:
for _ in s.split():
    if len(_) > 1:
        print(_)
        for i in range(1, len(_)-1):
            print(_[:i+1], L[_[:i+1]])
            print(_[i+1:], R[_[i+1:]])
        print()

팩폭의
팩폭 0
의 415

수위가
수위 0
가 44

느껴진다.
느껴 0
진다. 0
느껴진 0
다. 172
느껴진다 0
. 339



In [13]:
from konlpy.corpus import kobill
from nltk.tokenize import word_tokenize

corpus = ''.join([kobill.open(_).read() for _ in kobill.fileids()])

In [14]:
voca = word_tokenize(corpus)

In [15]:
L = dict()
R = dict()
for term in voca:
    if len(term) > 1:
        for i in range(1, len(term)-1):
            lkey = term[:i+1]
            rkey = term[i+1:]
            if lkey in L.keys():
                L[lkey] += 1
            else:
                L[lkey] = 0
                
            if rkey in R.keys():
                R[rkey] += 1
            else:
                R[rkey] = 0

In [16]:
sorted(L.items(), key=lambda _ : _[1], reverse=True)[:10], sorted(R.items(), key=lambda _ : _[1], reverse=True)[:10]

([('육아', 147),
  ('육아휴', 146),
  ('육아휴직', 125),
  ('20', 102),
  ('제1', 86),
  ('발생', 77),
  ('201', 70),
  ('행정', 69),
  ('이하', 66),
  ('육아휴직자', 55)],
 [('의', 380),
  ('에', 319),
  ('는', 253),
  ('을', 243),
  ('를', 163),
  ('로', 150),
  ('한', 138),
  ('다', 136),
  ('이', 122),
  ('과', 121)])

In [18]:
# L + (R) : (R)
# L + R : 가장 큰 R split
# ==> L 명사범주 추정

In [29]:
s = "가수 에릭남이 '철피엠'에 출연해 입담을 뽐냈다."
s = re.sub('[{}]'.format(re.escape(punctuation)), '', s)

s

'가수 에릭남이 철피엠에 출연해 입담을 뽐냈다'

In [30]:
for term in word_tokenize(s):
    if len(term) > 1:
        print(term)
        prob = dict()
        for i in range(1, len(term)-1):
            rkey = term[i+1:]
            if rkey in R.keys():
                prob[rkey] = R[rkey]
                
        total = sum(prob.values())
        if len(prob.keys()) == 0:
            print('명사 추정')
        else:
            maxkey = max(prob, key=prob.get)
            print({k:v/total for k, v in prob.items()})
            print(re.sub(maxkey, '', term))
        print()

가수
명사 추정

에릭남이
{'이': 1.0}
에릭남

철피엠에
{'에': 1.0}
철피엠

출연해
명사 추정

입담을
{'을': 1.0}
입담

뽐냈다
{'다': 1.0}
뽐냈



#### 불용어

In [34]:
stopwords = ['씨발']
s = '아 씨발 짜증나'
_s = list()

for _ in word_tokenize(s):
    if _ in stopwords:
        _s.append('*' * len(_))
    else:
        _s.append(_)
        
print(' '.join(_s))

아 ** 짜증나


In [43]:
stopwords = ['씨발', '시발']
s = '아 포장 선물포장 씨1발 짜증나'
s = re.sub('[{}]'.format(re.escape(punctuation)), '', s)

print(s)

_s = list()

for _ in word_tokenize(s):
    if re.search(r'({})'.format('|'.join(stopwords)), _):
        _s.append('*' * len(_))
    else:
        _s.append(_)
        
print(' '.join(_s))

아 포장 선물포장 씨1발 짜증나
아 포장 선물포장 씨1발 짜증나


In [53]:
# BPE
import re

def convert_data(data): # {'문자열' : 빈도}
    newdata = dict()
    for k,v in data.items():
        newdata['</w>' + ' '.join(list(k)) + '</w>'] = v
    return newdata

def find_pair(data): # 문자열 => 쌍으로 변환
    pair = defaultdict(lambda : 0)
    for k, v in data.items(): # l o w </w> : 5
        tokens = k.split() # [l, o, w, </w>]
        for i in range(len(tokens) - 1): # (l, 0) : 5, (0, w) : 5
            pair[tuple(tokens[i:i+2])] += v
    return pair

def merge_pair(data, key): # Max pattern => 합치기
    newdata = dict()
    for k, v in data.items():
        newkey = re.sub(' '.join(key), ''.join(key), k) # 'e s'
        newdata[newkey] = v
    return newdata

In [55]:
data = convert_data({'씨발' : 5, '시발' : 2, '씨-발' : 6, '씨!@#$발' : 3})

for _ in range(3):
    pair = find_pair(data)
    key = max(pair, key=pair.get) # 'e s'
    data = merge_pair(data, key)
    
temp = list(set([token for _ in data.keys() 
                 for token in _.split()
                 if len(token) > 1 and token != '</w>']))

In [58]:
# _s = list()
# for token in s.split():
#     skip = False
#     for p in pattern:
#         if p.search('<w>' + token + '<w>'):
#             skip = True
#     if skip:
#         _s.append('*' * len(token))
#     else:
#         _s.append(token)
# print(' '.join(_s))

#### IR Componets

- 1) Crawler + indexer -> Crawler / Indexer
- 2) Doc Analyzer -> (Improved) Bow
- 3) Query -> 2번과 동일 -> DTM(TDM)
- 4) Ranking Model


In [167]:
from requests import get
from requests.compat import urljoin
from os import listdir
from bs4 import BeautifulSoup
import re
from string import punctuation
from konlpy.tag import Okt
from collections import defaultdict

okt = Okt()

pattern1 = re.compile(r'[{}]'.format(re.escape(punctuation)))
pattern2 = re.compile(r'\b(\w|[.])+@(?:[.]?\w+)+\b')
pattern3 = re.compile(r'\bhttps?://\w+(?:[.]?\w+)+\b')
pattern4 = re.compile(r'[^A-Za-z가-힣0-9ㄱ-ㅎㅏ-ㅣ ]')
pattern5 = re.compile(r'\b[a-z][A-Za-z0-9]+\b')
pattern6 = re.compile(r'\s{2,}')

In [130]:
for news in dom.select('div[id^=ranking_]'):
    print(re.search('\d{3}', news['id']).group())
    print(pattern1.sub('', news.find().text))
    
    for a in news.select('li > a'):
        link = urljoin(seed, a['href'])
#         print(urljoin(seed, a['href']))
        print(a.text.strip())
        print(re.search('aid=(\d+)', link).group(1))

100
정치
“조국은 파렴치한” 비장해진 국대떡볶이 대표 페북 상황
0001348190
[단독] 월세 몸소 실천한다던 윤준병, 알고보니 정읍 지역구
0003551166
"오거돈·박원순 성범죄 맞나" 묻자… 끝까지 입닫은 여가부 장관
0003551227
윤준병 “정읍에서 월세 산다…큰 금액 내고 있지는 않아”
0001348185
[속보] ‘월세예찬’ 논란 윤준병, 선거법 위반 혐의 기소
0003490198
"오거돈·박원순, 권력형 성범죄 맞냐" 물음에 끝까지 답 못한 여가부 장관
0000521888
잠자던 '야성' 깨운 윤희숙…통합당 "합리적 '대안 야당' 되자"
0004391547
"부동산 폭등은 MB·박근혜 정부 때문"…오늘도 '남탓'한 與
0004391479
[레이더P] 바뀐 서울 민심…정당지지율 서울서 통합당이 민주당 앞서
0004627658
[1보] 외교부 "성추행 의혹 외교관 오늘부로 즉각 귀임 발령"
0011788427
101
경제
미국인이 42채 '싹쓸이' 中유학생은 8채 사서 임대... 만만했던 한국 부동산
0000521902
갭투자로 아파트 42채 쓸어 담은 미국인, 세무조사 착수
0003551211
일회용마스크 4종 피부염 유발 우려… 리콜 권고
0003024464
2년만에 아파트 42채 갭투자 미국인…외국인 다주택자 세무조사
0011787910
미국인이 갭투자로 42채 구입…외국인도 아파트 쓸어담았다
0003022999
미국 "일본의 수출규제는 WTO 심리 대상 아니다"…일본 편들어
0011787924
[단독] 文 정부 3년 집값 급등 상위 지역 보니…충청권 '싹쓸이'
0004391534
부모가 집 있으면 미혼 20대에 취득세 폭탄?… "중위소득 40% 이상은 독립가구 인정"
0004729825
김현아 “임대차법 최대 수혜자, 강남 10억 고액 전세자”
0003112561
‘갭투자’로 42채…외국인 집주인들 세무조사 착수
0010879130
102
사회
천안 ‘집중호우경보’ 발령…‘침수 우려’ 성정지하차도 통제
0003301200
친구 살해

In [106]:
# 1-1. (Focused) Crawler (BFS) - 네이버 뉴스
urls = ['https://news.naver.com']
visited = list()

path = './naver/'

while urls:
    seed = urls.pop(0) # Queue
    visited.append(seed)
    
    dom = BeautifulSoup(get(seed).text, 'html.parser')
    body = dom.select_one('#articleBodyContents')
    
    if body: # 뉴스
        cid = re.search('rankingSectionId=(\d+)', seed).group(1)
        aid = re.search('aid=(\d+)', seed).group(1)
        file = '{0}-{1}.txt'.format(cid, aid)
        with open(path+file, 'w', encoding='utf-8') as f:
            f.write(body.text)
            
    else:# 링크
        for a in dom.select('div[id^=ranking_] li > a'):
            link = urljoin(seed, a['href'])
            if link not in urls and link not in visited:
                urls.append(link)

In [173]:
# 1-2. Indexer
def fileids(path = './naver/'):
    return [path + _ for _ in listdir(path) if re.search('[.]txt$', _)]

def cleaning(doc):
    return pattern6.sub(' ', 
            pattern1.sub(' ', 
            pattern5.sub(' ', 
            pattern4.sub(' ', 
            pattern3.sub(' ',
            pattern2.sub(' ', doc)))))).strip()

def tokenizer1(doc): # 어절
    return doc.split()

def tokenizer2(tokens, n=2): # 어절 Ngarm
    ngram = list()
    for i in range(len(tokens) - (n-1)):
        ngram.append(tokens[i:i+n])
    return ngram

def tokenizer3(tokens, n=2): # 음절 Ngram
    ngram = list()
    for i in range(len(doc) - (n-1)):
        ngram.append(tokens[i:i+n])
    return ngram

def tokenizer4(doc): # 형태소
    return [_ for _ in okt.morphs(doc) if 1 < len(_) < 10]

def tokenizer5(doc): # 명사
    return [_ for _ in okt.nouns(doc) if 1 < len(_) < 10]

In [174]:
with open(fileids()[0], 'r',encoding='utf8') as f:
    news = cleaning(f.read())

In [178]:
tokens = defaultdict(lambda:0)
for _ in tokenizer1(news):
    tokens[_] += 1
print(len(tokens), sum(tokens.values()))

for _ in tokenizer2(news):
    tokens[_] += 1
print(len(tokens), sum(tokens.values()))

for _ in tokenizer3(news):
    tokens[_] += 1
print(len(tokens), sum(tokens.values()))

for _ in tokenizer4(news):
    tokens[_] += 1
print(len(tokens), sum(tokens.values()))

for _ in tokenizer5(news):
    tokens[_] += 1
print(len(tokens), sum(tokens.values()))

257 358
823 1745
823 3132
837 3485
837 3743
