# 자연어 데이터 처리
- nltk 모듈
- konlpy 모듈: 한국어 처리 모듈

### 토큰화(Tokenization)
- 크롤링 등으로 얻은 데이터를 사용하고자 하는 용도에 맞게 처리하는 과정
- 토큰화(Tokenization)/정제(Cleaning)/정규화(Normalization) 진행
- 토큰화: 주어진 데이터에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 함
- 단어 토큰화의 경우 token은 단어를 의미한다고 생각하면 됨

### 한글 형태소 분석
- 형태소(morpheme): 뜻을 가진 가장 작은 말의 단위
* 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소(체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등)
* 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간 등을 말함

#### Konlpy 형태소 분석

In [None]:
# 한글 폰트 설치 및 재실행
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

In [None]:
# nltk, Konlpy 설치
#!pip install nltk
#!pip install Konlpy

In [None]:
## konlpy을 이용한 형태소 확인
from konlpy.tag import Okt

text="한국어 분석을 시작합니다. 형태소별로 추출합니다."

okt=Okt()

# 명사 추출
okt.nouns(text)  

Okt 형태소 분석기 토큰화 기능
- morphs : 형태소 추출
-  pos : 품사 태깅(Part-of-speech tagging)
-  nouns : 명사 추출

In [None]:
# 단어를 분류하고 형태소별로 출력
okt.pos(text)

### 파일을 가져와 처리하기
- 파일: it-life-hack-6292880.txt

In [None]:
# 파일 오픈
f = open('./data/it-life-hack-6292880.txt', encoding='utf-8')

# 파일 내용 읽어오기
text = f.read()

# 데이터 내용 확인하기
print(text)

# 파일 닫기
f.close()

In [None]:
from konlpy.tag import Okt

# 인스턴스 객체 생성
okt = Okt()

# 형태소(토큰) 분석
tokens = okt.pos(text)
#print(tokens)

for token in tokens:
    print(token)

### 텍스트 데이터 정제 및 정규화
- 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듬

1. 규칙에 기반한 표기가 다른 단어들의 통합
2. 영문인 경우 대, 소문자 통합
3. 불필요한 단어(노이즈 데이터)의 제거
 * 등장 빈도가 적은 단어
 * 길이가 짧은 단어

- 정규 표현법을 통한 노이즈 데이터 제거 

In [None]:
import re

# 숫자, 영문자 등 문자열 제거
reg_text = re.sub(r'[0-9a-zA-Z]+', "", text)
print(reg_text)
print("===============================================")

# 불필요한 기호 제거
reg_text = re.sub(r'[:;+/\.,-![]]', "", reg_text)
print(reg_text)

In [None]:
### \n/\s를  " " 로 변경
reg_text = re.sub(r'[\n\s]+', "", reg_text)
print(reg_text)

### 한국어 어간 어미 추출
- 어간(stem) : 용언(동사, 형용사)을 활용할 때, 원칙적으로 모양이 변하지 않는 부분
- 어미(ending): 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분

In [None]:
from konlpy.tag import Okt

# 인스턴스 객체 생성
okt = Okt()

# 숫자, 영문자 등 문자열 제거
reg_text = re.sub(r'[^가-힣]', "", text)
print(reg_text)

# 형태소(토큰) 분석
tokens = okt.morphs(reg_text)
for token in tokens:
    print(token)

### 불용어(Stopword) 제거
- 갖고 있는 데이터에서 유의미한 단어 토큰만을 선별하기 위해서는 큰 의미가 없는 단어 토큰을 제거하는 작업
- 한글 보편적 불용어: https://www.ranks.nl/stopwords/korean


In [None]:
f=open('Stopwords.txt', encoding='utf-8')
stopword=f.read()
print(stopword.split("\n"))
stopword=stopword.split("\n")

In [None]:
tokens_word =[]

for token in tokens:
    if token not in stopword:
        tokens_word.append(token)

tokens_word

### 단어에 대한 빈도수

In [None]:
from collections import Counter
from konlpy.tag import Okt

okt = Okt()

tokens_pos = okt.pos(reg_text)
tokens_nouns = okt.nouns(reg_text)

tokens_nouns

# 단어에 대한 출현 건수 확인(빈도수)
cnt = Counter(tokens_nouns)
cnt   # 데이터 빈도스를 딕셔너리 구조로 출력

In [None]:
# 상위 50개
print(cnt.most_common(50))
#print(cnt.most_common())

In [None]:
import pandas as pd

df = pd.DataFrame(cnt.most_common())
df

### 워드클라우드

### 기사 전체를 이용한 형태소 분석

In [None]:
import os
import re
from konlpy.tag import Okt
import pandas as pd

In [None]:
f=open('Stopwords.txt', encoding='utf-8')
stopword=f.read()
print(stopword.split("\n"))
stopword=stopword.split("\n")

In [None]:
okt = Okt()

# 기사별 폴더 지정
fdir = ['it-life', 'move']

doc_tmp = []   # 데이터 설명변수
label = []     # 레이블(목적) 변수

# 각 폴더에 파일을 각각 읽어와 표시
for i, v in enumerate(fdir):

    # 폴더에 있는 파일 목록 가져오기
    files = os.listdir("./" + v )
    
    # 파일을 하나씩 읽어오기
    for file in files:
        tmp1 = []      # 파일단위 token 저장
        tmp2 = ""      # 파일단위 token 텍스트 저장

        f = open("./" + v + "/" + file, 'r', encoding='utf-8')
        text = f.read()

        # 불필요한 문자열 제거하기(정규 표현식 사용)
        reg_text = re.sub(r'[0-9a-zA-Z]', "", text)    # [0-9a-zA-Z] => \w
        reg_text = re.sub(r'[ \t\n\r]', "", reg_text)  # [ \t\n\r\f\v]  => [\s]
        reg_text = re.sub(r'[::/\-+.[]!?■]', "", reg_text)

        # 제거된 문자열을 기준으로 명사만 추출하는 형태소 분석
        tokens=okt.nouns(reg_text)
        for token in tokens:
            if token not in stopword:   # 불용어 처리
                tmp1.append(token)      # tmp1 리스트에 추가
            
        tmp2 = " ".join(tmp1)           # 리스트 형식을 " "로 구분된 텍스트로 변경
        doc_tmp.append(tmp2)            # 기사별/파일별 로 단어 추가

        label.append(i)   # 레이블에 폴더 index 값 추가
        f.close()         # 파일 닫기

pd.DataFrame(doc_tmp).head()  # DataFrame 으로 변경후 확인

In [None]:
# 첫번째 기사/마지막 기사 내용 확인하기
print(doc_tmp[0])
print(doc_tmp[-1])

In [None]:
# 첫번째 기사/마지막 기사에 대한 레이블 확인
print(label[0])
print(label[-1])

In [None]:
# 전체 데이터 개수 확인
print(len(doc_tmp))

In [None]:
print(label)

In [None]:
pd.concat([pd.DataFrame(doc_tmp), pd.DataFrame(label)], axis=1).head()

In [None]:
import numpy as np

news_data = np.concatenate((np.array(doc_tmp).reshape(400, 1), np.array(label).reshape(-1, 1)), axis=1)
news_data[:5]

In [None]:
np.array(doc_tmp).reshape(-1,1).shape

### 문서단어행렬(Document-Term Matrix, DTM)

In [None]:
# 첫번째 데이터에 대한 빈도수
from collections import Counter

word_c1 = Counter(doc_tmp[0].split())
print(word_c1)
word_c1_lst=word_c1.most_common()
print(word_c1_lst)

word_c1_df = pd.DataFrame(word_c1_lst)
display(word_c1_df.head())

word_c1_df=word_c1_df.set_index(0)
display(word_c1_df.head())

word_c1_df1=word_c1_df.T      # word_c1_df.transpose()
word_c1_df1

In [None]:
# 2번째 데이터가져와 행/열 변환 후 기존 데이터에 추가하기
from collections import Counter

word_c1_df1 = pd.DataFrame()

for i in range(len(doc_tmp)):
    word_c1 = Counter(doc_tmp[i].split())
    word_c1_lst=word_c1.most_common()
    word_c1_df = pd.DataFrame(word_c1_lst)
    word_c1_df=word_c1_df.set_index(0)
    # 기존 1번째 데이터의 행/열 변환 값에 2번째 데이터 추가
    word_c1_df1= pd.concat([word_c1_df1, word_c1_df.T], axis=0, ignore_index=True)

display(word_c1_df1)


In [None]:
# Na값 0으로 변경
word_c1_df1=word_c1_df1.fillna(0)

# 모든 데이터를 int형으로 변경
word_c1_df1=word_c1_df1.astype(int)
display(word_c1_df1.head())


# 단어 길이가 2개 이상인 데이터만 추출
colName = word_c1_df1.columns
new_colName = []
for cn in colName:
    if len(cn) >= 2:
        new_colName.append(cn)

# 열 이름을 기준으로 오름차순 정렬

new_colName=new_colName.sort()

# 필요한 데이터만 추출해 word_c1_df_new에 저장
word_c1_df_new = word_c1_df1[new_colName].copy()
print(len(word_c1_df_new.columns))

In [None]:
# 컬럼명을 index로 변경
colName_num =[]

for i, name in enumerate(new_colName):
    colName_num.append(i)

word_c1_df_new.columns = colName_num

In [None]:
# 어휘 빈도 확인(TF)
display(word_c1_df_new.head())
word_c1_df_new.values

### 문서 역빈도(IDF)

In [None]:
# 역문서 빈도(IDF)
# 특정 단어가 가지는 문서에서 출현하는 빈도수: 기사 1개에서 단어가 있으면 1, 없음면 0 => 모든 기사를 기준으로 더한 값
# 총문서수(행의 갯수)
# log(총문서수/(특정 단어가 가지는 문서에서 출현하는 빈도수)) + 1



In [None]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

# 단어의 출현건수 카운트
cv = CountVectorizer()
doct_cv = cv.fit_transform(np.array(doc_tmp))
doct_cnt = doct_cv.toarray()

print(doct_cnt[:5])

display(pd.DataFrame(doct_cnt).head())

In [None]:
# 데이터 사이즈
print(pd.DataFrame(doct_cnt).shape)

In [None]:
print(cv.get_feature_names()[:50])
print(colName[:50])

In [None]:
# 단어의 출현 빈도수 카우트
# 단어의 출현건수 카운트
cv = CountVectorizer(min_df=0.01, max_df=0.5)
doct_cv = cv.fit_transform(np.array(doc_tmp))
doct_cnt = doct_cv.toarray()

display(pd.DataFrame(doct_cnt).head())

In [None]:
pd.DataFrame(doct_cnt).shape

In [None]:
print(cv.get_feature_names()[:50])

### 어휘빈도-문서역빈도(TF-IDF) 분석(교재 173p~)
- DF-IDF = TF * IDF
- 엑셀파일 참조

In [None]:
# TF-IDF: TF * IDF
# 판다스 또는 numpy를 이용해 직접 작업하세요.



In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

## TF-IDF
tv = TfidfVectorizer(min_df=0.01, max_df=0.5, sublinear_tf=True)
doc_tv = tv.fit_transform(np.array(doc_tmp))
doc_Tfidf = doc_tv.toarray()

display(pd.DataFrame(doc_Tfidf).head())