# 02. 파이썬을 이용한 자연어처리 기초

# 차례
* 텍스트 파일 핸들링
* 파이썬으로 영어와 한국어 텍스트 다루기
    - A. 자연어처리를 위한 파이썬 패키지 준비 & Load text
    - B. Text exploration
    - C. 형태소 분석

# 텍스트 파일 핸들링

### 1. 02_data/signal.txt 파일을 읽어서 출력하기

In [None]:
%ls 02_data/

In [None]:
fn = '02_data/signal.txt'
with open(fn) as f :
    for line in f : 
        print(line.strip())

------------------------

# 파이썬으로 영어와 한국어 텍스트 다루기

#### 참고자료 [1] 파이썬으로 영어와 한국어 텍스트 다루기 

#### Text analysis process

<img src="https://www.lucypark.kr/courses/2015-dm/images/text-process.png"  width= 300 />

# 전처리는 아래의 세부 과정으로 다시 한 번 나뉜다. 
1. Load text
2. Tokenize text (ex: stemming, morph analyzing)
3. Tag tokens (ex: POS, NER)
4. Token(Feature) selection and/or filter/rank tokens (ex: stopword removal, TF-IDF)
5. ...and so on (ex: calculate word/document similarities, cluster documents)


## A. 자연어처리를 위한 파이썬 패키지 준비 & Load text

### 1) 영어 자연어처리를 위한 nltk 셋팅

In [None]:
# Text corpora 다운로드 (아래의 두 데이터 다운로드하자)
# gutenberg
# maxent_treebank_pos_tagger

In [None]:
import nltk

nltk.download('gutenberg')
nltk.download('maxent_treebank_pos_tagger')

### 2) 한글 자연어처리를 위한 konlpy 셋팅

In [None]:
import konlpy

### 3) 토픽 모델링을 위한 gensim 셋팅

In [None]:
import gensim

## B. Text exploration

### 1) Read document

* 실습은 이 데이터들을 사용한다.
    - 영어: Jane Austen의 소설 Emma
    - 한국어 1: 대한민국 국회 제 1809890호 의안
    - 한국어 2: 트와이스의 시그널 가사

In [None]:
# 영어 데이터 로딩
# files_en = austen-emma.txt
# doc_en

In [None]:
from nltk.corpus import gutenberg   # Docs from project gutenberg.org
files_en = gutenberg.fileids()      # Get file ids

In [None]:
files_en

In [None]:
doc_en = gutenberg.open('austen-emma.txt').read()

In [None]:
doc_en[:100]

In [None]:
# 한국어 1 데이터 로딩
# files_ko_pol = "1809890.txt"
# doc_ko_pol

In [None]:
from konlpy.corpus import kobill    # Docs from pokr.kr/bill
files_ko_pol = kobill.fileids()         # Get file ids

In [None]:
files_ko_pol

In [None]:
doc_ko_pol = kobill.open('1809890.txt').read()

In [None]:
doc_ko_pol[:100]

In [None]:
# 한국어 2 데이터 로딩
# files_ko_sig = '02_data/signal.txt'
# doc_ko_sig

### 2) Tokenize

문서를 토큰으로 나누는 방법은 다양하다. 여기서는 영어에는 nltk.tokenize.RegexpTokenizer, 한국어에는 konlpy.tag.Kkma.morph를 사용해보자.

In [None]:
# 영어 

In [None]:
from nltk.tokenize import RegexpTokenizer
t = RegexpTokenizer("[\w]+")
tokens_en = t.tokenize(doc_en)

In [None]:
tokens_en

In [None]:
# 한글 1

In [None]:
from konlpy.tag import Kkma; 

In [None]:
kkma = Kkma()

In [None]:
tokens_ko_pol = kkma.morphs(doc_ko_pol)

In [None]:
tokens_ko_pol

In [None]:
# 한글 2

### 3) Load tokens with nltk.Text()

nltk.Text()는 문서 하나를 편리하게 탐색할 수 있는 다양한 기능을 제공한다.
* nltk.Text()
* Tokens
* Count
* Concordance
* Find similar words

#### nltk.Text() 

In [None]:
# 영어

In [None]:
en = nltk.Text(tokens_en)

In [None]:
en

In [None]:
# 한글 1

In [None]:
ko_pol = nltk.Text(tokens_ko_pol, name='대한민국 국회 의안 제 1809890호')

In [None]:
ko_pol

In [None]:
# 한글 2

#### Tokens

In [None]:
# 영어

In [None]:
print(len(en.tokens))       # returns number of tokens (document length)
print(len(set(en.tokens)))  # returns number of unique tokens
en.vocab()                  # returns frequency distribution

In [None]:
# 한글 1

In [None]:
print(len(ko_pol.tokens))       # returns number of tokens (document length)
print(len(set(ko_pol.tokens)))  # returns number of unique tokens
ko_pol.vocab()                  # returns frequency distribution

In [None]:
# 한글 2

#### Count

In [None]:
# 영어

In [None]:
en.count('Emma')        # Counts occurrences

In [None]:
# 한글 1

In [None]:
ko_pol.count('초등학교')   # Counts occurrences

In [None]:
# 한글 2

#### Concordance

In [None]:
# 영어

In [None]:
en.concordance('Emma', lines=5)

In [None]:
# 한글 1

In [None]:
ko_pol.concordance('초등학교')

In [None]:
# 한글 2

#### Find similar words

In [None]:
# 영어

In [None]:
en.similar('Emma')
en.similar('Frank')

In [None]:
# 한글 1

In [None]:
ko_pol.similar('자녀')
ko_pol.similar('육아휴직')

In [None]:
# 한글 2

#### Collocations

In [None]:
# stopwords를 다운받아야 한다.
nltk.download('stopwords')

In [None]:
# 영어

In [None]:
en.collocations()

In [None]:
# 한글 1

In [None]:
ko_pol.collocations()

In [None]:
# 한글 2

## C. 형태소 분석

In [None]:
# 영어 

In [None]:
tokens_en[:10]

In [None]:
# 어간 추출(stemming)은 여러가지 이유로 변화된 단어의 접미사나 어미를 제거하여 
# 같은 의미를 가지는 형태소의 실제 형태를 동일하게 만드는 방법이다. 
# NLTK는 PorterStemmer LancasterStemmer 등을 제공한다. 
from nltk.stem import PorterStemmer
st = PorterStemmer()
[st.stem(w) for w in tokens_en]

In [None]:
# 어간 추출은 원형 복원(lemmatizing)의 일종이다. 
# 원형 복원은 같은 의미를 가지는 여러 단어를 가장 근본적인 형태 즉 사전형으로 통일하는 작업이다.

# WordNetLemmatizer 사용을 위해 필요함
nltk.download('wordnet')

In [None]:
from nltk.stem import WordNetLemmatizer
lm = WordNetLemmatizer()
[lm.lemmatize(w) for w in tokens_en[:10]]

In [None]:
# 품사(POS, part-of-speech)는 낱말을 문법적인 기능이나 형태, 뜻에 따라 구분한 것이다.

# averaged_perceptron_tagger를 사용하기 위해.
nltk.download('averaged_perceptron_tagger')

In [None]:
tags_en = nltk.pos_tag(tokens_en[:10])

In [None]:
tags_en

In [None]:
# 한글 1 
#예) tags = kkma.pos("작고 노란 강아지가 페르시안 고양이에게 짖었다")

In [None]:
tags = kkma.pos("작고 노란 강아지가 페르시안 고양이에게 짖었다")
tags

In [None]:
tokens_ko_pol[:10]

In [None]:
tags_ko_pol = [kkma.pos(token)[0] for token in tokens_ko_pol[:10]] 

In [None]:
tags_ko_pol

In [None]:
# 한글 2

# 참고자료 
* [1] 파이썬으로 영어와 한국어 텍스트 다루기 - https://www.lucypark.kr/courses/2015-dm/text-mining.html
* [2] NLTK 자연어 처리 패키지 - https://datascienceschool.net/view-notebook/118731eec74b4ad3bdd2f89bab077e1b/ 