# 02. 파이썬을 이용한 자연어처리 기초

# 차례
* 텍스트 파일 핸들링
* 파이썬으로 영어와 한국어 텍스트 다루기
    - A. 자연어처리를 위한 파이썬 패키지 준비 & Load text
    - B. Text exploration
    - C. 형태소 분석

# 텍스트 파일 핸들링

### 1. 02_data/signal.txt 파일을 읽어서 출력하기

In [1]:
%ls 02_data/

signal.txt


In [2]:
fn = '02_data/signal.txt'
with open(fn) as f :
    for line in f : 
        print(line.strip())

Trying to let you know
Sign을 보내 signal 보내
I must let you know
Sign을 보내 signal 보내
Sign을 보내 signal 보내
Sign을 보내 signal 보내
Sign을 보내 signal 보내
I must let you know
Sign을 보내 signal 보내
근데 전혀 안 통해
눈빛을 보내 눈치를 주네
근데 못 알아듣네
답답해서 미치겠다 정말
왜 그런지 모르겠다 정말
다시 한 번 힘을 내서
Sign을 보내 signal 보내
눈짓도 손짓도 어떤 표정도
소용이 없네 하나도 안 통해
눈치도 코치도 전혀 없나 봐
더 이상 어떻게 내 맘을 표현해
언제부턴가 난 네가 좋아
지기 시작했어 바보야
왜 이렇게도 내 맘을 몰라
언제까지 이렇게 둔하게
나를 친구로만 대할래
내가 원하는 건 그게 아닌데
Signal 보내 signal 보내
찌릿 찌릿 찌릿 찌릿
난 너를 원해 난 너를 원해
왜 반응이 없니
만날 때 마다 마음을 담아
찌릿 찌릿 찌릿 찌릿
기다리잖아 다 보이잖아
왜 알지 못하니
Trying to let you know
Sign을 보내 signal 보내
I must let you know
Sign을 보내 signal 보내
널 보며 웃으면 알아채야지
오늘만 몇 번째 널 보며 웃는데
자꾸 말을 걸면 좀 느껴야지
계속 네 곁에 머물러있는데
언제부턴가 난 네가 좋아
지기 시작했어 바보야
왜 이렇게도 내 맘을 몰라
언제까지 이렇게 둔하게
나를 친구로만 대할래
내가 원하는 건 그게 아닌데
Signal 보내 signal 보내
찌릿 찌릿 찌릿 찌릿
난 너를 원해 난 너를 원해
왜 반응이 없니
만날 때 마다 마음을 담아
찌릿 찌릿 찌릿 찌릿
기다리잖아 다 보이잖아
왜 알지 못하니
찌릿 찌릿 찌릿 찌릿
왜 반응이 없니
찌릿 찌릿 찌릿 찌릿
왜 알지 못하니
Sign을 보내 signal 보내
근데 전혀 안 통해
눈빛을 보내 눈치를 주네
근데 못 알아듣네
답답해서 미치겠다 정말
왜 그런지 모르겠다 정말
다시 한 번 힘을 내서
Sign을 보

------------------------

# 파이썬으로 영어와 한국어 텍스트 다루기

#### 참고자료 [1] 파이썬으로 영어와 한국어 텍스트 다루기 

#### Text analysis process

<img src="https://www.lucypark.kr/courses/2015-dm/images/text-process.png"  width= 300 />

# 전처리는 아래의 세부 과정으로 다시 한 번 나뉜다. 
1. Load text
2. Tokenize text (ex: stemming, morph analyzing)
3. Tag tokens (ex: POS, NER)
4. Token(Feature) selection and/or filter/rank tokens (ex: stopword removal, TF-IDF)
5. ...and so on (ex: calculate word/document similarities, cluster documents)


## A. 자연어처리를 위한 파이썬 패키지 준비 & Load text

### 1) 영어 자연어처리를 위한 nltk 셋팅

In [None]:
# Text corpora 다운로드 (아래의 두 데이터 다운로드하자)
# gutenberg
# maxent_treebank_pos_tagger

In [3]:
import nltk

nltk.download('gutenberg')
nltk.download('maxent_treebank_pos_tagger')

[nltk_data] Downloading package gutenberg to /home/jovyan/nltk_data...
[nltk_data]   Package gutenberg is already up-to-date!
[nltk_data] Downloading package maxent_treebank_pos_tagger to
[nltk_data]     /home/jovyan/nltk_data...
[nltk_data]   Package maxent_treebank_pos_tagger is already up-to-
[nltk_data]       date!


True

### 2) 한글 자연어처리를 위한 konlpy 셋팅

In [4]:
import konlpy

### 3) 토픽 모델링을 위한 gensim 셋팅

In [5]:
import gensim

## B. Text exploration

### 1) Read document

* 실습은 이 데이터들을 사용한다.
    - 영어: Jane Austen의 소설 Emma
    - 한국어 1: 대한민국 국회 제 1809890호 의안
    - 한국어 2: 트와이스의 시그널 가사

In [None]:
# 영어 데이터 로딩
# files_en = austen-emma.txt
# doc_en

In [6]:
from nltk.corpus import gutenberg   # Docs from project gutenberg.org
files_en = gutenberg.fileids()      # Get file ids

In [7]:
files_en

['austen-emma.txt',
 'austen-persuasion.txt',
 'austen-sense.txt',
 'bible-kjv.txt',
 'blake-poems.txt',
 'bryant-stories.txt',
 'burgess-busterbrown.txt',
 'carroll-alice.txt',
 'chesterton-ball.txt',
 'chesterton-brown.txt',
 'chesterton-thursday.txt',
 'edgeworth-parents.txt',
 'melville-moby_dick.txt',
 'milton-paradise.txt',
 'shakespeare-caesar.txt',
 'shakespeare-hamlet.txt',
 'shakespeare-macbeth.txt',
 'whitman-leaves.txt']

In [8]:
doc_en = gutenberg.open('austen-emma.txt').read()

In [9]:
doc_en[:100]

'[Emma by Jane Austen 1816]\n\nVOLUME I\n\nCHAPTER I\n\n\nEmma Woodhouse, handsome, clever, and rich, with a'

In [None]:
# 한국어 1 데이터 로딩
# files_ko_pol = "1809890.txt"
# doc_ko_pol

In [10]:
from konlpy.corpus import kobill    # Docs from pokr.kr/bill
files_ko_pol = kobill.fileids()         # Get file ids

In [11]:
files_ko_pol

['1809895.txt',
 '1809899.txt',
 '1809896.txt',
 '1809897.txt',
 '1809892.txt',
 '1809890.txt',
 '1809894.txt',
 '1809893.txt',
 '1809891.txt',
 '1809898.txt']

In [12]:
doc_ko_pol = kobill.open('1809890.txt').read()

In [13]:
doc_ko_pol[:100]

'지방공무원법 일부개정법률안\n\n(정의화의원 대표발의 )\n\n 의 안\n 번 호\n\n9890\n\n발의연월일 : 2010.  11.  12.  \n\n발  의  자 : 정의화․이명수․김을동 \n\n이'

In [None]:
# 한국어 2 데이터 로딩
# files_ko_sig = '02_data/signal.txt'
# doc_ko_sig

### 2) Tokenize

문서를 토큰으로 나누는 방법은 다양하다. 여기서는 영어에는 nltk.tokenize.RegexpTokenizer, 한국어에는 konlpy.tag.Kkma.morph를 사용해보자.

In [None]:
# 영어 

In [15]:
from nltk.tokenize import RegexpTokenizer
t = RegexpTokenizer("[\w]+")
tokens_en = t.tokenize(doc_en)

In [16]:
tokens_en

['Emma',
 'by',
 'Jane',
 'Austen',
 '1816',
 'VOLUME',
 'I',
 'CHAPTER',
 'I',
 'Emma',
 'Woodhouse',
 'handsome',
 'clever',
 'and',
 'rich',
 'with',
 'a',
 'comfortable',
 'home',
 'and',
 'happy',
 'disposition',
 'seemed',
 'to',
 'unite',
 'some',
 'of',
 'the',
 'best',
 'blessings',
 'of',
 'existence',
 'and',
 'had',
 'lived',
 'nearly',
 'twenty',
 'one',
 'years',
 'in',
 'the',
 'world',
 'with',
 'very',
 'little',
 'to',
 'distress',
 'or',
 'vex',
 'her',
 'She',
 'was',
 'the',
 'youngest',
 'of',
 'the',
 'two',
 'daughters',
 'of',
 'a',
 'most',
 'affectionate',
 'indulgent',
 'father',
 'and',
 'had',
 'in',
 'consequence',
 'of',
 'her',
 'sister',
 's',
 'marriage',
 'been',
 'mistress',
 'of',
 'his',
 'house',
 'from',
 'a',
 'very',
 'early',
 'period',
 'Her',
 'mother',
 'had',
 'died',
 'too',
 'long',
 'ago',
 'for',
 'her',
 'to',
 'have',
 'more',
 'than',
 'an',
 'indistinct',
 'remembrance',
 'of',
 'her',
 'caresses',
 'and',
 'her',
 'place',
 'had'

In [None]:
# 한글 1

In [17]:
from konlpy.tag import Kkma; 

In [18]:
kkma = Kkma()

In [19]:
tokens_ko_pol = kkma.morphs(doc_ko_pol)

In [21]:
tokens_ko_pol[:30]

['지방',
 '공무원',
 '법',
 '일부',
 '개정',
 '법률안',
 '(',
 '정의',
 '화',
 '의원',
 '대표',
 '발의',
 ')',
 '의',
 '안',
 '벌',
 'ㄴ',
 '호',
 '9890',
 '발',
 '의',
 '연월일',
 ':',
 '2010',
 '.',
 '11',
 '.',
 '12',
 '.',
 '발']

In [None]:
# 한글 2

### 3) Load tokens with nltk.Text()

nltk.Text()는 문서 하나를 편리하게 탐색할 수 있는 다양한 기능을 제공한다.
* nltk.Text()
* Tokens
* Count
* Concordance
* Find similar words

#### nltk.Text() 

In [None]:
# 영어

In [22]:
en = nltk.Text(tokens_en)

In [23]:
en

<Text: Emma by Jane Austen 1816 VOLUME I CHAPTER...>

In [None]:
# 한글 1

In [24]:
type(tokens_ko_pol)

list

In [25]:
tokens_ko_pol[:3]

['지방', '공무원', '법']

In [26]:
ko_pol = nltk.Text(tokens_ko_pol, name='대한민국 국회 의안 제 1809890호')

In [27]:
ko_pol

<Text: 대한민국 국회 의안 제 1809890호>

In [None]:
# 한글 2

#### Tokens

In [None]:
# 영어

In [28]:
print(len(en.tokens))       # returns number of tokens (document length)
print(len(set(en.tokens)))  # returns number of unique tokens
en.vocab()                  # returns frequency distribution

161983
7723


FreqDist({'fortuitous': 1,
          'food': 3,
          'nerves': 6,
          'CHURCHILL': 1,
          'remained': 17,
          'behind': 19,
          'docile': 1,
          'supplied': 5,
          'dull': 9,
          'shop': 8,
          'profit': 2,
          'effectually': 3,
          'stimulate': 1,
          'signify': 3,
          'exultation': 4,
          'saffron': 1,
          'summons': 2,
          'road': 19,
          'undergo': 1,
          'pale': 4,
          'Increase': 1,
          'atmosphere': 1,
          'Place': 1,
          'fairly': 9,
          'caro': 3,
          'maids': 1,
          'incongruity': 1,
          'small': 30,
          'lurking': 1,
          'calculate': 2,
          'proof': 22,
          'assertion': 1,
          'so': 924,
          'beginnings': 1,
          'underrated': 2,
          'conviction': 16,
          'Midsummer': 3,
          'Brown': 1,
          'nay': 5,
          'condescension': 2,
          'rooms': 15,
      

In [None]:
# 한글 1

In [29]:
print(len(ko_pol.tokens))       # returns number of tokens (document length)
print(len(set(ko_pol.tokens)))  # returns number of unique tokens
ko_pol.vocab()                  # returns frequency distribution

2033
448


FreqDist({'\x0c': 7,
          '%': 10,
          '(': 27,
          ')': 27,
          '+': 3,
          ',': 11,
          '-': 22,
          '--': 123,
          '-.-': 1,
          '-4649': 1,
          '.': 53,
          '/': 1,
          '0': 3,
          '0.056': 1,
          '0.6': 1,
          '02-788': 1,
          '1': 10,
          '1,658': 1,
          '1,929': 1,
          '1,957': 1,
          '10': 4,
          '10.7': 2,
          '11': 2,
          '12': 1,
          '19': 1,
          '2': 8,
          '2,396': 1,
          '2,836': 2,
          '20': 1,
          '200': 2,
          '2007': 3,
          '2008': 1,
          '2009': 1,
          '2010': 3,
          '2011': 6,
          '21,185': 1,
          '21,428,571': 1,
          '29,145': 1,
          '3': 7,
          '3.8': 1,
          '30': 1,
          '34,184': 1,
          '35,400': 1,
          '4': 8,
          '40': 6,
          '40,923': 1,
          '41,291': 1,
          '43,899': 1,
          '44

In [None]:
# 한글 2

#### Count

In [None]:
# 영어

In [30]:
en.count('Emma')        # Counts occurrences

865

In [None]:
# 한글 1

In [31]:
ko_pol.count('초등학교')   # Counts occurrences

6

In [None]:
# 한글 2

#### Concordance

In [None]:
# 영어

In [32]:
en.concordance('Emma', lines=5)

Displaying 5 of 865 matches:
                                     Emma by Jane Austen 1816 VOLUME I CHAPTER
                                     Emma Woodhouse handsome clever and rich w
f both daughters but particularly of Emma Between _them_ it was more the intim
nd friend very mutually attached and Emma doing just what she liked highly est
 by her own The real evils indeed of Emma s situation were the power of having


In [None]:
# 한글 1

In [33]:
ko_pol.concordance('초등학교')

Displaying 6 of 6 matches:
김 정훈 김 학 송 의원 ( 10 인 ) 제안 이유 및 주요 내용 초등학교 저학년 의 경우 에 도 부모 의 따뜻 하 ㄴ 사랑과 보살핌 이 필
ㄹ 수 있 는 자녀 의 나이 는 만 6 세 이하 로 되 어 있 어 초등학교 저학년 이 ㄴ 자녀 를 돌보 기 위하 어서 는 해당 부모님 은 일
 저 의 63 조 제 2 항 제 4 호 중 “ 만 6 세 이하 의 초등학교 취학 전 자녀 를 ” 을 “ 만 8 세 이하 ( 취학 중 이 ㄴ 
녀 를 ” 을 “ 만 8 세 이하 ( 취학 중 이 ㄴ 경우 에 는 초등학교 2 학년 이하 를 말하 ㄴ다 ) 의 자녀 를 ” 로 하 ㄴ다 . 
 ∼ 3 . ( 현행 과 같 음 ) 4 . 마 ㄴ 6 세 이하 의 초등학교 취 4 . 마 ㄴ 8 세 이하 ( 취학 중 이 ㄴ 경우 학 전 자
( 취학 중 이 ㄴ 경우 학 전 자녀 를 양육 하 기 위하 에 는 초등학교 2 학년 이하 를 여 필요 하 거나 여자 공무원 이 말하 ㄴ다 )


In [None]:
# 한글 2

#### Find similar words

In [None]:
# 영어

In [34]:
en.similar('Emma')
en.similar('Frank')

she it he i harriet you her jane him that me all and they them herself
there isabella be hartfield
mrs mr harriet emma it you she her him hartfield he them isabella that
jane all herself look me mind


In [None]:
# 한글 1

In [35]:
ko_pol.similar('자녀')
ko_pol.similar('육아휴직')

논의
No matches


In [None]:
# 한글 2

#### Collocations

In [36]:
# stopwords를 다운받아야 한다.
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /home/jovyan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
# 영어

In [37]:
en.collocations()

Mrs Weston; Frank Churchill; Miss Woodhouse; Mrs Elton; Miss Bates;
Jane Fairfax; Miss Fairfax; every thing; young man; every body; great
deal; Mrs Goddard; dare say; Maple Grove; John Knightley; Miss Taylor;
Miss Smith; Robert Martin; Colonel Campbell; Box Hill


In [None]:
# 한글 1

In [38]:
ko_pol.collocations()

초등학교 저학년


In [None]:
# 한글 2

## C. 형태소 분석

In [None]:
# 영어 

In [39]:
tokens_en[:10]

['Emma', 'by', 'Jane', 'Austen', '1816', 'VOLUME', 'I', 'CHAPTER', 'I', 'Emma']

In [40]:
# 어간 추출(stemming)은 여러가지 이유로 변화된 단어의 접미사나 어미를 제거하여 
# 같은 의미를 가지는 형태소의 실제 형태를 동일하게 만드는 방법이다. 
# NLTK는 PorterStemmer LancasterStemmer 등을 제공한다. 
from nltk.stem import PorterStemmer
st = PorterStemmer()
[st.stem(w) for w in tokens_en]

['emma',
 'by',
 'jane',
 'austen',
 '1816',
 'volum',
 'I',
 'chapter',
 'I',
 'emma',
 'woodhous',
 'handsom',
 'clever',
 'and',
 'rich',
 'with',
 'a',
 'comfort',
 'home',
 'and',
 'happi',
 'disposit',
 'seem',
 'to',
 'unit',
 'some',
 'of',
 'the',
 'best',
 'bless',
 'of',
 'exist',
 'and',
 'had',
 'live',
 'nearli',
 'twenti',
 'one',
 'year',
 'in',
 'the',
 'world',
 'with',
 'veri',
 'littl',
 'to',
 'distress',
 'or',
 'vex',
 'her',
 'she',
 'wa',
 'the',
 'youngest',
 'of',
 'the',
 'two',
 'daughter',
 'of',
 'a',
 'most',
 'affection',
 'indulg',
 'father',
 'and',
 'had',
 'in',
 'consequ',
 'of',
 'her',
 'sister',
 's',
 'marriag',
 'been',
 'mistress',
 'of',
 'hi',
 'hous',
 'from',
 'a',
 'veri',
 'earli',
 'period',
 'her',
 'mother',
 'had',
 'die',
 'too',
 'long',
 'ago',
 'for',
 'her',
 'to',
 'have',
 'more',
 'than',
 'an',
 'indistinct',
 'remembr',
 'of',
 'her',
 'caress',
 'and',
 'her',
 'place',
 'had',
 'been',
 'suppli',
 'by',
 'an',
 'excel',


In [41]:
# 어간 추출은 원형 복원(lemmatizing)의 일종이다. 
# 원형 복원은 같은 의미를 가지는 여러 단어를 가장 근본적인 형태 즉 사전형으로 통일하는 작업이다.

# WordNetLemmatizer 사용을 위해 필요함
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /home/jovyan/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [43]:
from nltk.stem import WordNetLemmatizer
lm = WordNetLemmatizer()
[lm.lemmatize(w) for w in tokens_en[:50]]

['Emma',
 'by',
 'Jane',
 'Austen',
 '1816',
 'VOLUME',
 'I',
 'CHAPTER',
 'I',
 'Emma',
 'Woodhouse',
 'handsome',
 'clever',
 'and',
 'rich',
 'with',
 'a',
 'comfortable',
 'home',
 'and',
 'happy',
 'disposition',
 'seemed',
 'to',
 'unite',
 'some',
 'of',
 'the',
 'best',
 'blessing',
 'of',
 'existence',
 'and',
 'had',
 'lived',
 'nearly',
 'twenty',
 'one',
 'year',
 'in',
 'the',
 'world',
 'with',
 'very',
 'little',
 'to',
 'distress',
 'or',
 'vex',
 'her']

In [44]:
# 품사(POS, part-of-speech)는 낱말을 문법적인 기능이나 형태, 뜻에 따라 구분한 것이다.

# averaged_perceptron_tagger를 사용하기 위해.
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/jovyan/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [45]:
tags_en = nltk.pos_tag(tokens_en[:10])

In [46]:
tags_en

[('Emma', 'NN'),
 ('by', 'IN'),
 ('Jane', 'NNP'),
 ('Austen', 'NNP'),
 ('1816', 'CD'),
 ('VOLUME', 'NNP'),
 ('I', 'PRP'),
 ('CHAPTER', 'VBP'),
 ('I', 'PRP'),
 ('Emma', 'VBP')]

In [47]:
# 한글 1 
#예) tags = kkma.pos("작고 노란 강아지가 페르시안 고양이에게 짖었다")

In [48]:
tags = kkma.pos("작고 노란 강아지가 페르시안 고양이에게 짖었다")
tags

[('작고', 'NNG'),
 ('노', 'NNG'),
 ('이', 'VCP'),
 ('란', 'ETD'),
 ('강아지', 'NNG'),
 ('가', 'JKS'),
 ('페르', 'NNG'),
 ('시안', 'NNP'),
 ('고양이', 'NNG'),
 ('에게', 'JKM'),
 ('짖', 'VV'),
 ('었', 'EPT'),
 ('다', 'EFN')]

In [49]:
tokens_ko_pol[:10]

['지방', '공무원', '법', '일부', '개정', '법률안', '(', '정의', '화', '의원']

In [50]:
tags_ko_pol = [kkma.pos(token)[0] for token in tokens_ko_pol[:10]] 

In [51]:
tags_ko_pol

[('지방', 'NNG'),
 ('공무원', 'NNG'),
 ('법', 'NNG'),
 ('일부', 'NNG'),
 ('개정', 'NNG'),
 ('법률안', 'NNG'),
 ('(', 'SS'),
 ('정의', 'NNG'),
 ('화', 'NNG'),
 ('의원', 'NNG')]

In [None]:
# 한글 2

# 참고자료 
* [1] 파이썬으로 영어와 한국어 텍스트 다루기 - https://www.lucypark.kr/courses/2015-dm/text-mining.html
* [2] NLTK 자연어 처리 패키지 - https://datascienceschool.net/view-notebook/118731eec74b4ad3bdd2f89bab077e1b/ 