# Practices(2): nltk 말뭉치(corpus) 사용
---
All rights reserved, 2021-2023 by *Youn-Sik Hong*. 수업 목적으로만 활용 가능.

### 이제 실전입니다. 곳곳에 문제가 지뢰처럼 매설되어 있습니다. 
- 모두 10개의 문제가 있습니다. 
- 다양한 형태의 말뭉치에 대해 원하는 패턴을 찾도록 정규표현을 작성해 보는 연습이 목적입니다. 
- 참고 서적: Natural Language Processing with Python
    - 저자: Steven Bird, Ewan Klein, and Edward Loper(1판, O'Reilly).
    - 3.4 Regular Expressions for Detecting Word Patterns
        - 3.4에 소개된 예제를 강의 목적에 맞게 수정
- 참고 사이트
    - https://www.nltk.org/book/ch03.html 
    - nltk.corpus 패키지 http://www.nltk.org/howto/corpus.html    .

**nltk 설치: pip install nltk**
- nltk가 설치되어 있지 않으면 아래 셀을 실행하세요

In [1]:
!pip install nltk



You should consider upgrading via the 'D:\INU-LECTURE\compiler-design\venv\Scripts\python.exe -m pip install --upgrade pip' command.


### 실습에 사용한 nltk 말뭉치(corpus) 
- 영어 단어 사전(235,886개)
- 채팅에 사용되는 단어(6,066개) 
- treebank 말뭉치 문장(199개, 단어-12,408개)  
    - 말뭉치는 nltk 설치시에 
    - C:\Users\사용자\AppData\Roaming\nltk_data\corpora 폴더에 저장. 
    - 여러 개의 corpus를 corpora라고 부름.     

In [2]:
import re
import nltk

In [3]:
def show_result(lis, lim=10): #출력 제한을 지정하지 않으면 10개만 출력
    size = len(lis)
    print('number of elements = {0:,}'.format(size)) #천단위 컴마(,) 표시
    if size < lim:
        print(lis)
    else:
        print(lis[:lim]) #너무 많은 내용이 출력되지 않도록 출력 항목을 제한

## 1. 말뭉치 : 영단어 사전 
- full-version(en, Unix에 설치된 영단어 사전과 동일, 23만 단어)과 
- basic-version(en-basic, 850단어) 2종류가 있음.

### 정규화((normalization)

대소문자가 섞여있는 단어까지 포함: 235,886개.

In [4]:
all_words = [w for w in nltk.corpus.words.words('en')]
show_result(all_words)

number of elements = 235,886
['A', 'a', 'aa', 'aal', 'aalii', 'aam', 'Aani', 'aardvark', 'aardwolf', 'Aaron']


모든 단어를 소문자로 변환하고, 중복 단어를 없앰: 234,371개.

In [5]:
all_words = set(w.lower() for w in nltk.corpus.words.words('en'))
wdlist = list(all_words)
wdlist.sort()
show_result(wdlist)

number of elements = 234,371
['a', 'aa', 'aal', 'aalii', 'aam', 'aani', 'aardvark', 'aardwolf', 'aaron', 'aaronic']


소문자로 된 단어만 선택: 210,687개.

In [6]:
wordlist = [w for w in nltk.corpus.words.words('en') if w.islower()]
#wordlist = [w for w in nltk.corpus.words.words('en-basic') if w.islower()]
show_result(wordlist)

number of elements = 210,687
['a', 'aa', 'aal', 'aalii', 'aam', 'aardvark', 'aardwolf', 'aba', 'abac', 'abaca']


#### 예제: '...ed'로 끝나는 단어들을 찾아보자.

In [7]:
lis1 = [w for w in wordlist if re.search('ed$', w)]
show_result(lis1)

number of elements = 9,148
['abaissed', 'abandoned', 'abased', 'abashed', 'abatised', 'abed', 'aborted', 'abridged', 'abscessed', 'absconded']


### 문제 1:  '...ed'로 끝나며, 길이(=문자수)가 5 미만인 단어들을 찾아보자.

In [8]:
#코드를 작성하세요
lis2 = [w for w in wordlist if re.search('ed$', w) and len(w) < 5]
show_result(lis2)

number of elements = 46
['abed', 'aged', 'ared', 'axed', 'bed', 'bred', 'cled', 'coed', 'deed', 'eyed']


#### 잠깐
- 정규표현에 해당하는 단어를 찾아 리스트에 추가하는 대신, 
    - 해당 문자가 몇 개인지만 알고 싶으면 sum 함수를 사용. 
        - len() 함수는 리스트가 다 만들어지고 난 후에 사용할 수 있음.
    - 단어를 찾을 때마다 1을 계속 더해나감. sum(1 for w in wordlist ...). 

In [9]:
sum(1 for w in wordlist if re.search('ed$', w))

9148

### 문제 2: 'su...'로 시작하는 단어는 모두 몇 개인지 구해보자.

In [10]:
#코드를 작성하세요
lis3 = [w for w in wordlist if re.search('^su', w)]
show_result(lis3)

number of elements = 4,154
['suability', 'suable', 'suably', 'suade', 'suaharo', 'suant', 'suantly', 'suasible', 'suasion', 'suasionist']


#### 예제: 모두 8개 문자이며, 이 중 3번째 문자는 'j', 5번째 문자는 't'인 단어들을 찾아보자.

In [11]:
lis2 = [w for w in wordlist if re.search('^..j..t..$', w)]
show_result(lis2, 7)

number of elements = 13
['abjectly', 'adjuster', 'dejected', 'dejectly', 'injector', 'majestic', 'objectee']


- 위 정규표현에서 meta symbol을 없애면 그 결과는 어떻게 될까? 
    - 일반적으로 제약 조건이 적을수록, 조건을 만족하는 단어 수는 늘어난다.

In [12]:
lis3 = [w for w in wordlist if re.search('..j..t..', w)]
show_result(lis3, 7)

number of elements = 260
['abjectedness', 'abjection', 'abjective', 'abjectly', 'abjectness', 'adjection', 'adjectional']


### 문제 3 : 아래 2가지 패턴의 차이점은 무엇일까? 

In [13]:
lis32 = [w for w in wordlist if re.search('..j..t..$', w)]
lis322 = [w for w in wordlist if re.search('j..t..$', w)]
show_result(lis32)
show_result(lis322)

number of elements = 30
['abjectly', 'adjuster', 'coprojector', 'dejected', 'dejectly', 'injector', 'interjector', 'majestic', 'maladjusted', 'microprojector']
number of elements = 45
['abjectly', 'adjuster', 'coprojector', 'dejected', 'dejectly', 'ejector', 'injector', 'interjector', 'jestee', 'jester']


# 차이점에 관해 설명하세요
- lis32의 경우는, 문자열의 3번째자리에 j, 5번째자리에 t가 와야 하는 경우이다.
- list322의 경우는 문자열에 j가 존재하며, j를 기준으로 2칸 뒤에 t가 와야하는 경우이다.

#### 예제: 전화기의 숫자 패드 2부터 9까지 할당된 알파벳이 다음과 같을 때, 숫자패드 4-6-5-3을 순서대로 1번씩 눌렀을 때 어떤 단어가 만들어질까? 
- 2="ABC", 3="DEF", 4="GHI", 5="JKL", 6="MNO", 7="PQRS", 8="TUV", 9="WXYZ". 
    - 숫자 패드 1에는 영어알파벳이 지정되지 않음.
- 알파벳 4개 조합이 아니라 **단어 사전에 등록된 단어를 찾는 것**이 목적이다. 
    - 앞에서 단어사전(wordlist)의 단어를 모두 소문자로 변환했기 때문에 
    - 숫자 패드의 영문자도 소문자를 사용했다.

In [14]:
lis4 = [w for w in wordlist if re.search('^[ghi][mno][jkl][def]$', w)]
show_result(lis4)

number of elements = 4
['gold', 'golf', 'hold', 'hole']


### 문제 4. 숫자 패드 2,6,7을 순서대로 1번씩 눌렀을 때 어떤 단어가 만들어질까? 

In [15]:
#코드를 작성하세요
lis5 = [w for w in wordlist if re.search('^[abc][mno][pqrs]$', w)]
show_result(lis5)

number of elements = 5
['bop', 'bor', 'cop', 'cor', 'cos']


#### 예제: 숫자 패드 4,5,6을 임의 순서로 3번 눌렀을 때는 어떤 단어가 만들어질까?  같은 숫자 패드를 중복해서 누를 수 있음.

In [16]:
lis43 = [w for w in wordlist if re.search('^[g-o]{3}$', w)]
show_result(lis43)

number of elements = 51
['gig', 'gim', 'gin', 'gio', 'gog', 'goi', 'gol', 'gon', 'goo', 'him']


### 문제 5. 숫자 패드 2,3을 임의 순서로 2번, 숫자 패드 5,6을 2번 눌렀을 때 어떤 단어가 만들어질까?

In [17]:
#코드를 작성하세요
lis6 = [w for w in wordlist if re.search('^[a-f]{2}[j-o]{2}$', w)]
show_result(lis6)

number of elements = 22
['aeon', 'balk', 'ball', 'balm', 'bank', 'bell', 'benj', 'benn', 'beno', 'calk']


## 2. 말뭉치 : 채팅 단어(nps_chat)

In [18]:
chat_words = sorted(set(w for w in nltk.corpus.nps_chat.words()))
show_result(chat_words)

number of elements = 6,066
['', '!', '!!', '!!!', '!!!!', '!!!!!', '!!!!!!', '!!!!!!!', '!!!!!!!!', '!!!!!!!!!']


#### 예제: m으로 시작해서 i, n이 순서대로 나오고, e로 끝나는 단어를 찾아보자. 단, m,i,n,e는 최소 1번 이상 포함해야 한다.

In [19]:
lis5 = [w for w in chat_words if re.search('^m+i+n+e+$', w)]
show_result(lis5)

number of elements = 4
['miiiiiiiiiiiiinnnnnnnnnnneeeeeeeeee', 'miiiiiinnnnnnnnnneeeeeeee', 'mine', 'mmmmmmmmiiiiiiiiinnnnnnnnneeeeeeee']


#### 예제. ha만 포함하는 단어를 찾아보자. 단, ha는 최소 1번 이상 포함해야 하며, ha로 시작하고 ha로 끝나야 한다.

In [20]:
lis6 = [w for w in chat_words if re.search('^(ha)+$', w)]
show_result(lis6)

number of elements = 7
['ha', 'haha', 'hahaha', 'hahahaha', 'hahahahahaha', 'hahahahahahaha', 'hahahahahahahahahahahahahahahaha']


### 문제 6. a, h 중 하나로 시작해서 a, h 중 하나로 끝나는 단어를 찾아보자. 단, a, h 중 어느 문자라도 최소 1번 이상 포함해야 한다.

In [21]:
#코드를 작성하세요
lis7 = [w for w in chat_words if re.search('^[ah]+$', w)]
show_result(lis7)

number of elements = 29
['a', 'aaaaaaaaaaaaaaaaa', 'aaahhhh', 'ah', 'ahah', 'ahahah', 'ahh', 'ahhahahaha', 'ahhh', 'ahhhh']


### 문제 7. 모음을 한 개도 포함하지 않는 단어를 찾아보자. 
- \<힌트\> \[^ \]괄호 안의 \^(caret)기호는 제외(exception)를 뜻함. 
- \<힌트\> 대소문자를 통일하지 않았음. 대소문자가 섞여 있음.

In [22]:
#코드를 작성하세요
lis63 = [w for w in chat_words if re.search('[^aeiou]', w)]

In [23]:
#모음을 포함하지 않는 채팅 단어들 - 대개는 이모티콘
print('zzzzzzzz' in lis63)
print(':)' in lis63)
print('grrr' in lis63)
print('cyb3r' in lis63)

True
True
True
True


## 3. 말뭉치 : penn treebank(parserd corpora)

- treebank는 각 문장에 대해 구문 분석 트리(syntactic tree)를 제공하는 말뭉치. 
    - treebank는 샘플 문장에 대해 품사 태깅(POS tagging), 구문 주석(syntax annotation), 의미 주석(semantic annotation) 내용이 포함되어 있음.  
---    
- 펜실베니아(penn) 대학에서 개발한 Penn treebank(구문 주석 포함)가 대표적. 
    - nltk에는 penn treebank에서 사용한 샘플 문장의 10%만 corpus로 제공.
    - http://www.nltk.org/howto/corpus.html#parsed-corpora     

In [24]:
from nltk.corpus import treebank #penn treebank의 10%만 사용.
print(len(treebank.fileids()))

199


In [25]:
print(treebank.words('wsj_0003.mrg'))

['A', 'form', 'of', 'asbestos', 'once', 'used', '*', ...]


- 문장에 사용된 단어에 대해 품사(POS)를 할당하는 것을 품사 태깅(POS tagging)이라고 함.
- 품사 약어의 의미는 아래와 같음.
    - DT: Determiner(관사)
    - NN: Noun, singular or mass
    - IN: Preposition(전치사) or subordinating conjunction
- penn treebank에서 사용하는 품사에 대한 설명은 웹 페이지 참조    
    - https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

In [26]:
print(treebank.tagged_words('wsj_0003.mrg')) 
#print(treebank.parsed_sents('wsj_0003.mrg')[0]) 

[('A', 'DT'), ('form', 'NN'), ('of', 'IN'), ...]


- treebank 말뭉치에서 중복되지 않은 단어만을 찾아 정렬한 결과를 리스트 wsj에 저장.
    - 파이썬의 set(집합) 타입으로 변환하면 중복된 단어는 한 개만 포함.
    - set으로 묶은 결과를 내림차순으로 정렬(sorted 메소드 사용)

In [27]:
wsj = sorted(set(nltk.corpus.treebank.words()))
show_result(wsj)

number of elements = 12,408
['!', '#', '$', '%', '&', "'", "''", "'30s", "'40s", "'50s"]


#### 예제: 리스트 wsj에서 실수(float number)를 찾아보자. 단, 소수점 이하 숫자는 생략할 수 없다. 

In [28]:
lis7 = [w for w in wsj if re.search('^[0-9]+\.[0-9]+$', w)]
show_result(lis7)

number of elements = 481
['0.0085', '0.05', '0.1', '0.16', '0.2', '0.25', '0.28', '0.3', '0.4', '0.5']


#### 예제: 알파벳 대문자로 시작하며, dollar 문자로 끝나는 단어를 찾아보자.

In [29]:
lis8 = [w for w in wsj if re.search('^[A-Z]+\$$', w)]
show_result(lis8)

number of elements = 2
['C$', 'US$']


### 문제 8. 4자리 숫자로 이루어진 정수 단어를 찾아보자.

In [30]:
#코드를 작성하세요
lis9 = [w for w in wsj if re.search('^[0-9]{4}$', w)]
show_result(lis9)

number of elements = 56
['1614', '1637', '1787', '1901', '1903', '1917', '1925', '1929', '1933', '1934']


### 문제 9. 십진수 숫자(0\-9)로 시작하며, '-'(dash) 기호 다음에 영어 소문자 3~5개로 이루어진 단어를 찾아보자. 
- 단, 십진수 숫자의 자리수는 1자리 이상이어야 한다.

In [31]:
#코드를 작성하세요
lis10 = [w for w in wsj if re.search('^[0-9]+-[a-z]{3,5}$', w)]
show_result(lis10)

number of elements = 31
['10-day', '10-lap', '10-year', '100-share', '12-point', '12-year', '14-hour', '15-day', '150-point', '190-point']


#### 예제: 알파벳 5자 이상으로 시작하며 '\-'기호 다음에 알파벳 2~3자, 이어서  '\-' 기호 다음에 알파벳 최대 6자 이내인 단어를 찾아보자.
- 2개의 dash기호를 갖는 단어를 찾는 것임.

In [32]:
lis11 = [w for w in wsj if re.search('^[a-z]{5,}-[a-z]{2,3}-[a-z]{,6}$', w)]
show_result(lis11)

number of elements = 5
['black-and-white', 'bread-and-butter', 'father-in-law', 'machine-gun-toting', 'savings-and-loan']


### 문제 10. ed 또는 ing로 끝나며, 길이가 6 미만인 단어를 찾아보자.

In [33]:
#코드를 작성하세요
lis12 = [w for w in wsj if re.search('(ed|ing)$', w) and len(w) < 6]
show_result(lis12)

number of elements = 79
['Asked', 'Being', 'Died', 'Fed', 'Fred', 'Named', 'Rated', 'Red', 'Reed', 'Seed']


#### 예제: 모음 3자 이상을 포함하는 단어들의 발생 빈도(FreqDist)를 구해보자.

In [34]:
word_list = [vs for word in wsj 
             for vs in re.findall(r'[aeiou]{3,}', word)]

파이썬의 Counter 컬렉션을 사용하거나 nltk의 FreqDist 메소드를 사용하면 된다. 

In [35]:
fd = nltk.FreqDist(word_list)    
print(fd.most_common(10))

[('iou', 27), ('eau', 10), ('oui', 6), ('eou', 5), ('uou', 5), ('uee', 4), ('ieu', 3), ('uie', 3), ('eei', 2), ('iai', 1)]


In [36]:
from collections import Counter

counter = Counter(word_list)       
print(counter.most_common(10))

[('iou', 27), ('eau', 10), ('oui', 6), ('eou', 5), ('uou', 5), ('uee', 4), ('ieu', 3), ('uie', 3), ('eei', 2), ('iai', 1)]
