## 전처리

### 정제

- text1 = "서울 부동산 가격이 올해 들어 평균 30% 상승했습니다."  에서 숫자만 제외
- text2 = "*서울 부동산 가격이 올해 들어 평균 30% 상승했습니다!"  에서 문장부호, 특수문자 제외
- text2 = "\*서울 부동산 가격이 올해 들어 평균 30% 상승했습니다!" 에서 \*만 제외

In [None]:
# re 모듈 불러오기
import re

In [None]:
# text1을 선언
text1 = "서울 부동산 가격이 올해 들어 평균 30% 상승했습니다."

In [None]:
# compile() 함수를 이용해 "[0-9]+" 패턴을 저장해 r 변수에 저장
# [0-9]+ : 숫자 하나 이상
# sub() 함수를 이용해 text1 에서 해당 패턴을 삭제
r = re.compile("[0-9]+")
r.sub("", text1)

'서울 부동산 가격이 올해 들어 평균 % 상승했습니다.'

In [None]:
# text2를 선언
text2 = "*서울 부동산 가격이 올해 들어 평균 30% 상승했습니다!"

In [None]:
# compile() 함수를 이용해 "\W+" 패턴을 저장해 r 변수에 저장
# \W+ : 문자 또는 숫자가 아닌 문자 하나 이상
# sub() 함수를 이용해 text2 에서 해당 패턴을 공백으로 대체
r = re.compile("\W+")
r.sub(" ", text2)

' 서울 부동산 가격이 올해 들어 평균 30 상승했습니다 '

In [None]:
# text2를 선언
text2 = "\*서울 부동산 가격이 올해 들어 평균 30% 상승했습니다!"

In [None]:
# compile() 함수를 이용해 "\*" 패턴을 저장해 r 변수에 저장
# \* : *문자
# sub() 함수를 이용해 text2 에서 해당 패턴을 공백으로 대체
r = re.compile("\*")
r.sub(" ", text2)

'\\ 서울 부동산 가격이 올해 들어 평균 30% 상승했습니다!'

### 토큰화
  - 주어진 코퍼스(corpus)에서 토큰(token) 단위로 나누는 작업
  - 즉, 텍스트에 대한 정보를 의미있는 단위별로 구분
  - 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의
  - NLTK, KoNLPY 라이브러리 이용


#### NLTK
  - nltk.download('punkt')

In [1]:
# 토큰화를 위한 nltk 모듈 불러오기
import nltk

In [2]:
# nltk.download('punkt')
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

- 예문
```
Don't be fooled by the dark sounding name,\
                    Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."
```

In [3]:
# nltk.tokenize 중 word_tokenize 사용
# Don't를 Do와 n't로 분리. Jone's는 Jone과 's로 분리한 것을 확인
from nltk.tokenize import word_tokenize

print(word_tokenize('''Don't be fooled by the dark sounding name,\
                  Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."'''))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.', "''"]


In [4]:
# nltk.tokenize 중 wordPunctTokenizer 사용
# wordPunctTokenizer는 구두점을 별도로 분류하는 특징을 갖고 있음
# Don't를 Don과 '와 t로 분리, Jone's를 Jone과 '와 s로 분리한 것을 확인
from nltk.tokenize import WordPunctTokenizer

WordPunctTokenizer().tokenize('''Don't be fooled by the dark sounding name,\
                  Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."''')

['Don',
 "'",
 't',
 'be',
 'fooled',
 'by',
 'the',
 'dark',
 'sounding',
 'name',
 ',',
 'Mr',
 '.',
 'Jone',
 "'",
 's',
 'Orphanage',
 'is',
 'as',
 'cheery',
 'as',
 'cheery',
 'goes',
 'for',
 'a',
 'pastry',
 'shop',
 '."']

- text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."

In [8]:
from nltk.tokenize.treebank import TreebankWordDetokenizer
# Penn Treebank Tokenization의 규칙을 소개하고 결과를 확인
# 규칙 1. 하이픈으로 구성된 단어는 하나로 유지
# 규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리
from nltk.tokenize import PunktSentenceTokenizer
tokenizer = TreebankWordDetokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
tokenizer.tokenize(text)

"S t a r t i n g   a   h o m e - b a s e d   r e s t a u r a n t   m a y   b e   a n   i d e a l .   i t   d o e s n' t   h a v e   a   f o o d   c h a i n   o r   r e s t a u r a n t   o f   t h e i r   o w n."

- NLTK는 영어 코퍼스에 품사 태깅 기능을 지원
- NLTK에서는 Penn Treebank POS Tags라는 기준을 사용
- nltk.download('averaged_perceptron_tagger')



```
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
```

In [9]:
#  nltk.tokenize 중 word_tokenize 사용하여 토큰화 수행
from nltk.tokenize import word_tokenize

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [10]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [11]:
# nltk.tag 중 pos_tag 사용하여 품사태깅 수행
# text 를 word_tokenize() 함수를 사용해 토큰화 한 결과를 x 변수에 넣음
# pos_tag() 함수를 사용해 토큰화 된 단어의 품사태깅 수행
from nltk.tag import pos_tag

x = word_tokenize(text)
pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

#### KoNLPy
- 꼬꼬마, 코모란, 한나눔, 트위터, 메캅
- 메캅은 윈도우에서 사용 불가능
- [각 형태소 분석기의 특징 및 성능 비교](https://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/)

- pip install konlpy

In [12]:
# konlpy 설치
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m36.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.4.1-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m37.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [13]:
# konlpy 불러오기
import konlpy

In [14]:
# konlpy.tag 중 Okt(Twitter) 분석기 사용
# Okt는 기존에는 Twitter라는 이름을 갖고 있었으나, 0.5.0 버전부터 이름이 변경되어 아직 Twitter로 많이 알려져 있음
# morphs() 함수를 이용해 형태소 단위로 분절
from konlpy.tag import Okt
okt = Okt()

print(okt.morphs('이 여름 다시 한번 설레고 싶다, 그 여름을 틀어줘. 싹쓰리'))

['이', '여름', '다시', '한번', '설레고', '싶다', ',', '그', '여름', '을', '틀어줘', '.', '싹', '쓰리']


In [19]:
# pos() 함수를 이용해 품사(POS)태깅
# 형태소와 품사로 이루어진 튜플의 리스트로 반환
print(okt.pos('이 여름 다시 한번 설레고 싶다, 그 여름을 틀어줘. 싹쓰리'))

[('이', 'Noun'), ('여름', 'Noun'), ('다시', 'Noun'), ('한번', 'Noun'), ('설레고', 'Adjective'), ('싶다', 'Verb'), (',', 'Punctuation'), ('그', 'Noun'), ('여름', 'Noun'), ('을', 'Josa'), ('틀어줘', 'Verb'), ('.', 'Punctuation'), ('싹', 'Noun'), ('쓰리', 'Adjective')]


In [21]:
# nouns() 함수를 이용해 명사 추출
print(okt.nouns('이 여름 다시 한번 설레고 싶다, 그 여름을 틀어줘. 싹쓰리'))

['이', '여름', '다시', '한번', '그', '여름', '싹']


In [22]:
# konlpy.tag 중 한나눔(Hannanum) 분석기 사용
# morphs() 함수를 이용해 형태소 단위로 분절
from konlpy.tag import Hannanum
han = Hannanum()

print(han.morphs('이 여름 다시 한번 설레고 싶다, 그 여름을 틀어줘. 싹쓰리'))

['이', '여름', '다시', '한번', '설레', '고', '싶', '다', ',', '그', '여름', '을', '틀', '어', '주', '어', '.', '싹쓰', '이', '리']


In [23]:
# pos() 함수를 이용해 품사(POS)태깅
# 형태소와 품사로 이루어진 튜플의 리스트로 반환
print(han.pos('이 여름 다시 한번 설레고 싶다, 그 여름을 틀어줘. 싹쓰리'))

[('이', 'M'), ('여름', 'N'), ('다시', 'M'), ('한번', 'N'), ('설레', 'P'), ('고', 'E'), ('싶', 'P'), ('다', 'E'), (',', 'S'), ('그', 'M'), ('여름', 'N'), ('을', 'J'), ('틀', 'P'), ('어', 'E'), ('주', 'P'), ('어', 'E'), ('.', 'S'), ('싹쓰', 'N'), ('이', 'J'), ('리', 'E')]


In [24]:
# nouns() 함수를 이용해 명사 추출
print(han.nouns('이 여름 다시 한번 설레고 싶다, 그 여름을 틀어줘. 싹쓰리'))

['여름', '한번', '여름', '싹쓰']


#### 연습문제
  - konlpy 형태소 분석기 성능비교

In [25]:
from konlpy.tag import Kkma
from konlpy.tag import Komoran
from konlpy.tag import Hannanum
from konlpy.tag import Okt

kkma = Kkma()
komoran = Komoran()
hannanum = Hannanum()
okt = Okt()

##### 문장 분석 품질 비교

###### 1. 띄어쓰기가 제대로 되어있지 않은 문장
- text = "아버지가방에들어가신다"

In [26]:
text = "아버지가방에들어가신다"

In [27]:
# 꼬꼬마 형태소 분석 결과
kkma.pos(text)

[('아버지', 'NNG'),
 ('가방', 'NNG'),
 ('에', 'JKM'),
 ('들어가', 'VV'),
 ('시', 'EPH'),
 ('ㄴ다', 'EFN')]

In [28]:
# 코모란 형태소 분석 결과
komoran.pos(text)

[('아버지', 'NNG'),
 ('가방', 'NNP'),
 ('에', 'JKB'),
 ('들어가', 'VV'),
 ('시', 'EP'),
 ('ㄴ다', 'EC')]

In [29]:
hannanum.pos(text)

[('아버지가방에들어가', 'N'), ('이', 'J'), ('시ㄴ다', 'E')]

In [30]:
okt.pos(text)

[('아버지', 'Noun'), ('가방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb')]

###### 2. 오탈자 때문에 불완전한 문장
- text2 = "ㄱㅐㄴㅏ리가 피어있는 동산에 누워있고싶ㄷㅏ"

In [31]:
text2 = "ㄱㅐㄴㅏ리가 피어있는 동산에 누워있고싶ㄷㅏ"

In [32]:
print(kkma.pos(text2))
print(komoran.pos(text2))
print(hannanum.pos(text2))
print(okt.pos(text2))

[('ㄱㅐㄴㅏ리', 'UN'), ('가', 'JKS'), ('피', 'VV'), ('어', 'ECD'), ('있', 'VXV'), ('는', 'ETD'), ('동산', 'NNG'), ('에', 'JKM'), ('눕', 'VV'), ('어', 'ECS'), ('있', 'VV'), ('고', 'ECE'), ('싶ㄷㅏ', 'UN')]
[('개나리', 'NNP'), ('가', 'JKS'), ('피', 'VV'), ('어', 'EC'), ('있', 'VX'), ('는', 'ETM'), ('동산', 'NNP'), ('에', 'JKB'), ('눕', 'VV'), ('어', 'EC'), ('있', 'VX'), ('고', 'EC'), ('싶', 'VX'), ('다', 'EC')]
[('ㄱㅐㄴㅏ리', 'N'), ('가', 'J'), ('피', 'P'), ('어', 'E'), ('있', 'P'), ('는', 'E'), ('동산', 'N'), ('에', 'J'), ('누워있고싶ㄷㅏ', 'N')]
[('ㄱㅐㄴㅏ', 'KoreanParticle'), ('리가', 'Noun'), ('피어있는', 'Verb'), ('동산', 'Noun'), ('에', 'Josa'), ('누워있고싶', 'Verb'), ('ㄷㅏ', 'KoreanParticle')]


###### 3. 속도 비교

In [33]:
text3 = """5G 이동통신망을 빌려 사용하는 ‘5G 알뜰폰’이 올해 도입되고, 내년부터는 의무화된다.
정부는 알뜰폰 사업자(MNVO)가 통신사(MNO)에 통신망을 빌리는 비용(도매대가)을 지난해보다 큰 폭으로 낮춰, 알뜰폰 요금 인하를 유도하기로 했다. 하지만 줄어드는 알뜰폰 시장을 살릴 수 있을지는 지켜봐야 하는 상황이다.
과학기술정보통신부는 알뜰폰 활성화 추진대책을 25일 발표했다. 알뜰폰 가입자는 800만명으로 이동통신 시장의 12%를 차지한다. 2011년 출시 뒤 저렴한 요금제로 통신비 부담을 낮춰왔다. 하지만 지난해 5월 통신 3사가 준보편제 요금을 내놓은 이후 알뜰폰 이탈 현상이 지속되고 있다.
우선 올해 안에 3개 이상의 5G 알뜰폰이 시장에 나온다. 통신사가 5G망을 알뜰폰 사업자에게 도매 제공할지 여부는 통신사 자율로 정한다. 앞서 LG유플러스는 오는 10월 알뜰폰 사업을 시작하는 KB국민은행에 5G망을 제공한다고 밝힌 바 있다. SK텔레콤와 KT도 특정 제휴사를 선택해 올해 안에 5G 알뜰폰을 내놓기로 했다.
내년부터는 5G 알뜰폰 제공이 의무화된다. 지난 22일자로 종료된 도매제공 의무제도의 유효기간을 2022년 9월22일까지 연장하는 전기통신사업법 개정안이 국회에서 통과되면, 관련 고시를 개정해 SK텔레콤의 5G망 도매제공을 의무화하겠다는 것이다.
과기정통부 관계자는 “SK텔레콤이 자사와 계약을 맺은 13개 알뜰폰 사업자에게 5G망을 의무 제공하면, 그 외 31개의 알뜰폰 사업자들이 경쟁에서 밀릴 것을 우려해 KT와 LG유플러스도 5G망을 제공하게 될 것”이라고 내다봤다.
알뜰폰 사업자가 상품을 만드는 방식 크게 2가지다. 하나는 통신사로부터 음성·문자·데이터를 도매로 사들인 뒤 이를 바탕으로 통신사보다 저렴한 요금제를 내놓는 방식(종량제 도매제공)이다. 이를 위해 정부는 도매대가 인하율을 음성 17.8%, 데이터 19.2%, 단문메시지 1.15%로, 지난해 음성 15.1%, 데이터 19.1%, 단문메시지 1.13%에 비해 높여 잡았다.
또 다른 방식은 일정비용을 통신사에 내고 통신사의 정액 요금제를 그대로 판매하면서, 그 차액의 범위에서 저렴한 요금제를 내놓는 방식(수익배분 도매제공)이다. 정부는 SK텔레콤의 준보편 요금제인 ‘T플랜 요금제’를 알뜰폰 사업자가 재판매할 수 있게 했다. 기존에 SK텔레콤이 도매제공했던 ‘밴드데이터 요금제’의 최고구간의 대가도 1.5%포인트 낮췄다.
알뜰폰 업계는 대체로 반기는 분위기지만, 알뜰폰 시장을 살릴 수 있을지에는 의구심을 갖고 있다. 업계 관계자는 “도매대가 인하율이 크고, 5G망을 제공하는 것은 긍정적”이라면서도 “수익배분 도매제공의 의무화, 설비를 가진 업체에 대한 접속료 정산 도입 등의 제도적 개선이 필요하다”고 말했다."""

In [34]:
%%time
print(kkma.pos(text3)[:5])

[('5', 'NR'), ('G', 'OL'), ('이동', 'NNG'), ('통신망', 'NNG'), ('을', 'JKO')]
CPU times: user 4.52 s, sys: 27.9 ms, total: 4.54 s
Wall time: 2.41 s


In [38]:
%%time
print(hannanum.pos(text3)[:5])

[('5G', 'N'), ('이동통신망', 'N'), ('을', 'J'), ('빌리', 'P'), ('어', 'E')]
CPU times: user 447 ms, sys: 3.64 ms, total: 451 ms
Wall time: 245 ms


In [39]:
%%time
print(okt.pos(text3)[:5])

[('5', 'Number'), ('G', 'Alpha'), ('이', 'Determiner'), ('동', 'Modifier'), ('통신망', 'Noun')]
CPU times: user 7.08 s, sys: 65.1 ms, total: 7.15 s
Wall time: 3.84 s


In [40]:
%%time
print(komoran.pos(text3)[:5])

[('5', 'SN'), ('G', 'SL'), ('이동', 'NNG'), ('통신망', 'NNG'), ('을', 'JKO')]
CPU times: user 123 ms, sys: 985 µs, total: 124 ms
Wall time: 68.8 ms


```
from konlpy.tag import Hannanum

han = Hannanum()
text = input("분석할 텍스트를 입력하세요: ")
result = han.pos(text)   # result 는 (형태소, 품사) 형태로 나타남

for lex, pos in result:
    print("{}\t{}".format(lex, pos))   # \t : tab
```

```
from konlpy.tag import Okt

okt = Okt()
text = input("분석할 텍스트를 입력하세요: ")
result = okt.pos(text)   # result 는 (형태소, 품사) 형태로 나타남

for lex, pos in result:
    print("{}\t{}".format(lex, pos))   # \t : tab
```

#### Corpus 이용
- 텍스트의 모음
- Konlpy에는 한국 법률 말뭉치와 대한민국 국회의안 말뭉치가 존재
- [참고](https://konlpy-ko.readthedocs.io/ko/v0.4.3/data/)

In [41]:
# konlpy.corpus 의 kolaw 불러오기
# kolaw : 한국 법률 말뭉치
# konlpy.tag 의 Okt(Twitter) 분석기 사용
from konlpy.corpus import kolaw
from konlpy.tag import Okt

okt = Okt()

In [42]:
# kolaw 의 open() 함수를 이용해 constitution.txt 파일을 열어 read() 함수로 읽기
# 0번 인덱스 부터 49번 인덱스까지 문자열 확인
law_corpus = kolaw.open('constitution.txt').read()
print(law_corpus[:50])

대한민국헌법

유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임


In [43]:
# pos() 함수를 이용해 품사(POS)태깅
# 형태소와 품사로 이루어진 튜플의 리스트로 반환
okt.pos(law_corpus[:50])

[('대한민국', 'Noun'),
 ('헌법', 'Noun'),
 ('\n\n', 'Foreign'),
 ('유구', 'Noun'),
 ('한', 'Josa'),
 ('역사', 'Noun'),
 ('와', 'Josa'),
 ('전통', 'Noun'),
 ('에', 'Josa'),
 ('빛나는', 'Verb'),
 ('우리', 'Noun'),
 ('대', 'Modifier'),
 ('한', 'Modifier'),
 ('국민', 'Noun'),
 ('은', 'Josa'),
 ('3', 'Number'),
 ('·', 'Punctuation'),
 ('1', 'Number'),
 ('운동', 'Noun'),
 ('으로', 'Josa'),
 ('건립', 'Noun'),
 ('된', 'Verb'),
 ('대한민국', 'Noun'),
 ('임', 'Noun')]

### 불필요한 단어의 제거
  - 불용어(Stopword) 제거
    - 문장 내에 자주 등장하지만 문장을 분석하는 데 있어서는 큰 도움이 되지 않는 단어들
  - 등장 빈도가 적은 단어
    - 텍스트 데이터에서 너무 적게 등장해서 자연어 처리에 도움이 되지 않는 단어들 제거
  - 길이가 짧은 단어
    - 영어권 언어에서 길이가 짧은 단어들은 대부분 불용어에 해당
    - 한국어에서는 길이가 짧은 단어라고 삭제하는 방법이 유효하지 않을 수 있음
    - 한국어 단어는 한자어가 많고, 한 글자만으로도 이미 의미를 가진 경우가 많기 때문

#### NLTK
- nltk.download('stopwords')

In [44]:
# nltk 모듈 불러오기
import nltk

In [45]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [47]:
# nltk.corpus 의 stopwords 불러오기
# stopwords.words("english") 로 NLTK가 영어에서 불용어로 어떤 단어들을 정의하고 있는지 확인
# 10개의 불용어 확인
from nltk.corpus import stopwords

stopwords.words('english')

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each



```
example = "Family is not an important thing. It's everything."
```



In [48]:
# NLTK로 불용어 제거
# nltk.corpus 의 stopwords 불러오기
# nltk.tokenize 의 word_tokenize 불러오기
# 영어 불용어를 stop_words 로 저장
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english'))

In [49]:
# example 문자열을 word_tokenize() 함수를 이용해 토큰화
# 토큰화된 단어들 중 stop_words 에 없는 단어는 result 리스트에 추가
# 즉, stop_words 에 있는 단어가 제외됨
# 토큰화 결과와 불용어 제거한 결과 확인
# 'is', 'not', 'an'과 같은 단어들이 문장에서 제거되었음을 확인
word_tokens = word_tokenize(example)
result = []

for w in word_tokens:
    if w not in stop_words:
        result.append(w)
print(word_tokens)
print(result)

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


```
example = """이 여름 다시 한번 설레고 싶다 그때 그 여름을 틀어줘 그 여름을 들려줘
이 여름도 언젠가는 그해 여름 오늘이 가장 젊은 내 여름"""
```

In [50]:
# 직접 불용어 정의 후 정의한 불용어 사전을 참고로 불용어 제거
# NLTK로 불용어 제거
# nltk.corpus 의 stopwords 불러오기
# nltk.tokenize 의 word_tokenize 불러오기
# nltk로 형태소 분석 후 조사, 접속사 등을 제거
# 분석을 하다보면 불용어로서 제거하고 싶은 단어들이 생기기 마련이므로 결국에는 사용자가 직접 불용어 사전을 만들게 되는 경우가 많음
# example 문자열 중 명사가 아닌 단어 중에서 임의로 불용어를 선정해 stop_words 변수에 저장. 실제 의미있는 선정 기준은 아님
example = """이 여름 다시 한번 설레고 싶다 그때 그 여름을 틀어줘 그 여름을 들려줘
이 여름도 언젠가는 그해 여름 오늘이 가장 젊은 내 여름"""
stop_words = '이 그 또 가장'


In [51]:
# stop_words에 저장된 불용어를 split() 함수로 공백 기준 분절하여 리스트로 반환
# example 문자열을 word_tokenize() 함수를 이용해 토큰화
# 토큰화된 단어들 중 stop_words 에 없는 단어는 result 리스트에 추가
# 즉, stop_words 에 있는 단어가 제외됨
# 토큰화 결과와 불용어 제거한 결과 확인
# '이, 그, 또, 가장' 이 문장에서 제거되었음을 확인
stop_words = stop_words.split(" ")

word_tokens = word_tokenize(example)
result = []

for w in word_tokens:
    if w not in stop_words:
        result.append(w)
print(word_tokens)
print(result)

['이', '여름', '다시', '한번', '설레고', '싶다', '그때', '그', '여름을', '틀어줘', '그', '여름을', '들려줘', '이', '여름도', '언젠가는', '그해', '여름', '오늘이', '가장', '젊은', '내', '여름']
['여름', '다시', '한번', '설레고', '싶다', '그때', '여름을', '틀어줘', '여름을', '들려줘', '여름도', '언젠가는', '그해', '여름', '오늘이', '젊은', '내', '여름']


In [53]:
def filter(word_tokens, stop_words):
    result = []

    for w in word_tokens:
        if w not in stop_words:
            result.append(w)

    print(word_tokens)
    print(result)

filter(word_tokens, stop_words)

['이', '여름', '다시', '한번', '설레고', '싶다', '그때', '그', '여름을', '틀어줘', '그', '여름을', '들려줘', '이', '여름도', '언젠가는', '그해', '여름', '오늘이', '가장', '젊은', '내', '여름']
['여름', '다시', '한번', '설레고', '싶다', '그때', '여름을', '틀어줘', '여름을', '들려줘', '여름도', '언젠가는', '그해', '여름', '오늘이', '젊은', '내', '여름']


#### 고등교육법 관련 법안 분석

In [1]:
# nltk 모듈 불러오기
# konlpy.corpus 의 kobill 불러오기
# kobill: 대한민국 국회 의안 말뭉치. 파일 ID는 의안 번호를 의미
# fileids() 로 kobill 에 담긴 문서 확인
from konlpy.corpus import kobill

files_ko = kobill.fileids()
files_ko

['1809899.txt',
 '1809890.txt',
 '1809893.txt',
 '1809891.txt',
 '1809898.txt',
 '1809897.txt',
 '1809896.txt',
 '1809895.txt',
 '1809894.txt',
 '1809892.txt']

In [2]:
# open() 함수를 이용해 kobill 에 담긴 문서 중 하나 선택해 열어 read() 함수로 읽기
doc_ko = kobill.open('1809894.txt').read()
doc_ko

'고등교육법 일부개정법률안\n\n(안상수의원 대표발의 )\n\n 의 안\n 번 호\n\n9894\n\n발의연월일 : 2010.  11.  15.\n\n발  의  자 : 안상수․김정훈․원희목 \n\n강석호․서상기․나성린 \n\n권영진․이춘식․정영희 \n\n이애주․안형환․백성운 \n\n김금래 의원(13인)\n\n제안이유 및 주요내용\n\n  현재 간호사의 경우 전문대학 졸업 또는 대학 졸업에 상관없이 면\n\n허증을 취득할 수 있지만, 학위의 종류가 전문학사이기 때문에 학사학\n\n위를 취득하기 위하여 87.2%가 별도로 학사학위 교육과정을 이수하고 \n\n있는 실정임.\n\n  이러한 4년제 간호 교육의 필요성과 선진 각국의 경향을 고려하고 \n\n국민에 대한 보다 나은 의료 서비스를 제공하기 위하여 대통령령이 \n\n정하는 일정한 기준을 충족하는 간호과에 대해서는 수업연한을 4년으\n\n로 하고, 수여하는 학위의 종류를 학사학위로 하도록 함(안 제50조의3 \n\n신설).\n\n- 1 -\n\n\x0c법률  제        호\n\n고등교육법 일부개정법률안\n\n고등교육법 일부를 다음과 같이 개정한다.\n\n제50조의3을 다음과 같이 신설한다.\n\n제50조의3(간호과의 수업연한 및 학위에 관한 특례) ① 대통령령이 정\n\n하는 기준을 충족하는 간호과의 수업연한은 4년으로 한다.\n\n  ② 제1항의 간호과에서 학칙이 정하는 과정을 이수한 자에 대하여\n\n는 학사학위를 수여한다.\n\n  ③ 제2항의 학위의 종류 및 수여에 관하여 필요한 사항은 대통령령\n\n으로 정한다.\n\n부      칙\n\n① 이 법은 공포 후 6개월이 경과한 날부터 시행한다.\n\n② 이 법 시행 당시 수업연한이 4년으로 된 간호과에 재학 중인 자에 \n\n대해서는 본인의 신청에 의하여 종전의 수업연한 및 학위에 관한 규\n\n정을 적용할 수 있다.\n\n- 3 -\n\n\x0c신·구조문대비표\n\n현      행\n\n개   정   안\n\n  <신  설>\n\n제50조의3(간

In [3]:
print(doc_ko)

고등교육법 일부개정법률안

(안상수의원 대표발의 )

 의 안
 번 호

9894

발의연월일 : 2010.  11.  15.

발  의  자 : 안상수․김정훈․원희목 

강석호․서상기․나성린 

권영진․이춘식․정영희 

이애주․안형환․백성운 

김금래 의원(13인)

제안이유 및 주요내용

  현재 간호사의 경우 전문대학 졸업 또는 대학 졸업에 상관없이 면

허증을 취득할 수 있지만, 학위의 종류가 전문학사이기 때문에 학사학

위를 취득하기 위하여 87.2%가 별도로 학사학위 교육과정을 이수하고 

있는 실정임.

  이러한 4년제 간호 교육의 필요성과 선진 각국의 경향을 고려하고 

국민에 대한 보다 나은 의료 서비스를 제공하기 위하여 대통령령이 

정하는 일정한 기준을 충족하는 간호과에 대해서는 수업연한을 4년으

로 하고, 수여하는 학위의 종류를 학사학위로 하도록 함(안 제50조의3 

신설).

- 1 -

법률  제        호

고등교육법 일부개정법률안

고등교육법 일부를 다음과 같이 개정한다.

제50조의3을 다음과 같이 신설한다.

제50조의3(간호과의 수업연한 및 학위에 관한 특례) ① 대통령령이 정

하는 기준을 충족하는 간호과의 수업연한은 4년으로 한다.

  ② 제1항의 간호과에서 학칙이 정하는 과정을 이수한 자에 대하여

는 학사학위를 수여한다.

  ③ 제2항의 학위의 종류 및 수여에 관하여 필요한 사항은 대통령령

으로 정한다.

부      칙

① 이 법은 공포 후 6개월이 경과한 날부터 시행한다.

② 이 법 시행 당시 수업연한이 4년으로 된 간호과에 재학 중인 자에 

대해서는 본인의 신청에 의하여 종전의 수업연한 및 학위에 관한 규

정을 적용할 수 있다.

- 3 -

신·구조문대비표

현      행

개   정   안

  <신  설>

제50조의3(간호과의 수업연한 및 

학위에 관한 특례) ① 대통령

령이 정하는 기준을 충족하는 

간호과의 수업연한은 4년으로 

한다.

  ② 제1항의 간호과에서 학칙이

In [6]:
# konlpy.tag 중 Okt(Twitter) 분석기 사용
# Okt는 기존에는 Twitter라는 이름을 갖고 있었으나, 0.5.0 버전부터 이름이 변경되어 아직 Twitter로 많이 알려져 있음
# nouns() 함수를 이용해 명사 추출
from konlpy.tag import Okt
okt = Okt()

nouns = okt.nouns(doc_ko)
print(len(doc_ko))
print(nouns)

1097
['고등', '교육법', '일부', '개정', '법률', '안', '안상수', '의원', '대표', '발의', '의', '안', '번', '호', '발의', '연월일', '발', '의', '자', '안상수', '김정훈', '원희목', '강석호', '서상기', '나성린', '권영진', '이춘식', '정영희', '이애주', '안형환', '백성운', '김금래', '의원', '인', '제안', '이유', '및', '내용', '현재', '간호사', '경우', '전문', '대학', '졸업', '대학', '졸업', '면', '증', '취득', '수', '학위', '종류', '문학사', '이기', '때문', '학', '사학', '위', '취득', '위', '별도', '학사', '학위', '교육과정', '이수', '실정', '임', '간호', '교육', '필요성', '선진', '각국', '경향', '고려', '국민', '대한', '나은', '의료', '서비스', '제공', '위', '대통령령', '정', '기준', '충족', '간호', '과', '대해', '수업', '연한', '로', '수여', '학위', '종류', '학사', '학위', '함', '안', '제', '신설', '법률', '제', '호', '고등', '교육법', '일부', '개정', '법률', '안', '고등', '교육법', '일부', '다음', '개정', '제', '다음', '신설', '제', '간호', '수업', '연한', '및', '학위', '관', '특례', '대통령령', '정', '기준', '충족', '간호', '수업', '연한', '제', '항의', '간호', '과', '학칙', '정', '과정', '이수', '자', '대하', '학사', '학위', '수여', '제', '항의', '학위', '종류', '및', '수여', '관', '사항', '대통령령', '정', '부', '칙', '이', '법', '공포', '후', '개월', '경과', '날', '시행', '이', '법', '시행', '당시'

In [8]:
# 명사만 추출한 데이터를 의안 제 1809894호로 두고 Text()함수를 이용해 문서를 탐색
# len() : 수집된 단어의 개수
# set() 함수를 추가하여 중복 제외 개수확인
# vocab() 함수를 사용하면 단어별 빈도를 리스트로 확인
import nltk
ko = nltk.Text(nouns, name='의안 제 1809894호')

print(len(ko.tokens))
print(len(set(ko.tokens)))
ko.vocab()

240
121


FreqDist({'학위': 11, '간호': 9, '정': 9, '제': 9, '수업': 7, '연한': 7, '및': 6, '안': 5, '관': 5, '자': 4, ...})

In [59]:
# 한글 글꼴 설치
# 설치 후 런타임 재실행
!sudo apt-get install -y fonts-nanum > /dev/null 2>&1
!sudo fc-cache -fv > /dev/null 2>&1
!rm ~/.cache/matplotlib -rf > /dev/null 2>&1

```
plt.rcParams['font.family'] = 'NanumBarunGothic' #나눔바른고딕 적용하기
```

In [None]:
# matplotlib.pyplot을 이용해서 빈도그래프 그리기
# 나눔바른고딕 적용하기
# (12, 6) 사이즈로 그래프를 그리고, 많이 등장한 50개 단어 순으로 그래프를 그리도록 했어요.
# 학위가 제일 많이 등장. 위에서 vocab() 함수로 확인했던 결과와 동일
import matplotlib.pyplot as plt


In [9]:
# pip install wordcloud
import wordcloud

In [10]:
# Wordcloud 불러오기
# 불용어를 리스트로 지정해 stopword로 저장
# stopword에 있지 않은 ko안의 단어들을 each_word로 넣고 ko로 다시 저장
# ko를 출력해보면 이전 출력했던 결과와 다름 확인
from wordcloud import WordCloud

stopwords = ['정', '제', '및' , '안' ,'자', '과', '수', '의', '이', '발']
ko = [each_word for each_word in ko if each_word not in stopwords]
ko

['고등',
 '교육법',
 '일부',
 '개정',
 '법률',
 '안상수',
 '의원',
 '대표',
 '발의',
 '번',
 '호',
 '발의',
 '연월일',
 '안상수',
 '김정훈',
 '원희목',
 '강석호',
 '서상기',
 '나성린',
 '권영진',
 '이춘식',
 '정영희',
 '이애주',
 '안형환',
 '백성운',
 '김금래',
 '의원',
 '인',
 '제안',
 '이유',
 '내용',
 '현재',
 '간호사',
 '경우',
 '전문',
 '대학',
 '졸업',
 '대학',
 '졸업',
 '면',
 '증',
 '취득',
 '학위',
 '종류',
 '문학사',
 '이기',
 '때문',
 '학',
 '사학',
 '위',
 '취득',
 '위',
 '별도',
 '학사',
 '학위',
 '교육과정',
 '이수',
 '실정',
 '임',
 '간호',
 '교육',
 '필요성',
 '선진',
 '각국',
 '경향',
 '고려',
 '국민',
 '대한',
 '나은',
 '의료',
 '서비스',
 '제공',
 '위',
 '대통령령',
 '기준',
 '충족',
 '간호',
 '대해',
 '수업',
 '연한',
 '로',
 '수여',
 '학위',
 '종류',
 '학사',
 '학위',
 '함',
 '신설',
 '법률',
 '호',
 '고등',
 '교육법',
 '일부',
 '개정',
 '법률',
 '고등',
 '교육법',
 '일부',
 '다음',
 '개정',
 '다음',
 '신설',
 '간호',
 '수업',
 '연한',
 '학위',
 '관',
 '특례',
 '대통령령',
 '기준',
 '충족',
 '간호',
 '수업',
 '연한',
 '항의',
 '간호',
 '학칙',
 '과정',
 '이수',
 '대하',
 '학사',
 '학위',
 '수여',
 '항의',
 '학위',
 '종류',
 '수여',
 '관',
 '사항',
 '대통령령',
 '부',
 '칙',
 '법',
 '공포',
 '후',
 '개월',
 '경과',
 '날',
 '시행',
 '법',
 '시행',
 '당시

In [11]:
# Text()함수를 사용해 토큰화된 문서 탐색
# 빈도그래프를 그려 다른 결과 확인
ko = nltk.Text(ko, name='의안 제 1809894호')


In [None]:
# 워드클라우드
# vocab() 함수를 사용해 단어별 빈도 중 최빈도 단어 30개만 추출해 data에 저장
# WordCloud() 함수로 워드클라우드 생성
# 옵션으로 폰트, 배경색 지정해주고, data 단어들을 이용해 워드클라우드 생성
data = ko.vocab().most_common(30)

wordcloud = WordCloud(font_path='/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf', background_color='white')



In [13]:


# font 경로 확인
import matplotlib.font_manager as fm
sys_font = fm.findSystemFonts()

[f for f in sys_font if 'Nanum' in f]


['/usr/share/fonts/truetype/nanum/NanumSquareB.ttf',
 '/usr/share/fonts/truetype/nanum/NanumGothicBold.ttf',
 '/usr/share/fonts/truetype/nanum/NanumGothic.ttf',
 '/usr/share/fonts/truetype/nanum/NanumSquareRoundR.ttf',
 '/usr/share/fonts/truetype/nanum/NanumMyeongjo.ttf',
 '/usr/share/fonts/truetype/nanum/NanumSquareRoundB.ttf',
 '/usr/share/fonts/truetype/nanum/NanumMyeongjoBold.ttf',
 '/usr/share/fonts/truetype/nanum/NanumSquareR.ttf',
 '/usr/share/fonts/truetype/nanum/NanumGothicCodingBold.ttf',
 '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf',
 '/usr/share/fonts/truetype/nanum/NanumBarunGothicBold.ttf',
 '/usr/share/fonts/truetype/nanum/NanumGothicCoding.ttf']

In [12]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive




```
# font 경로 확인
import matplotlib.font_manager as fm
sys_font = fm.findSystemFonts()

[f for f in sys_font if 'Nanum' in f]
```

