### 한국어처리
#### 정규표현식
* 한국어 정규 표현식도 대부분의 문법은 영어 정규 표현식과 같음
* 한국어는 자음과 모음이 분리되어 있기 때문에, 문법을 지정할 때는 자음과 모음을 동시에 고려해야 함

#### 정규화(Normalization)
##### 어떤 단어를 통일 된 명칭으로 구성해야 할 필요가 있는 경우

In [1]:
s= "I visited UK from on 22-09-20"
new_s = s.replace("UK","United Kingdom").replace("US","United States").replace("-20","-2020")
print(new_s)
# replace를 이용하여 정규화를 한 번에 하는 방법

I visited United Kingdom from on 22-09-2020


#### 정규표현식

*   정규 표현식은 특정 문자들을 편리하게 지정하고 추가, 삭제 가능
*   데이터 전처리에서 정규 표현식을 많이 사용
*   파이썬에서는 정규 표현식을 지원하는 re패키지 제공


---


*   정규 표현식 문법 

 |특수문자|설명|
 |-----|---|
 | .   | 문자 1개를 표현|
 | ?   |문자 한 개를 표현하나 존재할 수도, 존재하지 않을 수도 있음(0개 또는 1개)|
 | *   |앞의 문자가 0개 이상|
 | +   |앞의 문자가 최소 1개 이상|
 | ^   |뒤의 문자로 문자열이 시작|
 |\\$   |앞의 문자로 문자열이 끝남|
 |\\{n\\}|n번 만큼 반복|
|\\{n1,n2\\}|n1이상, n2이하만큼 반복, n2를 지정하지 않으면 n1이상만 반복|
|\\[abc 역슬래시]|안에 문자들 중 한 개의 문자와 매치, a-z처럼 범위도 지정 가능|
|\\[^a역슬래시]|해당 문자를 제외하고 매치|
|a\|b|a 또는 b를 나타냄|

*   정규 표현식에 자주 사용하는 역슬래시(\\)를 이용한 문자 규칙


|문자|설명|
|---|---|
|\\ \\|역슬래시 자체를 의미|
|\\d|모든 숫자를 의미, [0-9]와 동일|
|\\D|숫자를 제외한 모든 문자를 의미, [^0-9]와 동일|
|\\s|공백을 의미, [\\t\\n\\r\\f\\v]와 동일|
|\\w|문자와 숫자를 의미, [a-zA-Z0-9]|
|\\W|문자와 숫자를 제외한 다른 문자를 의미,[^a-zA-Z0-9]와 동일|


####  compile
* compile을 사용하면 여러 번 사용할 경우 일반 사용보다 더 빠른 속도를 보임
* compile을 통해 정규 표현식을 사용할 경우 re가 아닌 컴파일한 객체 이름을 통해 사용해야 함



In [2]:
import time
import re
check = 'ab.'  

normal_s_time = time.time()   # 지금까지의 소요 시간
r = 'ab.'
for i in range(1000):
  re.match(r,'abc')
print('일반 사용 시 소요 시간: ', time.time() - normal_s_time)

compile_s_time = time.time()
r = re.compile('ab.')         
for i in range(1000):
  r.match(check)             # 정규표현식 사용 시 객체 이름을 통해 사용
print('컴파일 사용 시 소요 시간: ',time.time() - compile_s_time)            # 컴파일 해서 사용한 게 더 빠르다

일반 사용 시 소요 시간:  0.005061149597167969
컴파일 사용 시 소요 시간:  0.0005872249603271484


#### match
* 컴파일한 정규 표현식을 이용해 문자열이 정규 표현식과 맞는지 검사

In [3]:
import re

check = '[ㄱ-ㅎ]+'

print(re.match(check,'ㅎ 안녕하세요.'))
print(re.match(check,'안녕하세요. ㅎ'))

<re.Match object; span=(0, 1), match='ㅎ'>
None


#### search
* match와 다르게, search는 문자열의 전체를 검사

In [4]:
chech = '[ㄱ-ㅎ|ㅏ-ㅣ]+'

print(re.search(check,'ㄱ ㅏ 안녕하세요'))
print(re.match(check,'안 ㄱ ㅏ'))                      # 앞부분만 검사하기 때문에 앞에 자음이나 모음이 없어서 none이 출력됨
print(re.match(check,'ㄱ ㅏ 안녕하세요'))
print(re.search(check,'안 ㄱ ㅏ '))                    # search는 문자열 전체를 검사


<re.Match object; span=(0, 1), match='ㄱ'>
None
<re.Match object; span=(0, 1), match='ㄱ'>
<re.Match object; span=(2, 3), match='ㄱ'>


#### split
* 정규표현식에 해당하는 문자열을 기준으로 문자열을 나눔

In [5]:
r= re.compile(' ')
print(r.split('abc abbc abcbab'))

r= re.compile('c')
print(r.split('abc abbc abcbab'))

r= re.compile('[1-9]')
print(r.split('s1abc 2v3s 4abc 5bab'))      # 정규표현식에 해당하는 문자열을 사용하여 split이용 (split의 기준은 리스트에서 사라짐)



['abc', 'abbc', 'abcbab']
['ab', ' abb', ' ab', 'bab']
['s', 'abc ', 'v', 's ', 'abc ', 'bab']


#### findall
* 컴파일한 정규 표현식을 이용해 정규 표현식과 맞는 모든 문자(열)을 리스트로 반환

In [6]:
print(re.findall('[\d]', '1ab 2cd 3ef 4g'))   # [\d] 는 모든 숫자를 의미
print(re.findall('[\W]','!abcd@@#'))          # [\W] 는 문자 숫자가 아닌 특수문자에 대해서만 의미

['1', '2', '3', '4']
['!', '@', '@', '#']


#### finditer
* 컴파일한 정규 표현식을 이용해 정규 표현식과 맞는 모든 문자 (열)을 iterator 객체로 반환
* iterator 객체를 이용하면 생성된 객체를 하나씩 자동으로 가져올 수 있어 처리가 간편함

In [7]:
iter1 = re.finditer('[\d]', '1ab 2cd 3ef 4g')
print(iter1)
for i in iter1:
  print(i)

iter2 = re.finditer('[\W]','!abcd@@#')
print(iter2)
for i in iter2:
  print(i)

# 리스트에 넣는 게 아니라 하나씩 반환이 가능하다 (하나씩 반환된 게 압축된 형태로 출력(예제에선 for문으로 풀어줌))

<callable_iterator object at 0x7fad383f3550>
<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(4, 5), match='2'>
<re.Match object; span=(8, 9), match='3'>
<re.Match object; span=(12, 13), match='4'>
<callable_iterator object at 0x7fad383f3510>
<re.Match object; span=(0, 1), match='!'>
<re.Match object; span=(5, 6), match='@'>
<re.Match object; span=(6, 7), match='@'>
<re.Match object; span=(7, 8), match='#'>


#### sub
* 정규표현식과 일치하는 부분을 다른 문자열로 교체


In [8]:
print(re.sub('[가-힣]','가나다라마바사','1'))
print(re.sub('[^가-힣]','가나다라마바사','1'))

1
가나다라마바사


#### n-gram 추출
* n-gram은 n개의 어절이나 음절을 연쇄적으로 분류해 그 빈도를 분석
* n=1일 때는 unigram, n=2일 때는 bigram, n=3일 때는 trigram으로 불림

In [9]:
from nltk import ngrams

sentence = '배움에는 왕도가 없다. 요즘 날씨가 춥다'
bigram = list(ngrams(sentence.split(),2))
print(bigram)

[('배움에는', '왕도가'), ('왕도가', '없다.'), ('없다.', '요즘'), ('요즘', '날씨가'), ('날씨가', '춥다')]


In [10]:
trigram = list(ngrams(sentence.split(),3))
print(trigram)

[('배움에는', '왕도가', '없다.'), ('왕도가', '없다.', '요즘'), ('없다.', '요즘', '날씨가'), ('요즘', '날씨가', '춥다')]


In [11]:
import nltk
nltk.download('punkt')
from textblob import TextBlob

blob = TextBlob(sentence)
blob.ngrams(n=2)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


[WordList(['배움에는', '왕도가']),
 WordList(['왕도가', '없다']),
 WordList(['없다', '요즘']),
 WordList(['요즘', '날씨가']),
 WordList(['날씨가', '춥다'])]

In [12]:
blob.ngrams(n=3)

[WordList(['배움에는', '왕도가', '없다']),
 WordList(['왕도가', '없다', '요즘']),
 WordList(['없다', '요즘', '날씨가']),
 WordList(['요즘', '날씨가', '춥다'])]

#### 토큰화(Tokenization)
* 한국어를 학습 데어터를 사용할 때는 언어의 특성으로 인해 추가로 고려해야 할 사항이 존대
* 한국어는 띄어쓰기를 준수하지 않아도 의미가 전달되는 경우가 많아 띄어쓰기가 지켜지지 않을 가능성이 존재
* 띄어쓰기가 지며지지 않으면 정상적인 토큰 분리가 이루어지지 않음 
* 한국어는 형태소라는 개념이 존재해 추가로 고려해야함
* '그는', '그가' 등의 단어들은 같은 의미를 가리키지만 텍스트 처리에서는 다르게 받아들일 수 있어 처리를 해줘야 함

##### 한국어 자연어 처리 konlpt와 형태소 분석기 Mecab설치
* http://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh

In [13]:
!set -x \
&& pip install konlpy \
&& curl -s http://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh | bash -x

+ pip install konlpy
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.2 MB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.4.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (453 kB)
[K     |████████████████████████████████| 453 kB 71.5 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.0 konlpy-0.6.0
+ bash -x
+ curl -s http://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh


#### 단어 토큰화
* 한국어는 공백으로 단어를 분리해도 조사, 접속사 등이 남아 분석에 어려움이 있음 
* 이를 해결해주는 한국어 토큰화는 조사, 접속사를 분리해주거나 제거
* 한국어 토큰화를 사용하기 위해선 konlpy와 mecab 이라는 라이브러리가 필요

In [None]:
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh     # 영상에서 나온 건 mecab 설치가 안됨 이걸로 설치

Cloning into 'Mecab-ko-for-Google-Colab'...
remote: Enumerating objects: 115, done.[K
remote: Counting objects: 100% (24/24), done.[K
remote: Compressing objects: 100% (20/20), done.[K
remote: Total 115 (delta 11), reused 10 (delta 3), pack-reused 91[K
Receiving objects: 100% (115/115), 1.27 MiB | 27.68 MiB/s, done.
Resolving deltas: 100% (50/50), done.
/content/Mecab-ko-for-Google-Colab
Installing konlpy.....
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Done
Installing mecab-0.996-ko-0.9.2.tar.gz.....
Downloading mecab-0.996-ko-0.9.2.tar.gz.......
from https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
--2022-09-07 01:08:05--  https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
Resolving bitbucket.org (bitbucket.org)... 104.192.141.1, 2406:da00:ff00::22e9:9f55, 2406:da00:ff00::22cd:e0db, ...
Connecting to bitbucket.org (bitbucket.org)|104.192.141.1|:443... connected.
HTTP reque

In [None]:
pip install nltk

In [None]:
import nltk 

#### PoS(Parts of Speech) 태깅
* PoS는 품사를 의미하며, PoS 태깅은 문장 내에서 단어에 해당하는 각 품사를 태깅

In [None]:
from konlpy.tag import Mecab
tagger = Mecab()                  # 각 단어를 태깅해줌

In [None]:
sentence= '언제나 현재에 집중할 수 있다면 행복할 것이다.'
tagger.pos(sentence)

* 토큰화만 실행할 때는 tagger.morphs()라는 함수를 이용

In [None]:
tagger.morphs(sentence)  

* 형태소만 사용하고 싶을 때는 tagger.nouns() 라는 함수를 이용해 조사, 접속사 등을 제거 가능

In [None]:
tagger.nouns(sentence)

#### 문장 토큰화
* 한국어 문장을 토큰화할 때는 kss(korean sentence splitter)라이브러리 이용

In [None]:
!pip install kss

* 라이브러리를 이용해도 한국어에는 전치 표현이 존재해 제대로 토큰화가 안됨
* 좀 더 나은 학습을 위해 사용자는 해당 부분을 따로 처리해주어야만 함

In [None]:
import kss
# 문장 토큰
text = '진짜? 내일 뭐하지. 이렇게 애매모호한 문장도? 밥은 먹었어? 나는...'
print(kss.split_sentences(text))

#### 정규표현식을 이용한 토큰화
* 한국어도 정규 표현식을 이용해 토큰화 가능

In [None]:
from nltk.tokenize import RegexpTokenizer
sentence = '안녕하세요 ㅋㅋ 저는 자연어 처리 (Netural Language Processing)를ㄹ!! 배우고 있습니다.'

tokenizer = RegexpTokenizer("[가-힣]+")
tokens = tokenizer.tokenize(sentence)
tokens


In [None]:
tokenizer = RegexpTokenizer('[ㄱ-ㅎ]+',gaps = True)
tokens =tokenizer.tokenize(sentence)
tokens

#### 케라스를 이용한 토큰화

In [None]:
from keras.preprocessing.text import text_to_word_sequence
sentence = '성공의 비결은 단 한 가지, 잘할 수 있는 일에 광적으로 집중하는 것이다.'
text_to_word_sequence(sentence)
# 특수기호는 빠지고 거의 공백을 기준으로 토큰화

#### TextBlob을 이용한 토큰화

In [None]:
nltk.download('punkt')
from textblob import TextBlob
blob =TextBlob(sentence)
blob.words

#### Bag of Words(BoW)

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = ['평생 살 것처럼 꿈을 꾸어라. 그리고 내일 죽을 것처럼 오늘을 살아라.']
vector = CountVectorizer()
bow = vector.fit_transform(corpus)

print(bow.toarray())
print(vector.vocabulary_)
# 공백을 기준으로 나누어서 인덱싱하고 단어의 빈도를 리스트로 만든다. (일부 불필요한 것들이 제거된다.)

In [None]:
# 형태소 분석기를 이용해서 슬라이싱 하는 방법
import re
from konlpy.tag import Mecab
tagger = Mecab()

corpus='평생 살 것처럼 꿈을 꾸어라. 그리고 내일 죽을 것처럼 오늘을 살아라.'
tokens = tagger.morphs(re.sub('(\.)','',corpus))

vocab={}
bow=[]

for tok in tokens:
  if tok not in vocab.keys():
    vocab[tok] = len(vocab)
    bow.insert(len(vocab)-1,1)
  else:
    index = vocab.get(tok)
    bow[index] = bow[index]+1

print(bow)
print(vocab)

#### 문서 단어 행렬(DTM)
* 문서 단어 행열(Document-Term Matrix)은 문서에 등장하는 여러 단어들의 빈도를 행렬로 표현
* 각 문서에 대한 BoW를 하나의 행렬로 표현한 것

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = ['스티브잡스의 롤모델은 아리스토텔레스이다.',
          '픽사와 애플은 스티브잡스의 회사이다.',
          '애플은 한국어로 사과이다.']

vector = CountVectorizer(stop_words='english')
bow = vector.fit_transform(corpus)

print(bow.toarray())
print(vector.vocabulary_)

In [None]:
import pandas as pd
columns = []
for k,v in sorted(vector.vocabulary_.items(),key=lambda item :item[1]):  # 뒤에 있는 인덱스값을 기준으로 정렬
  columns.append(k)

df = pd.DataFrame(bow.toarray(),columns=columns)
df
# 행렬 표 형식으로 출력

#### 어휘 빈도-문서 역빈도(TF-IDF)분석
* 어휘 빈도-문서 역빈도(TF-IDF; Term Frequency-Inverse Document Frequency)는 단순히 빈도수가 높은 단어가 핵심어가 아닌, 특정 문서에서만 집중적으로 등장할 때 해당 단어가 문서의 주제를 잘 담고 있는 핵심어라고 가정
* 특정 문서에서 특정단어가 많이 등장하고 그 단어가 다른 문서에서 적게 등장할 때, 그 단어를 특정 문서의 핵심어로 간주
* 어휘 빈도-문서 역빈도는 어휘 빈도와 역문서 빈도를 곱해 계산 가능
* 어휘 빈도는 특정 문서에서 특정 단어가 많이 등장하는 것을 의미
$$tf_{x,y}$$
* 역문서 빈도는 다른 문서에서 등장하지 않는 단어 빈도를 의미
$$log(N/df_{x})$$
* 어휘 빈도-문서 역빈도는 다음과 같이 표현
$$W_{x,y}=tf_{x,y} \times log(N/df_{x})$$
* tf-idf를 편리하게 계산하기 위해 scikit-learn의 tfidfvectorizer를 이용
* 앞서 계산한 단어 빈도 수를 입력하여 tf-idf로 변환


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(stop_words='english').fit(corpus)

print(tfidf.transform(corpus).toarray())
print(tfidf.vocabulary_)
# 계산된 tfidf결과가 나온다.

In [None]:
columns = []
for k,v in sorted(tfidf.vocabulary_.items(),key=lambda item :item[1]):  # 뒤에 있는 인덱스값을 기준으로 정렬
  columns.append(k)

pd.DataFrame(tfidf.transform(corpus).toarray(),columns=columns)

# 행렬 표 형식으로 출력

#### 불용어 제거
* 영어의 전치사(on,in), 한국어의 조사(을, 를) 등은 분석에 필요하지 않는 경우가 많음
* 길이가 짧은 단어, 등장 빈도 수가 적은 단어들도 분석에 큰 영향을 주지 않음
* 일반적으로 사용되는 도구들은 해당 단어들을 제거해주지만 완벽하게 제거되지는 않음
* >>사용자가 불용어 사전을 만들어 해당 단어들을 제거하는 것이 좋음<<
* 도구들이 걸러주지 않는 전치사, 조사 등을 불용어 사전을 만들어 불필요한 단어들을 제거

In [None]:
stop_words = '이 가 그'
stop_words = stop_words.split(" ")
stop_words                             # 불용어 사전을 만들기

In [None]:
sentence='스테이지에서 노래하는 그 가수가 있다.'
sentence = sentence.split()
nouns=[]
for noun in sentence:
  if noun not in stop_words:
    nouns.append(noun)

nouns
# 한국어에서 사용할 때에는 체언 옆에 붙은 불용어를 제거하는 방법을 고안해 보아야 겠다. 근데 어려울 듯 왜냐하면 체언에도 이 가 그 등의 단어가 포함될 수 있기 때문에