# 텍스트 전처리

#### 전처리 과정

- 클렌징(cleansing)
- 토큰화(Tokenization)
- 필터링/ 스톱 워드(불용어) 제거 / 철자 수정
- 어간 추출(Stemming & Lemmatization)

## 2. 텍스트 토큰화(Text Tokenization)

- 문서에서 문장을 분리하는 **`문장 토큰화`**
- 문장에서 단어를 토큰으로 분리하는 **`단어 토큰화`**

### 문장 토큰화

- 문장의 마침표(.), 개행문자(\n), ? 등 문장의 마지막을 뜻하는 기호에 따라 분리
- 문장 분류(sentence segmentation)
- 코퍼스가 정제되지 않은 상태(문장 단위로 구분되어 있지 않는 경우)

- `!`와 `?`는 확실하게 문장 구분역할을 하나 `.`는 경우에 따라 문장을 구분하지 못하는 경우가 있음
- 예1.
```python
'''IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서
aaa@gmail.com로 결과 좀 보내줘. 그 후 점심 먹으러 가자.'''
```- 예2.
```python
"Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year."
```

- 정규 표현식에 따른 문장 토큰화
- NLTK의 **`sent_tokenize` API**를 많이 사용
- 단어사전과 같이 참조가 필요한 데이터 세트는 인터넷으로 다운로드 가능
    - 예. nltk.download('punkt') : 마침표, 개행문자 등의 데이터 세트 다운로드

**예. 마침표, 개행문자 등의 데이터세트 다운로드 및 문장 토큰화**

In [1]:
import nltk
from nltk import sent_tokenize

In [2]:
text_sample = 'NLTK is a leading platform for building Python programs to work with human language data. \
It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet,\
along with a suite of text processing libraries for classification, tokenization, stemming,\
tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries,\
and an active discussion forum.'

In [3]:
result = sent_tokenize(text_sample)
result

['NLTK is a leading platform for building Python programs to work with human language data.',
 'It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet,along with a suite of text processing libraries for classification, tokenization, stemming,tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries,and an active discussion forum.']

In [4]:
text_sample2 = "Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year."

In [5]:
result2 = sent_tokenize(text_sample2)
result2

["Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year."]

In [6]:
text_sample3 = '''IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서
aaa@gmail.com로 결과 좀 보내줘. 그 후 점심 먹으러 가자.'''
sent_tokenize(text_sample3)

['IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서\naaa@gmail.com로 결과 좀 보내줘.',
 '그 후 점심 먹으러 가자.']

### 단어 토큰화

- 문장을 단어로 토큰화
- 공백, 콤마(,), 마침표(.), 개행문자 등으로 단어를 분리
- 정규표현식을 이용해 다양한 토큰화 수행
- Bag of Word와 같이 단어의 순서가 중요하지 않은 경우는 문장 토큰화를 수행하지 않고 단어 토큰화만 사용해도 충분함
- 문장 토큰화는 각 문장이 가지는 시맨틱적 의미가 중요한 요소로 사용될 때 이용
- 단어 토큰화를 위해 NLTK의 **`word_tokenize` API** 사용

In [2]:
from nltk import word_tokenize

sentence = 'NLTK is a leading platform for building Python programs to work with human language data.'
word_tokenize(sentence)

['NLTK',
 'is',
 'a',
 'leading',
 'platform',
 'for',
 'building',
 'Python',
 'programs',
 'to',
 'work',
 'with',
 'human',
 'language',
 'data',
 '.']

In [9]:
sentence2 = "Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year."
word_tokenize(sentence2)

['Since',
 'I',
 "'m",
 'actively',
 'looking',
 'for',
 'Ph.D.',
 'students',
 ',',
 'I',
 'get',
 'the',
 'same',
 'question',
 'a',
 'dozen',
 'times',
 'every',
 'year',
 '.']

### 아포스트로피(')가 있는 문장에 대한 단어 토큰화

- NLTK의 WordPunctTokenizer를 이용

In [3]:
from nltk.tokenize import WordPunctTokenizer

sentence3 = "It's nothing that you don't already know except most people aren't aware of how their inner world works."
print(f'word_tokenize결과',word_tokenize(sentence3))
print()
print(f'WordPunctTokenizer결과',WordPunctTokenizer().tokenize(sentence3))

word_tokenize결과 ['It', "'s", 'nothing', 'that', 'you', 'do', "n't", 'already', 'know', 'except', 'most', 'people', 'are', "n't", 'aware', 'of', 'how', 'their', 'inner', 'world', 'works', '.']

WordPunctTokenizer결과 ['It', "'", 's', 'nothing', 'that', 'you', 'don', "'", 't', 'already', 'know', 'except', 'most', 'people', 'aren', "'", 't', 'aware', 'of', 'how', 'their', 'inner', 'world', 'works', '.']


### 예. 문장 토큰화와 단어 토큰화

In [4]:
def tokenize_text(text):
    sentences = sent_tokenize(text)
    result = [word_tokenize(sentence) for sentence in sentences]
    return result

In [18]:
print(tokenize_text(text_sample))

[['NLTK', 'is', 'a', 'leading', 'platform', 'for', 'building', 'Python', 'programs', 'to', 'work', 'with', 'human', 'language', 'data', '.'], ['It', 'provides', 'easy-to-use', 'interfaces', 'to', 'over', '50', 'corpora', 'and', 'lexical', 'resources', 'such', 'as', 'WordNet', ',', 'along', 'with', 'a', 'suite', 'of', 'text', 'processing', 'libraries', 'for', 'classification', ',', 'tokenization', ',', 'stemming', ',', 'tagging', ',', 'parsing', ',', 'and', 'semantic', 'reasoning', ',', 'wrappers', 'for', 'industrial-strength', 'NLP', 'libraries', ',', 'and', 'an', 'active', 'discussion', 'forum', '.']]


참고. 케라스의 text_to_word_sequence를 이용한 토큰화

```python
from tensorflow.keras.preprocessing.text import text_to_word_sequence

sentence = "It's nothing that you don't already know except most people aren't aware of how their inner world works."

words = text_to_word_sequence(sentence)
print(words)
```

- 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점을 제거함
- 아포스트로피를 보존함

In [14]:
!pip install tensorflow

Defaulting to user installation because normal site-packages is not writeable
Collecting tensorflow
  Downloading tensorflow-2.16.1-cp311-cp311-win_amd64.whl.metadata (3.5 kB)
Collecting tensorflow-intel==2.16.1 (from tensorflow)
  Downloading tensorflow_intel-2.16.1-cp311-cp311-win_amd64.whl.metadata (5.0 kB)
Collecting absl-py>=1.0.0 (from tensorflow-intel==2.16.1->tensorflow)
  Downloading absl_py-2.1.0-py3-none-any.whl.metadata (2.3 kB)
Collecting astunparse>=1.6.0 (from tensorflow-intel==2.16.1->tensorflow)
  Downloading astunparse-1.6.3-py2.py3-none-any.whl.metadata (4.4 kB)
Collecting flatbuffers>=23.5.26 (from tensorflow-intel==2.16.1->tensorflow)
  Downloading flatbuffers-24.3.25-py2.py3-none-any.whl.metadata (850 bytes)
Collecting gast!=0.5.0,!=0.5.1,!=0.5.2,>=0.2.1 (from tensorflow-intel==2.16.1->tensorflow)
  Downloading gast-0.5.4-py3-none-any.whl.metadata (1.3 kB)
Collecting google-pasta>=0.1.1 (from tensorflow-intel==2.16.1->tensorflow)
  Downloading google_pasta-0.2.0-p



In [15]:
import tensorflow

from tensorflow.keras.preprocessing.text import text_to_word_sequence

sentence = "It's nothing that you don't already know except most people aren't aware of how their inner world works."

words = text_to_word_sequence(sentence)
print(words)

["it's", 'nothing', 'that', 'you', "don't", 'already', 'know', 'except', 'most', 'people', "aren't", 'aware', 'of', 'how', 'their', 'inner', 'world', 'works']


### 토큰화에서 고려할 사항

1. 구두점이나 특수 문자를 단순 제외해서는 안된다
- 마침표(`.`)가 문장의 경계를 구분할 경우
- 단어 자체에 구두점을 가지고 있는 경우 : 예. Ph.D,  AT&T
- 특수문자의 `$`나 `/` : $45.55,  01/02/06 날짜
- 숫자 사이에 `,` : 123,456,789

2. 줄임말과 단어 내에 띄어쓰기가 있는 경우
- 영어의 아포스트로피(') : 예. what're -> what are,  we're -> we are (re를 접어라고 함)
- 하나의 단어인데 중간에 띄어쓰기가 있는 경우는 하나의 토큰으로 구분해야 함
    - 예. rock 'n' roll

### 표준 토큰화 예 : Penn Treebank Tokenization 규칙

- 규칙1. 하이푼(-)으로 구성된 단어는 하나로 유지한다
- 규칙2. dosen't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리한다

In [5]:
from nltk.tokenize import TreebankWordTokenizer

In [26]:
sentence1 = "It's nothing that you don't already know except\
most people aren't aware of how their inner world works."
sentence2 = "Starting a home-based restaurant may be an ideal. \
it doesn't have a food chain or restaurant of their own."
word1 = TreebankWordTokenizer().tokenize(sentence1)
word2 = TreebankWordTokenizer().tokenize(sentence2)
word3 = word_tokenize(sentence2)

print(word1)
print()
print(word2)
print()
print(word3)

['It', "'s", 'nothing', 'that', 'you', 'do', "n't", 'already', 'know', 'exceptmost', 'people', 'are', "n't", 'aware', 'of', 'how', 'their', 'inner', 'world', 'works', '.']

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal', '.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


### 한글 토큰화

#### 한국어 문장 토큰화
- KSS(Korean Sentence Splitter)
   - 박상길 개발
   - https://github.com/hyunwoongko/kss

In [29]:
!pip install kss

Defaulting to user installation because normal site-packages is not writeable
Collecting kss
  Using cached kss-5.2.0.tar.gz (88 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting emoji==1.2.0 (from kss)
  Using cached emoji-1.2.0-py3-none-any.whl.metadata (4.3 kB)
Collecting pecab (from kss)
  Downloading pecab-1.0.8.tar.gz (26.4 MB)
     ---------------------------------------- 0.0/26.4 MB ? eta -:--:--
     -- ------------------------------------- 1.3/26.4 MB 42.3 MB/s eta 0:00:01
     --- ------------------------------------ 2.1/26.4 MB 33.5 MB/s eta 0:00:01
     --- ------------------------------------ 2.1/26.4 MB 33.5 MB/s eta 0:00:01
     --- ------------------------------------ 2.1/26.4 MB 33.5 MB/s eta 0:00:01
     --- ------------------------------------ 2.1/26.4 MB 33.5 MB/s eta 0:00:01
     --- ------------------------------------ 2.1/26.4 MB 33.5 MB/s eta 0:00:01
     --- ------------------------------------

In [6]:
from kss import split_sentences
text1 = '자연어처리가 재미있기는 합니다. 그런데 영어보다 한국어로 처리할 때 너무 어려워요'
text2 = '여러분 힘내요! 시작이 반이에요.'
print(split_sentences(text1))
print(split_sentences(text2))

[Kss]: Oh! You have mecab in your environment. Kss will take this as a backend! :D



['자연어처리가 재미있기는 합니다.', '그런데 영어보다 한국어로 처리할 때 너무 어려워요']
['여러분 힘내요!', '시작이 반이에요.']


- KoNLPy에서 제공하는 한글 형태소 분석기를 이용

In [7]:
from konlpy.tag import Kkma
Kkma().sentences(text2)

['여러분 힘 내요!', '시작이 반이에요.']

#### 한국어 단어 토큰화

In [36]:
print(Kkma().morphs(text1))

['자연어', '처리', '가', '재미있', '기', '는', '하', 'ㅂ니다', '.', '그런데', '영어', '보다', '한국어', '로', '처리', '하', 'ㄹ', '때', '너무', '어렵', '어요']


In [37]:
print(Kkma().morphs(text2))

['여러분', '힘', '내', '이', '요', '!', '시작', '이', '반', '이', '에요', '.']


In [38]:
Kkma().nouns(text2)

['여러분', '힘', '힘내', '내', '시작', '반']

### 한국어에서 토큰화의 어려움

**1. 교착어 특성**
- 다양한 조사가 띄어쓰기 없이 바로 붙어 있어 다른 단어로 보임(조사 분리 필요)
   - 예. 그(he/him) : 그가, 그에게, 그를, 그와, 그는
- 형태소(morpheme) : 뜻을 가진 가장 작은 말의 단위
   - 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소
       - 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사
       - 그 자체로 단어가 됨
   - 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소
       - 접사, 어미, 조사, 어간
   - 예. 나래가 책을 읽었다
       - 자립형태소 : 나래, 책
       - 의존형태소 : -가, -을, 읽-, -었, -다

**2. 띄어쓰기가 영어보다 잘 지켜지지 않음**
- 한국어는 띄어쓰기가 지켜지지 않아도 글을 쉽게 이해할 수 있는 언어
- 띄어쓰기 보편화 : 1933년 한글맞춤법통일안
- 한국어 모아쓰기 방식, 영어는 풀어쓰기 방식
- 예.
    - 제가이렇게띄어쓰기를전혀하지않고글을썼다고하더라도글을이해할수있습니다.
    - Tobeornottobethatisthequestion

### 품사 태깅(part-of-speech tagging)

- 단어는 품사에 따라서 의미가 달라짐
    - 영어 'fly' : 동사-'날다', 명사-'파리'
    - 한국어 '못' : 명사-'망치를 사용해 목재 따위를 고정하는 물건', 부사-'동작 동사를 할 수 없다는 의미'
- 품사태깅 : 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지 구분하는 작업

#### 영어 품사 태깅
- nltk : Penn Treebank POS Tags 기준으로 품사 태깅
    - PRP : 인칭대명사
    - VBP : 동사
    - RB : 부사
    - VBG : 현재부사
    - IN : 전치사
    - NNP : 고유명사
    - NNS : 복수형명사
    - CC : 접속사
    - DT : 관사

In [16]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year."
token_sentence = word_tokenize(text)

print(f'단어토큰화: \n{token_sentence}')
print(f'품사 태깅: \n{pos_tag(token_sentence)}')

단어토큰화: 
['Since', 'I', "'m", 'actively', 'looking', 'for', 'Ph.D.', 'students', ',', 'I', 'get', 'the', 'same', 'question', 'a', 'dozen', 'times', 'every', 'year', '.']
품사 태깅: 
[('Since', 'IN'), ('I', 'PRP'), ("'m", 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), (',', ','), ('I', 'PRP'), ('get', 'VBP'), ('the', 'DT'), ('same', 'JJ'), ('question', 'NN'), ('a', 'DT'), ('dozen', 'NN'), ('times', 'NNS'), ('every', 'DT'), ('year', 'NN'), ('.', '.')]


#### 한국어 품사 태깅

- 한국어 단어 토큰화
- KoNLPy의 형태소 분석기
    - Okt(Open Korea Text)
    - 메캅(Mecab)
    - 코모란(Komoran)
    - 한나눔(Hannanum)
    - 꼬꼬마(Kkma)

- 형태소 분석기 메서드
    - morphs : 형태소 추출
    - pos : 품사 태깅
    - nouns : 명사 추출

In [17]:
from konlpy.tag import Okt, Kkma

okt = Okt()
kkma = Kkma()

text1 = '열심히 코딩한 당신, 연휴에는 여행을 가봐요'
text2 = '열심히 공부한 당신, 쉼을 가져봐요'

print(f'Okt 형태소 분석:', okt.morphs(text1))
print(f'Okt 품사 태깅:', okt.pos(text1))
print(f'Okt 명사 추출:', okt.nouns(text1))
print()
print(f'Kkma 형태소 분석:', kkma.morphs(text1))
print(f'Kkma 품사 태깅:', kkma.pos(text1))
print(f'Kkma 명사 추출:', kkma.nouns(text1))


Okt 형태소 분석: ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
Okt 품사 태깅: [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
Okt 명사 추출: ['코딩', '당신', '연휴', '여행']

Kkma 형태소 분석: ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
Kkma 품사 태깅: [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
Kkma 명사 추출: ['코딩', '당신', '연휴', '여행']


In [18]:
from konlpy.tag import Komoran
text1 = '열심히 코딩한 당신, 연휴에는 여행을 가봐요'
komoran = Komoran()

print(f'Komoran 형태소 분석:', komoran.morphs(text1))
print(f'Komoran 품사 태깅:', komoran.pos(text1))
print(f'Komoran 명사 추출:', komoran.nouns(text1))

Komoran 형태소 분석: ['열심히', '코', '딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가', '아', '보', '아요']
Komoran 품사 태깅: [('열심히', 'MAG'), ('코', 'NNG'), ('딩', 'MAG'), ('하', 'XSV'), ('ㄴ', 'ETM'), ('당신', 'NNP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKB'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가', 'VV'), ('아', 'EC'), ('보', 'VX'), ('아요', 'EC')]
Komoran 명사 추출: ['코', '당신', '연휴', '여행']


### Kkma 품사 태그
- NNG: 일반 명사
- JKS: 주격 조사
- JKM: 부사격 조사
- VV: 동사
- EFN: 평서형 종결 어미
- SF: 마침표, 물음표, 느낌표

### Okt 품사 태그 
- Noun: 명사
- Verb: 동사
- Adjective: 형용사
- Determiner: 관형사 (참, 첫, 이, 그)
- Adverb: 부사 (매우, 빨리, 반드시)
- Conjunction: 접속사
- Exclamation: 감탄사
- Josa: 조사
- PreEmoi: 선어말어미 (있)
- Emoi: 어미 (요, 여)
- Suffix: 접미사
- Punctuation: 구두점,마침표, 물음표, 느낌표 등
- Foreign: 외국어, 한자 및 기타 기호

### Komoran 품사 태그(42개 품사지원)
- NNG: 일반 명사
- NNP: 고유 명사
- VV: 동사
- VA: 형용사

**n-gram**

In [23]:
from nltk import ngrams

sentence = 'The Matrix is everywhere its all around us, here even this room'
words = word_tokenize(sentence)
print(f'단어 토큰화',words)
all_ngrams = ngrams(words, 2)
list(all_ngrams)

단어 토큰화 ['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'this', 'room']


[('The', 'Matrix'),
 ('Matrix', 'is'),
 ('is', 'everywhere'),
 ('everywhere', 'its'),
 ('its', 'all'),
 ('all', 'around'),
 ('around', 'us'),
 ('us', ','),
 (',', 'here'),
 ('here', 'even'),
 ('even', 'this'),
 ('this', 'room')]

## 3. 정제와 정규화

- 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거    
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어줌

- 토큰화 작업에 방해가 되는 부분들을 배제시키기 위해 토큰화 작업 전과 후에 진행
   1. 규칙에 기반한 표기가 다른 단어들 통합
       - USA -> US
       - uh-huh -> uhhuh
   2. 대소문자 통합 : 소문자로 변환
   3. 불필요한 단어의 제거
       - 등장 빈도가 적은 단어
       - 길이가 짧은 단어 : 길이가 2-3이하인 단어 제거

## 4. Stopwords 제거

- 불용어 제거
- 분석에 큰 의미가 없는 단어 제거
    - is, the, a, will 등 필수 문법 요소이지만 문맥적으로 큰 의미가 없는 단어
- 언어별 스톱 워드가 목록화되어 있음
    - NLTK의 **`'stopwords'`** 다운로드

In [None]:
import nltk
nltk.download('stopwords')

**영어의 불용어 목록**

In [26]:
stop_words = nltk.corpus.stopwords.words('english')
print('불용어 목록 수:', len(stop_words))
print(stop_words[10:20])

불용어 목록 수: 179
["you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


**예. 불용어 제거**

In [28]:
from nltk.corpus import stopwords
stop_words = stopwords.words('english')

text = 'One of the first things that we ask ourselves is \
what ar the pros and cons of any task we perform.'

# 토큰화
text_token = word_tokenize(text)

# 불용어 제거
token_sw = []
for word in text_token:
    if word not in stop_words:
        token_sw.append(word)

print(f'불용어 제거 전:',text_token)
print(f'불용어 제거 후:',token_sw)

불용어 제거 전: ['One', 'of', 'the', 'first', 'things', 'that', 'we', 'ask', 'ourselves', 'is', 'what', 'ar', 'the', 'pros', 'and', 'cons', 'of', 'any', 'task', 'we', 'perform', '.']
불용어 제거 후: ['One', 'first', 'things', 'ask', 'ar', 'pros', 'cons', 'task', 'perform', '.']


- 정규표현식을 이용한 불용어 제거

In [29]:
# 길이가 1~2개인 단어들 제거
import re

text = 'One of the first things that we ask ourselves is \
what ar the pros and cons of any task we perform.'

shortword = re.compile(r'\W*\b\w{1,2}\b')
shortword.sub('',text)

'One the first things that ask ourselves what the pros and cons any task perform.'

#### 한국어 불용어 제거
- 토큰화 후에 접속사, 조사 제거
- 명사, 형용사 중 제거하고 싶은 단어들을 불용어 목록에 정의하여 제거

In [None]:
okt = Okt()

text = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. \
예컨대 삼겹살을 구울 때는 중요한 게 있지."

stop_words = "를 아무렇게나 구 우려 고 안 돼 같은 게 구울 때 는"
stop_words = set(stop_words.split())

print(f'불용어 목록: ',stop_words)

# 토큰화
word_tokens = okt.morphs(text)
token_sw = [word for word in word_tokens if word not in stop_words]

print(f'불용어 제거 전:',word_tokens)
print(f'불용어 제거 후:',token_sw)

#### 참고. 한국어 불용어 리스트 제공 사이트
- https://www.ranks.nl/stopwords/korean

In [35]:
import pandas as pd

stopwords_kr = pd.read_csv('data/한국어 불용어 리스트.csv', encoding='CP949')
stopwords_kr

Unnamed: 0,휴
0,아이구
1,아이쿠
2,아이고
3,어
4,나
...,...
668,일곱
669,여덟
670,아홉
671,령


In [63]:
text = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. \
예컨대 삼겹살을 구울 때는 중요한 게 있지."

stopwords_list = stopwords_kr.values.tolist()
stop_words = stopwords_list

# 토큰화
word_tokens = okt.morphs(text)
token_sw = [word for word in word_tokens if word not in stop_words]

print(f'불용어 제거 전:',word_tokens)
print(f'불용어 제거 후:',token_sw)

불용어 제거 전: ['고기', '를', '아무렇게나', '구', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살', '을', '구울', '때', '는', '중요한', '게', '있지', '.']
불용어 제거 후: ['고기', '를', '아무렇게나', '구', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살', '을', '구울', '때', '는', '중요한', '게', '있지', '.']


## 5. Stemming과 Lemmatization

- 문법적 또는 의미적으로 변화하는 **`단어의 원형을 찾는 작업`**
- 뿌리 단어를 찾아 단어의 개수를 줄임
- 영어의 경우
    - be동사 : am, ar, is
    - 과거/현재, 3인칭 단수 여부, 진행형 등은 원래 단어가 변형된 것
        - 예. work : worked, working, works ...    

#### 단어의 원형을 찾아가는 방식
- 단어의 형태학(morphology)적 파싱을 진행
- 형태소의 종류
    - 어간(stem) : 단어의 의미를 담고 있는 단어의 핵심 부분
    - 접사(affix) : 단어에 추가적인 의미를 주는 부분
        - 예. cats : cat(어간) + -s(접사)
- Stemming(어간 추출)과 Lemmatization(표제어 추출)
    - 표제어 추출이 어간 추출 보다 더 정교하며 의미론적 기반에서 단어의 원형을 찾음
    - 표제어 추출이 어간 추출 보다 변환에 더 오랜 시간을 필요로 함

### 1) Stemming(어간 추출)

- 형태학적 분석을 단순화한 버전
- 정해진 규칙만 보고 어미를 자르는 어림짐작의 작업
- 원형 단어로 변환시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용해 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출하는 경향이 있음
- NLTK의 Stemmer : Porter, Lancaster, Snowball Stemmer

- NLTK의 **`LancasterStemmer`** 또는 **`PorterStemmer`** API를 이용
    - 진행형, 3인칭 단수, 과거형에 따른 동사, 비교, 최상에 따른 형용사 변화에 대한 더 단순한 원형 단어를 찾아 줌   
    

- stemming 단계    
    1. LancasterStemmer() 객체 생성
    2. stem('원하는단어') 메서드 호출

#### 랭커스터 알고리즘(LancasterStemmer)

In [65]:
from nltk.stem import LancasterStemmer

# stemmer객체 생성
stemmer = LancasterStemmer()

# 어간추출: stem()
print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('happier'),stemmer.stem('happies'))
print(stemmer.stem('national'),stemmer.stem('nation'))
print(stemmer.stem('amusing'),stemmer.stem('amuse'),stemmer.stem('amused'))

work work work
happy happy
nat nat
amus amus amus


#### 포터 알고리즘(PorterStemmer)

In [67]:
from nltk.stem import PorterStemmer

# stemmer객체 생성
stemmer = PorterStemmer()

# 어간추출: stem()
print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('happier'),stemmer.stem('happies'))
print(stemmer.stem('national'),stemmer.stem('nation'))
print(stemmer.stem('amusing'),stemmer.stem('amuse'),stemmer.stem('amused'))

work work work
happier happi
nation nation
amus amus amus


=> 랭커스터 알고리즘이 포터 알고리즘에 비해 단어 원형을 알아볼 수 없을 정도로 축소 시키므로, 데이터셋을 축소시켜야 하는 특정 상황에서 더 유용함

문제1. 다음 문장을 nltk의 PorterStemmer 추출 방식을 사용하여 단어 토큰화를 진행해보시오.
```python
sentence = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
```

In [79]:
stemmer = PorterStemmer()
sentences = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
st = word_tokenize(sentences)

st_p= [stemmer.stem(sentence) for sentence in st]
print(st_p)

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


문제2. 다음 단어들을 nltk의 두 가지 어간 추출 방식을 사용하여 어간을 추출하고 그 결과를 비교하시오.```python
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
```."

In [77]:
stemmer = PorterStemmer()
stemmer1 = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

st_p= [stemmer.stem(word) for word in words]
st_l = [stemmer1.stem(word) for word in words]

print(st_p)
print(st_l)

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


=> 어간 추출 속도는 표제어 추출보다 일반적으로 빠른데, Porter 어간 추출기는 정밀하게 설계되어 정확도가 높으므로 영어 자연어 처리에서 어간 추출을 하고자 한다면 가장 준수한 선택

### 2) Lemmatization(표제어 추출)

- Lemma : 표제어, 기본 사전형 단어
- 표제어 추출은 표제어를 찾아가는 과정
- 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안해 정확한 철자로 된 어근 단어를 찾아 줌
- 어간 추출보다 성능이 더 좋음
- 품사와 같은 문법 뿐만아니라 문장 내에서 단어 의미도 고려함
- 어간 추출보다 시간이 더 걸림
- NLTK의 Lemmatizer : WordNetLemmatizer    

#### **`WordNetLemmatizer`** API를 이용한 Lemmatization

In [83]:
from nltk.stem import WordNetLemmatizer
lemma = WordNetLemmatizer() 
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

lemma_words= [lemma.lemmatize(word) for word in words]

print(f'표제어 추출 전:',words)
print(f'표제어 추출 후:',lemma_words)

표제어 추출 전: ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후: ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


- 단어의 품사 정보를 알면 더 정확한 결과를 얻을 수 있음

In [85]:
lemma = WordNetLemmatizer() 

print(lemma.lemmatize('amusing','v'), lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'), lemma.lemmatize('happiest','a'))

amuse amuse
happy happy


### 3) 한국어 어간 추출

- 한국어는 5언 9품사의 구조
  - 체언 : 명사, 대명사, 수사
  - 수식언 : 관형사, 부사
  - 관계언 : 조사
  - 독립언 : 감탄사
  - 용언 : 동사, 형용사
    - 동사와 형용사는 어간(stem)과 어미(ending)의 결합으로 구성되므로 용언이라고 언급할 경우 동사와 형용사를 포함하여 언급한 것임

#### 활용(conjugation)
- 활용이란 용언의 어간(stem)이 어미(ending)을 가지는 일
- 한국어, 인도유럽어에서 볼 수 있는 언어적 특징의 통칭적인 개념
- 어간(stem) : 용언(동사, 형용사)을 활용할 때, 원칙적으로 모양이 변하지 않는 부분
    - 어간의 모양이 바뀔 수 있음(예. 긋다, 긋고, 그어서, 그어라)
- 어미(ending) : 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분, 여러 문법적 기능을 수행
- 활용의 구분
    - 규칙활용
    - 불규칙활용

**규칙 활용**
- 어간이 어미를 취할 때 어간의 모습이 일정한 경우
- 어간과 어미를 합칠 때 어간의 형태가 바뀌지 않는 경우
- 예. 잡다 : 잡(어간) + 다(어미)

**불규칙 활용**
- 어간이 어미를 취할 때 어간의 모습이 바뀌거나 취하는 어미가 특수한 어미일 경우
- 어간의 형식이 달라지는 경우
    - 예. 듣/들-, 돕/도우-, 곱/고우-, 잇/이-, 올/올-, 노랗/노라-’
- 특수한 어미를 취하는 경우
    - 예. 오르+ 아/어→올라, 하+아/어→하여, 이르+아/어→이르러, 푸르+아/어→푸르러 
- https://namu.wiki/w/한국어/불규칙%20활용

-------------