# 텍스트 전처리

#### 전처리 과정

![image.png](attachment:image.png)

- 클렌징(cleansing)
- 토큰화(Tokenization)
- 필터링/ 스톱 워드(불용어) 제거 / 철자 수정
- 어간 추출(Stemming & Lemmatization)

## 2. 텍스트 토큰화(Text Tokenization)

- 문서에서 문장을 분리하는 **`문장 토큰화`**
- 문장에서 단어를 토큰으로 분리하는 **`단어 토큰화`**

### 문장 토큰화

- 문장의 마침표(.), 개행문자(\n), ? 등 문장의 마지막을 뜻하는 기호에 따라 분리
- 문장 분류(sentence segmentation)
- 코퍼스가 정제되지 않은 상태(문장 단위로 구분되어 있지 않는 경우)

- `!`와 `?`는 확실하게 문장 구분역할을 하나 `.`는 경우에 따라 문장을 구분하지 못하는 경우가 있음
- 예1.
```python
'''IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서
aaa@gmail.com로 결과 좀 보내줘. 그 후 점심 먹으러 가자.'''
```- 예2.
```python
"Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year."
```

- 정규 표현식에 따른 문장 토큰화
- NLTK의 **`sent_tokenize` API**를 많이 사용
- 단어사전과 같이 참조가 필요한 데이터 세트는 인터넷으로 다운로드 가능
    - 예. nltk.download('punkt') : 마침표, 개행문자 등의 데이터 세트 다운로드

**예. 마침표, 개행문자 등의 데이터세트 다운로드 및 문장 토큰화**

In [1]:
import nltk
from nltk import sent_tokenize

In [2]:
sample_text = 'NLTK is a leading platform for building Python programs to work with human language data. \
It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet,\
along with a suite of text processing libraries for classification, tokenization, stemming,\
tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries,\
and an active discussion forum.'

In [4]:
result = sent_tokenize(text=sample_text)
print(result)
len(result), type(result)

['NLTK is a leading platform for building Python programs to work with human language data.', 'It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet,along with a suite of text processing libraries for classification, tokenization, stemming,tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries,and an active discussion forum.']


(2, list)

### 단어 토큰화

- 문장을 단어로 토큰화
- 공백, 콤마(,), 마침표(.), 개행문자 등으로 단어를 분리
- 정규표현식을 이용해 다양한 토큰화 수행
- Bag of Word와 같이 단어의 순서가 중요하지 않은 경우는 문장 토큰화를 수행하지 않고 단어 토큰화만 사용해도 충분함
- 문장 토큰화는 각 문장이 가지는 시맨틱적 의미가 중요한 요소로 사용될 때 이용
- 단어 토큰화를 위해 NLTK의 **`word_tokenize` API** 사용

In [6]:
from nltk import word_tokenize

sentence = 'NLTK is a leading platform for building Python programs to work with human language data.'
result = word_tokenize(sentence)
print(result)
len(result), type(result)

['NLTK', 'is', 'a', 'leading', 'platform', 'for', 'building', 'Python', 'programs', 'to', 'work', 'with', 'human', 'language', 'data', '.']


(16, list)

![image.png](attachment:image.png)

### 아포스트로피(')가 있는 문장에 대한 단어 토큰화

- NLTK의 WordPunctTokenizer를 이용

In [12]:
from nltk.tokenize import WordPunctTokenizer

sentence2 = "Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year."
token = WordPunctTokenizer()
print('word_tokenize:\n', word_tokenize(sentence2))
print('WordPunctTokenizer:\n', token.tokenize(sentence2))

word_tokenize:
 ['Since', 'I', "'m", 'actively', 'looking', 'for', 'Ph.D.', 'students', ',', 'I', 'get', 'the', 'same', 'question', 'a', 'dozen', 'times', 'every', 'year', '.']
WordPunctTokenizer:
 ['Since', 'I', "'", 'm', 'actively', 'looking', 'for', 'Ph', '.', 'D', '.', 'students', ',', 'I', 'get', 'the', 'same', 'question', 'a', 'dozen', 'times', 'every', 'year', '.']


### 예. 문장 토큰화와 단어 토큰화

In [14]:
def tokenize_text(text):
    sents = sent_tokenize(text)
    word_tokens = [word_tokenize(sent) for sent in sents]
    return word_tokens

In [16]:
print(tokenize_text(sample_text))

[['NLTK', 'is', 'a', 'leading', 'platform', 'for', 'building', 'Python', 'programs', 'to', 'work', 'with', 'human', 'language', 'data', '.'], ['It', 'provides', 'easy-to-use', 'interfaces', 'to', 'over', '50', 'corpora', 'and', 'lexical', 'resources', 'such', 'as', 'WordNet', ',', 'along', 'with', 'a', 'suite', 'of', 'text', 'processing', 'libraries', 'for', 'classification', ',', 'tokenization', ',', 'stemming', ',', 'tagging', ',', 'parsing', ',', 'and', 'semantic', 'reasoning', ',', 'wrappers', 'for', 'industrial-strength', 'NLP', 'libraries', ',', 'and', 'an', 'active', 'discussion', 'forum', '.']]


참고. 케라스의 text_to_word_sequence를 이용한 토큰화

```python
from tensorflow.keras.preprocessing.text import text_to_word_sequence

sentence = "It's nothing that you don't already know except most people aren't aware of how their inner world works."

words = text_to_word_sequence(sentence)
print(words)
```

- 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점을 제거함
- 아포스트로피를 보존함

In [17]:
!pip install tensorflow

Collecting tensorflow
  Downloading tensorflow-2.19.0-cp312-cp312-win_amd64.whl.metadata (4.1 kB)
Collecting absl-py>=1.0.0 (from tensorflow)
  Downloading absl_py-2.2.2-py3-none-any.whl.metadata (2.6 kB)
Collecting astunparse>=1.6.0 (from tensorflow)
  Downloading astunparse-1.6.3-py2.py3-none-any.whl.metadata (4.4 kB)
Collecting flatbuffers>=24.3.25 (from tensorflow)
  Downloading flatbuffers-25.2.10-py2.py3-none-any.whl.metadata (875 bytes)
Collecting gast!=0.5.0,!=0.5.1,!=0.5.2,>=0.2.1 (from tensorflow)
  Downloading gast-0.6.0-py3-none-any.whl.metadata (1.3 kB)
Collecting google-pasta>=0.1.1 (from tensorflow)
  Downloading google_pasta-0.2.0-py3-none-any.whl.metadata (814 bytes)
Collecting libclang>=13.0.0 (from tensorflow)
  Downloading libclang-18.1.1-py2.py3-none-win_amd64.whl.metadata (5.3 kB)
Collecting opt-einsum>=2.3.2 (from tensorflow)
  Downloading opt_einsum-3.4.0-py3-none-any.whl.metadata (6.3 kB)
Collecting protobuf!=4.21.0,!=4.21.1,!=4.21.2,!=4.21.3,!=4.21.4,!=4.21.5,

In [28]:
import tensorflow
tensorflow.__version__

'2.19.0'

In [34]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

sentence = "It's nothing that you don't already know except \
most people aren't aware of how their inner world works."
print('word_tokenize:\n', word_tokenize(sentence))
print('text_to_sequence:\n', text_to_word_sequence(sentence))
print(text_to_word_sequence(sentence2))

word_tokenize:
 ['It', "'s", 'nothing', 'that', 'you', 'do', "n't", 'already', 'know', 'except', 'most', 'people', 'are', "n't", 'aware', 'of', 'how', 'their', 'inner', 'world', 'works', '.']
text_to_sequence:
 ["it's", 'nothing', 'that', 'you', "don't", 'already', 'know', 'except', 'most', 'people', "aren't", 'aware', 'of', 'how', 'their', 'inner', 'world', 'works']
['since', "i'm", 'actively', 'looking', 'for', 'ph', 'd', 'students', 'i', 'get', 'the', 'same', 'question', 'a', 'dozen', 'times', 'every', 'year']


### 토큰화에서 고려할 사항

1. 구두점이나 특수 문자를 단순 제외해서는 안된다
- 마침표(`.`)가 문장의 경계를 구분할 경우
- 단어 자체에 구두점을 가지고 있는 경우 : 예. Ph.D,  AT&T
- 특수문자의 `$`나 `/` : $45.55,  01/02/06 날짜
- 숫자 사이에 `,` : 123,456,789

2. 줄임말과 단어 내에 띄어쓰기가 있는 경우
- 영어의 아포스트로피(') : 예. what're -> what are,  we're -> we are (re를 접어라고 함)
- 하나의 단어인데 중간에 띄어쓰기가 있는 경우는 하나의 토큰으로 구분해야 함
    - 예. rock 'n' roll

### 표준 토큰화 예 : Penn Treebank Tokenization 규칙

- 규칙1. 하이푼(-)으로 구성된 단어는 하나로 유지한다
- 규칙2. dosen't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리한다

In [18]:
from nltk.tokenize import TreebankWordTokenizer

sentence = "It's nothing that you don't already know except \
most people aren't aware of how their inner world works."

tbtoken = TreebankWordTokenizer()
print('TreebankWordTokenizer:\n', tbtoken.tokenize(sentence))

TreebankWordTokenizer:
 ['It', "'s", 'nothing', 'that', 'you', 'do', "n't", 'already', 'know', 'except', 'most', 'people', 'are', "n't", 'aware', 'of', 'how', 'their', 'inner', 'world', 'works', '.']


### 한글 토큰화

#### 한국어 문장 토큰화
- KSS(Korean Sentence Splitter)
   - 박상길 개발
   - https://github.com/hyunwoongko/kss

In [36]:
!pip install kss==3.6.0

Collecting kss==3.6.0
  Downloading kss-3.6.0.tar.gz (42.4 MB)
     ---------------------------------------- 0.0/42.4 MB ? eta -:--:--
      --------------------------------------- 0.8/42.4 MB 4.2 MB/s eta 0:00:10
     - -------------------------------------- 1.3/42.4 MB 3.5 MB/s eta 0:00:12
     - -------------------------------------- 2.1/42.4 MB 3.4 MB/s eta 0:00:13
     -- ------------------------------------- 2.4/42.4 MB 2.7 MB/s eta 0:00:15
     -- ------------------------------------- 2.6/42.4 MB 2.6 MB/s eta 0:00:16
     -- ------------------------------------- 3.1/42.4 MB 2.6 MB/s eta 0:00:15
     --- ------------------------------------ 3.7/42.4 MB 2.5 MB/s eta 0:00:16
     ---- ----------------------------------- 4.5/42.4 MB 2.6 MB/s eta 0:00:15
     ---- ----------------------------------- 5.0/42.4 MB 2.7 MB/s eta 0:00:14
     ----- ---------------------------------- 5.5/42.4 MB 2.6 MB/s eta 0:00:15
     ----- ---------------------------------- 6.0/42.4 MB 2.6 MB/s eta 0:00

In [19]:
text1 = '자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 \
한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
text2 = "카페를 왔는데 원두 종류도 여러가지로 너무 맛있었다. 8시가 되면 불이 꺼지는데 은은하게 분위기도 있다. 다음에 또 와봐야지 ㅋㅋ"

In [37]:
import kss
from kss import split_sentences

print(f'한국어 문장 토큰화1 :\n {split_sentences(text1)}')
print(f'한국어 문장 토큰화2 :\n {split_sentences(text2)}')

[Korean Sentence Splitter]: Initializing Pynori...


한국어 문장 토큰화1 :
 ['자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']
한국어 문장 토큰화2 :
 ['카페를 왔는데 원두 종류도 여러가지로 너무 맛있었다.', '8시가 되면 불이 꺼지는데 은은하게 분위기도 있다.', '다음에 또 와봐야지 ㅋㅋ']


- KoNLPy에서 제공하는 한글 형태소 분석기를 이용

In [20]:
from konlpy.tag import Kkma

kkma = Kkma()
print(f'Kkma : \n{kkma.sentences(text1)}')

Kkma : 
['자연어 처리가 재미있기는 합니다.', '그런 데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


#### 한국어 단어 토큰화

In [21]:
print(kkma.morphs(text1))
print(kkma.morphs(text2))

['자연어', '처리', '가', '재미있', '기', '는', '하', 'ㅂ니다', '.', '그러', 'ㄴ', '데', '문제', '는', '영어', '보다', '한국어', '로', '하', 'ㄹ', '때', '너무', '어렵', '습니다', '.', '이제', '해보', '면', '알', 'ㄹ걸요', '?']
['카페', '를', '오', '았', '는데', '원두', '종류', '도', '여러', '가지', '로', '너무', '맛있', '었', '다', '.', '8', '시', '가', '되', '면', '불', '이', '꺼지', '는데', '은은', '하', '게', '분위기', '도', '있', '다', '.', '다음', '에', '또', '오', '아', '보', '아야지', 'ㅋㅋ']


In [22]:
print(kkma.nouns(text1))
print(kkma.nouns(text2))

['자연어', '처리', '데', '문제', '영어', '한국어', '때']
['카페', '원두', '종류', '가지', '8', '8시', '시', '불', '분위기', '다음']


### 한국어에서 토큰화의 어려움

**1. 교착어 특성**
- 다양한 조사가 띄어쓰기 없이 바로 붙어 있어 다른 단어로 보임(조사 분리 필요)
   - 예. 그(he/him) : 그가, 그에게, 그를, 그와, 그는
- 형태소(morpheme) : 뜻을 가진 가장 작은 말의 단위
   - 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소
       - 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사
       - 그 자체로 단어가 됨
   - 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소
       - 접사, 어미, 조사, 어간
   - 예. 나래가 책을 읽었다
       - 자립형태소 : 나래, 책
       - 의존형태소 : -가, -을, 읽-, -었, -다

**2. 띄어쓰기가 영어보다 잘 지켜지지 않음**
- 한국어는 띄어쓰기가 지켜지지 않아도 글을 쉽게 이해할 수 있는 언어
- 띄어쓰기 보편화 : 1933년 한글맞춤법통일안
- 한국어 모아쓰기 방식, 영어는 풀어쓰기 방식
- 예.
    - 제가이렇게띄어쓰기를전혀하지않고글을썼다고하더라도글을이해할수있습니다.
    -2) Tobeornottobethatisthequestion

### 품사 태깅(part-of-speech tagging)

- 단어는 품사에 따라서 의미가 달라짐
    - 영어 'fly' : 동사-'날다', 명사-'파리'
    - 한국어 '못' : 명사-'망치를 사용해 목재 따위를 고정하는 물건', 부사-'동작 동사를 할 수 없다는 의미'
- 품사태깅 : 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지 구분하는 작업

#### 영어 품사 태깅
- nltk : Penn Treebank POS Tags 기준으로 품사 태깅
    - PRP : 인칭대명사
    - VBP : 동사
    - RB : 부사
    - VBG : 현재부사
    - IN : 전치사
    - NNP : 고유명사
    - NNS : 복수형명사
    - CC : 접속사
    - DT : 관사

In [23]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokens = word_tokenize(text)
posTag = pos_tag(tokens)
print(f'단어 토큰화: {tokens}')
print(f'품사 태깅: {posTag}')

단어 토큰화: ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅: [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


#### 한국어 품사 태깅

- 한국어 단어 토큰화
- KoNLPy의 형태소 분석기
    - Okt(Open Korea Text)
    - 메캅(Mecab)
    - 코모란(Komoran)
    - 한나눔(Hannanum)
    - 꼬꼬마(Kkma)

- 형태소 분석기 메서드
    - morphs : 형태소 추출
    - pos : 품사 태깅
    - nouns : 명사 추출

In [27]:
from konlpy.tag import Okt, Kkma, Komoran

okt = Okt()
kkma = Kkma()
komoran = Komoran()

text = '열심히 코딩한 당신, 연휴에는 여행을 떠나봐요'
print(f'Okt 형태소분석:\n {okt.morphs(text)}')
print(f'Okt 품사 태깅:\n {okt.pos(text)}')
print(f'Okt 명사 추출:\n {okt.nouns(text)}')
print()
print(f'Kkma 형태소분석:\n {kkma.morphs(text)}')
print(f'Kkma 품사 태깅:\n {kkma.pos(text)}')
print(f'Kkma 명사 추출:\n {kkma.nouns(text)}')
print()
print(f'Komoran 형태소분석:\n {komoran.morphs(text)}')
print(f'Komoran 품사 태깅:\n {komoran.pos(text)}')
print(f'Komoran 명사 추출:\n {komoran.nouns(text)}')

Okt 형태소분석:
 ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '떠나', '봐요']
Okt 품사 태깅:
 [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('떠나', 'Verb'), ('봐요', 'Verb')]
Okt 명사 추출:
 ['코딩', '당신', '연휴', '여행']

Kkma 형태소분석:
 ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '떨', '나', '보', '아요']
Kkma 품사 태깅:
 [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('떨', 'VV'), ('나', 'ECE'), ('보', 'VXV'), ('아요', 'EFN')]
Kkma 명사 추출:
 ['코딩', '당신', '연휴', '여행']

Komoran 형태소분석:
 ['열심히', '코', '딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '떠나', '아', '보', '아요']
Komoran 품사 태깅:
 [('열심히', 'MAG'), ('코', 'NNG'), ('딩', 'MAG'), ('하', 'XSV'), ('ㄴ', 'ETM'), ('당신', 'NNP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKB'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('떠나', 'VV'), ('아', 'EC'), ('보', 'V

#### 예제 데이터. 네이버 영화평 데이터
https://github.com/e9t/nsmc

In [39]:
import csv

with open('data/ratings_train.txt', 'r', encoding='utf-8') as f:
    rdr = csv.reader(f, delimiter = '\t')
    result = list(rdr)
print(len(result), result[:10])

150001 [['id', 'document', 'label'], ['9976970', '아 더빙.. 진짜 짜증나네요 목소리', '0'], ['3819312', '흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나', '1'], ['10265843', '너무재밓었다그래서보는것을추천한다', '0'], ['9045019', '교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정', '0'], ['6483659', '사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다', '1'], ['5403919', '막 걸음마 뗀 3세부터 초등학교 1학년생인 8살용영화.ㅋㅋㅋ...별반개도 아까움.', '0'], ['7797314', '원작의 긴장감을 제대로 살려내지못했다.', '0'], ['9443947', '별 반개도 아깝다 욕나온다 이응경 길용우 연기생활이몇년인지..정말 발로해도 그것보단 낫겟다 납치.감금만반복반복..이드라마는 가족도없다 연기못하는사람만모엿네', '0'], ['7156791', '액션이 없는데도 재미 있는 몇안되는 영화', '1']]


In [40]:
from konlpy.tag import Okt

In [45]:
okt = Okt()
s_list = []
for line in result[1:11]:
    pos_ = okt.pos(line[1], norm=True, stem=True) # 형태소 분석(품사태깅)
    print(pos_)
    w_list = []
    for word in pos_:
        if not word[1] in ['Punctuation', 'Josa', 'Eomi']:
           w_list.append(word[0])
    s_list.append((' '.join(w_list)).strip())

[('아', 'Exclamation'), ('더빙', 'Noun'), ('..', 'Punctuation'), ('진짜', 'Noun'), ('짜증나다', 'Adjective'), ('목소리', 'Noun')]
[('흠', 'Noun'), ('...', 'Punctuation'), ('포스터', 'Noun'), ('보고', 'Noun'), ('초딩', 'Noun'), ('영화', 'Noun'), ('줄', 'Noun'), ('....', 'Punctuation'), ('오버', 'Noun'), ('연기', 'Noun'), ('조차', 'Josa'), ('가볍다', 'Adjective'), ('않다', 'Verb')]
[('너', 'Modifier'), ('무재', 'Noun'), ('밓었', 'Noun'), ('다그', 'Noun'), ('래서', 'Noun'), ('보다', 'Verb'), ('추천', 'Noun'), ('한', 'Josa'), ('다', 'Adverb')]
[('교도소', 'Noun'), ('이야기', 'Noun'), ('구먼', 'Noun'), ('..', 'Punctuation'), ('솔직하다', 'Adjective'), ('재미', 'Noun'), ('는', 'Josa'), ('없다', 'Adjective'), ('..', 'Punctuation'), ('평점', 'Noun'), ('조정', 'Noun')]
[('사이', 'Modifier'), ('몬페', 'Noun'), ('그', 'Determiner'), ('의', 'Noun'), ('익살스럽다', 'Adjective'), ('연기', 'Noun'), ('가', 'Josa'), ('돋보이다', 'Verb'), ('영화', 'Noun'), ('!', 'Punctuation'), ('스파이더맨', 'Noun'), ('에서', 'Josa'), ('늙다', 'Verb'), ('보이다', 'Verb'), ('하다', 'Verb'), ('커스틴', 'Noun'), ('던스트', 'Noun'

In [43]:
result[1:11]

[['9976970', '아 더빙.. 진짜 짜증나네요 목소리', '0'],
 ['3819312', '흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나', '1'],
 ['10265843', '너무재밓었다그래서보는것을추천한다', '0'],
 ['9045019', '교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정', '0'],
 ['6483659',
  '사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다',
  '1'],
 ['5403919', '막 걸음마 뗀 3세부터 초등학교 1학년생인 8살용영화.ㅋㅋㅋ...별반개도 아까움.', '0'],
 ['7797314', '원작의 긴장감을 제대로 살려내지못했다.', '0'],
 ['9443947',
  '별 반개도 아깝다 욕나온다 이응경 길용우 연기생활이몇년인지..정말 발로해도 그것보단 낫겟다 납치.감금만반복반복..이드라마는 가족도없다 연기못하는사람만모엿네',
  '0'],
 ['7156791', '액션이 없는데도 재미 있는 몇안되는 영화', '1'],
 ['5912145', '왜케 평점이 낮은건데? 꽤 볼만한데.. 헐리우드식 화려함에만 너무 길들여져 있나?', '1']]

In [44]:
s_list

['아 더빙 진짜 짜증나다 목소리',
 '흠 포스터 보고 초딩 영화 줄 오버 연기 가볍다 않다',
 '너 무재 밓었 다그 래서 보다 추천 다',
 '교도소 이야기 구먼 솔직하다 재미 없다 평점 조정',
 '사이 몬페 그 의 익살스럽다 연기 돋보이다 영화 스파이더맨 늙다 보이다 하다 커스틴 던스트 너무나도 이쁘다 보이다',
 '막 걸음 마 떼다 3 세 초등학교 1 학년 생인 8 살다 영화 ㅋㅋㅋ 별 반개 아깝다 움',
 '원작 긴장감 제대로 살리다 하다',
 '별 반개 아깝다 욕 나오다 이응경 길용우 연 기 생활 몇 년 정말 발 해도 그것 낫다 납치 감금 반복 반복 이 드라마 가족 없다 연기 못 하다 사람 모 엿 네',
 '액션 없다 재미 있다 몇 안되다 영화',
 '왜 이렇게 평점 낮다 꽤 볼 한 데 헐리우드 식 화려하다 너무 길들이다 있다']

**n-gram**

In [48]:
from nltk import ngrams

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(words)

bi_grams = ngrams(words, 2)
print(bi_grams)
ngrams = [ngram for ngram in bi_grams]
print(ngrams)

['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']
<generator object ngrams at 0x000002A845D15F40>
[('The', 'Matrix'), ('Matrix', 'is'), ('is', 'everywhere'), ('everywhere', 'its'), ('its', 'all'), ('all', 'around'), ('around', 'us'), ('us', ','), (',', 'here'), ('here', 'even'), ('even', 'in'), ('in', 'this'), ('this', 'room'), ('room', '.')]


## 3. 정제와 정규화

- 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거    
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어줌

- 토큰화 작업에 방해가 되는 부분들을 배제시키기 위해 토큰화 작업 전과 후에 진행
   1. 규칙에 기반한 표기가 다른 단어들 통합
       - USA -> US
       - uh-huh -> uhhuh
   2. 대소문자 통합 : 소문자로 변환
   3. 불필요한 단어의 제거
       - 등장 빈도가 적은 단어
       - 길이가 짧은 단어 : 길이가 2-3이하인 단어 제거

**정제와 정규화 차이**

|항목 | 정제 (Cleansing) | 정규화 (Normalization)|
|---|---|---|
|목적 | 텍스트에서 필요 없는 것을 제거 | 텍스트 안의 다양한 표현을 일관성 있게 통일|
|주요 작업 | 특수문자 제거, 공백 제거, HTML 태그 제거, 이모지 제거 등 | 대소문자 통일, 축약어 풀기, 철자 교정, 중복 문자 줄이기 등|
|예시 | ```<p>Hello!</p>``` → Hello <br> Hello!!! → Hello | I'm → I am <br> colour → color|
|포커스 | 쓰레기 치우기 (Noise 제거) | 형태 통일 (표현 표준화)|
|시기 | 데이터 전처리 초기 단계에서 진행 | 정제 이후 본격 전처리 과정에서 진행|
|영향 | 데이터를 깨끗하게 만듬 | 데이터를 일관되게 만듬|

## 4. Stopwords 제거

- 불용어 제거
- 분석에 큰 의미가 없는 단어 제거
    - is, the, a, will 등 필수 문법 요소이지만 문맥적으로 큰 의미가 없는 단어
- 언어별 스톱 워드가 목록화되어 있음
    - NLTK의 **`'stopwords'`** 다운로드

In [None]:
# nltk.download('stopwords')

**영어의 불용어 목록**

In [51]:
stop_words = nltk.corpus.stopwords.words('english')
print(len(stop_words), stop_words)

198 ['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an', 'and', 'any', 'are', 'aren', "aren't", 'as', 'at', 'be', 'because', 'been', 'before', 'being', 'below', 'between', 'both', 'but', 'by', 'can', 'couldn', "couldn't", 'd', 'did', 'didn', "didn't", 'do', 'does', 'doesn', "doesn't", 'doing', 'don', "don't", 'down', 'during', 'each', 'few', 'for', 'from', 'further', 'had', 'hadn', "hadn't", 'has', 'hasn', "hasn't", 'have', 'haven', "haven't", 'having', 'he', "he'd", "he'll", 'her', 'here', 'hers', 'herself', "he's", 'him', 'himself', 'his', 'how', 'i', "i'd", 'if', "i'll", "i'm", 'in', 'into', 'is', 'isn', "isn't", 'it', "it'd", "it'll", "it's", 'its', 'itself', "i've", 'just', 'll', 'm', 'ma', 'me', 'mightn', "mightn't", 'more', 'most', 'mustn', "mustn't", 'my', 'myself', 'needn', "needn't", 'no', 'nor', 'not', 'now', 'o', 'of', 'off', 'on', 'once', 'only', 'or', 'other', 'our', 'ours', 'ourselves', 'out', 'over', 'own', 're', 's', 'same', 'shan', "shan't", 

**예. 불용어 제거**

In [53]:
from nltk.corpus import stopwords

stop_words = stopwords.words('english')
sample_text = 'One of the first things that we ask ourselves is \
what ar the pros and cons of any task we perform.'

tokens = word_tokenize(sample_text)
tokens_without_stopw = [word for word in tokens if word in stop_words]
print(f'불용어제거 전:{len(tokens)}개\n{tokens}\n')
print(f'불용어제거 후:{len(tokens_without_stopw)}개\n{tokens_without_stopw}\n')

불용어제거 전:22개
['One', 'of', 'the', 'first', 'things', 'that', 'we', 'ask', 'ourselves', 'is', 'what', 'ar', 'the', 'pros', 'and', 'cons', 'of', 'any', 'task', 'we', 'perform', '.']

불용어제거 후:12개
['of', 'the', 'that', 'we', 'ourselves', 'is', 'what', 'the', 'and', 'of', 'any', 'we']



- 정규표현식을 이용한 불용어 제거 : 1~2길이 글자 제외

In [57]:
import re

sample_text = 'One of the first things that we ask ourselves is \
what ar the pros and cons of any task we perform.'
short_word = re.compile(r'\W*\b\w{1,2}\b') # 길이가 1~2인 단어 삭제
print(short_word.sub('', sample_text))

One the first things that ask ourselves what the pros and cons any task perform.


#### 한국어 불용어 처리
https://www.ranks.nl/stopwords/korean

In [62]:
import pandas as pd

kor_stopw_df = pd.read_csv('data/한국어_불용어리스트.csv', encoding='utf-8')
kor_stopwords = list(kor_stopw_df.stopwords.values)
# print(kor_stopwords)

okt=Okt()
text = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. \
예컨대 삼겹살을 구울 때는 중요한 게 있지."
tokens = okt.morphs(text)
result = [token for token in tokens if not token in kor_stopwords]
print(f'불용어제거 전:\n {tokens}\n')
print(f'불용어제거 후:\n {result}')

불용어제거 전:
 ['고기', '를', '아무렇게나', '구', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살', '을', '구울', '때', '는', '중요한', '게', '있지', '.']

불용어제거 후:
 ['고기', '아무렇게나', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '삼겹살', '구울', '는', '중요한', '게', '있지', '.']


## 5. Stemming과 Lemmatization

- 문법적 또는 의미적으로 변화하는 **`단어의 원형을 찾는 작업`**
- 뿌리 단어를 찾아 단어의 개수를 줄임
- 영어의 경우
    - be동사 : am, are, is
    - 과거/현재, 3인칭 단수 여부, 진행형 등은 원래 단어가 변형된 것
        - 예. work : worked, working, works ...    

#### 단어의 원형을 찾아가는 방식
- 단어의 형태학(morphology)적 파싱을 진행
- 형태소의 종류
    - 어간(stem) : 단어의 의미를 담고 있는 단어의 핵심 부분
    - 접사(affix) : 단어에 추가적인 의미를 주는 부분
        - 예. cats : cat(어간) + -s(접사)
- Stemming(어간 추출)과 Lemmatization(표제어 추출)
    - 표제어 추출이 어간 추출 보다 더 정교하며 의미론적 기반에서 단어의 원형을 찾음
    - 표제어 추출이 어간 추출 보다 변환에 더 오랜 시간을 필요로 함

### 1) Stemming(어간 추출)

- 형태학적 분석을 단순화한 버전
- 정해진 규칙만 보고 어미를 자르는 어림짐작의 작업
- 원형 단어로 변환시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용해 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출하는 경향이 있음
- NLTK의 Stemmer : Porter, Lancaster, Snowball Stemmer

- NLTK의 **`LancasterStemmer`** 또는 **`PorterStemmer`** API를 이용
    - 진행형, 3인칭 단수, 과거형에 따른 동사, 비교, 최상에 따른 형용사 변화에 대한 더 단순한 원형 단어를 찾아 줌   
    

- stemming 단계    
    1. LancasterStemmer() 객체 생성
    2. stem('원하는단어') 메서드 호출

#### 랭커스터 알고리즘(LancasterStemmer)

In [63]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))
print(stemmer.stem('national'),stemmer.stem('nation'))
print(stemmer.stem('standardizes'),stemmer.stem('standardization'))
print(stemmer.stem('absentness'),stemmer.stem('absently'))
print(stemmer.stem('tribalical'),stemmer.stem('tribalicalized'))

work work work
amus amus amus
happy happiest
fant fanciest
nat nat
standard standard
abs abs
trib trib


#### 포터 알고리즘(PorterStemmer)

In [64]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))
print(stemmer.stem('national'),stemmer.stem('nation'))
print(stemmer.stem('standardizes'),stemmer.stem('standardization'))
print(stemmer.stem('absentness'),stemmer.stem('absently'))
print(stemmer.stem('tribalical'),stemmer.stem('tribalicalized'))

work work work
amus amus amus
happier happiest
fancier fanciest
nation nation
standard standard
absent absent
tribal tribalic


=> 랭커스터 알고리즘이 포터 알고리즘에 비해 단어 원형을 알아볼 수 없을 정도로 축소 시키므로, 데이터셋을 축소시켜야 하는 특정 상황에서 더 유용함

문제1. 다음 문장을 nltk의 PorterStemmer 추출 방식을 사용하여 단어 토큰화를 진행해보시오.
```python
sentence = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
```

문제2. 다음 단어들을 nltk의 두 가지 어간 추출 방식을 사용하여 단어 토큰화를 수행하고 그 결과를 비교하시오.```python
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
```."

=> 어간 추출 속도는 표제어 추출보다 일반적으로 빠른데, Porter 어간 추출기는 정밀하게 설계되어 정확도가 높으므로 영어 자연어 처리에서 어간 추출을 하고자 한다면 가장 준수한 선택

### 2) Lemmatization(표제어 추출)

- Lemma : 표제어, 기본 사전형 단어
- 표제어 추출은 표제어를 찾아가는 과정
- 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안해 정확한 철자로 된 어근 단어를 찾아 줌
- 어간 추출보다 성능이 더 좋음
- 품사와 같은 문법 뿐만아니라 문장 내에서 단어 의미도 고려함
- 어간 추출보다 시간이 더 걸림
- NLTK의 Lemmatizer : WordNetLemmatizer    

#### **`WordNetLemmatizer`** API를 이용한 Lemmatization

In [65]:
from nltk.stem import WordNetLemmatizer
# import nltk
# nltk.download('wordnet')

lemma = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love',
         'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('표제어 추출 전 :\n',words)
print('표제어 추출 후 :\n',[lemma.lemmatize(word) for word in words])

표제어 추출 전 :
 ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후 :
 ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


- 단어의 품사 정보를 알면 더 정확한 결과를 얻을 수 있음

In [66]:
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

amuse amuse amuse
happy happy
fancy fancy


### 3) 한국어 어간 추출

- 한국어는 5언 9품사의 구조
  - 체언 : 명사, 대명사, 수사
  - 수식언 : 관형사, 부사
  - 관계언 : 조사
  - 독립언 : 감탄사
  - 용언 : 동사, 형용사
    - 동사와 형용사는 어간(stem)과 어미(ending)의 결합으로 구성되므로 용언이라고 언급할 경우 동사와 형용사를 포함하여 언급한 것임

#### 활용(conjugation)
- 활용이란 용언의 어간(stem)이 어미(ending)을 가지는 일
- 한국어, 인도유럽어에서 볼 수 있는 언어적 특징의 통칭적인 개념
- 어간(stem) : 용언(동사, 형용사)을 활용할 때, 원칙적으로 모양이 변하지 않는 부분
    - 어간의 모양이 바뀔 수 있음(예. 긋다, 긋고, 그어서, 그어라)
- 어미(ending) : 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분, 여러 문법적 기능을 수행
- 활용의 구분
    - 규칙활용
    - 불규칙활용

**규칙 활용**
- 어간이 어미를 취할 때 어간의 모습이 일정한 경우
- 어간과 어미를 합칠 때 어간의 형태가 바뀌지 않는 경우
- 예. 잡다 : 잡(어간) + 다(어미)

**불규칙 활용**
- 어간이 어미를 취할 때 어간의 모습이 바뀌거나 취하는 어미가 특수한 어미일 경우
- 어간의 형식이 달라지는 경우
    - 예. 듣/들-, 돕/도우-, 곱/고우-, 잇/이-, 올/올-, 노랗/노라-’
- 특수한 어미를 취하는 경우
    - 예. 오르+ 아/어→올라, 하+아/어→하여, 이르+아/어→이르러, 푸르+아/어→푸르러 
- https://namu.wiki/w/한국어/불규칙%20활용

-------------