In [1]:
sentence = '남수는 25살에 챗봇을 만들기 시작했다. 남수는 NLP를 공부한다.'

- 문자열.split() 함수는 인자를 기준으로 문자열을 분리하여 파이썬 리스트('[]')의 형태로 반환

In [2]:
sentence.split()

['남수는', '25살에', '챗봇을', '만들기', '시작했다.', '남수는', 'NLP를', '공부한다.']

In [3]:
str.split(sentence, '2')  # str을 이용한 분리도 가능

['남수는 ', '5살에 챗봇을 만들기 시작했다. 남수는 NLP를 공부한다.']

## numpy를 사용해 보자

In [4]:
import numpy as np  # 관행적으로 numpy는 np로 줄여 사용

In [5]:
token_sequence = str.split(sentence)
vocab = sorted(set(token_sequence))  # set은 데이터의 중복을 없애고 순서를 지키지 않는 데이터 타입
', '.join(vocab)

'25살에, NLP를, 공부한다., 남수는, 만들기, 시작했다., 챗봇을'

#### tip) set의 특징을 확인해 보자

In [6]:
text = '남수는 배가 고프다. 남수는 오늘도 회사에 출근한다. 남수는 NLP를 공부한다.'

In [7]:
print(text.split())
print('전체 길이: {}'.format(len(text.split())))

['남수는', '배가', '고프다.', '남수는', '오늘도', '회사에', '출근한다.', '남수는', 'NLP를', '공부한다.']
전체 길이: 10


In [8]:
print(set(text.split()))
print('전체 길이: {}'.format(len(set(text.split()))))

{'출근한다.', '공부한다.', '오늘도', '고프다.', 'NLP를', '배가', '회사에', '남수는'}
전체 길이: 8


## One-hot vectors 생성

In [9]:
num_tokens = len(token_sequence)
print('토큰의 개수:', num_tokens)
vocab_size = len(vocab)
print('단어집 사이즈:', vocab_size)
onehot_vectors = np.zeros((num_tokens, vocab_size), int)  # 토큰 개수 x 단어집 사이즈 배열 생성, 내부의 값을 int로
# onehot_vectors = np.zeros((num_tokens, vocab_size))  # default는 float형
onehot_vectors

토큰의 개수: 8
단어집 사이즈: 7


array([[0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0]])

## 벡터에 데이터를 넣어보자

In [10]:
print('token_sequence:', token_sequence)
print('vocab:', vocab)
print('vocab.index(\'남수는\'):', vocab.index('남수는'))  # 남수는 이라는 단어의 index를 반환
print()
for i, word in enumerate(token_sequence):
    print('현재 i값:', i, '현재  word:', word)
    print('vocab.index(word)값:', vocab.index(word))
    onehot_vectors[i, vocab.index(word)] = 1
    
onehot_vectors

token_sequence: ['남수는', '25살에', '챗봇을', '만들기', '시작했다.', '남수는', 'NLP를', '공부한다.']
vocab: ['25살에', 'NLP를', '공부한다.', '남수는', '만들기', '시작했다.', '챗봇을']
vocab.index('남수는'): 3

현재 i값: 0 현재  word: 남수는
vocab.index(word)값: 3
현재 i값: 1 현재  word: 25살에
vocab.index(word)값: 0
현재 i값: 2 현재  word: 챗봇을
vocab.index(word)값: 6
현재 i값: 3 현재  word: 만들기
vocab.index(word)값: 4
현재 i값: 4 현재  word: 시작했다.
vocab.index(word)값: 5
현재 i값: 5 현재  word: 남수는
vocab.index(word)값: 3
현재 i값: 6 현재  word: NLP를
vocab.index(word)값: 1
현재 i값: 7 현재  word: 공부한다.
vocab.index(word)값: 2


array([[0, 0, 0, 1, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1, 0, 0],
       [0, 0, 0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 0],
       [0, 0, 1, 0, 0, 0, 0]])

#### tip) enumerate를 이해해 보자

In [11]:
information = sentence.split()
information

['남수는', '25살에', '챗봇을', '만들기', '시작했다.', '남수는', 'NLP를', '공부한다.']

In [12]:
enumerate(information)

<enumerate at 0x7f8415926708>

In [13]:
for value in information:  # 일반적인 리스트는 해당 원소를 반환한다
    print(value)

남수는
25살에
챗봇을
만들기
시작했다.
남수는
NLP를
공부한다.


In [14]:
for index, value in enumerate(information):  # enumernate는 해당 원소와 원소의 인덱스를 반환
    print(index, value)

0 남수는
1 25살에
2 챗봇을
3 만들기
4 시작했다.
5 남수는
6 NLP를
7 공부한다.


In [15]:
onehot_vectors  # 벡터를 확인해보자

array([[0, 0, 0, 1, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1, 0, 0],
       [0, 0, 0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 0],
       [0, 0, 1, 0, 0, 0, 0]])

## Pandas를 사용해보자

In [16]:
import pandas as pd  # 관행적으로 pandas는 pd로 줄여서 사용

print(vocab)
pd.DataFrame(onehot_vectors, columns=vocab)  # one-hot vectors를 vocab을 컬럼명읋 사용하여 엑셀처럼 사용

['25살에', 'NLP를', '공부한다.', '남수는', '만들기', '시작했다.', '챗봇을']


Unnamed: 0,25살에,NLP를,공부한다.,남수는,만들기,시작했다.,챗봇을
0,0,0,0,1,0,0,0
1,1,0,0,0,0,0,0
2,0,0,0,0,0,0,1
3,0,0,0,0,1,0,0
4,0,0,0,0,0,1,0
5,0,0,0,1,0,0,0
6,0,1,0,0,0,0,0
7,0,0,1,0,0,0,0


In [17]:
df = pd.DataFrame(onehot_vectors, columns=vocab)
df == 0

Unnamed: 0,25살에,NLP를,공부한다.,남수는,만들기,시작했다.,챗봇을
0,True,True,True,False,True,True,True
1,False,True,True,True,True,True,True
2,True,True,True,True,True,True,False
3,True,True,True,True,False,True,True
4,True,True,True,True,True,False,True
5,True,True,True,False,True,True,True
6,True,False,True,True,True,True,True
7,True,True,False,True,True,True,True


In [18]:
df[df == 0] = ''  # df의 모든 원소를 0과 비교하여 참이면 해당 값을 공백으로 채움
df

Unnamed: 0,25살에,NLP를,공부한다.,남수는,만들기,시작했다.,챗봇을
0,,,,1.0,,,
1,1.0,,,,,,
2,,,,,,,1.0
3,,,,,1.0,,
4,,,,,,1.0,
5,,,,1.0,,,
6,,1.0,,,,,
7,,,1.0,,,,


## Bag-of-words

In [19]:
sentence_bow = {}

for token in sentence.split():
    sentence_bow[token] = 1
    
sentence_bow

{'남수는': 1, '25살에': 1, '챗봇을': 1, '만들기': 1, '시작했다.': 1, 'NLP를': 1, '공부한다.': 1}

In [20]:
sorted(sentence_bow.items())  # 정렬~
# sorted(sentence_bow.items(), reverse=True)  # 역순으로 정렬

[('25살에', 1),
 ('NLP를', 1),
 ('공부한다.', 1),
 ('남수는', 1),
 ('만들기', 1),
 ('시작했다.', 1),
 ('챗봇을', 1)]

#### tip) dict.items()에 대해 알아보자
- dict는 key, value를 가지는 파이썬 데이터 타입
- dict.keys() 명령으로 key값만 획득 가능
- dict.values() 명령으로 value값만 획득 가능

In [21]:
test_dict = sentence_bow
print(test_dict)
print(test_dict.keys())
print(test_dict.values())

{'남수는': 1, '25살에': 1, '챗봇을': 1, '만들기': 1, '시작했다.': 1, 'NLP를': 1, '공부한다.': 1}
dict_keys(['남수는', '25살에', '챗봇을', '만들기', '시작했다.', 'NLP를', '공부한다.'])
dict_values([1, 1, 1, 1, 1, 1, 1])


In [22]:
for i in test_dict:  # 딕셔너리를 for문 돌리면 원소만 반환한다
    print(i)

남수는
25살에
챗봇을
만들기
시작했다.
NLP를
공부한다.


In [23]:
test_dict.items()  # items()는 key와 value를 tuple의 형태로 묶어서 반환한다

dict_items([('남수는', 1), ('25살에', 1), ('챗봇을', 1), ('만들기', 1), ('시작했다.', 1), ('NLP를', 1), ('공부한다.', 1)])

- tip) unpack 기능

In [24]:
data = ('남수', 12)  # 튜플
print(type(data))
key, value = data  # 튜플로 이루어진 데이터를 분리
print(key, type(key))
print(value, type(value))

<class 'tuple'>
남수 <class 'str'>
12 <class 'int'>


In [25]:
new_data = key, value  # 반대도 가능
print(new_data, type(new_data))

('남수', 12) <class 'tuple'>


In [26]:
for key, value in test_dict.items():  # items()를 이용한 unpack
    print('key:', key, 'value:', value)

key: 남수는 value: 1
key: 25살에 value: 1
key: 챗봇을 value: 1
key: 만들기 value: 1
key: 시작했다. value: 1
key: NLP를 value: 1
key: 공부한다. value: 1


##  Pandas 조금 더

In [27]:
import pandas as pd


df = pd.DataFrame(pd.Series(dict([(token, 1) for token in sentence.split()])), columns=['sent'])

# df = pd.DataFrame(pd.Series({token: 1 for token in real_result}), columns=['sent'])
df

Unnamed: 0,sent
남수는,1
25살에,1
챗봇을,1
만들기,1
시작했다.,1
NLP를,1
공부한다.,1


In [28]:
df.T  # 행렬의 전치

Unnamed: 0,남수는,25살에,챗봇을,만들기,시작했다.,NLP를,공부한다.
sent,1,1,1,1,1,1,1


#### 리스트 컴프리헨션 이해하기

In [29]:
data = dict([(token, 1) for token in sentence.split()])
data

{'남수는': 1, '25살에': 1, '챗봇을': 1, '만들기': 1, '시작했다.': 1, 'NLP를': 1, '공부한다.': 1}

In [30]:
[(token, 1) for token in sentence.split()]

[('남수는', 1),
 ('25살에', 1),
 ('챗봇을', 1),
 ('만들기', 1),
 ('시작했다.', 1),
 ('남수는', 1),
 ('NLP를', 1),
 ('공부한다.', 1)]

In [31]:
test_text = '남수는 리스트 컴프리헨션을 이해하고자 한다.'
test_text.split()

['남수는', '리스트', '컴프리헨션을', '이해하고자', '한다.']

In [32]:
for i in test_text.split():
    if i != '남수는':
        print(i)

리스트
컴프리헨션을
이해하고자
한다.


In [33]:
result = [i for i in test_text.split() if i != '남수는']
result

['리스트', '컴프리헨션을', '이해하고자', '한다.']

#### 복잡한 컴프리헨션 사용하기

In [34]:
test_text = {'남수': 1, '영희': 3, '철수': 34, '챗봇': 99}
test_text

{'남수': 1, '영희': 3, '철수': 34, '챗봇': 99}

- 모든 원소에 20을 더하고 싶다

In [35]:
for i, v in test_text.items():
    test_text[i] += 20
test_text

{'남수': 21, '영희': 23, '철수': 54, '챗봇': 119}

- 컴프리헨션을 사용해 보자

In [36]:
test_text = {i: v+20 for i, v in test_text.items()}
test_text

{'남수': 41, '영희': 43, '철수': 74, '챗봇': 139}

## 형태소 분석기 추가

In [37]:
import pos_tag  # 웹을 통한 트위터 형태소 분석기

In [38]:
pos_tag.twitter_pos('나는 짱 멋진 챗봇을 만들고 싶다.')  # 테스트

[('나', 'Noun'),
 ('는', 'Josa'),
 ('짱', 'Noun'),
 ('멋진', 'Adjective(멋지다)'),
 ('챗봇*', 'Noun'),
 ('을', 'Josa'),
 ('만들고', 'Verb(만들다)'),
 ('싶다', 'Verb(싶다)'),
 ('.', 'Punctuation')]

## 여러 문장을 이용한 BOW

In [39]:
sentences = '남수는 25살에 챗봇을 만들기 시작했다.\n'
sentences += '챗봇은 주로 머신러닝과 데이터로 이루어 졌다.\n'
sentences += '그는 2018년에 구로디지털단지로 이사를 갔다.\n'
sentences += '챗봇을 사람답게 바꾸는 것은 남수의 집착이었습니다.\n'
sentences += '남수는 챗봇 만들기를 좋아한다.'

In [40]:
sentences.split('\n')

['남수는 25살에 챗봇을 만들기 시작했다.',
 '챗봇은 주로 머신러닝과 데이터로 이루어 졌다.',
 '그는 2018년에 구로디지털단지로 이사를 갔다.',
 '챗봇을 사람답게 바꾸는 것은 남수의 집착이었습니다.',
 '남수는 챗봇 만들기를 좋아한다.']

In [41]:
corpus = {}

In [42]:
for i, sent in enumerate(sentences.splitlines()):  # 라인별로 분리
    print('[', sent, '] 형태소 분석중...')
    result = pos_tag.twitter_pos(sent)  # 문장을 형태소 분석
    corpus[f'문장{i}'] = {'/'.join(token): 1 for token in result if token[1] not in ('Josa', 'Punctuation')}
    print('OK.')

print('All complete.')
corpus

[ 남수는 25살에 챗봇을 만들기 시작했다. ] 형태소 분석중...
OK.
[ 챗봇은 주로 머신러닝과 데이터로 이루어 졌다. ] 형태소 분석중...
OK.
[ 그는 2018년에 구로디지털단지로 이사를 갔다. ] 형태소 분석중...
OK.
[ 챗봇을 사람답게 바꾸는 것은 남수의 집착이었습니다. ] 형태소 분석중...
OK.
[ 남수는 챗봇 만들기를 좋아한다. ] 형태소 분석중...
OK.
All complete.


{'문장0': {'남수는/Verb(남다)': 1,
  '25/Number': 1,
  '살/Noun': 1,
  '챗봇*/Noun': 1,
  '만들기/Noun': 1,
  '시작/Noun': 1,
  '했다/Verb(하다)': 1},
 '문장1': {'챗봇*/Noun': 1,
  '주로/Noun': 1,
  '머신/Noun': 1,
  '러닝/Noun': 1,
  '데이터/Noun': 1,
  '이루어/Verb(이루다)': 1,
  '졌다/Verb(지다)': 1},
 '문장2': {'그/Noun': 1,
  '2018년/Number': 1,
  '에/Foreign': 1,
  '구로/Noun': 1,
  '디지털단지로/Noun': 1,
  '이사/Noun': 1,
  '갔다/Verb(가다)': 1},
 '문장3': {'챗봇*/Noun': 1,
  '사람/Noun': 1,
  '답/Noun': 1,
  '바꾸는/Verb(바꾸다)': 1,
  '것/Noun': 1,
  '남/Noun': 1,
  '수의/Noun': 1,
  '집착/Noun': 1,
  '이었습니다/Verb(이다)': 1},
 '문장4': {'남수는/Verb(남다)': 1,
  '챗봇*/Noun': 1,
  '만들기/Noun': 1,
  '좋아한다/Adjective(좋아하다)': 1}}

In [43]:
df = pd.DataFrame.from_records(corpus).fillna(0).astype(int)
df

Unnamed: 0,문장0,문장1,문장2,문장3,문장4
2018년/Number,0,0,1,0,0
25/Number,1,0,0,0,0
갔다/Verb(가다),0,0,1,0,0
것/Noun,0,0,0,1,0
구로/Noun,0,0,1,0,0
그/Noun,0,0,1,0,0
남/Noun,0,0,0,1,0
남수는/Verb(남다),1,0,0,0,1
답/Noun,0,0,0,1,0
데이터/Noun,0,1,0,0,0


In [44]:
df.T  # 행렬의 전치화

Unnamed: 0,2018년/Number,25/Number,갔다/Verb(가다),것/Noun,구로/Noun,그/Noun,남/Noun,남수는/Verb(남다),답/Noun,데이터/Noun,...,에/Foreign,이루어/Verb(이루다),이사/Noun,이었습니다/Verb(이다),졌다/Verb(지다),좋아한다/Adjective(좋아하다),주로/Noun,집착/Noun,챗봇*/Noun,했다/Verb(하다)
문장0,0,1,0,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,1,1
문장1,0,0,0,0,0,0,0,0,0,1,...,0,1,0,0,1,0,1,0,1,0
문장2,1,0,1,0,1,1,0,0,0,0,...,1,0,1,0,0,0,0,0,0,0
문장3,0,0,0,1,0,0,1,0,1,0,...,0,0,0,1,0,0,0,1,1,0
문장4,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,1,0,0,1,0


## 벡터의 내적

In [45]:
v1 = pd.np.array([1,2,3])
v2 = pd.np.array([2,3,4])

v1.dot(v2)

20

In [46]:
(v1 * v2).sum()  # 배열의 각 요소끼리 곱하고 각 요소의 합 역시 내적한 값과 동일

20

In [47]:
sum([x1 * x2 for x1, x2 in zip(v1, v2)])  # zip은 반복 가능한 객체들을 넣으면 그룹핑해서 반환

20

In [48]:
for i, v in zip(v1, v2):  # zip 설명
    print(i, v)

1 2
2 3
3 4


## 문장의 유사도 확인

In [49]:
df.문장0.dot(df.문장4)  # 문장0과 문장1을 내적하면 두문장에서 겹치는 단어의 수를 알 수 있음

3

In [50]:
df[['문장0', '문장4']]

Unnamed: 0,문장0,문장4
2018년/Number,0,0
25/Number,1,0
갔다/Verb(가다),0,0
것/Noun,0,0
구로/Noun,0,0
그/Noun,0,0
남/Noun,0,0
남수는/Verb(남다),1,1
답/Noun,0,0
데이터/Noun,0,0


## 겹치는 원소 확인하기

In [51]:
# [(k, v) for (k, v) in (df.문장0 & df.문장1).items() if v]  # 설명

overlap = []
for k, v in (df.문장0 & df.문장4).items():
    if v:
        overlap.append((k,v))
overlap

[('남수는/Verb(남다)', 1), ('만들기/Noun', 1), ('챗봇*/Noun', 1)]

In [52]:
df.문장0 & df.문장4  # and 연산 가능

2018년/Number            0
25/Number               0
갔다/Verb(가다)             0
것/Noun                  0
구로/Noun                 0
그/Noun                  0
남/Noun                  0
남수는/Verb(남다)            1
답/Noun                  0
데이터/Noun                0
디지털단지로/Noun             0
러닝/Noun                 0
만들기/Noun                1
머신/Noun                 0
바꾸는/Verb(바꾸다)           0
사람/Noun                 0
살/Noun                  0
수의/Noun                 0
시작/Noun                 0
에/Foreign               0
이루어/Verb(이루다)           0
이사/Noun                 0
이었습니다/Verb(이다)          0
졌다/Verb(지다)             0
좋아한다/Adjective(좋아하다)    0
주로/Noun                 0
집착/Noun                 0
챗봇*/Noun                1
했다/Verb(하다)             0
dtype: int64

In [53]:
for k, v in (df.문장0 & df.문장4).items():
    print('k:',k, 'v:',v)

k: 2018년/Number v: 0
k: 25/Number v: 0
k: 갔다/Verb(가다) v: 0
k: 것/Noun v: 0
k: 구로/Noun v: 0
k: 그/Noun v: 0
k: 남/Noun v: 0
k: 남수는/Verb(남다) v: 1
k: 답/Noun v: 0
k: 데이터/Noun v: 0
k: 디지털단지로/Noun v: 0
k: 러닝/Noun v: 0
k: 만들기/Noun v: 1
k: 머신/Noun v: 0
k: 바꾸는/Verb(바꾸다) v: 0
k: 사람/Noun v: 0
k: 살/Noun v: 0
k: 수의/Noun v: 0
k: 시작/Noun v: 0
k: 에/Foreign v: 0
k: 이루어/Verb(이루다) v: 0
k: 이사/Noun v: 0
k: 이었습니다/Verb(이다) v: 0
k: 졌다/Verb(지다) v: 0
k: 좋아한다/Adjective(좋아하다) v: 0
k: 주로/Noun v: 0
k: 집착/Noun v: 0
k: 챗봇*/Noun v: 1
k: 했다/Verb(하다) v: 0


## 정규식을 사용해요

In [54]:
import re  # 정규식을 사용하기 위한 모듈

In [55]:
sentence = '남수는 25살에 챗봇을 만들기 시작했다.'
tokens = re.split(r'[-\s.,;!?]+', sentence)  # 정규식 조건을 기준으로 분리
tokens

['남수는', '25살에', '챗봇을', '만들기', '시작했다', '']

#### 패턴을 이용하여 반복사용

In [56]:
pattern = re.compile(r'[-\s.,;!?]+')

tokens = pattern.split(sentence)
tokens

['남수는', '25살에', '챗봇을', '만들기', '시작했다', '']

In [57]:
tokens[-2:]  # 뒤에서 두번째부터 끝까지

['시작했다', '']

In [58]:
sentence = '남수는 25살에 챗봇을 만들기 시작했다.'
tokens = pattern.split(sentence)

[x for x in tokens if x and x not in '- \t\n.,;!?']  # 복잡한 리스트 컴프리헨션

['남수는', '25살에', '챗봇을', '만들기', '시작했다']

In [59]:
# 같은 로직을 쓰려면 길고 추가 변수 필요
new_data = []

for x in tokens:
    if x and x not in '- \t\n.,;!?':
        new_data.append(x)
        
new_data

['남수는', '25살에', '챗봇을', '만들기', '시작했다']

## NLTK를 사용해요

In [60]:
from nltk.tokenize import RegexpTokenizer

In [61]:
tokenizer = RegexpTokenizer(r'[0-9.]+|\S+')
tokenizer.tokenize(sentence)

['남수는', '25', '살에', '챗봇을', '만들기', '시작했다.']

In [62]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
tokenizer.tokenize(sentence)

['남수는', '25살에', '챗봇을', '만들기', '시작했다', '.']

## 한국어에는 좀 안 맞는것 같다

## N-gram

In [63]:
sentence = '남수는 25살에 챗봇을 만들기 시작했다.'
pattern = re.compile(r"([-\s.,;!?])+")
tokens = pattern.split(sentence)
tokens

['남수는', ' ', '25살에', ' ', '챗봇을', ' ', '만들기', ' ', '시작했다', '.', '']

In [64]:
tokens = [x for x in tokens if x and x not in '- \t\n.,;!?']
tokens

['남수는', '25살에', '챗봇을', '만들기', '시작했다']

In [65]:
from nltk.util import ngrams
print(ngrams(tokens, 2))
list(ngrams(tokens, 2))  # 결과가 제너레이터여서 결과를 보기 위해 리스트화

<generator object ngrams at 0x7f840071e6d0>


[('남수는', '25살에'), ('25살에', '챗봇을'), ('챗봇을', '만들기'), ('만들기', '시작했다')]

In [66]:
list(ngrams(tokens, 3))

[('남수는', '25살에', '챗봇을'), ('25살에', '챗봇을', '만들기'), ('챗봇을', '만들기', '시작했다')]

#### N-gram 결과와 비교하기 위해 문자열화

In [67]:
two_grams = list(ngrams(tokens, 2))
[" ".join(x) for x in two_grams]  # 두개의 단어를 하나의 문자열로 만드는 리스트 컴프리헨션

['남수는 25살에', '25살에 챗봇을', '챗봇을 만들기', '만들기 시작했다']

## Stop words

- 너무 영문에 최적화 되어있어서 패스
- 책을 한 번 읽어보는게 더 유용하리라 생각됩니다

## 정규화

#### 트위터 형태소 분석 내부에 정규화를 거친 뒤 pos태깅 하였음