## spacy

In [1]:
import spacy

nlp = spacy.load("en_core_web_sm")

text = "All work and no play makes Jack a dull boy."
doc = nlp(text)

for token in doc:
    print(token.text,
          token.lemma_,  # 표제어
          token.pos_,    # 단어의 품사
          token.tag_,    # 자세한 품사
          token.is_stop) # 불용어 여부

All all DET DT True
work work NOUN NN False
and and CCONJ CC True
no no DET DT True
play play NOUN NN False
makes make VERB VBZ False
Jack Jack PROPN NNP False
a a DET DT True
dull dull ADJ JJ False
boy boy NOUN NN False
. . PUNCT . False


In [2]:
import spacy

konlp = spacy.load("ko_core_news_sm")

text = "단무지 빼고 김치랑 밥 빼고 양상추"
doc = nlp(text)

for token in doc:
    print(token.text,
          token.lemma_,  # 표제어
          token.pos_,    # 단어의 품사
          token.tag_,    # 자세한 품사
          token.is_stop) # 불용어 여부

단무지 단무지 PROPN NNP False
빼고 빼고 PROPN NNP False
김치랑 김치랑 VERB VBD False
밥 밥 PROPN NNP False
빼고 빼고 PROPN NNP False
양상추 양상추 PROPN NNP False


In [3]:
spacy.explain('PROPN')

'proper noun'

### 문장 구조

In [4]:
from IPython.display import SVG
SVG(spacy.displacy.render(doc))

<IPython.core.display.SVG object>

In [5]:
for token in doc:
    print(token.text,
          token.dep_,   # 의존 관계
          token.head)   # 지배소

단무지 dep 김치랑
빼고 nsubj 김치랑
김치랑 ROOT 김치랑
밥 compound 양상추
빼고 compound 양상추
양상추 npadvmod 김치랑


## kiwi 형태소 분석기

In [6]:
from kiwipiepy import Kiwi
kiwi = Kiwi()

text = '단무지 빼고 김치랑 밥 빼고 양상추'
result = kiwi.tokenize(text)
result

[Token(form='단무지', tag='NNG', start=0, len=3),
 Token(form='빼', tag='VV', start=4, len=1),
 Token(form='고', tag='EC', start=5, len=1),
 Token(form='김치', tag='NNG', start=7, len=2),
 Token(form='랑', tag='JC', start=9, len=1),
 Token(form='밥', tag='NNG', start=11, len=1),
 Token(form='빼', tag='VV', start=13, len=1),
 Token(form='고', tag='EF', start=14, len=1),
 Token(form='양상추', tag='NNG', start=16, len=3)]

In [7]:
def extract_noun(text):
    result = kiwi.tokenize(text)
    for token in result:
        if token.tag in ['NNG', 'NNP']:
            yield token.form


list(extract_noun('어제는 홍차를 마시고, 오늘은 커피를 마셨다.'))

['어제', '홍차', '오늘', '커피']

## 한국어 문서 단어 행렬

In [8]:
import pandas as pd
df = pd.read_csv('data/news_ai.csv')

In [9]:
kiwi.add_user_word('인공지능', 'NNP')

False

In [10]:
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer(
    max_features=100,       # 최대 단어 수(빈도 순)
    tokenizer=extract_noun) # 토큰화 방법

dtm = cv.fit_transform(df['본문'])



In [11]:
cv.get_feature_names_out()

array(['가능', '강화', '개발', '게임', '계획', '공개', '과정', '과학', '관련', '교과', '교수',
       '교육', '구축', '국내', '국민', '기능', '기반', '기술', '기업', '다양', '대표', '대학',
       '데이터', '도시', '디지털', '때', '말', '모집', '문제', '물류', '미국', '미래', '반도체',
       '분석', '분야', '빅데이터', '사람', '사업', '사회', '산업', '삼성', '상황', '생각',
       '서비스', '서울', '선발', '설계', '세계', '센터', '소득', '스마트', '시간', '시대',
       '시스템', '시장', '신설', '업체', '연구', '영상', '예측', '올해', '운영', '융합', '이',
       '이번', '이상', '이용', '인간', '인공', '인도', '인재', '일', '자율', '전공', '전형',
       '점', '정보', '정부', '정책', '제공', '제도', '지난해', '지능', '지역', '지원', '진행',
       '채용', '코로나', '콘텐츠', '투자', '평가', '필요', '학생', '학생부', '학습', '한국',
       '혁신', '협력', '환경', '활용'], dtype=object)

In [12]:
word_count = pd.DataFrame({
    '단어': cv.get_feature_names_out(),
    '빈도': dtm.sum(axis=0).flat
})
word_count.sort_values('빈도', ascending=False).head()

Unnamed: 0,단어,빈도
17,기술,279
82,지능,252
68,인공,237
11,교육,146
2,개발,144


### 유니코드 정규화

In [13]:
import unicodedata

In [14]:
unistr = '안녕하세요'

list(unicodedata.normalize('NFD', unistr)) #풀어쓰기

['ᄋ', 'ᅡ', 'ᆫ', 'ᄂ', 'ᅧ', 'ᆼ', 'ᄒ', 'ᅡ', 'ᄉ', 'ᅦ', 'ᄋ', 'ᅭ']

In [15]:
list(unicodedata.normalize('NFC', unistr)) #풀어쓰기

['안', '녕', '하', '세', '요']

### 준단어 토큰화(챗봇)

In [16]:
!pip install tokenizers

Defaulting to user installation because normal site-packages is not writeable


BPE 토크나이저 초기화 (미등록 어휘는 [UNK]로 표시하도록 설정)

In [17]:
from tokenizers import Tokenizer
from tokenizers.models import BPE
tokenizer = Tokenizer(BPE(unk_token="[UNK]"))

빈 칸으로 끊어서 전처리하도록 설정

In [18]:
from tokenizers.pre_tokenizers import Whitespace
tokenizer.pre_tokenizer = Whitespace()

훈련 방법 설정



In [19]:
from tokenizers.trainers import BpeTrainer
trainer = BpeTrainer(vocab_size=30000,
                     special_tokens=["[UNK]"])

데이터 파일

In [20]:
import pandas as pd
df = pd.read_csv('data/news_ai.csv')

훈련

In [21]:
tokenizer.train_from_iterator(df.본문, trainer=trainer)






적용

In [22]:
enc = tokenizer.encode('자연어 처리는 재밌다')

토큰 아이디 보기



In [23]:
enc.ids

[2480, 738, 915, 1319, 834, 0, 325]

토큰 보기

In [24]:
enc.tokens

['자연', '어', '처', '리는', '재', '[UNK]', '다']

저장

In [25]:
tokenizer.save('save/bpe.json')

불러오기

In [26]:
tokenizer = Tokenizer.from_file("save/bpe.json")

### 풀어쓰기 + BPE

In [34]:
from tokenizers.normalizers import NFD
normalizer = NFD()

In [35]:
result = normalizer.normalize_str('자연어')
list(result)

['ᄌ', 'ᅡ', 'ᄋ', 'ᅧ', 'ᆫ', 'ᄋ', 'ᅥ']

In [36]:
tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
tokenizer.pre_tokenizer = Whitespace()
tokenizer.normalizer = NFD()

In [37]:
trainer = BpeTrainer(vocab_size=30000,
                     special_tokens=["[UNK]"])
tokenizer.train_from_iterator(df.본문, trainer=trainer)






In [42]:
tokenizer.encode('자연어 처리는 재밌다').tokens

['자연', '어', '처', '리는', '재미', 'ᆻ다']

### tiktoken (chatGPT)

In [44]:
!pip3 install tiktoken

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
Defaulting to user installation because normal site-packages is not writeable
Collecting tiktoken
  Downloading tiktoken-0.3.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m10.5 MB/s[0m eta [36m0:00:00[0m00:01[0m0:01[0m
Collecting regex>=2022.1.18
  Downloading regex-2023.3.23-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (769 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m769.6/769.6 KB[0m [31m25.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: regex, tiktoken
Successfully installed regex-2023.3.23 tiktoken-0.3.2


In [46]:
import tiktoken
euc = tiktoken.encoding_for_model('gpt-4')

In [47]:
euc.encode('hello world')

[15339, 1917]

In [49]:
#영어 보다 훨씬 많은 토큰화
#챗지피티는 토큰 n^2 연산함
euc.encode('안녕세계')

[31495, 230, 75265, 243, 42529, 22783, 226]

In [52]:
euc.encode('공부')

[79225, 64189]

### Byte-level BPE

In [53]:
from tokenizers.pre_tokenizers import Sequence, ByteLevel

tokenizer = Tokenizer(BPE(unk_token="[UNK]"))

tokenizer.pre_tokenizer = Sequence([
    Whitespace(), # 공백으로 분리 후
    ByteLevel() # 바이트 단위로 분리
])
trainer = BpeTrainer(vocab_size=30000,
                     special_tokens=["[UNK]"])
tokenizer.train_from_iterator(df.본문, trainer=trainer)






In [54]:
tokenizer.encode('자연어 처리는 재밌다').tokens

['ĠìŀĲìĹ°', 'ìĸ´', 'Ġì²ĺ', 'ë¦¬ëĬĶ', 'Ġìŀ¬', 'ë°', 'Į', 'ëĭ¤']