## 자연어 처리
- NLP (Natural Language Processing)
- 사람이 사용하는 언어를 처리하고 해석

### 자연어 처리 기초

#### 형태소 분석기
- konipy: 한국어 처리를 위한 형태소 분석기
- 형태소: 의미를 가지는 요소로서는 더 이상 분석할 수 없는 가장 작은 말의 단위

In [1]:
# 라이브러리
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [2]:
# konlpy 설치
import sys
!{sys.executable} -m pip install konlpy



In [3]:
pip list

Package                           Version
--------------------------------- ------------------
aiobotocore                       2.12.3
aiohappyeyeballs                  2.4.0
aiohttp                           3.10.5
aioitertools                      0.7.1
aiosignal                         1.2.0
alabaster                         0.7.16
altair                            5.0.1
anaconda-anon-usage               0.4.4
anaconda-catalogs                 0.2.0
anaconda-client                   1.12.3
anaconda-cloud-auth               0.5.1
anaconda-navigator                2.6.3
anaconda-project                  0.11.1
annotated-types                   0.6.0
anyio                             4.2.0
appdirs                           1.4.4
archspec                          0.2.3
argon2-cffi                       21.3.0
argon2-cffi-bindings              21.2.0
arrow                             1.2.3
astroid                           2.14.2
astropy                           6.1.3
astropy-iers-data

In [4]:
# 라이브러리
import konlpy
from konlpy.tag import Okt
tokenizer = Okt()

In [6]:
# 토큰화 ( 형태소 단위 )
text = "오늘 비가 와서 기분이 우울해요"
tokenizer.morphs(text)

['오늘', '비', '가', '와서', '기분', '이', '우울해요']

In [8]:
# 토큰화
tokenizer.pos(text)

[('오늘', 'Noun'),
 ('비', 'Noun'),
 ('가', 'Josa'),
 ('와서', 'Verb'),
 ('기분', 'Noun'),
 ('이', 'Josa'),
 ('우울해요', 'Adjective')]

### CountVectorizer

In [9]:
# CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()

In [11]:
# 단어 토큰화
words = tokenizer.morphs(text)

In [12]:
# 데이터 학습
vect.fit(words)

In [14]:
# 학습된 어휘
vect.get_feature_names_out()

array(['기분', '오늘', '와서', '우울해요'], dtype=object)

In [15]:
# 단어 사전
vect.vocabulary_

{'오늘': 1, '와서': 2, '기분': 0, '우울해요': 3}

In [16]:
# 단어 사전 크기
len(vect.vocabulary_)

4

In [19]:
# 인코딩
df_t = vect.transform(words)

In [20]:
# 인코딩된 데이터 matrix
df_t.toarray()

array([[0, 1, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 1, 0],
       [1, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 1]], dtype=int64)

In [23]:
# 어휘와 피처 매칭 프레임
pd.DataFrame(df_t.toarray(), columns=vect.get_feature_names_out())

Unnamed: 0,기분,오늘,와서,우울해요
0,0,1,0,0
1,0,0,0,0
2,0,0,0,0
3,0,0,1,0
4,1,0,0,0
5,0,0,0,0
6,0,0,0,1


In [24]:
# 새로운 단어가 들어오면 어떻게 매칭되는지
test = "날씨가 좋으면 기분이 좋아져요"

In [25]:
# 단어 토큰화
words = tokenizer.morphs(test)

In [26]:
# 인코딩된 데이터 matrix
test_t = vect.transform(words)

In [27]:
test_t.toarray()

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [1, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]], dtype=int64)

In [28]:
# 어휘와 피처 매칭 프레임
pd.DataFrame(test_t.toarray(), columns=vect.get_feature_names_out())

Unnamed: 0,기분,오늘,와서,우울해요
0,0,0,0,0
1,0,0,0,0
2,0,0,0,0
3,1,0,0,0
4,0,0,0,0
5,0,0,0,0


### TfidfVectorizer

In [32]:
# tf-idf
from sklearn.feature_extraction.text import TfidfVectorizer

In [33]:
# tf-idf 활용한 어휘 사전 구축
vect = TfidfVectorizer()
words = tokenizer.morphs(text)
vect.fit(words)
vect.vocabulary_

{'오늘': 1, '와서': 2, '기분': 0, '우울해요': 3}

In [34]:
# 인코딩된 데이터 matrix
vect.transform(words).toarray()

array([[0., 1., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 1., 0.],
       [1., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 1.]])