<a href="https://colab.research.google.com/github/comandi1969/AIFFEL_Online_Quest/blob/main/ML_With_Python/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D_%EA%B8%B0%EC%B4%88_%EB%85%B8%EB%93%9C8_%EC%9E%90%EC%97%B0%EC%96%B4%EC%B2%98%EB%A6%AC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [128]:
# 자연어 처리 기초
# 형태소 분석기
# konlpy: 한국어 처리를 위한 형태소 분석기
# 형태소 : 의미를 가지는 요소로서는 더 이상 분석할 수 없는 가장 작은 말의 단위
# 라이브러리 불러오기
import pandas as pd
import warnings
warnings.filterwarnings('ignore')


In [129]:
# konlpy 설치
#!pip install konlpy

In [130]:
# 라이브러리 불러오기(Okt)
import konlpy
from konlpy.tag import Okt
tokenizer = Okt()

In [131]:
# 토큰화 (형태소 단위)
text = "함께 탐험하며 성장하는 AI 학교 AIFFEL"
tokenizer.morphs(text)

['함께', '탐험', '하며', '성장하는', 'AI', '학교', 'AIFFEL']

In [132]:
# 토큰화 (명사만 추출)
tokenizer.nouns(text)

['탐험', '학교']

In [133]:
# 토큰화 (품사 태깅)
tokenizer.pos(text)

[('함께', 'Adverb'),
 ('탐험', 'Noun'),
 ('하며', 'Verb'),
 ('성장하는', 'Adjective'),
 ('AI', 'Alpha'),
 ('학교', 'Noun'),
 ('AIFFEL', 'Alpha')]

In [134]:
# CounterVectorizer
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer() # 텍스트 데이터를 벡터로 변환


In [135]:
# 단어 토큰화, 형태소 분리 (konlpy 모듈 Okt 클래스 이용)
words = tokenizer.morphs(text)

In [136]:
# 단어 토큰화 (Okt) => 데이터 학습
vect.fit(words)
#vect.fit_transform(words)

In [137]:
# 학습된 어휘
vect.get_feature_names_out()


array(['ai', 'aiffel', '성장하는', '탐험', '하며', '학교', '함께'], dtype=object)

In [138]:
# 단어 사전
vect.vocabulary_

{'함께': 6, '탐험': 3, '하며': 4, '성장하는': 2, 'ai': 0, '학교': 5, 'aiffel': 1}

In [139]:
# 단어 사전 크기
len(vect.vocabulary_)

7

In [140]:
# 인코딩
df_t = vect.transform(words)
type(df_t)

scipy.sparse._csr.csr_matrix

In [141]:
# 인코딩된 데이터 Matrix
df_t.toarray()

array([[0, 0, 0, 0, 0, 0, 1],
       [0, 0, 0, 1, 0, 0, 0],
       [0, 0, 0, 0, 1, 0, 0],
       [0, 0, 1, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 1, 0],
       [0, 1, 0, 0, 0, 0, 0]])

In [142]:
# 어희와 피치 (데이터 프레임)
pd.DataFrame(df_t.toarray(), columns=vect.get_feature_names_out()) # 단어 사전(vect.vocabulary_) 인코딩(transform) 가시화
#pd.DataFrame(df_t.toarray(), columns=vect.get_feature_names()) # LMS 코드 오류 발생


Unnamed: 0,ai,aiffel,성장하는,탐험,하며,학교,함께
0,0,0,0,0,0,0,1
1,0,0,0,1,0,0,0
2,0,0,0,0,1,0,0
3,0,0,1,0,0,0,0
4,1,0,0,0,0,0,0
5,0,0,0,0,0,1,0
6,0,1,0,0,0,0,0


In [143]:
# 테스트
test = "AI 공부하며 함께 성장해요!"

In [144]:
# 단어 토큰화 (Okt)
words = tokenizer.morphs(test)
words

['AI', '공부', '하며', '함께', '성장해요', '!']

In [145]:
# 인코딩 데이터, Matrix
test_t = vect.transform(words)
type(test_t)

scipy.sparse._csr.csr_matrix

In [146]:
# 인코딩된 데이터 Matrix
test_t.toarray()

array([[1, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 0, 0],
       [0, 0, 0, 0, 0, 0, 1],
       [0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0]])

In [147]:
# 어희와 피처 (데이터 프레임)
pd.DataFrame(test_t.toarray(), columns=vect.get_feature_names_out())

Unnamed: 0,ai,aiffel,성장하는,탐험,하며,학교,함께
0,1,0,0,0,0,0,0
1,0,0,0,0,0,0,0
2,0,0,0,0,1,0,0
3,0,0,0,0,0,0,1
4,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0


In [151]:
# TfidfVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

# tf-idf 활용 어휘 사전 구축
vect = TfidfVectorizer()

# 단어 토큰화, 형태소 분리 (konlpy 모듈 Okt 클래스 이용)
words = tokenizer.morphs(text)

# 단어 토큰화 (Okt) => 데이터 학습 => 단어 사전 구축
vect.fit(words)

# 단어 사전
vect.vocabulary_

# 사전을 인코딩 데이터, Matrix
df_t = vect.transform(words)
df_t.toarray()

# 어희와 피처 (데이터 프레임)
pd.DataFrame(test_t.toarray(), columns=vect.get_feature_names_out())


Unnamed: 0,ai,aiffel,성장하는,탐험,하며,학교,함께
0,1,0,0,0,0,0,0
1,0,0,0,0,0,0,0
2,0,0,0,0,1,0,0
3,0,0,0,0,0,0,1
4,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0
