In [36]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [37]:
sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

In [38]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)

In [39]:
encoded = tokenizer.texts_to_sequences(sentences)  #단어들에 대한 인덱스를 확인
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [40]:
max_len = max(len(item) for item in encoded)
print(max_len)

7


In [41]:
#제로패딩
for item in encoded: # 각 문장에 대해서
    while len(item) < max_len:   # max_len보다 작으면
        item.append(0)

padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

## 케라스에서의 제로패딩


In [42]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [43]:
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [44]:
padded = pad_sequences(encoded)  #제로패딩(앞에서부터 채울 때)
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]], dtype=int32)

In [45]:
padded = pad_sequences(encoded,padding = 'post')  #제로패딩(뒤에서부터 채울 때)
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]], dtype=int32)

In [46]:
padded = pad_sequences(encoded, padding = 'post', maxlen = 5)  #길이가 너무 길 때 잘라서 하는 법
padded

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]], dtype=int32)

In [47]:
last_value = len(tokenizer.word_index) + 1 # 단어 집합의 크기보다 1 큰 숫자를 사용
print(last_value)

14


In [48]:
padded = pad_sequences(encoded, padding = 'post', value = last_value)  #최대값으로 패딩
padded

array([[ 1,  5, 14, 14, 14, 14, 14],
       [ 1,  8,  5, 14, 14, 14, 14],
       [ 1,  3,  5, 14, 14, 14, 14],
       [ 9,  2, 14, 14, 14, 14, 14],
       [ 2,  4,  3,  2, 14, 14, 14],
       [ 3,  2, 14, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  2, 14, 14, 14, 14],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13, 14, 14, 14]], dtype=int32)

## 원핫인코딩  :전체 단어의 개수가 백터의 차원이 됨 ex)단어가 13개->13차원 벡터
### - 13차원의 벡터공간에 각 문장을 벡터로 표현  (word embedding)
### ex) 인코딩 된 숫사 9 -> 0000000010000으로 표현됨
### 원핫인코딩 수행 과정
### - 각 단어에 대해 고유한 숫자를(인덱스)부여(정수인코딩)
### - 단어의 인덱스 위치를 1로, 나머지 위치는 0으로 표현

In [49]:
pip install konlpy

You should consider upgrading via the '/Library/Frameworks/Python.framework/Versions/3.8/bin/python3.8 -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [50]:
from konlpy.tag import Okt  

In [56]:
okt=Okt()  
token=okt.morphs("나는 자연어 처리를 배운다")  
print(token)

TypeError: startJVM() got an unexpected keyword argument 'convertStrings'

In [57]:
word2index={}
for voca in token:
     if voca not in word2index.keys():
       word2index[voca]=len(word2index)
print(word2index)

NameError: name 'token' is not defined

In [None]:
def one_hot_encoding(word, word2index):
       one_hot_vector = [0]*(len(word2index))
       index=word2index[word]
       one_hot_vector[index]=1
       return one_hot_vector

In [58]:
one_hot_encoding("자연어",word2index)

NameError: name 'one_hot_encoding' is not defined

In [59]:
text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

In [61]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical
text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index)

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [62]:
sub_text="점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded=t.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [63]:
sub_text="점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded=t.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [64]:
X,y = zip(['a', 1], ['b', 2], ['c', 3])
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


In [77]:
import pandas as pd

values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [78]:
X=df['메일 본문']
y=df['스팸 메일 유무']

In [69]:
X
y

0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64

In [70]:
import numpy as np
ar = np.arange(0,16).reshape((4,4))
print(ar)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [72]:
#1-3번열을 x에 저장
#4번열을 y에 저장하고 출력
x = ar.T[0:3].T
y = ar.T[3].T


In [74]:
x=ar[:, :3]
y=ar[:,3]
print(x)
print(y)

array([[ 0,  1,  2],
       [ 4,  5,  6],
       [ 8,  9, 10],
       [12, 13, 14]])

In [75]:
#iris데이터 분리
#titanic데이터 원핫인코딩
#연습


In [79]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state=1234)

In [80]:
X

0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2      도연씨. 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object

In [81]:
y

0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64

In [82]:
X_train

1      내일 뵐 수 있을지 확인 부탁드...
2      도연씨. 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object

In [85]:
import seaborn as sns 

In [88]:
iris=sns.load_dataset('iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [89]:
#퀴즈: xdata와 ydata(species)분리

In [103]:
X = iris.iloc[:,:4]
Y = iris.iloc[:,4]
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size= 0.3, random_state=1234)

In [None]:
#띄어쓰기 딥러닝 모델

In [105]:
pip install git+https://github.com/haven-jeon/PyKoSpacing.git

Collecting git+https://github.com/haven-jeon/PyKoSpacing.git
  Cloning https://github.com/haven-jeon/PyKoSpacing.git to /private/var/folders/vy/6r4x59ls043bpn9vk0w9nlcc0000gn/T/pip-req-build-6fitfhxa
  Running command git clone -q https://github.com/haven-jeon/PyKoSpacing.git /private/var/folders/vy/6r4x59ls043bpn9vk0w9nlcc0000gn/T/pip-req-build-6fitfhxa
Collecting tensorflow==2.4.0
  Downloading tensorflow-2.4.0-cp38-cp38-macosx_10_11_x86_64.whl (175.5 MB)
[K     |███▎                            | 18.1 MB 33 kB/s eta 1:17:135^C

[31mERROR: Operation cancelled by user[0m
You should consider upgrading via the '/Library/Frameworks/Python.framework/Versions/3.8/bin/python3.8 -m pip install --upgrade pip' command.[0m
[?25hNote: you may need to restart the kernel to use updated packages.


In [None]:
sent = '김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.'

In [None]:
new_sent = sent.replace(" ", '') # 띄어쓰기가 없는 문장 임의로 만들기
print(new_sent)

In [None]:
from pyKospacing import spacing

In [None]:
kospacing_sent = spacing(new_sent)
print(sent)
print(kospacing_sent)

In [None]:
#맞춤법검사기

In [None]:
!pip install git+https://github.com/ssut/py-hanspell.git

In [None]:
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 "
spelled_sent = spell_checker.check(sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)

## 자카드 유사도= 두 문서간 비교, 두 집합의 교집합 크기를 합집합의 크기로 나눈 값

In [106]:
doc1 = "apple banana everyone like likey watch card holder"
doc2 = "apple banana coupon passport love you"

In [107]:
tokenized_doc1 = doc1.split()
tokenized_doc2 = doc2.split()

In [110]:
print(set(tokenized_doc1))
print(set(tokenized_doc2))

{'watch', 'holder', 'everyone', 'like', 'banana', 'card', 'likey', 'apple'}
{'coupon', 'banana', 'you', 'apple', 'passport', 'love'}


In [111]:
#합집합
union=set(tokenized_doc1).union(set(tokenized_doc2))

In [112]:
#교집합
intersection=set(tokenized_doc1).intersection(set(tokenized_doc2))

In [114]:
len(intersection)/len(union)  #자카드 유사도:0.16666666666666666

0.16666666666666666

In [115]:
#iris 데이터 7:3의 비율로 나눔
#랜덤포레스트 분류기 모델 제작
#test데이터 예측 -> 정확도?

#X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size= 0.3, random_state=2021)

In [116]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size= 0.3, random_state=2021)

In [122]:
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
from sklearn.model_selection import GridSearchCV


In [119]:
forest = RandomForestClassifier(n_estimators=100)
forest.fit(X_train, y_train)

RandomForestClassifier()

In [120]:
y_pred = forest.predict(X_test)
print(y_pred)
print(list(y_test))

['setosa' 'setosa' 'versicolor' 'setosa' 'setosa' 'setosa' 'setosa'
 'setosa' 'setosa' 'setosa' 'setosa' 'versicolor' 'virginica' 'virginica'
 'versicolor' 'virginica' 'versicolor' 'versicolor' 'setosa' 'versicolor'
 'versicolor' 'virginica' 'versicolor' 'setosa' 'versicolor' 'versicolor'
 'versicolor' 'versicolor' 'setosa' 'setosa' 'versicolor' 'versicolor'
 'setosa' 'virginica' 'versicolor' 'versicolor' 'virginica' 'setosa'
 'virginica' 'versicolor' 'virginica' 'virginica' 'setosa' 'versicolor'
 'versicolor']
['setosa', 'setosa', 'versicolor', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'versicolor', 'virginica', 'virginica', 'versicolor', 'virginica', 'versicolor', 'versicolor', 'setosa', 'versicolor', 'versicolor', 'virginica', 'virginica', 'setosa', 'virginica', 'versicolor', 'versicolor', 'versicolor', 'setosa', 'setosa', 'versicolor', 'versicolor', 'setosa', 'virginica', 'versicolor', 'versicolor', 'virginica', 'setosa', 'virginica', 'versicol

In [121]:
print('정확도 :', metrics.accuracy_score(y_test, y_pred))

정확도 : 0.9333333333333333


In [123]:
#방법2

In [124]:
rf = RandomForestClassifier(max_features='auto',
                       random_state=1,
                       oob_score=True,
                       n_jobs=-1)


In [125]:

param_grid={
    'n_estimators':[50,60,70,80,90,100],
    'max_depth':[2,3,4,5,6,7]
}

gs = GridSearchCV(estimator=rf,
             param_grid=param_grid,
             n_jobs=-1,
             cv=3)

gs=gs.fit(X_train, y_train)


In [126]:
print(gs.best_params_)  #{'max_depth': 2, 'n_estimators': 60}
print(gs.best_score_)  #0.9619047619047619

{'max_depth': 2, 'n_estimators': 60}
0.9619047619047619


In [127]:

rf = RandomForestClassifier(max_features='auto',
                       random_state=1,
                       oob_score=True,
                       n_jobs=-1,
                       max_depth=2,
                       n_estimators=60)

In [128]:
# 모델형성
rf.fit(X_train, y_train)
# 예측
y_pred = rf.predict(X_test)

accuracy = metrics.accuracy_score(y_test, y_pred)
accuracy  #0.933333333333


0.9333333333333333