In [1]:
# 예시로 iris 데이터셋 불러오기
from sklearn.datasets import load_iris
iris = load_iris()

In [2]:
# 특징(feature) 행렬 (X) 과 정답 벡터 (y)
X = iris.data
y = iris.target

In [3]:
# X와 y의 차원수 확인
print(X.shape)
print(y.shape)

(150, 4)
(150,)


In [4]:
# 특징(feature) 행렬의 첫 5개 행 확인하기
import pandas as pd
pd.DataFrame(X, columns=iris.feature_names).head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [5]:
# 정답 벡터 확인하기
print(y)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


모델을 만들기 위해서는, feature들은 **숫자형**이어야 한다. 그리고 모든 data point들은 항상 **같은 feature들**을 **같은 순서**로 가져야 한다.

In [6]:
# 클래스 불러오기
from sklearn.neighbors import KNeighborsClassifier

# 모델 초기화하기 (디폴트 파라미터)
knn = KNeighborsClassifier()

# 모델을 데이터에 학습시키기
knn.fit(X, y)

KNeighborsClassifier()

**예측**을 하기 위해서, 새로운 data point는 **학습용 데이터셋과 같은 feature들**을 같은 순서로 갖고 있어야 한다.

In [7]:
# 새 관찰(observation)에 대해 정답 예측하기
knn.predict([[3, 5, 4, 2]])

array([1])

# 자연어 처리에서의 문제

** 텍스트는 알고리즘에 직접 넣을 수 없다!**

알고리즘은 고정 길이의 숫자형 데이터를 기대한다. 가변 길이(시퀀스)의 문자형 데이터는 받지 못한다. 문자 끼리는 직접 덧셈 뺄셈 곱셈 나눗셈을 할 수 없기 때문이다.

그럼 어떻게?

** key point : 텍스트를 어떻게 숫자로 바꿀 것인가 **

#### One hot encoding을 통해 텍스트(자연어)를 숫자형 데이터로 나타낸다

##### Count vectorizer

In [8]:
# 모델 학습을 위한 예시 텍스트 (문자 데이터)
simple_train = ['call you tonight', 'Call me a cab', 'please call me... PLEASE!']

In [9]:
# 예시 정답 벡터
is_desperate = [0, 0, 1]

In [10]:
# CountVectorizer를 불러오고 초기화한다 (디폴트 파라미터)
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()

In [11]:
# 학습 데이터의 사전('vocabulary')을 학습한다.
vect.fit(simple_train)

CountVectorizer()

In [12]:
# 학습된 사전 보기
vect.get_feature_names()

['cab', 'call', 'me', 'please', 'tonight', 'you']

In [13]:
# 학습 데이터를 'document-term matrix'로 바꾸기
simple_train_dtm = vect.transform(simple_train)
simple_train_dtm

<3x6 sparse matrix of type '<class 'numpy.int64'>'
	with 9 stored elements in Compressed Sparse Row format>

In [14]:
# sparse matrix를 dense matrix로 바꾸기
simple_train_dtm.toarray()

array([[0, 1, 0, 0, 1, 1],
       [1, 1, 1, 0, 0, 0],
       [0, 1, 1, 2, 0, 0]], dtype=int64)

In [15]:
# 사전(vocabulary)과 document-term matrix를 확인하기
pd.DataFrame(simple_train_dtm.toarray(), columns=vect.get_feature_names())

Unnamed: 0,cab,call,me,please,tonight,you
0,0,1,0,0,1,1
1,1,1,1,0,0,0
2,0,1,1,2,0,0


### 이 방식(count vectorizer)에서

- 각각의 단어들의 빈도는 feature가 된다.
- 각각의 문서들은 data point가 된다.

- 즉, 문서 데이터셋은 행이 각 문서이고 열이 각 단어인 행렬로 표현될 수 있다.

-  **벡터화(Vectorization)** : 텍스트 데이터셋(문서 또는 단어, 문장 등등)을 숫자형 feature 벡터로 나타내는 것.
 
 
 * Bag of words 방식 : 단어들을 가방에 넣는다는 뜻. 즉 단어 사이의 순서는 사라지고 단순히 단어가 몇개 나왔느냐를 갖고 문서를 벡터화 하는 것

In [16]:
# document-term matrix의 타입 확인
type(simple_train_dtm)

scipy.sparse.csr.csr_matrix

In [17]:
# sparse matrix의 내용 확인
print(simple_train_dtm)

  (0, 1)	1
  (0, 4)	1
  (0, 5)	1
  (1, 0)	1
  (1, 1)	1
  (1, 2)	1
  (2, 1)	1
  (2, 2)	1
  (2, 3)	2


In [18]:
# 모델 만들기
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(simple_train_dtm, is_desperate)

KNeighborsClassifier(n_neighbors=1)

In [19]:
# 모델 테스트를 위한 예시 텍스트
simple_test = ["please don't call me"]

In [20]:
# 테스트 데이터를 document-term matrix 형태로 바꾸기 (기존에 만든 사전을 활용해서)
simple_test_dtm = vect.transform(simple_test)
simple_test_dtm.toarray()

array([[0, 1, 1, 1, 0, 0]], dtype=int64)

In [21]:
# 사전(vocabulary)과 document-term matrix 확인
pd.DataFrame(simple_test_dtm.toarray(), columns=vect.get_feature_names())

Unnamed: 0,cab,call,me,please,tonight,you
0,0,1,1,1,0,0


In [22]:
# 테스트 데이터가 desperate한지 예측
knn.predict(simple_test_dtm)

array([1])

**요약**

- `vect.fit(train)` 학습용 데이터셋의 **사전을 학습한다.**
- `vect.transform(train)` **학습된 사전**을 이용해서 학습용 데이터셋의 문서-단어(document-term) 행렬을 만든다.
- `vect.transform(test)` **학습된 사전**을 이용해서 새로운(테스트용) 데이터셋의 문서-단어(document-term) 행렬을 만든다. 이 때 학습용 데이터셋에서 보지 못했던 단어들은 **무시한다**

## 더 큰 데이터셋으로 실습

In [23]:
# csv 파일 읽어오기
sms = pd.read_table('./data/sms.tsv',header=None, names=['label', 'message'])

In [24]:
sms.shape

(5572, 2)

In [25]:
sms.head(10)

Unnamed: 0,label,message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."
5,spam,FreeMsg Hey there darling it's been 3 week's n...
6,ham,Even my brother is not like to speak with me. ...
7,ham,As per your request 'Melle Melle (Oru Minnamin...
8,spam,WINNER!! As a valued network customer you have...
9,spam,Had your mobile 11 months or more? U R entitle...


In [26]:
# 클래스 분포 확인하기
sms.label.value_counts()

ham     4825
spam     747
Name: label, dtype: int64

In [27]:
# 레이블(label)을 숫자 변수로 바꾸기
sms['label_num'] = sms.label.map({'ham':0, 'spam':1})

In [28]:
# 텍스트를 소문자로 바꾸기
sms.message = sms.message.map(lambda x: x.lower())

In [29]:
# iris 데이터에서 X와 y를 정의한 방법
X = iris.data
y = iris.target
print(X.shape)
print(y.shape)

(150, 4)
(150,)


In [30]:
# SMS 데이터에서 X와 y를 정의하는 방법
X = sms.message
y = sms.label_num
print(X.shape)
print(y.shape)

(5572,)
(5572,)


In [31]:
# X와 y를 학습과 테스트 데이터로 나누기
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(4179,)
(1393,)
(4179,)
(1393,)


### 데이터셋 벡터화하기

In [32]:
# vectorizer를 초기화하기
vect = CountVectorizer()

In [33]:
# 사전(vocabulary) 학습하기. document-term matrix를 만드는 데 사용됨
vect.fit(X_train)
X_train_dtm = vect.transform(X_train)

In [34]:
# 다음과 같이 한 줄로 해도 동일하다.
X_train_dtm = vect.fit_transform(X_train)

In [35]:
# 테스트 데이터를 document-term matrix로 바꾸기 (학습된 사전 활용)
X_test_dtm = vect.transform(X_test)
X_test_dtm

<1393x7456 sparse matrix of type '<class 'numpy.int64'>'
	with 17604 stored elements in Compressed Sparse Row format>

### 모델 만들고 평가하기

In [36]:
# logistic regression model을 불러오고 초기화
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()

In [37]:
# X_train_dtm를 이용해 모델 학습
%time logreg.fit(X_train_dtm, y_train)

Wall time: 106 ms


LogisticRegression()

In [38]:
# X_test_dtm에 대해 클래스 예측
y_pred_class = logreg.predict(X_test_dtm)

In [39]:
# X_test_dtm에 대해 확률 예측
y_pred_prob = logreg.predict_proba(X_test_dtm)[:, 1]
y_pred_prob

array([0.00959377, 0.00295662, 0.00452424, ..., 0.031302  , 0.99748962,
       0.00119521])

In [40]:
from sklearn.metrics import accuracy_score, roc_auc_score

In [41]:
# 클래스 예측 정확도 구하기
accuracy_score(y_test, y_pred_class)

0.9877961234745154

In [42]:
# AUC 구하기
roc_auc_score(y_test, y_pred_prob)

0.9936280651512441