# 자연어 처리(Natural Language Processing)

## Review of machine learning

In [2]:
from sklearn.datasets import load_iris

In [3]:
iris = load_iris()

In [4]:
X = iris.data
y = iris.target

In [5]:
X.shape, y.shape

((150, 4), (150,))

In [6]:
import pandas as pd

In [7]:
pd.DataFrame(X, columns=iris.feature_names)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [8]:
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

* 특성(fetures)는 predictors, inputs, 또는 attributes라고도 불린다.
* 정답(target)은 reponse 또는 label이라고도 불린다.
* 데이터 행들은 Data points, observations, samples, instances, 또는 records라고 불린다.

모델을 만들기 위해서는 feature들은 <b>숫자형</b>이어야 한다.<br>
그리고 모든 data point들은 <b>항상 같은 feature들을 같은 순서</b>로 가져야 한다.

In [10]:
from sklearn.neighbors import KNeighborsClassifier

In [11]:
knn = KNeighborsClassifier()

knn.fit(X, y)

KNeighborsClassifier()

<b>예측</b>을 하기 위해서, 새로운 data point는 <b>학습용 데이터셋과 같은 feature들을 같은 순서</b>로 갖고 있어야 한다.

In [13]:
knn.predict([[3, 5, 4, 2]])

array([1])

## 자연어 처리에서의 문제

* 텍스트는 알고리즘에 직접 넣을 수 없다.
* 알고리즘은 고정 길이의 숫자형 데이터를 기대한다.
* 가변 길이(시퀀스)의 문자형 데이터는 받지 못한다.
* 문자 끼리는 직접 덧셈, 뺄셈, 곱셈, 나눗셈을 할 수 없기 때문이다.

** Key point: 텍스트를 어떻게 숫자로 바꿀 것인가 **

## 텍스트(자연어)를 숫자형 데이터로 나타내기

### One-hot encoding
* e.g. 'a' -> [1, 0], 'b' -> [0, 1]


### Count vectorizer
모델 학습을 위한 예시 텍스트(문자 데이터)

In [14]:
simple_train = ['call you tonight', 'Call me a cab', 'please call me... PLEASE!']

예시 정답 벡터

In [31]:
id_desperate = [0, 0, 1]

In [15]:
from sklearn.feature_extraction.text import CountVectorizer

In [16]:
vect = CountVectorizer()

학습 데이터의 사전('vocabulary')을 학습한다.

In [18]:
vect.fit(simple_train)

CountVectorizer()

In [19]:
vect.get_feature_names()

['cab', 'call', 'me', 'please', 'tonight', 'you']

학습 데이터를 'document-term matrix'로 바꾸기

In [20]:
simple_train_dtm = vect.transform(simple_train)
simple_train_dtm

<3x6 sparse matrix of type '<class 'numpy.int64'>'
	with 9 stored elements in Compressed Sparse Row format>

Sparse representation이다. (대부분이 0인 matrix의 경우 용량을 줄이기 위해 0아닌 부분만 저장한다)

Dense matrix로 바꾸기

In [22]:
simple_train_dtm.toarray()

array([[0, 1, 0, 0, 1, 1],
       [1, 1, 1, 0, 0, 0],
       [0, 1, 1, 2, 0, 0]], dtype=int64)

In [23]:
pd.DataFrame(simple_train_dtm.toarray(), columns=vect.get_feature_names())

Unnamed: 0,cab,call,me,please,tonight,you
0,0,1,0,0,1,1
1,1,1,1,0,0,0
2,0,1,1,2,0,0


Count Vectorizer에서
* 각각의 단어들의 빈도는 feature가 된다.
* 각각의 문서들은 data point가 된다.
* 즉, 문서 데이터셋은 행이 각 문서이고 열이 각 단어인 행렬로 표현될 수 있다.<br>
<br>
* 벡터화(Vectorization): 텍스트 데이터셋(문서 또는 단어, 문장 등)을 숫자형 feature 벡터로 나타내는 것<br>
<br>
* Bag of words 방식: 단어들을 가방에 넣는다는 뜻. 즉, 단어 사이의 순서는 사라지고 단순히 단어가 몇 개 나왔느냐를 갖고 문서를 벡터화하는 것

In [24]:
type(simple_train_dtm)

scipy.sparse.csr.csr_matrix

In [25]:
print(simple_train_dtm)

  (0, 1)	1
  (0, 4)	1
  (0, 5)	1
  (1, 0)	1
  (1, 1)	1
  (1, 2)	1
  (2, 1)	1
  (2, 2)	1
  (2, 3)	2


0행 1열에 1이 있다.<br>
0행 4열에 1이 있다.<br>
...

### 모델 만들기

In [29]:
knn = KNeighborsClassifier(n_neighbors=1)

In [32]:
knn.fit(simple_train_dtm, id_desperate)

KNeighborsClassifier(n_neighbors=1)

In [33]:
simple_test = ["please don't call me"]

In [35]:
simple_test_dtm = vect.transform(simple_test)
simple_test_dtm.toarray()

array([[0, 1, 1, 1, 0, 0]], dtype=int64)

In [36]:
pd.DataFrame(simple_test_dtm.toarray(), columns=vect.get_feature_names())

Unnamed: 0,cab,call,me,please,tonight,you
0,0,1,1,1,0,0


학습 데이터에는 don't가 없으므로 무시된다.

In [37]:
knn.predict(simple_test_dtm)

array([1])

## 요약

* vect.fit(train): 학습용 데이터셋의 <b>사전을 학습</b>한다.
* vect.tranform(train): 학습된 사전을 이용해 학습용 데이터셋의 문서-단어(document-term) 행렬을 만든다.
* vect.transform(test): 학습된 사전을 이용해 새로운(테스트용) 데이터셋의 문서-단어 행렬을 만든다. 이때 학습용 데이터셋에서 보지 못했던 단어들은 무시한다.

## 좀 더 큰 데이셋으로

In [40]:
sms = pd.read_table('sms.tsv', header=None, names=['label', 'message'])
sms

Unnamed: 0,label,message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."
...,...,...
5567,spam,This is the 2nd time we have tried 2 contact u...
5568,ham,Will ü b going to esplanade fr home?
5569,ham,"Pity, * was in mood for that. So...any other s..."
5570,ham,The guy did some bitching but I acted like i'd...


In [42]:
sms.label.value_counts()

ham     4825
spam     747
Name: label, dtype: int64

### 레이블(label)을 숫자 변수로 바꾸기

In [43]:
sms['label_num'] = sms.label.map({'ham': 0, 'spam': 1})

In [44]:
sms

Unnamed: 0,label,message,label_num
0,ham,"Go until jurong point, crazy.. Available only ...",0
1,ham,Ok lar... Joking wif u oni...,0
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,1
3,ham,U dun say so early hor... U c already then say...,0
4,ham,"Nah I don't think he goes to usf, he lives aro...",0
...,...,...,...
5567,spam,This is the 2nd time we have tried 2 contact u...,1
5568,ham,Will ü b going to esplanade fr home?,0
5569,ham,"Pity, * was in mood for that. So...any other s...",0
5570,ham,The guy did some bitching but I acted like i'd...,0


### 텍스트를 소문자로 바꾸기

In [45]:
sms.message = sms.message.map(lambda x: x.lower())
sms.head()

Unnamed: 0,label,message,label_num
0,ham,"go until jurong point, crazy.. available only ...",0
1,ham,ok lar... joking wif u oni...,0
2,spam,free entry in 2 a wkly comp to win fa cup fina...,1
3,ham,u dun say so early hor... u c already then say...,0
4,ham,"nah i don't think he goes to usf, he lives aro...",0


### SMS 데이터에서 X와 y를 정의

In [46]:
X = sms.message
y = sms.label_num
X.shape, y.shape

((5572,), (5572,))

In [48]:
from sklearn.model_selection import train_test_split

In [50]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((4179,), (1393,), (4179,), (1393,))

### 데이터셋을 벡터화하기

In [51]:
vect = CountVectorizer()

In [52]:
vect.fit(X_train)

CountVectorizer()

In [53]:
X_train_dtm = vect.transform(X_train)

다음과 같이 한 줄로 해도 동일하다.

In [60]:
X_train_dtm = vect.fit_transform(X_train)
X_train_dtm

<4179x7456 sparse matrix of type '<class 'numpy.int64'>'
	with 55209 stored elements in Compressed Sparse Row format>

In [61]:
X_test_dtm = vect.transform(X_test)
X_test_dtm

<1393x7456 sparse matrix of type '<class 'numpy.int64'>'
	with 17604 stored elements in Compressed Sparse Row format>

### 모델을 만들고 평가하기

In [62]:
from sklearn.linear_model import LogisticRegression

In [63]:
logreg = LogisticRegression()

In [64]:
%time logreg.fit(X_train_dtm, y_train)

Wall time: 105 ms


LogisticRegression()

### X_test_dtm에 대해 클래스 예측

In [67]:
y_pred_class = logreg.predict(X_test_dtm)
y_pred_class

array([0, 0, 0, ..., 0, 1, 0], dtype=int64)

### X_test_dtm에 대한 확률 예측

In [69]:
y_pred_prob = logreg.predict_proba(X_test_dtm)[:, 1]
y_pred_prob

array([0.00959377, 0.00295662, 0.00452424, ..., 0.031302  , 0.99748962,
       0.00119521])

### 클래스 예측 정확도 구하기

In [72]:
from sklearn.metrics import accuracy_score, roc_auc_score

In [73]:
accuracy_score(y_test, y_pred_class)

0.9877961234745154

### AUC 구하기

In [74]:
roc_auc_score(y_test, y_pred_prob)

0.9936280651512441