# 나이브 베이즈 모델을 통한 예측 모델 구축

- 각 변수가 독립적이라는 가정(속도가 빠르다)
- n(관측치 갯수) < p(컬럼의 갯수),유용하게 쓰임
- 딥러닝을 제외하면,텍스트 데이터에 가장 적합
  (스팸 메일 필터링,감정 분석)

In [1]:
import pandas as pd
import numpy as np

In [2]:
data = pd.read_csv('yelp.csv',index_col=0)

In [3]:
data.head()

Unnamed: 0,review_id,user_id,business_id,stars,date,text,useful,funny,cool
2967245,aMleVK0lQcOSNCs56_gSbg,miHaLnLanDKfZqZHet0uWw,Xp_cWXY5rxDLkX-wqUg-iQ,5,2015-09-30,LOVE the cheeses here. They are worth the pri...,0,0,1
4773684,Hs1f--t9JnVKW9A1U2uhKA,r_RUQSGZcd5bSgmTcS5IfQ,NuGZD3yBVqzpY1HuzT26mQ,5,2015-06-04,This has become our go-to sushi place. The sus...,0,0,0
1139855,i7aiPgNrNaFoM8J_j2OSyQ,zz7lojg6QdZbKFCJiHsj7w,ii8sAGBexBOJoYRFafF9XQ,1,2016-07-03,I was very disappointed with the hotel. The re...,2,1,1
3997153,uft6iMwNQh4I2UDpmbXggA,p_oXN3L9oi8nmmJigf8c9Q,r0j4IpUbcdC1-HfoMYae4w,5,2016-10-15,Love this place - super amazing - staff here i...,0,0,0
4262000,y9QmJ16mrfBZS6Td6Yqo0g,jovtGPaHAqP6XfG9BFwY7A,j6UwIfXrSkGTdVkRu7K6WA,5,2017-03-14,Thank you Dana!!!! Having dyed my hair black p...,0,0,0


In [4]:
X = data['text']
y = data['stars']

- CountVectorizer
   단어들의 카운트(출현 빈도(frequency))로 여러 문서들을 벡터화
   카운트 행렬, 단어 문서 행렬 (Term-Document Matrix, TDM))
   모두 소문자로 변환시키기 때문에 me 와 Me 는 모두 같은 특성이 된다.

In [5]:
from sklearn.feature_extraction.text import CountVectorizer 

In [6]:
cv = CountVectorizer()

In [7]:
cv.fit(X)

CountVectorizer()

In [8]:
X = cv.transform(X)

In [10]:
cv.get_feature_names()[1580]

'and'

In [11]:
from sklearn.model_selection import train_test_split

In [13]:
X_train,X_test, y_train,y_test = train_test_split(X,y,test_size=0.2,random_state = 100)

- Naive Bayes Classifier
  
  Bayes theorem 에서 유도됨
  
  베이즈 정리란?
  
  사후 확률 = 가능성 * 사전 확률 / 개체가 발생할 확률

In [14]:
from sklearn.naive_bayes import MultinomialNB

In [16]:
model = MultinomialNB()

In [17]:
model.fit(X_train, y_train)

MultinomialNB()

In [18]:
pred = model.predict(X_test)

In [19]:
pred

array([5, 5, 5, ..., 1, 5, 1], dtype=int64)

In [20]:
y_test

1373705    5
3128713    5
212088     1
1622136    5
2380124    5
          ..
3548316    5
38943      5
2423674    1
1564863    5
3629333    1
Name: stars, Length: 2000, dtype: int64

In [21]:
from sklearn.metrics import accuracy_score,confusion_matrix,classification_report

In [22]:
accuracy_score(y_test, pred)

0.9265

In [23]:
confusion_matrix(y_test,pred)

array([[ 421,   65],
       [  82, 1432]], dtype=int64)

In [24]:
print(classification_report(y_test,pred))

              precision    recall  f1-score   support

           1       0.84      0.87      0.85       486
           5       0.96      0.95      0.95      1514

    accuracy                           0.93      2000
   macro avg       0.90      0.91      0.90      2000
weighted avg       0.93      0.93      0.93      2000



- 랜덤 포레스트는 결정트리를 기반하여 만들어졌다 
  RandomForest는 Bagging 기법에 학습 모델의 분산을 줄이기 위해서, 변수까지 특정 개수로 무작위 추출을 하는 방법으로 학습을 진행한다. RandomForest는 Tree기반의 앙상블 기법으로 sklearn을 통해 간단하게 구현이 가능하다. 그럼에도 불구하고, 보통 좋은 성능을 갖는다고 알려져있다. 
  

In [35]:
from sklearn.ensemble import RandomForestClassifier

In [36]:
rf = RandomForestClassifier(max_depth=10, n_estimators=1000) #n_estimators 트리 갯수 

In [37]:
rf.fit(X_train,y_train)

RandomForestClassifier(max_depth=10, n_estimators=1000)

In [38]:
pred2 = rf.predict(X_test)

In [39]:
accuracy_score(y_test, pred2)

0.7855

In [40]:
confusion_matrix(y_test,pred2)

array([[  60,  426],
       [   3, 1511]], dtype=int64)

In [41]:
print(classification_report(y_test, pred2))

              precision    recall  f1-score   support

           1       0.95      0.12      0.22       486
           5       0.78      1.00      0.88      1514

    accuracy                           0.79      2000
   macro avg       0.87      0.56      0.55      2000
weighted avg       0.82      0.79      0.72      2000

