# 나이브 베이지안 분류
- 적용 분야: 스팸 메일 분류, 문서(주제) 분류, 컴퓨터 네트워크 침입자 분류

- 장점
    - 비교적 간단한 알고리즘에 속하며 속도 또한 빠릅니다.
    - 작은 훈련셋으로도 잘 예측합니다.
- 단점
    - 모든 독립변수가 각각 독립적임을 전제로 하는데 이는 장점이 되기도 하고 단점이 되기도 합니다. 실제로 독립변수들이 모두 독립적이라면 다른 알고리즘보다 우수할 수 있지만, 실제 데이터에서 그런 경우가 많지 않기 때문에 단점이기도 합니다.
- 유용한 곳
    - 각 독립변수들이 모두 독립적이고 그 중요도가 비슷할 때 유용합니다.
    - 자연어 처리(NLP)에서 간단하지만 좋은 성능을 보여줍니다.
    - 범주 형태의 변수가 많을 때 적합하며, 숫자형 변수가 많은 때는 적합하지 않습니다.

In [1]:
import pandas as pd

products = pd.read_csv('./dataset/product_concat_v2.csv')
print(products.shape)
print(products.info())

(751315, 11)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 751315 entries, 0 to 751314
Data columns (total 11 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   MEMBER_ID     751315 non-null  object
 1   CATALOG_NM    751315 non-null  object
 2   CATEGORYM_ID  751315 non-null  int64 
 3   KEYWORD       751315 non-null  object
 4   DISPLAY       751315 non-null  int64 
 5   CATALOG_DESC  751315 non-null  object
 6   INPUT_DT      751315 non-null  int64 
 7   UPDATE_DT     751315 non-null  int64 
 8   REMOTEIP      751315 non-null  int64 
 9   SHOW_CHK      751315 non-null  int64 
 10  judge         751315 non-null  int64 
dtypes: int64(7), object(4)
memory usage: 63.1+ MB
None


In [2]:
from nltk.stem import WordNetLemmatizer
import nltk
import string

# 문장에 포함된 구두점을 삭제하기 위한 맵핑 정보 생성
# ord() : 매개변수로 전달된 문자에 해당하는 유니코드를 반환
# 구두점이 발견되면 : None값으로 대채 -> 즉, 지운다는 뜻

remove_punct_dict = {ord(punct):None for punct in string.punctuation }

lemmar = WordNetLemmatizer()

# 문장 입력받음 -> stopwords를 제거 -> 소문자로 변환 -> 단어로 토큰->어근 변환
def LenNormalize(text):
    tokens = nltk.word_tokenize(text.lower().translate(remove_punct_dict))
    return [lemmar.lemmatize(token) for token in tokens]

In [3]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import warnings
warnings.filterwarnings('ignore')

tfidf_vect = TfidfVectorizer(tokenizer=LenNormalize, stop_words='english', ngram_range = (1,1))
catalog_desc_vect = tfidf_vect.fit_transform(products['CATALOG_DESC'])

In [4]:
from sklearn.naive_bayes import MultinomialNB, CategoricalNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix

# x = tfidf_vect.vocabulary_
x = catalog_desc_vect
y = products['judge']

x_train, x_test, y_train, y_test = train_test_split(x,y,test_size= 0.3,random_state= 0, stratify= y)

In [7]:
from sklearn.preprocessing import normalize
from scipy.sparse import hstack

normalized_vect = normalize(x_train)

In [17]:
x_train = x_train.astype('float32')

In [18]:
x_train.toarray()[0]

MemoryError: Unable to allocate 26.6 TiB for an array with shape (525920, 13887408) and data type float32

In [14]:
model = CategoricalNB()
model.fit(x_train.toarray(), y_train)

MemoryError: Unable to allocate 53.1 TiB for an array with shape (525920, 13887408) and data type float64

In [None]:
y_hat = model.predict(x_test)
con_mat = confusion_matrix(y_test,y_hat)
print(con_mat)