## TF-IDF 기반 스팸분석
* 사용 모델: 싸이키런(sklearn) - LogisticRegression
* Feature: 형태소에서 추출된 단어별 빈도
* 분석 목표(예측 값): 스팸 메일 판별
* 데이터 출처: https://https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection

In [1]:
import pickle
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

### SMSSpamCollection 을 먼저 살펴 본다.

In [2]:
spam_header = 'spam\t'
no_spam_header = 'ham\t'
documents = []
labels = []

In [3]:
with open('SMSSpamCollection','r',encoding='UTF8') as file_handle:
    for line in file_handle:
        # 각 줄에서 레이블 부분만 떼어내고 나머지를 documents에 넣는다.
        if line.startswith(spam_header):
            labels.append(1)
            documents.append(line[len(spam_header):])
        elif line.startswith(no_spam_header):
            labels.append(0)
            documents.append(line[len(no_spam_header):])

In [12]:
documents[:5]

['Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...\n',
 'Ok lar... Joking wif u oni...\n',
 "Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's\n",
 'U dun say so early hor... U c already then say...\n',
 "Nah I don't think he goes to usf, he lives around here though\n"]

In [14]:
labels[:5]

[0, 0, 1, 0, 0]

## TF-IDF
* Term Frequency x Inverse Document Frequency
* 문서는 단어로 주어져 있으며 각단어가 문서상의 어떠한 연관성이 있는지 수치로 표현

### TF
* 가설: 중요한 단어는 문서상에 많이 출현한다.
* 단어가 문서상에 얼마나 출현했는지 수치로 표현: (문서상에 발견된 단어)/(전체 문서상의 단어)

"a new car, used car, car review"
![image-2.png](attachment:image-2.png)

### TF 스코어의 한계

"a friend in need is a friend indeed"
![image.png](attachment:image.png)

### 위 문서에서 가장 중요한 단어는?

* 가장 중요한 단어: friend
* 그렇지만 a도 TF 스코어가 높게 나온다.

## IDF (Inverse Document Frequency)
* 공식 Log(Total # of Docs / # of Docs with the term in it) 
 - Log(총문장의 갯수/해당 단어가 문장에 출현한 갯수)
* 해석: 자주 등장하는 단어에 패널티를 부과(a, is, of, that 등), 조사

A: "a new car, used car, car review"  
B: "a friend in need is a friend indeed"
![image-3.png](attachment:image-3.png)

![image.png](attachment:image.png)

In [4]:
vectorizer = CountVectorizer()  # 단어 횟수 피처를 만드는 클래스
term_counts = vectorizer.fit_transform(documents)  # 문서에서 단어 횟수를 센다.

In [5]:
vocabulary = vectorizer.get_feature_names_out()
vocabulary

array(['00', '000', '000pes', ..., 'èn', 'ú1', '〨ud'], dtype=object)

In [6]:
vocabulary[1000:1100]

array(['ahhhh', 'ahmad', 'ahold', 'aid', 'aids', 'aig', 'aight', 'ain',
       'aint', 'air', 'air1', 'airport', 'airtel', 'aiya', 'aiyah',
       'aiyar', 'aiyo', 'ajith', 'ak', 'aka', 'akon', 'al', 'alaikkum',
       'alaipayuthe', 'albi', 'album', 'alcohol', 'aldrine', 'alert',
       'alertfrom', 'alerts', 'aletter', 'alex', 'alfie', 'algarve',
       'algebra', 'algorithms', 'ali', 'alian', 'alibi', 'alive', 'all',
       'allah', 'allalo', 'allday', 'alle', 'allo', 'allow', 'allowed',
       'allows', 'almost', 'alone', 'along', 'alot', 'already', 'alright',
       'alrite', 'also', 'alter', 'alternative', 'although', 'alto18',
       'aluable', 'alwa', 'always', 'alwys', 'am', 'amanda', 'amazing',
       'ambitious', 'ambrith', 'american', 'ami', 'amigos', 'amk', 'amla',
       'amma', 'ammae', 'ammo', 'amnow', 'among', 'amongst', 'amore',
       'amount', 'amp', 'amplikater', 'amrca', 'amrita', 'ams', 'amt',
       'amused', 'amy', 'an', 'ana', 'anal', 'analysis', 'anand', 'and

In [16]:
# unique한 단어
len(vocabulary)

8713

In [7]:
# tf_transformer = TfidfTransformer(use_idf=False).fit(term_counts)
tf_transformer = TfidfTransformer().fit(term_counts)
features = tf_transformer.transform(term_counts)

In [8]:
# 처리된 파일을 저장합니다. 앞으로의 예제에서 사용될 예정입니다.
# pickle 파이썬의 바이너리 데이터를 저장하는 용도로 사용
with open('processed.pickle', 'wb') as file_handle:
    pickle.dump((vocabulary, features, labels), file_handle)

In [10]:
# !dir *.pickle