# Case_study

## 비슷한 뉴스 모으기
- 컴퓨터는 문자를 그대로 이해하지 못한다.
- 문자를 숫자 형태로 바꿔야 한다.
- 숫자로 유사하다는 가까운 정도로 판단한다.
- 문자 -> 숫자 -> 벡터 로 바꿔 거리를 측정  

### 문자를 Vector로 One-hot Encoding
- 하나의 단어를 Vector의 Index로 인식, 단어 존재시 1 없으면 0  

### Bag of words
- 단어별로 인덱스를 부여해서, 한 문장(또는 문서)의 단어의 개수를 Vector로 표현  

### Euclidian distance
- 유사도 측정시 피타고라스의 정리, 두 점사이의 거리 구함  

### Cosine distance
- 유사도 측정 시 두점  사이의 각도를 이용함.(더 많이 사용)


### Process
- 파일을 불러오기
- 파일을 읽어서 단어사전(corpus)만들기
- 단어별로 Index 만들기
- 만들어진 인덱스로 문서별로 Bag of words vector 생성
- 비교하고자 하는 문서 비교하기
- 얼마나 맞는지 측정하기

### 파일 불러오기

In [1]:
import os

# 파일 불러오기
def get_file_list(dir_name):
    return os.listdir(dir_name)

### 파일별로 내용 읽기

In [2]:
def get_contents(file_list):
    y_class = [] # 80개의 텍스트 중 축구인지 야구인지  0과 1로 표현
    x_text = []
    
    #0은 야구 1은 축구
    class_dict = { 
        1 : "0", 2:"0", 3 : "0",  4:"0", 5 : "1", 6:"1", 7 : "1",  8:"1"}
    
    for file_name in file_list:
        try:
            f = open(file_name, "r", encoding = "cp949") # 윈도우 파일 encoding
            category = int(file_name.split(os.sep)[1].split("_")[0])
            y_class.append(class_dict[category])
            x_text.append(f.read())
            f.close()
        except UnicodeDecodeError as e:
            print(e)
            print(file_name)
    return x_text, y_class


### Corpus 만들기 + 단어별 index 생성

In [3]:
def get_cleaned_text(text): # 의미없는 문장 보호 제거
    import re
    text = re.sub('\W','',text.lower())
    return text

def get_corpus_dict(text):
    text = [sentence.split() for sentence in text]
    cleaned_words = [get_cleaned_text(word) for words in text for word in words]
    
    from collections import OrderedDict
    corpus_dict = OrderedDict()
    for i, v in enumerate(set(cleaned_words)):
        corpus_dict[v] = i
    return corpus_dict


### 문서별로 Bag of words vector 생성

In [4]:
def get_count_vector(text, corpus):
    text = [sentence.split() for sentence in text]
    word_number_list = [[corpus[get_cleaned_text(word)] for word in words] for words in text]
    x_vector = [[0 for _ in range(len(corpus))] for x in range(len(text))] 
    # 80x4024를 0으로 채운 matrix 생성
    
    for i, text in enumerate(word_number_list):
        for word_number in text:
            x_vector[i][word_number] += 1
    return x_vector


### 비교하기

In [5]:
import math

def get_cosine_similarity(v1,v2):
    "compute cosine similarity of v1 to v2: (v1 dot v2)/{||v1||*||v2||)"
    # 얼마나 유사한지를 cosine 각도를 통해 측정해주는 함수
    sumxx, sumxy, sumyy = 0, 0, 0
    for i in range(len(v1)):
        x = v1[i]; y = v2[i]
        sumxx += x*x
        sumyy += y*y
        sumxy += x*y
    return sumxy/math.sqrt(sumxx*sumyy)

### 비교결과 정리하기

In [6]:
def get_similarity_score(x_vector, source):
    source_vector = x_vector[source]
    similarity_list = []
    for target_vector in x_vector:
        similarity_list.append(
            get_cosine_similarity(source_vector, target_vector))
    return similarity_list # 얼마나 같은지 list에 저장후 return

# sorted 를 사용해여 value값이 가장 큰  index를 반환
def get_top_n_similarity_news(similarity_score, n):
    import operator
    x = {i:v for i, v in enumerate(similarity_score)}
    sorted_x = sorted(x.items(), key=operator.itemgetter(1))

    return list(reversed(sorted_x))[1:n+1]

In [7]:
def get_accuracy(similarity_list, y_class, source_news):
    source_class = y_class[source_news]

    return sum([source_class == y_class[i[0]] for i in similarity_list]) / len(similarity_list)

if __name__ == "__main__":
    dir_name = "news_data"
    file_list = get_file_list(dir_name)
    file_list = [os.path.join(dir_name, file_name) for file_name in file_list]

    x_text, y_class = get_contents(file_list)

    corpus = get_corpus_dict(x_text)
    print("Number of words : {0}".format(len(corpus)))
    x_vector = get_count_vector(x_text, corpus)
    source_number = 10

    result = []

    for i in range(80):
        source_number = i

        similarity_score = get_similarity_score(x_vector, source_number)
        similarity_news = get_top_n_similarity_news(similarity_score, 10)
        accuracy_score = get_accuracy(similarity_news, y_class, source_number)
        result.append(accuracy_score)    
    print(sum(result) / 80)

Number of words : 4024
0.6950000000000001
