# Chapter2 Pythonic code

## Pythonic Code Overview

- 파이썬 스타일의 코딩 기법
- 파이썬 특유의 문법을 활용하여 효율적으로 코드를 표현함
- 고급 코드를 작성할 수록 더 많이 필요해짐

### 예시: 여러 단어들을 하나로 붙일 때

In [1]:
# 일반 코드

colors = ["a", "b", "c", "d", "e"]
result = ""

for s in colors:
    result += s

print(result)

abcde


In [2]:
# pythonic code

colors = ["red", "blue", "green", "yellow"]
result = "".join(colors)

print(result)

redbluegreenyellow


---------------------

## Split & Join

### Split 함수
- String Type의 값을 나눠서 List 형태로 변환

In [4]:
#빈칸을 기준으로 문자열 나누기

items = 'zero one two three'.split()

print(items)

['zero', 'one', 'two', 'three']


In [5]:
#"," 을 기준으로 문자열 나누기

example = 'python,jquery,javascript'

print(example.split(","))

['python', 'jquery', 'javascript']


In [7]:
#리스트의 각 값을 a, b, c, 변수로 unpacking

example = 'python,jquery,javascript'

a, b, c = example.split(",")

In [9]:
#"."을 기준으로 문자열 나누고 unpacking

example = 'cs50.gachon.edu'

subdomain, domain, tld = example.split(".")

### Join 함수
- String List를 합쳐 하나의 String으로 변환할 때 사용

In [10]:
colors = ['red', 'blue', 'grenn', 'yellow']

result = ''.join(colors)

print(result)

redbluegrennyellow


-----------------------------

## List Comprehension
- 기존 List 사용하여 간단히 다른 List를 만드는 기법
- 포괄적인 List, 포함되는 리스트라는 의미로 사용됨
- 파이썬에서 가장 많이 사용되는 기법 중하나

In [12]:
#for loop + append 사용하기

result = []

for i in range(10):
    result.append(i)

print(result)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [14]:
#list Comprehension 사용하기

result = [i for i in range(10)]
print(result)

result = [i for i in range(10) if i % 2 == 0]
print(result)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 2, 4, 6, 8]


In [17]:
#Nested For loop

word_1 = "Hello"
word_2 = "World"
result = [i+j for i in word_1 for j in word_2]

print(result)

['HW', 'Ho', 'Hr', 'Hl', 'Hd', 'eW', 'eo', 'er', 'el', 'ed', 'lW', 'lo', 'lr', 'll', 'ld', 'lW', 'lo', 'lr', 'll', 'ld', 'oW', 'oo', 'or', 'ol', 'od']


In [18]:
#Nested For loop + if 문

case_1 = ["A", "B", "C"]
case_2 = ["D", "E", "A"]

result = [i+j for i in case_1 for j in case_2]
print(result)

# if 문 추가
result = [i+j for i in case_1 for j in case_2 if not(i==j)]
result.sort()

print(result)

['AD', 'AE', 'AA', 'BD', 'BE', 'BA', 'CD', 'CE', 'CA']
['AD', 'AE', 'BA', 'BD', 'BE', 'CA', 'CD', 'CE']


In [19]:
#split + list Comprehension

words = 'The quick brown fox jumps over the lazy dog'.split()
print(words)

stuff = [[w.upper(), w.lower(), len(w)] for w in words]

for i in stuff:
    print(i)

['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog']
['THE', 'the', 3]
['QUICK', 'quick', 5]
['BROWN', 'brown', 5]
['FOX', 'fox', 3]
['JUMPS', 'jumps', 5]
['OVER', 'over', 4]
['THE', 'the', 3]
['LAZY', 'lazy', 4]
['DOG', 'dog', 3]


--------------------------------------

## Enumerate & Zip

### Enumerate
- List의 element를 추출할 때 번호를 붙여서 추출

In [22]:
#list에 있는 index와 값을 unpacking

for i, v in enumerate(['tic', 'tac', 'toc']):
    print(i, v)

0 tic
1 tac
2 toc


In [26]:
#list에 있는 index와 값을 unpacking하여 list로 저장

mylist = ["a", "b", "c", "d"]

list(enumerate(mylist))

[(0, 'a'), (1, 'b'), (2, 'c'), (3, 'd')]

In [27]:
#문장을 list로 만들고 list의 index와 값을 unpacking하여 dict로 저장

{i:j for i,j in enumerate('Gachon University as an academic institute located in South Korea.'.split())}

{0: 'Gachon',
 1: 'University',
 2: 'as',
 3: 'an',
 4: 'academic',
 5: 'institute',
 6: 'located',
 7: 'in',
 8: 'South',
 9: 'Korea.'}

### Zip
- 두 개의 list의 값을 병렬적으로 추출함

In [20]:
#for loop + zip

alist = ['a1', 'a2', 'a3']
blist = ['b1', 'b2', 'b3']

for a, b in zip(alist, blist):
    print(a, b)

a1 b1
a2 b2
a3 b3


In [28]:
#list comprehension + zip

a, b, c = zip((1, 2, 3), (10, 20, 30), (100, 200, 300))
print(a, b, c)

print([sum(x) for x in zip((1, 2, 3), (10, 20, 30), (100, 200, 300))])

(1, 10, 100) (2, 20, 200) (3, 30, 300)
[111, 222, 333]


In [29]:
#enumerate + zip

alist = ['a1', 'a2', 'a3']
blist = ['b1', 'b2', 'b3']

for i, (a, b) in enumerate(zip(alist, blist)):
    print(i, a, b)

0 a1 b1
1 a2 b2
2 a3 b3


----------------------------------------------

## Lambda & MapReduce

### Lambda
- 함수 이름 없이, 함수처럼 쓸 수 있는 익명함수
- 수학의 람다 대수에서 유래함

In [32]:
def f(x, y):
    return x + y

print(f(1, 4))

f = lambda x, y: x + y
print(f(1, 4))

f = lambda x: x ** 2
print(f(3))

f = lambda x: x / 2
print(f(3))

print((lambda x: x + 1)(5))

5
5
9
1.5
6


### Map function
- Sequence 자료형의 각 element에 동일한 function을 적용함

In [33]:
ex = [1, 2, 3, 4, 5]
f = lambda x: x ** 2
print(list(map(f, ex)))
#[value ** 2 for value in ex]


ex = [1, 2, 3, 4, 5]
f = lambda x, y: x + y
print(list(map(f, ex, ex)))

list(map(
    lambda x: x ** 2 if x % 2 == 0 else x, 
    ex))

[1, 4, 9, 16, 25]
[2, 4, 6, 8, 10]


[1, 4, 3, 16, 5]

In [35]:
ex = [1,2,3,4,5]

print(list(map(lambda x: x+x, ex)))

print((map(lambda x: x+x, ex)))

f = lambda x: x ** 2
print(map(f, ex))

for i in map(f, ex):
    print(i)

[2, 4, 6, 8, 10]
<map object at 0x000001FE6F42F978>
<map object at 0x000001FE6F42F978>
1
4
9
16
25


### Reduce function
- map function과 달리 list에 똑같은 함수를 적용해서 통합

In [34]:
from functools import reduce
print(reduce(lambda x, y: x+y, [1, 2, 3, 4, 5]))

def factorial(n):
    return reduce(
            lambda x, y: x*y, range(1, n+1))

factorial(5)

15


120

-------------------------------------

## Asterisk
- 흔히 알고 있는 * 를 의미함
- 단순 곱셈, 제곱연산, 가변 인자 활용 등 다양하게 사용됨

In [36]:
# *args

def asterisk_test(a, *args):
    print(a, args)
    print(type(args))

asterisk_test(1,2,3,4,5,6)

1 (2, 3, 4, 5, 6)
<class 'tuple'>


In [44]:
# **kargs(키워드 인자)

def asterisk_test(a, **kargs):
    print(a, kargs)
    print(type(kargs))

asterisk_test(1, b=2, c=3, d=4, e=5, f=6)

1 {'e': 5, 'c': 3, 'd': 4, 'f': 6, 'b': 2}
<class 'dict'>


### Asterisk - unpacking a container
- tuple, dict 등 자료형에 들어가 있는 값을 unpacking
- 함수의 입력값, zip 등에 유용하게 사용가능

In [45]:
def asterisk_test(a, *args):
    print(a, args[0])
    print(a, args)
    print(type(args))

asterisk_test(1, (2, 3, 4, 5, 6))

1 (2, 3, 4, 5, 6)
1 ((2, 3, 4, 5, 6),)
<class 'tuple'>


In [46]:
def asterisk_test(a, args):
    print(a, args)
    print(a, *args)
    print(type(args))

asterisk_test(1, (2,3,4,5,6))

1 (2, 3, 4, 5, 6)
1 2 3 4 5 6
<class 'tuple'>


In [47]:
a, b, c = ([1, 2], [3, 4], [5, 6])
print(a, b, c)

data = ([1, 2], [3, 4], [5, 6])
print(*data)
print(data)

[1, 2] [3, 4] [5, 6]
[1, 2] [3, 4] [5, 6]
([1, 2], [3, 4], [5, 6])


In [51]:
def asterisk_test(a, b, c, d):
    print(a, b, c, d)
    
data = {"b":1, "c":2, "d":3}
asterisk_test(10, **data)

10 1 2 3


In [53]:
for data in zip(*([1, 2], [3, 4], [5, 6])):
    print(data)

(1, 3, 5)
(2, 4, 6)


In [54]:
def asterisk_test(a, b, c, d, e=0):
    print(a, b, c, d, e)

data = {"d":1 , "c":2, "b":3, "e":56}
asterisk_test(10, **data)

10 3 2 1 56


---------------------------------------------

## Data Structure - Collections

### Collections
- List, Tuple, Dict에 대한 Python Built-in 확장 자료 구조(모듈)
- 편의성, 실행 효율 등을 사용자에게 제공함
- 아래의 모듈들이 존재함

In [1]:
from collections import deque
from collections import Counter
from collections import OrderedDict
from collections import defaultdict
from collections import namedtuple

### deque
- Stack과 Queue를 지원하는 모듈
- List에 비해 효율적인 자료 저장 방식을 지원함

In [2]:
deque_list = deque()

for i in range(5):
    deque_list.append(i)
print(deque_list)

deque_list.appendleft(10)
print(deque_list)

deque([0, 1, 2, 3, 4])
deque([10, 0, 1, 2, 3, 4])


- rotate, reverse 등 Linked List의 특성을 지원함
- 기존 list 형태의 함수를 모두 지원함

In [3]:
deque_list.rotate(2)
print(deque_list)

deque_list.rotate(2)
print(deque_list)

print(deque_list)

print(deque(reversed(deque_list)))

deque_list.extend([5, 6, 7])
print(deque_list)

deque_list.extendleft([5, 6, 7])
print(deque_list)

deque([3, 4, 10, 0, 1, 2])
deque([1, 2, 3, 4, 10, 0])
deque([1, 2, 3, 4, 10, 0])
deque([0, 10, 4, 3, 2, 1])
deque([1, 2, 3, 4, 10, 0, 5, 6, 7])
deque([7, 6, 5, 1, 2, 3, 4, 10, 0, 5, 6, 7])


- deque는 기존 list보다 효율적인 자료구조를 제공
- 효율적 메모리 구조로 처리 속도 향상

### OrderedDict
- Dict와 달리, 데이터를 입력한 순서대로 dict를 반환함

In [5]:
d = {}
d['x'] = 100
d['y'] = 200
d['z'] = 300
d['l'] = 500

for k, v in d.items():
    print(k, v)
    
print("\n")

d = OrderedDict()
d['x'] = 100
d['y'] = 200
d['z'] = 300
d['l'] = 500

for k, v in d.items():
    print(k, v)

x 100
z 300
l 500
y 200


x 100
y 200
z 300
l 500


- Dict type의 값을 value 또는 key 값으로 정렬할 때 사용가능

In [7]:
for k, v in OrderedDict(sorted(d.items(), key=lambda t: t[0])).items():
    print(k, v)
print("\n")    

for k, v in OrderedDict(sorted(d.items(),
                        reverse=True, key=lambda t: t[1])).items():
    print(k, v)

l 500
x 100
y 200
z 300


l 500
z 300
y 200
x 100


### defaultdict
- Dict type의 값에 기본 값을 지정, 신규값 생성시 사용하는 방법

In [8]:
d = dict()
print(d["first"])

KeyError: 'first'

In [10]:
d = defaultdict(object)     # Default dictionary를 생성
d = defaultdict(lambda: 0)  # Default 값을 0으로 설정합
print(d["first"])

0


In [13]:
text = """A press release is the quickest and easiest way to get free publicity. 
If well written, a press release can result in multiple published articles about your firm and its products. 
And that can mean new prospects contacting you asking you to sell to them. Talk about low-hanging fruit!
What's more, press releases are cost effective. If the release results in an article that (for instance) 
appears to recommend your firm or your product, that article is more likely to drive prospects to contact you
than a comparable paid advertisement.""".lower().split()

'''
word_count = {}
for word in text:
    if word in word_count.keys():
        word_count[word] += 1
    else:
        word_count[word] = 0
print(word_count)
'''

word_count = defaultdict(object)     # Default dictionary를 생성
word_count = defaultdict(lambda: 0)  # Default 값을 0으로 설정합

for word in text:
    word_count[word] += 1
    
for i, v in OrderedDict(sorted(
        word_count.items(), key=lambda t: t[1], reverse=True)).items():
    print(i, v)

to 6
press 3
release 3
and 3
you 3
your 3
a 3
that 3
firm 2
if 2
can 2
the 2
about 2
in 2
is 2
article 2
prospects 2
instance) 1
drive 1
paid 1
more 1
sell 1
talk 1
publicity. 1
than 1
are 1
quickest 1
what's 1
asking 1
result 1
fruit! 1
an 1
its 1
products. 1
releases 1
free 1
published 1
or 1
results 1
well 1
contacting 1
contact 1
them. 1
more, 1
recommend 1
effective. 1
advertisement. 1
easiest 1
appears 1
product, 1
get 1
articles 1
comparable 1
likely 1
multiple 1
mean 1
written, 1
cost 1
(for 1
new 1
way 1
low-hanging 1


### Counter
- Sequence type의 data element들의 개수를 dict 형태로 반환
- Dict type, keyword parameter 등도 모두 처리 가능

In [14]:
c = Counter()                           # a new, empty counter
c = Counter('gallahad')                 # a new counter from an iterable
print(c)

Counter({'a': 3, 'l': 2, 'd': 1, 'g': 1, 'h': 1})


### namedtuple
- tuple 형태로 Data 구조체를 저장하는 방법
- 저장되는 data의 variable을 사전에 지정해서 저장함

In [16]:
# Basic example
Point = namedtuple('Point', ['x', 'y'])
p = Point(11, y=22)
print(p[0] + p[1])

x, y = p
print(x, y)
print(p.x + p.y)
print(Point(x=11, y=22))

33
11 22
33
Point(x=11, y=22)


---------------------------------

## Linear algebra codes

### Vector representation of python
- Vector를 파이썬으로 표시하는 다양한 방법 존재

In [19]:
vector_a = [1, 2, 10] #List로 표현
vector_b = (1, 2, 10) #Tuplt로 표현
vector_c = {'x':1, 'y':1, 'z':10} #dict로 표현

- 최선의 방법은 없음
- 값의 변경 유무, 속성값 유무에 따라 선택할 수 있음
- 본 수업에서는 기본적으로 list로 vector 연산 실시

In [20]:
#zip을 사용하여 vector 계산하기

u = [2, 2]
v = [2, 3]
z = [3, 5]

result = [sum(t) for t in zip(u, v, z)]
print(result)

#[2, 2] + [2, 3] + [3, 5] = [7, 10]

[7, 10]


### Vector의 계산

In [22]:
#Scalar-Vector product

u = [1, 2, 3]
v = [4, 5, 6]
alpha = 2

result = [alpha*sum(z) for z in zip(u, v)]
print(result)

#2([1, 2, 3], + [4, 5, 6]) = 2[5, 7, 9] = [10, 14, 18]

[10, 14, 18]


### Matrix representation of python
- Matrix 역시 Python으로 표시하는 다양한 방법이 존재
- 특히 dict로 표현할 때는 무궁무진한 방법이 있음
- 본 수업에서는 기본적으로 two-dimensional list 형태로 표현함
- [[1번쨰 row], [2번째 row], [3번째 row]]

In [24]:
#Matrix addition

matrix_a  = [[3, 6], [4, 5]]
matrix_b  = [[5, 8], [3, 7]]

result = [[sum(row) for row in zip(*t)] #[3+5, 6+8]
                               #*([3, 6], [5, 8]) = [3, 6] [5, 8]
          for t in zip(matrix_a, matrix_b)] #([3, 6], [5, 8]) ([4, 5], [3, 7])

print(result)

[[8, 14], [7, 12]]


### Matrix의 계산

In [25]:
#Scalar-Matrix Product

matrix_a = [[3, 6], [4, 5]]
alpha = 4
result = [[alpha * element for element in t] for t in matrix_a]

print(result)

[[12, 24], [16, 20]]


In [26]:
#Matrix Transpose

matrix_a = [[1, 2, 3], [4, 5, 6]]
result = [[element for element in t] for t in zip(*matrix_a)]

print(result)

[[1, 4], [2, 5], [3, 6]]


In [27]:
#Matrix Product

matrix_a = [[1, 1, 2], [2, 1, 1]]
matrix_b = [[1, 1], [2, 1], [1, 3]]
result = [[sum(a * b for a, b in zip(row_a, column_b))
          for column_b in zip(*matrix_b)] for row_a in matrix_a]
print(result)

[[5, 8], [5, 6]]


-------------------------------------------

## Case Study - News Categorization
- 비슷한 뉴스를 어떻게 선정할까?
- 컴퓨터는 문자를 그대로 이해하지 못함 : 문자 -> 숫자
- 숫자로 유사하다는 어떻게 표현할까? : 유사하다 = 가깝다

### 문자 -> 숫자 -> 벡터

#### 문자를 Vector로 - One-hot Encoding
- 하나의 단어를 Vector의 Index로 인식, 단어 존재시 1 없으면 0

#### Bag of words
- 단어별로 인덱스를 부여해서, 한 문장(또는 문서)의 단어의 개수를 Vector로 표현

### 그렇다면 유사성은?

#### Distance measure
- Cosine Similarity
- Eucliedean Distance
- Manhattan Distance

#### Cosine Similarity
- 두 점 사이의 각도
- Why cosine similarity? Count < Direction
- Love, hate : (5,0), (5,4), (4,0) - 어느 점이 가장 가까운가

#### Euclidian Distance
- 피타고라스 정리, 두 점 사이의 직선의 거리

### Data set
- 축구와 야구 선수들의 영문 기사를 분류해보자

### Process
- 파일을 불러오기
- 파일을 읽어서 단어사전(corpus) 만들기
- 단어별로 Index 만들기
- 만들어진 인덱스로 문서별로 Bag of words vector 생성
- 비교하고자 하는 문서 비교하기
- 얼마나 맞는지 측정하기

#### 파일 불러오기

In [38]:
import os

def get_file_list(dir_name):
    return os.listdir(dir_name)

In [39]:
if __name__ == "__main__":
    dir_name = "news_data"
    file_list = get_file_list(dir_name)
    file_list = [os.path.join(dir_name, file_name) for file_name in file_list]
    
print(file_list)



In [30]:
get_file_list("news_data")

['1_Dae-Ho Lee walk-off homer gives Mariners 4-2 win over Rangers.txt',
 '1_Korean First Baseman Dae-Ho Lee Becomes Free Agent, Interested In MLB Deal.txt',
 '1_Lee Dae-ho Announces MLB Aspirations.txt',
 '1_Lee Dae-ho to Start Spring Training in Arizona.txt',
 '1_Lee Dae-ho wins MVP in Japan Series.txt',
 "1_Mariners' Lee Dae-ho belts a walk-off homer.txt",
 '1_Mariners’ Lee Dae-ho gets 1st two-hit game, double.txt',
 '1_MLB Team Interested In Dae-Ho Lee.txt',
 "1_Seattle Mariners' Newest Signing Dae-Ho Lee Could Become Fan Favorite.txt",
 '1_SoftBank Hawks Hope to Renew Contract with Lee Dae-ho.txt',
 '2_Dodgers left with questions after latest Hyun-Jin Ryu setback.txt',
 '2_Dodgers left-hander Hyun-Jin Ryu expects to be ready for start of season.txt',
 '2_Dodgers unsure when Hyun-Jin Ryu will throw another bullpen session.txt',
 '2_Dodgers will take it slowly with pitcher Hyun-Jin Ryu, whose health could be a key to their season.txt',
 '2_Hyun-Jin Ryu downplays long break between bu

In [32]:
len(file_list)

80

#### 파일별로 내용읽기

In [34]:
def get_conetents(file_list):
    y_class = []
    X_text = []
    class_dict = {
        1: "0", 2: "0", 3:"0", 4:"0", 5:"1", 6:"1", 7:"1", 8:"1"}

    for file_name in file_list:
        try:
            f = open(file_name, "r", encoding="cp949")
            category = int(file_name.split(os.sep)[1].split("_")[0])
            y_class.append(class_dict[category])
            X_text.append(f.read())
            f.close()
        except UnicodeDecodeError as e:
            print(e)
            print(file_name)
    return X_text, y_class

In [35]:
if __name__ == "__main__":
    dir_name = "news_data"
    file_list = get_file_list(dir_name)
    file_list = [os.path.join(dir_name, file_name) for file_name in file_list]

    X_text, y_class = get_conetents(file_list)

In [36]:
print(X_text)



In [37]:
print(y_class)

['0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1']


#### Corpus 만들기 + 단어별 index 생성하기

In [40]:
#의미없는 문장부호 등은 제거하기
def get_cleaned_text(text):
    import re
    text = re.sub('\W+','', text.lower() )
    return text

In [42]:
get_cleaned_text("I'm")

'im'

In [41]:
def get_corpus_dict(text):
    text = [sentence.split() for sentence in text]
    clenad_words = [get_cleaned_text(word) for words in text for word in words]

    from collections import OrderedDict
    corpus_dict = OrderedDict()
    for i, v in enumerate(set(clenad_words)):
        corpus_dict[v] = i
    return corpus_dict

In [45]:
if __name__ == "__main__":
    dir_name = "news_data"
    file_list = get_file_list(dir_name)
    file_list = [os.path.join(dir_name, file_name) for file_name in file_list]

    X_text, y_class = get_conetents(file_list)

    corpus = get_corpus_dict(X_text)
    print("Number of words : {0}".format(len(corpus)))
    
print(corpus)

Number of words : 4024


#### 문서별로 Bag of words vector 생성

In [47]:
def get_count_vector(text, corpus):
    text = [sentence.split() for sentence in text]
    
    word_number_list = [[corpus[get_cleaned_text(word)] for word in words] for words in text]
    
    X_vector = [[0 for _ in range(len(corpus))] for x in range(len(text))]

    for i, text in enumerate(word_number_list):
        for word_number in text:
            X_vector[i][word_number] += 1
    return X_vector

In [48]:
if __name__ == "__main__":
    dir_name = "news_data"
    file_list = get_file_list(dir_name)
    file_list = [os.path.join(dir_name, file_name) for file_name in file_list]

    X_text, y_class = get_conetents(file_list)

    corpus = get_corpus_dict(X_text)
    #print("Number of words : {0}".format(len(corpus)))
    X_vector = get_count_vector(X_text, corpus)

[[2462, 222, 1934, 127, 2530, 990, 2337, 127, 157, 2462, 222, 1934, 2369, 1623, 720, 489, 134, 2369, 3174, 3267, 2326, 456, 1925, 456, 367, 493, 2166, 10, 367, 2424, 4023, 60, 434, 3299, 31, 280, 1023, 1526, 686, 329, 3499, 1125, 2271, 1391, 2271, 1995, 752, 4012, 2193, 127, 1352, 3823, 127, 3019, 764, 3066, 511, 292, 2369, 259, 3744, 1791, 793, 736, 1586, 2147, 127, 1017, 1551, 2369, 1274, 654, 2923, 127, 3523, 956, 3224, 60, 3103, 1526, 654, 1082, 1791, 127, 1125, 2225, 2075, 1771, 127, 4006, 3833, 3867, 825, 222, 2369, 3668, 3823, 2369, 1730, 2683, 127, 3819, 2489, 1023, 3419, 2257, 3532, 480, 2683, 1633, 3103, 3102, 1069, 883, 3381, 3823, 127, 768, 1791, 2253, 3658, 1771, 3494, 127, 1017, 3102, 1098, 3323, 1148, 127, 1791, 2660, 222, 2369, 745, 938, 3323, 1995, 2369, 1791, 3153, 1481, 3823, 2064, 1586, 2872, 1119, 3823, 3472, 367, 1683, 1683, 356, 2462, 2057, 3583, 3898, 483, 3823, 127, 654, 1586, 2369, 2533, 2246, 31, 222, 2066, 2023, 2872, 3016, 3154, 2683, 3523, 662, 2284, 2462,

#### 비교하기

In [49]:
import math
def get_cosine_similarity(v1,v2):
    "compute cosine similarity of v1 to v2: (v1 dot v2)/{||v1||*||v2||)"
    sumxx, sumxy, sumyy = 0, 0, 0
    for i in range(len(v1)):
        x = v1[i]; y = v2[i]
        sumxx += x*x
        sumyy += y*y
        sumxy += x*y
    return sumxy/math.sqrt(sumxx*sumyy)

#### 비교결과 정리하기

In [None]:
def get_similarity_score(X_vector, source):
    source_vector = X_vector[source]
    similarity_list = []
    for target_vector in X_vector:
        similarity_list.append(
            get_cosine_similarity(source_vector, target_vector))
    return similarity_list


def get_top_n_similarity_news(similarity_score, n):
    import operator
    x = {i:v for i, v in enumerate(similarity_score)}
    sorted_x = sorted(x.items(), key=operator.itemgetter(1))

    return list(reversed(sorted_x))[1:n+1]

def get_accuracy(similarity_list, y_class, source_news):
    source_class = y_class[source_news]

    return sum([source_class == y_class[i[0]] for i in similarity_list]) / len(similarity_list)


if __name__ == "__main__":
    dir_name = "news_data"
    file_list = get_file_list(dir_name)
    file_list = [os.path.join(dir_name, file_name) for file_name in file_list]

    X_text, y_class = get_conetents(file_list)

    corpus = get_corpus_dict(X_text)
    print("Number of words : {0}".format(len(corpus)))
    X_vector = get_count_vector(X_text, corpus)
    source_number = 10

    result = []

    for i in range(80):
        source_number = i

        similarity_score = get_similarity_score(X_vector, source_number)
        similarity_news = get_top_n_similarity_news(similarity_score, 10)
        accuracy_score = get_accuracy(similarity_news, y_class, source_number)
        result.append(accuracy_score)
    print(sum(result) / 80)