# 1. Overview

## Pythonic Code의 예

In [1]:
# 일반 코드

colors = ["a", "b", "c", "d", "e"]
result = ""

for s in colors:
    result += s

print(result)

abcde


In [2]:
# pythonic code

colors = ["red", "blue", "green", "yellow"]
result = "".join(colors)

print(result)

redbluegreenyellow


## Pythonic Code란?

- 파이썬 스타일의 코딩 기법
- 파이썬 특유의 문법을 활용하여 효율적으로 코드를 표현함
- 고급 코드를 작성 할 수록 더 많이 필요해짐 

## 대략적으로 배울 것들

- Split & Join
- List Comprehension
- Enumerate & Zip

---

# 2. Split & Join

## Split

In [3]:
items = 'zero one two three'.split()

print(items)

['zero', 'one', 'two', 'three']


In [4]:
example = 'python,jquery,javascript'

print(example.split(","))

['python', 'jquery', 'javascript']


In [5]:
example = 'python,jquery,javascript'

# unpacking 기법 - 각각의 변수로 maping이 된다. 
a, b, c = example.split(",")
print(a, b, c)

python jquery javascript


In [6]:
# unpacking의 구체적인 예

example = 'cs50.gachon.edu'

subdomain, domain, tld = example.split(".")
print(subdomain, domain, tld)

cs50 gachon edu


- unpacking

이런 방법으로 컬렉션의 원소를 여러 변수에 나눠 담는 것을 언패킹(unpacking, 풀기) 또는 구조분해(destructuring)라고 부른다. unpacking이란 쉽게 말해 풀어진 상태에서 내가 원하는대로 변형할 수 있다는 것이다. 변수로 넣어놓을 수도 있고 아니면 밑에서 다루겠지만 자료형이 없는 상태이기 때문에 순수한 변수, 그 숫자로 남겨지게 된다.

## Join

In [7]:
colors = ["red", "blue", "green", "yallow"]

result = ''.join(colors)
print(result)

redbluegreenyallow


In [8]:
result = ' '.join(colors)
print(result)

red blue green yallow


In [9]:
result = ', '.join(colors)
print(result)

red, blue, green, yallow


In [10]:
result = '-'.join(colors)
print(result)

red-blue-green-yallow


---

# 3. List Comprehension

- 기존 List를 사용하여 간단히 다른 List를 만드는 기법
- 포괄적인 List, 포함되는 Lisk라는 의미로 사용됨
- 파이썬에서 가장 많이 사용되는 기법 중 하나
- 일반적으로 for + append 보다 속도가 빠름

## for loop + append 사용하기

In [11]:
result = []

for i in range(10):
    result.append(i)

print(result)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


## list comprehension 사용하기

In [12]:
# 따로 result = []를 안해줘도 된다.
result = [i for i in range(10)]
print(result)

result = [i for i in range(10) if i % 2 == 0]
print(result)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 2, 4, 6, 8]


## nested for loop

In [13]:
word_1 = "Hello"
word_2 = "World"

# 1-dimensional list
result1 = [i+j for i in word_1 for j in word_2]
print('1-dimensional list', result1)

# 2-dimensional list (바깥에 있는 List가 먼저 고정)
result2 = [[i+j for i in word_1] for j in word_2]
print('2-dimentsional list', result2)

1-dimensional list ['HW', 'Ho', 'Hr', 'Hl', 'Hd', 'eW', 'eo', 'er', 'el', 'ed', 'lW', 'lo', 'lr', 'll', 'ld', 'lW', 'lo', 'lr', 'll', 'ld', 'oW', 'oo', 'or', 'ol', 'od']
2-dimentsional list [['HW', 'eW', 'lW', 'lW', 'oW'], ['Ho', 'eo', 'lo', 'lo', 'oo'], ['Hr', 'er', 'lr', 'lr', 'or'], ['Hl', 'el', 'll', 'll', 'ol'], ['Hd', 'ed', 'ld', 'ld', 'od']]


1-dimensional list : [i+j for i in word_1 for j in word_2]

- 앞에 있는 for문 중심으로 값이 생성된다.

2-dimensional list : [[i+j for i in word_1] for j in word_2]

- 뒤에 있는 for문 중심으로 값이 생성된다.

### 일반적인 for loop과의 차이

In [14]:
result = []

for i in word_1:
    for j in word_2:
        result.append(i+j)
        
print(result)

['HW', 'Ho', 'Hr', 'Hl', 'Hd', 'eW', 'eo', 'er', 'el', 'ed', 'lW', 'lo', 'lr', 'll', 'ld', 'lW', 'lo', 'lr', 'll', 'ld', 'oW', 'oo', 'or', 'ol', 'od']


추가적으로 구구단을 출력해봤다.

In [15]:
# 1-dimentsion
result = [x*y for x in range(2,10)
         for y in range(1,10)]
print(result)

# 2-dimentsion
result = [[x*y for x in range(1,10)]
         for y in range(2,10)]
print(result)

[2, 4, 6, 8, 10, 12, 14, 16, 18, 3, 6, 9, 12, 15, 18, 21, 24, 27, 4, 8, 12, 16, 20, 24, 28, 32, 36, 5, 10, 15, 20, 25, 30, 35, 40, 45, 6, 12, 18, 24, 30, 36, 42, 48, 54, 7, 14, 21, 28, 35, 42, 49, 56, 63, 8, 16, 24, 32, 40, 48, 56, 64, 72, 9, 18, 27, 36, 45, 54, 63, 72, 81]
[[2, 4, 6, 8, 10, 12, 14, 16, 18], [3, 6, 9, 12, 15, 18, 21, 24, 27], [4, 8, 12, 16, 20, 24, 28, 32, 36], [5, 10, 15, 20, 25, 30, 35, 40, 45], [6, 12, 18, 24, 30, 36, 42, 48, 54], [7, 14, 21, 28, 35, 42, 49, 56, 63], [8, 16, 24, 32, 40, 48, 56, 64, 72], [9, 18, 27, 36, 45, 54, 63, 72, 81]]


아래와 같이 구구단을 표현하려면

~~~python
[[x*y for x in range(1,10)] for y in range(2,10)]
~~~ 
이렇게 순서를 바꾸어 주어야 한다.

In [16]:
result = [[x*y for x in range(2,10)]
         for y in range(1, 10)]
print(result)

[[2, 3, 4, 5, 6, 7, 8, 9], [4, 6, 8, 10, 12, 14, 16, 18], [6, 9, 12, 15, 18, 21, 24, 27], [8, 12, 16, 20, 24, 28, 32, 36], [10, 15, 20, 25, 30, 35, 40, 45], [12, 18, 24, 30, 36, 42, 48, 54], [14, 21, 28, 35, 42, 49, 56, 63], [16, 24, 32, 40, 48, 56, 64, 72], [18, 27, 36, 45, 54, 63, 72, 81]]


안그러면 이렇게 뒤에 있는 for문 중심으로 출력이 되어서 구구단이 되지 못한다.

## nested for loop + if 문

In [17]:
case_1 = ["A", "B", "C"]
case_2 = ["D", "E", "A"]

# 1-dimensional list
result3 = [i+j for i in case_1 for j in case_2]
print(result3)

# 2-dimensional list
result3 = [[i+j for i in case_1] for j in case_2]
print(result3)

# if 문 추가 (AA 제외)
result4 = [i+j for i in case_1 for j in case_2 if not(i==j)]
print(result4)

# sort
print(sorted(result4))

result4.sort()
print(result4)

['AD', 'AE', 'AA', 'BD', 'BE', 'BA', 'CD', 'CE', 'CA']
[['AD', 'BD', 'CD'], ['AE', 'BE', 'CE'], ['AA', 'BA', 'CA']]
['AD', 'AE', 'BD', 'BE', 'BA', 'CD', 'CE', 'CA']
['AD', 'AE', 'BA', 'BD', 'BE', 'CA', 'CD', 'CE']
['AD', 'AE', 'BA', 'BD', 'BE', 'CA', 'CD', 'CE']


## split + list comprehension

In [18]:
words = 'The quick brown fox jumps over the lazy dog'.split()
print('words', words)

# 2-dimensional list
stuff = [[w.upper(), w.lower(), len(w)] for w in words]
print('stuff', stuff)

for i in stuff:
    print(i)

words ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog']
stuff [['THE', 'the', 3], ['QUICK', 'quick', 5], ['BROWN', 'brown', 5], ['FOX', 'fox', 3], ['JUMPS', 'jumps', 5], ['OVER', 'over', 4], ['THE', 'the', 3], ['LAZY', 'lazy', 4], ['DOG', 'dog', 3]]
['THE', 'the', 3]
['QUICK', 'quick', 5]
['BROWN', 'brown', 5]
['FOX', 'fox', 3]
['JUMPS', 'jumps', 5]
['OVER', 'over', 4]
['THE', 'the', 3]
['LAZY', 'lazy', 4]
['DOG', 'dog', 3]


---

# 4. Enumerate & Zip

## enumerate

- list의 element를 추출할 때 번호를 붙여서 추출

### for loop + enumerate

In [19]:
for i, v in enumerate(['tic', 'tac', 'toc']):
    print(i, v)

0 tic
1 tac
2 toc


### list + enumerate

In [20]:
mylist = ['a','b','c','d']
print(list(enumerate(mylist)))

[(0, 'a'), (1, 'b'), (2, 'c'), (3, 'd')]


### list comprehension + enumerate

In [21]:
print({i:j for i, j in enumerate(
    'Hanyang University \
    is an academic institue located in South Korea'.split())})

{0: 'Hanyang', 1: 'University', 2: 'is', 3: 'an', 4: 'academic', 5: 'institue', 6: 'located', 7: 'in', 8: 'South', 9: 'Korea'}


## zip

- 두 개의 list의 값을 병렬적으로 추출함

### for loop + zip

In [22]:
alist = ['a1', 'a2', 'a3']
blist = ['b1', 'b2', 'b3']

for a, b in zip(alist, blist):
    print(a, b)

a1 b1
a2 b2
a3 b3


### list comprehension + zip

In [23]:
a, b, c = zip((1, 2, 3), (10, 20, 30), (100, 200, 300))
print(a, b, c)

print([sum(x) for x in zip(
    (1, 2, 3), (10, 20, 30), (100, 200, 300))])

(1, 10, 100) (2, 20, 200) (3, 30, 300)
[111, 222, 333]


### enumerate + zip

In [24]:
alist = ['a1', 'a2', 'a3']
blist = ['b1', 'b2', 'b3']

for i, (a, b) in enumerate(zip(alist, blist)):
    print(i, a, b)

0 a1 b1
1 a2 b2
2 a3 b3


---

# 5. Lambda & MapReduce

## Lambda

- 함수 이름 없이, 함수처럼 쓸 수 있는 익명함수
- 수학의 람다 대수에서 유래함

- General function

In [25]:
def f(x, y):
    return x+y

print(f(1,4))

5


- Lambda function

In [26]:
f = lambda x, y: x+y

print(f(1,4))

5


In [27]:
f = lambda x: x**2
print(f(3))

f = lambda x: x/2
print(f(3))

print((lambda x: x+1)(5))

9
1.5
6


## Map

- Sequence 자료형 각 element에 동일한 function을 적용함

In [28]:
ex = [1,2,3,4,5]

f = lambda x: x**2
print(list(map(f, ex)))

[1, 4, 9, 16, 25]


In [29]:
# 매개변수 1개
print(list(map(lambda x: x**2, ex)))

# 매개변수 2개
print(list(map(lambda x, y: x+y, ex, ex)))

[1, 4, 9, 16, 25]
[2, 4, 6, 8, 10]


In [30]:
print(list(map(lambda x: x**2 if x % 2 == 0 else x, ex)))

[1, 4, 3, 16, 5]


하지만 python3에서는 편하게 이렇게 가능하기 때문에 lambda를 굳이 안써도 되긴 하다.

In [31]:
print([value ** 2 for value in ex])

[1, 4, 9, 16, 25]


하지만 if, else로 조금 더 길게 사용하려면 에러가 뜬다.

In [32]:
print([value ** 2 for value in ex if value % 2 == 0 else value])

SyntaxError: invalid syntax (<ipython-input-32-57828936a69d>, line 1)

## Reduce function

- map function과 달리 list에 똑같은 함수를 적용해서 합침

In [33]:
from functools import reduce

print(reduce(lambda x, y: x+y, [1,2,3,4,5]))

15


In [34]:
def factorial(n):
    return reduce(lambda x, y:x+y, range(1, n+1))

print(factorial(5))

15


## Summary

- Lambda, map, reduce는 간단한 코드로 다양한 기능을 제공
- 그러나 코드의 직관성이 떨어져서 lambda나 reduce는 python3에서 사용을 권장하지 않음
- Legacy library나 다양한 머신러닝 코드에서 여전히 사용중

---

# 5. Asterisk

- 흔히 알고 있는 $*$를 의미함
- 단순 곱셈, 제곱연산, 가변 인자 활용 등 다양하게 사용됨

## $*$args

In [35]:
def asterisk_test(a, *args):
    print(a, args)
    print(type(args))

asterisk_test(1,2,3,4,5,6)

1 (2, 3, 4, 5, 6)
<class 'tuple'>


## $**$kargs

In [36]:
def asterisk_test(a, **kargs):
    print(a, kargs)
    print(type(kargs))

asterisk_test(1, b=2, c=3, d=4, e=5, f=6)

1 {'b': 2, 'c': 3, 'd': 4, 'e': 5, 'f': 6}
<class 'dict'>


## Asterisk = unpacking a container

- tuple, dict 등 자료형에 들어가 있는 값을 unpacking
- 함수의 입력값, zip 등에 유용하게 사용가능

In [37]:
def asterisk_test(a, *args):
    print(a, args[0])
    print(type(args))

asterisk_test(1, (2, 3, 4, 5, 6))

1 (2, 3, 4, 5, 6)
<class 'tuple'>


위와 같이 (2,3,4,5,6) 인수들이 한꺼번에 들어가기 때문에 args[0]으로 해야 값이 잘 나온다. 아래처럼 [0]을 안해주면 ()가 하나 더 붙어서 나온다.

In [38]:
def asterisk_test(a, *args):
    print(a, args[0])
    print(type(args))

asterisk_test(1, (2, 3, 4, 5, 6))

1 (2, 3, 4, 5, 6)
<class 'tuple'>


In [39]:
def asterisk_test(a, *args):
    print(a, args)
    print(type(args))

asterisk_test(1, (2, 3, 4, 5, 6))

1 ((2, 3, 4, 5, 6),)
<class 'tuple'>


아래와 같이 들어갈 때 다 넣고 풀어줄 수도 있다. 다시말해 $*$를 함으로써 unpacking이 된다.($*$를 통해 각각의 변수로 풀려지게 된다.)

In [40]:
def asterisk_test(a, args):
    print(a, *args)
    print(type(args))

asterisk_test(1, (2,3,4,5,6))

1 2 3 4 5 6
<class 'tuple'>


또 다른 형태들을 살펴보자.

In [41]:
a, b, c = ([1, 2], [3, 4], [5, 6])
print(a, b, c)

data = ([1, 2], [3, 4], [5, 6])
print(*data)

[1, 2] [3, 4] [5, 6]
[1, 2] [3, 4] [5, 6]


In [42]:
def asterisk_test(a, b, c, d):
    print(a, b, c, d)
    
data = {"d":1, "c":2, "b":3}
asterisk_test(10, **data)

10 3 2 1


In [43]:
for data in zip(*([1, 2], [3, 4], [5, 6])):
    print(sum(data))

9
12


In [44]:
def asterisk_test(a, b, c, d, e=0):
    print(a, b, c, d, e)

data = {"d":1, "c":2, "b":3, "e":56}
asterisk_test(10, **data)

10 3 2 1 56


---

# 6. Data Structure - Collections

- List, Tuple, Dict에 대한 Python Built-in 확장 자료 구조(모듈)
- 편의성, 실행 효율 등을 사용자에게 제공함
- 아래의 모듈이 존재함

~~~python
from collections import deque
from collections import Counter
from collections import OrderedDict
from collections import defaultdict
from collections import namedtuple
~~~

## deque

- Stack과 Queue를 지원하는 모듈
- List에 비해 효율적인 자료 저장 방식을 지원함

In [45]:
from collections import deque

deque_list = deque()
for i in range(5):
    deque_list.append(i)
    
print(deque_list)

# appendleft
deque_list.appendleft(10)
print(deque_list)

# popleft
deque_list.popleft()
print(deque_list)

deque([0, 1, 2, 3, 4])
deque([10, 0, 1, 2, 3, 4])
deque([0, 1, 2, 3, 4])


- rotate, reverse등 Linked List의 특성을 지원함
- 기존 list 형태의 함수를 모두 지원함

### rotate

In [46]:
deque_list.rotate(2)
print(deque_list)

deque_list.rotate(2)
print(deque_list)

deque([3, 4, 0, 1, 2])
deque([1, 2, 3, 4, 0])


### extend

In [47]:
deque_list.extend([5,6,7])
print(deque_list)

deque_list.extendleft([10,11,12])
print(deque_list)

deque([1, 2, 3, 4, 0, 5, 6, 7])
deque([12, 11, 10, 1, 2, 3, 4, 0, 5, 6, 7])


### reversed

In [48]:
print(deque_list)
print(deque(reversed(deque_list)))

deque([12, 11, 10, 1, 2, 3, 4, 0, 5, 6, 7])
deque([7, 6, 5, 0, 4, 3, 2, 1, 10, 11, 12])


### deque vs. list

- deque는 기존 list보다 효율적인 자료구조를 제공
- 효율적 메모리 구조로 처리 속도 향상

In [49]:
# deque

from collections import deque
import time

start_time = time.process_time()
print(start_time)
deque_list = deque()

# Stack
for i in range(10000):
    for i in range(10000):
        deque_list.append(i)
        deque_list.pop()
        
print(time.process_time())
print(time.process_time() - start_time, "seconds")

0.900398
20.084934
19.184713000000002 seconds


In [50]:
# general list

import time

start_time = time.process_time()
print(start_time)
just_list = []

for i in range(10000):
    for i in range(10000):
        just_list.append(i)
        just_list.pop()
        
print(time.process_time())
print(time.process_time() - start_time, "seconds")

20.091454
66.840836
46.749534 seconds


## OrderedDict

- Dict와 달리, 데이터를 입력한 순서대로 dict를 반환함

In [51]:
# general

# d = dict()도 가능
d = {}
d['x'] = 100
d['y'] = 200
d['z'] = 300
d['l'] = 500
print(d)

for k, v in d.items():
    print(k, v)

{'x': 100, 'y': 200, 'z': 300, 'l': 500}
x 100
y 200
z 300
l 500


In [52]:
# ordereddict

from collections import OrderedDict

d = OrderedDict()
d['x'] = 100
d['y'] = 200
d['z'] = 300
d['l'] = 500
print(d)

for k, v in d.items():
    print(k, v)

OrderedDict([('x', 100), ('y', 200), ('z', 300), ('l', 500)])
x 100
y 200
z 300
l 500


하지만 Python 3.6+부터 dict가 삽입 순서를 보존함. 위의 두 코드가 항상 같은 결과를 준다는 뜻. 쉽게말해 순서가 보존이 안되었는데 3.6+부터는 OrderedDict와 Dict가 같아진 것이라고 봐도 된다. 

[Are dictionaries ordered in Python 3.6+?](https://stackoverflow.com/questions/39980323/are-dictionaries-ordered-in-python-3-6)를 참고하기 바란다.

다음은 소트할 때 일반적인 Dict를 통해 쓰이는 방법들이다.

In [53]:
d = dict()
d['x'] = 100
d['y'] = 200
d['z'] = 300
d['l'] = 500

for k, v in dict(sorted(d.items(), key=lambda t: t[0])).items():
    print(k, v)

l 500
x 100
y 200
z 300


In [54]:
for k, v in dict(sorted(d.items(),
                        reverse=True, key=lambda t: t[1])).items():
    print(k, v)

l 500
z 300
y 200
x 100


보다시피 그냥 dict()만 써도 잘 된다. 그래서 OrderedDict는 딱히 필요가 없을 것 같다.

## defaultdict

- Dict type의 값을 기본 값을 지정, 신규값 생성시 사용하는 방법

In [55]:
d = dict()
print(d["first"])

KeyError: 'first'

아무것도 없는 상태에서 'first'라고 하는 key값을 print하면 당연히 에러가 나온다.

In [56]:
from collections import defaultdict

d = defaultdict(object)     # Default dictionary를 생성
d = defaultdict(lambda: 0)  # Default 값을 0으로 설정합
print(d["first"])

0


위의 코드와 같이 default 값을 lambda를 통해 0으로 지정해줄 수 있다.

실제 글을 통해서 일반적인 코드와 defaultdict의 차이점을 알아보자.

In [57]:
# general 

text = """
A press release is the quickest and easiest way to get free publicity. If well written, a press release can result in multiple published articles about your firm and its products. And that can mean new prospects contacting you asking you to sell to them. Talk about low-hanging fruit!
What's more, press releases are cost effective. If the release results in an article that (for instance) appears to recommend your firm or your product, that article is more likely to drive prospects to contact you than a comparable paid advertisement.
However, most press releases never accomplish that. Most press releases are just spray and pray. Nobody reads them, least of all the reporters and editors for whom they're intended. Worst case, a badly-written press release simply makes your firm look clueless and stupid.
For example, a while back I received a press release containing the following sentence: "Release 6.0 doubles the level of functionality available, providing organizations of all sizes with a fast-to-deploy, highly robust, and easy-to-use solution to better acquire, retain, and serve customers."
Translation: "The new release does more stuff." Why the extra verbiage? As I explained in the post "Why Marketers Speak Biz Blab", the BS words are simply a way to try to make something unimportant seem important. And, let's face it, a 6.0 release of a product probably isn't all that important.
As a reporter, my immediate response to that press release was that it's not important because it expended an entire sentence saying absolutely nothing. And I assumed (probably rightly) that the company's marketing team was a bunch of idiots.
""".lower().split()

word_count = {}
for word in text:
    if word in word_count.keys():
        word_count[word] += 1
    else:
        word_count[word] = 0
# print(word_count)

In [58]:
# defaultdict

from collections import defaultdict

word_count = defaultdict(object)     # Default dictionary를 생성
word_count = defaultdict(lambda: 0)  # Default 값을 0으로 설정합
for word in text:
    word_count[word] += 1
# print(word_count)

# sort
for i, v in dict(sorted(
        word_count.items(), key=lambda t: t[1], reverse=True)).items():
    print(i, v)

a 12
to 10
the 9
and 9
press 8
release 8
that 7
of 5
your 4
in 3
firm 3
you 3
releases 3
are 3
all 3
i 3
is 2
way 2
if 2
can 2
about 2
new 2
prospects 2
an 2
article 2
more 2
most 2
for 2
simply 2
6.0 2
as 2
important. 2
was 2
quickest 1
easiest 1
get 1
free 1
publicity. 1
well 1
written, 1
result 1
multiple 1
published 1
articles 1
its 1
products. 1
mean 1
contacting 1
asking 1
sell 1
them. 1
talk 1
low-hanging 1
fruit! 1
what's 1
more, 1
cost 1
effective. 1
results 1
(for 1
instance) 1
appears 1
recommend 1
or 1
product, 1
likely 1
drive 1
contact 1
than 1
comparable 1
paid 1
advertisement. 1
however, 1
never 1
accomplish 1
that. 1
just 1
spray 1
pray. 1
nobody 1
reads 1
them, 1
least 1
reporters 1
editors 1
whom 1
they're 1
intended. 1
worst 1
case, 1
badly-written 1
makes 1
look 1
clueless 1
stupid. 1
example, 1
while 1
back 1
received 1
containing 1
following 1
sentence: 1
"release 1
doubles 1
level 1
functionality 1
available, 1
providing 1
organizations 1
sizes 1
with 1
fast-to-

## Counter

- Sequence type의 data element들의 갯수를 dict 형태로 반환

In [59]:
from collections import Counter

c = Counter()
c = Counter('gallahad')
print(c)

Counter({'a': 3, 'l': 2, 'g': 1, 'h': 1, 'd': 1})


## namedtuple

- Tuple 형태로 Data 구조체를 저장하는 방법
- 저장되는 data의 variable을 사전에 지정해서 저장함

In [60]:
from collections import namedtuple

Point = namedtuple('Point', ['x', 'y'])
p = Point(11, y=22)
print(p[0] + p[1])

33


In [61]:
x, y = p

print(x, y)
print(p.x + p.y)
print(Point(x=11, y=22))
print(p[0] + p[1])

11 22
33
Point(x=11, y=22)
33


---

# 6. Linear algebra codes

## Vector representation of python

- Vector를 파이썬으로 표시하는 다양한 방법 존재

In [62]:
vector_a = [1,2,10] # list로 표현했을 경우
vector_b = (1,2,10) # tuple로 표현했을 경우
vector_c = {'x': 1, 'y': 1, 'z': 10} # dict로 표현했을 경우

- 최선의 방법은 없음
- 값의 변경 유무, 속성값 유무에 따라 선택할 수 있음
- 기본적으로 listfh vector 연산 실시

### Vector product

In [63]:
u = [2, 2]
v = [2, 3]
z = [3, 5]

result = [sum(t) for t in zip(u, v, z)]
print(result)

[7, 10]


### Scalar-Vector product

In [64]:
u = [1, 2, 3]
v = [4, 4, 4]
alpha = 2

result = [alpha*sum(t) for t in zip(u, v)]
print(result)

[10, 12, 14]


## Matrix representation of python

- Matrix 역시 Python으로 표시하는 다양한 방법이 존재

In [65]:
maxtrix_a = [[3, 6], [4, 5]] # list로 표현했을 경우
maxtrix_b = [(3, 6), (4, 5)] # Tuple로 표현했을 경우
maxtrix_c = {(0,0): 3, (0,1): 6, (1,0): 4, (1,1): 5} # dict로 표현했을 경우

- 특히 dict로 표현할 때는 무궁무진한 방법이 있음
- 기본적으로 two-dimensional list 형태로 표현함
- 항상 [[1번째 row]. [2번째 row]. [3번쨰 row]] 형태로 표현함

### Matrix addition

In [66]:
matrix_a = [[3, 6], [4, 5]]
matrix_b = [[5, 8], [6, 7]]

result = [[sum(row) for row in zip(*t)]
          for t in zip(matrix_a, matrix_b)]
print(result)
print(type(result))

[[8, 14], [10, 12]]
<class 'list'>


처음에 'zip(matrix_a, matrix_b)'를 통해 [3,6], [5,8]이 tuple 형태로 나오고 't'에 안착한 뒤에 그 안에 있는 'zip($*$t)'를 통해 tuple 형태가 없어지고(unpacking) row를 통해 '3+5, 6+8'가 계산된 뒤에 result에 list 형태로 들어가게 된다.

### Scalar-Matrix Product

In [67]:
matrix_a = [[3, 6], [4, 5]]
alpha = 4

result = [[alpha * element for element in t] for t in matrix_a]
print(result)

[[12, 24], [16, 20]]


### Matrix Transpose

In [68]:
matrix_a = [[1, 2, 3], [4, 5, 6]]

result = [[element for element in t] for t in zip(*matrix_a)]
print(result)

[[1, 4], [2, 5], [3, 6]]


위에서도 $*$를 통해 1,2,3 / 4,5,6 형태 순수 그 변수 자체로 바뀌고 zip에 따라서 1,4 / 2,5 / 3,6으로 바껴서 t에 들어가게 된다.

### Matrix Product

In [69]:
matrix_a = [[1, 1, 2], [2, 1, 1]]
matrix_b = [[1, 1], [2, 1], [1, 3]]

result = [[sum(a * b for a, b in zip(row_a, column_b))
          for column_b in zip(*matrix_b)] for row_a in matrix_a]
print(result)

[[5, 8], [5, 6]]


---

# 7. News Categorization

- 비슷한 뉴스를 어떻게 선정할까?
- 뉴스들이 있다면 컴퓨터는 문자를 그대로 이해하지 못하기 때문에 문자를 숫자로 바꾸어야 한다.
- 숫자로 '유사하다'는 어떻게 표현할까? '유사하다 = 가깝다'로 표현할 수 있다. 좌표평면에서 기본적으로 쓰이는 피타고라스의 정리를 통해 두 점이 가까운지 먼지를 알 수 있다. 
- 그래서 궁극적으로 하고 싶은 것은 문자를 숫자로, 숫자는 vector로 표현하고 싶은 것이다.

## 문자 -> 숫자 -> Vector

### 문자를 Vector로 - One-hot Encoding

- 하나의 단어를 Vector의 Indox로 인식, 단어 존재시 1 없으면 0

In [70]:
Rome = [1,0,0,0,0,0,0,0,0,0]
Paris = [0,1,0,0,0,0,0,0,0,0]
Italy = [0,0,1,0,0,0,0,0,0,0]
France = [0,0,0,1,0,0,0,0,0,0]

### Bag of words

- 단어별로 인덱스를 부여해서, 한 문장(또는 문서)의 단어의 개수를 Vector로 표현

<img src="img/Screen Shot 2018-08-15 at 7.17.55 PM.png" width="500">

## 유사성

### Distance measure

- 고등학교 때 배운 2차원 평면상 거리측정 방법들

<img src="img/Screen Shot 2018-08-15 at 7.20.56 PM.png" width="600">

### Euclidian distance

- 피타고라스의 정리, 두 점 사이의 직선의 거리

<img src="img/Screen Shot 2018-08-15 at 7.23.17 PM.png" width="600">

### Cosine distance

- 두 점 사이의 각도

<img src="img/Screen Shot 2018-08-15 at 7.23.27 PM.png" width="600">

일반적으로 Euclidian distance보다는 Cosine distance를 더 많이 사용한다.

## Code

### Data set

- 축구와 야구 선수들의 영문 기사를 분류해보자!
- 1,2,3,4 야구 / 5,6,7,8 축구 (news_data 폴더 참고)

### Process

- 파일을 불러오기
- 파일을 읽어서 단어사전 (corpus) 만들기
- 단어별로 Index 만들기
- 만들어진 인덱스로 문서별로 Bag of words vector 생성 - 비교하고자 하는 문서 비교하기
- 얼마나 맞는지 측정하기

### 파일 불러오기

In [71]:
import os

def get_file_list(dir_name):
    return os.listdir(dir_name)

print(len(get_file_list('news_data')))

if __name__ == "__main__":
    dir_name = "news_data"
    
    file_list = get_file_list(dir_name)
    file_list = [os.path.join(dir_name, file_name) 
                 for file_name in file_list]
    print(len(file_list))

80
80


- os.listdir

os.listdir을 이용하면 해당 디렉터리에 있는 파일들의 리스트를 가져오게 된다. 여기서 구해지는 파일 리스트는 파일명만 포함되어 있으므로 경로를 포함한 파일명을 구하기 위해서는 입력으로 받은 dirname을 앞에 덧붙여 주어야 한다.

- os.path.join

디렉터리와 파일들을 연결하려고 할 때 사용한다. 보통 /를 통해 join을 해주지만 python에서는 os.path.join을 통해 join을 해주어야 한다. os 모듈에는 디렉터리와 파일명을 이어주는 os.path.join이라는 함수가 있으므로 이 함수를 이용하면 디렉터리를 포함한 전체 경로를 쉽게 가져올 수 있다.

쉽게 말해 os.listdir을 통해 전체 파일들의 리스트를 가져와서, os.path.join을 통해 전체 경로를 연결하여 다시 전체 파일들의 리스트를 가져온다.

### 파일별로 내용읽기

In [72]:
def get_conetents(file_list):
    y_class = []
    X_text = []

    # baseball - 0, soccer - 1
    class_dict = {
        1: "0", 2: "0", 3:"0", 4:"0", 5:"1", 6:"1", 7:"1", 8:"1"}

    for file_name in file_list:
        try:
            # cp949 - windows file (utf - mac, linux file)
            f = open(file_name, "r",  encoding="cp949")
            
            # os.sep[1] - file name only, split("_")[0] - before underbar
            # ex. 1 in 1_Dae-Ho Lee walk-off homer gives Mariners ...
            category = int(file_name.split(os.sep)[1].split("_")[0])
            
            # y_class is expressed as 0 class(baseball) and 1 class(soccer)
            y_class.append(class_dict[category])
            
            # X_test is 1-dimensional list
            X_text.append(f.read())
            f.close()
        except UnicodeDecodeError as e:
            print(e)
            print(file_name)
    return X_text, y_class

# test
X_text, y_class = get_conetents(file_list)
# print(y_class)
# print(X_text)

### Corpus 만들기 + 단어별 index 생성하기

- Corpus란, text안에 있는 word들에 대한 index를 만들어주는 것. 각각의 word가 몇 번째 index에 속한다는 것을 선언해주는 것.

In [73]:
# additional section
def get_cleaned_text(text):
    '''regular expression - eliminate meaningless sentence protection'''
    import re
    text = re.sub('\W+','', text.lower() )
    return text

print(get_cleaned_text("I'm Yours"))

imyours


In [74]:
def get_corpus_dict(text):
    # 2-dimensional list
    text = [sentence.split() for sentence in text]
    
    # 1-dimensioal list
    cleaned_words = [get_cleaned_text(word) 
                    for words in text for word in words]

    corpus_dict = dict()
    for i, v in enumerate(set(cleaned_words)):
        corpus_dict[v] = i
    return corpus_dict

corpus = get_corpus_dict(X_text)
print("Number of words : {0}".format(len(corpus)))
# print('corpus', corpus)

Number of words : 4024


위의 코드에서 set은 다음과 같은 2가지 큰 특징이 있다.

- 중복을 허용하지 않는다.
- 순서가 없다(Unordered).

또한 리스트나 튜플은 순서가 있기(ordered) 때문에 인덱싱을 통해 자료형의 값을 얻을 수 있지만 set 자료형은 순서가 없기(unordered) 때문에 인덱싱으로 값을 얻을 수 없다. 이는 마치 앞서 살펴본 딕셔너리와 비슷하다. 딕셔너리 역시 순서가 없는 자료형이라 인덱싱을 지원하지 않는다. 만약 set 자료형에 저장된 값을 인덱싱으로 접근하려면 다음과 같이 리스트나 튜플로 변환한 후 해야 한다.

### 문서별로 Bag of words vector 생성

In [75]:
def get_count_vector(text, corpus):
    text = [sentence.split() for sentence in text]
    
    # 2-dimensional list
    # The value that the words in the documents correspond to
    # the index number in the corpus.
    word_number_list = [[corpus[get_cleaned_text(word)] 
                         for word in words] for words in text]
#     print('corpus', corpus)
#     print('word_number_list', word_number_list)
    
    # 80 x 4024 matrices
    X_vector = [[0 for _ in range(len(corpus))] 
                for _ in range(len(text))]
#     print(X_vector[0])

    # Check the number of words in one text
    for i, text in enumerate(word_number_list):
        for word_number in text:
            X_vector[i][word_number] += 1
    return X_vector


# corpus = get_corpus_dict(X_text)
# print(get_count_vector(X_text, corpus))

### 비교하기

<img src="img/Screen Shot 2018-08-15 at 10.18.42 PM.png" width="500">

In [76]:
import math
def get_cosine_similarity(v1,v2):
    "compute cosine similarity of v1 to v2: (v1 dot v2)/{||v1||*||v2||)"
    sumxx, sumxy, sumyy = 0, 0, 0
    for i in range(len(v1)):
        x = v1[i]; y = v2[i]
        sumxx += x*x
        sumyy += y*y
        sumxy += x*y
    return sumxy/math.sqrt(sumxx*sumyy)

여기서 v1, v2는 문서를 의미한다. 그러니까 얼마의 similarity score를 가지는 지를 표현하는 코드이다.

### 비교결과 정리하기

In [77]:
def get_similarity_score(X_vector, source):
    source_vector = X_vector[source]
    similarity_list = []
    for target_vector in X_vector:
        similarity_list.append(
            get_cosine_similarity(source_vector, target_vector))
    return similarity_list


def get_top_n_similarity_news(similarity_score, n):
    import operator
    x = {i:v for i, v in enumerate(similarity_score)}
    sorted_x = sorted(x.items(), key=operator.itemgetter(1))

    return list(reversed(sorted_x))[1:n+1]

### 성능 측정하기

In [78]:
def get_accuracy(similarity_list, y_class, source_news):
    source_class = y_class[source_news]

    return sum([source_class == y_class[i[0]] 
                for i in similarity_list]) / len(similarity_list)

In [79]:
if __name__ == "__main__":
    dir_name = "news_data"
    file_list = get_file_list(dir_name)
    file_list = [os.path.join(dir_name, file_name) 
                 for file_name in file_list]

    X_text, y_class = get_conetents(file_list)

    corpus = get_corpus_dict(X_text)
    print("Number of words : {0}".format(len(corpus)))
    X_vector = get_count_vector(X_text, corpus)

    result = []

    for i in range(80):
        source_number = i
        
        # 80 x 80
        similarity_score = get_similarity_score(X_vector, source_number)
        
        similarity_news = get_top_n_similarity_news(similarity_score, 5)
        
        accuracy_score = get_accuracy(similarity_news, y_class, source_number)
        result.append(accuracy_score)
    print(sum(result) / 80)

Number of words : 4024
0.7474999999999997
