# 1주차: Python Basic

## 목차
1. 자료구조
2. Generator
3. 함수
4. Class
5. 과제

In [1]:
from time import time
from random import randint

## 1. 자료구조
파이썬에서 쓰이는 대표적인 자료구조로 list, set, dict가 있다. 각 자료구조는 특징이 있으며 적절한 때에 적절한 자료구조를 사용할 필요가 있다.

### list
list는 데이터를 순차적으로 저장하는 자료구조로써 index로 데이터에 접근할 수 있다는 특징이 있다. list를 생성하는 가장 기본적인 방법은 아래 두가지 일 것이다.

In [2]:
arr = [0, 1, 2, 3]
arr

[0, 1, 2, 3]

In [3]:
arr = []
for i in range(4):
    arr.append(i)
arr

[0, 1, 2, 3]

In [4]:
arr[2]

2

그러나 두번째 방법의 경우 작업이 복잡해질 경우 가독성이 떨어질 수 있다. 이를 파이썬에서 제공하는 comprehension 문법을 통해 간결하게 바꿀 수 있다.

comprehension을 이용할 경우 약간 복잡한 로직도 간단하게 구현할 수 있다는 장점이 있다.

In [5]:
arr = [i for i in range(4)]
# arr = list(range(4))

arr

[0, 1, 2, 3]

In [3]:
arr = [i-1 if i%2 else i+1 for i in range(20)]
# arr = list(i-1 if i%2 else i+1 for i in range(20))
arr

[1, 0, 3, 2, 5, 4, 7, 6, 9, 8, 11, 10, 13, 12, 15, 14, 17, 16, 19, 18]

list의 또다른 중요한 기능으로는 slicing이 있다. list의 일부분을 slicing을 통해 간편하게 가져올 수 있다.

slicing은 아래와 같이 콜론이 하나인 형태와 두개인 형태로 나뉜다.

In [4]:
print(arr[2:10]) # index 2,3,4,..,9
print(arr[2:10:2]) # index 2,4,6,8

[3, 2, 5, 4, 7, 6, 9, 8]
[3, 5, 7, 9]


콜론이 두개일 경우 index의 공차까지 고려하여 slicing을 할 수 있다. 또한 모든 위치에 숫자를 적을 필요가 없다. 예를 시작 index는 4인데 그 이후로는 끝까지 데이터를 받고 싶으면 다음과 같이 작성할 수 있다.

In [5]:
print(arr[4:])
print(arr[4::2])

[5, 4, 7, 6, 9, 8, 11, 10, 13, 12, 15, 14, 17, 16, 19, 18]
[5, 7, 9, 11, 13, 15, 17, 19]


파이썬의 index에서 특이한 점 중 하나는 음수 index를 사용할 수 있다. 즉, index가 -1일 경우 마지막 데이터 포인트를 반환하며 값이 내려갈 수록 위치도 왼쪽으로 바뀐다.

이를 slicing에도 응용하여 마지막 원소에서부터 한 칸씩 띄어서 데이터를 가져 올 수도 있다.

In [6]:
arr[-1]

18

In [9]:
arr[::-2]

[18, 16, 14, 12, 10, 8, 6, 4, 2, 0]

In [7]:
arr[::-1]

[18, 19, 16, 17, 14, 15, 12, 13, 10, 11, 8, 9, 6, 7, 4, 5, 2, 3, 0, 1]

이 외에도 list끼리의 덧셈 등 다양한 list 연산을 파이썬에서 제공한다.

In [10]:
[2,4,4]+[1,9]+[8,7]

[2, 4, 4, 1, 9, 8, 7]

### set
set은 중복되지 않은 데이터를 저장하고 싶을 때 유용하게 쓰일 수 있다. set()이나 {}을 통해 생성 할 수 있다. set에서는 list와 다르게 add라는 이름의 메소드를 통해 데이터를 추가 할 수 있다. 

In [11]:
arr = [1, 2, 3, 1, 1, 5, 6, 3, 2]
arr_no_red = set(arr)
arr_no_red

{1, 2, 3, 5, 6}

In [12]:
arr = [i if i%2 else i+1 for i in range(20)]
s = {i if i%2 else i+1 for i in range(20)}
# s = set(i if i%2 else i+1 for i in range(20))
print(arr)
print(s)

[1, 1, 3, 3, 5, 5, 7, 7, 9, 9, 11, 11, 13, 13, 15, 15, 17, 17, 19, 19]
{1, 3, 5, 7, 9, 11, 13, 15, 17, 19}


In [13]:
s.add(21)
s

{1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21}

이 외에도 union, intersection 등 set 간의 다양한 연산을 지원한다.

### set vs list
set은 중복 제거 뿐 아니라 빠른 데이터 탐색에 대한 이점도 가지고 있다. 비교를 위해 무작위 값이 list와 set에 존재하는지 판별하는 작업을 1000번 수행 한 후 실행시간을 비교해보면 큰 차이가 난다는 것을 확인할 수 있다.

In [14]:
biglist = [i for i in range(10**6)]
bigset = {i for i in range(10**6)}

s = time()
for i in range(1000):
    isin = randint(1, 10**7) in biglist
print("time elapsed:", round(time()-s,4))

time elapsed: 5.2565


In [15]:
s = time()
for i in range(1000):
    isin = randint(1, 10**7) in bigset
print("time elapsed:", round(time()-s,4))

time elapsed: 0.0017


### dict
dict는 key-value 값을 가지는 자료구조로써 key를 index와 같은 형태로 사용할 수 있다는 장점이 있다. dict를 생성하기 위한 방법은 일반적인 방법과 순서쌍에 대한 comprehension을 이용하는 방법이 있다.

In [16]:
dict_1 = {
    "파이썬": "python",
    "러스트": "rust",
    "자바": "java",
    "스위프트": "swift"
}
key_val = [("파이썬", "python"), ("러스트", "rust"), ("자바", "java"), ("스위프트", "swift")]
dict_2 = dict(key_val)

print(dict_1)
print(dict_2)

{'파이썬': 'python', '러스트': 'rust', '자바': 'java', '스위프트': 'swift'}
{'파이썬': 'python', '러스트': 'rust', '자바': 'java', '스위프트': 'swift'}


In [17]:
print(dict_1["자바"])
print(dict_2["스위프트"])

java
swift


dict를 다시 key, value를 가지고 있는 list로 바꾸고 싶다면 items 메소드를 사용할 수 있다. 이 외에 key만 뽑고 싶다면 keys, values만 뽑고 싶으면 values 메소드를 사용하면 된다.

In [18]:
list(dict_2.items())

[('파이썬', 'python'), ('러스트', 'rust'), ('자바', 'java'), ('스위프트', 'swift')]

이 외에도 dict에서의 in 키워드가 어떻게 작동하는지와 dict에서의 삽입 삭제 연산을 알아보면 유용하다. 또한 ordereddict나 defaultdict와 같은 특별한 dict 형태의 자료구조에 대해서 알아보면 유용하다.

## 2. Generator
파이썬의 가장 큰 특징 중 하나를 꼽을 수 있는 것으로 generator가 있다. generator를 자유롭게 쓸 수 있다면 조금 더 간결하면서도 효율적인 코드를 작성할 수 있다.

generator는 순회 가능하지만(즉, iterable 하지만) 실제 데이터가 메모리 상에는 올라가지 않은 데이터를 뜻한다. 데이터가 실제 메모리 상에 존재하지는 않기 메모리 측면에서 훨씬 효율적이다.

파이썬의 for 문은 다른 언어에 비해 비효율적이다. 그러나 generator를 쓴다면 for 문의 사용을 최소화 할 수 있다. 앞으로 다양한 머신러닝 프레임워크를 쓸 때에도 효율적인 구현을 위해서는 for 문의 사용을 최소화 해야하기 때문에 generator를 이용한 파이썬 코딩이 도움이 될 수 있다.

generator의 실제 구현은 yield 키워드를 통해서 가능하기에 관심이 있을 경우 검색을 권장한다.

파이썬에서 제공하는 가장 대표적인 generator는 range이다. 실제 range에 어떤 큰 숫자를 넣더라고 메모리 초과 에러가 뜨지는 않는다. 그러나 이러한 generator를 list와 같은 자료구조를 통해 메모리 상에 올리는 순간 에러가 발생할 것이다.

In [19]:
range(10**20)
# list(range(10**20)) <- don't try

range(0, 100000000000000000000)

데이터가 메모리 상에 올라와 있지 않기 때문에, 당연히 접근할 수도 없다. 오로지 for 문을 통해서만 접근할 수 있다.

In [20]:
for i in range(10**20):
    if i == 5:
        break
    print(i)
# print(range(10**20)[5]) <- error!

0
1
2
3
4


range 외에 파이썬에서 기본 제공하는 중요한 generator로는 enumerate, map, zip, filter, sorted가 있다. 각각의 기능은 다음과 같다.
- enumerate(iterable): 각 데이터의 위치와 해당 데이터의 순서쌍을 반환한다.
- map(function, iterable): 각 데이터를 function을 통해 바꾸어 반환한다.
- zip(iterable1, iterable2, ...): 순회 가능한 n개의 데이터를 순서쌍으로 묶어서 반환한다. 
- filter(function, iterable): 특정 조건을 만족하는 데이터만 반환한다.
- sorted(iterable, key=function): 특정 조건에 따라 정렬한 순서대로 반환한다. 디폴트로 오름차순으로 반환한다.

In [8]:
list1 = [3,1,4,1,5,9,2]
list2 = [4,9,6,7,3,4,1]
list3 = [6,7,6,8,5,4,3]
print("enumerate:",list(enumerate(list1)))
print("enumerate to dict:",dict(enumerate(list1)))
print("zip to list:",list(zip(list3,list2,list1)))

enumerate: [(0, 3), (1, 1), (2, 4), (3, 1), (4, 5), (5, 9), (6, 2)]
enumerate to dict: {0: 3, 1: 1, 2: 4, 3: 1, 4: 5, 5: 9, 6: 2}
zip to list: [(6, 4, 3), (7, 9, 1), (6, 6, 4), (8, 7, 1), (5, 3, 5), (4, 4, 9), (3, 1, 2)]


In [22]:
def map_func(x):
    return x*x
def func(x):
    return x > 3
print("map:",list(map(map_func, list1)))
print("type conversion to string using map:",list(map(str, list1)))
print("type conversion to integer using map:",list(map(int, "521457")))
print("filter:",list(filter(func, list2)))
print("sorted:",list(sorted(list3)))

map: [9, 1, 16, 1, 25, 81, 4]
type conversion to string using map: ['3', '1', '4', '1', '5', '9', '2']
type conversion to integer using map: [5, 2, 1, 4, 5, 7]
filter: [4, 9, 6, 7, 4]
sorted: [3, 4, 5, 6, 6, 7, 8]


이 외에도 itertools 에서 다양한 기능을 하는 generator를 제공하기에 찾아보는 것을 권장한다.

In [23]:
from itertools import combinations
for i in combinations(range(5), 2):
    print(i)

(0, 1)
(0, 2)
(0, 3)
(0, 4)
(1, 2)
(1, 3)
(1, 4)
(2, 3)
(2, 4)
(3, 4)


### join
generator와 연동이 좋은 메소드로는 문자열 처리에 큰 도움이 되는 join 메소드가 있다. join은 여러 문자열을 특정 문자열로 연결해주는 역할을 한다.

In [24]:
words = ["You","are","the","drug","that","I","am","addicted","to"]
' '.join(words)

'You are the drug that I am addicted to'

In [25]:
sents = 'You are the drug that I am addicted to'
words = sents.split()
'-'.join(words)

'You-are-the-drug-that-I-am-addicted-to'

In [26]:
"x".join("abcde")

'axbxcxdxe'

join 안의 인자는 list나 string이 아닌 generator여도 된다. 그러나 반환되는 모든 데이터는 문자열이기 때문에 map을 통해서 데이터 타입을 바꾸어 준다면 완벽히 join을 사용할 수 있다.

In [27]:
''.join(map(str, list1))

'3141592'

## 3. 함수
함수는 대부분의 프로그래밍 언어에 존재하며 파이썬에선 def 키워드를 통해 함수를 정의한다. 이번 강의에서는 파이썬에서의 특별한 함수 사용법을 알아본다.

### 익명 함수
generator는 일반적으로 특정 함수에 따라서 데이터를 반환할 때 매우 유용하다. 그러나 함수를 def를 통해 매번 정의를 한다면 코드가 매우 복잡해질 것이다. 이를 lambda 키워드를 통해 간결하게 익명 함수를 생성함으로써 해결한다.

In [28]:
list1 = [3,1,4,1,5,9,2]
list2 = [4,9,6,7,3,4,1]
print("map with lambda:",list(map(lambda x:x*x,list1)))
print("filter with lambda:",list(filter(lambda x:x>3,list2)))

map with lambda: [9, 1, 16, 1, 25, 81, 4]
filter with lambda: [4, 9, 6, 7, 4]


익명 함수는 하나의 변수로 생각하여 사용 할 수도 있다.

In [29]:
nums = [-4, 1, -5, 3, 2, -6, -7]
func = lambda x:x*x
print("map with lambda:", list(map(func, nums)))
print("sort with lambda:", list(sorted(nums, key=func)))

map with lambda: [16, 1, 25, 9, 4, 36, 49]
sort with lambda: [1, 2, 3, -4, -5, -6, -7]


### unpacking
파이썬을 통해 다양한 함수를 쓰다보면 인자의 개수가 많은 함수를 쓰는 경우도 있다. 이러한 함수를 사용할 때 unpacking을 통해 간결하게 코드를 짤 수 있다.

In [30]:
def so_many_args(a,b,c,d,e,f):
    return a+b*b+c+d*d+e+f*f
args = [6,-5,4,3,-2,-1]
print("naive:", so_many_args(args[0],args[1],args[2],args[3],args[4],args[5]))
print("unpacking:", so_many_args(*args))

naive: 43
unpacking: 43


인자의 개수가 가변적인 함수를 쓸 때도 unpacking은 유용하다. 가장 대표적인 예시로는 zip이 있다. 묶고 싶은 iterable 객체의 개수가 가변적일 경우 일일히 인자로 넘겨주는 것이 아닌 unpacking을 통해 인자로 넘겨주는 것이 가장 좋다.

다음의 예제를 살펴보자. 아래 코드와 같이 zip할 iterable의 개수가 가변적인 경우 unpacking이 없다면 if문을 통해 모든 경우의 수에 대해 처리를 해야한다.

In [31]:
# 다음의 예제를 여러번 실행해 보세요.
vectors = [
    [-3,1,5,6],
    [1,7,3,-8],
    [-8,6,5,2],
    [7,-2,-4,-7]
]
num_vecs = randint(2, 4)
print("num_vecs:", num_vecs)
sampled = vectors[:num_vecs]

if num_vecs == 2:
    print(list(zip(sampled[0], sampled[1])))
elif num_vecs == 3:
    print(list(zip(sampled[0], sampled[1], sampled[2])))
elif num_vecs == 4:
    print(list(zip(sampled[0], sampled[1], sampled[2], sampled[3])))

num_vecs: 2
[(-3, 1), (1, 7), (5, 3), (6, -8)]


그러나 unpacking을 사용하면 매우 간결해진다.

In [32]:
# 다음의 예제를 여러번 실행해 보세요.
num_vecs = randint(2, 4)
print("num_vecs:", num_vecs)
sampled = vectors[:num_vecs]

print(list(zip(*sampled)))

num_vecs: 3
[(-3, 1, -8), (1, 7, 6), (5, 3, 5), (6, -8, 2)]


## 4. Class
파이썬에서는 클래스를 제공한다. 객체 지향 프로그래밍에 대해 개인적으로 공부하는 것을 추천한다.

파이썬에서 클래스는 다음과 같이 선언한다. 클래스에는 생성자가 필요하며, 생성자의 이름은 __init__으로 고정된다. 일반적으로 생성자에서 멤버 변수를 선언하기도 한다. 그리고 클래스에서 메소드를 만들어 기능을 구현할 수 있다. 각 메소드의 첫번째 인자는 반드시 현재 객체를 뜻하는 self가 되어야 한다.

In [33]:
class MyClass:
    def __init__(self, var1, var2):
        self.var1 = var1
        self.var2 = var2
        
    def increment_var1(self):
        self.var1 += 1
    
    def increment_var2(self):
        self.var2 += 1

v = [1, 4]
myclass = MyClass(*v)

print("var1:", myclass.var1, "var2:", myclass.var2)
for i in range(10):
    if i % 2:
        myclass.increment_var1()
        print("increment var1")
    else:
        myclass.increment_var2()
        print("increment var2")
    print("var1:", myclass.var1, "var2:", myclass.var2)

var1: 1 var2: 4
increment var2
var1: 1 var2: 5
increment var1
var1: 2 var2: 5
increment var2
var1: 2 var2: 6
increment var1
var1: 3 var2: 6
increment var2
var1: 3 var2: 7
increment var1
var1: 4 var2: 7
increment var2
var1: 4 var2: 8
increment var1
var1: 5 var2: 8
increment var2
var1: 5 var2: 9
increment var1
var1: 6 var2: 9


### 상속
상속을 다른 클래스에서 구현된 기능을 현재 클래스에서 쉽게 가져올 수 있다. 다음 예제를 보자.

상속을 통해 IncAndDec 클래스에 inc 메소드를 구현하지 않고도 사용할 수 있다는 것을 확인할 수 있다.

In [34]:
class Increment:
    def __init__(self):
        self.var = 0
    
    def inc(self):
        self.var += 1
        
class IncAndDec(Increment):
    # 가져오고 싶은 클래스를 괄호 안에 추가
    # 해당 클래스가 부모 클래스가 된다.
    def __init__(self):
        # super()를 통해 부모 클래스를 불러오고 생성자를 호출한다.
        super().__init__()
    
    def dec(self):
        self.var -= 1

iad = IncAndDec()
iad.var

0

In [35]:
iad.inc()
print(iad.var)
iad.dec()
print(iad.var)

1
0


### Magic Method
파이썬 클래스의 특별한 점 중 하나는 매직 메소드다. 매직 메소드를 통해 클래스를 더욱 특별하게 사용할 수 있다. 이번 강의에서는 가장 간단한 __str__메소드에 대해 알아본다. 더 다양한 매직 메소드는 구글링을 통해 알아보는 것을 권장한다.

__str__메소드는 클래스를 문자열로 바꿨을 때 어떻게 출력하는지를 결정하는 메소드로 다음과 같이 쓸 수 있다.

In [36]:
class Student:
    def __init__(self, name, major, year, graduated):
        self.name = name
        self.major = major
        self.year = year
        self.graduated = graduated
        
    def __str__(self):
        if not self.graduated:
            return "{}은 {}학번이며 {}에서 재학중입니다.".format(self.name, self.year, self.major)
        else:
            return "{}은 {}학번이며 {}를 졸업했습니다.".format(self.name, self.year, self.major)
        
me = Student("한재연", "수학과", 17, False)
park = Student("박은빈", "심리학과", 11, True)
print(str(me))
print(str(park))

한재연은 17학번이며 수학과에서 재학중입니다.
박은빈은 11학번이며 심리학과를 졸업했습니다.


## 5. 과제
assignment1.py에 있는 함수들을 작성하고 현재 노트북 파일의 코드를 실행하여 결과를 확인하세요.

주의해야 할 점으론 주어진 예제에 대해서 맞다고 해서 정확한 코드를 작성했다는 보장이 없기에 다양한 예제를 시도해야 합니다.

In [37]:
# 과제 확인을 위해 해당 코드 셀을 먼저 실행하세요.
%load_ext autoreload
%autoreload 2

### Problem 1
크기 N x M 2차원 자연수 리스트가 주어집니다. 이 때, 각 리스트가 가지고 있는 숫자 중 자리수의 합이 가장 큰 숫자만을 뽑아내어 크기 N의 리스트를 구하세요. 자리수의 합이 같다면 먼저 나온 숫자를 출력하세요.

단, 함수 내부의 코드는 오로지 **한 줄**이어야 합니다.

In [38]:
from assignment1 import p1

example = [
    [1523, 7257, 27118, 1113001, 986, 54],
    [825, 57114, 189084, 97490, 4638, 2567],
    [8793, 246, 1461, 8628, 11464, 19867],
    [790071, 780086, 522, 7528, 97653, 2456],
    [4628, 8970, 2451, 16489, 1451, 791145]
]
answer = [986, 189084, 19867, 97653, 16489]
your_work = p1(example)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong


In [39]:
# 예제를 직접 만들어 실행하세요.
from assignment1 import p1

example = [
    [993, 100004, 72],
    [54, 1111113, 9],
    [1000002, 11, 101]
]
answer = [993, 54, 1000002]
your_work = p1(example)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong


In [40]:
# 예제를 직접 만들어 실행하세요.
from assignment1 import p1

example = [
    [123, 321, 123, 322],
    [654, 1513, 144, 876],
    [4010, 241, 1531, 541],
    [3, 1, 4, 4]
]
answer = [322, 876, 1531, 4]
your_work = p1(example)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong


In [41]:
# 예제를 직접 만들어 실행하세요.
from assignment1 import p1

example = None
answer = None
your_work = p1(example)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong


### Problem 2

one-hot encoding이란 인덱스의 집합이 주어졌을 때, 해당 인덱스에만 1을 부여하고 나머지 인덱스에는 0을 부여하여 데이터를 표현하는 방식입니다.

예를 들어, 주어진 인덱스의 집합이 [3, 0, 2, 1] 이라면 해당 집합을 다음과 같은 2차원 행렬로 표현할 수 있습니다.

\begin{matrix}
0 & 0 & 0 & 1 \\
1 & 0 & 0 & 0 \\
0 & 0 & 1 & 0 \\
0 & 1 & 0 & 0
\end{matrix}

크기 N의 정수 리스트가 주어집니다. 인덱스는 음수가 될 수 없기 때문에 음수 데이터를 삭제 한 이후, one-hot encoding이 되어있는 2차원 리스트를 구하세요.

주어지는 리스트는 0 이상의 정수가 적어도 하나 존재함이 보장됩니다.

단, 함수 내부 코드는 최대 **세 줄**이어야 합니다.

In [42]:
from assignment1 import p2

example = [5,1,0,-3,1,0,-2,4]
answer = [
    [0, 0, 0, 0, 0, 1],
    [0, 1, 0, 0, 0, 0],
    [1, 0, 0, 0, 0, 0],
    [0, 1, 0, 0, 0, 0],
    [1, 0, 0, 0, 0, 0],
    [0, 0, 0, 0, 1, 0]]
your_work = p2(example)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong


In [43]:
from assignment1 import p2

example = [0,-1,-2,-3]
answer = [[1]]
your_work = p2(example)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong


In [44]:
from assignment1 import p2

example = [10, 0, 5, -5, 0, -10]
answer = [
    [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
    [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
    [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
    [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]
your_work = p2(example)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong


In [45]:
from assignment1 import p2

example = None
answer = None
your_work = p2(example)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong


### Problem 3
다솜이는 프로젝트를 위해 주어진 세글자 한글 단어가 한국 이름이 될 수 있는지 판별하고자 합니다. 그러나 다솜이가 가지고 있는 이름 데이터는 모두 세글자이며 모든 한글 이름에 비해 데이터의 개수가 매우 적습니다.

데이터가 적은 문제를 해결하기 위해 다솜이는 다음의 방법을 고안했습니다.

1. 데이터에 있는 이름의 첫 글자는 항상 성이고 나머지 두 글자는 이름이다.
2. 주어진 단어의 첫 글자가 데이터에 존재하는 성이면서 주어진 단어의 나머지 두 글자가 데이터에 존재하는 이름이라면 한국 이름이 될 수 있다고 판단한다.

예를 들어, 이름 데이터가 [한재연, 이혁준, 김선웅, 배윤호, 연유정] 일 때, 단순 비교를 할 경우 "한윤호" 라는 이름에 대해서는, 데이터셋에 존재하지 않기 때문에 한국 이름이 될 수 없다고 판단합니다. 그러나, 위와 같은 방법을 이용한다면 성이 한씨인 데이터가 "한재연"으로 존재하며, 이름이 "윤호"인 데이터가 "배윤호"로 존재하므로, 데이터셋에 존재하지 않음에도 불구하고 이름으로 판단할 수 있습니다.

돈이 많은 다솜이는 현금을 대가로 당신에게 해당 로직의 구현을 부탁했습니다.

입력으로 세글자 한글 단어를 가지고 있는 두 리스트가 주어집니다. 첫번째 리스트는 판별하고싶은 단어이며 두번째 리스트는 다솜이가 가지고 있는 이름 데이터입니다. 함수의 출력으로는 각 단어가 이름이 될 수 있는지 여부를 나타내는 True/False 값입니다. 만약 해당 단어가 이름이 될 수 있다면 True, 그렇지 않다면 False가 들어 있는 리스트를 출력해야 합니다.

단, 함수 내부 코드는 최대 **네 줄**이어야 합니다.

In [46]:
from assignment1 import p3

sample = ["한윤호", "김유정", "배혁준", "오재연", "정승훈", "김선웅", "비행기"]
data = ["한재연", "이혁준", "김선웅", "배윤호", "연유정"]
answer = [True, True, True, False, False, True, False]
your_work = p3(sample, data)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong


In [47]:
from assignment1 import p3

sample = ["컴퓨터", "전태형", "김호석", "민지민", "박태석", "마스크"]
data = ["김남준", "전정국", "박지민", "김석진", "김태형", "민윤기", "정호석"]
answer = [False, True, True, True, False, False]
your_work = p3(sample, data)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong


In [48]:
from assignment1 import p3

sample = ["전화기", "컴퓨터", "마스크", "유튜브", "비행기", "유재석"]
data = ["전퓨터", "비화기", "컴스크", "유행기", "마튜브"]
answer = [True, True, True, True, True, False]
your_work = p3(sample, data)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong


In [49]:
from assignment1 import p3

sample = None
data = None
answer = None
your_work = p3(sample, data)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong


### Problem 4
자연어 처리에서 중요한 작업 중 하나는 문장을 벡터로 바꾸는 일입니다. 이를 위해서 먼저 가지고 있는 문장 데이터를 단어 단위로 나눈 후, 각 단어에 인덱스를 매칭 시켜야 합니다. 다음으로는, 바꾸고 싶은 문장을 단어 단위로 나눈 후, 각 단어를 해당 단어에 매칭된 인덱스로 바꾸는 작업을 합니다. 이러한 과정을 통해 하나의 문장은 하나의 정수 벡터로 변환됩니다.

승훈이에게는 방대한 영어 문장 데이터셋이 있습니다. 이 데이터셋을 이용하여 주어진 문장을 벡터로 바꾸고자 합니다. 그러나 승훈이는 위와 같은 방법엔 주어진 문장에 존재하는 단어가 데이터셋에는 존재하지 않을 경우, 즉 Out of Vocabulary에 대한 처리를 할 수 없다는 문제점을 발견했습니다. 이를 해결하기 위해 승훈이는 다음과 같은 방법으로 단어에 인덱스를 매칭하고자 합니다.

1. 모든 글자를 소문자로 변경한다.
2. 띄어쓰기(공백)를 기준으로 문장을 나눈다.
3. 각 단어에 대한 인덱스는 사전순으로 인덱스에 매칭한다.
4. 그럼에도 주어진 단어가 데이터에 존재하지 않을 경우 (마지막 인덱스 + 1)로 해당 단어를 변환한다.

예를 들어, 데이터셋으로 ["Hello my name is Park", "my favorite park is Yosemite"] 가 주어지면, 모든 글자를 소문자로 변경 한 후 띄어쓰기 기준으로 문장을 나눈 후 합치면 ["hello", "my", "name", "is", "park", "my", "favorite", "park", "is", "yosemite"]가 됩니다. 그러나 "my", "is", "park"는 중복 되기 때문에 오로지 ["hello", "my", "name", "is", "park", "favorite", "yosemite"] 만 남게 되며, 이를 사전 순서대로 인덱스를 부여하면 다음과 같이 인덱스가 매칭이 됩니다.

- favorite: 0
- hello: 1
- is: 2
- my: 3
- name: 4
- park: 5
- yosemite: 6

이 때, 주어진 문장이 "Hello my favorite food is pizza"라면, "hello", "my", "favorite", "is" 는 각각 1, 3, 0, 2으로 변환이 가능하지만, "food", "pizza"는 단어 셋에 존재하지 않기 때문에 마지막 인덱스인 6에 1을 더한 7로 변환하여 최종적으로 [1, 3, 0, 7, 2, 7]이 됩니다.

파이썬을 하나도 모르기에 구현 할 수 없었던 승훈이는 해당 로직에 대한 구현을 당신에게 부탁했습니다. 입력으로 변환할 영어 문장 리스트와 문장 데이터셋 리스트가 주어질 때, 각 영어 문장을 벡터로 변환한 2차원 리스트를 반환하는 함수를 구현하세요. 주어지는 영어 문장은 오로지 알파벳 대소문자와 공백만으로 이루어져 있습니다.

단, 함수 내부 코드는 최대 **여섯 줄**이어야 합니다.

In [50]:
from assignment1 import p4

sample = ["Hello my favorite food is pizza", "Yosemite is the best park ever"]
data = ["Hello my name is Park", "my favorite park is Yosemite"] 
answer = [[1, 3, 0, 7, 2, 7], [6, 2, 7, 7, 5, 7]]
your_work = p4(sample, data)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong


In [51]:
from assignment1 import p4

sample = [
    "What is the point in saying that when you know how I will react",
    "You think you can just take it back but shit just dont work like that",
    "You are the drug that I am addicted to and I want you so bad",
    "Guess I am stuck with you and that is that"
]
          
data = [
    "What is the trick",
    "I wish I knew",
    "I am so done with thinking through all the things I could have been",
    "And I know you want me too",
    "All it takes is that one look at you and I run right back to you",
    "You cross the line and it is time to say F you"
]
answer = [
    [35, 12, 26, 39, 39, 39, 25, 39, 38, 15, 39, 11, 39, 39],
    [38, 39, 38, 39, 39, 39, 13, 4, 39, 39, 39, 39, 39, 39, 25],
    [38, 39, 26, 39, 25, 11, 1, 39, 31, 2, 11, 34, 38, 23, 39],
    [39, 11, 1, 39, 37, 38, 2, 25, 12, 25]]
your_work = p4(sample, data)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong


In [52]:
from assignment1 import p4

sample = None
data = None
answer = None
your_work = p4(sample, data)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong


### Problem 5
컴퓨터로 이미지를 표현할 때 일반적으로 2차원(흑백) 혹은 3차원(컬러) 행렬을 사용합니다. 이미지를 행렬로 표현하면 이미지에 대한 전처리를 편리하게 할 수 있습니다.

지연이는 프로젝트를 위해 흑백 이미지 데이터를 전처리 할 수 있는 코드를 만들고자 합니다. 흑백 이미지는 모든 원소가 0에서 1사이 값을 가지는 2차원 행렬로 표현 합니다. 이 때, 주로 구현할 기능은 다음과 같습니다.

- ImgAdd: 두 이미지의 각 원소를 더하는 연산. 단, 결과 값이 0보다 작을 경우 0, 1보다 클 경우 1의 값을 가진다.
- Transpose: 이미지를 transpose 시키는 연산.
- FixBrightness: 특정 값보다 값이 높은 부분을 특정 비율만큼 줄여주는 연산.
- Pad: 상하좌우 1줄씩 0으로 채워진 데이터를 추가하는 연산.

지연이는 처음에는 막막했지만 구글링을 통해 2차원 행렬에 대한 기본적인 연산을 할 수 있는 클래스를 발견했습니다. 그러나 클래스에 대해 잘 몰랐던 지연이는 당신에게 구현을 부탁했습니다.

assignment1.py에는 Matrix2d라는 클래스가 존재합니다. 해당 클래스를 상속받아 p5 함수가 적절한 작동을 할 수 있게끔 GrayScaleImg 클래스를 작성하세요.

Hint: generator 등을 사용하여 간결하게 구현해보세요.

In [53]:
from assignment1 import Matrix2d, p5
from pprint import pprint

args = [[[0,0.1,0.2],[0.2,0.3,0.5]],0.4,[[0.1,1,0.1],[0.1,0.1,0.1]],0.15,0.5]
answer = {
    'lower': [(0, 0), (0, 1), (0, 2), (1, 0), (1, 1)],
    'add': Matrix2d([[0.1, 1, 0.30000000000000004], [0.30000000000000004, 0.4, 0.6]]),
    'transpose': Matrix2d([[0.1, 0.30000000000000004], [1, 0.4], [0.30000000000000004, 0.6]]),
    'fix': Matrix2d([[0.1, 0.15000000000000002], [0.5, 0.2], [0.15000000000000002, 0.3]]),
    'pad': Matrix2d([[0, 0, 0, 0], [0, 0.1, 0.15000000000000002, 0], [0, 0.5, 0.2, 0], [0, 0.15000000000000002, 0.3, 0], [0, 0, 0, 0]])}
your_work = p5(*args)

print("your answer:")
pprint(your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

[Error] 'GrayScaleImg' object has no attribute 'shape'
your answer:
None
wrong


In [54]:
from assignment1 import Matrix2d, p5
from pprint import pprint

args = [0,0,0,0,0]
answer = None
your_work = p5(*args)

print("your answer:")
pprint(your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

[Error] 'int' object is not iterable
your answer:
None
wrong


### Problem 6 (Bonus)
피보나치 수열은 자연수 $n$에 대해 다음을 만족합니다.

$$ a_n=a_{n-1}+a_{n-2} \forall n \geq  2, a_0=0,a_1=1 $$

입력으로 0보다 크거나 같은 정수 n이 들어올 때 n번째 피보나치 수 $a_n$을 구하는 함수를 작성하세요. 단, 숫자가 너무 커질 수 있으니 $10^9+7$로 나눈 나머지를 구하세요.

In [55]:
from assignment1 import p6

n = 10
answer = 55
your_work = p6(n)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong


In [56]:
from assignment1 import p6

n = 100
answer = 687995182
your_work = p6(n)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong


In [57]:
from assignment1 import p6

n = 10**15
answer = 648325137
your_work = p6(n)

print("your answer:", your_work)
print("correct" if answer is not None and answer == your_work else "wrong")

your answer: None
wrong
