# **CHAPTER_3**

## **3.1 자료구조와 순차 자료형**

### **3.1.1 튜플**

변경 불가능한 순차 자료형이며 쉼표로 구분된 값을 가진다. 

In [None]:
tup = 4, 5, 6
tup

(4, 5, 6)

In [None]:
nested_tup = (4, 5, 6), (7, 8)
nested_tup

((4, 5, 6), (7, 8))

In [None]:
# 순차 자료형 및 이터레이터는 tuple 메서드를 호출해 변환할 수 있다. 
tuple([4, 0, 2])

(4, 0, 2)

In [None]:
tup = tuple('string')

# 튜플의 각 원소는 인덱스를 통해 접근 가능하다.
tup[0]

's'

In [1]:
# 객체 자체는 변경이 가능하지만 각 슬롯에 저장된 객체는 변경할 수 없다. 
tup = tuple(['foo', [1, 2], True])
tup[2] = False

TypeError: ignored

In [None]:
tup[1].append(3)
tup

('foo', [1, 2, 3], True)

**튜플에서 값 분리하기** 

In [None]:
tup = (4, 5, 6)
a, b, c = tup
a

4

In [None]:
# 튜플에 저장된 값 이상의 변수를 생성할 시 오류가 발생한다. 
# a, b, c, s = tup
a

ValueError: ignored

튜플을 사용하면 값을 분리하는 것이 편리하며, 이는 변수 값 교환이 쉽게 이뤄질 수 있게한다. 튜플이나 리스트 순회 시 이 기능을 활용한다. 

In [None]:
a, b = 1, 2
a

1

In [None]:
# a, b의 값을 바꾼다. 
b, a = a, b
a

2

In [None]:
# 순회 사용 예시
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
for a, b, c in seq:
    print('a = {0}, b = {1}, c = {2}'.format(a, b, c))

a = 1, b = 2, c = 3
a = 4, b = 5, c = 6
a = 7, b = 8, c = 9


위에서 튜플의 길이와 할당하고자 하는 변수의 길이가 일치하지 않을 경우 오류가 발생하는 것을 확인하였는데, 이는 *rest를 사용해서 함수의 시그니처에서 길이를 알 수 없는 긴 인자를 담을 수 있다. 

In [None]:
values = 1, 2, 3, 4, 5
a, b, *rest = values
rest

[3, 4, 5]

### **3.1.2 리스트**

리스트는 가변적이며 데이터를 잘 관리하기 위해서 묶어서 관리할 수 있는 자료형 중 하나이다. list()를 통해 생성가능하다. 

In [None]:
list1 = [2, 3, 7, None]

# type 함수를 통해 리스트를 생성했음을 확인할 수 있다. 
type(list1)

list

In [None]:
tup = ('sps', 'lab', 'seminar')
b_list = list(tup)
b_list

['sps', 'lab', 'seminar']

In [None]:
# lab의 값을 winter로 변경하는 것을 확인할 수 있다. 
b_list[1] = 'winter'
b_list

['sps', 'winter', 'seminar']

**원소 추가하고 삭제하기**

append, insert 메서드를 통해 새로운 값을 추가할 수 있으며 remove, pop을 통해 원소를 제거할 수 있다. 

In [None]:
# 첫번째 인덱스에 lab 단어를 추가한다. 
b_list.insert(1, 'lab')
b_list

['sps', 'lab', 'winter', 'seminar']

In [None]:
# 두번째 인덱스의 값을 제거한다. 
b_list.pop(2)
b_list

['sps', 'lab', 'seminar']

리스트는 두 개의 리스트를 붙여 하나의 리스트로 만들 수 있는데 이런 경우 덧셈 연산자보다 extend 메서드를 사용하는 것이 연산비용이 작다. 

In [None]:
%time
x = [4, None, 'foo'] 
[4, None, 'foo'] + [7, 8, (2, 3)]

CPU times: user 4 µs, sys: 1e+03 ns, total: 5 µs
Wall time: 14.5 µs


[4, None, 'foo', 7, 8, (2, 3)]

In [None]:
%time
x = [4, None, 'foo']
x.extend([7, 8, (2, 3)])
x

CPU times: user 3 µs, sys: 0 ns, total: 3 µs
Wall time: 5.96 µs


[4, None, 'foo', 7, 8, (2, 3)]

%time을 통해 확인한 결과 extend를 사용했을 때 절반 정도의 시간이 적게 소요되는 것을 확인할 수 있다. 

**정렬**

In [None]:
a = [2021, 1, 13, 11, 59]
a.sort()
a

[1, 11, 13, 59, 2021]

**이진 탐색과 정렬된 리스트 유지하기**

In [None]:
# bisect 모듈을 이용할 경우 정렬된 형태를 유지 및 반환할 수 있다. 

import bisect
c = [1, 2, 2, 2, 3, 4, 7]
bisect.bisect(c, 2)

4

In [None]:
# 위치를 지정하지 않아도 적절한 위치를 찾아 값을 대입한다. 
bisect.insort(c, 6)
c

[1, 2, 2, 2, 3, 4, 6, 7]

**슬라이싱**

인덱스 범위를 지정하여 리스트를 자를 수 있으며 대입도 가능하다. 음수 색인은 자료형의 끝에서부터의 위치를 나타낸다. 

In [None]:
seq = [7, 2, 3, 7, 5, 6, 0, 1]
seq[1:5]

[2, 3, 7, 5]

In [None]:
seq[::-1]

[1, 0, 6, 5, 7, 3, 2, 7]

### **3.1.3 내장 순차 자료형 함수**

**enumerate**

순차 자료형에서의 값과 그 위치를 dict에 넘겨준다. 

In [None]:
some_list = ['sps', 'lab', 'seminar']
mapping = {}
for i, v in enumerate(some_list):
    mapping[v] = i
mapping

{'lab': 1, 'seminar': 2, 'sps': 0}

**sorted**

정렬된 새로운 순차 자료형을 반환한다. 

In [None]:
sorted('programming seminar')

[' ',
 'a',
 'a',
 'e',
 'g',
 'g',
 'i',
 'i',
 'm',
 'm',
 'm',
 'n',
 'n',
 'o',
 'p',
 'r',
 'r',
 'r',
 's']

**zip**

동일한 개수로 이루어진 자료형을 묶어준다. 여러 개의 순차 자료형을 입력받을 수 있으며 반환되는 리스트의 크기는 가장 짧은 크기로 정해진다. 여러 개의 순차 자료형을 동시에 순회하는 경우에 주로 사용되며, zip을 통해서 반대의 경우로 변환할 수 있다. 

In [None]:
pitchers = [('Kim', 'Jieun'), ('웨스', '맥키니'),
            ('메건', '블란쳇')]
first_names, last_names = zip(*pitchers)
first_names

('Kim', '웨스', '메건')

### **3.1.4 사전**

유연한 크기를 가지는 키-값 쌍이며 키와 값은 모두 파이썬 객체이다. 인덱스를 통해서 값에 접근할 수 있으며 리스트나 튜플과 동일한 문법으로 키 값의 존재 여부를 확인할 수 있다. 각각 키와 값이 담긴 이터레이터를 반환하며 반환하는 리스트는 같은 순서를 가진다. 

In [None]:
empty_dict = {}
d1 = {'a' : 'some value', 'b' : [1, 2, 3, 4]}
d1

{'a': 'some value', 'b': [1, 2, 3, 4]}

In [None]:
d1[7] = 'an integer'
d1

{7: 'an integer', 'a': 'some value', 'b': [1, 2, 3, 4]}

In [None]:
# del 명령어를 통해서 사전의 값을 삭제할 수 있다. 
del d1['a']
d1

{7: 'an integer', 'b': [1, 2, 3, 4]}

**순차 자료형에서 사전 생성하기**

In [None]:
# dict 함수가 2개의 튜플 리스트를 인자로 받아 사전을 형성할 수 있다. 
mapping = dict(zip(range(5), reversed(range(5))))
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

**기본값**

### **3.1.5 집합**

유일한 원소만 담는 정렬되지 않은 자료형이다. set 함수나 {}를 통해서 생성하며, 생성된 결과값은 유니크한 값만 남는다. union, intersection 함수를 통해서 집합 연산을 적용할 수 있다. 사전과 마찬가지로 원소들을 변경할 수 없으며, 튜플 형식으로 변경하여 원소를 담아야한다.  

In [None]:
set([2, 2, 2, 1, 3, 3])

{1, 2, 3}

In [None]:
a = {1, 2, 3, 4, 5}
b = {3, 4, 5, 6, 7, 8}

In [None]:
a.intersection(b)

{3, 4, 5}

### **3.1.6 리스트, 집합, 사전 표기법** 

리스트 표기법을 통해 반복문을 사용하지 않은 간결한 표현을 만들 수 있다. 

In [None]:
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']
[x.upper() for x in strings if len(x) > 2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

In [None]:
# 반복문일 경우
result = []

for x in strings:
  if len(x)>2:
    result.append(x.upper())

result

['BAT', 'CAR', 'DOVE', 'PYTHON']

**중첩된 리스트 표기법**

In [None]:
# 이름값 데이터에서 e가 2개 이상 포함된 이름을 구하고 싶은 경우에 대한 예시이다. 

all_data = [['John', 'Emily', 'Michael', 'Mary', 'Steven'],
            ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']]

# count 메소드를 통해서 단일 문장으로 표현할 수 있다. 
result = [name for names in all_data for name in names if name.count('e') >= 2]
result

['Steven']

## **3.2 함수**

def 예약어로 정의하고 return 예약어를 사용해서 값을 반환한다. 여러개의 인자를 인풋값으로 받을 수 있으며 return 문도 여러개 사용 가능하다. 

### **3.2.1 네임스페이스, 스코프, 지역함수**

함수는 전역, 지역 변수를 참조한다. 함수 내에서 선언된 경우 지역 네임스페이스에 속하고 함수가 호출될 때 생성되며, 실행이 끝나면 사라진다. 함수의 스코프 밖의 변수(전역변수)에 값을 대입하기 위해선 global 옵션을 사용해야한다. 

In [None]:
# 함수 밖에서 정의된 변수 a
a = None

def bind_a_variable():
    global a
    a = []
bind_a_variable()
print(a)

[]


### **3.2.2 여러 값 반환하기**

In [None]:
# 여러 값 반환 

def fun():
  a = 5
  b = 7
  c = 3
  return a, b, c

a, b, c = fun()

In [None]:
a, b, c

(5, 7, 3)

### **3.2.3 함수도 객체다** 

데이터가 원하는 형태로 되어있지 않아서 전처리를 해야하는 경우 정규 표현식과 메서드를 이용해서 쉽게 처리가능하다. re 표준 라이브러리를 사용하며, 특수기호 및 문장 부호 들을 제거하여 사용할 수 있다. 

In [None]:
# 전처리를 위한 함수 clean_strings
import re

def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()
        value = re.sub('[!#?]', '', value)
        value = value.title()
        result.append(value)
    return result

In [None]:
states = ['Alabama ', 'Georgia!', 'Georgia', 'georgia', 'FlOrIda', 'south   carolina##', 'West virginia?']

In [None]:
clean_strings(states)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

### **3.2.4 익명 함수**

람다 함수는 함수지만 기존의 함수 선언 문법과 달리 함수를 정의하지 않고도 사용할 수 있는 함수이다. 함수의 이름을 정의하지 않고 람다로 만든 함수를 변수에 할당하여 사용할 수 있다. 

In [None]:
strings = ['foo', 'card', 'bar', 'aaaa', 'abab']

In [None]:
# 다양한 문자를 가진 순서대로 정렬하는 경우이다. 
strings.sort(key = lambda x: len(set(list(x))))
strings

# key 인자에 함수를 넘겨줘 반환 값을 비교하며 순서대로 정렬한다. 

['aaaa', 'foo', 'abab', 'bar', 'card']

In [None]:
len(set(list(strings)))

5

### **3.2.5 커링: 일부 인자만 취하기**

숫자 2개를 더하는 함수의 경우 일부 문자인 1개의 문자만을 추가로 받아 더하는 기법이다. 

In [None]:
def add_numbers(x, y): 
  return x + y

add_five = lambda y: add_numbers(5, y)

In [None]:
add_five(3)

8

### **3.2.6 제너레이터**

이터레이터를 생성하는 함수로 순회가능한 객체를 생성할 수 있다. 무한한 순서가 있는 객체를 모델링할 수 있으며 내부 로컬 변수를 통해 내부 상태가 유지되는 것이 특징이다. 제너레이터로부터 값을 요청하는 순간 제너레이터의 코드가 실행된다. 

In [None]:
some_dict = {'a': 1, 'b': 2, 'c': 3}
for key in some_dict:
    print(key)

a
b
c


In [None]:
dict_iterator = iter(some_dict)
list(dict_iterator)

['a', 'b', 'c']

In [None]:
# 제너레이터를 생성하기 위해 return 대신 yield 예약어를 사용한다. 
def squares(n=10):
    print('Generating squares from 1 to {0}'.format(n ** 2))
    for i in range(1, n + 1):
        yield i ** 2

gen = squares()
for x in gen:
    print(x, end=' ')

Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100 

**제너레이터 표현식**

괄호를 통해 제너레이터를 표현식으로 생성할 수 있다. 이를 통해 더욱 간단하게 표현 가능하다. 

In [None]:
gen = (x ** 2 for x in range(100))
gen

<generator object <genexpr> at 0x7f72091b6a40>

In [None]:
# 표현식이 아닌 기본 함수로 나타낸 제너레이터이다. 
def make_gen(): 
  for x in range(100): 
    yield x ** 2 
    
gen = make_gen()

**itertools 모듈**

모듈을 통해 사용 가능하며 combinations, permutations 등의 많은 함수를 포함하고 있다. 

In [None]:
# 첫번째 문자를 기준으로 그룹화를 실시하는 코드이다. 
import itertools

first_letter = lambda x: x[0]
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']
for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names))

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


### **3.2.7 에러와 예외 처리**

try/except 블록을 사용하여 적절하지 않은 입력에 대한 처리를 실시한다. 발생하는 오류 중 TypeError는 정당한 오류이며 그 외에 무시하고자하는 에러를 예외의 종류로 작성한다. 이 때 튜플을 사용하여 여러 예외를 한 번에 적용할 수 있다. 

**IPython에서 예외 처리**

%run을 사용해서 실행시킬 경우 주변 코드가 함께 출력되어 문제가 되는 부분을 확인할 수 있다. 이를 통해서 발생하는 에러의 종류를 확인하고 코드 수정 및 예외처리가 가능해진다. 더욱 자세하게 보기 위해서는 %xmode 매직 명령어를 사용하여 해결할 수 있다.

## **3.3 파일과 운영체제**

open 함수를 사용해서 저장된 파일을 읽을 수 있다. 옵션을 지정하여 파일을 읽는 용도로만 읽거나 W를 통해 쓰기 모드로 지정할 수도 있다. 또한 read, seek, tell 메서드를 사용하여 읽을 수 있다. 


*   read: 읽은 바이트만큼 파일 핸들의 위치를 옮긴다. 
*   tell: 현재 위치를 알려준다
*   seek: 파일 핸들의 위치를 해당 파일에서 지정한 바이트 위치로 옮긴다. 



In [None]:
path = '/content/paperseminar.csv'
f = open(path)

In [None]:
lines = [x.rstrip() for x in open(path)]
lines

['Truong, C., Oudre, L., & Vayatis, N. (2020). Selective review of offline change point detection methods. Signal Processing, 167, 107299.',
 'van den Burg, G. J., & Williams, C. K. (2020). An Evaluation of Change Point Detection Algorithms. arXiv preprint arXiv:2003.06222.',
 '',
 '1. (ICLR2021) DOSOVITSKIY, Alexey, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020.',
 '2. (NIPS) VASWANI, Ashish, et al. Attention is all you need. In: Advances in neural information processing systems. 2017. p. 5998-6008."',
 '',
 'Main: Smith, Kaleb E., and Anthony O. Smith. ""Conditional GAN for timeseries generation."" arXiv preprint arXiv:2006.16477 (2020).',
 'Reference 1: T-CGAN: Conditional Generative Adversarial Network for Data Augmentation in Noisy Time Series with Irregular Sampling',
 '']

In [None]:
f.close()

In [None]:
# 시스템 상의 기본 인코딩을 확인할 수 있다. 

import sys
sys.getdefaultencoding()

'utf-8'

### **3.3.1 바이트와 유니코드** 

파이썬의 경우 필요한 바이트만큼 읽고 디코딩을 실시한다. 만일 특정 바이트 수를 지정할 경우 해당 범위의 값만 읽어들인다. 유니코드 문자로 인코딩 되어있을 경우 str 객체로 직접 디코딩할 수 있다. 

파이썬에서는 유니코드 문자열 형태를 기준으로 문자 단위의 처리를 실시한다. 특히 한글을 처리할 경우 유니코드 문자열을 사용하면, 데이터의 깨짐 없이 사용할 수 있다. 문자열 앞에 [u] 혹은 [U]를 붙이거나 unicode 함수를 사용하면 유니코드 문자열이 된다. 

(참고) https://ponyozzang.tistory.com/258

In [None]:
with open(path) as f:
    chars = f.read(10)
    
chars

'Truong, C.'