###  3.1 자료구조와 순차 자료형

####  3.1.1 tuple

In [1]:
# 문자열을 tuple로 하면 하나씩 나눠진다
tup = tuple('string')
tup

('s', 't', 'r', 'i', 'n', 'g')

In [2]:
tup = tuple(['foo', [1, 2], True])
tup

('foo', [1, 2], True)

In [3]:
# 튜플 안 리스트에 원소 추가
# 튜플 자체에서 append 에러
tup[1].append(3)
tup

('foo', [1, 2, 3], True)

In [4]:
# tuple 원소 하나 있을 때는 항상 쉼표(,) 추가
# ex) ('bar',)
(4, None, 'foo') + (6, 0) + ('bar',)

(4, None, 'foo', 6, 0, 'bar')

In [5]:
'''tmp = a
a = b
b = tmp'''
a, b = 1, 2
b, a = a, b
a, b

(2, 1)

In [6]:
values = 1, 2, 3, 4, 5
a, b, *rest = values
print(a)
print(b)
print(*rest)
print(rest)

1
2
3 4 5
[3, 4, 5]


In [7]:
a, b, *_ = values
print(a)
print(b)
print(*_)
print(_)

1
2
3 4 5
[3, 4, 5]


In [8]:
# tuple 함수(Count)
a = (1, 2, 2, 2, 3, 4, 2)
a.count(2)

4

#### 3.1.2 List

In [9]:
x = [4, None, 'foo']
y = [7, 8, (2, 3)]
print(x + y)

# 더하기와 동일
x.extend([7, 8, (2, 3)])
x

[4, None, 'foo', 7, 8, (2, 3)]


[4, None, 'foo', 7, 8, (2, 3)]

In [10]:
b = ['saw', 'small', 'He', 'foxes', 'six']
# 문자열 길이를 기준으로 정렬
b.sort(key=len) # reverse=True
b

['He', 'saw', 'six', 'small', 'foxes']

In [11]:
# 이진 탐색 / 정렬된 리스트에서 이용
import bisect
c = [1, 2, 2, 2, 3, 4, 7]
print(bisect.bisect(c, 2))
print(bisect.bisect(c, 5))
print(bisect.insort(c, 6))
c

4
6
None


[1, 2, 2, 2, 3, 4, 6, 7]

In [12]:
# 문자열을 리스트로 변형 후 정렬
sorted('horse race')

[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

#### 3.1.3 내장 순차 자료형 함수

In [13]:
# ZIP : tuple 형태로 저장
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']
list(zip(seq1, seq2))

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

In [14]:
# 매칭되지 못한 값은 삭제(seq3 삭제)
seq3 = [False, True]
list(zip(seq1, seq2, seq3))

[('foo', 'one', False), ('bar', 'two', True)]

In [15]:
# index, value1, value2
for i, (a, b) in enumerate(zip(seq1, seq2)):
    print('{0}: {1}, {2}'.format(i, a, b))

0: foo, one
1: bar, two
2: baz, three


In [16]:
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'),
            ('Schilling', 'Curt')]
# 짝지어진 자료를 풀 수도 있다
first_names, last_names = zip(*pitchers)
print(first_names)
print(last_names)

('Nolan', 'Roger', 'Schilling')
('Ryan', 'Clemens', 'Curt')


#### 3.1.4 Dictionary

In [17]:
empty_dict = {}
d1 = {'a' : 'some value', 'b' : [1, 2, 3, 4]}
print(d1)
print(list(d1.keys()))
print(list(d1.values()))

{'a': 'some value', 'b': [1, 2, 3, 4]}
['a', 'b']
['some value', [1, 2, 3, 4]]


In [18]:
# dictionary에 값 추가
d1.update({'b' : 'foo', 'c' : 12})
d1

{'a': 'some value', 'b': 'foo', 'c': 12}

In [19]:
# zip을 이용한 dict 생성
mapping = dict(zip(range(5), reversed(range(5))))
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

In [20]:
# 사전과 같은 기능을 구현한 코드(해싱)
words = ['apple', 'bat', 'bar', 'atom', 'book']
by_letter = {}
for word in words:
    letter = word[0]
    # 새로운 알파벳일 경우 새롭게 생성
    if letter not in by_letter:
        by_letter[letter] = [word]
    # 있는 알파벳일 경우 추가
    else:
        by_letter[letter].append(word)
by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

In [21]:
# dict key에 튜플도 가능
d = {}
d[tuple([1, 2, 3])] = 5
d

{(1, 2, 3): 5}

#### 3.1.5 Set

In [22]:
a = {1, 2, 3, 4, 5}
b = {3, 4, 5, 6, 7, 8}

# 합집합
a.union(b)
print(a | b)

# 교집합
a.intersection(b)
print(a & b)

{1, 2, 3, 4, 5, 6, 7, 8}
{3, 4, 5}


In [23]:
a_set = {1, 2, 3, 4, 5}
# {1,2,3}이 a_set의 부분집합인지
print({1, 2, 3}.issubset(a_set))

# a_set이 {1,2,3}을 포함하는 집합인지
print(a_set.issuperset({1, 2, 3}))

True
True


In [24]:
{1, 2, 3} == {3, 2, 1}

True

####  3.1.6 리스트, 집합, 사전 표기법

In [25]:
# 문자열 중 길이가 2이상인 문자열을 upper()
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']
[x.upper() for x in strings if len(x) > 2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

In [26]:
# 문자열 길이를 set으로 저장
unique_lengths = {len(x) for x in strings}
unique_lengths

{1, 2, 3, 4, 6}

In [27]:
# 문자열 길이로 mapping후 set으로 type변경
set(map(len, strings))

{1, 2, 3, 4, 6}

In [28]:
# dict로 저장
loc_mapping = {val : index for index, val in enumerate(strings)}
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

In [29]:
all_data = [['John', 'Emily', 'Michael', 'Mary', 'Steven'],
            ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']]

# 문자열 리스트 중 e와 a의 수가 두 번 나오는 문자열 출력
# 이중 리스트를 단일 리스트로 축소
result = [name for names in all_data for name in names if name.count('e') + name.count('a') >= 2]
result

['Michael', 'Steven', 'Maria', 'Javier', 'Natalia']

In [30]:
# 이중 리스트를 단일 리스트로 축소
some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
# 이중 for문
flattened = [x for tup in some_tuples for x in tup]
flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [31]:
# 리스트 안의 type을 list로 변경
[[x for x in tup] for tup in some_tuples]

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

### 3.2 함수

In [32]:
a = None
def bind_a_variable():
    # 전역변수
    global a
    a = []
bind_a_variable()
print(a)

[]


In [33]:
import re

states = ['   Alabama ', 'Georgia!', 'Georgia', 'georgia', 'FlOrIda',
          'south   carolina##', 'West virginia?']

def clean_strings(strings):
    result = []
    for value in strings:
        # 공백 제거
        value = value.strip()
        # 특수문자 제거
        value = re.sub('[!#?]', '', value)
        # 앞에 문자만 대문자
        value = value.title()
        result.append(value)
    return result

clean_strings(states)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

In [34]:
def remove_punctuation(value):
    return re.sub('[!#?]', '', value)

# 함수를 하나의 객체로 이용
clean_ops = [str.strip, remove_punctuation, str.title]

def clean_strings(strings, ops):
    result = []
    for value in strings:
        # 함수 하나씩 이용
        for function in ops:
            value = function(value)
        result.append(value)
    return result

clean_strings(states, clean_ops)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

In [35]:
strings = ['foo', 'card', 'bar', 'aaaa', 'abab']

# 각 문자별 문자 갯수 확인 후 갯수별로 정렬
strings.sort(key=lambda x: len(set(list(x))))
strings

['aaaa', 'foo', 'abab', 'bar', 'card']

#### 3.2.6 Generators

In [36]:
some_dict = {'a': 1, 'b': 2, 'c': 3}
for key in some_dict:
    print(key)
list(iter(some_dict))

a
b
c


['a', 'b', 'c']

In [37]:
print(sum(x for x in range(101)))
print(dict((i, i **2) for i in range(5)))

5050
{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}


#### itertools module

- combinations(iterable, k) : iterable에서 순서를 고려하지 않고 길이가 k인 모든 가능한 조합을 생성(조합)
- permutations(iterable, k) : iterable에서 순서를 고려해 길이가 k인 모든 가능한 조합을 생성(순열)
- groupby(iterable[, keyfunc]) : iterable에서 각각의 고유한 키에 따라 그룹을 생성
- product(*iterables, repeat=1) : iterable에서 카테시안 곱을 구한다. 중첩된 for문 사용과 유사(SQL문에서의 곱하기와 유사)

In [38]:
import itertools
# 사전과 같은 기능 구현
first_letter = lambda x: x[0]
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']
for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names))

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


### 3.3 File, OS

In [39]:
path = 'examples/segismundo.txt'
# file 읽기
f = open(path)
print(f)

lines = [x.rstrip() for x in open(path)]
print(lines)

f.close()

<_io.TextIOWrapper name='examples/segismundo.txt' mode='r' encoding='cp949'>
['Sue챰a el rico en su riqueza,', 'que m찼s cuidados le ofrece;', '', 'sue챰a el pobre que padece', 'su miseria y su pobreza;', '', 'sue챰a el que a medrar empieza,', 'sue챰a el que afana y pretende,', 'sue챰a el que agravia y ofende,', '', 'y en el mundo, en conclusi처n,', 'todos sue챰an lo que son,', 'aunque ninguno lo entiende.', '']


In [40]:
# file 읽기
with open(path) as f:
    lines = [x.rstrip() for x in f]
print(lines)

['Sue챰a el rico en su riqueza,', 'que m찼s cuidados le ofrece;', '', 'sue챰a el pobre que padece', 'su miseria y su pobreza;', '', 'sue챰a el que a medrar empieza,', 'sue챰a el que afana y pretende,', 'sue챰a el que agravia y ofende,', '', 'y en el mundo, en conclusi처n,', 'todos sue챰an lo que son,', 'aunque ninguno lo entiende.', '']


In [41]:
f = open(path)
print(f.read(10))
f2 = open(path, 'rb')  # Binary mode
print(f2.read(10))

print(f.tell()) # 현재 파일 핸들의 위치
print(f2.tell())

Sue챰a el r
b'Sue\xc3\xb1a el '
11
10


In [42]:
import sys
sys.getdefaultencoding()

# 원하는 위치에서 원하는 갯수만큼 읽기
print(f.seek(3)) # 파일 핸들의 위치를 지정한 바이트 위치로 이동
print(f.read(1))

f.close()
f2.close()

3
챰


**파이썬 파일 모드**
- r : 읽기 전용
- w : 쓰기 전용, 새로운 파일 생성(같은 이름 존재하면 덮어쓰기)
- x : 쓰기 전용, 새로운 파일 생성(이미 존재할 경우 실패)
- a : 기존 파일에 추가(존재하지 않으면 새로 생성
- r+ : 읽기/쓰기 모드
- b : 이진 파일 모드

- t : 텍스트 모드(자동으로 바이트를 유니코드로 디코딩)

In [43]:
# 빈 줄 제거
with open('tmp.txt', 'w') as handle:
    handle.writelines(x for x in open(path) if len(x) > 1)
    
with open('tmp.txt') as f:
    lines = f.readlines()
lines

['Sue챰a el rico en su riqueza,\n',
 'que m찼s cuidados le ofrece;\n',
 'sue챰a el pobre que padece\n',
 'su miseria y su pobreza;\n',
 'sue챰a el que a medrar empieza,\n',
 'sue챰a el que afana y pretende,\n',
 'sue챰a el que agravia y ofende,\n',
 'y en el mundo, en conclusi처n,\n',
 'todos sue챰an lo que son,\n',
 'aunque ninguno lo entiende.\n']

In [44]:
import os
os.remove('tmp.txt')