### 순차 자료형


### 튜플 : 1차원의 고정된 크기를 가지는 변경 불가능한 순차 자료형

### ```tuple()``` : 튜플로 변환

In [4]:
tuple([4, 0, 2])

(4, 0, 2)

In [6]:
tup = tuple('string')
tup

('s', 't', 'r', 'i', 'n', 'g')

In [1]:
tup = 4, 5, 6
tup

(4, 5, 6)

- 중첩된 튜플 정의 가능

In [3]:
nested_tup = (4, 5, 6), (7, 8)
nested_tup

((4, 5, 6), (7, 8))

- **튜플에 저장된 객체 자체는 변경 불가능**
- **튜플 내에 저장된 객체는 그 위치에서 바로 변경 가능**

In [7]:
tup = tuple(['foo', [1, 2], True])

In [9]:
tup[1].append(3)

In [10]:
tup

('foo', [1, 2, 3], True)

- 연산자를 통해 튜플 연결

In [11]:
(4, None, 'foo') + (6, 0) + ('bar', )

(4, None, 'foo', 6, 0, 'bar')

In [12]:
('foo', 'bar') * 4

('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

- 튜플에서 값 분리

In [16]:
tup = 4, 5, (6, 7)
a, b, (c, d) = tup
c

6

### ```*rest``` : 나머지 객체

In [17]:
values = 1, 2, 3, 4, 5
a, b, *rest = values
print(a); print(b)

1
2


In [18]:
rest

[3, 4, 5]

#### 튜플 메서드

### ```.count()``` : 주어진 값과 몇개 같은 값이 몇 개 있는지 반환 (리스트도 사용 가능)

In [23]:
a = (1, 2, 2, 2, 3, 4, 2)
a.count(2)

4

### 
### 리스트 : 크기나 내용의 변경 가능
- **대괄호 []**나, ```list()```함수 사용

In [39]:
a_list = [2, 3, 7, None]
tup = ('foo', 'bar', 'baz')
b_list = list(tup)
b_list[1] = 'peekaboo'
b_list

['foo', 'peekaboo', 'baz']

- **'+' 연산자를 이용하여 두 개의 리스트 연결 가능**

In [56]:
[4, None, 'foo'] + [7, 8, (2, 3)]

[4, None, 'foo', 7, 8, (2, 3)]

#### 리스트 메서드
### ```.append()``` : 리스트 끝에 새로운 값 추가


In [40]:
b_list.append('dwarf')
b_list

['foo', 'peekaboo', 'baz', 'dwarf']

### ```.insert()``` : 리스트의 특정 위치에 값을 삽입 할 수 있다.

In [41]:
b_list.insert(1, 'red')
b_list

['foo', 'red', 'peekaboo', 'baz', 'dwarf']

### ```.pop()``` : 특정 위치의 값을 반환하고, 해당 값을 리스트에서 삭제

In [42]:
b_list.pop(2)

'peekaboo'

In [43]:
b_list

['foo', 'red', 'baz', 'dwarf']

### ```.remove()``` : 해당값과 일치하는 값을 삭제 (앞에 위치한 값부터)

In [45]:
b_list

['foo', 'red', 'baz', 'dwarf', 'foo']

In [46]:
b_list.remove('foo')
b_list

['red', 'baz', 'dwarf', 'foo']

### ```.extend()``` : 여러 개의 값을 추가

In [47]:
x = [4, None, 'foo']
x.extend([7, 8, (2, 3)])
x

[4, None, 'foo', 7, 8, (2, 3)]

### ```.sort(key)``` : 정렬
- ```key``` : 정렬 기준

In [51]:
a = [7, 2, 5, 1, 3]
a.sort()
a

[1, 2, 3, 5, 7]

In [49]:
b = ['saw', 'small', 'He', 'foxes', 'six']
b.sort(key = len)
b

['He', 'saw', 'six', 'small', 'foxes']

### 
### 이진 탐색과 정렬된 리스트 유지, bisect
### ```.bisect()``` : 값이 추가될 대 리스트가 정렬된 상태를 유지할 수 있는 위치 반환
### ```.insort()``` : 실제로 정렬된 상태를 유지한 채 값을 추가

In [57]:
import bisect
c = [1, 2, 2, 2, 3, 4, 7]
bisect.bisect(c, 3)

5

In [58]:
bisect.insort(c, 6)
c

[1, 2, 2, 2, 3, 4, 6, 7]

### 
### 슬라이싱 : 원하는 크기만큼 잘라냄 (추출)
- **슬라이싱 인덱스 : 0부터 시작 / 역순 : -1부터 시작**

In [59]:
seq = [7, 2, 3, 7, 5, 6, 0, 1]
seq[1:5]

[2, 3, 7, 5]

In [60]:
seq[3:4] = [6, 3]
seq

[7, 2, 3, 6, 3, 5, 6, 0, 1]

In [61]:
seq[:5]

[7, 2, 3, 6, 3]

In [64]:
seq[-6:-2]

[6, 3, 5, 6]

- '::'을 통해 간격 지정

In [67]:
seq[::2] 

[7, 3, 3, 6, 1]

In [68]:
seq[::-1] # 역순 정렬

[1, 0, 6, 5, 3, 6, 3, 2, 7]

### 
### 내장 순차 자료형 함수

### ```enumerate()``` : 순차 자료형에서 현재 아이템의 색인을 함께 처리하고자 할 때 사용

In [74]:
collection = ['a', 'b', 'c', 'd']
i = 0

for i, value in enumerate(collection) :
    i += 1
i

4

### ```sorted()``` : 정렬된 복사본을 생성

In [75]:
sorted([7, 1, 2, 6, 0, 3, 2])

[0, 1, 2, 2, 3, 6, 7]

In [76]:
sorted('house race')

[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 's', 'u']

### ```zip()``` : 여러 개의 리스트나 튜플 도는 다른 순차 자료형을 서로 짝지어서 튜플의 리스트 생성

In [79]:
seq1 = ['foo', 'bar', 'faz']
seq2 = ['one', 'two', 'three']
zipped = zip(seq1, seq2)
list(zipped)

[('foo', 'one'), ('bar', 'two'), ('faz', 'three')]

- **여러 개의 순차 자료형을 받을 시, 리스트의 크기는 받은 순차 자료형 중 가장 짧은 크기로 정해짐**

In [80]:
seq3 = [False, True]
list(zip(seq1, seq2, seq3))

[('foo', 'one', False), ('bar', 'two', True)]

- **리스트의 행을 리스트의 열로 변환**

In [81]:
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'), ('Schilling', 'Curt')]
first_names, last_names = zip(*pitchers)

In [82]:
print(first_names)
print(last_names)

('Nolan', 'Roger', 'Schilling')
('Ryan', 'Clemens', 'Curt')


### ```reversed()``` : 순차 자료형을 역순으로 순회

In [83]:
list(reversed(range(10)))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

### 
### 딕셔너리 : 키-값 쌍으로 구성 (연관배열)
- **중활호 {}사용하여 콜론으로 구분된 키와 값을 둘러쌈**
### ```dict(key, value)```

In [84]:
empty_dict = {}
d1 = {'a' : 'some value', 'b' : '[1, 2, 3, 4]'}
d1

{'a': 'some value', 'b': '[1, 2, 3, 4]'}

In [85]:
d1[7] = 'an integer'
d1

{'a': 'some value', 'b': '[1, 2, 3, 4]', 7: 'an integer'}

In [86]:
d1['b']

'[1, 2, 3, 4]'

### ```del```예약어, ```.pop()```을 사용하여 사전의 값을 삭제

In [88]:
d1[5] = 'some value'
d1['dummy'] = 'another value'
del d1[5]
print(d1)

ret = d1.pop('dummy')
print(ret)
print(d1)

{'a': 'some value', 'b': '[1, 2, 3, 4]', 7: 'an integer', 'dummy': 'another value'}
another value
{'a': 'some value', 'b': '[1, 2, 3, 4]', 7: 'an integer'}


### ```.keys()```, ```.values()``` : 키와 값이 담긴 이터레이터 반환

In [91]:
print(list(d1.keys()))
print(list(d1.values()))

['a', 'b', 7]
['some value', '[1, 2, 3, 4]', 'an integer']


### ```.update``` : 하나의 사전을 다른 사전과 합침

In [92]:
d1.update({'b' : 'foo', 'c' : 12})
d1

{'a': 'some value', 'b': 'foo', 7: 'an integer', 'c': 12}

### 순차 자료형에서 사전 생성

In [95]:
mapping = dict(zip(range(5), reversed(range(5))))
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

### ```.get()``` : 반환할 기본값을 받아서, if-else 형식 적용

In [96]:
words = ['apple', 'bat', 'bar', 'atom', 'book']
by_letter = {}

for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)
by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

- **collections 모듈의 ```defaultdict()``` 클래스를 통해 위 과정을 좀 더 쉽게 사용**

In [98]:
from collections import defaultdict
by_letter = defaultdict(list)
for word in words:
    by_letter[word[0]].append(word)
by_letter

defaultdict(list, {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']})

### 
### 유효한 사전 키 : 스칼라형 (정수, 실수, 문자열)이나 튜플(튜플에 저장된 값 역시 불변 객체)처럼 값이 바뀌지 않는 객체만 사전의 값으로 가능. (해시 가능 : 사전의 키로 사용 가능)

### ```hash()``` : 객체가 해시 가능한지 확인

In [99]:
hash('string')

9128225912600100573

- 리스트를 키로 사용하기 위한 한 가지 방법은 리스트를 튜플로 변경

In [100]:
d = {}
d[tuple([1, 2, 3])] = 5
d

{(1, 2, 3): 5}

### 
### 집합

| 함수 | 대체 문법 | 설명 | 
| -- | -- | -- | 
| .add(x) |  | x원소를 추가 |
| .clear() |  | 모든 원소를 제거하고 빈 상태로 되돌림 |
| .remove(x) |  | 원소 x를 제거 |
| .pop() |  | 임의의 원소를 제거. 비어 있는 경우 KeyError를 발생 |
| a.union(b) | a \| b | a와 ㅠ의 합집합 |
| a.update(b) | a \|= b | a에 a와 b의 합집합을 대입 |
| a.intersection(b) | a & b | a와 b의 교집합 |
| a.intersection_update(b) | a &= | a에 a와 b의 교집합을 대입 |
| a.difference(b) | a - b | a와 b의 차집합 |
| a.difference_update(b) | a -= b | a에 a와 b의 차집합을 대입 |
| a.symmetric_difference(b) | a & b | a와 b의 대칭차집합 |
| a.symmetrci_difference_update(b) | a ^= b | a에 a와 b의 대칭차집합을 대입 |
| .issubset(b) |  | a의 모든 원소가 b에 속할 경우 True |
| .issuperset(b) |  | a가 b의 모든 원소를 포함하는 경우 True |
| .isdisjoint(b) |  | a와 b 모두에 속하는 원소가 없을 경우 True |

In [101]:
a_set = {1, 2, 3, 4, 5}
{1, 2, 3}.issubset(a_set)

True

### 
### 리스트, 집합, 딕셔너리 표기법
### 리스트 표기법

In [103]:
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']
[x.upper() for x in strings if len(x) > 2]
# 2글자 이상인 문자열에 대해서 .upper 메소드 적용

['BAT', 'CAR', 'DOVE', 'PYTHON']

### 집합 & 딕셔너리 표기법

In [104]:
unique_lengths = {len(x) for x in strings}
unique_lengths

{1, 2, 3, 4, 6}

### ```map()``` : 함수를 일괄 적용

In [105]:
set(map(len, strings))

{1, 2, 3, 4, 6}

In [106]:
loc_mapping = {val : index for index, val in enumerate(strings)}
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

### 
### 중첩된 리스트 표기법

- 'e'가 2개 이상 포함된 이름의 목록

In [107]:
all_data = [['John', 'Emily', 'Michael', 'Mary', 'Steven'],
            ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']]

In [109]:
result = [name for names in all_data for name in names
          if name.count('e') >= 2]
result


['Steven']

- 예)

In [112]:
some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
flattened = [x for tup in some_tuples for x in tup]
flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [116]:
print([x for tup in some_tuples for x in tup])
print([[x for x in tup] for tup in some_tuples])

[1, 2, 3, 4, 5, 6, 7, 8, 9]
[[1, 2, 3], [4, 5, 6], [7, 8, 9]]


### 
### 함수
- ```def``` 예약어로 정의, ```return``` 에약어로 반환
- ```return```문은 몇 개가 되든 상관없음. 함수 블록이 끝날 때까지 ```return```문이 없다면 None이 자동 반환
- 하나의 함수에서 여러 개의 값을 반환 가능

In [119]:
def my_function(x, y, z = 1.5) :
    if z > 1 :
        return z * (x + y)
    else :
        return z / (x + y)

### 네임스페이스, 스코프, 지역함수
- 지역변수 : 함수 호출시 생성, 함수 종료시 삭제

In [124]:
def func(): 
    a = [] 
    for i in range(5): 
        a.append(i)

In [127]:
func()
a

[]

- 전역변수

In [128]:
a = [] 
def func(): 
    for i in range(5): 
        a.append(i)

In [129]:
func()
a

[0, 1, 2, 3, 4]

### 
### 익명 함수 (람다 함수) : 한 문장으로 이루어진 함수

In [130]:
strings = ['foo', 'card', 'bar', 'aaaa', 'abab']

In [131]:
strings.sort(key=lambda x: len(set(x)))
strings

['aaaa', 'foo', 'abab', 'bar', 'card']

### 
### 커링 : 일부 인자만 취하기

- 두 개의 인자를 가지는 함수에서, 하나의 인자만 사용

In [133]:
def add_numbers(x, y):
     return x + y

In [140]:
add_five = lambda y: add_numbers(5, y)
add_five(3)

8

- functools 모듈의 ```partial()``` 함수로 단순화

In [139]:
from functools import partial
add_five = partial(add_numbers, 5)
add_five(3)

8

### 
### ```iter()``` : 이터레이터 객체 생성

In [142]:
dict_iterator = iter(some_dict)
dict_iterator

<dict_keyiterator at 0x25c6cf31860>

In [143]:
list(dict_iterator)

['a', 'b', 'c']

### 
### 제너레이터 : 순회 가능한 객체를 생성하는 방법
- ```def```, ```yield```로 제너레이터 생성

In [147]:
def squares(n=10):
    print('Generating squares from 1 to {0}'.format(n ** 2))
    for i in range(1, n + 1):
        yield i ** 2

- 제너레이터 객체 호출

In [148]:
gen = squares()
gen

<generator object squares at 0x0000025C6CF49970>

- 제너레이터로부터 값을 요청시, 제너레이터 코드 실행

In [149]:
for x in gen:
    print(x, end = ' ')

Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100 

### 제너레이터 표현식

In [157]:
gen = (x ** 2 for x in range(100))
gen

<generator object <genexpr> at 0x0000025C6CF57350>

In [160]:
sum(x ** 2 for x in range(100))

328350

In [163]:
dict((i, i **2) for i in range(5))

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

### itertools 모듈 : 일반 데이터 알고리즘을 위한 제너레이터 포함
| 함수 | 설명 |
| -- | -- |
| combinations(iterable, k) | iterable에서 순서를 고려하지 않고 길이가 k인 모든 가능한 조합을 생성 |
| permutations(iterable, k) | iterable에서 순서를 고려하여 k인 모든 가능한 조합 생성 |
| groupby(iterable[, keyfunc]) | iterable에서 각각의 고유한 키에 따라 그룹을 생성 |
| product(\*iterables, repeat = 1) | iterable에서 카테시안 곱을 구한다. 중첩된 for문 사용과 유사 |

In [165]:
import itertools
first_letter = lambda x: x[0]
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']
for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names)) # names is a generator

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


### 
### 파일과 운영체제

In [170]:
import os
print(os.getcwd())

C:\Users\이찬솔\Documents\Python_for_Data_Analysis


### ```open(path)``` ~ ```.close()```
### ```open(path, 모드)```

- 파일 모드

| 모드 | 설명 |
| -- | -- |
| r | 읽기 전용 모드 |
| w | 쓰기 전용 모드, 새로운 파일을 생성 (동명의 파일 존재시 덮어쓰기) |
| x | 쓰기 전용 모드, 새로운 파일을 생성 (동명의 파일 존재시 실패) |
| a | 기존 파일에 추가 (파일이 존재하지 않을 경우, 새로 생성) |
| r+ | 읽기/쓰기 모드 |
| b | 이진 파일 모드, 읽기/쓰기 모드에 추가해서 'rb' 또는 wb'처럼 사용 |
| t | 텍스트 모드, default, 다른 모드에 추가해서 'rt' 또는 'xt'처럼 사용 |

In [173]:
path = 'C:/Users/이찬솔/Documents/Python_for_Data_Analysis/examples/segismundo.txt'
f = open(path)

In [174]:
lines = [x.rstrip() for x in open(path)]

In [175]:
lines

['Sue챰a el rico en su riqueza,',
 'que m찼s cuidados le ofrece;',
 '',
 'sue챰a el pobre que padece',
 'su miseria y su pobreza;',
 '',
 'sue챰a el que a medrar empieza,',
 'sue챰a el que afana y pretende,',
 'sue챰a el que agravia y ofende,',
 '',
 'y en el mundo, en conclusi처n,',
 'todos sue챰an lo que son,',
 'aunque ninguno lo entiende.',
 '']

In [176]:
f.close()

- ```with```문을 사용

In [177]:
with open(path) as f:
    lines = [x.rstrip() for x in f]

### 주요 file 메서드와 속성

| 메서드 | 설명 |
| -- | -- |
| .read(size) | 파일에서 데이터를 읽어서 문자열로 변환. size 인자를 사용해서 몇 바이트를 읽을 것인지 지정할 수 있다. |
| .readlines(size) | 파일의 매 줄을 모두 읽어 리스트로 반환. size 인자를 사용해서 얼마나 읽을 것인지 지정 |
| .write(str) | 전달받은 문자열을 파일에 기록 |
| .writelines(strings) | 전달받은 일련의 문자열을 파일에 기록 |
| .close() | 파일 핸들을 닫는다 |
| .flush() | 내부 I/O 버퍼를 디스크로 비움 |
| .seek(pos) | 파일 내에서 지정한 위치(pos)로 이동 |
| .tell() | 현재 파일의 위치를 정수 형태로 반환 |
| .closed | 파일 핸들이 닫힌 경우 True를 반환 |

### ```.read(byte)``` : 파일을 byte만큼 읽기

In [191]:
f = open(path)
f.read(10) # 파일의 10바이트만 읽음

'Sue챰a el r'

- 모드 사용

In [190]:
f2 = open(path, 'rb') # 이진 모드
f2.read(10)

b'Sue\xc3\xb1a el '

### ```.tell()``` : 현재 위치를 알려줌

- 10개의 문자를 읽었어도 위치가 11인 이유는 기본 인코딩에서 10개의 문자를 디코딩하기 위해 그 만큼의 바이트가 필요했기 대문

In [186]:
print(f.tell()) 

11


### ```.seek()``` : 파일 핸들의 위치를 해당 파일에서 지정한 바이트 위치로 옮김

In [188]:
f.seek(3)

3

In [192]:
f.read(1)

'i'

In [194]:
f.close()
f2.close()

### ```sys.getdefaultencoding()``` : 인코딩 형식 확인

In [187]:
import sys
sys.getdefaultencoding()

'utf-8'

### ```.write()```, ```.writelines()``` : 파일에 텍스트 기록

In [199]:
os.getcwd()
os.chdir('/' + os.path.join('Users', '이찬솔', 'Documents', 'Python_for_Data_Analysis', 'examples'))

In [201]:
with open('tmp.txt', 'w') as handle:
     handle.writelines(x for x in open(path) if len(x) > 1)

In [202]:
with open('tmp.txt') as f:
     lines = f.readlines()

In [203]:
lines

['Sue챰a el rico en su riqueza,\n',
 'que m찼s cuidados le ofrece;\n',
 'sue챰a el pobre que padece\n',
 'su miseria y su pobreza;\n',
 'sue챰a el que a medrar empieza,\n',
 'sue챰a el que afana y pretende,\n',
 'sue챰a el que agravia y ofende,\n',
 'y en el mundo, en conclusi처n,\n',
 'todos sue챰an lo que son,\n',
 'aunque ninguno lo entiende.\n']

### 바이트와 유니코드

In [205]:
with open(path) as f:
    chars = f.read(10)
chars

'Sue챰a el r'

In [206]:
with open(path, 'rb') as f:
    data = f.read(10)
data

b'Sue\xc3\xb1a el '

### ```.decode(형태)``` : 직접 디코딩 형태 지정 

In [207]:
data.decode('utf8')

'Sueña el '

- 이진 모드가 아닐 경우에는 열린 파일에 대해 ```.seek``` 메서드를 호출할 대 주의해야 한다.

In [216]:
f.close()