# * 순차자료형(sequence)
* 객체들이 위치에 따라 정렬된 collection을 의미
* tuple, list, string 으로 저장
## 1. tuple
* tuple : 튜플은 한번 할당하면 변경할 수 없는, 고정 길이를 갖는다.
  * 수정, 삭제가 안됨


In [5]:
tup = (4, 5, 6)
tup
print(type(tup))

<class 'tuple'>


In [2]:
tup = 4, 5, 6 # 괄호 생략
tup

(4, 5, 6)

In [3]:
tuple([4, 0, 2]) # tuple() 로 형변환
tup = tuple('string')
tup

('s', 't', 'r', 'i', 'n', 'g')

### < tuple의 인덱싱 >

In [6]:
tup[0]

4

In [9]:
nested_tup = (4, 5, 6), (7, 8)
nested_tup
nested_tup[0]
nested_tup[1]

(7, 8)

### <tuple의 아이템 변경 불가능>

In [12]:
tup = tuple(['foo', [1, 2], True])
tup[2] = False

TypeError: 'tuple' object does not support item assignment

In [14]:
tup[1].append(3) # 튜플 내에 저장된 객체는 그 위치에서 변경이 가능
tup

('foo', [1, 2, 3, 3], True)

### <tuple의 댓셈 연산자>
* '+' 연산자를 이용하여 튜플을 이어 붙일 수 있다.

In [15]:
(4, None, 'foo') + (6, 0) + ('bar',)

(4, None, 'foo', 6, 0, 'bar')

### <tuple의 곱셈 연산자>
* 튜플변수 * 정수
  * 여러 개의 튜플의 복사본이 반복되어 늘어남

In [17]:
('foo', 'bar') * 4

('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

### < tuple에서 값 분리하기>
* 등호 (=) 오른쪽에 있는 튜플 변수에서 값을 분리

In [18]:
tup = (4, 5, 6)
a, b, c = tup
b

5

In [19]:
tup = 4, 5, (6, 7)
a, b, (c, d) = tup
d

7

### <tuple에서 두 변수의 값을 교환 : swap >

In [20]:
a, b = 1, 2
a
b
b, a = a, b
a
b

1

### < for loop & tuple>
* 튜플이나 리스트처럼 순차적 자료형은 for문 안에서 여러 개의 변수를 꺼낼 수 있다.

In [21]:
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
for a, b, c in seq:
    print(f'a={a}, b={b}, c={c}')

a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9


### < tuple & *rest >
* 튜플의 시작 부분에서 값을 일부 추출할 때, 나머지는 *rest를 사용
* rest라는 이름 자체는 특별한 의미가 없다.

In [22]:
values = 1, 2, 3, 4, 5
a, b, *rest = values
a
b
rest

[3, 4, 5]

In [23]:
a, b, *_ = values

### <tuple과 count함수>
* count(x) : 주어진 x 값과 같은 값의 개수를 반환

In [26]:
a = (1, 2, 2, 2, 3, 4, 2)
a.count?
a.count(2)

[1;31mSignature:[0m [0ma[0m[1;33m.[0m[0mcount[0m[1;33m([0m[0mvalue[0m[1;33m,[0m [1;33m/[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m Return number of occurrences of value.
[1;31mType:[0m      builtin_function_or_method

### <tuple과 index함수>
* index(x) : 주어진 x 값의위치를 반환

In [27]:
a.index(2)

1

## 2. list
* 리스트는 크기나 내용을 변경할 수 잇다.
* 리스트는 대괄호나 list함수를 사용해서 생성
* list함수는 이터레이터나 제너레이터 표현에서 실제값을 모두 담기 위한 용도로 사용

In [29]:
a_list = [2, 3, 7, None]

tup = ("foo", "bar", "baz")
b_list = list(tup)
print(b_list)
b_list[1] = "peekaboo"
b_list

['foo', 'bar', 'baz']


['foo', 'peekaboo', 'baz']

### <list 시퀀스 데이터>
* Sequence : 객체들이 위치에 따라 정렬된 collection을 의미
* 인덱싱, 슬라이싱, 연결, 반복문과 작업 지원
* 순차 자료형 확인하기 : isinstance함수 사용

In [30]:
gen = range(10)
gen
list(gen)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

### 문제 1 : 다음  객체의 시퀀스 데이터 확인하기

In [35]:
from collections.abc import Sequence

my_num = 100
my_string = "python"
my_list = [1,2,3]

isinstance(my_num,Sequence)
isinstance(my_list,Sequence)


True

### <리스트에 원소 추가 & 삭제>
* append메서드 : 리스트의 끝에 새로운 값을 추가
* insert(위치, 데이터) : 리스트의 특정 위치에 값을 삽입
* pop(위치) : 리스트의 특정 위치의 값을 반환하고 해당 값을 리스트에서 삭제
* remove(데이터) : 특정 데이터 삭제
* remove() : 리스트의 제일 앞에 위치한 값을 삭제
* in 리스트 : 리스트에 해당 값이 있는지 검사
* not in 리스트 : 리스트에 해당 값이 없는지 검사

In [42]:
b_list.append("dwarf")
b_list

['foo', 'peekaboo', 'baz', 'dwarf']

In [43]:
b_list.insert(1, "red")
b_list

['foo', 'red', 'peekaboo', 'baz', 'dwarf']

In [44]:
b_list.pop(2)
b_list

['foo', 'red', 'baz', 'dwarf']

In [45]:
b_list.append("foo")
b_list
b_list.remove("foo")
b_list

['red', 'baz', 'dwarf', 'foo']

In [46]:
"dwarf" in b_list 

True

In [47]:
"dwarf" not in b_list

False

### <리스트 이어 붙이기> 
* 리스트 + 리스트
* 리스트.extend(리스트)

In [49]:
[4, None, "foo"] + [7, 8, (2, 3)]

[4, None, 'foo', 7, 8, (2, 3)]

In [50]:
x = [4, None, "foo"]
x.extend([7, 8, (2, 3)])
x

[4, None, 'foo', 7, 8, (2, 3)]

### < 리스트 정렬>
* sort() : 새로운 리스트을 생성하지 않고 있는 그대로 리스트을 정렬

In [51]:
a = [7, 2, 5, 1, 3]
a.sort()
a

[1, 2, 3, 5, 7]

In [52]:
b = ["saw", "small", "He", "foxes", "six"]
b.sort(key=len)
b

['He', 'saw', 'six', 'small', 'foxes']

### <리스트 인덱싱, 슬라이싱> p.93
* 리스트[인덱스]
* 리스트[start:end]을 원하는 크기만큼 잘라낼 수 있다.

In [53]:
seq = [7, 2, 3, 7, 5, 6, 0, 1]
print(seq[0])
print(seq[-1])
seq[1:5]

7
1


[2, 3, 7, 5]

In [57]:
seq[3:5] = [6, 3]
seq

[7, 2, 3, 6, 3, 6, 0, 1]

In [55]:
seq[:5]
seq[3:]

[6, 3, 6, 0, 1]

In [58]:
seq[-4:]
seq[-6:-2]

[3, 6, 3, 6]

In [59]:
seq[::2] # 리스트의 원소를 하나 걸러 다음 원소를 선택

[7, 3, 3, 0]

In [60]:
seq[::-1] # 역순으로 반환

[1, 0, 6, 3, 6, 3, 2, 7]

### 문제 : 다음 리스트에서 특정 데이터 추출하기
* my_list = [1,2,['variety', 'is','the','spice','of','life'], 4,5]
* "the spice of life"을 추출하시오

In [62]:
my_list = [1,2,['variety', 'is','the','spice','of','life'], 4,5]
my_list[2][2:]

['the', 'spice', 'of', 'life']

# * 딕셔너리(dict)
* key:value 쌍을 저장
    * value : 임의의 파이썬 객체
    * key : 스칼라 자료형 (정수, 실수, 문자열, 튜플)
* 키와 값은 파이썬 객체
* 특정 키가 주어지면 값을 검색, 삽입, 수정, 삭제
* 특정 value을 출력 = 딕셔너리변수명['key']

In [63]:
empty_dict = {}
d1 = {"a": "some value", "b": [1, 2, 3, 4]}
d1

{'a': 'some value', 'b': [1, 2, 3, 4]}

In [66]:
d1[7] = "an integer" # 추가
print(d1)
d1["b"] # 출력

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}


[1, 2, 3, 4]

In [67]:
"b" in d1 # 검색

True

In [73]:
d1[5] = "some value" # 삽입
print(d1)
d1["dummy"] = "another value" #삽입
print(d1)
del d1[5] # 삭제
print(d1)
ret = d1.pop("dummy")
print(ret)
d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 5: 'some value'}
{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 5: 'some value', 'dummy': 'another value'}
{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 'dummy': 'another value'}
another value


{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

### <딕셔너리 메서드>
* keys() : 키의 값이 담긴 이터레이터를 반환 -> 리스트로 변환
* values() : 값이 담긴 이터레이터를 반환 -> 리스트로 변환
* items() : 키:값의 튜플이 담긴 이터레이터 반환 -> 리스트로 변환
* update() : 하나의 딕셔너리를 다른 딕셔너리와 합치기 -> 리스트로 변환

In [74]:
list(d1.keys())
list(d1.values())
print(list(d1.values()))

['some value', [1, 2, 3, 4], 'an integer']


In [75]:
list(d1.items())

[('a', 'some value'), ('b', [1, 2, 3, 4]), (7, 'an integer')]

In [76]:
d1.update({"b": "foo", "c": 12})
d1

{'a': 'some value', 'b': 'foo', 7: 'an integer', 'c': 12}

### < 순차자료형에서 딕셔너리 생성하기>
* 두 개의 순차 자료형의 각 원소를 짝지어서 딕셔너리로 생성하기
* 딕셔너리는 두 개짜리 튜플로 구성
* dict 함수가 두 개짜리 튜플의 리스트를 인수로 받아 딕셔너리 생성
  * zip 함수
 
    mapping = []

    for key, value in zip(key_list, value_list):
    
        //mapping[key] = value
  * 딕셔너리 표기법 : {k:v for k, v in zip(key_list, value_list)}

In [1]:
tuples = zip(range(5), reversed(range(5))) # method 1
tuples
mapping = dict(tuples)
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

In [2]:
mapping = {k: v for k, v in zip(range(5), reversed(range(5)))} # dictionary comprehension
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

### 문제: (p.97) 여러 단어를 시작 글자에 따라 딕셔너리에 리스트로 저장하기

In [94]:
# 예: 여러 단어를 시작 글자에 따라 딕셔너리에 리스트로 저장하기 (method1)
words = ["apple", "bat", "bar", "atom", "book"]
by_letter = {}

for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)

by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

In [95]:
by_letter = {}  # 딕셔너리의 setdefault() 메서드 이용 (method2)
for word in words:
    letter = word[0]
    by_letter.setdefault(letter, []).append(word)
by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

In [3]:
from collections import defaultdict # method 3
by_letter = defaultdict(list)
for word in words:
    by_letter[word[0]].append(word)
print(by_letter)

NameError: name 'words' is not defined

### < 유효한 딕셔너리 키>
    * 딕셔너리의 키값은 해시가 가능(hashability)
    * hash함수을 사용해서 딕셔너리 키로 사용할 수 있는지 검사

In [100]:
hash("string") 
hash((1, 2, (2, 3)))
hash((1, 2, [2, 3])) # fails because lists are mutable

TypeError: unhashable type: 'list'

In [101]:
d = {}
d[tuple([1, 2, 3])] = 5
d

{(1, 2, 3): 5}

# * 집합(set)
* 집합은 고유한 원소만 담는 정렬되지 않은 자료형
* 생성 방법
  * {} 사용
  * set() 함수 사용
* 집합 연산자 : p.101

In [102]:
set([2, 2, 2, 1, 3, 3])
{2, 2, 2, 1, 3, 3}

{1, 2, 3}

In [103]:
a = {1, 2, 3, 4, 5}
b = {3, 4, 5, 6, 7, 8}

In [104]:
a.union(b) # 합집합
a | b 

{1, 2, 3, 4, 5, 6, 7, 8}

In [105]:
a.intersection(b) # 교집합
a & b

{3, 4, 5}

In [53]:
c = a.copy()
c |= b
c
d = a.copy()
d &= b
d

In [112]:
# 집합 원소들도 변경이 불가능해야 하며, 해시 가능해야 함
my_data = [1, 2, 3, 4]
my_set = {tuple(my_data)}
my_set

{(1, 2, 3, 4)}

In [107]:
a_set = {1, 2, 3, 4, 5}
{1, 2, 3}.issubset(a_set)
a_set.issuperset({1, 2, 3})

True

In [108]:
{1, 2, 3} == {3, 2, 1}

True

In [109]:
sorted([7, 1, 2, 6, 0, 3, 2])
sorted("horse race")

[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

In [110]:
seq1 = ["foo", "bar", "baz"]
seq2 = ["one", "two", "three"]
zipped = zip(seq1, seq2) 
list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

In [111]:
seq3 = [False, True]
list(zip(seq1, seq2, seq3))

[('foo', 'one', False), ('bar', 'two', True)]

# * 내장 순차 자료형 함수 : 
* 순차 자료형에 사용할 수 있는 함수
* enumerate함수
    * 순차 자료형에서 현재 아이템의 색인을 추적할 때 사용
    * (i, value) 튜플 반환
 
* zip 함수
    * 여러 개의 리스트나 튜플 또는 다른 순차 자료형을 서로 짝을 지어서 튜플리스트을 생성

In [113]:
for index, (a, b) in enumerate(zip(seq1, seq2)):
    print(f"{index}: {a}, {b}")


0: foo, one
1: bar, two
2: baz, three


In [61]:
list(reversed(range(10)))

# * 리스트, 집합, 딕셔너리 표기법
* list_comp = [expr for value in collection if condition]
* dict_comp ={key-var: value-expr for value in collection if condition]
* set_comp ={ expr for value in collection if condition}

In [4]:
result = []
for value in collection:
    if condition:
        result.append(value)

NameError: name 'collection' is not defined

In [5]:
strings = ["a", "as", "bat", "car", "dove", "python"]  # 문자열의 길이가 2이하인 문자열은 제외하고 나머지를 대문자로 변환
[x.upper() for x in strings if len(x) > 2]  # 리스트 표기법

['BAT', 'CAR', 'DOVE', 'PYTHON']

In [119]:
unique_lengths = {len(x) for x in strings}  # 집합 표기법
unique_lengths

{1, 2, 3, 4, 6}

In [6]:
set(map(len, strings)) # map함수로 표현

{1, 2, 3, 4, 6}

In [7]:
loc_mapping = {value: index for index, value in enumerate(strings)}  # 딕셔너리 표기법
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

## <중첩된 리스트 표기법>
* for 부분은 중첩의 순서에 따라 나열되며 필터 조건은 끝에 위치함

In [8]:
# 중첩된 리스트 표기
# 문제 : 다음은 영어와 스페인어 이름 리스트을 담고 있는 리스트이다. 각 이름에서 알파벳 "a"가 두 개 이상 포함된 이름의 리스트를 구하기

all_data = [["John", "Emily", "Michael", "Mary", "Steven"],
            ["Maria", "Juan", "Javier", "Natalia", "Pilar"]]

In [9]:
names_of_interest = [] # 중첩 for 문
for names in all_data:
    enough_as = [name for name in names if name.count("a") >= 2]
    names_of_interest.extend(enough_as)
names_of_interest

['Maria', 'Natalia']

In [10]:
# 중첩된 리스트 표기법:
result = [name for names in all_data for name in names if name.count("a") >= 2]
result

['Maria', 'Natalia']

In [11]:
# 중첩 리스트 표기법 : 1차원 평탄화
some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
flattened = [x for tup in some_tuples for x in tup]
flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [12]:
flattened = []  # 중첩 for문

for tup in some_tuples:
    for x in tup:
        flattened.append(x)

In [130]:
[[x for x in tup] for tup in some_tuples]

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

# * 함수
* 각 함수는 여러 개의 위치 인수와 키워드 인수를 받을 수 있다.
  * 함수의 키워드 인수는 항상 위치 인수 다음에 와야 한다.
* 함수를 호출할 때 위치 인수는 반드시 지정해야 한다.
* 함수를 호출할 때 키워드 인수는 선택적으로 사용가능하며, 이름을 사용하는 것이 좋다. 

In [13]:
def my_function(x, y):
    return x + y

In [14]:
my_function(1, 2)
result = my_function(1, 2)
result

3

In [15]:
def function_without_return(x):
    print(x)

result = function_without_return("hello!")
print(result)

hello!
None


In [16]:
def my_function2(x, y, z=1.5): # 위치 인수(positional argument), 키워드 인수(keyword argument)
    if z > 1:
        return z * (x + y)
    else:
        return z / (x + y)

In [17]:
my_function2(5, 6, z=0.7)
my_function2(3.14, 7, 3.5)
my_function2(10, 20) # 키워드 인수는 선택 사항

45.0

## <네임 스페이스, 스코프, 지역함수>
* 지역 네임 스페이스 : 함수 내에서 선언된 변수

In [18]:
def func(): #case 1  #case1
    a = [] # 지역변수
    for i in range(5):
        a.append(i)

In [19]:
func()

In [20]:
a = [] # 전역변수  #case2
def func():  #case 2
    for i in range(5):
        a.append(i)

In [21]:
func() # 함수가 호출될 때마다 리스트가 변경
print(a)
func()
print(a)

[0, 1, 2, 3, 4]
[0, 1, 2, 3, 4, 0, 1, 2, 3, 4]


In [26]:
a = None        #case3 : 예약어 global
def bind_a_variable():
    global a
    a = []
bind_a_variable()
print(a)


[]


## <함수도 객체>
* 적용할 함수를 리스트에 담아두고 각각의 문자열에 적용

In [27]:
states = ["   Alabama ", "Georgia!", "Georgia", "georgia", "FlOrIda",
          "south   carolina##", "West virginia?"]

In [28]:
# 문자열 데이터 분석을 위해 문자열 정제 (case1)
import re

def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()
        value = re.sub("[!#?]", "", value)
        value = value.title()
        result.append(value)
    return result

In [30]:
clean_strings(states)  

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

In [48]:
def remove_punctuation(value):
    return re.sub("[!#?]", "", value)

clean_ops = [str.strip, remove_punctuation, str.title]

def clean_strings(strings, ops):  #case2
    result = []
    for value in strings:
        for func in ops:
            value = func(value)
        result.append(value)
    return result

In [49]:
clean_strings(states, clean_ops)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

### # map 함수
* 함수을 인수로 사용
* map() 함수는 주어진 함수를 시퀀스(리스트, 튜플 등)의 각 요소에 적용하여 새로운 값을 생성하는 데 사용
* map() 함수는 함수와 하나 이상의 시퀀스를 인자로 받는다.
* 그런 다음 해당 함수를 시퀀스의 각 요소에 적용하고, 결과를 새로운 이터러블에 저장하여 반환한다.
* 사용 예:
  * 리스트나 튜플 등의 시퀀스의 각 요소에 어떤 변환을 적용하고자 할 때
  * 여러 시퀀스의 요소를 병렬로 처리하고자 할 때
  * 반복 가능한 객체(이터러블)에서 각 요소에 동일한 작업을 수행하고자 할 때
* 반복문을 사용하여 각 요소에 동일한 작업을 반복적으로 적용하는 것보다 간결하고 효율적인 방법을 제공

In [33]:
for x in map(remove_punctuation, states):
    print(x)

   Alabama 
Georgia
Georgia
georgia
FlOrIda
south   carolina
West virginia


#### # lambda 함수
* 데이터를 변형하는 함수에서 인수로 함수을 받아야 하는 경우에 사용

In [59]:
def short_function(x):
    return x * 2

equiv_anon = lambda x: x * 2

In [60]:
def apply_to_list(some_list, f):
    return [f(x) for x in some_list]

ints = [4, 0, 1, 5, 6]
apply_to_list(ints, lambda x: x * 2)

[8, 0, 2, 10, 12]

### 문제 : 다음 numbers = [1, 2, 3, 4, 5]의 원소을 거듭제곱하여 결과을 리스트로 출력하시오.
* for 문 사용
* map함수와 lambda함수 사용

In [63]:
numbers = [1, 2, 3, 4, 5]
result = []
for x in numbers:
    result.append(x*x)
result


[1, 4, 9, 16, 25]

In [62]:
# 예: map & lambda 사용 
numbers = [1, 2, 3, 4, 5]
squared_numbers = map(lambda x: x**2, numbers)
print(list(squared_numbers)) 

[1, 4, 9, 16, 25]


#### 예제: 다음 문자열 리스트를 각 문자열에 사용된 문자가 적은 순서대로 정렬하시오.

In [161]:
strings = ["foo", "card", "bar", "aaaa", "abab"]

In [162]:
strings.sort(key=lambda x: len(set(x)))
strings

['aaaa', 'foo', 'abab', 'bar', 'card']

## 제너레이터(generator)
* 리스트 내의 객체나 파일의 각 행 같은 순차적인 자료를 순회하는 방법을 제공
* 제네레이터를 생성하려면 함수에서 return을 사용하는 대신 yield 예약어를 사용

In [168]:
some_dict = {"a": 1, "b": 2, "c": 3}
for key in some_dict: # 딕셔너리를 순회하면 키가 반환
    print(key)

a
b
c


In [169]:
dict_iterator = iter(some_dict) # 이터레이터 객체
dict_iterator

<dict_keyiterator at 0x196d2809990>

In [170]:
list(dict_iterator)

['a', 'b', 'c']

In [171]:
# 제너레이터 생성
def squares(n=10):
    print(f"Generating squares from 1 to {n ** 2}")
    for i in range(1, n + 1):
        yield i ** 2

In [173]:
# 제나레이터을 호출하면 코드가 즉시 실행되지는 않는다.
gen = squares()
gen

<generator object squares at 0x00000196D2891620>

In [174]:
# 제너레이터로부터 값을 요청하면 그때서야 제너레이터의 코드가 실행된다.
for x in gen:
    print(x, end=" ")

Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100 

#### <제너레이터 표현식>
* 제너레이터를 생성하는 간단한 방법
* 리스트, 딕셔너리, 집합 표현식과 유사한 방식으로 괄호를 사용해서 제너레이터를 생성

In [176]:
def _make_gen():
    for x in range(100):
        yield x**2

gen = _make_gen()
gen

<generator object _make_gen at 0x00000196D28B9220>

In [175]:
gen = (x ** 2 for x in range(100)) # 제너레이터 표현식
gen

<generator object <genexpr> at 0x00000196D28B86C0>

In [177]:
# 함수의 인수로 리스트 표현식을 사용하는 대신 제너레이터 표현식을 사용할 수 있다.
sum(x ** 2 for x in range(100))
dict((i, i ** 2) for i in range(5))

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

## itertools 모듈 (p. 118)
* 여러 제너레이터를 제공
* groupby : 순차자료구조와 함수를 받아 인수로 받은 함수에서 반환하는 값에 따라 그룹을 만든다.

In [178]:
import itertools
def first_letter(x):
    return x[0]

names = ["Alan", "Adam", "Wes", "Will", "Albert", "Steven"]

for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names)) # names is a generator

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


# * 오류와 예외 처리
* 데이터분석 애플리케이션에서는 많은 함수가 특정한 종류의 입력만 처리하도록 되어 있다.

In [179]:
float("1.2345")
float("something")

ValueError: could not convert string to float: 'something'

In [180]:
def attempt_float(x):
    try:
        return float(x)
    except:
        return x

In [181]:
attempt_float("1.2345")
attempt_float("something")

'something'

In [182]:
float((1, 2))

TypeError: float() argument must be a string or a real number, not 'tuple'

In [183]:
def attempt_float(x):
    try:
        return float(x)
    except ValueError:
        return x

In [184]:
attempt_float((1, 2))

TypeError: float() argument must be a string or a real number, not 'tuple'

In [185]:
def attempt_float(x):
    try:
        return float(x)
    except (TypeError, ValueError):
        return x

# * 파일과 운영체제 (p.124, 126~127)
* f  = open(path, encoding = "utf-8")
* 파일 핸들 f는 리스트로 생각할 수 있으며 파일의 매줄을 순회할 수 있다.
* f.close() 

In [193]:
path = "examples/segismundo.txt"
f = open(path, encoding="utf-8")

In [194]:
lines = [x.rstrip() for x in open(path, encoding="utf-8")] # EOL (end of line)문자 제거
lines

['Sueña el rico en su riqueza,',
 'que más cuidados le ofrece;',
 '',
 'sueña el pobre que padece',
 'su miseria y su pobreza;',
 '',
 'sueña el que a medrar empieza,',
 'sueña el que afana y pretende,',
 'sueña el que agravia y ofende,',
 '',
 'y en el mundo, en conclusión,',
 'todos sueñan lo que son,',
 'aunque ninguno lo entiende.',
 '']

In [188]:
f.close()

In [196]:
with open(path, encoding="utf-8") as f: # file 객체 생성 & 파일 객체 종료
    lines = [x.rstrip() for x in f]

In [197]:
f1 = open(path)
f1.read(10)
f2 = open(path, mode="rb")  # Binary mode
f2.read(10)

b'Sue\xc3\xb1a el '

In [198]:
f1.tell()
f2.tell()

10

In [199]:
import sys
sys.getdefaultencoding()

'utf-8'

In [200]:
f1.seek(3)
f1.read(1)
f1.tell()

5

In [201]:
f1.close()
f2.close()

In [202]:
path

with open("tmp.txt", mode="w") as handle:
    handle.writelines(x for x in open(path) if len(x) > 1)

with open("tmp.txt") as f:
    lines = f.readlines()

lines

['Sue챰a el rico en su riqueza,\n',
 'que m찼s cuidados le ofrece;\n',
 'sue챰a el pobre que padece\n',
 'su miseria y su pobreza;\n',
 'sue챰a el que a medrar empieza,\n',
 'sue챰a el que afana y pretende,\n',
 'sue챰a el que agravia y ofende,\n',
 'y en el mundo, en conclusi처n,\n',
 'todos sue챰an lo que son,\n',
 'aunque ninguno lo entiende.\n']

In [116]:
import os
os.remove("tmp.txt")

In [203]:
with open(path) as f:
    chars = f.read(10)

chars
len(chars)

10

In [204]:
with open(path, mode="rb") as f:
    data = f.read(10)

data

b'Sue\xc3\xb1a el '

In [205]:
data.decode("utf-8")
data[:4].decode("utf-8")

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 3: unexpected end of data

In [206]:
sink_path = "sink.txt"
with open(path) as source:
    with open(sink_path, "x", encoding="iso-8859-1") as sink:
        sink.write(source.read())

with open(sink_path, encoding="iso-8859-1") as f:
    print(f.read(10))

UnicodeEncodeError: 'latin-1' codec can't encode character '\ucc70' in position 3: ordinal not in range(256)

In [207]:
os.remove(sink_path)

NameError: name 'os' is not defined

In [208]:
f = open(path, encoding='utf-8')
f.read(5)
f.seek(4)
f.read(1)
f.close()

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb1 in position 0: invalid start byte