# 함수
- 0개 혹은 그 이상의 인자를 입력받아 결과를 반환하는 규칙
- 파이썬에서는 def를 이용하여 함수를 정의한다.

In [2]:
def double(x):
    """
    이곳은 함수에 대한 설명을 적어 놓는 공간이다.
    예를 들어 '이 함수는 입력된 변수에 2를 곱한 값을 출력해준다'라는 설명을 추가할 수 있다.
    """
    return x * 2

In [6]:
def apply_to_one(f):
    """ 인자가 1인 함수 f를 호출 """
    return f(1)

my_double = double # 방금 정의한 함수를 나타낸다.
x = apply_to_one(my_double) # 2


# 짧은 익명의 람다 함수(lambda function)도 간편하게 만들 수 있다.
y = apply_to_one(lambda x: x + 4) # 5

# 변수에 람다 함수를 할당할 수도 있다.
another_double = lambda x: 2*x  # 이 방법은 최대한 피하도록 하자

def another_double(x):
    """ 대신 이렇게 작성하자 """
    return 2 * x

In [9]:
# 함수의 인자에는 기본값을 할당할 수 있느데 기본값 외의 값을 전달하고 싶을 때는 값을 직접 명시해주면 된다.

def my_print(message = "my default message"):
    print(message)
    
my_print("hello") # hello 출력
my_print() # 'my default message' 출력

hello
my default message


In [13]:
# 가끔 인자의 이름을 명시해주면 편리하다
 
def full_name(first = "What's_his_name", last = 'Something'):
    return first + " " + last

full_name("Yujin", "Lee") # Yujin Lee 반환
full_name("Yujin") # Yujin Something 반환

'Yujin Something'

# 문자열
- 문자열(string)은 작은 따옴표 또는 큰 따옴표로 묶어 나타낸다.
- 다만 앞뒤로 동일한 기호를 사용해야 한다.

In [15]:
# 파이썬은 몇몇 특수 문자를 인코딩할 때 역슬래시를 사용한다.

tab_string = "\t" # tab을 의미하는 문자열
len(tab_string)

1

In [16]:
# 만약 역슬래시를 역슬래시로 보이는 문자로 사용하고 싶다면 문자열 앞에 "r"을 붙여 raw string이라고 명시하면 된다.

not_tab_string = r"\t" # 문자 '\'와 't'를 나타내는 문자열 
len(not_tab_string) 

2

In [20]:
# 문자열 안의 값을 손쉽게 추가할 수 있는 f-string 기능

first_name = "Joel"
last_name = "Grus"

full_name = first_name + " " + last_name # 문자열 합치기
full_name2 = "{0} {1}".format(first_name, last_name) #  .format을 통한 문자열 합치기

# f string을 사용하면 훨씬 간편하게 합칠 수 있다.
full_name3 = f"{first_name} {last_name}"

# 예외 처리

In [21]:
# 코드가 뭔가 잘못됐을 때 파이썬은 예외(exception)가 발생했음을 알려준다.
# 예외를 제대로 처리해 주지 않으면 프로그램이 죽는데, 이를 방지하기 위해 사용할 수 있는 것이 try와 except이다.

try:
    print(0 / 0)
except ZeroDivisionError:
    print("cannot divide by zero")

cannot divide by zero


# List
- 순서가 있는 자료의 집합(collection)


In [1]:
integer_list = [1,2,3]
heterogeneous_list = ["string", 0,1, True]
list_of_lists = [integer_list, heterogeneous_list, []]

list_length = len(integer_list) # 3
list_sum = sum(integer_list) # 6

In [2]:
# 대괄호를 사용해 리스트의 n번째 값을 불러오거나 설정할 수 있다.
x = [0,1,2,3,4,5,6,7,8,9]

zero = x[0] #결과는 0 (리스트의 순서는 0부터 시작)
one = x[1] # 1
nine = x[-1] # 9, 리스트의 마지막 항목을 가장 파이썬스럽게 불러오는 방법
eight = x[-2] # 8
x[0] = -1 # x는 이제 [-1,1,2,3..,9]임

- slicing
    - i:j 는 리스트를 i번째 값부터 j번째 직전의 값까지 분리하라는 의미
    - 만약 i를 따로 명시해주지 않는다면 리스트의 첫번째 값부터 나눈다는 것을 의미한다.
    - 반면j를 명시해주지 않는다면 리스트의 마지막 값까지 나눈다는 것을 의미한다.

In [3]:
# 대괄호를 사용해 리스트를 슬라이싱(slicing)할 수 있다.

first_three = x[:3] # [-1,1,2]
three_to_end = x[3:] # [3,4,...,9]
one_to_four = x[1:5] # [1,2,3,4]
last_three = x[-3:] # [7,8,9]
without_first_and_last = x[1:-1] # [1,2,,,8]
copy_of_x = x[:] # [-1,1,2,,9]

# 이는 문자열 같은 순차형(sequntial) 변수도 나눌 수 있다.


- stride

In [4]:
# 간격(stride)을 설정하여 리스트를 분리할 수 있다.
# 간격은 음수도 설정 가능

every_third = x[::3] #[-1,3,6,9]
five_to_three = x[5:2:-1] # [5,4,3]
# 인덱스 5에서 인덱스 2전까지 -1 간격으로


- in 연산자

In [5]:
# in 연산자로 리스트 안에서 항목의 존재 여부 확인
1 in [1,2,3] # True
0 in [1,2,3] # False

# 이 방법은 리스트의 항목을 하나씩 모두 확인해보기 때문에 리스트의 크기가 작을때만 사용하는 것이 좋다

False

- extend - 리스트 추가하기

In [7]:
x = [1,2,3]
x.extend([4,5,6]) # x는 이제 [1,2,3,4,5,6]

# x를 수정하고싶지 않다면 리스트를 더해 줄 수도 있다. 
x = [1,2,3]
y = x + [4,5,6] # y는 이제 [1,2,3,4,5,6]이며 x는 변하지 않았다.

In [None]:
# 리스트에 항목 하나씩 추가하는 경우
x = [1,2,3]
x.append(0) # 결과는 [1,2,3,0]

y = x[-1] # 0
z = len(x) # 4

In [None]:
# 리스트 안에 몇개의 항목이 존재하는지 알고 있다면 손쉽게 리스트를 풀 수도 있다.

x,y = [1,2] # 이제 x는 1, y는 2


# 하지만 양쪽 항목의 개수가 다르다면 value errorr가 발생한다. 따라서 아래와 같이 버릴 항목을 밑줄로 표시한다.
_, y = [1,2] # y == 2이고 첫번째 항목은 신경쓰지 않는다.

# Tuple
- 변경할 수 없는 리스트
- 리스트에서 수정을 제외한 모든 기능을 튜플에 적용할 수 있다.
- 튜플은 대괄호 대신 괄호를 사용해 (혹은 아무런 기호 없이) 정의한다.

In [8]:
my_list = [1,2]
my_tuple = (1,2)
other_tuple = 3,4

my_list[1] = 3 # my_list는 이제 [1,3]

try:
    my_tuple[1] = 3
except TypeError:
    print("cannot modify a tuple")

cannot modify a tuple


In [None]:
# 함수에서 여러 값을 반환할 때 튜플을 사용하면 편하다.
def sum_and_product(x,y):
    return (x + y), (x * y)

sp = sum_and_product(2,3) # 결과는 (5, 6)
s, p = sum_and_product(5,10) # s = 15, p = 50


In [None]:
# 튜플과 리스트는 다중 할당(multiple assignment)을 지원한다.

x,y = 1,2 # x는 1, y는 2
x,y = y,x # 파이썬스럽게 변수 교환. 이제 x는 2, y는 1


# Dictionary
- 특정 값(value)과 연관된 키(key)를 연결해주고 이를 사용해 값을 빠르게 검색할 수 있다.
- 딕셔너리의 키는 수정할 수 없으며 리스트를 키로 사용할 수 없다. 만약 다양한 값으로 구성된 키가 필요하다면 튜플이나 문자열을 키로 사용하도록 해야한다.

In [10]:
empty_dict = {} # 가장 파이썬스럽게 딕셔너리를 만드는 방법
empty_dict2 = dict()
grades = {"Joel": 80, "Tim": 95} # 딕셔너리 예시

In [11]:
# 대괄호를 사용해서 키의 값을 불러올 수 있다.

joels_grade = grades["Joel"]

In [12]:
# 딕셔너리에 존재하지 않는 키를 입력하면 keyError 발생

try:
    kates_grade = grades["kate"]
except KeyError:
    print("no grade for Kate!")

no grade for Kate!


In [None]:
# 연산자 in을 사용한 키의 존재 여부 확인
    
joel_has_grade = "Joel" in grades # True
kate_has_grade = "Kate" in grades # False

- get method
     - 입력한 키가 딕셔너리에 없어도 에러를 반환하지 않고 기본값을 반환해준다.
     

In [13]:
joels_grade = grades.get("Joel",0) # 결과는 80
kates_grade = grades.get("Kate", 0) # 결과는 0
no_ones_grade = grades.get("No One") # 기본값으로 None을 반환

In [None]:
# 대괄호를 이용해 키와 값을 새로 지정할 수 있다.

grades["Tim"] = 99 # 기존의 값을 대체
grades["Kate"] = 100 # 세번째 항목을 추가
num_students = len(grades) # 결과는 3

In [16]:
# 정형화된 데이터를 간단하게 나타낼 때는 주로 딕셔너리가 사용된다.

tweet = {
    "user" : 'JoelGrus',
    "text" : "Data Science is Awesome",
    "retweet_count" : 100,
    "hashtags" : ['#data', '#science', "#dataScience", '#yolo']
    
}

In [17]:
# 특정 키 대신 딕셔너리의 모든 키를 한번에 살펴볼 수 있다. 

tweet_keys = tweet.keys() # 키에 대한 리스트
tweet_values = tweet.values() # 값에 대한 리스트
tweet_items = tweet.items() # (key, value) 튜플에 대한 리스트 

'user' in tweet_keys # True, 하지만 리스트에서 in을 사용하기 때문에 느리다
'user' in tweet # 훨씬 파이썬스럽고 딕셔너리에서 in을 사용하기에 빠르다
'JoelGrus' in tweet_values # True

True

- defaultdict
    - 평범한 딕셔너리와 유일한 차이점은 만약 존재하지 않는 키가 주어진다면 defaultdict는 이 키와 인자에서 주어진 값으로 dict에 새로운 항목을 추가해준다.
    - from collections import defaultdict

In [2]:
# 문서에서 단어의 빈도수를 세어보는 중이라고 상상하자. 아래는 가능한 방법들이다.

document = "I love the way you like me. Like wondering around the space."

# 방법1 
word_counts = {}
for word in document:
    if word in word_counts:
        word_counts[word] += 1
    else:
        word_counts[word] = 1

# 방법2
word_counts = {}
for word in document:
    try:
        word_counts[word] += 1
    except KeyError:
        word_counts[word] = 1

# 방법3 
# 존재하지 않는 키를 적절하게 처리해주는 get을 사용해서 딕셔너리를 생성하는 방법 (word의 이전 count개수를 가져와서 활용)

word_counts = {}
for word in document:
    previous_count = word_counts.get(word,0)
    word_counts[word] = previous_count + 1

In [21]:
# 방법4 - defaultdict 사용
from collections import defaultdict

word_counts = defaultdict(int) # int()는 0을 생성
for word in document:
        word_counts[word] += 1



- 리스트, 딕셔너리 혹은 직접 만든 함수를 인자에 넣어줄 수 있다.

In [23]:
dd_list = defaultdict(list) # list()는 빈 리스트는 생성
dd_list[2].append(1) # dd_list는 {2: [1]}

In [25]:
dd_dict = defaultdict(dict) # dict()는 빈 딕셔너리를 생성
dd_dict["Joel"]['City'] = "Seattle" # {'Joel': {"City": "Seattle"}}

In [27]:
dd_pair = defaultdict(lambda: [0,0])
dd_pair[2][1] = 1 # 이제 dd_pair는 {2: [0,1]}을 포함

# Counter
- 연속된 값을 defaultdict(int)와 유사한 객체로 변환해 주며, 키와 값의 빈도를 연결시켜 준다.

In [1]:
from collections import Counter

c = Counter([0,1,2,0]) # C는 결국 {0: 2, 1:1, 2:1} -> 0 2개 1 한개 2 한개의 리스트 이므로

In [3]:
# 특정 문서에서 단어의 개수를 셀 때도 유용하다. 
# document는 단어의 리스트

word_counts = Counter(document)
word_counts

Counter({'I': 1,
         ' ': 11,
         'l': 2,
         'o': 4,
         'v': 1,
         'e': 8,
         't': 2,
         'h': 2,
         'w': 2,
         'a': 3,
         'y': 2,
         'u': 2,
         'i': 3,
         'k': 2,
         'm': 1,
         '.': 2,
         'L': 1,
         'n': 3,
         'd': 2,
         'r': 2,
         'g': 1,
         's': 1,
         'p': 1,
         'c': 1})

In [4]:
# Counter 객체에는 굉장히 유용하게 쓰이는 most_common 함수가 있다.
# 가장 자주 나오는 단어 10개와 이 단어드르이 빈도수를 출력

for word, count in word_counts.most_common(10): # word - key, count - item
    print(word, count) 

  11
e 8
o 4
a 3
i 3
n 3
l 2
t 2
h 2
w 2


# Set
- 집합(set)은 파이썬의 데이터구조 중 유일한 항목의 집합을 나타내는 구조다
- 집합은 중괄호를 사용해서 정의한다.

- 집합의 장점
    - in은 집합에서 굉장히 빠르게 작동한다. 
        - 수많은 항목 중에서 특정 항목의 존재 여부를 확인해보기 위해서는 리스트를 사용하는 것 보다 집합을 사용하는 것이 훨씬 효율적이다. 
    - 중복된 원소를 제거해준다. 
 

In [1]:
primes_below_10 = {2,3,5,7}

In [2]:
# { }는 비어있는 딕셔너리를 의미하기 때문에 set()을 사용해서 비어있는 set을 생성할 수 있다.

s = set()

# 추가하는 것이 append가 아닌 add임에 주의 
s.add(1) # s = {1}
s.add(2) # s = {1,2}
s.add(2) # s = {1,2} - 중복 허용이 안되기 때문

x = len(s) # 2
y = 2 in s # True
z = 3 in s # False
print(y,z)

True False


In [7]:
# list의 in 사용
stopword_list = ["a", "an", "at"] +  ["yet", "you"]

"zip" in stopword_list # 모든 항목을 확인해야 한다.

False

In [8]:
# set의 in 사용
stopword_set = set(stopword_list)
"zip" in stopword_set # 굉장히 빠르게 확인 가능

False

In [3]:
# 중복된 원소 제거 

item_list = [1,2,3,1,2,3]
num_items = len(item_list) # 6
item_set = set(item_list) # {1,2,3}

num_distinct_items = len(item_set) # 3
distinct_item_list = list(item_set) # {1,2,3}


In [4]:
# set 원소 제거
item_set.remove(2)
item_set

{1, 3}

In [6]:
item_set.discard(7)
item_set

{1, 3, 4, 6, 8}

In [5]:
# set 원소 여러개 추가
item_set.update([1,4,6,8,3])
item_set

{1, 3, 4, 6, 8}

In [7]:
# set 전체 비우기
item_set.clear()

In [8]:
# 합집합, 교집합, 차집합

s1 = {1,2,3}
s2 = {3,4,5}

# 합집합
s1.union(s2)

# 교집합
s1.intersection(s2)

# 차집합
s1 - s2 # or s1.difference(s2)

# 합집합
s1 | s2

# 교집합
s1 & s2

{3}

# 흐름제어 IF

In [11]:
if 1 > 2:
    message = 'if only i were greater than two...'
elif 1 > 3:
    message = "elif stands for 'else if'"
else:
    mesage = 'When all else fails use else (if you want to)'

In [17]:
for x in range(10):
    if x == 3:
        continue # 다음 경우로 넘어간다. 
    if x == 5:
        break # for문 전체를 끝낸다. 
    print(x)

0
1
2
4


- 삼항 연산자 한 줄로 표현하기
- **A if 조건문 else B**
    ->  조건문이 True이면 A, 아니면 B

In [16]:
# 삼항 연산자(temary operator)인 if-then-else문을 한 줄로 표현할 수도 있다.

parity = "even" if x % 2 == 0 else "odd" 

parity

'odd'

# True와 False

In [18]:
one_is_less_than_two = 1 < 2 # True
true_equals_false = True == False # False

## None
- 파이썬은 다른 값으로도 bool 타입을 표현할 수 있게 해주는데, 다음은 모두 False를 의미한다.
    - False
    - None
    - [ ]
    - { }
    - ""
    - set( )
    - 0
    - 0.0

In [23]:
# 파이썬은 존재하지 않는 값을 None으로 표기한다.
x = None
assert x == None, "this is not the Pythonic way to check for None"
assert x is None, "this is the Pythonic way to check for None"

# 가정 설정문 - assert
# assert는 뒤의 조건이 True가 아니면 AssertError를 발생한다. -> 에러일경우 뒤에 있는 해당 문장을 반환

# Sort (정렬)
- list를 자동으로 정렬
- 내림차순 -> reverse = True
- 절댓값 -> key = abs


In [None]:
x = [4,1,2,3]
y = sorted(x) # y는 [1,2,3,4] 하지만 x는 변하지 않는다.
x.sort() # 이제 x는 [1,2,3,4]

In [None]:
# 절댓값의 내림차순으로 정렬할 경우
x = sorted([-4,1,-2,3], key=abs, reverse=True) # [-4,3,-2,1]

In [30]:
# 빈도의 내림차순으로 단어와 빈도를 정렬
wc = sorted(word_counts.items(), key=lambda word_and_count: word_and_count[1], reverse = True)
wc

[(' ', 11),
 ('e', 8),
 ('o', 4),
 ('a', 3),
 ('i', 3),
 ('n', 3),
 ('l', 2),
 ('t', 2),
 ('h', 2),
 ('w', 2),
 ('y', 2),
 ('u', 2),
 ('k', 2),
 ('.', 2),
 ('d', 2),
 ('r', 2),
 ('I', 1),
 ('v', 1),
 ('m', 1),
 ('L', 1),
 ('g', 1),
 ('s', 1),
 ('p', 1),
 ('c', 1)]

# List Comprehension (리스트 컴프리헨션)

- 기존의 리스트에서 특정 항목을 선택하거나 변환시킨 결과를 새로운 리스트에 저장하는 경우 사용한다

In [28]:
even_numbers = [x for x in range(5) if x % 2 ==0] # [0,2,4]
squares = [x * x for x in range(5)]
even_squares = [x * x for x in even_numbers] # [0,4,16]

In [None]:
# 딕셔너리나 집합으로 변환시킬 수 있다.

square_dict = {x: x * x for x in range(5)} # {0: 0, 1:1, 2:4, 3:9, 4:16}}
square_set = {x * x for x in [1,-1]}  # {1}

# 동일하게 중괄호이지만 안에 어떻게 표현하느냐에 따라 딕셔너리, 집합임이 달라지는 것 주의 

In [30]:
# 보통 리스트에서 불필요한 값은 밑줄로 표기

zero = [0 for _ in even_numbers] # even_numbers와 동일한 길이

1
-1


In [None]:
# 여러 for를 포함할 수 있다
# 뒤에 나오는 (두번째) for는 앞에 나온 결과에 대해 반복한다.

pairs = [(x,y)
        for x in range(10)
        for y in range(10)
        ]
# (0,0), (0,1), ,, (9,8), (9,9) 총 100개

In [None]:
increasing_pairs = [(x,y)
                   for x in range(10)
                   for y in range(x + 1, 10)]

# 자동 테스트와 assert

# 객체 지향 프로그래밍

# 이터레이터와 제너레이터

# 정규표현식

# zip과 인자 언패킹

# 타입 어노테이션