# 파이썬 속성 강좌 2부

### 문자열 자료형

문자열은 말 그래도 문자들을 나열해 놓은 것이며 아무런 의미를 갖지 않는다.
즉, 파이썬은 문자열을 보면 아무런 해석을 하지 않으며 그냥 명령에 따라 주어진 문자열을 조작한다.
물론 이런 문자열들을 잘 조작하여 필요한 정보를 얻어내는 것이 데이터 분석의 기본 목표이다.

문자열은 작은 따옴표(`'`) 또는 큰 따옴표(`"`)로 감싸져야 한다.
다만 앞 뒤로 동일한 종류의 따옴표가 사용되어야 한다.

In [1]:
single_quoted_string = 'data science'
double_quoted_string = "data science"

두 변수가 동일한 값을 저장하고 있다는 것을 확인할 수 있다.

In [2]:
single_quoted_string == double_quoted_string

True

**주의:** 위에서 사용된 기호 `==`는 양측의 값이 동일함을 판단하는 함수이다.
즉, 양측의 (변수에 저장된) 값이 동일하면 참(`True`)을,
다르면 거짓(`False`)를 반환하는 함수이다.

#### 특수 문자

파이썬에서 백슬래시(`\`)는 특별한 역할을 수행한다. 
예를 들어 `\t`는 탭을 가리킨다.
여기서 탭은 탭 키를 눌렀을 경우 커서(cursor)가 지정된 크기만큼 움직이도록 하는 것을 가리킨다.

In [3]:
print("Hello,\tPython")

Hello,	Python


**주의:** 탭은 보통 스페이스 두 칸 또는 네 칸을 가리킨다. 언어마다 조금 다를 수 있다.

In [4]:
print("Hello,  Python") # 스페이스 두 칸

Hello,  Python


In [5]:
print("Hello,    Python") # 스페이스 네 칸

Hello,    Python


즉, 탭은 여기서는 스페이스 두 칸에 해당함을 알 수 있다.

백슬래시 자체를 문자열에 포함하고 싶을 때는 **무가공 문자열(raw string)**이란
의미로 `r` 기호을 문자열 앞에 붙혀서 사용한다.
그러면 백슬래시의 특수성이 무시되면 하나의 문자로 인식된다.

In [6]:
print(r'Hello,\tPython')

Hello,\tPython


#### 여러 줄로 구성된 문자열

문자열을 여러 줄에 걸쳐서 작성하고 싶으면 세 개의 큰 따옴표(`"""`)를 앞뒤로 감싼다.

In [7]:
multi_line_string = """첫째줄입니다.
둘째줄입니다.
셋째줄입니다."""

In [8]:
print(multi_line_string)

첫째줄입니다.
둘째줄입니다.
셋째줄입니다.


파이썬 해석기에 내부에서는 사실 `\n` 이라는 특수 문자열이 추가되어 하나의 문자열로 저장된다.
여기서 `\n` 은 뉴 라인(new line, 줄바꿈)을 가리키는 특수 문자열이다.
역시 여기서도 백슬래시의 특수 기능이 활용된다.

In [9]:
multi_line_string

'첫째줄입니다.\n둘째줄입니다.\n셋째줄입니다.'

#### 포맷 문자열(format string)

문자열 내에 지정된 값을 삽입하여 보다 유연한 문자열을 생성할 수 있도록
도와주는 문자열을 포맷 문자열이라 부르며,
값을 인자로 입력받아 새로운 문자열을 생성하는 일종의 틀의 역할을 수행한다.

예를 들어, 성과 이름이 각각 `last_name`과 `first_name` 변수에 저장되어 있다.

In [10]:
last_name = "홍"
first_name = "길동"

그러면 다음과 같이 문자열 덧셈을 이용하여 `'홍 길동'`을 생성할 수 있다.

In [11]:
last_name + " "+ first_name

'홍 길동'

또한 포맷 문자열을 이용하여 좀 더 유연하게 문자열을 다룰 수 있다.

In [12]:
"{1} {0}".format(first_name, last_name)

'홍 길동'

변수 값이 바뀌면 다르게 출력된다.

In [13]:
last_name = "박"
"{1} {0}".format(first_name, last_name)

'박 길동'

#### f-문자열(f-string)

파이썬 최신 버젼부터는 **f-문자열**이 제공되며 편리성이 보다 높다.
이 강의에서는 주로 f-문자열을 사용할 것이다.

In [14]:
f"{last_name} {first_name}"

'박 길동'

### 리스트 자료형

파이썬에서 제공하는 자료형 중에서 가장 기본적인 자료형이다. 
리스트는 여러 개의 값을 하나의 모둠(collection)으로 묶는다.
또한 리스트에 포함된 값들 사이의 순서가 있으며,
순서는 인덱스(index)로 지정된다.

**주의:** 인덱스는 0번 부터 시작하며, 0, 1, 2, 3, ... 등으로 리스트 왼편에 위치한 항목부터
인덱스를 센다.

리스트 항목은 아무 자료형이나 섞어서 사용될 수 있다.

#### 동일 자료형 리스트

In [15]:
integer_list = [1, 2, 3]

#### 섞인 자료형 리스트

In [16]:
heterogeneous_list = ["string", 0.1, True]

#### 중첩 리스트

리스트가 다른 리스트의 항목으로 사용될 수 있으며,
중첩 정도에 아무런 제한이 없다.

**주의:** `[]`는 아무런 항목이 없는 공리스트(empty list)를 가리킨다. 

In [17]:
list_of_lists = [integer_list, heterogeneous_list, []]

리스를 활용하는 많은 도구들이 있다.

#### 리스트 길이

`len` 함수는 리스트의 길이를 반환한다.

In [18]:
len(integer_list)

3

#### 리스트 항목들의 덧셈

리스트 항목이 모두 숫자일 경우 모든 항목을 한꺼번에 더한 결과를 구할 수 있다.

In [19]:
sum(integer_list)

6

#### 인덱싱

리스트의 특정 인덱스에 위치한 값을 확인하거나 수정할 수 있으며, 이를 **인덱싱**이라 부른다.
기호는 대괄호(`[]`)를 사용한다.

In [20]:
x = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

zero = x[0]
one = x[1] 
nine = x[-1]
eight = x[-2]
x[0] = -1

print(f"zero\t = {zero}", 
      f"one\t = {one}", 
      f"nine\t = {nine}", 
      f"eight\t = {eight}", 
      f"x\t = {x}", 
      sep=',\n')

zero	 = 0,
one	 = 1,
nine	 = 9,
eight	 = 8,
x	 = [-1, 1, 2, 3, 4, 5, 6, 7, 8, 9]


**주의:** 

* 프린트(`print`) 함수는 인자를 여러 개 받을 수 있으며, 각 인자를 모두 화면에 출력해 주는 함수이다.
    `print` 함수의 각 인자들은 기본적으로 스페이스를 기준으로 한 줄에 출력되지만, 
    각 인자를 어떻게 구분해서 출력할지를 `sep`이라는 인자의 값을 조정하여 지정할 수 있다.
    위에서는 줄바꿈(`\n`)을 `sep`에 대한 인자값으로 지정하여서 각 인자들이 여러 줄로 나뉘어 출력되었다.

* **역순 인덱스**(reverse index): 앞서 설명한 대로 인덱스는 리스트의 맨 왼편 항목부터 
    0, 1, 2, 3, ... 식으로 번호를 매긴다.
    반면에 리스트의 맨 오른편 항목부터 -1, -2, -3, ... 을 이용하여 역순으로 인덱스를 매길 수도 있다.
    따라서 -1은 리스트의 오른편 마지막 항목을 가리키며 종종 활용된다.

#### 인(`in`) 연산자

`in`은 항목의 포함여부를 판단해 주는 연산자이다.
반환값은 `True` 또는 `False`이다.

**주의:** `True`와 `False`는 부울(`bool`) 자료형에 속하는 값들이다.

In [21]:
1 in [1, 2, 3]

True

In [22]:
0 in [1, 2, 3]

False

#### 리스트 풀어헤치기(unpacking)

리스트의 길이를 정확히 알고 있는 경우 각각의 항목을 따로따로 떼어내어 변수에 저장할 수 있다.

In [23]:
x, y, z = [1, 2, 3]
print(f"x = {x}", 
      f"y = {y}",
      f"z = {z}",
      sep='\n')

x = 1
y = 2
z = 3


**주의:** 리스트의 길이와 변수의 개수가 다르면 오류가 발생한다.

In [24]:
x, y = [1, 2, 3]

ValueError: too many values to unpack (expected 2)

In [25]:
x, y, z, w = [1, 2, 3]

ValueError: not enough values to unpack (expected 4, got 3)

리스트를 해제하면서 앞으로 사용하지 않고 버릴 항목은 굳이 이름을 주지 않아도 된다.
이를 위해 밑줄(`underscore`, 언더스코어) 기호를 사용한다.

In [26]:
x, _, z = [1, 2, 3]
print(f"x = {x}", 
      f"z = {z}",
      sep='\n')

x = 1
z = 3


### 튜플(tuple) 자료형

튜를 자료형은 리스트와 거의 같다. 다만 튜플 자료형은 한 번 생성되면 수정이 불가능하다.
즉, 앞서 리스트 인덱싱을 통해 기존 리스트의 항목을 수정할 수 있었지만 
튜플의 경의 인덱싱을 통해 튜플의 항목을 확인하고 읽을 수만 있어서 수정은 불가능하다.
수정불가능성을 제외하고는 리스트와 기본적으로 동일하게 작동한다.

튜를 자료형을 나타내는 기호는 소괄호 `()`를 사용한다.

In [27]:
my_list = [1, 2]   # 리스트
my_tuple = (1, 2)  # 튜플

#### 수정 가능성

리스트는 인덱싱을 통해 특정 인덱스의 항목 수정이 가능하다.

In [28]:
my_list[-1] = 3
print(my_list)

[1, 3]


튜플에도 인덱싱을 사용하여 정보를 확인할 수는 있다.

In [29]:
x0 = my_tuple[1]
print(x0)

2


하지만 수정은 허용하지 않는다.

In [30]:
my_tuple[1] = 3

TypeError: 'tuple' object does not support item assignment

소괄호 없이 쉼표(comma, 콤마)를 이용하여 항목을 나열해도 튜플로 인식된다.

In [31]:
other_tuple = 3, 4
print(other_tuple)

(3, 4)


#### 함수 반환값과 튜플

함수는 실행과정에서 하나의 값만 반환할 수 있다.
하지만 튜플을 사용하면 여러 개의 값을 동시에 반환할 수 있다.

In [32]:
def sum_and_product(x, y):
    return (x + y), (x * y)

sp = sum_and_product(2, 3)
s, p = sum_and_product(2, 3)

print(f"sp = {sp}", f"s  = {s}", f"p  = {p}", sep='\n')

sp = (5, 6)
s  = 5
p  = 6


#### 튜플 풀어헤치기(unpacking)

리스트의 경우와 동일하게 작동한다.

In [33]:
x, y, z = (1, 2, 3)
print(f"x = {x}", 
      f"y = {y}",
      f"z = {z}",
      sep=',\n')

x = 1,
y = 2,
z = 3


튜플을 해제하면서 앞으로 사용하지 않고 버릴 항목은 굳이 이름을 주지 않아도 된다.
이를 위해 밑줄(`underscore`, 언더스코어) 기호를 사용한다.

In [34]:
x, _, z = (1, 2, 3)
print(f"x = {x}", 
      f"z = {z}",
      sep='\n')

x = 1
z = 3


#### 변수 다중 할당

여러 개의 변수에 동시에 값을 할당하며 변수를 선언할 수 있다.

In [35]:
x, y, z = 1, 2, 3
print(f"x = {x}", f"y = {y}", f"z = {z}", sep='\n')

x = 1
y = 2
z = 3


두 개 이상의 변수에 할당된 값들을 아래와 같이 교환할 수 있다.

In [36]:
x, y, z = z, y, x

In [37]:
print(f"x = {x}", f"y = {y}", f"z = {z}", sep='\n')

x = 3
y = 2
z = 1


### 사전(`dict`) 자료형

딕트(`dict`, dictionary, 사전) 자료형은 키(key)와 키에 할당된 값(value)으로 
이루어진 쌍들의 집합으로 생각할 수 있다.

영어 사전을 '영어 단어'와 '단어의 뜻'으로 이루어진 쌍들의 집합으로 볼 수 있다는 것과
유사하다는 의미에서 사전 자료형이라 불린다.
실제로 '영어 단어'를 키(key)로, '단어의 뜻'을 해당 단어의 값으로 이해할 수 있다.

사전 자료형을 나타내는 기호는 집합기호인 중괄호(`{}`)이며, 빈 사전은 공집합을 나타내는 기호와 동일하다.

In [38]:
empty_dict = {} 
print(empty_dict)

{}


또는 

In [39]:
empty_dict2 = dict()
print(empty_dict2)

{}


`dict` 자료형은 보통 아래 형태이다.

In [40]:
grades = {"Joel": 80, "Tim": 95}

특정 키에 해당하는 값을 확인하려면 리스트의 인덱싱처럼 대괄호를 사용한다.
다만 인덱스 숫자 대신에 키 이름을 사용한다.

예를 들어, `"Joel"`의 점수(grade)를 확인하려면 다음과 같이 실행한다.

In [41]:
grades["Joel"]

80

없는 키를 사용하면 오류가 발생한다.

In [42]:
kates_grade = grades["Kate"]

KeyError: 'Kate'

키의 존재여부는 `in` 연산자를 이용해서 확인한다.

In [43]:
"Joel" in grades

True

In [44]:
"Kate" in grades

False

`dict` 자료형의 `get` 메소드를 사용하면 키가 존재하지 않아도 오류가 발생하지 않는다.

키가 존재하면 해당 값을 리턴한다.

In [45]:
grades.get("Joel")

80

키가 존재하지 않으면 논(`None`)을 리턴한다.

In [46]:
grades.get("Kate")

**주의:** 
* `None`은 '아무 값도 아니다'를 의미하는 일종의 값이다. C, Javd 등의 널(null) 값에 해당한다.
    따라서 함수를 실행해도 아무 것도 보여주지 않는다.
* 파이썬의 모든 함수는 반환값이 있다. 다만, 함수를 정의할 때 리턴(`return`) 키워드가 없는 경우
    `None`을 반환값으로 사용한다.
* `get` 메소드는 둘째 인자를 받을 수 있으며, 해당 키가 존재하지 않을 경우 `None` 대신에 지정된 둘째 인자를 반환한다.
    키가 존재하면 둘째 인자는 무시된다.

In [47]:
grades.get("Kate", "해당 키가 없어요")

'해당 키가 없어요'

In [48]:
grades.get("Joel", 0)

80

#### 키(key)로 사용될 수 있는 자료형

수정할 수 없는 자료형만 사용할 수 있다.

* 숫자
* 문자열
* 튜플

반면에, 리스트, 사전 자료형은 키로 사용될 수 없다.

#### 사전 자료형 수정

대괄호(`[]`)를 사용하여 기존 키 값을 수정하거나 새로운 항목을 추가할 수 있다.

**주의:** 사전 자료형은 순서는 아무런 의미가 없다. 

In [49]:
print(grades)

{'Joel': 80, 'Tim': 95}


In [50]:
grades["Tim"] = 99
print(grades)

{'Joel': 80, 'Tim': 99}


#### 항목 추가

In [51]:
grades["Kate"] = 100 
print(grades)

{'Joel': 80, 'Tim': 99, 'Kate': 100}


#### 키(key)와 값(value)

키만 또는 값만 따로따로 모아서 확인 및 활용할 수 있다.

In [52]:
grades_keys = grades.keys()
grades_keys

dict_keys(['Joel', 'Tim', 'Kate'])

In [53]:
grades_values = grades.values()
grades_values

dict_values([80, 99, 100])

사전 자료형에 포함된 키와 값으로 이루어진 쌍들을 일종의 리스트로 확인할 수도 있다.

In [54]:
grades_items = grades.items()
grades_items

dict_items([('Joel', 80), ('Tim', 99), ('Kate', 100)])

**주의:** `dict_keys`, `dict_values`, `dict_items`는 사전 자료형에 포함된 새로운 자료형들이지만,
여기서는 자세히 알 필요가 없다. 다만 리스트와 유사하게 활용할 수 있음만 기억하면 된다.

#### 키와 값의 포함여부 확인

키의 존재여부 확인

In [55]:
"Joel" in grades

True

값의 존재여부 확인

In [56]:
80 in grades_values

True

### 조건제시법(list comprehension)

집합을 정의하기 위해 사용하는 조건제시법을 리스트, 집합, 사전(`dict`)에도 적용할 수 있다.

예를 들어 0 ~ 4 까지의 정수 중에서 짝수만으로 이루어진 집합을 다음과 같이 
조건제시법으로 정의할 수 있다.

$$\{x \mid 0 \le x < 5, \text{단 } x는 짝수\}$$

동일한 조건으로 리스트를 생성하려면 다음과 같이 `for ... in ... if ...`문을 활용한다.
형식은 다음과 같다. 

```python
[x for x in range(5) if x % 2 == 0]
```
* `for`: 파이프($|$, 일명 짝대기) 기호에 대응.
* `x in range(5)`: '$0 \le x < 5$ 이며, $x$'는 정수를 표현.
* `if` : '단', 즉, 조건부에 대응.
* `x % 2 == 0`: `x`를 2로 나눈 나머지가 0과 같아야 한다는 조건, 즉, 짝수 조건 표현.

In [57]:
even_numbers = [x for x in range(5) if x % 2 == 0]
print(even_numbers)

[0, 2, 4]


아래 `squares`는 다음 집합에 대응한다.

$$\{x^2 \mid 0 \le x < 5 \text{ 이고 } x \text{ 는 정수}\} = \{0, 1, 4, 9, 16\}$$


In [58]:
squares = [x * x for x in range(5)]
print(squares)

[0, 1, 4, 9, 16]


사전(`dict`) 자료형에 대해서도 조건제시법을 적용할 수 있다.

In [59]:
square_dict = {x: x * x for x in range(5)}
print(square_dict)

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}


* 키: `range(5)`의 항목들, 즉, 0, 1, 2, 3, 4
* 키값: 키의 제곱, 즉, 각각 0, 1, 4, 9, 16

#### 다중 조건제시법

조건제시법에 `for ... in ...` 문을 중첩해서 사용할 수 있다.

In [60]:
pairs = [(x, y)
         for x in range(10)
         for y in range(10)]

`pairs`는 아래 집합에 대응한다.

$$\{(x, y) \mid 0 \le x, y < 10 \text{ 이고 } x, y \text{는 정수} \}$$

따라서 `pairs`에는 총 100개의 순서쌍이 들어 있다. 
첫 10개의 항목을 확인해보자.

In [61]:
pairs[:10]

[(0, 0),
 (0, 1),
 (0, 2),
 (0, 3),
 (0, 4),
 (0, 5),
 (0, 6),
 (0, 7),
 (0, 8),
 (0, 9)]

마지막 10개를 확인해보자.

In [62]:
pairs[-10:]

[(9, 0),
 (9, 1),
 (9, 2),
 (9, 3),
 (9, 4),
 (9, 5),
 (9, 6),
 (9, 7),
 (9, 8),
 (9, 9)]

`pairs`를 이중 `for ... in ...` 문을 이용하여 작성하면 다음과 같다.

In [63]:
pairs = []

for x in range(10):
    for y in range(10):
        pairs.append((x,y))

In [64]:
pairs[:10]

[(0, 0),
 (0, 1),
 (0, 2),
 (0, 3),
 (0, 4),
 (0, 5),
 (0, 6),
 (0, 7),
 (0, 8),
 (0, 9)]

In [65]:
pairs[-10:]

[(9, 0),
 (9, 1),
 (9, 2),
 (9, 3),
 (9, 4),
 (9, 5),
 (9, 6),
 (9, 7),
 (9, 8),
 (9, 9)]

**주의:** 리스트 조건제시법 정의가 훨씬 간편하다.

### 소극적(lazy) 계산과 적극적(eager) 계산

`range` 처럼 모든 값을 미리 생성해서 준비해 놓는 대신에 필요할 때 필요한 항목을 생성하는 함수를 
소극적 함수(lazy function)이라 부른다.

**주의:** 파이썬에서 정의되는 함수는 실행될 때 기본적으로 적극적으로 값을 생성하며 계산한다.

In [66]:
range10 = range(10)
print(range10)

range(0, 10)


In [67]:
for item in range10:
    print(item)    

0
1
2
3
4
5
6
7
8
9


#### 제너레이터 생성

제너레이터는 `for ... in ...` 반복문 등에 사용되는 일종에 리스트이다.
하지만 리스트와는 달리 항목 전체를 한꺼번에 미리 만들어 놓지 않고
필요할 때마다 차례대로 하나씩 생성해서 전달한다.
즉, 매우 소극적으로 항목들을 생성한다. 

In [68]:
evens_below_20 = (i for i in range(20) if i % 2 == 0)

화면에 출력하고 싶어도 할 수 없다.
제너레이터는 정의만 되어 있을 뿐이며, 아무 것도 생성하지 않았기 때문이다.
즉, 소극적 계산을 지원한다.

In [69]:
print(evens_below_20)

<generator object <genexpr> at 0x7fa0a17210a0>


하지만 `for ... in ...` 반복문을 이용하여 원소들을 확인할 수 있다.

In [70]:
for item in evens_below_20:
    print(item)

0
2
4
6
8
10
12
14
16
18


#### 제너레이터와 `range`

제너레이터는 `range`와 비슷하게 작동한다.
`range`는 제너레이터가 아니다.
제너레이터 여부는 반복해서 사용할 수 있는가이다.

예를 들어, `range10`은 반복해서 사용할 수 있다.

In [71]:
for x in range10:
    print(x)

0
1
2
3
4
5
6
7
8
9


하지만 제너레이터는 한 번만 사용할 수 있다.
왜냐하면 한 번 항목을 모두 생성하면 더 이상 생성하지 않기 때문이다.

예를 들어, `evens_below_20`를 다시 사용해도 아무것도 생성하지 않는다.

In [72]:
for item in evens_below_20:
    print(item)

`evens_below_20`를 다시 사용하려면 새로 생성해야 한다.

In [73]:
evens_below_20 = (i for i in range(20) if i % 2 == 0)

In [74]:
for item in evens_below_20:
    print(item)

0
2
4
6
8
10
12
14
16
18


### 난수 생성

무작위 수를 생성할 필요가 종종 있다.
무작위로 생성된 수를 난수(random number)라 부르며,
난수 생성을 위해 랜덤(`random`) 모듈을 사용할 수 있다.

In [75]:
import random

#### `random` 함수

0과 1 사이의 실수를 무작위로, 하지만 균등하게(uniformly) 선택한다.
여기서 균등성은 한 영역에 치우치지 전 영역에서 골고루 선택함을 의미한다.

In [76]:
[random.random() for _ in range(10)]

[0.13406112777658963,
 0.8352721821586855,
 0.685800127611864,
 0.9088011423194293,
 0.4332519351191704,
 0.8380785664718693,
 0.42780654535355345,
 0.7634320106663584,
 0.9514407610541187,
 0.5131268230340421]

**주의:** 난수 생성이 엄밀히 말하면 완전히 무작위는 아니다. 
모든 컴퓨터 안에 난수표가 있어서 `random` 같은 함수를 실행할 때마다
난수표에서 차례대로 읽어서 보여주는 것에 불과하다.
하지만 우리 인간에게는 무작위적으로 보이며, 실제로 매우 유용하게 활용된다.

#### 시드(`seed`) 함수

코드를 실행할 때 마다 동일한 난수를 얻으려면,
즉, 동일한 환경에서 데이터 분석 실험을 반복하려면 
`seed` 함수를 먼저 실행해야 한다.

간단한게 설명하면, `seed` 함수에 입력된 정수 인자가
난수를 생성하는 기준을 제시한다.
따라서 어떤 환경에서도 `seed` 함수의 입력값이 동일하면 
동일한 난수가 생성된다.

In [77]:
random.seed(10)         # 시드를 10으로 지정
print(random.random())
random.seed(10)       
print(random.random())

0.5714025946899135
0.5714025946899135


시드를 지정하지 않으면 `random` 함수가 매번 다른 값을 생성한다.

In [78]:
print(random.random())

0.4288890546751146


In [79]:
print(random.random())

0.5780913011344704


In [80]:
print(random.random())

0.20609823213950174
